238
правок
Изменения
→Общие данные
! Модель !! Особенности !! Использованные методы
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''TextSnake(2018)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Представление области текста с помощью центральной линии и множества дисков.</p>[[Файл:Ts textreg.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;">FCN<ref name="fcn"/> + FPN<ref name="fpn"/></p>
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''TextFuseNet(2020)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Выделение признаков на глобальном, словесном и символьном уровнях. Представление области текста с помощью маски.</p>[[Файл:Tfn textreg.png|300px|center]]
| style="width: 400px;" |<p style="text-align:center;">ResNet50<ref name="resnet"/> + FPN<ref name="fpn"/> + Mask R-CNN<ref name="rcnn"/></p>
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''PolyPRNet(2020)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Представление текста с помощью скелета из полиномиальной центральной линии и линий широты.</p>[[Файл:Polyprn textreg.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;">ResNet50<ref name="resnet"/> + FPN<ref name="fpn"/> + RPN<ref name="rpn"/> + R-CNN<ref name="rcnn"/></p>
! Модель !! Особенности !! Использованные методы
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''Mask TextSpotter(2018)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Одна из первых моделей, способных определить и распознать изогнутый текст. Представление области текста с помощью маски.</p>[[Файл:Mts_textreg.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;">ResNet50<ref name="resnet"/> + RPN<ref name="rpn"/> + Fast R-CNN<ref name="rcnn"/></p>
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''CRAFTS(2020)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Состоит из трех слоев: детекции, коммуникации и распознавания. Слой коммуникации связывает слой детекции и распознавания и позволяет ошибке распознавания распространиться до слоя детекции. Текст представляется в трех видах: границы областей текста, границы символов и ориентированные границы символов.</p>[[Файл:CraftsText.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;">ResNet50<ref name="resnet"/></p>
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''TextPerceptron(2020)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Shape Transform Module, использующий для выпрямления доверительные точки на границах текстовых областей. Взаимодействие модулей друг с другом в обе стороны.</p>[[Файл:Textperc textreg.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;"> ResNet50<ref name="resnet"/> + FPN<ref name="fpn"/></p>
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''Boundary(2020)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Нанесение граничных точек при представлении текста. Использование граничных точек для выпрямления.</p>[[Файл:Boundary.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;">ResNet50<ref name="resnet"/> + FPN<ref name="fpn"/> + RPN<ref name="rpn"/> + CRNN<ref name="crnn"/></p>
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''MANGO(2021)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Однослойная архитектура, сочетающая детекцию и распознавание. Элементы распознавания частично присутствуют уже на этапе детекции. На этапе распознавания остался лишь легковесный инструмент вместо полноценного слоя.</p>
| style="width: 400px;" | <p style="text-align:center;">ResNet50<ref name="resnet"/> + FPN<ref name="fpn"/></p>
! Модель !! Особенности !! Использованные методы
|-
| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''ESIR (2018)'''</p>| style="width: 400px;" | <p style="text-align:center;">Представление области текста с помощью скелета из полиномиальной центральной линии и дополнительных параметров (высота, ориентация). Итеративное выпрямление текста на основе просчитанных параметров.</p>[[Файл:Esir line.png|300px|center]]| style="width: 400px;" | <p style="text-align:center;">ResNet53<ref name="resnet"/> + [[:Долгая_краткосрочная_память|BiLSTM]]</p>|-| style="background:#eaecf0;width:100px" | <p style="text-align:center;">'''MORAN(2019)'''</p>
| style="width: 400px;" | <p style="text-align:center;">Разбиение изображения на части, определение смещения каждой части изображения. Выпрямление изображения на основе предсказанных смещений.</p>[[Файл:Moran morn.png|300px|center]]
| style="width: 400px;" | <p style="text-align:center;">[[:Сверточные_нейронные_сети|CNN]] + [[:Долгая_краткосрочная_память|BiLSTM]] + GRU<ref name="gru"/></p>
|-
|}
<br>
=== Результаты ===
{| class="wikitable"