Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

108 байт добавлено, 23:22, 19 января 2021
Нет описания правки
[[file:tfn_arch.png|800px|left|thumb|Архитектура TextFuseNet]]
<br clear=all>
Общая архитектура TextFuseNet представлена выше. Для получения глобального представления используется семантическая сегментация. Далее, с помощью Mask R-CNN <ref name="rcnn"/> в ветвях Detection и Mask определяются признаки на буквенном и словесном уровнях. Для слияния уровней используется модуль multi-path fusion (представлено снизу), что позволяет TextFuseNet изучать более дифференцированное представление и выдавать более точные результаты детекции текста.
<br clear=all>
[[file:tfn_mpf.png|500px|left|thumb|Работа модуля multi-path fusion]]
==== Архитектура ====
PolyPRNet использует двухступенчатую структуру на основе R-CNN<ref name="rcnn"/>. Схема архитектуры представлена ниже.На первой стадии используется ResNet50 и Feature Pyramid Network (FPN), чтобы получить карты признаков из исходного изображения. Далее используется сеть RPN для формирования набора предложенных областей текста. На второй стадии используется модуль R-CNN <ref name="rcnn"/> с ветками регрессии границы (bounding box regression) и классификации, чтобы точнее локализовать предложенные области. Так же используется модуль Polynomialbased shape Parameter Regression (PPR), чтобы вывести форму и направление потенциального текстового кандидата.
<br clear=all>
[[file:Pprnet arch.png|800px|left|thumb|Архитектура PolyPRNet]]
=== Mask TextSpotter (2018) ===
==== Краткое описание и особенности ====
Mask TextSpotter является одной из первых E2E моделей, тренированных на датасете TotalText. Она не была призвана распознавать именно изогнутый текст, но отличительной чертой модели Mask TextSpotter являлось как раз то, что она сравнительно неплохо с ним справлялась. Разработчики Mask TextSpotter применили недавно опубликованную нейронную сеть с архитектурой Mask R-CNN <ref name="rcnn"/> для выделения контуров объектов на изображении, которая и позволила сделать шаг вперед в распознавании изогнутого текста.
==== Архитектура ====
Для первичной обработки изображения Mask TextSpotter использует ResNet50 остаточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]].
Затем над изображением работает RPN нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNN <ref name="rcnn"/> нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN, Fast R-CNN <ref name="rcnn"/> лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результата.
<br clear=all>
[[file:ArchitectureMaskTextSpotter.png|800px|left|thumb|Архитектура Mask TextSpotter]]
94
правки

Навигация