Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

216 байт добавлено, 22:06, 19 января 2021
Нет описания правки
==== Архитектура ====
TextSnake использует сверточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]], подробная архитектура которой представлена на изображении:
<br clear=all>
[[file:TextSnakeArchitecture.png|500px|left|thumb|Архитектура TextSnake]]
[[file:CraftsArchitectureFull.png|800px|thumb|left|Архитектура CRAFTS]]
<br clear=all>
На этапе детекции CRAFTS использует ResNet50 остаточную сверточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть ]] для первичной обработки изображения. На основе полученного результата определяется направление и границы сначала областей текста, а затем отдельных символов в них. На выходе получается изображение с размеченными областями текста, а внутри них размеченные ориентированные конейнеры с символами. Данные представляются в виде таблицы признаков.
<br clear=all>
[[file:CraftsArchitecture2.png|800px|thumb|left|Подробная схема работы слоя детекции]]
На вход рекогнайзеру подается так называемая позиционно-ориентированная маска внимания. Она представляет собой конкатенацию двух других масок: маски областей текста и многослойной маски точек внимания символов. Каждый слой маски символов сопоставлен с соответствующим слоем маски областей текста. Данные, представленные в таком виде (особенно важно сопоставление между двумя масками), сильно облегчают рекогнайзеру работу (выполняя часть этой работы за него). Тем самым рекогнайзер превращается в легковесный инструмент и перестает быть отдельным слоем.
Первоначальная обработка изображения происходит с помощью ResNet50 остаточной сверточной [[:Сверточные_нейронные_сети|свёрточной нейронной сети]].
<br clear=all>
[[file:WorkflowOfMANGO.png|800px|left|thumb|Архитектура MANGO]]
==== Архитектура ====
Для первичной обработки изображения Mask TextSpotter использует ResNet50 остаточную сверточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]].
Затем над изображением работает RPN нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNN нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN, Fast R-CNN лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результата.
94
правки

Навигация