Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

51 байт добавлено, 13:54, 21 января 2021
Архитектура
Для первичной обработки изображения Mask TextSpotter использует ResNet50<ref name="resnet"/> остаточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]].
Затем над изображением работает RPN <ref name="rpn"/> нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN <ref name="rpn"/> может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNN<ref name="rcnn"/> нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN<ref name="rpn"/>, Fast R-CNN<ref name="rcnn"/> лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результата. Примерная визуализация архитектуры представлена ниже (см. Рисунок 15).
<br clear=all>
[[file:ArchitectureMaskTextSpotter.png|800px|left|thumb|Рисунок 15 {{---}} Архитектура Mask TextSpotter]]
238
правок

Навигация