Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

20 байт добавлено, 19:29, 20 января 2021
Архитектура
==== Архитектура ====
Для первичной обработки изображения Mask TextSpotter использует ResNet50 <ref name="resnet"/> остаточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]].
Затем над изображением работает RPN нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNN<ref name="rcnn"/> нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN, Fast R-CNN<ref name="rcnn"/> лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результата.
238
правок

Навигация