94
правки
Изменения
Добавлен абзац про Mask TextSpotter
=== Mask TextSpotter (2018) ===
==== Краткое описание и особенности ====
Mask TextSpotter является одной из первых E2E моделей, тренированных на датасете TotalText. Она не была призвана распознавать именно изогнутый текст, но отличительной чертой модели Mask TextSpotter являлось как раз то, что она сравнительно неплохо с ним справлялась. Разработчики Mask TextSpotter применили недавно опубликованную нейронную сеть с архитектурой Mask R-CNN для выделения контуров объектов на изображении, которая и позволила сделать шаг вперед в распознавании изогнутого текста.
==== Архитектура ====
Для первичной обработки изображения Mask TextSpotter использует ResNet50 остаточную сверточную нейронную сеть.
Затем над изображением работает RPN нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNN нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN, Fast R-CNN лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результата.
[[file:ArchitectureMaskTextSpotter.png|800px]]
==== Точность ====
TotalText:
*F-мера детекции: 61.3
*F-мера E2E без словаря: 52.9
*F-мера E2E со словарем: 71.8