Изменения

Распознавание изогнутого текста

4083 байта добавлено, 21:52, 18 января 2021

Абзац про MANGO написан

==== Краткое описание и особенности ====

MANGO {{---}} один из самых удачных end-to-end фреймворков. Вероятно, такого успеха его авторы добились благодаря необычной для таких моделей внутренней архитектуре. Обычно E2E модели работают в два этапа: детекция и распознавание. Слой детекции выделяет и выпрямляет области текста, которые затем передаются в слой распознавания. Такой подход вызывает трудности в обучении, так как результат распознавания сильно зависит от результата детекции, но обучать два этих слоя одновременно и взаимно - сложная задача. Ученые ищут способы решения этой проблемы. Разработчики MANGO отказались от подобной архитектуры и делегировали обе задачи одному единственному слою. Именно поэтому MANGO не возможно протестировать на качество детекции - в этой модели этап детекции неразделим с этапом распознавания. MANGO является одним из первооткрывателей такой архитектуры и доказывает, что она не просто жизнеспособна, но и весьма успешна.

==== Архитектура ====

Итак, MANGO имеет однослойную архитектуру. Но это вовсе не значит, что работу этой модели нельзя разделить на этапы. В действительности MANGO, как и другие модели, не может выполнить сразу оба этапа каким-то одним инструментом. MANGO все еще разделяет свою работу на детекцию и распознавание. Особенность этой модели в том, что данные спустя этап детекции имеют такой вид, что рекогнайзер представляет собой легковесный инструмент. В действительности этап детекции в MANGO уже включает в себя элементы распознавания. Разберемся как это происходит.

На вход рекогназеру подается так называемая позиционно-ориентированная маска внимания. Она представляет собой конкатенацию двух других масок: маски областей текста и многослойной маски точек внимания символов. Каждый слой маски символов сопоставлен с соответствующим слоем маски областей текста. Данные, представленные в таком виде (особенно важно сопоставление между двумя масками), сильно облегчает рекогнайзеру работу (выполняя часть этой работы за него), и рекогнайзер превращается в легковесный инструмент и перестает быть отдельным слоем.

Первоначальная обработка изображения происходит с помощью ResNet50 остаточной сверточной нейронной сети.

[[file:WorkflowOfMANGO.png|800px]]

==== Точность ====

F-мера:

*Total-Text (E2E, без словаря): 72.9%

*Total-Text (E2E, со словарём): 83.6%

*CTW1500 (E2E, без словаря): 58.9%

*CTW1500 (E2E, со словарём): 78.7%

=== TextPerceptron (2020) ===

KingKongWukong

94

правки

Изменения

Распознавание изогнутого текста

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты