Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

385 байт добавлено, 18:55, 19 января 2021
CRAFTS (2020)
==== Архитектура ====
CRAFTS состоит из трех слоев: слоя детекции, коммуникации и распознавания. Данные, проходя через три этих этапа, на выходе представляют собой готовый end-to-end результат в качестве распознанных слов.
<br clear=all>[[file:CraftsArchitectureFull.png|800px|thumb|left|Архитектура CRAFTS]]<br clear=all>
На этапе детекции CRAFTS использует ResNet50 остаточную сверточную нейронную сеть для первичной обработки изображения. На основе полученного результата определяется направление и границы сначала областей текста, а затем отдельных символов в них. На выходе получается изображение с размеченными областями текста, а внутри них размеченные ориентированные конейнеры с символами. Данные представляются в виде таблицы признаков.
<br clear=all>[[file:CraftsArchitecture2.png|800px|thumb|left|Подробная схема работы слоя детекции]] <br clear=all>
Слой коммуникации принимает таблицу признаков и преобразовывает ее для дальнейшей передачи в слой распознавания. Это происходит в два этапа: сначала очищение текста, потом корректировка признаков.
Полученный результат позволяет составить откорректированную таблицу признаков, ориентированную посимвольно (на каждый символ устанавливается точка внимания). Этот этап является ключевым по двум причинам. Во-первых, скорректированная таблица сама по себе облегчает работу рекогнайзеру, что значительно повышает его эффективность. Во-вторых, на данном этапе через откорректированную таблицу слой детекции и слой распознавания становятся зависимыми друг от друга. Это позволяет ошибке распознавания повлиять на работу слоя детекции. Такая связь оказывает внушительное влияние на качество обучения и, как следствие, на качество модели.
<br clear=all>[[file:CraftsLossFlow.png|800px|thumb|left|Диаграмма распространения ошибки в CRAFTS]]<br clear=all>
Процесс распознавания состоит из трех частей: извлечение признаков, моделирование последовательности и непосредственно распознавание. Успех этапа распознавания во многом зависит от правильно расставленных точек внимания. Если они смещены или утеряны, то корректное распознавание практически невозможно.
<br clear=all>[[file:CraftsRecognition.png|400px|thumb|left|Архитектура слоя распознавания]] <br clear=all>
==== Точность ====
TotalText:
94
правки

Навигация