Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

208 байт добавлено, 23:14, 20 января 2021
CRAFTS (2020)
==== Архитектура ====
CRAFTS состоит из трех слоев: слоя детекции, коммуникации и распознавания. Данные, проходя через три этих этапа, на выходе представляют собой готовый end-to-end результат в качестве распознанных слов(см. Рисунок 16).
<br clear=all>
[[file:CraftsArchitectureFull.png|800px|thumb|left|Рисунок 16 {{---}} Архитектура CRAFTS]]
<br clear=all>
На этапе детекции CRAFTS использует ResNet50<ref name="resnet"/> остаточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]] для первичной обработки изображения. На основе полученного результата определяется направление и границы сначала областей текста, а затем отдельных символов в них. На выходе получается изображение с размеченными областями текста, а внутри них размеченные ориентированные конейнеры с символами(см. Рисунок 17). Данные представляются в виде таблицы признаков.
<br clear=all>
[[file:CraftsArchitecture2.png|800px|thumb|left|Рисунок 17 {{---}} Подробная схема работы слоя детекции]]
<br clear=all>
Слой коммуникации принимает таблицу признаков, сгенерированную на этапе детекции, и преобразовывает ее для дальнейшей передачи в слой распознавания. Это происходит в два этапа: сначала очищение текста, потом корректировка признаков.
Очищение текста по сути своей является корректировкой символьных полигонов. Они выпрямляются и сглаживаются, обтекая символы. Эти преобразования происходят в три этапа трансформации сплайнов с малой шириной. Для трансформации используется 20 контрольных точек. Также на этом этапе при необходимости применяется 2D-полиномиальное сглаживание для достижения еще более точной формы полигона.
После очищения текста производится корректировка признаков: на каждый символ устанавливается точка внимания. Этот этап является ключевым по двум причинам. Во-первых, скорректированная таблица сама по себе облегчает работу слою распознавания, что значительно повышает его эффективность. Во-вторых, на данном этапе через откорректированную таблицу слой детекции и слой распознавания становятся зависимыми друг от друга. Это позволяет ошибке распознавания повлиять на работу слоя детекции(см. Рисунок 18). Такая связь оказывает внушительное влияние на качество обучения и, как следствие, на качество модели.
<br clear=all>
[[file:CraftsLossFlow.png|800px|thumb|left|Рисунок 18 {{---}} Диаграмма распространения ошибки в CRAFTS]]
<br clear=all>
Процесс распознавания состоит из трех частей: извлечение признаков, моделирование последовательности и непосредственно распознавание(см. Рисунок 19). Успех этапа распознавания во многом зависит от правильно расставленных точек внимания. Если они смещены или утеряны, то корректное распознавание практически невозможно.
<br clear=all>
[[file:CraftsRecognition.png|400px|thumb|left|Рисунок 19 {{---}} Архитектура слоя распознавания]]
<br clear=all>
94
правки

Навигация