238
правок
Изменения
→CRAFTS (2020)
CRAFTS состоит из трех слоев: слоя детекции, коммуникации и распознавания. Данные, проходя через три этих этапа, на выходе представляют собой готовый end-to-end результат в качестве распознанных слов (см. Рисунок 16).
<br clear=all>
[[file:CraftsArchitectureFull.png|800px|thumb|left|Рисунок 16 {{---}} [https://arxiv.org/pdf/2007.09629.pdf Архитектура CRAFTS]]]
<br clear=all>
На этапе детекции CRAFTS использует ResNet50<ref name="resnet"/> остаточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]] для первичной обработки изображения. На основе полученного результата определяется направление и границы сначала областей текста, а затем отдельных символов в них. На выходе получается изображение с размеченными областями текста, а внутри них размеченные ориентированные конейнеры с символами (см. Рисунок 17). Данные представляются в виде таблицы признаков.
<br clear=all>
[[file:CraftsArchitecture2.png|800px|thumb|left|Рисунок 17 {{---}} [https://arxiv.org/pdf/2007.09629.pdf Подробная схема работы слоя детекции]]]
<br clear=all>
Слой коммуникации принимает таблицу признаков, сгенерированную на этапе детекции, и преобразовывает ее для дальнейшей передачи в слой распознавания. Это происходит в два этапа: сначала очищение текста, потом корректировка признаков.
После очищения текста производится корректировка признаков: на каждый символ устанавливается точка внимания. Этот этап является ключевым по двум причинам. Во-первых, скорректированная таблица сама по себе облегчает работу слою распознавания, что значительно повышает его эффективность. Во-вторых, на данном этапе через откорректированную таблицу слой детекции и слой распознавания становятся зависимыми друг от друга. Это позволяет ошибке распознавания повлиять на работу слоя детекции (см. Рисунок 18). Такая связь оказывает внушительное влияние на качество обучения и, как следствие, на качество модели.
<br clear=all>
[[file:CraftsLossFlow.png|800px|thumb|left|Рисунок 18 {{---}} [https://arxiv.org/pdf/2007.09629.pdf Диаграмма распространения ошибки в CRAFTS]]]
<br clear=all>
Процесс распознавания состоит из трех частей: извлечение признаков, моделирование последовательности и непосредственно распознавание (см. Рисунок 19). Успех этапа распознавания во многом зависит от правильно расставленных точек внимания. Если они смещены или утеряны, то корректное распознавание практически невозможно.
<br clear=all>
[[file:CraftsRecognition.png|400px|thumb|left|Рисунок 19 {{---}} [https://arxiv.org/pdf/2007.09629.pdf Архитектура слоя распознавания]]]
<br clear=all>