94
правки
Изменения
Абзац про CRAFTS дописан
=== CRAFTS (2020) ===
CRAFTS {{---}} это полноценный end-to-end фреймворк, способный не только к детекции, но и к распознаванию. Его часть, отвечающая за детекцию, показывает наилучшие результаты, так же, как и часть, отвечающая за распознавание без словаря.
==== Архитектура ====
CRAFTS использует ResNet50 остаточную сверточную нейронную сеть для первичного состоит из трех слоев: слоя детекции, коммуникации и распознавания изображения. На основе полученного результата определяется направление и границы сначала областей текстаДанные, проходя через три этих этапа, а затем отдельных символов на выходе представляют собой готовый end-to-end результат в нихкачестве распознанных слов.
[[file:CraftsArchitecture1CraftsArchitectureFull.png|800px]] Для детекции CRAFTS использует ResNet50 остаточную сверточную нейронную сеть для первичной обработки изображения. На основе полученного результата определяется направление и границы сначала областей текста, а затем отдельных символов в них. На выходе получается изображение с размеченными областями текста, а внутри них размеченные ориентированные конейнеры с символами. Данные представляются в виде таблицы признаков.
[[file:CraftsArchitecture2.png|800px]]
Слой коммуникации принимает таблицу признаков и преобразовывает ее для дальнейшей передачи в слой распознавания. Это происходит в два этапа: сначала очищение текста, потом корректировка признаков.
Очищение текста по сути своей является корректировкой символьных полигонов. Они выпрямляются и сглаживаются, обтекая символы. Эти преобразования происходят в три этапа трансформации сплайнов с малой шириной. Для трансформации используется 20 контрольных точек. Также на этом этапе при необходимости применяется 2D-полиномиальное сглаживание для достижения еще более точной формы полигона.
Полученный результат позволяет составить откорректированную таблицу признаков, ориентированную посимвольно (на каждый символ устанавливается точка внимания). Этот этап является ключевым по двум причинам. Во-первых, скорректированная таблица сама по себе облегчает работу рекогнайзеру, что значительно повышает его эффективность. Во-вторых, на данном этапе через откорректированную таблицу слой детекции и слой распознавания становятся зависимыми друг от друга. Это позволяет ошибке распознавания повлиять на работу слоя детекции. Такая связь оказывает внушительное влияние на качество обучения и, как следствие, на качество модели.
[[file:CraftsLossFlow.png|800px]]
Процесс распознавания состоит из трех частей: извлечение признаков, моделирование последовательности и непосредственно распознавание. Успех этапа распознавания во многом зависит от правильно расставленных точек внимания. Если они смещены или утеряны, то корректное распознавание практически невозможно.
[[file:CraftsRecognition.png|400px]]
==== Точность ====
TotalText:*F-мерадетекции:87.4*TotalTextF-мера E2E без словаря: 8778.47