Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

206 байт добавлено, 23:17, 20 января 2021
TextPerceptron (2020)
=== TextPerceptron (2020) ===
Text Perceptron {{---}} это E2E модель, состоящая из трёх частей: модуль детекции, Shape Transform Module (STM, "модуль трансформации формы") и модуль распознавания текста. Модуль детекции описывает текстовую область с помощью четырёх субобластей: центр, начало, конец и вертикальная (верх/низ) область(см. Рисунок 20). Это сделано для упрощения определения направления чтения. STM необходим для устранения несовместимости между модулем детекции и модулем распознавания. Модуль распознавания генерирует итоговую символьную последовательность. Каждый этап может влиять на предшествующий ему этап, сигнализируя соответствующему модулю о необходимости дополнительной настройки.
<br clear=all>
[[Файл:Tperc sch.png|500px|thumb|left|Рисунок 20 {{---}} Схема работы TextPerceptron]]
<br clear=all>
==== Архитектура: ====
Детектор текста использует ResNet<ref name="resnet"/> и FPN<ref name="fpn"/> как основу, и реализуется путем одновременного изучения трех задач: многоклассовой семантической сегментации с учетом порядка, регрессии угла и регрессии смещения границ. STM отвечает за объединение детекции и распознания. Для этого STM генерирует доверительные точки и настраивает их позиции, на основе чего "выпрямляет" текст с помощью TPS (Thin-plate splines) для дальнейшего распознавания. В модуле распознавания может использоваться любой sequence-based метод. Примерная визуализация архитектуры представлена ниже (см. Рисунок 21).
<br clear=all>
[[file:Tperc arch.png|800px|left|thumb|Рисунок 21 {{---}} Архитектура TextPerceptron]]
<br clear=all>
94
правки

Навигация