Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

542 байта добавлено, 14:59, 21 января 2021
Архитектура
ESIR состоит из двух частей:
[[file:Eris loc.png|300px|thumb|right|Рисунок 9 {{---}} Сеть локализации]]
*Iterative Rectification Network (сеть итеративного выравнивания) (см. Рисунок 9). Сеть выравнивания итеративно регрессирует для просчёта параметров Сначала просчитываются параметры повторяющей линии, используя для чего используется сеть локализации вместе со свёртками изображений. После, как показано основываясь на полученных параметрах, изображение выравнивается, и снова передаётся в сеть выравнивания. Этот процесс повторяется до тех пор, пока не будет достигнуто заранее установленное количество итераций. На схеме ниже(см. Рисунок 9) представлена общая схема работы Iterative Rectification Network. Детальная структура сети локализации представлена в таблице (см. Рисунок 10).
[[Файл:Esir arch.png|800px|thumb|left|Рисунок 10 {{---}} Iterative Rectification Network]]
<br clear=all>
*Recognition Network (сеть распознавания). Используется sequence-to-sequence модель с механизмом внимания. Система состоит из кодера и декодера. В кодировщик поступает выпрямленное изображение текста размером 32x100 пикселей. Используется 53-слойная остаточная сеть для извлечения признаков, за остаточной сетью следует два слоя BLSTMдвунаправленной [[:Долгая_краткосрочная_память|LSTM]]. Декодер использует LuongAttention механизм, состоящий из 2-слойных LSTM внимания. На этапе вывода используется beam search.
==== Точность ====
238
правок

Навигация