238
правок
Изменения
→ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification (2018)
Статья о модели доступна по [https://arxiv.org/pdf/1812.05824.pdf ссылке].
[[Файл:Esir line.png|300px|thumb|left|Рисунок 8 {{---}} [https://arxiv.org/pdf/1812.05824.pdf "Повторяющая линия"]]]
<br clear=all>
==== Архитектура ====
ESIR состоит из двух частей:
[[file:Eris loc.png|300px|thumb|right|Рисунок 9 {{---}} [https://arxiv.org/pdf/1812.05824.pdf Сеть локализации]]]
*Iterative Rectification Network (сеть итеративного выравнивания) (см. Рисунок 9). Сначала просчитываются параметры повторяющей линии, для чего используется сеть локализации вместе со свёртками изображений. После, основываясь на полученных параметрах, изображение выравнивается, и снова передаётся в сеть выравнивания. Этот процесс повторяется до тех пор, пока не будет достигнуто заранее установленное количество итераций. На схеме ниже (см. Рисунок 9) представлена общая схема работы Iterative Rectification Network. Детальная структура сети локализации представлена в таблице (см. Рисунок 10).
[[Файл:Esir arch.png|800px|thumb|left|Рисунок 10 {{---}} [https://arxiv.org/pdf/1812.05824.pdf Iterative Rectification Network]]]
<br clear=all>
*Recognition Network (сеть распознавания). Используется sequence-to-sequence модель с механизмом внимания. Система состоит из кодера и декодера. В кодировщик поступает выпрямленное изображение текста размером 32x100 пикселей. Используется 53-слойная остаточная сеть для извлечения признаков, за остаточной сетью следует два слоя двунаправленной [[:Долгая_краткосрочная_память|LSTM]]. Декодер использует LuongAttention<ref name="luong">[https://arxiv.org/pdf/1508.04025.pdf Minh-Thang Luong, Hieu Pham, and Christopher D. Manning, "Effective approaches to attention-based neural machine translation" (2015)]</ref> механизм. На этапе вывода используется beam search.