94
правки
Изменения
→ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification (2018)
<br>
=== ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification (2018) ===
ESIR использует итеративное выпрямление изображения, которое исправляет искажения, связанные с перспективой и кривизной. Для этого моделируется средняя линия текста с помощью полиномов. В дополнение, определяются направление и высота области текста на множестве сегментов линии. Среднюю линию с дополнительными параметрами назовём "повторяющей линией"(см. Рисунок 8).
Представление центральной линии: <math>y = a_K ∗ x^K + a_{K−1} ∗ x^{K−1} + ... + a_1 ∗ x + a_0</math>, где <math>K</math> {{---}} степень полинома.
Дополнительные параметры представлены в виде линии: <math>y = b_{1,l} ∗ x + b_{0,l} | r_l, l = 1, 2, ... , L</math>, где <math>L</math> {{---}} количество линий.
[[Файл:Esir line.png|300px|thumb|left|Рисунок 8 {{---}} "Повторяющая линия"]]
<br clear=all>
==== Архитектура ====
ESIR состоит из двух частей:
[[file:Eris loc.png|300px|thumb|right|Рисунок 9 {{---}} Сеть локализации]]*Iterative Rectification Network (сеть итеративного выравнивания) (см. Рисунок 9). Сеть выравнивания итеративно регрессирует для просчёта параметров повторяющей линии, используя сеть локализации вместе со свёртками изображений, как показано на схеме ниже. Детальная структура сети локализации представлена в таблице(см. Рисунок 10).[[Файл:Esir arch.png|800px|thumb|left|Рисунок 10 {{---}} Iterative Rectification Network]]
<br clear=all>
*Recognition Network (сеть распознавания). Используется sequence-to-sequence модель с механизмом внимания. Система состоит из кодера и декодера. В кодировщик поступает выпрямленное изображение текста размером 32x100 пикселей. Используется 53-слойная остаточная сеть для извлечения признаков, за остаточной сетью следует два слоя BLSTM. Декодер использует LuongAttention механизм, состоящий из 2-слойных LSTM внимания. На этапе вывода используется beam search.