238
правок
Изменения
→ESIR (2018)
*CUTE80: 77.4%
=== ESIR : End-to-end Scene Text Recognition via Iterative Image Rectification (2018) ======= Краткое описание и особенности ====ESIR использует итеративное выпрямление изображения, которое исправляет искажения, связанные с перспективой и кривизной. Для этого моделируется средняя линия текста с помощью полиномов. В дополнение, определяются направление и высота области текста на множестве сегментов линии. Среднюю линию с дополнительными параметрами назовём "повторяющей линией". Представление линии: <math>y = a_K ∗ x^K + a_{K−1} ∗ x^{K−1} + ... + a_1 ∗ x + a_0</math>, где <math>K</math> - степень полинома. Дополнительные параметры представлены в виде линии: <math>y = b_{1,l} ∗ x + b_{0,l} | r_l, l = 1, 2, ... , L</math>, где <math>L</math> - количество линий. [[Файл:Esir line.png|300px|thumb|left|"Повторяющая линия"]]<br clear=all> ==== Архитектура ====ESIR состоит из двух частей:[[file:Eris loc.png|300px|thumb|right|Сеть локализации]]*Iterative Rectification Network (сеть итеративного выравнивания). Сеть выравнивания итеративно регрессирует для просчёта параметров повторяющей линии, используя сеть локализации вместе со свёртками изображений, как показано на схеме ниже. Детальная структура сети локализации представлена в таблице.[[Файл:Esir arch.png|800px|thumb|left|Iterative Rectification Network]]<br clear=all>*Recognition Network (сеть распознавания). Используется sequence-to-sequence модель с механизмом внимания. Система состоит из кодера и декодера. В кодировщик поступает выпрямленное изображение текста размером 32x100 пикселей. Используется 53-слойная остаточная сеть для извлечения признаков, за остаточной сетью следует два слоя BLSTM. Декодер использует LuongAttention механизм, состоящий из 2-слойных LSTM внимания. На этапе вывода используется beam search. ==== Точность ====F-мера:*ICDAR'15: 76.9%*CUTE80: 83.3%
== Модели end-to-end ==