94
правки
Изменения
Нет описания правки
== Модели для распознавания ==
Распознающие текст модели в качестве входных данных принимают изображение, где должна находиться одна строка текста. Точность распознавания этих моделей тестировалась на наборах данных, где за эталон принимается прямоугольная окружающая рамка (например, CUTE80<ref name="cute"/>, ICDAR'15<ref name="icdar15">[https://rrc.cvc.uab.es/files/Robust-Reading-Competition-Karatzas.pdf D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V. Ramaseshan Chandrasekhar, S. Lu, F. Shafait, S. Uchida, E. Valveny, "ICDAR 2015 Competition on Robust Reading"]</ref>).
<br>
=== ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification (2018) ===
ESIR использует итеративное выпрямление изображения, которое исправляет искажения, связанные с перспективой и кривизной. Для этого моделируется средняя линия текста с помощью полиномов. В дополнение, определяются направление и высота области текста на множестве сегментов линии. Среднюю линию с дополнительными параметрами назовём "повторяющей линией".
<br clear=all>
*Recognition Network (сеть распознавания). Используется sequence-to-sequence модель с механизмом внимания. Система состоит из кодера и декодера. В кодировщик поступает выпрямленное изображение текста размером 32x100 пикселей. Используется 53-слойная остаточная сеть для извлечения признаков, за остаточной сетью следует два слоя BLSTM. Декодер использует LuongAttention механизм, состоящий из 2-слойных LSTM внимания. На этапе вывода используется beam search.
==== Точность ====
*ICDAR'15<ref name="icdar15"/>: 76.9%
*CUTE80<ref name="cute"/>: 83.3%
<br clear=all>
=== MORAN: A Multi-Object Rectified Attention Network (2019) ===
[[Файл:Moran morn.png|thumb|left|200px|Схема выпрямления]]
Текст на изображениях часто оказывается не просто изогнут, а деформирован разными способами и в нескольких направлениях (например, изогнутый текст + перспектива). Это учитывалось при разработке выпрямляющего модуля MORAN, что и является отличительной особенностью этой модели.
<br clear=all>
==== Архитектура ====
[[Файл:Moran arch.png|600px|thumb|right|Архитектура MORAN]]
MORAN состоит из двух частей: MORN (Multi-Object Rectification Network) и ASRN (Attention-based Sequence Recognition Network):
*MORN отвечает за выпрямление. Архитектура MORN представлена в таблице ниже. За каждым (за исключением последнего) свёрточным слоем следует слой [[:Batch-normalization|батчевой нормализации]] и слой [[:Практики_реализации_нейронных_сетей#:~:text=Функция%20ReLU%5Bправить%5D,аргумента%2C%20функция%20возвращает%20само%20число|ReLU]]. MORN делит изображение на несколько частей, после чего предсказывает смещение для каждой части. Предсказанное смещение используется для выпрямления.
[[Файл:Moran morn arch.png|250px|thumb|left|Архитектура MORN]]
<br clear=all>
*ASRN отвечает за распознавание. Архитектура ASRN представлена в таблице ниже. Основной структурой ASRN является фреймворк CNN-BLSTM. В верхних слоях CRNN применяется одномерный механизм внимания. Далее используется attention-based декодер (GRU), основанный на RNN.
[[Файл:Moran asrn arch.png|250px|thumb|left|Архитектура ASRN]]
<br clear=all>
==== Точность ====
[[:Оценка_качества_в_задачах_классификации|F-мера]]:
*ICDAR'15<ref name="icdar15"/>: 68.8%
*CUTE80<ref name="cute"/>: 77.4%
== Модели end-to-end ==