Изменения

Распознавание изогнутого текста

2 байта убрано, 21:15, 20 января 2021

Нет описания правки

== Модели для распознавания ==

Распознающие текст модели в качестве входных данных принимают изображение, где должна находиться одна строка текста. Точность распознавания этих моделей тестировалась на наборах данных, где за эталон принимается прямоугольная окружающая рамка (например, CUTE80<ref name="cute"/>, ICDAR'15<ref name="icdar15">[https://rrc.cvc.uab.es/files/Robust-Reading-Competition-Karatzas.pdf D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V. Ramaseshan Chandrasekhar, S. Lu, F. Shafait, S. Uchida, E. Valveny, "ICDAR 2015 Competition on Robust Reading"]</ref>).

~~=== MORAN: A Multi-Object Rectified Attention Network (2019) ===~~

~~[[Файл:Moran morn.png|thumb|left|200px|Схема выпрямления]]~~

Текст на изображениях часто оказывается не просто изогнут, а деформирован разными способами и в нескольких направлениях (например, изогнутый текст + перспектива). Это учитывалось при разработке выпрямляющего модуля MORAN, что и является отличительной особенностью этой модели.

~~ ~~

~~==== Архитектура ====~~

~~[[Файл:Moran arch.png|600px|thumb|right|Архитектура MORAN]]~~

~~MORAN состоит из двух частей: MORN (Multi-Object Rectification Network) и ASRN (Attention-based Sequence Recognition Network):~~

*MORN отвечает за выпрямление. Архитектура MORN представлена в таблице ниже. За каждым (за исключением последнего) свёрточным слоем следует слой [[:Batch-normalization|батчевой нормализации]] и слой [[:Практики_реализации_нейронных_сетей#:~:text=Функция%20ReLU%5Bправить%5D,аргумента%2C%20функция%20возвращает%20само%20число|ReLU]]. MORN делит изображение на несколько частей, после чего предсказывает смещение для каждой части. Предсказанное смещение используется для выпрямления.

~~[[Файл:Moran morn arch.png|250px|thumb|left|Архитектура MORN]]~~

~~ ~~

*ASRN отвечает за распознавание. Архитектура ASRN представлена в таблице ниже. Основной структурой ASRN является фреймворк CNN-BLSTM. В верхних слоях CRNN применяется одномерный механизм внимания. Далее используется attention-based декодер (GRU), основанный на RNN.

~~[[Файл:Moran asrn arch.png|250px|thumb|left|Архитектура ASRN]]~~

~~ ~~

~~==== Точность ====~~

~~[[:Оценка_качества_в_задачах_классификации|F-мера]]:~~

*ICDAR'15<ref name="icdar15"/>: 68.8%

*CUTE80<ref name="cute"/>: 77.4%

~~ ~~

=== ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification (2018) ===

ESIR использует итеративное выпрямление изображения, которое исправляет искажения, связанные с перспективой и кривизной. Для этого моделируется средняя линия текста с помощью полиномов. В дополнение, определяются направление и высота области текста на множестве сегментов линии. Среднюю линию с дополнительными параметрами назовём "повторяющей линией".

*Recognition Network (сеть распознавания). Используется sequence-to-sequence модель с механизмом внимания. Система состоит из кодера и декодера. В кодировщик поступает выпрямленное изображение текста размером 32x100 пикселей. Используется 53-слойная остаточная сеть для извлечения признаков, за остаточной сетью следует два слоя BLSTM. Декодер использует LuongAttention механизм, состоящий из 2-слойных LSTM внимания. На этапе вывода используется beam search.

==== Точность ====

*ICDAR'15<ref name="icdar15"/>: 76.9%

*CUTE80<ref name="cute"/>: 83.3%

=== MORAN: A Multi-Object Rectified Attention Network (2019) ===

[[Файл:Moran morn.png|thumb|left|200px|Схема выпрямления]]

Текст на изображениях часто оказывается не просто изогнут, а деформирован разными способами и в нескольких направлениях (например, изогнутый текст + перспектива). Это учитывалось при разработке выпрямляющего модуля MORAN, что и является отличительной особенностью этой модели.

==== Архитектура ====

[[Файл:Moran arch.png|600px|thumb|right|Архитектура MORAN]]

MORAN состоит из двух частей: MORN (Multi-Object Rectification Network) и ASRN (Attention-based Sequence Recognition Network):

*MORN отвечает за выпрямление. Архитектура MORN представлена в таблице ниже. За каждым (за исключением последнего) свёрточным слоем следует слой [[:Batch-normalization|батчевой нормализации]] и слой [[:Практики_реализации_нейронных_сетей#:~:text=Функция%20ReLU%5Bправить%5D,аргумента%2C%20функция%20возвращает%20само%20число|ReLU]]. MORN делит изображение на несколько частей, после чего предсказывает смещение для каждой части. Предсказанное смещение используется для выпрямления.

[[Файл:Moran morn arch.png|250px|thumb|left|Архитектура MORN]]

*ASRN отвечает за распознавание. Архитектура ASRN представлена в таблице ниже. Основной структурой ASRN является фреймворк CNN-BLSTM. В верхних слоях CRNN применяется одномерный механизм внимания. Далее используется attention-based декодер (GRU), основанный на RNN.

[[Файл:Moran asrn arch.png|250px|thumb|left|Архитектура ASRN]]

==== Точность ====

[[:Оценка_качества_в_задачах_классификации|F-мера]]:

*ICDAR'15<ref name="icdar15"/>: 68.8%

*CUTE80<ref name="cute"/>: 77.4%

== Модели end-to-end ==

KingKongWukong

94

правки

Изменения

Распознавание изогнутого текста

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты