Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

2743 байта добавлено, 20:39, 19 января 2021
Модели для распознавания
== Модели для распознавания ==
Распознающие текст модели в качестве входных данных принимают изображение, где должна находиться одна строка текста. Точность распознавания этих моделей тестируется на датасетах, где за groundtruth принимается текстовая "коробка" (например, CUTE80, ICDAR'15).
 
=== MORAN: A Multi-Object Rectified Attention Network (2019) ===
==== Краткое описание и особенности ====
Текст на изображениях часто оказывается не просто изогнут, а деформирован разными способами и в нескольких направлениях (например, изогнутый текст + перспектива). Это учитывалось при разработке выпрямляющего модуля MORAN, что и является отличительной особенностью этой модели.
 
[[Файл:Moran morn.png|thumb|left|200px|Схема выпрямления]]
<br clear=all>
==== Архитектура ====
 
[[Файл:Moran arch.png|600px|thumb|right|Архитектура MORAN]]
 
MORAN состоит из двух частей: MORN (Multi-Object Rectification Network) и ASRN (Attention-based Sequence Recognition Network):
*MORN отвечает за выпрямление. Архитектура MORN представлена в таблице ниже. За каждым (за исключением последнего) свёрточным слоем следует слой батчевой нормализации и слой ReLU. MORN делит изображение на несколько частей, после чего предсказывает смещение для каждой части. Предсказанное смещение используется для выпрямления.
 
[[Файл:Moran morn arch.png|250px|thumb|left|Архитектура MORN]]
<br clear=all>
 
*ASRN отвечает за распознавание. Архитектура ASRN представлена в таблице ниже. Основной структурой ASRN является фреймворк CNN-BLSTM. В верхних слоях CRNN применяется одномерный механизм внимания. Далее используется attention-based декодер (GRU), основанный на RNN.
 
[[Файл:Moran asrn arch.png|250px|thumb|left|Архитектура ASRN]]
<br clear=all>
 
==== Точность ====
F-мера:
*ICDAR'15: 68.8%
*CUTE80: 77.4%
== Модели end-to-end ==
238
правок

Навигация