Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

230 байт добавлено, 23:08, 20 января 2021
MORAN: A Multi-Object Rectified Attention Network (2019)
=== MORAN: A Multi-Object Rectified Attention Network (2019) ===
[[Файл:Moran morn.png|thumb|left|200px|Рисунок 11 {{---}} Схема выпрямления]]Текст на изображениях часто оказывается не просто изогнут, а деформирован разными способами и в нескольких направлениях (например, изогнутый текст + перспектива). Это учитывалось при разработке выпрямляющего модуля MORAN, что и является отличительной особенностью этой модели(см. Рисунок 11). Реализацию этой модели можно найти в [https://github.com/sdll/moran открытом доступе].
<br clear=all>
==== Архитектура ====
[[Файл:Moran arch.png|600px|thumb|right|Рисунок 12 {{---}} Архитектура всей модели MORAN]]MORAN состоит из двух частей: MORN (Multi-Object Rectification Network) и ASRN (Attention-based Sequence Recognition Network) (см. Рисунок 12):*MORN отвечает за выпрямление. Архитектура MORN представлена в таблице ниже(см. Рисунок 13). За каждым (за исключением последнего) свёрточным слоем следует слой [[:Batch-normalization|батчевой нормализации]] и слой [[:Практики_реализации_нейронных_сетей#:~:text=Функция%20ReLU%5Bправить%5D,аргумента%2C%20функция%20возвращает%20само%20число|ReLU]]. MORN делит изображение на несколько частей, после чего предсказывает смещение для каждой части. Предсказанное смещение используется для выпрямления.[[Файл:Moran morn arch.png|250px|thumb|left|Рисунок 13 {{---}} Архитектура MORN]]
<br clear=all>
*ASRN отвечает за распознавание. Архитектура ASRN представлена в таблице ниже(см. Рисунок 14). Основной структурой ASRN является фреймворк CNN-BLSTM. В верхних слоях CRNN применяется одномерный механизм внимания. Далее используется attention-based декодер (GRU), основанный на RNN.[[Файл:Moran asrn arch.png|250px|thumb|left|Рисунок 14 {{---}} Архитектура ASRN]]
<br clear=all>
94
правки

Навигация