Изменения

Распознавание изогнутого текста

52 байта добавлено, 23:20, 20 января 2021

→‎Архитектура

==== Архитектура ====

Итак, MANGO имеет однослойную архитектуру(см. Рисунок 24). Но это вовсе не значит, что работу этой модели нельзя разделить на этапы. В действительности MANGO, как и другие модели, не может выполнить сразу оба этапа каким-то одним инструментом. MANGO все еще разделяет свою работу на детекцию и распознавание. Особенность этой модели в том, что данные, спустя этап детекции, имеют такой вид, что код на этапе распознавания представляет собой легковесный инструмент. Это достигается тем, что этап детекции уже включает в себя элементы распознавания. Разберемся как это происходит.

На вход инструменту распознавания подается так называемая позиционно-ориентированная маска внимания. Она представляет собой конкатенацию двух других масок: маски областей текста и многослойной маски точек внимания символов. Каждый слой маски символов сопоставлен с соответствующим слоем маски областей текста. Данные, представленные в таком виде (особенно важно сопоставление между двумя масками), сильно облегчают распознавание (выполняя часть работы по распознаванию заранее). Поэтому на данном этапе можно оставить лишь легковесный инструмент и не писать для распознавания отдельный слой.

Первоначальная обработка изображения происходит с помощью ResNet50<ref name="resnet"/> остаточной [[:Сверточные_нейронные_сети|свёрточной нейронной сети]].

[[file:WorkflowOfMANGO.png|800px|left|thumb|Рисунок 24 {{---}} Архитектура MANGO]]

KingKongWukong

94

правки

Изменения

Распознавание изогнутого текста

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты