Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

14 байт добавлено, 21:18, 20 января 2021
Нет описания правки
== Модели end-to-end ==
 
=== Mask TextSpotter (2018) ===
Mask TextSpotter является одной из первых E2E моделей, тренированных на наборе данных TotalText. Она не была призвана распознавать именно изогнутый текст, но отличительной чертой модели Mask TextSpotter являлось как раз то, что она сравнительно неплохо с ним справлялась. Разработчики Mask TextSpotter применили недавно опубликованную нейронную сеть с архитектурой Mask R-CNN<ref name="rcnn"/> для выделения контуров объектов на изображении, которая и позволила сделать шаг вперед в распознавании изогнутого текста.
 
==== Архитектура ====
Для первичной обработки изображения Mask TextSpotter использует ResNet50<ref name="resnet"/> остаточную [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]].
 
Затем над изображением работает RPN нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNN<ref name="rcnn"/> нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN, Fast R-CNN<ref name="rcnn"/> лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результата.
<br clear=all>
[[file:ArchitectureMaskTextSpotter.png|800px|left|thumb|Архитектура Mask TextSpotter]]
<br clear=all>
 
==== Точность ====
[[:Оценка_качества_в_задачах_классификации|F-мера]]:
*TotalText (Detection): 61.3%
*TotalText (E2E, без словаря): 52.9%
*TotalText (E2E, со словарём): 71.8%
<br clear=all>
=== CRAFTS (2020) ===
*Total-Text (Detection): 87.4%
*Total-Text (E2E, без словаря): 78.7%
<br clear=all>
 
=== MANGO (2021) ===
MANGO {{---}} один из самых удачных end-to-end фреймворков. Вероятно, такого успеха его авторы добились благодаря необычной для таких моделей внутренней архитектуре. Обычно E2E модели работают в два этапа: детекция и распознавание. Слой детекции выделяет и выпрямляет области текста, которые затем передаются в слой распознавания. Такой подход вызывает трудности в обучении, так как результат распознавания сильно зависит от результата детекции, но обучать два этих слоя одновременно и взаимно {{---}} сложная задача. Ученые ищут способы решения этой проблемы. Разработчики MANGO отказались от подобной архитектуры и делегировали обе задачи одному единственному слою. Именно поэтому MANGO невозможно протестировать на качество детекции {{---}} в этой модели этап детекции неразделим с этапом распознавания. MANGO является одним из первооткрывателей такой архитектуры и доказывает, что она не просто жизнеспособна, но и весьма успешна {{---}} среди всех существующих на данный момент E2E моделей MANGO показывает второй результат [[:Оценка_качества_в_задачах_классификации|F-меры]] как по распознаванию без словаря, так и со словарем.
 
==== Архитектура ====
Итак, MANGO имеет однослойную архитектуру. Но это вовсе не значит, что работу этой модели нельзя разделить на этапы. В действительности MANGO, как и другие модели, не может выполнить сразу оба этапа каким-то одним инструментом. MANGO все еще разделяет свою работу на детекцию и распознавание. Особенность этой модели в том, что данные, спустя этап детекции, имеют такой вид, что код на этапе распознавания представляет собой легковесный инструмент. Это достигается тем, что этап детекции уже включает в себя элементы распознавания. Разберемся как это происходит.
 
На вход инструменту распознавания подается так называемая позиционно-ориентированная маска внимания. Она представляет собой конкатенацию двух других масок: маски областей текста и многослойной маски точек внимания символов. Каждый слой маски символов сопоставлен с соответствующим слоем маски областей текста. Данные, представленные в таком виде (особенно важно сопоставление между двумя масками), сильно облегчают распознавание (выполняя часть работы по распознаванию заранее). Поэтому на данном этапе можно оставить лишь легковесный инструмент и не писать для распознавания отдельный слой.
 
Первоначальная обработка изображения происходит с помощью ResNet50<ref name="resnet"/> остаточной [[:Сверточные_нейронные_сети|свёрточной нейронной сети]].
<br clear=all>
[[file:WorkflowOfMANGO.png|800px|left|thumb|Архитектура MANGO]]
<br clear=all>
 
==== Точность ====
[[:Оценка_качества_в_задачах_классификации|F-мера]]:
*Total-Text (E2E, без словаря): 72.9%
*Total-Text (E2E, со словарём): 83.6%
*CTW1500 (E2E, без словаря): 58.9%
*CTW1500 (E2E, со словарём): 78.7%
<br clear=all>
<br clear=all>
=== Mask TextSpotter MANGO (20182021) ===Mask TextSpotter является одной MANGO {{---}} один из первых самых удачных end-to-end фреймворков. Вероятно, такого успеха его авторы добились благодаря необычной для таких моделей внутренней архитектуре. Обычно E2E моделеймодели работают в два этапа: детекция и распознавание. Слой детекции выделяет и выпрямляет области текста, тренированных на наборе данных TotalTextкоторые затем передаются в слой распознавания. Она не была призвана распознавать именно изогнутый текстТакой подход вызывает трудности в обучении, так как результат распознавания сильно зависит от результата детекции, но отличительной чертой обучать два этих слоя одновременно и взаимно {{---}} сложная задача. Ученые ищут способы решения этой проблемы. Разработчики MANGO отказались от подобной архитектуры и делегировали обе задачи одному единственному слою. Именно поэтому MANGO невозможно протестировать на качество детекции {{---}} в этой модели Mask TextSpotter являлось как раз тоэтап детекции неразделим с этапом распознавания. MANGO является одним из первооткрывателей такой архитектуры и доказывает, что она сравнительно неплохо с ним справлялась. Разработчики Mask TextSpotter применили недавно опубликованную нейронную сеть с архитектурой Mask Rне просто жизнеспособна, но и весьма успешна {{---CNN<ref name="rcnn"/> для выделения контуров объектов }} среди всех существующих на изображенииданный момент E2E моделей MANGO показывает второй результат [[:Оценка_качества_в_задачах_классификации|F-меры]] как по распознаванию без словаря, которая так и позволила сделать шаг вперед в распознавании изогнутого текстасо словарем.
==== Архитектура ====
Для первичной обработки изображения Mask TextSpotter использует ResNet50<ref name="resnet"/> остаточную [[Итак, MANGO имеет однослойную архитектуру. Но это вовсе не значит, что работу этой модели нельзя разделить на этапы. В действительности MANGO, как и другие модели, не может выполнить сразу оба этапа каким-то одним инструментом. MANGO все еще разделяет свою работу на детекцию и распознавание. Особенность этой модели в том, что данные, спустя этап детекции, имеют такой вид, что код на этапе распознавания представляет собой легковесный инструмент. Это достигается тем, что этап детекции уже включает в себя элементы распознавания. Разберемся как это происходит. На вход инструменту распознавания подается так называемая позиционно-ориентированная маска внимания. Она представляет собой конкатенацию двух других масок:Сверточные_нейронные_сети|свёрточную нейронную сеть]]маски областей текста и многослойной маски точек внимания символов. Каждый слой маски символов сопоставлен с соответствующим слоем маски областей текста. Данные, представленные в таком виде (особенно важно сопоставление между двумя масками), сильно облегчают распознавание (выполняя часть работы по распознаванию заранее). Поэтому на данном этапе можно оставить лишь легковесный инструмент и не писать для распознавания отдельный слой.
Затем над изображением работает RPN нейронная сеть, которая выполняет базовый поиск областей текста на изображении. RPN может выявлять символы разных форм и размеров. Уже размеченный текст более детально обрабатывается Fast R-CNNПервоначальная обработка изображения происходит с помощью ResNet50<ref name="rcnnresnet"/> остаточной [[:Сверточные_нейронные_сети|свёрточной нейронной сетью. Её задачи принципиально ничем не отличаются от задач RPN, Fast R-CNN<ref name="rcnn"/> лишь доводит дело до конца. Завершает работу этап детекции по маске. Сначала он разбивает полученные области текста на слова, а затем внутри слов распознает отдельные символы. На этом этапе можно настраивать локализацию. Затем данные проходят небольшой пост-процессинг перед достижением итогового результатасети]].
<br clear=all>
[[file:ArchitectureMaskTextSpotterWorkflowOfMANGO.png|800px|left|thumb|Архитектура Mask TextSpotterMANGO]]
<br clear=all>
==== Точность ====
[[:Оценка_качества_в_задачах_классификации|F-мера]]:
*TotalText Total-Text (DetectionE2E, без словаря): 72.9%*Total-Text (E2E, со словарём): 6183.36%*TotalText CTW1500 (E2E, без словаря): 5258.9%*TotalText CTW1500 (E2E, со словарём): 7178.87%<br clear=all>
== Сводные таблицы ==
94
правки

Навигация