Распознавание изогнутого текста — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Новая страница: «{{В разработке}} '''Распознавание текста''' {{---}} важная задача машинного обучения, решение…»)
 
(Внесены модели)
Строка 8: Строка 8:
 
В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах.
 
В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах.
  
==
+
== Модели, способные распознавать изогнутый текст ==
 +
Все представленные ниже модели показывают хорошие результаты, независимо от ориентации текста:
 +
*TextFuseNet
 +
*CharNet H-88
 +
*TextCohesion
 +
*SA-Text
 +
*PAN-640
 +
*DB-ResNet50
 +
*CRAFT
 +
*SPCNET
 +
*FTSN
 +
*TextFilled
 +
*TextSnake
 +
*Mask TextSpotter
 +
*CTD+TLOC (?)
 +
*PAN
 +
*PSENet
 +
*SLPR

Версия 18:03, 15 января 2021

Эта статья находится в разработке!

Распознавание текста — важная задача машинного обучения, решение которой позволит получать огромное количество информации из окружающего мира без участия человека. Распознавание изогнутого текста, в частности, одна из проблем, лежащих на пути решения данной задачи.

Людей, работающих в данном направлении, для удобства условно будем называть "исследователями".

Вступление

В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах.

Модели, способные распознавать изогнутый текст

Все представленные ниже модели показывают хорошие результаты, независимо от ориентации текста:

  • TextFuseNet
  • CharNet H-88
  • TextCohesion
  • SA-Text
  • PAN-640
  • DB-ResNet50
  • CRAFT
  • SPCNET
  • FTSN
  • TextFilled
  • TextSnake
  • Mask TextSpotter
  • CTD+TLOC (?)
  • PAN
  • PSENet
  • SLPR