Распознавание изогнутого текста

Материал из Викиконспекты
Перейти к: навигация, поиск
Эта статья находится в разработке!

Распознавание текста — важная задача машинного обучения, решение которой позволит получать огромное количество информации из окружающего мира без участия человека. Распознавание изогнутого текста, в частности, одна из проблем, лежащих на пути решения данной задачи.

Людей, работающих в данном направлении, для удобства условно будем называть "исследователями".

Вступление

В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста - horizontal, multi-oriented, curved (усл. горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей - до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях ([см./например] Mask R-CNN). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих датасетах.

Модели и датасеты

Датасеты, способствовавшие исследованиям в области распознавания изогнутого текста:

  • TotalText
  • SCUT-CTW1500

Модели, показывающие хорошие результаты, независимо от ориентации текста:

  • TextFuseNet
  • CharNet H-88
  • TextCohesion
  • SA-Text
  • PAN-640
  • DB-ResNet50
  • CRAFT
  • SPCNET
  • FTSN
  • TextFilled
  • TextSnake
  • Mask TextSpotter
  • CTD+TLOC (?)
  • PAN
  • PSENet
  • SLPR

TotalText (2017)

Предшествующие TotalText'у датасеты ICDAR'03, '11, '13 и MSRA-TD500 сыграли значимую роль в начале исследований в области распознавания текста. У датасетов ICDAR тексты встречались в единственной ориентации - горизонтальной, и на этом предположении были основаны многие ранние модели. Это ограничивало возможности распознавания, и для привлечения внимания исследователей к этой проблеме в 2012 году был представлен датасет MSRA-TD500, включавший в себя большое количество изображений с множественной ориентацией текста (от горизонтальной отличается тем, что область с текстом находится под наклоном или/и в перспективе). Текст же изогнутой формы, несмотря на частоту появления в реальном окружении, практически не появлялся в датасетах (искл. COCO-text и CUTE80, но они не привлекли особого внимания к проблеме). Поэтому многие модели определяли текстовые области как четырёхугольники различной формы, что не позволяло добиться хороших успехов при работе с произвольной формой текста.

Для привлечения внимания к этой проблеме в 2017 году был представлен датасет TotalText, состоящий из 1555 изображений с текстом различной ориентации и содержащий в целом 9330 слов. Отличительной особенностью TotalText является Groundtruth области (или же границ) текста. Groundtruth ("основная истина") - это термин, используемый для обозначения информации, предоставляемой прямым наблюдением (в отличие от информации, предоставляемой предположением). В данном случае под термином groundtruth подразумевается значение, которое в идеале должна предсказать модель. Так, в COCO-Text groundtruth области текста был прямоугольник, а вот в TotalText это был многоугольник, состоящий из множества полигонов.


Презентуя TotalText, авторы использовали модель DeconvNet, предварительно настроив её под распознавание текста различной ориентации.