Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

129 байт убрано, 19:30, 15 января 2021
TotalText (2017)
== TotalText (2017) ==
Предшествующие TotalText'у датасеты ICDAR'03, '11, '13 и MSRA-TD500 сыграли значимую роль в начале исследований в области распознавания текста. У датасетов ICDAR тексты встречались в единственной ориентации - горизонтальной, и на этом предположении были основаны многие ранние модели. Границы текста они определяли как прямоугольник. Это ограничивало возможности распознавания, и для привлечения внимания исследователей к этой проблеме в 2012 году был представлен датасет MSRA-TD500, включавший в себя большое количество изображений с множественной ориентацией текста (от горизонтальной отличается тем, что область с текстом находится под наклоном или/и в перспективе). Модели были усовершенствованы, и теперь определяли границы как произвольных форм четырёхугольники. Текст же изогнутой формы, несмотря на частоту появления в реальном окружении, практически не появлялся в датасетах (искл. COCO-text и CUTE80, но они не привлекли особого внимания к проблеме). Поэтому многие модели определяли текстовые области как четырёхугольники различной формы, что не позволяло добиться хороших успехов при работе справиться с произвольной формой текстамногие модели попросту не могли.
Для привлечения внимания к этой проблеме в 2017 году был представлен датасет TotalText, состоящий из 1555 изображений с текстом различной ориентации и содержащий в целом 9330 слов. Отличительной особенностью TotalText является ''Groundtruth'' области (или же границ) текста. Groundtruth ("основная истина") - это термин, используемый для обозначения информации, предоставляемой прямым наблюдением (в отличие от информации, предоставляемой предположением). В данном случае под термином groundtruth подразумевается значение, которое в идеале должна предсказать модель. Так, в COCO-Text groundtruth области текста был прямоугольник, а вот в TotalText это был многоугольник, состоящий из множества полигонов.
 
 
 
Презентуя TotalText, авторы использовали модель DeconvNet, предварительно настроив её под распознавание текста различной ориентации.
238
правок

Навигация