Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

21 байт добавлено, 18:51, 20 января 2021
TotalText (2017)
=== TotalText (2017) ===
Предшествующие TotalText'у датасеты ICDAR'03<ref name="icdar03">[http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions S.M. Lucas et al, "ICDAR 2003 Robust Reading Competition"]</ref>, '11<ref name="icdar11">[http://www.cvc.uab.es/icdar2011competition/images/Report_RobustReading_Challenge1_final.pdf D. Karatzas, S. Robles Mestre, J. Mas, F. Nourbakhsh, P. Pratim Roy, "ICDAR 2011 Robust Reading Competition"]</ref>, '13<ref name="icdar13">[http://dagdata.cvc.uab.es/icdar2013competition/ D. Karatzas, F. Shafait, S. Uchida, M. Iwamura, L. Gomez, S. Robles, J. Mas, D. Fernandez, J. Almazan, L.P. de las Heras, "ICDAR 2013 Robust Reading Competition"]</ref> и MSRA-TD500<ref name="msra">[http://www.iapr-tc11.org/dataset/MSRA-TD500/Detecting_Texts_of_Arbitrary_Orientations_in_Natural_Images.pdf C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu, "Detecting Texts of Arbitrary Orientations in Natural Images"]</ref> сыграли значимую роль в начале исследований в области распознавания текста. У датасетов ICDAR<ref name="icdar03"/><ref name="icdar11"/><ref name="icdar13"/><ref name="icdar15"/> тексты встречались в единственной ориентации {{---}} горизонтальной, и на этом предположении были основаны многие ранние модели. Границы текста они определяли как прямоугольник. Это ограничивало возможности распознавания, и для привлечения внимания исследователей к этой проблеме в 2012 году был представлен датасет MSRA-TD500<ref name="msra"/>, включавший в себя большое количество изображений с множественной ориентацией текста (от горизонтальной отличается тем, что область с текстом находится под наклоном или/и в перспективе). Модели были усовершенствованы, и теперь определяли границы как произвольных форм четырёхугольники. Текст же изогнутой формы, несмотря на частоту появления в реальном окружении, практически не появлялся в датасетах (искл. COCO-text<ref name="coco">[https://arxiv.org/pdf/1601.07140.pdf A. Veit, T. Matera, L. Neumann, J. Matas, S. Belongie, "COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images"]</ref> и CUTE80<ref name="cute">[http://cs-chan.com/doc/ESWA_2014A.pdf A. Risnumawan, P. Shivakumara, C.S. Chan and C.L. Tan, "A Robust Arbitrary Text Detection System for Natural Scene Images"]</ref>, но они не привлекли особого внимания к проблеме). Поэтому справиться с произвольной формой текста многие модели попросту не могли.
Для привлечения внимания к этой проблеме в 2017 году был представлен датасет TotalText, состоящий из 1555 изображений с текстом различной ориентации и содержащий в целом 9330 слов. Отличительной особенностью TotalText является ''Groundtruth'' области (или же границ) текста. Groundtruth ("основная истина") {{---}} это термин, используемый для обозначения информации, предоставляемой прямым наблюдением (в отличие от информации, предоставляемой предположением). В данном случае под термином groundtruth подразумевается значение, которое в идеале должна предсказать модель. Так, в COCO-Text<ref name="coco"/> groundtruth области текста был прямоугольник, а вот в TotalText это был многоугольник, состоящий из множества полигонов.
238
правок

Навигация