Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

200 байт добавлено, 22:18, 21 января 2021
TotalText (2017)
=== TotalText (2017) ===
Предшествующие TotalText'у наборы данных [[:Известные_наборы_данных|ICDAR]]'03<ref name="icdar03">[http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions S.M. Lucas et al, "ICDAR 2003 Robust Reading Competition"]</ref>, '11<ref name="icdar11">[http://www.cvc.uab.es/icdar2011competition/images/Report_RobustReading_Challenge1_final.pdf D. Karatzas, S. Robles Mestre, J. Mas, F. Nourbakhsh, P. Pratim Roy, "ICDAR 2011 Robust Reading Competition"]</ref>, '13<ref name="icdar13">[http://dagdata.cvc.uab.es/icdar2013competition/ D. Karatzas, F. Shafait, S. Uchida, M. Iwamura, L. Gomez, S. Robles, J. Mas, D. Fernandez, J. Almazan, L.P. de las Heras, "ICDAR 2013 Robust Reading Competition"]</ref> и MSRA-TD500<ref name="msra">[http://www.iapr-tc11.org/dataset/MSRA-TD500/Detecting_Texts_of_Arbitrary_Orientations_in_Natural_Images.pdf C. Yao, X. Bai, W. Liu, Y. Ma and Z. Tu, "Detecting Texts of Arbitrary Orientations in Natural Images"]</ref> сыграли значимую роль в начале исследований в области распознавания текста. У наборов данных [[:Известные_наборы_данных|ICDAR]]<ref name="icdar03"/><ref name="icdar11"/><ref name="icdar13"/><ref name="icdar15"/> тексты встречались в единственной ориентации {{---}} горизонтальной, и на этом предположении были основаны многие ранние модели. Границы текста они определяли как прямоугольник. Это ограничивало возможности распознавания, и для привлечения внимания исследователей к этой проблеме в 2012 году был представлен набор данныхMSRA-TD500<ref name="msra"/>, включавший в себя большое количество изображений с множественной ориентацией текста (от горизонтальной отличается тем, что область с текстом находится под наклоном или/и в перспективе). Модели были усовершенствованы, и теперь определяли границы как произвольных форм четырёхугольники. Текст же изогнутой формы, несмотря на частоту появления в реальном окружении, практически не появлялся в наборах данных (искл. [[:Известные_наборы_данных|COCO-text]]<ref name="coco">[https://arxiv.org/pdf/1601.07140.pdf A. Veit, T. Matera, L. Neumann, J. Matas, S. Belongie, "COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images"]</ref> и CUTE80<ref name="cute">[http://cs-chan.com/doc/ESWA_2014A.pdf A. Risnumawan, P. Shivakumara, C.S. Chan and C.L. Tan, "A Robust Arbitrary Text Detection System for Natural Scene Images"]</ref>, но они не привлекли особого внимания к проблеме). Поэтому справиться с произвольной формой текста многие модели попросту не могли.
Для привлечения внимания к этой проблеме в 2017 году был представлен набор данных TotalText, состоящий из 1555 изображений с текстом различной ориентации и содержащий в целом 9330 слов. Отличительной особенностью TotalText является ''эталон'' области (или же границ) текста. Так, в [[:Известные_наборы_данных|COCO-Texttext]]<ref name="coco"/> эталоном области текста являлся горизонтально ориентированный прямоугольник, а вот в TotalText это был многоугольник, состоящий из множества полигонов.
В качестве протокола оценки используется DetEval<ref name="deteval">[https://perso.liris.cnrs.fr/christian.wolf/software/deteval/ C. Wolf and J.-M. Jolion, “Object count/area graphs for the evaluation of object detection and segmentation algorithms” (2006)]</ref>.
238
правок

Навигация