Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

1539 байт добавлено, 12:51, 17 января 2021
Добавлен абзац про SCUT-CTW1500
Для привлечения внимания к этой проблеме в 2017 году был представлен датасет TotalText, состоящий из 1555 изображений с текстом различной ориентации и содержащий в целом 9330 слов. Отличительной особенностью TotalText является ''Groundtruth'' области (или же границ) текста. Groundtruth ("основная истина") - это термин, используемый для обозначения информации, предоставляемой прямым наблюдением (в отличие от информации, предоставляемой предположением). В данном случае под термином groundtruth подразумевается значение, которое в идеале должна предсказать модель. Так, в COCO-Text groundtruth области текста был прямоугольник, а вот в TotalText это был многоугольник, состоящий из множества полигонов.
 
== SCUT-CTW1500 (2017) ==
SCUT-CTW1500 должен был привлечь внимание к той же проблеме, что и TotalText. Они были опубликованы практически одновременно (TotalText 27 октября 2017, а SCUT-CTW1500 6 декабря 2017). Вероятно, они разрабатывались независимо друг от друга - авторы SCUT-CTW1500 утверждали, что они являются первооткрывателями полигонального подхода, хотя TotalText был опубликован немного раньше. Позднее авторы TotalText добавили ссылку на SCUT-CTW1500 в качестве дополнения к своему датасету. SCUT-CTW1500 включает в себя 1500 изображений (1000 для обучения, 500 для проверки), на которых содержится более 10 тысяч областей с текстом, и на каждом изображении как минимум один раз встречается изогнутый текст. Здесь, как и в TotalText, groundtruth - фигура, состоящая из нескольких полигонов. Оба этих датасета (а точнее, модели, обученные на них) стали прорывом - они первые начали использовать полигональный groundtruth.
94
правки

Навигация