238
правок
Изменения
→Существующие модели и датасеты
В решении задачи распознавания текста двумя основными составляющими являются определение области текста и распознавание содержимого области. В сообществе исследователей выделяют три разных вида ориентации текста: horizontal, multi-oriented, curved (горизонтальная, множественная, изогнутая). Очевидно, что правильность определения области текста напрямую влияет на качество работы распознающих моделей. Долгое время распознавание изогнутого текста казалось крайне сложной задачей {{---}} до тех пор, пока не появились способы весьма точно определять контуры объектов на изображениях (например, Mask R-CNN<ref name="rcnn">[https://arxiv.org/pdf/1703.06870.pdf Mask R-CNN, Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick]</ref>). Использование методов сегментации изображения позволяет добиться хороших результатов на существующих наборах данных.
== Существующие модели и датасеты Введение ==Датасеты, способствовавшие исследованиям в области распознавания изогнутого текста:*TotalText*SCUT-CTW1500 Здесь будут представлены только новейшие и наиболее удачные модели, которые показывают хорошие результаты вне зависимости от ориентации текста.Модели разделены на две три категории: *модели, занимающиеся только детекцией (они находят группы букв на изображении, а распознавание непосредственно слов разработчики делегируют другим инструментам)*модели, и которые занимаются только распознаванием.*модели, которые занимаются и детекцией, и распознаванием. Модели только для детекции:*TextSnake (2018)*TextFuseNet (2020)*PolyPRNet (2020) Модели end-to-end:*CRAFTS (2020)*MANGO (2021)*Text Perceptron (2020)*Boundary (2020)*Mask TextSpotter (2018) Также здесь для ознакомления с технологиями распознавания представлены следующие модели:*MORAN (2019)*ESIR (2018)
== Наборы данных ==