Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

54 байта убрано, 15:32, 21 января 2021
TextSnake (2018)
<br> Статья о модели доступна по [https://openaccess.thecvf.com/content_ECCV_2018/papers/Shangbang_Long_TextSnake_A_Flexible_ECCV_2018_paper.pdf ссылке]. Реализацию этой модели можно найти в [https://github.com/princewang1994/TextSnake.pytorch открытом доступе].
[[file:TextSnakeRepresentation.png|300px|left|thumb|Рисунок 1 {{---}} Как TextSnake представляет текст. [https://openaccess.thecvf.com/content_ECCV_2018/papers/Shangbang_Long_TextSnake_A_Flexible_ECCV_2018_paper.pdf ИсточникКак TextSnake представляет текст]]]
<br clear=all>
==== Архитектура ====
[[Файл:Ts pip.png|500px|right|thumb|Рисунок 2 {{---}} Схема работы TextSnake. [https://openaccess.thecvf.com/content_ECCV_2018/papers/Shangbang_Long_TextSnake_A_Flexible_ECCV_2018_paper.pdf ИсточникСхема работы TextSnake]]]
Схема работы TextSnake представлена справа (см. Рисунок 2). TextSnake использует [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]]. Чтобы определять текст произвольной формы, используется FCN (Fully Convolutional Network)<ref name="fcn">[https://arxiv.org/pdf/1411.4038.pdf Jonathan Long, Evan Shelhamer, Trevor Darrell, "Fully Convolutional Networks for Semantic Segmentation" (2015)]</ref> модель для предсказывания геометрических атрибутов текстовых областей. С помощью FCN<ref name="fcn"/> и FPN (Feature Pyramid Network)<ref name="fpn">[https://arxiv.org/pdf/1612.03144.pdf Lin, T.Y., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S., "Feature pyramid networks for object detection"]</ref> предсказываются вероятностные карты центральной линии (text center line, TCL) и текстовых областей (text regions, TR), вместе с геометрическими атрибутами <math>r, cosθ, sinθ</math>. Карта TCL в дальнейшем маскируется картой TR (TCL, по сути, является частью TR). Для сегментации используется непересекающийся набор, так как центральные линии не перекрывают друг друга. Далее извлекаются списки точек центральной оси и восстанавливаются экземпляры текста. Детальная архитектура представлена ниже (см. Рисунок 3):
[[file:TextSnakeArchitecture.png|500px|left|thumb|Рисунок 3 {{---}} Архитектура TextSnake. [https://openaccess.thecvf.com/content_ECCV_2018/papers/Shangbang_Long_TextSnake_A_Flexible_ECCV_2018_paper.pdf ИсточникАрхитектура TextSnake]]]
<br clear=all>
238
правок

Навигация