238
правок
Изменения
→Архитектура
==== Архитектура ====
[[Файл:Ts pip.png|500px|right|thumb|Схема работы TextSnake]]
Схема работы TextSnake представлена справа. TextSnake использует [[:Сверточные_нейронные_сети|свёрточную нейронную сеть]]. Чтобы определять текст произвольной формы, используется FCN (Fully Convolutional Network)<ref name="fcn">[https://towardsdatasciencearxiv.comorg/review-fcn-semantic-segmentation-eb8c9b50d2d1 pdf/1411.4038.pdf Jonathan Long, Evan Shelhamer, Trevor Darrell, "Review: FCN — Fully Convolutional Network (Networks for Semantic Segmentation" (2015)"]</ref> модель для предсказывания геометрических атрибутов текстовых областей. С помощью FCN<ref name="fcn"/> и FPN (Feature Pyramid Network)<ref name="fpn">[https://arxiv.org/pdf/1612.03144.pdf Lin, T.Y., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S., "Feature pyramid networks for object detection"]</ref> предсказываются вероятностные карты центральной линии (text center line, TCL) и текстовых областей (text regions, TR), вместе с геометрическими атрибутами <math>r, cosθ, sinθ</math>. Карта TCL в дальнейшем маскируется картой TR (TCL, по сути, является частью TR). Далее извлекаются списки точек центральной оси и восстанавливаются экземпляры текста. Детальная архитектура представлена ниже:
[[file:TextSnakeArchitecture.png|500px|left|thumb|Архитектура TextSnake]]