94
правки
Изменения
→PolyPRNet (2020)
=== PolyPRNet (2020) ===
Отличительной чертой PolyPRNet является способ представления текста. Для области с текстом модель определяет центральную линию как полином степени <math>n</math>. Эта центральная линия определяет общую форму и плавность текста. Для её построения используется набор <math>k</math> путевых точек, расположенных на медиальной оси текстовой области (полиномиальная центральная линия должна максимально точно проходить путевые точки). Для описания таких локальных свойств, как ширина линии (то есть высота текста) и ориентация, используется набор <math>m</math> линий широты. Линия широты пересекается с центральной линией, и описывается с помощью параметров <math>x_i, y_i, l_a, l_b</math> и <math>θ_i</math>, где <math>x_i</math> и <math>y_i</math> {{---}} координаты начала линии широты, <math>l_a</math> и <math>l_b</math> {{---}} длина различных частей линии, <math>θ_i</math> {{---}} угол линии широты относительно оси <math>y</math>. Геометрическая модель текстовой области состоит из центральной линии <math>\{a_n, a_{n-1},.. a_0\}</math> и параметров <math>\{x_i, y_i, l_{ai}, l_{bi}, θ_i\}</math> линий широты(см. Рисунок 6).
<br clear=all>
[[file:Pprnet text.png|800px|thumb|left|Рисунок 6 {{---}} Геометрическая модель текстовой области PolyPRNet]]
<br clear=all>
==== Архитектура ====
PolyPRNet использует двухступенчатую структуру на основе R-CNN<ref name="rcnn"/>. Схема архитектуры представлена ниже(см. Рисунок 7).
На первой стадии используется ResNet50 (Residual Network)<ref name="resnet">[https://arxiv.org/pdf/1512.03385.pdf He, K., Zhang, X., Ren, S., Sun, J., "Deep residual learning for image recognition" (2016)]</ref> и FPN<ref name="fpn"/>, чтобы получить карты признаков из исходного изображения. Далее используется сеть RPN (Region Proposal Network) <ref name="rpn">[https://arxiv.org/pdf/1506.01497.pdf Ren, S., He, K., Girshick, R.B., Sun, J., "Faster R-CNN: towards real-time object detection with region proposal networks" (2015)]</ref> для формирования набора предложенных областей текста. На второй стадии используется модуль R-CNN<ref name="rcnn"/> с ветками регрессии границы (bounding box regression) и классификации, чтобы точнее локализовать предложенные области. Так же используется модуль Polynomialbased shape Parameter Regression (PPR), чтобы вывести форму и направление потенциального текстового кандидата.
<br clear=all>
[[file:Pprnet arch.png|800px|left|thumb|Рисунок 7 {{---}} Архитектура PolyPRNet]]
<br clear=all>