238
правок
Изменения
→PolyPRNet
=== PolyPRNet ===
==== Краткое описание и особенности ====
Отличительной чертой PolyPRNet является способ представления текста. Для области с текстом модель определяет центральную линию как полином степени n. Эта центральная линия определяет общую форму и плавность текста. Для её построения используется набор k путевых точек, расположенных на медиальной оси текстовой области (полиномиальная центральная линия должна максимально точно проходить путевые точки). Для описания таких локальных свойств, как ширина линии (т.е. высота текста) и ориентация, используется набор m линий широты. Линия широты пересекается с центральной линией, и описывается с помощью параметров xi, yi, la, lb и θi, где xi и yi - координаты начала линии широты, la и lb - длина различных частей линии, θi - угол линии широты относительно оси y. Геометрическая модель текстовой области состоит из центральной линии {an, an-1,.. a0} и параметров {xi, yi, lai, lbi, θi} линий широты.
[[file:Pprnet text.png|800px]]
==== Архитектура ====
PolyPRNet использует двухступенчатую структуру на основе R-CNN. Схема архитектуры представлена ниже.
На первой стадии используется ResNet50 и Feature Pyramid Network (FPN), чтобы получить карты признаков из исходного изображения. Далее используется сеть RPN для формирования набора предложенных областей текста. На второй стадии используется модуль R-CNN с веткой регрессии границы и веткой классификации, чтобы точнее локализовать предложенные области. Так же используется модуль Polynomialbased shape Parameter Regression (PPR), чтобы вывести форму и направление потенциального текстового кандидата.
[[file:Pprnet arch.png|800px]]
==== Точность ====
F-мера:
*Total-Text: 84.6%
*CTW1500: 83.4%
== Модели end-to-end ==