Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

183 байта добавлено, 18:51, 19 января 2021
PolyPRNet
Отличительной чертой PolyPRNet является способ представления текста. Для области с текстом модель определяет центральную линию как полином степени n. Эта центральная линия определяет общую форму и плавность текста. Для её построения используется набор k путевых точек, расположенных на медиальной оси текстовой области (полиномиальная центральная линия должна максимально точно проходить путевые точки). Для описания таких локальных свойств, как ширина линии (т.е. высота текста) и ориентация, используется набор m линий широты. Линия широты пересекается с центральной линией, и описывается с помощью параметров xi, yi, la, lb и θi, где xi и yi - координаты начала линии широты, la и lb - длина различных частей линии, θi - угол линии широты относительно оси y. Геометрическая модель текстовой области состоит из центральной линии {an, an-1,.. a0} и параметров {xi, yi, lai, lbi, θi} линий широты.
[[file:Pprnet text.png|800px|thumb|left|Геометрическая модель текстовой области PolyPRNet]]<br clear=all>
==== Архитектура ====
PolyPRNet использует двухступенчатую структуру на основе R-CNN. Схема архитектуры представлена ниже.
На первой стадии используется ResNet50 и Feature Pyramid Network (FPN), чтобы получить карты признаков из исходного изображения. Далее используется сеть RPN для формирования набора предложенных областей текста. На второй стадии используется модуль R-CNN с ветками регрессии границы (bounding box regression) и классификации, чтобы точнее локализовать предложенные области. Так же используется модуль Polynomialbased shape Parameter Regression (PPR), чтобы вывести форму и направление потенциального текстового кандидата.
<br clear=all>[[file:Pprnet arch.png|800px|left|thumb|Архитектура PolyPRNet]]<br clear=all>
==== Точность ====
F-мера:
94
правки

Навигация