Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

1120 байт убрано, 13:32, 21 января 2021
Архитектура
[[file:tfn_arch.png|800px|left|thumb|Рисунок 4 {{---}} Архитектура TextFuseNet]]
<br clear=all>
Общая архитектура TextFuseNet представлена выше (см. Рисунок 4). В качестве основы для FPN используется ResNet, на этом этапе извлекаются общие признаки. Далее Выходные данные используются RPN и ветвью Semantic Segmentation. RPN используется RPN для генерации предполагаемых текстовых областей, что используется в последующих ветках Detection и Mask. Для извлечения многоуровневого представления признаков используются дополнительные реализации. Во-первых, вводится новая ветвь семантической *В ветви Semantic Segmentation с помощью сегментации, чтобы провести сегментацию входного изображения и получить определяются признаки на глобальном уровне. Далее в ветви Detection, извлекаются признаки на словесном уровне и объединяются с помощью предсказания категорий и использования признаками глобального уровня. Полученное представление используется для регрессии окружающей рамки, уточняются предложенные областии классификации объектов (текста/букв). Затем в этой же ветви происходит извлечение Mask извлекаются признаки на символьном уровне. После все три уровня признаков (символьный, словесный и объединение глобального и словесного уровней для обнаружения как словглобальный) объединяются, так и символов. Для ветви Mask, которая выполняет сегментацию полученное представление используется при сегментации экземпляров (instance segmentation) для объектов, полученных из в ветви обнаружения, извлекаются и объединяются все признаки глобального, словесного и символьного уровня. Конечной задачей является сегментация на объединённом представлении признаковDetection. Для этого применяется свертка 1×1 для выравнивания номеров каналов объектов с разных уровней и изменения размера карт объединения признаков до одного размера для последующей унификациииспользуется модуль Multi-Path Fusion, общая схема работы которого представлена ниже (Рис.5):
 
Для получения глобального представления используется семантическая сегментация. Далее, с помощью Mask R-CNN<ref name="rcnn"/> в ветвях Detection и Mask определяются признаки на буквенном и словесном уровнях. Для слияния уровней используется модуль multi-path fusion (см. Рисунок 5), что позволяет TextFuseNet изучать более дифференцированное представление и выдавать более точные результаты детекции текста.
<br clear=all>
[[file:tfn_mpf.png|500px|left|thumb|Рисунок 5 {{---}} Работа модуля multi-path fusion]]
238
правок

Навигация