Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

2195 байт добавлено, 01:36, 21 января 2021
Архитектура
[[file:tfn_arch.png|800px|left|thumb|Рисунок 4 {{---}} Архитектура TextFuseNet]]
<br clear=all>
Общая архитектура TextFuseNet представлена выше (см. Рисунок 4). Сначала, повторяя Mask R-CNN и Mask TextSpotter, ResNet используется в качестве основы для FPN, и на этом этапе извлекаются признаки. Далее используется RPN для генерации предполагаемых текстовых областей, что используется в последующих ветках Detection и Mask. Для извлечения многоуровневого представления признаков используются дополнительные реализации. Во-первых, вводится новая ветвь семантической сегментации, чтобы провести сегментацию входного изображения и получить признаки на глобальном уровне. Далее в ветви Detection, с помощью предсказания категорий и использования регрессии окружающей рамки, уточняются предложенные области. Затем в этой же ветви происходит извлечение признаков и объединение глобального и словесного уровней для обнаружения как слов, так и символов. Для ветви Mask, которая выполняет сегментацию для объектов, полученных из ветви обнаружения, извлекаются и объединяются все признаки глобального, словесного и символьного уровня. Конечной задачей является сегментация на объединённом представлении признаков. Для этого применяется свертка 1×1 для выравнивания номеров каналов объектов с разных уровней и изменения размера карт признаков до одного размера для последующей унификации.  Для получения глобального представления используется семантическая сегментация. Далее, с помощью Mask R-CNN<ref name="rcnn"/> в ветвях Detection и Mask определяются признаки на буквенном и словесном уровнях. Для слияния уровней используется модуль multi-path fusion (см. Рисунок 5), что позволяет TextFuseNet изучать более дифференцированное представление и выдавать более точные результаты детекции текста.
<br clear=all>
[[file:tfn_mpf.png|500px|left|thumb|Рисунок 5 {{---}} Работа модуля multi-path fusion]]
238
правок

Навигация