Изменения

Распознавание изогнутого текста

68 байт убрано, 10:29, 21 января 2021

→‎Архитектура

[[file:tfn_arch.png|800px|left|thumb|Рисунок 4 {{---}} Архитектура TextFuseNet]]

Общая архитектура TextFuseNet представлена выше (см. Рисунок 4). ~~Сначала, повторяя Mask R-CNN и Mask TextSpotter, ResNet используется в~~ В качестве основы для FPNиспользуется ResNet, и на этом этапе извлекаются признаки. Далее используется RPN для генерации предполагаемых текстовых областей, что используется в последующих ветках Detection и Mask. Для извлечения многоуровневого представления признаков используются дополнительные реализации. Во-первых, вводится новая ветвь семантической сегментации, чтобы провести сегментацию входного изображения и получить признаки на глобальном уровне. Далее в ветви Detection, с помощью предсказания категорий и использования регрессии окружающей рамки, уточняются предложенные области. Затем в этой же ветви происходит извлечение признаков и объединение глобального и словесного уровней для обнаружения как слов, так и символов. Для ветви Mask, которая выполняет сегментацию для объектов, полученных из ветви обнаружения, извлекаются и объединяются все признаки глобального, словесного и символьного уровня. Конечной задачей является сегментация на объединённом представлении признаков. Для этого применяется свертка 1×1 для выравнивания номеров каналов объектов с разных уровней и изменения размера карт признаков до одного размера для последующей унификации.

264269

238

правок

Изменения

Распознавание изогнутого текста

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты