Изменения

Перейти к: навигация, поиск

Распознавание изогнутого текста

68 байт убрано, 10:29, 21 января 2021
Архитектура
[[file:tfn_arch.png|800px|left|thumb|Рисунок 4 {{---}} Архитектура TextFuseNet]]
<br clear=all>
Общая архитектура TextFuseNet представлена выше (см. Рисунок 4). Сначала, повторяя Mask R-CNN и Mask TextSpotter, ResNet используется в В качестве основы для FPNиспользуется ResNet, и на этом этапе извлекаются признаки. Далее используется RPN для генерации предполагаемых текстовых областей, что используется в последующих ветках Detection и Mask. Для извлечения многоуровневого представления признаков используются дополнительные реализации. Во-первых, вводится новая ветвь семантической сегментации, чтобы провести сегментацию входного изображения и получить признаки на глобальном уровне. Далее в ветви Detection, с помощью предсказания категорий и использования регрессии окружающей рамки, уточняются предложенные области. Затем в этой же ветви происходит извлечение признаков и объединение глобального и словесного уровней для обнаружения как слов, так и символов. Для ветви Mask, которая выполняет сегментацию для объектов, полученных из ветви обнаружения, извлекаются и объединяются все признаки глобального, словесного и символьного уровня. Конечной задачей является сегментация на объединённом представлении признаков. Для этого применяется свертка 1×1 для выравнивания номеров каналов объектов с разных уровней и изменения размера карт признаков до одного размера для последующей унификации.
238
правок

Навигация