Изменения

Распознавание текста на изображении

859 байт добавлено, 11:43, 21 апреля 2020

Нет описания правки

== Общая информация ==

Примерами распознавания текста являются оцифровка изображений текста (отсканированные книги, статьи, журналы), обработка анкетных бланков, распознавание номеров машин и надписей на объектах и т.д.. Распознавание текста на изображениях является важной задачей машинного обучения, так как это позволяет удобное взаимодействие с данными — редактирование, анализ, поиск слов или фраз и т.д..

В последние десятилетия, благодаря использованию современных достижений компьютерных технологий, были развиты новые методы обработки изображений и распознавания образов, благодаря чему стало возможным создание таких промышленных систем распознавания печатного текста, как например, FineReader, которые удовлетворяют основным требованиям систем автоматизации документооборота. Тем не менее, создание каждого нового приложения в данной области по-прежнему остается творческой задачей и требует дополнительных исследований в связи со специфическими требованиями по разрешению, быстродействию, надежности распознавания и объему памяти, которыми характеризуется каждая конкретная задача.

* оцифровывание документов с целью получить возможность удобной работы с текстом - редактирование, поиск слов или строк или анализ.

== Типовые проблемы, связанные с системами OCR==

С задачей распознавания символов связаны следующие проблемы:

* Разнообразие форм начертания символов

Документ может содержать несколько шрифтом сразу, что усложняет задачу распознавания текста. Некоторые символы похожи по начертанию (например, “G” и “6”, “S” и “5”, “U” и “V” и тд.) и в нестандартных шрифтах отличить их еще затруднительней

* Искажение изображения, содержащего текст

** Шумы при печати

** Изображение плохого качества (засвет, размытость)

* вариации размеров и масштаба символов.

Существенным является и влияние исходного масштаба печати, поэтому система оптического распознавания текста должна быть нечувствительной (устойчивой) по отношению к способу верстки, расстоянию между строками и другим параметрам печати.

== Процесс распознавания текста ==

[[Файл:Пример.jpg]]

Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе система должна выдать текст, выделенный из входных данных. Весь процесс распознавания текста состоит из нескольких задач.

Этой способ лучше всего работает с машинописным текстом, но при обработке новых шрифтов точность распознавания падает.

Метрика по сути является признаком символа, поэтому иногда в контексте данного способа говорят о процессе выявления признаков.

В качестве метрики используют [[Расстояние Хэмминга| расстояние Хэмминга]], которое показывает, на сколько пикселей различаются изображения.Если признаки двух символов максимально похожи, то разность между их метриками (то есть расстояние между ними) стремится к нулю. Дальнейшая классификация символа происходит по [[Метрический классификатор и метод ближайших соседей|методу ближайшего соседа ]]

Однако одной метрики недостаточно для распознавания символа, так как некоторые символы очень похожи между собой (например, “j” и “i”, “Z” и “2”) и это может привести к ошибке. Чтобы избежать этого, есть несколько способов:

* группировка символов

==== Распознавание с применением нейронных сетей ====

[[Файл:Нейронная_сеть_для_распознавания_символов.png|thumb|~~250px~~800px|~~Блок, строка, слово~~Сверточная нейронная сеть для распознавания символа]][[Нейронные сети, перцептрон|Нейронные сети ]] – это структура связанных элементов, на которых заданы функции преобразования сигнала, а также коэффициенты, которые могут быть настроены на определенный характер работы.

Часть элементов структуры выделены как входные: на них поступают сигналы извне, таким образом, они описывают значения пикселя изображения. То есть, если имеется изображение 16х16, входов у сети должно быть 256. Другая часть – выходные: они формируют результирующие сигналы.

Нейронная сеть может служить в системе распознавания текста в качестве классификатора. Этот классификатор сначала обучают, настраивая коэффициенты на элементах сети. При обучении сеть получает на вход изображения, анализирует все позиции черных пикселей и выравнивает коэффициенты, минимизируя ошибку. Таким образом, достигается лучший результат распознавания.

'''Недостатки нейронных сетей''' Нейронные сети с успехом могут применяться в системах распознавания текста, но существует большое число недостатков, которые препятствуют их широкому применению. ~~Для~~ * Затраты памяти - для построения сети, обеспечивающей распознавание каждого символа текста, необходимо построить достаточно большую сеть элементов, что приводит к большим затратам памяти. ~~Еще~~ * Затраты ресурсов системы - помимо памяти, еще сильнее тратятся ресурсы системы в процессе распознавания, так как функции на элементах сети работают с числами с плавающей точкой. ~~Кроме этого нейронные сети~~ * Необходимость в обучение - для достижения более точного результата нейронную сеть необходимо обучать на все случаи~~, что~~, однако, и это не гарантирует ~~точного результата~~100% результат. ~~И, наконец,~~ * Зависимость от конфигураций сети -так как работа нейронной сети по распознаванию текста во многом зависит от конфигурации сети и функций, заданных в элементах, ~~что требует больших~~ требуется больше усилий для построения эффективно работающей сети. == См. также ==*[[Задача нахождения объектов на изображении]]*[[Сверточные нейронные сети]] == Источники информации ==* [https://en.wikipedia.org/wiki/Optical_character_recognition Wikipedia {{---}} Optical character recognition ] [[Категория: Компьютерное зрение]]

Devkettle

17

правок

Изменения

Распознавание текста на изображении

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты