Изменения

← Предыдущая правка

Распознавание текста на изображении

773 байта убрано, 19:36, 4 сентября 2022

м

rollbackEdits.php mass rollback

'''Распознавание текста на изображениях''' (оптическое распознавание символов (англ. optical character recognition, OCR<ref>https://en.wikipedia.org/wiki/Optical_character_recognition</ref>)) {{---}} одно из направлений распознавания образов, задача которого заключается в переводе изображений рукописного, ~~машинописного~~ машинного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе).

== Общая информация ==

Распознавание текста на изображениях является важной задачей машинного обучения, так как это позволяет организовать удобное взаимодействие с данными: редактирование, анализ, поиск слов или фраз и т.д.

В последние десятилетия, благодаря использованию современных достижений компьютерных технологий, были развиты новые методы обработки изображений и распознавания образов, благодаря чему стало возможным создание таких промышленных систем распознавания печатного текста, как, например, FineReader<ref>https://www.abbyy.com/ru/finereader/</ref>, которые удовлетворяют основным требованиям систем автоматизации документооборота.

Тем не менее, создание ~~каждого нового~~ приложения в данной области по-прежнему остается творческой задачей и требует дополнительных исследований в связи со специфическими требованиями по разрешению, быстродействию, надежности распознавания и объему памяти, которыми характеризуется каждая конкретная задача.

== История ==

Разработка OCR-систем ~~берет начало из технологий~~основана на технологиях, связанных с телеграфией и созданием считывающих устройств для слепых. В 1914 году Эммануэль Гольдберг разработал устройство, ~~которое считывало~~ считывающее символы и ~~преобразовывало~~ преобразовывающее их в стандартный телеграфный код. Одновременно Эдмунд Фурнье д'Альбе разработал «Оптофон», ручной сканер, который, при перемещении по напечатанной странице, вырабатывал тональные сигналы, соответствующие определенным буквам или символам.

В 1974 году Рэй Курцвейл создал компанию «Kurzweil Computer Products, Inc» и начал работать над развитием первой системы оптического распознавания символов, способной распознавать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии {{---}} создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий {{---}} ПЗС (прибор с зарядовой связью<ref>https://ru.wikipedia.org/wiki/ПЗС</ref>) планшетного сканера и синтезатора, преобразующего текст в речь.

Первой коммерчески успешной программой, распознающей кириллицу, стала программа «AutoR» российской компании «ОКРУС». Алгоритм «AutoR» был компактный, быстрый и ~~в полной мере «интеллектуальный», то есть по-настоящему~~ шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ {{---}} Г. М. Зенкин и А. П. Петров. В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах, решающих задачу распознавания графических символов.

В 1993 году вышла технология распознавания текстов российской компании ABBYY. На её основе создан ряд корпоративных решений и программ для массовых пользователей. Технологии распознавания текстов ABBYY OCR лицензируют международные ИТ-компании, такие как Fujitsu, Panasonic, Xerox, Samsung, EMC и другие.

== Применение систем распознавания текстов ==

Системы OCR применяются во многих областях. Вот некоторые из задач, которые решают системы распознавания текстов:

* Считывание данных с бланков и анкет;.* Автоматическое распознавание номерного знака;.* Распознавание паспортных данных;.* Извлечение информации из визитных карточек в список контактов;.* Создание цифровых версий печатных и рукописных документов, например, сканирование книг для проекта "Гутенберг"<ref>https://ru.wikipedia.org/wiki/Проект_«Гутенберг»</ref>;.* Технология для помощи слепым и слабовидящим;.

== Наиболее распространенные задачи OCR ==

С задачей распознавания символов связаны следующие проблемы:

* Разнообразие форм начертания символов: документ может содержать несколько шрифтов сразу~~: как распространенных~~, ~~так и нестандартных;$\;\;\;\;\;\,$~~а символы могут быть схожи по начертанию ~~(например, “G” и “6”, “S” и “5”, “U” и “V” и тд~~.);

* Искажение изображения, содержащего текст:

** Шумы при печати;.** Плохое качество изображения (засвеченность, размытость);.* Вариации размеров, масштаба и положения символов на странице;.* Влияние исходного масштаба печати: система оптического распознавания текста должна быть нечувствительной ~~(устойчивой)$\;\;\;\;\;\,$~~по отношению к способу верстки, расстоянию между строками и другим параметрам печати.

== Процесс распознавания текста ==

[[Файл:Процесс_распознавания_текста.jpg|thumb|~~400px~~380px|Процесс распознавания текста]]

Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе система должна выдать текст, выделенный из входных данных. Весь процесс распознавания текста состоит из нескольких задач.

=== Обработка изображения ===

Перед началом распознавания текста изображение должно быть очищено от шума и приведено к виду, позволяющему эффективно выделять символы и распознавать их. Обычно у изображения повышают резкость, контрастность, выравнивают его и преобразовывают в используемый системой формат (например, 8-битное изображение в градациях серого).

=== Распознавание символов ===

''' ДОБАВИТЬ ОБЩИЕ СЛОВА '''

== Алгоритмы распознавания символов ==

=== Распознавание при помощи метрик ===

Этой способ лучше всего работает с машинописным текстом, но при обработке новых шрифтов точность распознавания падает.

Метрика ~~по сути~~ является признаком символа, поэтому иногда в контексте данного способа говорят о процессе выявления признаков.

В качестве метрики используют [[Расстояние Хэмминга| расстояние Хэмминга]], которое показывает, на сколько пикселей различаются изображения.

Если признаки двух символов максимально похожи, то разность между их метриками (то есть расстояние между ними) стремится к нулю. Дальнейшая классификация символа происходит по [[Метрический классификатор и метод ближайших соседей|методу ближайшего соседа]] .

Однако, одной метрики недостаточно для распознавания символа, так как некоторые ~~символы~~ очень похожи между собой , (например, “j” и “i”, “Z” и “2”) ~~и это~~ что может привести к ошибке. ~~Чтобы избежать~~ Для избежания этого, ~~есть несколько способов~~используют следующие техники:

2) Контекстное распознавание

$\;$В качестве помощи алгоритмам распознавания в систему включают словари. ~~Словари~~ Они предоставляют справки во многих случаях, но быстро отказывают, когда, например, имеют дело с именами собственными, которые не находятся в словаре.

=== Распознавание с применением нейронных сетей ===

[[Нейронные сети, перцептрон|Нейронные сети]] – это структура связанных элементов, на которых заданы функции преобразования сигнала, а также коэффициенты, которые могут быть настроены на определенный характер работы.

Часть элементов структуры выделены как входные: на них поступают сигналы извне, таким образом, они описывают значения пикселя изображения. То есть, если имеется изображение 16х16, входов у сети должно быть 256. Другая часть – выходные: , они формируют результирующие сигналы.

Сигнал, ~~который проходит~~ проходящий через нейронную сеть, преобразуется согласно формулам на элементах сети, и на выходе формируется ответ. Так как все нейроны поименованы значениями букв, следовательно, среагировавший нейрон и несет ответ распознавания.

Нейронная сеть может ~~служить~~ быть использована в системе распознавания текста в качестве классификатора~~. Этот классификатор сначала обучают, настраивая коэффициенты на элементах сети~~. При обучении , сеть получает на вход изображения, анализирует все позиции черных пикселей и выравнивает коэффициенты, минимизируя ошибку. Таким образом, достигается лучший результат распознавания.

~~'''~~====Пример нейронной сети~~'''~~ ====[[Файл:Пример нейронной сети для распознавания символов.jpg|thumb|800px| Пример нейронной сети для распознавания символов]]

На картинке в качестве примера схематически показана двухслойная нейронная сеть, ~~которая включает~~ включающая в себя 35 входов (каждый символ {{---}} матрица 7x5, соответственно, вектор, описывающий матрицу, состоит из 35 элементов) и , 26 выходов (количество букв)и 10 нейронов скрытого слоя. ~~Данная НС является двухслойной сетью.~~ В качестве [[Практики реализации нейронных сетей#Функции активации|~~Функцией~~ функции активации]] ~~поставим логарифмическую сигмоидную функцию~~в данной сети используется сигмоидная функция<ref>https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%B3%D0%BC%D0%BE%D0%B8%D0%B4%D0%B0</ref>, ~~которую удобно использовать, потому что выходные векторы содержат элементы со значениями~~ выход которой представлен в диапазоне от 0 до 1, что потом удобно перевести в булеву алгебру~~. На скрытый уровень выделим 10 нейронов (это число можно регулировать)~~.

~~'''~~ ====Пример на синтаксисе скриптового языка MATLAB~~'''~~====

S1 = 10; ''% количество нейронов на скрытом слое''

[S2,Q] = size(targets); ''% количество нейронов на втором слое (количество выходов сети)''

);

~~'''~~====Недостатки нейронных сетей~~'''~~ ====Нейронные сети с успехом могут применяться в системах распознавания текста, ~~но существует большое число недостатков~~однако обладают существенными недостатками, ~~которые препятствуют~~ препятствующими их широкому применению. :* Затраты ~~{{---}} для построения сети, обеспечивающей распознавание каждого символа текста,~~ памяти: необходимо построить достаточно большую сеть элементов, что приводит к большим затратам памяти. * Затраты ресурсов системы ~~{{---}} помимо памяти, еще сильнее тратятся ресурсы системы~~ : в процессе распознаванияиспользуются большие объемы ресурсов системы, так как функции на элементах сети работают с числами с плавающей точкой. * Необходимость в ~~обучение {{---}}~~ обучении: для достижения более точного результата нейронную сеть необходимо обучать ~~на все случаи~~, однако и это не гарантирует ~~100%~~ идеальный результат.* ~~Зависимость от конфигураций сети {{---}}~~ Сложность построения: так как работа нейронной сети ~~по распознаванию текста~~ во многом зависит от ее конфигурации ~~сети и функций, заданных в элементах~~, требуется больше усилий для ~~построения эффективно работающей сети~~создания наиболее эффективной архитектуры.

== Алгоритмы распознавания текста ==

|definition='''E2E-MLT'''<ref>https://arxiv.org/abs/1801.09919</ref> {{---}} метод, позволяющий решать задачи локализации и распознавания текста на изображениях, содержащих фрагменты на разных языках. Основан на FCN-сети с общими слоями для обеих задач.

}}

Реализация размещена в Github репозитории<ref>https://github.com/MichalBusta/E2E-MLT</ref> одного из авторов проекта.

Image:e2emlt_work.jpg|250px|500px|''Результат работы E2E-MLT''

Maintenance script

1632

правки

Изменения

Распознавание текста на изображении

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты