Изменения

Перейти к: навигация, поиск

Распознавание текста на изображении

1005 байт убрано, 17:02, 23 апреля 2020
м
Нет описания правки
== История ==
Разработка OCR-систем берет начало из технологий, связанных с телеграфией и созданием считывающих устройств для слепых. В 1914 году Эммануэль Гольдберг разработал устройство, которое считывало символы и преобразовывало их в стандартный телеграфный код. Одновременно Эдмунд Фурнье д'Альбе разработал "Оптофон"«Оптофон», ручной сканер, который при перемещении по напечатанной странице вырабатывал тональные сигналы, соответствующие определенным буквам или символам.
В конце 1920-х 1974 году Рэй Курцвейл создал компанию «Kurzweil Computer Products, Inc», и начале 1930-х годов Эмануэль Гольдберг разработал тоначал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом. Курцвейл считал, что он назвал "Статистической машиной" лучшее применение этой технологии — создание машины чтения для поиска микрофильмов в архивах с помощью оптической системы кодового распознаванияслепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. В 1931 году он получил патент на машинуДанное устройство требовало изобретения сразу двух технологий — ПЗС планшетного сканера и синтезатора, который позже был приобретен компанией IBMпреобразующего текст в речь.
В 1974 году Рэй Курцвейл создал компанию «Kurzweil Computer ProductsПервой коммерчески успешной программой, распознающей кириллицу, Inc»была программа «AutoR» российской компании «ОКРУС». Алгоритм «AutoR» был компактный, быстрый и начал работать над развитием первой системы оптического распознавания символовв полной мере «интеллектуальный», способной распознать текст, напечатанный любым шрифтомто есть по-настоящему шрифтонезависимый. Курцвейл считалЭтот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, что лучшее применение этой технологии выпускники МФТИ создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслухГ. М. Данное устройство требовало изобретения сразу двух технологий — ПЗС планшетного сканера Зенкин и синтезатора, преобразующего текст в речьА. П. Петров. Конечный продукт был представлен 13 января 1976 во В настоящее время прессалгоритм Зенкина-конференцииПетрова применяется в нескольких прикладных системах, возглавляемой Курцвейлом и руководителями национальной федерации слепыхрешающих задачу распознавания графических символов.
В 1978 1993 году компания «Kurzweil Computer Products» начала продажи коммерческой версии компьютерной программы оптического вышла технология распознавания символовтекстов российской компании ABBYY. Компания «LexisNexis» была одним из первых покупателей На её основе создан ряд корпоративных решений и приобрела программу программ для загрузки юридических бумаг и новостных документов в онлайн базы данныхмассовых пользователей. Два года спустя Курцвейл продал свою компанию корпорации «Xerox», которая была заинтересована в дальнейшей коммерциализации систем Технологии распознавания текста. «Kurzweil Computer Products» стала дочерней компанией «Xerox»текстов ABBYY OCR лицензируют международные ИТ-компании, известной такие как «Scansoft»Fujitsu, Panasonic, Xerox, Samsung[3], EMC и другие.
Первой коммерчески успешной программой, распознающей кириллицу, была программа «AutoR» российской компании «ОКРУС». Программа начала распространяться в 1992 году, работала под управлением операционной системы DOS и обеспечивала приемлемое по скорости и качеству распознавание даже на персональных компьютерах IBM PC/XT с процессором Intel 8088 при тактовой частоте 4,77 МГц. В начале 90-х компания Hewlett-Packard поставляла свои сканеры на российский рынок в комплекте с программой «AutoR». Алгоритм «AutoR» был компактный, быстрый и в полной мере «интеллектуальный», то есть по-настоящему шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ — Г. М. Зенкин и А. П. Петров. Свой метод распознавания они опубликовали в журнале «Биофизика» в номере 12, вып. 3 за 1967 год. В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах, решающих задачу распознавания графических символов. На основе алгоритма компанией Paragon Software Group в 1996 была создана технология PenReader. Г.М Зенкин продолжил работу над технологией PenReader в компании Paragon Software Group[1]. Технология используется в одноимённом продукте компании[2]. В 1993 году вышла технология распознавания текстов российской компании ABBYY. На её основе создан ряд корпоративных решений и программ для массовых пользователей. В частности, программа для распознавания текстов ABBYY FineReader, приложения для распознавания текстовой информации с мобильных устройств, система потокового ввода документов и данных ABBYY FlexiCapture. Технологии распознавания текстов ABBYY OCR лицензируют международные ИТ-компании, такие как Fujitsu, Panasonic, Xerox, Samsung[3], EMC и другие.  В 2000-х годах OCR-системы стали доступны в режиме онлайн в том числе и в мобильных приложения, например, перевод знаков на иностранный язык на смартфоне в режиме реального времени. Сейчас на смартфонах доступны приложения, которые позволяют извлекать текст с помощью камеры устройства.  Различные коммерческие и открытые OCR-системы доступны для большинства распространенных алфавитов, включая латинский, кириллический, арабский, иврит, индийский, деванагарский, тамильский, китайские, японские и корейские иероглифы.
== Применение систем распознавания текстов ==
== Процесс распознавания текста ==
[[Файл:ПримерПроцесс_распознавания_текста.jpg|thumb|400px|Процесс распознавания текста]]
Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе система должна выдать текст, выделенный из входных данных. Весь процесс распознавания текста состоит из нескольких задач.
Нейронная сеть может служить в системе распознавания текста в качестве классификатора. Этот классификатор сначала обучают, настраивая коэффициенты на элементах сети. При обучении сеть получает на вход изображения, анализирует все позиции черных пикселей и выравнивает коэффициенты, минимизируя ошибку. Таким образом, достигается лучший результат распознавания.
 
'''Пример нейронной сети'''
 
[[Файл:Пример нейронной сети для распознавания символов.jpg|thumb|800px| Пример нейронной сети для распознавания символов]]
 
На картинке в качестве примера схематически показана нейронная сеть, которая включает в себя 35 входов (каждый символ - матрица 7x5, соответственно, вектор, описывающий матрицу, состоит из 35 элементов) и 26 выходов (количество букв). Данная НС является двухслойной сетью. [[Практики реализации нейронных сетей#Функции активации|Функцией активации]] поставим логарифмическую сигмоидную функцию, которую удобно использовать, потому что выходные векторы содержат элементы со значениями в диапазоне от 0 до 1, что потом удобно перевести в булеву алгебру. На скрытый уровень выделим 10 нейронов (это число можно регулировать).
 
'''Пример на синтаксисе скриптового языка MATLAB'''
S1 = 10; ''% количество нейронов на скрытом слое''
[S2,Q] = size(targets); ''% количество нейронов на втором слое (количество выходов сети)''
P = alphabet; ''% входная матрица, содержащая информацию о буквах''
''% создаем новую сеть с использованием диалогового окна''
net = newff(minmax(P), ''% матрица минимальных и максимальных значений строк входной матрицы''
[S1 S2], ''% количество нейронов на слоях''
{’logsig’ ’logsig’}, ''% функция активации''
’traingdx’ ''% алгоритм подстройки весов и смещений (обучающий алгоритм)''
);
== Источники информации ==
* [https://en.wikipedia.org/wiki/Optical_character_recognition Wikipedia {{---}} Optical character recognition ]
 
 
[[Категория: Компьютерное зрение]]
17
правок

Навигация