Типовые проблемы, связанные с системами OCR
С задачей распознавания символов связаны следующие проблемы:
* # Разнообразие форм начертания символов* Документ может содержать несколько шрифтом сразу, что усложняет задачу распознавания текста. Некоторые символы похожи по начертанию (например, “G” и “6”, “S” и “5”, “U” и “V” и тд.) и в нестандартных шрифтах отличить их еще затруднительней* # Искажение изображения, содержащего текст- * Шумы при печати- * Изображение плохого качества (засвет, размытость)* # вариации размеров и масштаба символов.
Существенным является и влияние исходного масштаба печати, поэтому система оптического распознавания текста должна быть нечувствительной (устойчивой) по отношению к способу верстки, расстоянию между строками и другим параметрам печати.