История появления современных программ в области распознавания начинается с конца 40-х годов XX века, когда ученые многих стран стали работать над идеей обучения компьютера умениюрешать разные интеллектуальные задачи. Автоматическое чтение текста, распознавание речи, решение шахматных задач и головоломок и даже сочинение музыки и стихотворений — вот далеко не полный перечень идей, которые выдвигались и разрабатывались в то время. К концу 50-х годов эти идеи оформились в
отдельную область знания — искусственный интеллект. Одной из задач, которая вскоре выделилась вотдельное направление, была задача распознавания образов. Идеальная компьютерная система распознавания должна уметь формировать, анализировать и интерпретировать любое изображение, в том числе и символьное.
1 ПОНЯТИЕ OCR-СИСТЕМ
Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то есть перевести графику в цифровой вид,нужна система автоматического распознавания текста или оптического распознавания символов.
Система автоматического чтения текста OCR (Optical Charester Recognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл, который может быть прочитан средствами обработки текстов. Исходный текст должен быть вначале введен в ПК с помощью сканераили получен на факс-модем. Струтура OCR систем изображена на рисунке 1.1.
Рисунок 1.1 – Структура OCR систем
Автоматическое чтение печатных и рукописных текстов является частным случаем автоматического визуального восприятия сложных изображений. Многочисленные исследования показали, что для полного решения этой задачи необходимо интеллектуальное распознавание, т. е. «распознавание спониманием». Однако в настоящее время в технически реализуемых OCR-системах рассматриваемая проблема значительно упрощена и сведена к задаче классификации по признакам простых объектов. Эта задача описывается хорошо разработанным математическим аппаратом пороговых отделителей – разделяющими плоскостями.
В лучших OCR-системах используется технология распознавания, свойственная человеку. У человека распознавание образаявляется многоступенчатым.
Выделяются три принципа, на которых основаны все OCR-системы.
Указания к выполнению курсовой работы по гидромелиорации Система ...
... системы автоматического полива Литература [Электронный ресурс]//URL: https://inzhpro.ru/kursovaya/avtomaticheskiy-poliv/ Приложение Методические указания по выполнению курсовой работы В данном разделе определяется содержание разделов курсовой работы ... способам полива, углубляющих рассмотрение частных вопросов и связанных общей темой. К курсовой работе прикладываются распечатки оригинальных текстов и ...
* Принцип целостности образа: в исследуемом объекте всегда есть значимые части, между которыми существуют отношения. Результаты локальных операций с частями образа интерпретируются только совместно в процессе интерпретации целостных фрагментов и всего образа в целом.
* Принцип целенаправленности:распознавание является целенаправленным процессом выдвижения и проверки гипотез (поиска того, что ожидается от объекта).
* Принцип адаптивности: распознающая система должна быть способна к самообучению.
Графический образ символа на выходе сканера имеет вид шейпа, представляющего собой матрицу из точек, которую можно редактировать поэлементно.
На рисунке приведен пример шейпа буквы «л» или «п» (рис1.2).
Он ближе к букве «л», но без контекстной обработки утверждать это со 100%-ной уверенностью нельзя.
Рис. 1.2 — Пример шейпа
Система распознавания реализуется как классификатор. Алгоритмы распознавания (классификаторы):
1) Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшееколичество точек отличается.
Рисунок 1.3 – Шаблонный классификатор
2) Признаковые (позволяют анализировать не всё изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности);
3) Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры).
Структурными элементами являются…