Автоматическое чтение текста

Сочинение

История появления современных программ в области распознавания начинается с конца 40-х годов XX века, когда ученые многих стран стали работать над идеей обучения компьютера умениюрешать разные интеллектуальные задачи. Автоматическое чтение текста, распознавание речи, решение шахматных задач и головоломок и даже сочинение музыки и стихотворений — вот далеко не полный перечень идей, которые выдвигались и разрабатывались в то время. К концу 50-х годов эти идеи оформились в

отдельную область знания — искусственный интеллект. Одной из задач, которая вскоре выделилась вотдельное направление, была задача распознавания образов. Идеальная компьютерная система распознавания должна уметь формировать, анализировать и интерпретировать любое изображение, в том числе и символьное.

1 ПОНЯТИЕ OCR-СИСТЕМ

Для быстрого и качественного ввода текста в ПК используется сканер, работающий по принципу фотоаппарата. Чтобы «понять» текст, то есть перевести графику в цифровой вид,нужна система автоматического распознавания текста или оптического распознавания символов.

Система автоматического чтения текста OCR (Optical Charester Recognition) – компьютерная программа, позволяющая преобразовывать текст бумажного носителя в электронный текстовый файл, который может быть прочитан средствами обработки текстов. Исходный текст должен быть вначале введен в ПК с помощью сканераили получен на факс-модем. Струтура OCR систем изображена на рисунке 1.1.

Рисунок 1.1 – Структура OCR систем

Автоматическое чтение печатных и рукописных текстов является частным случаем автоматического визуального восприятия сложных изображений. Многочисленные исследования показали, что для полного решения этой задачи необходимо интеллектуальное распознавание, т. е. «распознавание спониманием». Однако в настоящее время в технически реализуемых OCR-системах рассматриваемая проблема значительно упрощена и сведена к задаче классификации по признакам простых объектов. Эта задача описывается хорошо разработанным математическим аппаратом пороговых отделителей – разделяющими плоскостями.

В лучших OCR-системах используется технология распознавания, свойственная человеку. У человека распознавание образаявляется многоступенчатым.

Выделяются три принципа, на которых основаны все OCR-системы.

7 стр., 3009 слов

Указания к выполнению курсовой работы по гидромелиорации Система ...

... системы автоматического полива Литература [Электронный ресурс]//URL: https://inzhpro.ru/kursovaya/avtomaticheskiy-poliv/ Приложение Методические указания по выполнению курсовой работы В данном разделе определяется содержание разделов курсовой работы ... способам полива, углубляющих рассмотрение частных вопросов и связанных общей темой. К курсовой работе прикладываются распечатки оригинальных текстов и ...

* Принцип целостности образа: в исследуемом объекте всегда есть значимые части, между которыми существуют отношения. Результаты локальных операций с частями образа интерпретируются только совместно в процессе интерпретации целостных фрагментов и всего образа в целом.

* Принцип целенаправленности:распознавание является целенаправленным процессом выдвижения и проверки гипотез (поиска того, что ожидается от объекта).

* Принцип адаптивности: распознающая система должна быть способна к самообучению.

Графический образ символа на выходе сканера имеет вид шейпа, представляющего собой матрицу из точек, которую можно редактировать поэлементно.

На рисунке приведен пример шейпа буквы «л» или «п» (рис1.2).

Он ближе к букве «л», но без контекстной обработки утверждать это со 100%-ной уверенностью нельзя.

Рис. 1.2 — Пример шейпа

Система распознавания реализуется как классификатор. Алгоритмы распознавания (классификаторы):

1) Шаблонные (шрифтозависимые) – растровое изображение накладывается на шаблон, содержащийся в базе данных, наиболее подходящим является тот, у которого наименьшееколичество точек отличается.

Рисунок 1.3 – Шаблонный классификатор

2) Признаковые (позволяют анализировать не всё изображение знака, а лишь некоторые признаки, вычисляется по формулам, не отвечает принципу целостности);

3) Структурные (содержат информацию не о точечном изображении символа, а о правилах начертания (или структуры).

Структурными элементами являются…