Гайдуков Никита Павлович

Реферат

Распознавание рукописного ввода – это способность компьютера получать и интерпретировать интеллектуальный рукописный ввод. Распознавание текста может производиться «оффлайновым» методом из уже написанного на бумаге текста или «онлайновым» методом считыванием движений кончика ручки, к примеру по поверхности специального компьютерного экрана .

Оффлайновый вид распознавания успешно применяется в сферах деятельности, где необходимо обрабатывать большое количество рукописных документов, к примеру, в страховых компаниях. Качество распознавания можно повысить, используя структурированные документы (формы).

Кроме того, можно улучшить качество, уменьшив диапазон возможных вводимых символов. Оффлайновое распознавание считается более сложным по сравнению с онлайновым.

Точное распознавание латинских символов в печатном тексте в настоящее время возможно только если доступны чёткие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99%, абсолютная точность может быть достигнута только путем последующего редактирования человеком. Проблемы распознавания рукописного «печатного» и стандартного рукописного текста, а также печатных текстов других форматов (особенно с очень большим числом символов) в настоящее время являются предметом активных исследований .

Актуальность

Широко исследуемой проблемой является распознавание рукописного текста . На данный момент достигнутая точность даже ниже, чем для рукописного «печатного» текста. Более высокие показатели могут быть достигнуты только с использованием контекстной и грамматической информации. Например, в процессе распознания искать целые слова в словаре легче, чем пытаться проанализировать отдельные символы из текста. Знание грамматики языка может также помочь определить, является ли слово глаголом или существительным. Формы отдельных рукописных символов иногда могут не содержать достаточно информации, чтобы точно (более 98 %) распознать весь рукописный текст.

Методы автоматического распознавания образов и их реализация в системах оптического чтения текстов (OCR-системах – Optical Character Recognition) – одна из самых плодотворных технологий ИИ .

В приведенной трактовке OCR понимается как автоматическое распознавание с помощью специальных программ изображений символов печатного или рукописного текста (например, введенного в компьютер с помощью сканера) и преобразование его в формат, пригодный для обработки текстовыми процессорами, редакторами текстов и т. д.

10 стр., 4778 слов

Этапы производства печатной продукции

... бумаге и носители с его электронной версией. Ввод текста На предприятии или в организации, выпускающих печатную продукцию (чаще всего в издательстве или в отделе допечатной подготовки), ... (OCR) С помощью технологии OCR (Optical Character Recognition – оптическое распознавание знаков) текст, представленный в рукописной или машинописной форме, преобразуется в цифровую форму и тем самым становится ...

Анализ подходов к проектированию систем оптического чтения текстов

Сокращение OCR иногда расшифровывают как Optical Character Reader . В этом случае под OCR понимают устройство оптического распознавания символов или автоматического чтения текста (см. Рисунок 1).

В настоящее время такие устройства при промышленном использовании обрабатывают до 100 тыс. документов в сутки. Промышленное использование предполагает ввод документов хорошего и среднего качества. Это соответствует задачам обработки бланков переписи населения, налоговых деклараций и т. п.

Рисунок 1 – Струтура OCR систем

Одной из таких систем является cognitive Forms фирмы Cognitive Technologies, которая предназначена для массового ввода структурированных документов (например, налоговых деклараций, бухгалтерских форм, платежных документов и т. д.).

Эта OCR-система представляет собой программный комплекс для массового ввода документов, имеющих стандартизованные формы. Его модули, установленные на компьютерах локальной вычислительной сети, способны взаимодействовать друг с другом, образуя конвейер обработки данных, производительность которого может составлять более 10 тыс. страниц в сутки.

Технология ввода документов в стандартизованных формах включает две стадии: подготовительную и основную. На первой стадии создаются шаблоны документов, которые планируется вводить. Шаблон описывает свойства документа и входящих в него элементов данных: структуру документа, размер страниц, состав элементов данных, размеры и расположение соответствующих им полей, типы данных, форматы их представления, наборы допустимых значений и др. Шаблон может быть построен на основе графического представления документа. Для создания и редактирования шаблонов предназначено средство Cognitive Forms Designer. Основная стадия состоит из шести этапов.

Первый. Сканирование. Перевод бумажных документов в цифровое графическое представление. Управление данным процессом обеспечивают модуль пакетного сканирования Cognitive Forms ScanPack и модуль постраничного сканирования Cognitive Forms AutoScan.

Второй. Сортировка и комплектация. Документ может состоять из нескольких страниц, ассоциируемых с разными шаблонами. На этом этапе выполняется группирование полученных ранее графических образов страниц в наборы, соответствующие документам. Указанная задача решается в автоматическом режиме модулем Cognitive Forms Processor, который осуществляет:

  • предварительную обработку графического представления и выделение графических примитивов (границ полей, строк текста и др.);
  • выбор наиболее релевантного шаблона документа;
  • выделение и распознавание элементов данных, значимых с точки зрения оценивания комплектности документа;
  • контроль комплектности на основе соответствия последовательности типов страниц структуре, указанной в шаблоне.

Третий. Корректировка результатов сортировки. Этот этап выполняет оператор, к которому поступают некомплектные документы. Он выясняет причины возникших проблем и устраняет их.

10 стр., 4507 слов

Компьютерные технологии текстовых документов

... документов в процессе подготовки текста к печати; автоматическое составление оглавления и алфавитного справочника. Практически все текстовые процессоры имеют уникальную структуру данных для представления текста. Каждое слово или даже символ ...

Четвертый. Распознавание основной информации. Процесс реализуется модулем Cognitive Forms Processor. Графические представления страниц и распознанные значения элементов данных записываются в БД системы. Для повышения точности распознавания осуществляется логический контроль и контекстный анализ получаемых результатов.

Пятый. Верификация результатов распознавания. Документы, содержащие элементы данных, которые не распознаны либо распознаны не однозначно (например, из-за низкого качества документа или нарушения правил его заполнения), направляются оператору. Для верификации и корректировки результатов распознавания служит модуль Cognitive Forms Editor.

Шестой. Экспорт распознанных документов для передачи внешним приложениям.

Проанализировав уже разработанные системы можно сделать вывод, что каждая из этих систем имеет свои недостатки. Например, система FineReader показала отличные результаты на рукописных текстах с отдельно написанными символами, однако в текстах со словами, написанными слитно, было допущено большое количество ошибок.

В OCR-системе Cognitive Forms также существуют некоторые недостатки. Например, она плохо работает с неструктурированным текстом, так как предназначена для работы текстом, который записан в формы, специализированные документы и т.п.

Отметим следующие особенности предметной области, существенные с точки зрения OCR-систем:

  • шрифтовое и размерное разнообразие символов;
  • искажения в изображениях символов (разрывы образов символов, например, при увеличении изображения; слипание соседних символов и др.);
  • перекосы при сканировании;
  • посторонние включения в изображениях;
  • большое разнообразие классов символов, которые могут быть распознаны только при наличии дополнительной контекстной информации.

Автоматическое чтение печатных и рукописных текстов является частным случаем автоматического визуального восприятия сложных изображений. Многочисленные исследования показали, что для полного решения этой задачи необходимо интеллектуальное распознавание, т. е. «распознавание с пониманием». Однако в настоящее время в технически реализуемых OCR-системах рассматриваемая проблема значительно упрощена и сведена к задаче классификации по признакам простых объектов. Эта задача описывается хорошо разработанным математическим аппаратом пороговых отделителей – разделяющими плоскостями .

В лучших OCR-системах используется технология распознавания, свойственная человеку. У человека распознавание образа является многоступенчатым.

Выделяются три принципа, на которых основаны все OCR-системы.

Принцип целостности образа: в исследуемом объекте всегда есть значимые части, между которыми существуют отношения. Результаты локальных операций с частями образа интерпретируются только совместно в процессе интерпретации целостных фрагментов и всего образа в целом.

Принцип целенаправленности: распознавание является целенаправленным процессом выдвижения и проверки гипотез (поиска того, что ожидается от объекта).

Принцип адаптивности: распознающая система должна быть способна к самообучению .

Графический образ символа на выходе сканера имеет вид шейпа, представляющего собой матрицу из точек, которую можно редактировать поэлементно. На рисунке приведен пример шейпа буквы «л» или «п» (см. Рисунок 2).

19 стр., 9201 слов

Системы распознавания речи

... цифр — получил нужную информацию . Существующие технологии распознавания речи не имеют пока достаточных возможностей для ... ­ются в различных областях деятельно­сти. Например, call-центр OmniTouch поставленный Ватикану компанией ... распознавании небольших сообщений нормальной речи, пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы, ...

Он ближе к букве «л», но без контекстной обработки утверждать это со 100%-ной уверенностью нельзя

Рисунок 2 – Пример шейпа

При контекстной обработке для распознавания «сомнительного» шейпа привлекается информация о результатах распознавания соседних элементов текста. В простейшем случае контекстом служит слово.

Информация об отдельном слове не всегда достаточна для принятия решения. Например, в слове «сто*» в позиции звездочки может располагаться как «л», так и «п». В таких случаях анализируемый контекст включает предложение или несколько предложений (фрагмент текста).

Реализация соответствующих механизмов связана с решением проблемы понимания текста на естественном языке.

Виды классификаторов

Ранее мы определили, что система распознавания реализуется как классификатор. Существуют три типа классификаторов:

  • шаблонные (растровые);
  • признаковые;
  • структурные.

В классификаторе первого типа с помощью критерия сравнения определяется, какой из шаблонов выбрать из базы (см. Рисунок 3).

Самый простой критерий – минимум точек, отличающих шаблон от исследуемого изображения.

Рисунок 3 – Шаблонный классификатор

Наиболее распространены признаковые классификаторы. Анализ в них проводится только по набору чисел или признаков, вычисляемых по изображению. Таким образом, происходит распознавание не самого символа, а набора его признаков, т. е. производных данных от исследуемого символа. Это неизбежно вызывает некоторую потерю информации.

Структурные классификаторы переводят шейп символа в его топологическое представление, отражающее информацию о взаимном расположении структурных элементов символа. Эти данные могут быть представлены в графовой форме. Такой способ обеспечивает инвариантность относительно типов и размеров шрифтов. Недостатками являются трудность распознавания дефектных символов и медленная работа.

В современных OCR-системах обычно используются все три типа классификаторов, но основным является структурный. Для ускорения и повышения качества распознавания применяются растровый и признаковый классификаторы .

Также применяется так называемый структурно-пятенный эталон и его фонтанное (от англ. font – шрифт) представление. Оно имеет вид набора пятен с попарными отношениями между ними. Подобную структуру можно сравнить со множеством шаров, нанизанных на резиновые шнуры, которые можно растягивать (см. Рисунок 4).

Данное представление нечувствительно к различным начертаниям и дефектам символов .

Рисунок 4 – Структурно-пятенный эталон.

(анимация: 7 кадров, 6 циклов повторения, 12 килобайт)

Алгоритм основан на сочетании шаблонного и структурного методов распознавания образов. При анализе образца выделяются ключевые точки объекта – так называемые «пятна».

В качестве пятен, например, могут выступать:

  • концы линий;
  • узлы, где сходятся несколько линий;
  • места изломов линий;
  • места пересечения линий;
  • крайние точки.

После выделения «пятен» определяются связи между ними – отрезок, дуга. Таким образом, итоговое описание представляет собой граф, который и служит объектом поиска в библиотеке «структурно-пятенных эталонов» .

5 стр., 2188 слов

Метод конструирования текста

... в качестве основных методов формирования культуры познавательной деятельности методов лингвосмыслового анализа учебно-научного текста, перекодирования его содержания и конструирования текста обусловлен их направленностью ... помощью цифр выделяется логика построения ответа, которая отражает взаимосвязь понятий; отражено соотношение теоретической и иллюстративной информации; опущена часть ответа, ...

При поиске устанавливается соответствие между ключевыми точками образца и эталона, после чего определяется степень деформации связей, необходимая чтобы привести искомый объект к сравниваемому эталонному образцу. Меньшая степень необходимой деформации предполагает большую вероятность правильного распознавания символа.

Методы оптимизации распознавания

Для повышения качества распознавания применяются различные методы предобработки изображений с текстом, например шумоподавление . Источниками шумов на изображении могут быть:

  • аналоговый шум:
    • грязь, пыль;
    • царапины;
  • цифровой шум:
    • тепловой шум матрицы;
    • шум переноса заряда;
    • шум квантования АЦП.

При цифровой обработке изображений применяется пространственное шумоподавление. Выделяют следующие методы:

  • адаптивная фильтрация – линейное усреднение пикселей по соседним;
  • медианная фильтрация;
  • математическая морфология;
  • размытие по Гауссу;
  • методы на основе дискретного вейвлет-преобразования;
  • метод главных компонент;
  • анизотропная диффузия;
  • фильтры Винера;

После распознавания может выполняться дополнительная коррекция, позволяющая увеличить качество распознавания спорных символов (то есть символов у которых есть несколько кандидатов с приблизительно одинаковой оценкой степени соответствия нескольким эталонам) на основе:

  • анализа буквосочетаний, характерных для языка;
  • словаря языка;
  • грамматического анализа;
  • и других методов.

Вывод

Автоматическое зрительное восприятие на сегодняшний день не достигает совершенства человеческого восприятия текста. Главная причина этого заключается в неумении строить достаточно полные и семантически выразительные компьютерные модели предметной области.

Проанализировав существующие методы распознавания текстов, можно сделать вывод, что лучше всего использовать метод струтурно-пятенного шаблона, так как он объединяет в себе достоинства многих методов и благодаря этому является достаточно гибким чтобы применить его при распознавании рукописного текста.

Список литературы

[Электронный ресурс]//URL: https://inzhpro.ru/referat/avtomaticheskoe-raspoznavanie-teksta/

  1. Абраменко А. Принципы распознавания / А. Абраменко – K:.Компьютер–пресс, 1997 – 123 с.
  2. – статья по искусственному интеллекту.
  3. Шамис А.Л. Принципы интеллектуализации автоматического распознавания / А.Л. Шамис – K:.2000 – 312 с.
  4. – сайт, посвященный нейронным сетям.
  5. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознавани / М. Шлезингер, В. Главач – М.:2004 – 112 c.
  6. Гаврилов Г.П. Логический подход к искусственному интеллекту / Г.П. Гаврилов – М.: Мир, 1998 – 256 с.
  7. Кучуганов А.В. , Лапинская Г.В. Распознавание рукописных текстов / А.В. Кучуганов, Г.В. Лапинская – Ижевск:.Мир, 2006 – 514 с.
  8. G.A.Carpenter and S. Grossberg Pattern Recognition by SelfOrganizing Neural Networks / G.A.Carpenter and S. Grossberg N.Y.:MIT Press, 1991 – 541 c.
  9. The First Census Optical Character Recognition System Conference / Wilkinsonet R.A. – Gaithersburg:Commerse, NIST, 1992 – 242 c.
  10. Шлезингер М., Главач В. Структурное распознавание / М. Шлезингер , В. Главач – Киев: Наукова думка, 2006 – 300 с.

Важное замечание

На момент написания данного реферата магистерская работа еще является не завершенной. Предполагаемая дата завершения: декабрь 2012 г., ввиду чего полный текст работы, а также материалы по теме могут быть получены у автора или его руководителя только после указанной даты.

9 стр., 4119 слов

Цифровые фото- и видеокамеры

... переходим серьезный рубеж и попадаем в мир цифрового видео. Теперь изображение и звук в Вашей камере будет ... храниться только в цифровой форме. Вы сможете пользоваться всеми преимуществами цифрового видео в полном объеме. Наиболее важные ... VHS 1.4 Видеокамеры формата С появлением цифровых видеокамер формата miniDV оказалось, что видео любители, стремящиеся к повышению качества изображения, ...