С ч рис табл источников

Реферат

Теория распознавания образов является одним из основных разделов кибернетики, как в теоретическом, так и в прикладном плане. Так, автоматизация некоторых процессов предполагает создание устройств, способных реагировать на изменяющиеся характеристики внешней среды некоторым количеством положительных реакций.

Базой для решения задач такого уровня являются результаты классической теории статистических решений, в рамках которой разработаны алгоритмы определения класса, к которому может быть отнесен распознаваемый объект. На базе статистики за счет применения разделов прикладной математики, теории информации, методов алгебры логики, математического программирования и системотехники основана теория распознавания.

Кроме того, в основе теории распознавания графических образов лежат концепции теории обработки изображений. В процессе распознавания цветных объектов применяется фильтрация изображений, операции математической морфологии, изменение яркости и контраста изображений, квантование цвета и преобразование графических изображений в другие цветовые пространства. На данный момент распознавание образов – одно из ведущих направлений кибернетики: оно упрощает взаимодействие человека с компьютером и создает предпосылки для применения различных систем искусственного интеллекта. В данной работе рассматриваются методы деления изображений на цветовые составляющие, выделения, фильтрации и последующего распознавания образов из данного изображения.

1 Определения, связанные с теорией распознавания

Распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) — задача идентификации объекта или определения каких-либо его свойств по его изображению (оптическое распознавание) или аудиозаписи (акустическое распознавание) или другим характеристикам.

Образ — это описание объекта или процесса, позволяющее выделять его из окружающей среды и группировать с другими объектами или процессами для принятия необходимых решений [1].

Образы обладают характерными объективными свойствами в том смысле, что разные люди, обучающиеся на различном материале наблюдений, большей частью одинаково и независимо друг от друга классифицируют одни и те же объекты.

Изображение объекта — отображение какого-либо воспринимающего органа распознающей системы, независимо от его положения относительно этих органов. Множество изображений, объединенное какими-либо общими свойствами, называется образом. Методику отнесения элемента к какомулибо образу называют решающим правилом. Гистограммой называют графическое представление распределения яркостей изображения.

4 стр., 1730 слов

Современные направления развития теории организации

... определяющих ее функционирование, побудила исследователей к разработке новых подходов к теории организации. В современной теории можно выделить три основных направления: процессный подход; ситуационный подход; системный подход; ... является информация (рис. 1). Рис. 1. Связь теории организации с другими науками. Таким образом, теория организации является комплексной научной дисциплиной, впитавшей в ...

Признаком изображения называется его простейшая отличительная характеристика или свойство [2].

Некоторые признаки являются естественными в том смысле, что они устанавливаются визуальным анализом изображения, тогда как другие, так называемые искусственные признаки, получаются в результате его специальной обработки или измерений. К естественным признакам относятся светлота (яркость) и текстура различных областей изображения, форма контуров объектов. Гистограммы распределения яркости и спектры пространственных частот дают примеры искусственных признаков.

Метрика — способ определения расстояния между элементами некоторого множества. Чем меньше это расстояние, тем более похожими являются объекты (числа, функции, символы, звуки и другое).

Обычно элементы задаются в виде набора чисел, а метрика — в виде функции. От выбора представления образов и реализации метрики зависит эффективность программы, один алгоритм распознавания с разными метриками будет ошибаться с разной частотой.

Обучение — процесс выработки в некоторой системе той или иной реакции на группы внешних идентичных сигналов путем многократного воздействия на систему внешней корректировки. Такую внешнюю корректировку в обучении принято называть «поощрениями» и «наказаниями». Механизм генерации этой корректировки практически полностью определяет алгоритм обучения. Самообучение отличается от обучения тем, что дополнительная информация о верности реакции системе не сообщается.

Адаптация — процесс изменения параметров и структуры системы, а возможно — и управляющих воздействий, на основе текущей информации с целью достижения определенного состояния системы при начальной неопределенности и изменяющихся условиях работы.

2 Цветовые пространства

2.1 Человеческое зрение

Для человека цвет — психологическое ощущение, вызванное отражением света от объекта. Это ощущение возникает в мозге при возбуждении и торможении цветочувсительных клеток — рецепторов глазной сетчатки. В глазу человека содержатся два типа светочувствительных клеток, называемые фоторецепторами: высокочувствительные палочки и менее чувствительные колбочки.

Палочки функционируют в условиях относительно низкой освещенности и отвечают за действие механизма ночного зрения, однако при этом обеспечивают только нейтральное в цветовом отношении восприятие действительности. Колбочки работают при более высоких уровнях освещенности или яркости, чем палочки и отвечают за механизм дневного зрения, отличительной особенностью которого является способность обеспечения цветового зрения. Колбочки соответствуют красной, зелёной и синей частям спектра и часто называются длинными (L), средними (M) и короткими (S) согласно длинам волн, к которым они наиболее чувствительны. Каждое цветовое ощущение человека может быть представлено в виде суммы ощущений трех основных цветов: красного, зеленого и синего. Субъективное восприятие цвета зависит от многих параметров: яркости, скорости изменения яркости, цветовой температуры, цвета соседних объектов и физиологических отклонений.

2.2 Представление цвета в машинной графике

Понятие цвета возникает при описании восприятия глазами человека электромагнитных волн в определенном диапазоне частот . Человек воспринимает волны длинной от 400 нм — фиолетовый цвет, до 700 нм красный цвет [3].

59 стр., 29178 слов

Педагогические условия развития мелкой моторики с помощью нетрадиционных ...

... использованием нетрадиционных художественных техник. Предмет исследования: педагогические условия развития мелкой моторики с помощью нетрадиционных техник изображения у детей дошкольного возраста с задержкой психического развития. Цель работы : разработать и обосновать систему педагогической работы, направленную на развитие мелкой моторики у ...

Таким образом, самым общим описанием светового потока может служить его спектральная функция.

Пики на кривых чувствительности отвечают красному, зеленому и синему цветам. При этом следует заметить, что восприимчивость к синему цвету значительно ниже, чем к двум другим. Также важным свойством восприятия света человеком является его линейность: при освещении двумя источниками света со спектральными функциями , человек воспринимает их как один со спектральной функцией, равной сумме 1( )+ 2( ).

Этот факт называется законом Грассмана [3].

Так как области восприятия для разных типов колбочек перекрываются, то возникают метамеры — потоки волн с разными спектральными характеристиками, но воспринимаемые как имеющие один и тот же цвет.

В машинной графике цветовым пространством называют математическую модель представления цвета, в который каждый цвет представляет собой координату в некотором пространстве базисных цветов. Для большинства цветовых пространств отображение координат пространства в цвета является биективным, хотя в общем случае такое отображение сюръективно.

Цветоделением называют технологический этап воспроизведения цветного изображения, при котором свет сложного спектрального состава разделяется на несколько монохромный составляющих, каждая из которых содержит информацию только об одном цвете или другом параметре цветового пространства. Полученные в результате цветоделения изображения называются цветовыми каналами.

2.3 Цветовое пространство RGB

Из рассмотренной выше модели человеческого зрения вытекает, что достаточно обоснованной является трехмерная цветовая модель RGB, в которой базовыми цветами являются красный, зеленый и синий соответственно. Каждая координата цвета целочисленная и лежит в отрезке

  • Таким образом, модель RGB содержит цветов. Эта модель характеризуется свойством аддитивности в том смысле, что сложение двух цветов и будет составлять новый цвет, вычисленный по формуле (1).

Векторам в системе RGB соответствуют цвета градации серого, причем нулевому вектору соответствует черный цвет, а вектору — белый. Будем называть Когда одна из компонент достаточно велика то есть лежит в отрезке , а две другие в то есть малы, то получаемый оттенок близок к доминирующему цвету. Иначе, если величина двух каких-либо цветов велика, а оставшегося мала, то получаемые оттенки называют вторичными цветами. Их названия можно видеть в таблице 1.

Таблица 1 – Доминирующие и соответвующие им вторичные цвета

Доминирующие цвета Соответствующие им вторичные

цвета

R,G Yellow(Желтый)

R,B Magenta(Пурпурный)

G,B Cyan(Голубой)

Цветовая модель RGB нашла широкое распространение в технике, используется в мониторах и проекторах.

2.4 Цветовое пространство CIE LAB

CIE LAB (также обозначаемое как L*a*b) — цветовое пространство, введенное международной комиссией по освещению (фр. Commission internationale de l’éclairage) в 1976 году. Пространство представляет из себя трехмерное пространство , в котором можно представить бесконечное число цветов, включая те, что невидимы человеческому глазу. Для цифрового представления, CIE LAB отображается в ограниченное трехмерное целочисленное пространство. Зачастую L находится в пределах

13 стр., 6283 слов

Борьба с угрозами незаконного вмешательства в деятельность аэропортов ...

... авиационной безопасности аэропорта «Курумоч» по пресечению незаконного вмешательства в деятельность аэропорта Служба авиационной безопасности аэропорта «Курумоч» является самостоятельным структурным подразделением аэропорта и осуществляет в аэропорту комплекс ... а также в случае, если инспекторы не могут иденфицировать изображение предмета, хозяина багажа просят открыть багаж и показать этот ...

, a и b в пределах или

Величина L отвечает за яркость точки: L = 0 представляет черный цвет, L = 100 — белый. Значения a=0 и b=0 соответствуют нейтрально серым оттенкам. Ось a представляет красно-зеленую компоненту цвета, зеленые цвета находятся на отрицательных значениях абсцисс, красные — на положительных. Аналогично b представляет желто-голубые цвета, голубые на отрицательной части прямой, желтые — на положительной. В случае если a, b , нулем отсчета считается точка 128.

В модели, между элементами L,a,b заданы нелинейные отношения, предназначенные для имитации нелинейного отклика глаза. Кроме того, равномерные изменения компонентов в цветовом пространстве L*a*b стремятся соответствовать равномерным изменениям воспринимаемого человеком цвета, поэтому относительные расстояния или различия в восприятии между любыми двумя цветами в пространстве L*a*b можно аппроксимировать, рассматривая каждый цвет как точку в трехмерном пространстве. Тогда расстояние между цветами будет определяться через Евклидового расстояния между соответствующими точками [5].

3 Методы обработки изображения

3.1 Пороговая обработка ( Thresholding )

Пороговая обработка — простейший метод сегментации ч/б изображений. Заменяет каждый пиксель изображения на белый (255), если значение цвета больше, чем некоторый порог. Если значение пикселя меньше порога – цвет пикселя заменяется на черный (0).

Метод также называют бинаризацией. Если интересующий нас объект имеет белый цвет и расположен на черном фоне или наоборот, то определение точек объекта представляет собой тривиальную задачу установления порога по средней яркости. Порог средней яркости — значение, с которым сравнивается яркость каждого пикселя.

Пример: алгоритм автоматического подбора порога.

1) задать начальное приближение – порог (например, использовать половину яркости изображения);

2) разделить изображение на две части: область, в которой яркость пикселей меньше или равна пороговой; область, в которой яркость пикселей больше пороговой;

3) вычислить среднюю яркость на каждой области;

4) вычислить новый порог как среднее средних яркостей на вычисленных областях;

5) если новый порог отличается от предыдущего не больше, чем на заданную малую величину – то порог вычислен и равен новому порогу. Иначе заменить значение порога новым и повторить второй шаг. Кроме эвристических методов поиска порога, широко применяются и статистические методы, такие как метод Оцу. Метод Оцу предполагает наличия двух выделяющихся пиков на гистограмме. Метод находит такое значение порога при которых он находится на равном расстоянии от пиков. Пример работы метода Оцу можно увидеть на рис1. Когда изображение освещено неравномерно, используется адаптивная пороговая обработка. Суть её в том, что порог задается не глобально для всего изображения, а вычисляется локально для некоторой области. Это позволяет выделить контуры изображения там, где бинаризация с фиксированным для всего изображения порогом справиться не может.

3 стр., 1108 слов

Векторизация и растеризация изображений методы сжатия графических данных

... векторные контуры в точечные изображения и передавать их в соответствующие программы. Технология «drag-and-drop» Технология «drag-and-drop» («перенести и бросить» ... автоматическом режиме. Растеризация Методы сжатия графических данных Разделим существующие методы сжатия изображений на две условные категории ... размещен в центре документа на активном слое. Для перемещения векторного объекта в программу ...

Рисунок 1 – Пример бинаризации методом Оцу

3.2 Фильтрация изображений

3.2.1 Линейные фильтры

Сглаживающие фильтры делают изображения нерезкими или размытыми. В частности для сглаживания контуров фигур используются фильтр, называемый сверткой. Его суть заключается в том, что каждый пиксель изображения заменяется на некоторое среднее значение окружающих его пикселей. Каждый фильтр имеет свое ядро – матрицу коэффициентов, на которую умножаются соседствующие пиксели целевого изображения. Это ядро может иметь разную размерность, в зависимости от нее увеличивается или уменьшается интенсивность фильтра.

Простейшим фильтром свертки является фильтр усреднения [2].

У него квадратное ядро, каждый элемент равен где – размерность ядра. Ядро нормировано, чтобы процедура подавления шума не вызывала смещения средней яркости обработанного изображения.

Другой пример – размытие по Гауссу. Его ядро для пикселя размерности радиуса r вычисляется по формуле (2)

(2)

3.2.2 Нелинейные фильтры

Изображение может повреждаться шумами и помехами различного происхождения, например шумом видеодатчика, шумом зернистости фотоматериалов и ошибками в канале передачи. Их влияние можно минимизировать, пользуясь классическими методами статистической фильтрации. Другой возможный подход основан на использовании эвристических методов пространственной обработки. Шумы видеодатчиков или ошибки в канале передачи обычно проявляются на изображении как разрозненные изменения изолированных элементов, не обладающие пространственной корреляцией. Искаженные элементы часто весьма заметно отличаются от соседних элементов. Это наблюдение послужило основой для многих алгоритмов, обеспечивающих подавления шума.

Медианная фильтрация — метод нелинейной обработки сигналов, разработанный Тьюких. Он особо эффективен для фильтрации белого шума. Одномерный медианный фильтр представляет собой скользящее окно, охватывающее нечетное число элементов, изображения. Центральный элемент заменяется медианой всех элементов изображения в окне. Медианой дискретной последовательности для нечетного является тот ее элемент, для которого существуют элементов, меньших или равных ему

по величине, и элементов, больших или равных ему по величине [2].

Окно перемещается вдоль фильтруемого сигнала и вычисления повторяются. В отличие от фильтра усреднения центральный пиксель изображения не вычисляется, а заменяется некоторым пикселем из окна, что увеличивает качества фильтрации. Пример использования медианного фильтра можно увидеть на рис2. Медианный фильтр является нелинейным т.к. медиана суммы двух произвольных последовательностей не равна сумме их медиан, что в ряде случаев может усложнять математический анализ сигналов.

Рисунок 2 – Пример использования медианного фильтра к зашумленному изображению с тремя различными значениями радиуса окна фильтрации

3.3 Математическая морфология

Теория и техника морфологического анализа и обработки изображений основана на теории множеств. Рассмотрим бинарную морфологию: изображение представляется в виде прямоугольных бинарных матриц, где единица — означает белый цвет, а нуль – черный. Для каждой морфологической операции, так же, как и для фильтров, необходимо ядро, которое в данном случае называется структурным элементом [4].

10 стр., 4836 слов

Информатика программирование : Современные средства обучения ...

... средствам обучения Средства обучения (СО), используемые в образовательных учреждениях: натуральные объекты; модели; учебные приборы; экранно-звуковые средства обучения; печатные средства обучения; станки, верстаки, инструменты; средства ... и к тактильной коммуникации, созданием изображения рукой, а может использовать и ... карандашом на соответствующем экранном элементе, не составит никакого труда ...

Основные структурные элементы можно увидеть на рис3.

1 2 3 Рисунок 3 – Основные структурные элементы математической морфологии:

1) BOX[H,W] — прямоугольник заданного размера;

2) DISK[R] — диск заданного размера;

3) RING[R] — кольцо заданного размера.

Пусть P – координаты пикселей изображения. Базовые операции:

  • Перенос (3)

(3)

Операция сдвигает каждый пиксель изображения на вектор t

  • Наращивание(4)

(4)

Структурный элемент B применяется ко всем пикселям бинарного изображения. Каждый раз, когда начало координат(центр) структурного элемента совмещается с единичным бинарным пикселем, ко всему структурному элементу применяется перенос и последующее логическое сложение (логическое ИЛИ) с соответствующими пикселями бинарного изображения. Результаты логического сложения записываются в выходное бинарное изображение, которое изначально инициализируется нулевыми значениями.

  • Эрозия(5)

(5)

Если в некоторой позиции каждый единичный пиксель структурного элемента совпадает с единичным пикселем бинарного изображения, то выполняется логическое сложение центрального пикселя структурного элемента с соответствующим пикселем выходного изображения. В результате применения операции эрозии все объекты, меньшие, чем структурный элемент, стираются, объекты, соединенные тонкими линиями, становятся разъединёнными и размеры всех объектов уменьшаются.

  • Замыкание (6)

(6)

Операция замыкания «закрывает» небольшие внутренние «дырки» в изображении, и убирает углубления по краям области. Если к изображению применить сначала операцию наращивания, то мы сможем избавиться от малых дыр и щелей, но при этом произойдет увеличение контура объекта. Избежать этого увеличения позволяет операция эрозия, выполненная сразу после наращивания с тем же структурным элементом.

  • Размыкание (7)

(7)

Операция эрозии полезна для удаления малых объектов и различных шумов, но у этой операции есть недостаток — все остающиеся объекты уменьшаются в размере. Этого эффекта можно избежать, если после операции эрозии применить операцию наращивания с тем же структурным элементом. Размыкание отсеивает все объекты, меньшие чем структурный элемент, но при этом помогает избежать сильного уменьшения размера объектов. Также размыкание идеально подходит для удаления линий, толщина которых меньше, чем диаметр структурного элемента. Также важно помнить, что после этой операции контуры объектов становятся более гладкими.

4 Метод классификации изображении: персептрон

Для решения задачи классификации полученных отфильтрованных изображений очень эффективен метод классификации, основанный на персептроне. Персептрон, в свою очередь, основан на искусственных нейронах — модель клетки мозга.

Искусственный нейрон — взвешенный сумматор, единственный выход которого определяется через его входы и матрицу весов по формуле (8).

(8)

Здесь функция u называется индуцированным локальным полем, –

функцией активации или пороговой функцией, а и — соответственно есть сигналы на входах нейрона и веса входов. Функция активации определяет зависимость сигнала на выходе нейрона от взвешенной суммы сигналов на его входах. В большинстве случаев она является монотонно возрастающей и имеет область значений или , однако существуют исключения.

58 стр., 28511 слов

Совершенствование системы обучения персонала организации (на ...

... следующее понятие «обучение персонала». Обучение персонала представляет собой отрегулированный процесс получения знаний, овладения умениями обслуживания, способами общения сотрудников и навыками работы в сфере сервиса под руководством специалистов. В процессе обучения сотрудник получит такие знания, ...

Персептрон состоит из трех основных структурных элементов: Входного,

скрытого и выходного слоя. Скрытых слоев может быть несколько. Каждый слой в персептроне связан со следующим, причем связь полная то есть каждый нейрон первого слоя связан с каждым нейроном следующего. Ребра, соединяющие слои нейронов называют синапсами.

 Входной слой, традиционно, передает входной сигнал в каждый нейрон первого скрытого слоя;

 Скрытые слои состоят из нейронов, обычно в качестве функции активации используется (9)

(9)

 Выходной слой также состоит из нейронов, выходы выходного слоя интерпретируются как выходное значение персептрона. Чтобы предсказать некоторое событие или, например, определить цифру, изображенную на изображении, на входы персептрона подается значения, обычно в пределах [0,1], представляющее входные данные. Данные из входного слоя посредством синапсов подаются в первый скрытый слой нейронов. Пройдя все скрытые слои, сигнал попадает в выходной слой, значения на выходах, которых называют выходом нейронной сети или значением нейронной сети.

Обучение персептрона — вычисление таких коэффициентов для всех нейронов кроме выходных, при которых значение нейронной сети будет близкой к желаемому. Для обучения любой нейросети необходим некоторый опыт, который для персептрона представляется набором размеченных тестовых данных. Размеченными они называются потому, что каждому входному набору ставится в соответствие правильный ответ, который нейронная сеть должна выдать в качестве ответа.

Для обучения персептрона эффективен метод обратного распространения ошибки. Для реализации этого процесса необходимо понятие метрики. Метрика — функция, определяющее расстояние между точками некоторого пространства, в нашем случае пространства ответов R n [0,1] где н — кол-во выходных нейронов.

Обучение происходит следующим образом: на вход персептрона подается элемент обучающей выборки, сеть вычисляет свое выходное значение, вычисляется ошибка выходного слоя — расстояние между правильным ответом и ответом нейронной сети. Методом обратного распространения ошибки последовательно вычисляются значения ошибок для всех скрытых слоев персептрона, начиная с последнего, а затем веса искусственных нейронов, основываясь на величине ошибки, корректируются.

Преимущество этого метода заключается в том, что он может обучить все слои нейронной сети, и его легко просчитать локально для каждого слоя. Однако этот метод является очень долгим, к тому же, для его применения активационная функция нейронов должна быть дифференцируемой.

5 Программная реализация

5.1 Постановка задачи

Написать программу, которая бы распознавала числа из теста Ишихара – рис4.

Рисунок 4 – Оригинальная карточка теста Ишихара

Тест Ишихара — первый успешный тест восприятия цвета, состоящий из так называемых псевдо-изохроматических карточек. Назван в честь Японского ученого Shinobu Ishihara, который опубликовал этот тест 1917 году.

10 стр., 4862 слов

По курсу «Анатомия центральной нервной системы» «Строение нейрона ...

... функция, способствующая лучшему проведению биопотенциалов по отросткам нейронов. 2.1.2.Классификация нервных волокон Наиболее распространена классификация по Дж.Эрлангеру и Х.Гассеру (1937), в которой волокна разделяют на три типа: А, В и С (табл.3). Волокна типа А и ...

Тест содержит карточки, на каждой из которых изображена окружность, включающая в себя точки (окружности) разных цветов и размеров. Однако точки окрашены так, что некоторые из них выделяют фон, а остальные – цифру. Люди с нормальным цветовым восприятием могут отделить цифру от фона. Люди с дихроматическим зрением могут сделать ошибочные выводы, так как видят только два из трех доступных цветовых канала. Люди с монохроматическим зрением не смогут различить цифру.

Проведения теста Ишихара:

Тестируемому дается три секунды на то, чтобы определить цифру с карточки. Тестируемому не разрешается советоваться или трогать карточки. Некоторые из карточек «Легкие»: распознать цифру может даже человеку с монохромным зрением. Во избежание заучивания карточек они перемешиваются, так что «легкие» карточки подаются вперемешку с обычными.

Тест Ишихара используется повсеместно благодаря высокой точности и простоте тестирования.

5.2 Используемые технологии

OpenCV – библиотека алгоритмов компьютерного зрения с открытым исходным кодом. До первой версии разрабатывалась в Центре разработки программного обеспечения Intel (российской командой в Нижнем Новгороде).

OpenCV написана на языке высокого уровня (C/C++, Python) и содержит алгоритмы для интерпретации изображений, калибровки камеры по эталону, устранения оптических искажений, определения сходства, анализ перемещения объекта, определения формы объекта и слежения за объектом, 3D-реконструкции, сегментации объекта, распознавания жестов и т.д.

Получила широкое распространения благодаря открытости и возможности бесплатного использования как в учебных, так и коммерческих целях.

Keras — это библиотека с открытым исходным кодом, позволяющая легко создавать нейронные сети. Библиотека совместима с TensorFlow, Theano и другими библиотеками машинного обучения. Tensorflow и Theano являются наиболее часто используемыми платформами для разработки алгоритмов глубокого обучения, но они довольно сложны в использовании.

Keras напротив предоставляет простой и удобный способ создания моделей глубокого обучения. Ее создатель, François Chollet, разработал ее для того, чтобы максимально ускорить и упростить процесс создания нейронных сетей. Он сосредоточил свое внимание на расширяемости, модульности, минимализме и поддержке Python. Библиотека keras внесла большой вклад в коммерциализацию глубокого обучения и искусственного интеллекта, поскольку содержит современные алгоритмы глубокого обучения, которые ранее были не только недоступными, но и непригодными для использования.

Для тренировки персептрона и выявления закономерностей каждой отдельной цифры необходимо сгенерировать входной набор данных. Для создания тестового набора была использована несколько модифицированная бесплатная программа ishihara_generator. Также использовались шрифты google fonts.

5.3 Генерация тестового набора

Первый этап: генерация карточек Ишихара.

Посредством программы convert-im6 было сгенерированы изображения цифр разных шрифтов (30 случайно выбранных из 2000 имеющихся шрифтов) Таким образом, цифры на карточках в тестовой выборке имеют разную форму, что не даст персептрону переобучиться на единственном шрифте. Карточки генерируются в форме квадрата.

19 стр., 9057 слов

Игровая технология в обучении дошкольников говорению и пониманию иноязычной речи

... элементарными навыками разговорной иноязычной речи.[20] Цель исследования заключается в изучении игровых технологий обучения детей дошкольного возраста навыкам говорения и понимания иноязычной речи. Объект ... Через игру обеспечивается положительное эмоциональное воздействие на ребенка в процессе обучения. Организация игровой деятельности, которая позволяет сделать интересными и осмысленными даже ...

Для генерации карточек было выбрано 4 цветовые темы, изображенные на рис5.

Рисунок 5 – Примеры сгенерированных карточек

После генерации изображение зашумлялось: к яркости каждого пикселя каждого канала добавлялось -50 тире 50 единиц. В итоге было сгенерировано 1400 карточек Ишихара, что вполне достаточно для обучения.

5.4 Фильтрация и векторизация изображений

Для фильтрации изображений была использована библиотека OpenCV, а именно функции, реализующие бинаризацию, фильтрацию и методы математической морфологии. На первом этапе производилась бинаризация изображений. Все изображения делились на три категории:

 Канал A в среднем темнее, чем середина диапазона. Это значит, что на изображении преобладает зеленый или синий цвет. Следовательно, исходя из имеющихся цветовых тем, мы имеем красновато-бежевую цифру на зеленом фоне. В канале A красные цвета очень яркие, так что для отделения цифры достаточно применить к этому каналу бинаризацию с порогом чуть выше середины диапазона. Если же в среднем канал A светлый, рассматривается среднее значение яркости канала B

 При условии светлого каналов A и B получаем средний цвет в области красного. Из цветовых тем видно, что цифра скорее всего будет зеленой. Красный канал будет светлым, но зеленая цифра будет достаточно темной на ней. Поэтому к красному каналу применяется фильтр с высоким порогом, а после изображение инвертируется.

 В оставшемся случае получим средний цвет в районе серого и фиолетово-розового цвета. В этом случае цифра может быть красно-розовой на сером фоне. Таким образом, в канале A наблюдается сильный цветовой контраст, и метод бинаризации Оцу хорошо отделяет цифру от фона.

В итоге карточки преобразуются в черно-белые изображения, где на черном фоне белыми точками выделялась форма цифр. Следующий этап фильтрации объединяет эти точки в одну непрерывную фигуру. Это действие выполняется с помощью математической морфологии поэтапно:

Сначала изображение очищается от мелких шумов путем замыкания с небольшим ядром (Единичная матрица ).

После этого кружки объединяются в непрерывную фигуру путем замыкания с единичным ядром размера

К полученному изображению, для сглаживания ребер цифр, применяется медианный фильтр.

Полученные изображения методами openCV сжимаются до размера 28*28. Так как все тестовые карточки имеют квадратную форму, то сжатые изображения не имеют геометрических искажений. Размер сжатого изображения оптимален: на нем сохраняются все необходимые для распознавания признаки той или иной цифры. Увеличение размера входного изображения влечет за собой не линейный рост сложности обучения и не гарантирует увеличения точности распознавания чисел.

5.5 Реализация персептрона

Для реализации персептрона использовалось готовое решение – Фреймворк keras. Персептрон, с помощью которого распознавались отфильтрованные тесты, имел следующую архитектуру:

(10)

  • Выходной слой из 10 элементов, функция активации – softmax (11),

(11)

  • В качестве функции ошибки используется перекрестная энтропия (12),

(12)

Где o – вывод нейронной сети, t – верный ответ

В качестве алгоритма обучения используется RMSProp – несколько усовершенствованный метод градиентного спуска, включающий в себя метод бегущего среднего и адаптивность.

5.6 Тестирование

Тестирование было проведено на сгенерированном зашумленном наборе карт Ишихара. Этап выбора цветовых каналов, отделения цифр от фона и восстановления их формы прошел удовлетворительно. Вся выборка была разделена на тестовую и обучающую в соотношении 600/800. В результате обучения персептрона на обучающей выборке, точность распознавания на тестовых данных достигла 99%.

ЗАКЛЮЧЕНИЕ

В курсовой работе были рассмотрены методы представления, распознавания и обработки изображений, рассмотрены операции математической морфологии, реализовано приложение, решающая тест Ишихара.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

[Электронный ресурс]//URL: https://inzhpro.ru/referat/metodiki-i-tehniki-raspoznavaniya-lji/

1 Чабан. Л.Н. Теория и алгоритмы распознавания образов. Учебное пособие. М.: МИИГАиК. 2004. – 70с.

2 Прэтт У. Цифровая обработка изображений. М.: Мир, 1982. Т.2.

3 Алгоритмические основы построения растровой графики. URL https://www.intuit.ru/studies/courses/993/163/lecture/4491 (дата обращения: 10.12.2018).

4 Форсайт Д., Понс Ж.. Компьютерное зрение. Современный подход. изд. — М.: Вильямс, 2004. — 928 с.

5 Jain, Anil K. (1989).

Fundamentals of Digital Image Processing. New Jersey, United States of America: Prentice Hall. ISBN 0-13-336165-9.

ПРИЛОЖЕНИЕ А