Машинное обучение (2)

Дипломная работа
Содержание скрыть

машинный обучение образовательный студент

Постановка проблемы

Конкурс на поступление в высшие учебные заведения в Москве растёт в течение последних нескольких лет, нередко достигая сотен претендентов на одно место. Требования к Единому Государственному Экзамену ужесточаются, а проходные баллы в университеты увеличиваются. Абитуриенты при поступлении всё больше и больше начинают демонстрировать свои учебные и личные достижения: победы в олимпиадах, окончание школы с золотой медалью, сдача норм ГТО.[1] Однако далеко не все студенты, показавшие такие высокие результаты в ходе приёмной кампании, доучиваются до конца. Процент отчислений за академическую неуспеваемость оказывается достаточно высоким, особенно на младших курсах. По данным НИУ ВШЭ, среди студентов, зачисленных в бакалавриат в 2012 году, менее 85% получили дипломы в 2016. На отдельных факультетах процент отчисленных студентов существенно выше, например, только 52% студентов факультета прикладной математики и информатики окончили бакалавриат в 2016 году. [2] Такие цифры заставляют задаться вопросом, из-за чего именно студенты, показавшие высокие результаты и достижения в школе, не показывают их в университете, и можно ли предсказать академический успех или неудачу конкретного студента, основываясь только на тех данных, которые он предоставил приёмной комиссии.

Актуальность

Образование является сферой, в которой производится и накапливается большое количество данных.

— Традиционный образовательный процесс подразумевает тысячи часов, проведенных в учебном заведении и за выполнением различных заданий дома в течение многих лет. Такое взаимодействие студентов с учебными материалами генерирует множество информации.

— В системах управления образованием (LMS — Learning Management System) и образовательных онлайн платформах собирается данные о взаимодействии студента с онлайн системой, о его прогрессе и результате выполнения заданий и упражнений, о вовлеченности в групповые проекты и обсуждения.

За годы работы университет накапливает данные о своих абитуриентах: их пол, возраст, баллы за ЕГЭ по различным предметам, выигранные олимпиады и внеучебные достижения. Позже собираются данные об этих же людях, но уже как о студентах: их посещаемость, оценки по различным предметам, успехи в научной деятельности, какие типы заданий давались лучше или хуже, какие преподаватели вели курс.

Правильный анализ такой информации может помочь составить более полную картину процесса обучения, выявить полезные и, возможно, неочевидные связи: как уровень первоначальной подготовки влияет на успеваемость по конкретному предмету, зависит ли успех в освоении дисциплины от пола, посещаемости или преподавателя, студенты каких преподавателей показывают лучшие результаты. Методы машинного обучения могут позволить предсказать исход какой-либо ситуации, основываясь на исторических данных. В отличие от традиционных мер измерения результатов учащихся, таких как оценки и накопленные баллы, которые помогают измерять только конечный результат студента, применение методов машинного обучения может помочь педагогам и исследователям получить ценную информацию о том, как улучшить и персонализировать обучение, составлять прогнозы и рекомендации, проводить изменения в режиме реального времени, когда это имеет смысл и необходимо.

28 стр., 13531 слов

Теория и практика проблемного обучения в начальной школе

... поисковых методов в своей работе, а не передавать учащимся знания в готовом виде. Овладение такой способностью составляет суть готовности студентов к использованию элементов проблемного обучения при изучении математики. ...

Цель и задачи исследования

Цель данной работы — показать возможности применения машинного обучения в сфере образования на примере обзора существующего опыта, а также разработки модели предсказания успешности сдачи экзамена студентом на основе его предыдущих академических успехов.

Для достижения цели исследования были поставлены следующие задачи :

1. Изучить основы машинного обучения

2. Провести обзор сфер применения машинного обучения

3. Исследовать существующий опыт использования машинного обучения в сфере образования

4. Разработать модель предсказания успешности прохождения студентом определённой дисциплины.

Объект и предмет исследования

Объектом данного исследования является применение методов машинного обучения в образовании.

Предметом исследования является разработка модели, позволяющей предсказывать успешность сдачи студентом экзамена на основании его предыдущих учебных успехов.

Структура работы

Данная работа состоит из введения, трёх глав и заключения.

В первой главе содержатся основы машинного обучения: понятие, его виды, задачи и алгоритмы. Также в этой главе описаны сферы применения машинного обучения и возможные проблемы и недостатки. Вторая глава посвящена обзору существующего опыта применения машинного обучения различными образовательными учреждениями. В третьей главе описана разработанная модель, предсказывающая успешность освоения студентом определённой дисциплины, а также возможные перспективы развития. В заключении содержатся выводы, сделанные в ходе данной работы.

1.1 Понятие машинного обучения

Термин «машинное обучение» был впервые введён пионером в области компьютерных игр и искусственного интеллекта Артуром Самюэлем в 1952 году. Артур Сэмюель занимался созданием программы для игры в шашки, и в ходе этой работы была создана программа «Checkers-playing», которая смогла «научиться» играть в шашки лучше, чем её создатель. Таким образом, программа, продемонстрировавшая способность к самообучению на основе своего предыдущего опыта, опровергла суждение о том, что компьютеры способны выполнять только строго заданные для них алгоритмы. Артур Сэмюель определил машинное обучение, как «методы, позволяющие компьютерам учиться без непосредственного их программирования». [3]

Более формальное определение машинного обучения дал американский учёный в области науки о данных Том Митчелл: «Говорят, что компьютерная программа обучается на основе опыта E по отношению к некоторому классу задач T и меры качества P, если качество решения задач из T, измеренное на основе P, улучшается с приобретением опыта E» [4]

17 стр., 8082 слов

Оптимизация машинно-тракторного парка на основе энергоемких технологий ...

... Применяемые в сельском хозяйстве автомобили и колесные тракторы выполняют транспортные работы в объемах с соотношением соответственно 3:2. При этом тракторы осуществляют преимущественно внутрихозяйственные перевозки, а автомобили - внехозяйственные и частично внутрихозяйственные, в ...

Таким образом, машинное обучение представляет собой подраздел искусственного интеллекта, стоящий на стыке таких дисциплин, как математика, статистика, теория вероятностей, теория графов и изучающий алгоритмы, способные самостоятельно обучаться на основе опыта.

1.2 Виды машинного обучения

Существует несколько основных способов машинного обучения:

1. Обучение с учителем

2. Обучение без учителя

3. Частичное обучение

4. Обучение с подкреплением

обучении с учителем

обучении без учителя

Частичное обучение

обучении с подкреплением

1.3 Задачи машинного обучения

Машинное обучения позволяет решать ряд задач, самыми распространёнными из которых являются:

1. Классификация

2. Регрессия

3. Кластеризация

4. Фильтрация выбросов

Задача классификации

задачи регрессии

При прогнозировании оценок студента перед алгоритмом стоят именно эти задачи, так как на входе имеются данные о «ситуации», то есть наборе характеристик студента, и «решении», то есть оценке студента, при этом количество оценок может быть ограничено: например, разделение на два класса «зачёт» и «незачёт», 4 класса «отлично», «хорошо», «удовлетворительно» и «неудовлетворительно» или большее количество классов, а может быть и непрерывно для более глубокой детализации оценки.

Кластеризация

фильтрации выбросов

1.4 Алгоритмы машинного обучения

Существуют различные алгоритмы машинного обучения, на основе которых строится модель. Во многом выбор подходящего алгоритма зависит от характеристик набора данных, таких как объем, структура и качество. Также на выбор алгоритма влияет желаемый результат (двухклассовая или многоклассовая классификация, регрессия или фильтрация выбросов), требуемая точность предсказания и время, необходимое для обучения модели. Пример того, как можно выбрать подходящий алгоритм машинного обучения представлен на рисунке 1.

Рисунок 1. Выбор алгоритма машинного обучения, Microsoft Azure

Далее будут рассмотрены некоторые классы самых популярных и используемых алгоритмов.

Линейная регрессия.

Рисунок 2. Алгоритм линейной классификации, Microsoft Azure

Логистическая регрессия

Рисунок 3. Логистическая регрессия, Microsoft Azure

Деревья решений

Рисунок 4. Дерево принятия решений, Microsoft Azure

Методы опорных векторов

Рисунок 5. Метод опорных векторов, Microsoft Azure

1.5 Сферы применение машинного обучения

Согласно циклу зрелости технологий, опубликованному консалтинговой компанией Gartner в июле 2016 года, машинное обучение находится на так называемом «пике завышенных ожиданий» (Peak of Inflated Expectation), что означает, что данная технология популярна, является предметом обсуждения в обществе и от неё ожидают революционного эффекта. Также Gartner прогнозирует, что в течение 2-5 ближайших лет машинное обучение выйдет на уровень массового применения (mainstream adoption).

[14] Цикл зрелости технологий 2016 года представлен на рисунке 6.

Рисунок 6. Цикл зрелости технологий Gartner 2016 год

На данный момент технологии машинного обучения уже широко применяются в таких сферах, как:

18 стр., 8809 слов

Методы машинного обучения для моделирования и прогнозирования ...

... машинного обучения, как деревья принятия решений, нейронные сети, логистическая регрессия, наивный баесовский классификатор и машина опорных векторов. В результате были получены интересные данные. Так сравнивая работу ... рамках направления машинного обучения. Машинное обучение имеет широкий спектр аналитических методов, позволяющих проводить сложные, нетривиальные исследования данных. Основными ...

  • Оптимизация поиска в интернете
  • Обнаружение спама
  • Распознавание речи, жестов и образов
  • Рекомендательные системы
  • Персонализированный маркетинг
  • Кредитный скоринг
  • Выявление мошенничества
  • Страхование
  • Медицинская диагностика [15]

оптимизация поиска в интернете

обнаружение спама

Распознавание речи

распознавания образов

персонализированный маркетинг

кредитного скоринга

выявления финансового мошенничества

страхования

сфера медицинской диагностики

1.6 Возможные проблемы и недостатки

Несмотря на все преимущества и возможности использования таких методов анализа, существуют некоторые проблемы и опасения, касающиеся моральной, этической и правовой использования результатов. Например, при диагностике редких заболеваний выборка, на которой происходит обучение алгоритма, является несбалансированной. Это означает, что данных о людях, имеющих заболевание существенно меньше, чем о здоровых людях, что увеличивает вероятность неверного отнесения человека в класс «больных» или «здоровых».

Также алгоритмы могут выдавать неожиданные корреляции, которые повлияют на конечный результат. Например, машинное обучение используется для классификации людей по группам риска при страховании жизни. У различных национальностей и этнических групп есть свои отличительные особенности поведения в интернете: к примеру, евреи могут искать в интернете время захода солнца чаще, нежели другие группы людей. Поэтому страховые компании могут обнаружить корреляцию между поисковыми запросами о заходе солнца и болезнью Тея-Сакса, которая распространена практически только среди евреев. Поэтому корреляции связывающие различные запросы в интернете с риском заболевания какой-либо болезнью, могут поставить под угрозу некоторые группы населения, повысив им тем самым стоимость страхования. Также одной из проблем считается использование данных о желающих застраховаться агентах без их прямого разрешения, что может расцениваться как вторжение в личную жизнь.

Классификация риска путем использования методов машинного обучения может быть неэффективна еще и по той причине, что есть вероятность того, что определенные группы населения должны будут платить более высокие цены, когда есть сомнения, насколько это этично. Например, при медицинском страховании или страховании жизни должны учитываться такие факты, как то, что:

  • женщины сильнее подвержены затратам, связанным с рождением ребенка или возникновения рака груди;
  • ожидаемая продолжительность жизни мужчин меньше, чем у женщин;
  • афроамериканцы сильнее ассоциированы с затратами, связанными с лечением серповидно клеточной анемии.

Этот список можно продолжать довольно долго. Эти группы населения действительно сильнее подвержены риску по данным показателям, однако по социальным и этическим соображениям, а также потому, что, например, в США Конституция защищает различные группы граждан от дискриминации по половому, расовому, религиозному и прочим признакам, страховые компании предпочитают игнорировать эти факторы риска. Даже если выявится корреляция по поводу определенной группы людей, которая не защищается по своему отличительному признаку конституцией, отнесение людей из этой группы к какой-либо классификации риска может расцениваться как дискриминация, особенно, если у людей нет власти над этой характеристикой. Так, например, женщины, подвергавшиеся домашнему насилию, должны тратить больше денег на восстановление психического и физического здоровья. Поэтому встает вопрос, этично ли назначать такой категории людей высокую цену на медицинское страхование, ведь очевидно, что у женщин нет власти над этой характеристикой. [25]

19 стр., 9184 слов

Методика обучения технологии машинной вышивки

... обучения школьников машинной вышивке Машинная вышивка изучается в 11 классе в разделе «ХУДОЖЕСТВЕННАЯ ОБРАБОТКА ТКАНИ» и на ... выполнять графические работы, определять свою ... банка данных. Наличие ... Между тем технологическое обучение как ... курсе всех новшеств в развитии педагогической науки и методики технологии, должен изучать и делать анализ методической литературы. Результаты трудового обучения ...

Машинное обучение является технологией, позволяющей строить алгоритмы, способные самостоятельно обучаться на основе предыдущего опыта. В данной главе были описаны виды машинного обучения, какие задачи оно позволяет решать и с помощью каких алгоритмов. Также были описаны сферы, в которых машинное обучения уже активно применяется, и были даны примеры возможных недостатков и проблем, связанных с использованием машинного обучения.

2.1 Где и как образуются данные

Несмотря на то что использование методов машинного обучения во многих сферах уже укоренилось и считается общепринятым, в сфере образования данная технология ещё не нашла широкого применения.

Образование является одной из индустрий, в которой постоянно образуются новые данные. Данные накапливаются и в заведениях традиционного офлайн образования, таких как школы, колледжи, высшие учебные заведения, и в системах онлайн образования. [27]

Традиционные формы образования

В большинстве традиционных учебных заведений все еще отсутствуют специальные электронные образовательные системы, содержащие много онлайн-контента и позволяющие отслеживать взаимодействие обучающихся с этим контентом. Поэтому такие заведения в основном накапливают персональные данные учащихся, а также различные административные данные.

К персональным данным относится такая информация, как полное имя, дата рождения, паспортные данные, номера телефонов, адрес проживания, данные о социальных льготах. К персональным данным могут относиться и различные данные о родителях или законных представителях учащегося, если речь идет и школьнике.

К административным данным можно отнести успеваемость, посещаемость занятий, количество пропусков по болезни и количество прогулов, данные о предыдущих учебных заведениях и об основании поступления в нынешнее, данные о форме финансирования, если образования является платным.

Получать такие данные становится все проще с увеличением количества учебных заведений, внедряющих системы электронного журнала, электронного дневника и системы электронных пропусков.

Данные, создающиеся в электронной системе пропусков в учебное заведение, могут показать, например, как часто студент опаздывает, пропускает занятия, уходит пораньше или выходит покурить. [27]

Системы смешанного обучения

В последние четыре года все большую популярность набирает онлайн образование, но несмотря на то, что онлайн обучение становится все более востребованным, оно не сможет полностью заменить такие традиционные формы образования, как школы, колледжи, высшие учебные заведения. Многим учащимся необходимы личные советы и наставления преподавателей, возможность живой дискуссии по интересующему их вопросу.

В таких случаях лучшей моделью обучения является «смешанное образование». Смешанное обучение (англ. blended learning) подразумевает под собой комбинирование онлайн и очного обучения студентов. В системе смешанного обучения студенты могут посещать занятия, которые ведет учитель в традиционной обстановке классе, а также самостоятельно выполнять онлайн задания курса за пределами классной комнаты. Онлайн обучение может быть лишь малой частью процесса обучения — например, видео-лекции одного конкретного предмета, вебинары, онлайн тестирования и другие виды учебной деятельности могут только дополнять привычное учебное взаимодействие студента и преподавателя. В некоторых случаях учащиеся могут работать самостоятельно с онлайн лекциями, проектами и заданиями на дому или в другом месте, лишь периодически встречаясь с учителями, чтобы обсудить свои работы, задать вопросы или получить помощь в выполнении трудных заданий. В других случаях студенты могут проводить весь день в традиционном здании школы или университета, но они будут уделять больше времени, работая самостоятельно с различными электронными образовательными системами, нежели слушая лекции преподавателя. При переносе части учебной деятельности в цифровой формат образуются новые данные. Становится возможным контролировать каждый шаг учеников. Как много времени требуется студенту, чтобы ответить на вопрос, какие источники он использует, какие вопросы пропускает, какой тип информации усваивает лучше всего, а какой хуже.

В последние годы высшие учебные заведения начали внедрять системы управления образованием (англ. Learning Management System, LMS).

Такие системы позволяют распространять учебные онлайн-материалы, обеспечивать совместный доступ к ним студентов и преподавателей. В таких системах учащиеся могут выполнять различные задания, индивидуальные и групповые проекты, проходить тесты, следить за своей успеваемостью.

С растущей популярностью LMS появляются возможности собирать данные о взаимодействии студентов с электронной системой и онлайн контентом. К таким данным относятся количество просмотров одним студентом страниц с материалами, скорость просмотра страниц, время, проведенное пользователем в электронной системе.

Также LMS позволяет собирать данные об эффективности учебных материалов, например, отслеживать, к каким типам материалов чаще всего обращаются студенты, сколько времени тратят на выполнение заданий, на каких вопросах задерживаются. [27]

Образовательные онлайн платформы

Онлайн образование становится все более распространено и доступно для широких масс. Особой популярностью пользуются Массовые Открытые Онлайн Курсы (сокр.: МООК; англ. Massive open online courses, MOOC) — форма дистанционного образования с открытым доступом через Интернет. Чаще всего онлайн курсы содержат в себе видео лекции, материалы для чтения, различные задания для усвоения пройденного материала. Также онлайн курсы дают возможность интерактивного взаимодействия студентов с другими студентами и преподавателями.

Самыми известными и популярными платформами являются:

  • Coursera
  • edX
  • Udacity
  • MIT OpenCourseWare
  • FutureLearn
  • Khanacademy

Такие крупные онлайн академии имеют очень широкий охват аудитории, который стремительно увеличивается с каждым годом. На данный момент Coursera является самой крупной онлайн системой образования и на ее долю приходится чуть менее 50% всех студентов МООК. На конец 2015 года общее количество студентов, подписавшихся по крайней мере на один онлайн курс, составило 35 миллионов человек, из них 17 миллионов являются пользователями Coursera. [28] Количество студентов, подписавшихся на одну сессию одного курса, исчисляется десятками, а иногда и сотнями тысяч. Например, одна сессия курса «Understanding IELTS: Techniques for English Language Tests» от академии FutureLearn собрала 370 000 студентов. [29]

Таким образом, платформы МООК обладают большими возможностями для глубоко анализа данных о своих студентах, так как:

Во-первых, Во-вторых, В-третьих, В-четвертых

2.2 Применение методов машинного обучения

Дистанционное обучение

В основном методы машинного обучения используются образовательными платформами, которые позволяют автоматизировать процесс сбора, хранения и анализа данных. Первые исследования в этой области были проведены профессором математики Сотирисом Котсиантисом ещё в 2003 году. В своей статье об использовании техник машинного обучения для прогнозирования оценок студентов «Use of machine learning techniques for educational proposes: a decision support system for forecasting students’ grades» Котсиантис пишет, что использование машинного обучения в образовательных практиках это перспективное и развивающееся направление, направленное на разработку методов анализа данных и поиска значимых и полезных закономерностей. Автор отмечает, что огромное количество данных о студенте накапливается в процессе обучения. Котсиантис также делает акцент на онлайн обучении, так как там появляется возможность собирать не только персональные и демографические данные учащегося (пол, возраст, семейное положение, вид деятельности), но и информацию о его взаимодействии с системой: время, проведённое за просмотром обучающих материалов, скорость просмотра этих материалов, количество попыток прохождения теста, как много времени требуется студенту, чтобы ответить на вопрос, какие источники он использует, какие вопросы пропускает и на каких вопросах задерживается, какой тип информации усваивает лучше всего, а какой хуже. Хотя традиционные учебные заведения собирают информацию о нескольких потоках прохождения одного курса в течение нескольких лет, а образовательные онлайн платформы получают эту информацию за несколько сессий одного курса, подобные исторические данные будут полезны для анализа и построения алгоритмов машинного обучения. [30]

В статье о предотвращении отсева студентов в дистанционном обучении с использованием технологии машинного «Preventing Student Dropout in Distance Learning Using Machine Learning Techniques» Котсиантис описывает, как он использовал существующие методы регрессионного анализа с целью прогнозирования отметок студентов в системе дистанционного обучения. Он сравнивает некоторые из современных регрессионных алгоритмов, чтобы выяснить, какой алгоритм является более целесообразным не только для точного прогнозирования успеваемости, но также для использования в качестве аналитического инструмента поддержки и принятия решений для преподавателей. Имея перед собой информацию о текущей и прогнозируемой успеваемости студентов, преподаватели смогут свести к минимуму количество не справляющихся с обучением студентов, оказывая им поддержку и предоставляя дополнительные обучающие материалы.

Для своего исследования Котсиантис использует данные о 354 студентах дистанционного курса «введение в информатику» Эллинского Открытого Университета (Hellenic Open University).

Эллинский Открытый Университет предлагает образование университетского уровня, используя дистанционные методы обучения. Основной образовательной единицей курса «Введение в информатику», а также любого другого курса магистратуры или аспирантуры университета — это модуль, которому эквивалентны 3 или 4 семестра учебных занятий. Курс «Введение в информатику» состоит из 12 модулей и приводит к степени бакалавра. Студенты курса в течение учебного модуля должны сдать 4 письменных задания, а также принять участие в 4 дополнительных очных консультаций с преподавателями и сдать выпускные экзамены. Студент должен предоставить по крайней мере три из четырех заданий. Преподаватели должны оценивать эти задачи по 10-балльной системе оценивания греческих ВУЗов. В общей сложности студент должен набрать не менее 20 баллов за письменные задания, чтобы быть допущенным к итоговому экзамену. Для преподавателей же очень важно до середины учебного модуля определить студентов, которые имеют риск быть отчисленными, чтобы смочь оказать им дополнительную поддержку. Студенты редко сами заявляют о неспособности успешно закончить учебный модуль, однако есть некоторые индикаторы, способные указать на тех, кто вероятно может быть отчислен, до середины модуля. Все характеристики студента были разделены на две группы: личные и академические. Первая группа характеристик содержала только персональные данные студентов, во второй группе добавились данные об академической успеваемости за половину модуля. Полное описание всех характеристик можно посмотреть в таблицах 12 и 13 в приложениях.

Пять различных подходов машинного обучения были протестированы для того, чтобы построить алгоритм, который может наиболее точно предсказать будущие результаты студентов. К этим подходам относятся: дерево решений, нейронные сети, байесовские сети, логистическая регрессия и метод опорных векторов. Все эти модели подробно описаны Котсиантисом в его статье.

Фаза обучения состояла из пяти последовательных шагов. На первом шаге для обучающей выборки были использованы только демографические данные студентов в качестве «ситуации» и успешное или неуспешное окончание курса в качестве «решения». На этом шаге алгоритм показал точность модели 63%. На втором шаге в модель были включены данные о первой встрече студента с преподавателем, на третьем шаге добавилась информация о первом письменном задании, на четвёртом и пятых шагах была включена информация о второй встрече и втором задании соответственно. В ходе последнего этапа эксперимента точность модели достигла почти 84%. По результатам этого исследования Котсиантис отметил, что наибольшую точность показала модель, основанная на наивном байесовском классификаторе, для которого и приведены значения точности в таблице 1.

Таблица 1. Точность модели в зависимости от входных данных

Данные

Точность модели

Только демографические данные

63,06%

Добавлены данные о первой встрече

62,65%

Добавлены данные о первом задании

71,04%

Добавлены данные о второй встрече

72,94%

Добавлены данные о втором задании

83,89%

Наивный байесовский классификатор — это один из самых простых из алгоритмов классификации, основанный на теореме Байеса для определения вероятности принадлежности наблюдения (элемента выборки) к одному из классов. Смысл теоремы на простом языке можно выразить следующим образом: теорема Байеса позволяет переставить местами причину и следствие. Зная с какой вероятностью причина приводит к некоему событию, с помощью теоремы можно рассчитать вероятность того, что именно эта причина привела к наблюдаемому событию. Наивный байесовский классификатор позволяет легко и быстро произвести многклассовую классификацию и хорошо обучается на сравнительно небольших выборках, что и можно было наблюдать в проведённом эксперименте.

Также в статье было отмечено, что самое сильное влияние на точность модели оказывали именно оценки за письменные задания, встречи с преподавателями и уровень компьютерной грамотности на момент старта курса. Демографические же показатели, такие как пол, возраст, семейное положение не добавляли существенную точность предсказательной модели.

Платформа Knewton

Одной из первых компаний, начавших активно применять технологии анализа больших объемов данных в сфере образовании, является компания Knewton. Своей миссией компания считает персонализацию обучения в всем мире.

Компанией Knewton были разработаны универсальные алгоритмы сбора, анализа и использованию информации о прогрессе студентов. Knewton создала адаптивную образовательную платформу, которую можно подключить к любой современной системе управления учебным процессом (LMS).

Платформа включает в себя:

  • Систему сбора данных, собирающую информацию о знаниях студентов, уровне усвоения и понимания проходимых курсов.
  • Систему выводов, обобщающую информацию, основываясь на полученных данных об особенностях студента, его реакциях на изменение траектории обучения
  • Систему персонализации, которая на основе данных всей системы оценивает возможности студента, и с учётом этого корректирует цели и формирует оптимальную стратегию обучения каждого студента

Данные, используемые платформой для анализа собираются приложением внутри самого образовательного учреждения и передаются на сервер Knewton. Далее платформа анализирует полученные данные по сотням параметров (например, темп работы студента, его способность к обработке информации) и возвращает их в виде рекомендаций студенту или преподавателю, основанных на знаниях и потребностях учащихся. Система определяет пробелы в знаниях студентов и может порекомендовать конкретные действия для их устранения, например, обучающее видео, материалы для чтения или интерактивные упражнения. Технологии компании позволяют выполнять сложный анализ данных о показателях студентов в режиме реального времени, делать прогнозы относительно их успехов и неудач (например, скорость выполнения работы, вероятность достижения цели, вероятность выбытия из учебного процесса), определять сильные и слабые стороны каждого студента, вести личную статистику успеваемости студента на всех этапах обучения. [32]

Школа AltSchool

Среди обычных школ и университетов, которые собирают данные о своих учащихся, но практически не используют их для анализа, есть отдельные заведения, которые строят весь образовательный процесс вокруг технологий. Примером такого заведения является AltSchool.

AltSchool, образовательный стартап из Силиконовой долины, — это сеть частных микро-школ, запущенная бывшим исполнительным директором Google Максом Вентилла в 2014 году для развития персонализированного образования в США. [33]

AltSchool не похожа ни на одну из существующих в мире школ. Главной особенностью этой школы является то, что в ней используется разработанное специально для проекта программное обеспечение, позволяющее учителям персонализировать процесс образование для каждого ребенка, создавать индивидуальный план урока и всего курса для каждого конкретного ученика вместо единого для всех учебного плана. Родители в этой школе помогают преподавателям сформировать максимально полное представление о каждом конкретном ребенке и могут свободно участвовать в обсуждении индивидуальных планов, совместно с детьми и преподавателями решать, что именно они хотели бы изменить в учебном плане.

Для поступления в Altschool каждый ребенок проходит личное интервью, в ходе которого формируется Learner Profile, так называемый профиль ученика. В этом профиле максимально подробно описываются сильные и слабые стороны ребенка, его интересы, к чему он стремится и как лучше обучается. Это и является основной стартовой точкой для последующего создания индивидуальной программы обучения. Собеседование с каждым из учеников позволяет преподавателям определить, как следует выстроить взаимодействие в классе таким образом, чтобы сильные стороны одного ученика помогали развить слабые стороны другого.

Обычные классы в AltSchool заменены на микро-сообщества — группы до 20 человек, причем привычное всем разделение на классы по возрастному признаку отсутствует, группы формируются по уровню развития и способностей учеников.

В ходе занятий используются планшеты и различные другие цифровые устройства. Учебный день ребенка начинается просмотра своего индивидуального расписания занятий: для каждого составлен свой список заданий — как индивидуальных, так и групповых, причем каждое из заданий преследуют определённую конкретную цель. Приложение автоматически отслеживает посещаемость, успеваемость, следит за личными особенностями ребенка и вносит изменения в его персональный план обучения.

Индивидуальным программы основаны на потребностях и предпочтениях каждого ребенка, а задачи, которые в обычных школах отнимают время преподавателя, такие как, например, оценка успеваемости полностью автоматизированы. За счет того, что во всех учебных помещениях аудиовизуальные датчики, оценивающие грамотность речи учеников во время их разговора, необходимость в написании контрольных работ отпадает. Датчики также оценивают и внимательность детей — как часто они отвлекаются, одинаково ли мальчики и девочки участвуют в групповых обсуждениях. В это время учителя могут помогать детям реализовывать их потенциал и учить их. [27]

Традиционные ВУЗы

Традиционные школы и высшие учебные заведения имеют меньше возможностей для сбора данных, чем образовательные онлайн платформы. Однако всё больше университетов начинают внедрять системы управления образованием LMS, которые позволяют собирать и хранить данные автоматизировано. В высших учебных заведениях существует потенциал использования технологий машинного обучения для улучшения качества образования. Лекции в ВУЗах по своей природе менее интерактивные, чем школьные уроки — возможно, исходя из предположения, что старшие, более серьезные и ответственные студенты меньше нуждаются в индивидуальном подходе к каждому студенту, обратной связи от преподавателя и дополнительной мотивации к тому, чтобы оставаться сфокусированным на занятиях. Это означает, что студенты получают меньше отзывов о своей работе, а преподаватели меньше отзывов об эффективности их методов обучения, о которых часто судят только по финальным оценкам их студентов. [27]

Одной из задач, стоящей первед университетами, является сокращение количества отчисляемых студентов по причине академический задолжностей, то есть несданных экзаменов.

В 2012 году было проведено исследование, целью которого являлось проверить, возможно ли прогнозировать успех студентов первокурсников только по тем данным, которые были предоставлены ими при зачислении в университет. Успех студента измерялся по оценке, полученной на финальном экзамене по курсу «Бизнес-информатика» в конце первого курса. Было рассмотрено влияние на эту оценку различных социально-демографических факторов, предыдущих успехов в старшей школе и на вступительных экзаменах, а также отношение студента к учёбе. [34]

Авторы исследования делают упор на том, что все участники образовательного процесса выигрывают от анализа накопленных данных. В качестве иллюстрации авторы приводят цикл применения глубокого анализа данных в сфере образования. Цикл продемонстрирован на рисунке 7.

Рисунок 7. Цикл взаимодействия с образовательной системой, Romero, Ventura 2007

Студенты и преподаватели взаимодействуют с образовательными системами, тем самым накапливая данные об учебных планах и участии студентов в процессе обучения. После применения методов анализа данных, например, классификации или кластеризации, и студенты и преподаватели могут получить рекомендации по улучшению своей деятельности. [35]

В ходе исследования были собраны данные студентов первого курса факультета экономики университеты Тузлы. Данные собирались путём проведения опроса студентов после окончания первого курса и после удаления выбросов содержали информацию о 257 студентах. Данные содержали такую информацию как:

  • Пол
  • Количество членов семьи
  • Дальность проживания от корпуса
  • Уровень образования
  • Средний балл
  • Оценка за вступительный экзамен
  • Получает ли студент стипендию
  • Количество часов в неделю, уделяемых учёбе
  • Материалы, которые используются для подготовки
  • Использование интернета в образовательных целях
  • Важность оценки для студента
  • Доход студента

Полную информацию о всех собранных данных можно посмотреть в таблице 14 в приложениях.

В ходе эксперименты было построено три предсказательных модели, на основе таких алгоритмов, как наивный байесовский классификатор (NB — naпve Bayes), дерево решений (decision tree) и многослойный перцептрон (MLP — multilayer perception).

В таблице 2 приведён сравнительный анализ выбранных подходов по трём заданным критериям.

Таблица 2. Сравнительный анализ различных классификаторов

Критерий оценки

Классификатор

NB

MLP

Decision tree

Время на построение модели (в секундах)

0

4.13

0

Количество верно классифицированных

197

183

190

Количество неверно классифицированных

60

74

67

Можно заметить, что наивный байесовский алгоритм и дерево решений практически не требуют время на анализ данных, при этом наибольшую точность показала модель, основанная на именно наивном байесовскм алгоритме, что продемонстрировано на диаграмме 1. Аналогичный результат был получен и С. Котсиантисом.

Диаграмма 1. Точность модели

Однако авторы статьи также обращают внимание на то, что для построения системы принятия решений, основанной на использовании методов машинного обучения, алгоритм принятия решений должен быть максимально прозрачен и понятен пользователям системы. Среди рассмотренных алгоритмов самым понятным для неподготовленного человека является дерево решений, так как оно может быть преобразовано в набор правил «Если-то», а это самая простая форма представления модели, которую легко понять и интерпретировать. [34]

В данной главе было рассказано, как именно и какие данные образуются в сфере образования, а также приведены примеры того, как различные образовательные учреждения применяют машинное обучение для анализа этой информации.

3.1 Постановка задачи

В качестве практической части данного исследования была поставлена задача разработки модели машинного обучения, которая могла бы предсказывать сдаст ли тот или иной студент определённую дисциплину, основываясь на данных о его предыдущих академических успехах. Такое предсказание должно осуществляться за какое-то время до экзамена, например, 2-4 месяца, чтобы эта информация могла быть использована: студенты успели бы приложить больше усилий к освоению этой дисциплины, а преподаватель имел бы возможность уделить этим студентам больше внимания. В терминах машинного обучения стоит задача обучения с учителем, а именно задача классификации.

3.2 Сбор данных

Для построения предсказательной модели были использованы данные студентов Национального Исследовательского Университета Высшей Школы Экономики факультета Экономики образовательных программ «Экономика» и «Экономика и статистика». Были взяты данные абитуриентов и студентов первого курса набора 2014 и 2015 годов. В первую очередь были собраны данные абитуриентов , для которых известны следующие характеристики:

  • Фамилия, имя и отчество абитуриента
  • Баллы за ЕГЭ по предметам Математика, Русский язык, Обществознание и Иностранный язык
  • Был ли получен этот балл именно за ЕГЭ или по результатам выигранной олимпиады абитуриенту были присуждены 100 баллов за этот предмет.

После были взяты данные об успеваемости студентов в течение первого курса: рейтинги студентов за первый и второй семестр до пересдач. Были выбраны именно рейтинги до пересдач, так как они наиболее точно отражают уровень знаний студента на момент сдачи экзамена, и показывают больший разброс полученных оценок. В Высшей Школе Экономики принята десятибалльная система оценивания, для которой существует следующая шкала перевода количественной оценки в качественную, представленная в таблице 3:

Таблица 3. Перевод оценки из 10-балльной шкалы в 5-балльную

10 -бальная шкала

5 — балльная шкала

8,9,10

Отлично (5)

6,7

Хорошо (4)

4,5

Удовлетворительно (3)

0,1,2,3

Плохо (1,2)

Для каждого студента в рейтинге содержалась информация о его имени, месте в рейтинге, группе, оценке за экзамен или зачёт по каждому предмету данного семестра по десятибалльной шкале, средний балл, минимальный балл, а также наличие неудовлетворительных оценок.

Было решено анализировать данные для студентов образовательных программ «Экономика» и «Экономика и статистика» вместе, так как:

  • на оба направления принимаются одинаковые вступительные экзамены (ЕГЭ по математике, русскому языку, иностранному языку и обществознанию)
  • программы первого курса по основным предметам совпадают (совпадают учебные дисциплины, темы, которые должны быть освоены, часы, выделенные на лекционную, семинарскую и самостоятельную работу)

Все данные были взяты с сайта НИУ ВШЭ в момент, когда они были доступны.

3.3 Инструментальные средства

Для предварительной обработки данных была выбрана программа для работы с электронными таблицами Microsoft Excel, с помощью которой можно объединить данные из нескольких источников и провести их первичный анализ.

Для построения машинного обучения был выбран высокоуровневый язык программирования python. Разработка проходила в Jupyter Notebook, веб-оболочке программе Anaconda, которая является дистрибутивом языка программирования python, включающим в себя набор библиотек для крупномасштабной обработки данных, научных вычислений и прогнозной аналитики.

Для загрузки данных и проведения вычислений были подключены следующие библиотеки:

  • NumPy — базовая библиотека для научных вычислений в среде Python, позволяющая поддержку массивов, матриц и функций для работы с этими типами данных.