Технологии анализа данных (Text Mining, Data Mining)
Автор : Казьмина Анастасия, 4 курс.
Руководитель, Образовательное учреждение
Кто владеет информацией — тот владеет миром. В наше время трудно переоценить значение аналитики и мониторинга социальных медиа. Для быстрого и успешного развития бизнеса и эффективного продвижения в интернет, эти этапы просто необходимы.
На сегодняшний день, всё большую популярность приобретают задачи, связанные с получением и накоплением новых знаний путём анализа ранее полученной информации. Возникла необходимость в создании больших хранилищ данных и систем поддержки принятия решений.
Рассмотрим подробнее технологию анализа данных.
Наиболее перспективные направления анализа данных:
- анализ текстовой информации
Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т.п. Текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля).
В это же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста (Text Mining).
Определение Text Mining: Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. «Неструктурированные текстовые данные» — набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру (web-страницы, электронная почта, нормативные документы).
Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:
- Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно — вручную.
- Предварительная обработка документов.
Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.
Методы и средства сбора информации
... информации. Автоматическая идентификация объединяет пять групп технологий, обеспечивающих решение проблемы сбора разнообразных данных: Технологии штрихового кодирования (Bar Code Technologies). 2. Технологии радиочастотной идентификации (RFID - Radio Frequency Identification Technologies). 3. Карточные технологии (Card Technologies). Технологии сбора данных (Data Communications Technologies). ...
- Извлечение информации. Выделение ключевых понятий для анализа.
- Применение методов Text Mining. Извлекаются шаблоны и отношения, имеющиеся в текстах.
- Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.
Приемы удаления неинформативных слов и повышения строгости текстов:
Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.
Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;
- Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.
Наиболее эффективно совместное применение всех методов.
Классификация (classification) — определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества
Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте.
Извлечения ключевых понятий (feature extraction) — идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.).
Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.
Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени.
Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.
Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов.
Примеры средства анализа текстовой информации:
Средства Oracle — Oracle Text2.
Средства от IBM — Intelligent Miner for Text1
Средства SAS Institute — Text Miner
Интеллектуальный анализа данных (англ. Data mining, другие варианты перевода — «добыча данных», «раскопка данных») — обнаружение неявных закономерностей в наборах данных.
Интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:
- специализированных «коробочных» программных продуктов для интеллектуального анализа;
- математических пакетов;
- электронных таблиц (и различного рода надстроек над ними);
- других программных продуктов.
Задачи интеллектуального анализа данных:
Задача классификации определение категории и класса каждому объекту.
Разработка базы данных и приложения для решения задачи «Автоматизация ...
... деятельности ресторана. Создаваемая база данных предназначена в основном для автоматизации деятельности основных подразделений ресторана, а именно кухня, бухгалтерия, а также обслуживания клиентов. Задачами курсового ... доля успеха складывается из отличного сервиса и оперативной работы персонала. Именно возможности автоматизации ресторана позволяют оптимально сочетать скорость и качество. Очевидны ...
Задача регрессии — поиск шаблонов для определения числового значения.
Задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. Учитываются тренды.
анализ text data mining
Задача кластеризации — деление множества объектов на группы (кластеры) с похожими параметрами. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.
Задача определения взаимосвязей — определение часто встречающихся наборов объектов среди множества подобных наборов.
Анализ последовательностей — обнаружение закономерностей в последовательностях событий.
Анализ отклонений — поиск событий, отличающихся от нормы.
Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.
1. Л.М. Ермакова Методы классификации текстов и определения качества контента. Вестник пермского университета 2011. УДК 004.912
2. А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И. Холод: Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP: БХВ-Петербург, 2007
3. <http://megaputer.ru/data_mining.php>
4. <http://www.compress.ru/article.aspx?id=10290&iid=424>
5. <http://www.iteam.ru/publications/it/section_92/article_1448/>
6. <http://www.piter.com/upload/contents/978549807257/978549807257_p.pdf >