OLAP-технологии и хранилища данных

Реферат

В настоящее время для эффективной работы компании и принятия управленческих решений необходимо использовать большие потоки информации, как о внутреннем состоянии организации, так и о её внешней среде. Для этого необходимы инструменты, с помощью которых можно было бы хранить большой объем информации для принятия решений на основе фактических данных. В наше время без хранилищ данных не обходится практически ни одно предприятие. В данном реферате рассматривается понятие хранилища данных и раскрывается его структура. В работе освещена сущность и применение OLAP-технологий и логическая организация OLAP-данных, рассматриваются многомерное представление информации с помощью OLAP-кубов, а также основные термины и понятия, применяемые при обсуждении многомерного анализа.

  1. Хранилище данных

1.1 Сущность хранилища данных

В настоящее время в организациях принять какое-либо управленческое решение невозможно без необходимой для этого информации, чаще всего количественной. Для хранения больших объемов такой информации необходимо создание хранилищ данных (англ. Data warehouses), то есть предметно-ориентированная информационная база данных, которая специально разработана и предназначена для бизнес-анализа и подготовки отчётов с целью принятия управленческих решений.

Концепция хранилища данных появилась в 80-х годах после выхода в 88 г. статьи Пола Мерфи и Барри Девлина «Архитектура деловых и информационных систем», в которой было документировано использование хранилищ данных в IBM. Но основателями этой концепции считаются Билл Инмон с книгой «Building the Data Warehouse», опублинованной в 1991 году, и Ральф Кимбалл, книга которого «The Data Warehouse Lifecycle Toolkit» вышла в 1998 году. Б.Инмона определил хранилище данных как «предметно-ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений». Определение Р. Кимбалла называет хранилище данных «местом, где люди могут получить доступ к своим данным». Он также сформулировал основные требования к хранилищам данных:

  • высокая скорость получения данных из хранилища;
  • внутренняя непротиворечивость данных;
  • возможность получения и сравнения срезов данных;
  • удобный просмотр данных в хранилище;
  • полнота и достоверность хранимых данных;
  • качественный процесс пополнения данных.

Однако трудно удовлетворять всем этим требованиям в рамках одного продукта. Поэтому для реализации хранилищ данных чаще всего используют несколько продуктов, одни их которых служат непосредственно для хранения данных, другие — для их извлечения и просмотра, третьи — для их пополнения и т.д.

24 стр., 11887 слов

Технология принятия управленческого решения

... принятия решений не может существовать единственная, лучшая технология осуществления этого процесса. Природа изучаемого процесса – это информационный обмен. Именно информационная природа его (степень возможности получения полной и своевременной информации, ...

Хранилища данных строятся на базе СУБД и СППР. Система управления базами данных (СУБД) — это совокупность лингвистических и программных средств общего или специального назначения, которые обеспечивают управление созданием и использованием баз данных. СУБД выполняет такие функции, как управление данными во внешней и оперативной памяти, составление журналов изменений, резервное копирование и восстановление базы данных после сбоев, а также поддержка языков БД. Система поддержки принятия решений (СППР) — это автоматизированная компьютерная система, которая предназначена для помощи менеджерам, принимающим решение в сложных условиях для объективного и полного анализа предметной деятельности. СППР появились в результате слияния управленческих информационных систем и СУБД. Для анализа информации в СППР используются различные методы, такие как информационный поиск, интеллектуальный анализ данных, поиск знаний в базах данных, рассуждение на основе прецедентов, имитационное моделирование, когнитивное моделирование, ситуационный анализ и др.

Несмотря на то, что хранилище данных является информационной базой данных, оно имеет ряд отличий от обычной реляционной базы данных. Среди них выделяют три основных отличия:

  1. Назначение: обычные базы данных служат для того, чтобы помочь пользователям в выполнении повседневной работы, а хранилища данных необходимы для принятия управленческих решений.
  2. Стабильность: в процессе работы пользователей обычные базы данных постоянно изменяются. Хранилище данных относительно стабильно: данные в нем обновляются в соответствии с расписанием (каждую неделю, каждый день или час и т.д.).

    При этом обновление осуществляется путем добавления новых данных за определенный временной период, а прежняя, уже находящаяся в хранилище информация остается неизменной.

Существует большое количество методов построения хранилищ данных. Но, несмотря на различия в методах, подходах и реализациях, существуют общие черты, которые свойственны всем хранилищам данных. Эти черты были сформулированы Б. Инмоном в книге «Building the Data Warehouse». Основные из них:

  1. Предметная ориентированность. Информация в хранилище данных организована таким образом, чтобы соответствовать основным аспектам деятельности предприятия; в этом заключается отличие хранилища данных от оперативной базы данных, где данные организованы в соответствии с процессами. Другими словами, данные в хранилище объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют. Предметная организация данных в ХД значительно упрощает анализ и повышает скорость выполнения аналитических запросов.
  2. Интегрированность. Данные интегрированы таким образом, чтобы они удовлетворяли не одной определенной функции бизнеса, а всем требованиям организации в целом. Из оперативных баз данных извлекаются исходные данные, затем они подвергаются проверке, очистке, приводятся к единому виду и загружаются в хранилище. Анализ данных проводить проще, если они интегрированы таким образом.
  3. Привязка ко времени. Данные в хранилище всегда напрямую связаны с определенным периодом времени. Данные, выбранные их оперативных БД, накапливаются в хранилище в виде «исторических слоев», каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса.
  4. Неизменяемость (некорректируемость).
    11 стр., 5443 слов

    Обзор информационных технологий управления, предназначенных для ...

    ... для оперативной обработки данных. Называются подобные системы - OLTP (online transaction processing ) системы; - технологии, ориентированные на анализ данных и принятие решений. Эти технологии лежат в основе ... анализа данных внешние программы работы с электронными таблицами. Продукты этого класса в наибольшей степени соответствуют условиям применения в рамках крупных информационных хранилищ. Для ...

    Данные в хранилище не создаются (а поступают из внешних источников), не корректируются и не удаляются. Попав в хранилище, данные уже никогда не будут изменены. Это также является отличием хранилищ от баз данных, в которых данные все время меняются. Стабильность данных также облегчает процесс их анализа.

1.2 Архитектура хранилища данных

По своей архитектуре хранилища данных делятся на нормализованные ХД и хранилища с измерениями.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы (когда база данных приведена ко второй нормальной форме и каждый не ключевой столбец независим друг от друга).

Нормализованные хранилища являются более простыми в создании и управлении. Недостатком нормализованных хранилищ является большое количество таблиц вследствие нормализации. Из-за этого для получения какой-либо информации необходимо делать выборку одновременно из многих таблиц, а это ведет к ухудшению производительности системы.

В хранилищах данных с измерениями используются схему «звезда» или схему «снежинка».

Схема «звезды», звездоподобная схема, схема звёздного соединения, звёздная схема — это специальная организация реляционных таблиц, удобная для хранения многомерных показателей. Она лежит в основе реляционного OLAP.

Такая модель состоит из двух видов таблиц: одной таблицы фактов (fact table), которая является центром «звезды», и нескольких таблиц измерений (dimension table) — лучи «звезды».

Таблица фактов является основной для хранилища данных. Обычно, она содержит сведения об объектах или событиях, система которых будет впоследствии подвергаться анализу. Существует четыре наиболее часто встречающихся типа фактов:

  • факты, основанные на транзакциях (Transaction facts), т. е. на отдельных конкретных событиях;
  • факты, основанные на «моментальных снимках» (Snapshot facts), т. е. на состоянии объекта в определенные моменты времени;
  • факты, основанные на элементах документа (Line-item facts), т. е. на том или ином документе и на подробной информации об элементах этого документа;
  • факты, основанные на событиях или состоянии объекта (Event or state facts).

    Они представляют возникновение события без подробностей о нем.

Таблица фактов содержит одну или несколько колонок, которые дают числовую характеристику какому-либо аспекту предметной области, и несколько целочисленных колонок-ключей, которые необходимы для доступа к таблицам измерений.

Таблицы измерений включают неизменяемые или редко изменяемые данные. Чаще всего эти данные содержат по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат одно или более описательное поле и целочисленное ключевое поле для однозначной идентификации члена измерения. Если будущее измерение, основанное на исходной таблице измерений, содержит иерархию, то таблица измерений тоже может содержать поля, которые указывают на более высокую ступень для данного члена в этой иерархии.

9 стр., 4449 слов

Технологии OLAP, понятие ее реализации и структуры

... как анализ данных в офисных приложениях, так и более сложными - распределенными аналитическими системами, основанными на серверных продуктах. OLAP (On-LineAnalyticalProcessing) – технология оперативной аналитической обработки данных использующая средства и методы для ...

Обычно данные в таблицах измерений денормализованы. Ценой неэффективного использования дискового пространства удается уменьшить число таблиц, участвующих в операции соединения, что обычно приводит к сильному сокращению времени выполнения запроса. Иногда требуется произвести нормализацию таблиц измерений. Получившаяся в результате этого схема называется«снежинка» (snowflake schema).

Схема снежинки получила свое название за свою форму, в виде которой отображается логическая схема таблиц в многомерной базе данных. Так же как и в схеме звезды, схема снежинки состоит из централизованной таблицы фактов, соединенной с таблицами измерений. «Снежинка» отличается от «звезды» тем, что в ней таблицы измерений нормализованы с рядом других связанных измерительных таблиц, а в схеме звезды таблицы измерений не нормализованы, с каждым измерением, представленным в виде единой таблицы, без соединений на связанные таблицы в схеме снежинки. Чем больше таблицы измерений нормализированы, тем сложнее выглядит структура схемы снежинки. Такой «эффект снежинки» касается только таблицы измерений, и не применяется к таблицам фактов.

  1. Решение об использовании той или иной схемы, зависит от относительной мощности платформы базы данных и инструментов для реализации запросов. Схема звезды подходит среде, в которой инструментарий реализации запросов дает пользователям широкий доступ к структуре таблиц, а также в среде, где большинство запросов довольно просты по своей природе. Схема снежинки больше подходит для случаев с более сложным инструментарием для реализации запросов, который изолирует пользователей от детальной структуры таблиц, а также для среды с множеством запросов сложной структуры.

    OLAP-технологии

    1. Сущность OLAP-технологий.

Клиентские и серверные OLAP-средства

Одним из основных компонентов хранилища данных являются системы аналитической обработки данных. Разновидностью таких систем является OLAP-инструменты, необходимые для оперативной аналитической обработки данных.

Аббревиатура OLAP расшифровывается как Online Analytical Processing, что примерно переводится как обработка данных в реальном времени. OLAP как технология обработки данных заключается в подготовке агрегированной (суммарной) информации на основе больших массивов данных, которые структурированы по многомерному принципу.

Первой многомерной СУБД, по своей сути являющейся реализацией OLAP, считается система Express, которая была разработана в 1970 году компанией IRI (позднее права на продукт были приобретены корпорацией Oracle и превращён в OLAP-опцию для Oracle Database).

Основоположником термина OLAP является Эдгар Кодд. Он ввел его в журнале «Computerworld» в 1993 году. В своей пуликации Э.Кодд предложил 12 принципов аналитической обработки, аналогично с 12 правилами для реляционных баз данных, которые он сформулировал десятью годами ранее. В качестве характерного продукта, удовлетворяющего этим принципам, Кодд обратил внимание на систему Essbase компании Arbor (в 1997 году она была поглощена компанией Hyperion, которую, в 2007 году купила Oracle).

11 стр., 5263 слов

OLAP-технолрогии в менеджменте

... использования данных технологий для работы с отчетностями и другими статистическими показателями. Задачами данной курсовой работы являются: ознакомление с OLAP технологиями, построение алгоритмов проектирования OLAP-куба и создание запросов к построенной сводной таблице. Одной ...