ИНТЕГРАЦИЯ OLAP И ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ ДЛЯ АНАЛИЗА БОЛЬШИХ ДАННЫХ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

ИНТЕГРАЦИЯ OLAP И ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ ДАННЫХ ДЛЯ АНАЛИЗА БОЛЬШИХ ДАННЫХ

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
В работе рассмотрены особенности технологий аналитической обработки данных, а именно OLAP и ИАД (интеллектуального анализа данных), а также их интеграция. Проанализированы основные преимущества и недостатки подобной интеграции. Описано применение вышеупомянутых методов работы с разнородной информацией больших объемов, методы хранения и работы с большими данными. Сформулирована основная задача, которую следует выполнить для реализации подобной интеграции на практике. Сделаны выводы по поводу целесообразности, обоснованности и практической ценности выбора данных.

OLAP (On-LineAnalyticalProcessing) - технология оперативной аналитической обработки данных, в которой используются методы и средства для сбора, и анализа многомерных данных, а также их хранения. Это необходимо для поддержки процедур принятия оптимальных и обоснованных решений [1].

У истоков технологии OLAP стоит основоположник реляционного подхода Э. Кодд, написавший в 1993 г. статью «OLAP для пользователей-аналитиков: каким он должен быть». В этой публикации были описаны основные концепции оперативной аналитической обработки. Также Кодд сформулировал 12 требований, которым должны удовлетворять продукты, позволяющие выполнять оперативную аналитическую обработку[2]:

  • Многомерность. В OLAP должно быть реализовано многомерное хранение информации;

  • Прозрачность. Реализация многомерной модели, средства организации, форматирования, обработки и хранения информации не должны быть представлены никаким лицам, кроме администратора. При этом OLAP-система должна предоставлять пользователю доступ к любым интересуемым данным, вне зависимости от его местоположения;

  • Доступность. Сотруднику аналитического отдела необходимо выполнять обязанности, согласно концептуальной модели. Несмотря на привязку данных к главной схеме анализа, они могут зависеть от исходной СУБД, при этом доступ к данным должен быть независимо от места и способа их хранения;

  • Гибкая производительность. Администраторы не должны замечать изменения, связанные с ростом объема информации в хранилище данных. При разработке отчетов производительность не должна существенно падать при увеличении количества измерений, по которым осуществляется анализ;

  • Клиент - серверная архитектура. Вся информация, используемая для аналитических запросов любой сложности, располагается в серверных системах, а извлекается с ПК;

  • Равноправие измерений. Весь набор измерений данных должны иметь одинаковое значение. Их начальная архитектура, располагающаяся в них информация и форматирование должны основываться на нескольких измерениях;

  • Динамическая обработка разреженных матриц. Средства OLAP должны оптимально обрабатывать матрицы, имеющие преимущественно нулевые элементы ;

  • Поддержка многопользовательского режима. Группа аналитиков должна иметь возможность параллельной работы с моделью, или разработки новой, согласно исходным данным компании. Также должна обеспечиваться целостность и безопасность информации;

  • Постоянная поддержка кросcмерных операций. Работа с информацией независимо от количества измерений не должна становиться помехой для непрерывной работы ячеек друг с другом;

  • Интуитивное манипулирование данными. Управление, свойственное архитектуре характера интеграции, должно быть интуитивно понятно, пользователям всех уровней должно быть удобно работать в подходящем и комфортном дружественном интерфейсе;

  • Гибкий механизм создания отчетов. Для наглядного отображения проанализированной информации и упрощения дальнейшего ее восприятия целесообразно использовать всевозможные методы визуального представления данных: графики, диаграммы, интерактивные отчеты и т.д.;

  • Неограниченное количество измерений и уровней агрегации. Необходимое количество измерений, как правило, выявляется при проектировании аналитической системы, зависит от ее сложности, требований к ней и видов анализа, который будет совершаться над данными. В относительно сложных системах могут быть необходимы десятки измерений для качественного анализа.

Главным преимуществом технологии OLAP является скорость обработки аналитических запросов (зависит от количества запрашиваемых данных в одном запросе и вида анализа, но не должно превышать 30с), которая зачастую становится определяющим фактором при анализе большого количества информации. На сегодняшний день в использовании находятся достаточно большие архивы разнородных данных, возможность анализа которых позволит не только ускорить обработку запросов, получения аналитической информации, но и приведет к созданию новых методов работы с нечеткими системами. Большой объем информации существенно усложняет обработку и анализ данных, но при этом позволяет исследовать данные с целью принятия экономически обоснованных, целесообразных и оптимальных решений. Одним из возможных решений выстраивания четкой структуры из разнородных, нерегулярных данных возможно применение технологии оперативной аналитической обработки данных – OLAP.

На фазе предарительного анализа производится отбор кластеров данных из всех возможных источников (максимально доступных) которые предполагается использовать в дальнейшем анализе (например, транзакционных баз данных, аналитических отчетов, печатной прессы и т.п.), полученный массив данных необходимо согласовать и привести к единому виду и типу. Для устранения противоречивости данных используются методы нечеткой логики. Также данные должны быть отфильтрованы, обобщены и обработаны должным образом в соответствии с поставленной задачей и требованиями, поэтому необходима единая система хранения, в которую будут загружаться предварительно подготовленные и обработанные данные, впоследствии используемые для анализа. Наиболее эффективная реализация системы хранения - проектирование и создание единого хранилища данных (ХД). Хранилище данных принято обозначать как предметно-ориентированную, интегрированную, неизменяемую (все процедуры обработки, обобщения, обогащения и прочие преобразования данных обязательно должны осуществиться до этапа загрузки в хранилище) и поддерживающую хронологию электронную коллекцию данных, используемых в дальнейшем для тщательного и комплексного анализа, за счет которого обеспечивается процесс принятия эффективных, целесообразных и оптимальных решений. Затраты на проектирование и разработку хранилищ данных обычно весьма высоки. Сокращение затрат может быть достигнуто путем создания упрощенного варианта хранилища – витрины данных – содержащей только тематически объединенные данные. Витрины содержат данные, ориентированные на конкретного конечного пользователя, значительно меньшие по объему, могут строиться как самостоятельно, так и совместно с хранилищами. Преимуществом такого решения является – быстрое внедрение, эффект от их использования также не заставит себя ждать. Главный недостаток - многократное хранение одних и тех же данных в различных витринах, ввиду невозможности разным ВД обращаться к одним и тем же данным, а значит, для каждой ВД их приходится хранить отдельно, поэтому избыточность данных прямо пропорциональна количеству витрин, работающих с одними и теми же данными. Также стоит отметить отсутствие консолидированности на уровне предметной области.

Источниками исходных данных для хранилища, как правило, являются базы данных реляционного типа, содержащие сущности в раздельных таблицах. Еще на этапе проектирования их нормализуют должным образом. Однако в подобных структурах используются не простые однотабличные транзакции, что ведет к увеличению временных затрат при их обработке. Уменьшение времени (возможность быстрой обработки) больших объемов аналитически ценной и полезной информации и снятию определенных рамок и реляционных ограничений, в OLAP используют особенная структура хранения - OLAP-куб.

OLAP-куб - многомерный массив данных, эффективно используемый для обработки и дальнейшего анализа большого объема информации, а также для предоставления пользователям возможности поиска и доступа к любой части пакета данных, является основным инструментом оперативного анализа данных. Использование данного массива имеет ряд преимуществ, таких, как возможность извлечения среза данных, детализация данных, интересных конкретным пользователям разных уровней. Осуществлять операции надо кубом (срез, вращение, консолидация и детализация данных) можно как с помощью средств СУБД, так и специализированным программным обеспечением. На рисунке 1 изображен пример бюджета продаж, построенного на основе аналитики «Продукты» в OLAP-кубе.

Рис 1. Пример бюджета продаж, построенного на основе одной аналитики «Продукты» в OLAP-кубе На практике используются три основных и наиболее часто используемых способа реализации многомерного хранения данных [3]:

● многомерный (MOLAP);

● реляционный (ROLAP);

● гибридный (HOLAP).

MOLAP [4] (Multidimensional OLAP) — представляется как множественная система, сформированная из нескольких самостоятельных значений, использующихся для анализа конкретного пакета данных. Параллельное исследование данных по нескольким измерениям определяется как многомерный анализ.

ROLAP [4] (RelationalOLAP) – представляет собой системы, осуществляющие непосредственный доступ к действующим БД или способные обрабатывать информацию, загруженную в собственные локальные таблицы.

Целесообразность использования той или иной схемы хранения данных определяется конкретной задачей и ее спецификой, особенностями, требованиями, видами аналитических запросов, которые будут осуществляться к разрабатываемой системе, для решения которой необходимо ХД. Например, если используется сравнительно небольшой объем данных, то, следовательно, необходима минимальная скорость обработки транзакции, с чем лучше справляется многомерная технология. Главный недостаток в данном примере - создание большого объема данных.

Способ ROLAP является подвижным, гибко масштабируемым и использующим относительно небольшое пространство памяти. В связи с данными характеристиками, скорость обработки информации удается значительно сократить.

Способ хранения HOLAP реализуется за счет совместного использования как многомерных, так и реляционных БД. HOLAP-серверы используют гибридную архитектуру, объединяющую вышеупомянутые технологии. Целесообразно использовать технологию MOLAP в том случае, когда данные более-менее плотные, а серверы ROLAP показывают лучшие параметры производительности тогда, когда данные довольно разрежены. Основная идея, которую удалось реализовать разработчикам технологии HOLAP, состоит в том, чтобы серверы HOLAP применяли подход ROLAP для разреженных областей многомерного пространства, а подход MOLAP - для плотных областей. Таким образом, серверы HOLAP разбивают запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, предоставляемые пользователю. Преимущества такого подхода – хранилище отлично масштабируется и не теряет скорость обработки данных, за счёт оптимального хранения для каждой области многомерного массива данных.

Технология OLAP успешно используется для эффективного анализа больших объемов данных. Для поиска информации которая может применяться при более глубоком анализе, имеющей не очевидные связи с запрашиваемой, но находящийся вместе с ней в одном массиве данных целесообразно применять интеллектуальный анализ. Интеллектуальный анализ данных (DataMining) - совокупность всевозможных методов обнаружения в исходной информации, ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых и полезных для принятия обоснованных и оптимальных решений. При этом полученные скрытые и неявные закономерности группируются до информации, могут быть описаны как новые знания.

В интеллектуальном анализе информации, как правило, выделяют три основных стадии (более подробно изображены на рисунке 2.):

  1. поиск неявных, трудно обнаруживаемых закономерностей;

  2. их применение для дальнейшего прогнозирования ненайденных значений;

  3. исследование исключений для поиска отклонений в найденных на первой стадии закономерностях.

Методы ИАД в целом обычно классифицируются двумя путями, связанными с обработкой входной информации: работа с начальными данными без их изменения и использование заранее формализованных закономерностей [4].

1 – исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений. Главный недостаток такого подхода - затрудненность использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят максимальную пользу.

2 – информация изначально извлекается из первичных данных и преобразуется в различные формальные конструкции. Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (не поддающимися трактам).

Рисунок 2. Стадии процесса ИАД

Таким образом, появился и стал активно использоваться комплексный анализ, для обозначения которого был введен следующий составной термин формализовавший обозначение вышеупомянутой интеграции – «OLAP Data Mining». Различают три наиболее распространенных и эффективно применяемых на практике вариантов интеграции:

  • «Cubing then mining» («Сначала кубирование, затем анализ информации»). Интеллектуальный анализ выполняется над любым фрагментом любой проекции гиперкуба показателей или над результатами различных запросов к многомерным данным.

  • «Mining then cubing» («Сначала анализ, затем кубирование»). При использовании этого метода интеграции результаты интеллектуального анализа представлены в гиперкубической форме, которая необходима для последующего многомерного анализа.

  • «Cubing while mining» («Одновременное кубирование и сбор данных»). Использование этого гибкого способа позволяет автоматически активизировать однотипные механизмы интеллектуальной обработки над результатом каждого шага многомерного анализа.

Основное назначение OLAP-систем - поддержка аналитической обработки информации, произвольных запросов пользователей – аналитиков, а цель OLAP-анализа - проверка возникающих гипотез, выявление тенденций и закономерностей, а ключевая особенность Data Mining - нестандартность и неочевидность разыскиваемых шаблонов. Средства Data Mining отличаются от OLAP-средств тем, что вместо проверки заранее предполагаемых гипотез, происходит самостоятельное нахождение и выявление скрытых закономерностей и тенденций, а также построение новых гипотез, на основе найденных взаимосвязей. Поэтому интеграция OLAP и Data Mining в системе поддержки принятия решений позволит значительно повысить эффективность ее использования, т.к., интеграция технологий OLAP и Data Miningобогащает и значительно расширяет функциональность и одной, и другой технологии. Данное взаимодействие дает возможность аналитикам не просто отслеживать состояние предметной области, но и быть в курсе неявных, неочевидных, скрытых тенденций и закономерностей, что позволит вовремя скорректировать стратегию управления предприятием, оценить эффективность внедрения какой-либо технологии и многое другое.

На этапе проектирования аналитической системы необходимо серьезно подходить к реализации многомерного анализа данных, т.к. во многом это определяет эффективность, ресурсоемкость, масштабируемость и другие критичные показатели системы. Оптимальность использования того или иного способа во многом зависит от способа хранения исходных данных и определяется спецификой предметной области, для которой проектируется и разрабатывается аналитическая система, прогнозируемым объемом анализируемой информации и теми требованиями, которым должна будет удовлетворять система. Таким образом, очевидно, в основе анализа больших объемов данных лежит многомерный и многокритериальный анализ, а повышение эффективности аналитических систем невозможно без интеграции технологииOLAPиData Mining, т.к. с помощью интеллектуального анализа производится построение гипотез, а цель OLAP-анализа – их проверка, а повышение эффективности исследования больших потоков информации происходит за счет единого интерфейса. Таким образом, интеграция данных технологий позволяет обогатить функционал друг друга, что позволяет пользователям всех уровней аналитических систем принимать оптимальные, эффективные и обоснованные решения.

Литература

  1. Альперович М. Технологии хранения и обработки корпоративных данных (Data Warehousing, OLAP, Data Mining). – http://www.sft.ru/

  2. Барсегян, А. А. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с.

  3. Макарова Н.В. Информатика: Учебник для вузов / Макарова Н.В., Волков В.Б. – СПб.: Питер, 2015. – 576 с.

  4. Krzysztof J. Cios, Data Mining: A Knowledge Discovery Approach, Springer 2007

  5. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. - 1997. - № 2.

Просмотров работы: 340