Для эффективного хранения информации широчайшим образом используются операционные БД (OLTP) и соответствующие программные средства - СУБД. Получить данные из базы можно путем организации запроса на языке SQL.
Однако принятие стратегических решений на основе сведений из OLTP-системы во многих случаях затруднено. Особенно сложной становится попытка качественного и всестороннего анализа большого объема оперативной информации, накопленной в конкретной организации за многие годы. Поэтому ретроспективные данные сегодня сохраняются в отдельных базах, доступных лишь для чтения и дальнейшей аналитической обработки, например, по технологии OLAP (OnLine Analytical Processing).
Хранилище данных (DataWarehouse) - оптимально организованная БД, содержащая данные, агрегированные по многим измерениям, и обеспечивающая максимально быстрый доступ к информации, необходимой для принятия управленческих решений [1]. Агрегаты (или суммарные показатели) хранятся в явном виде, чтобы ускорить выполнение аналитических запросов. Пополнение ХД происходит периодически из различных внешних источников, в том числе - из статистических отчетов.
Базовая концепция OLAP имеет несколько разновидностей: OLAP со многими измерениями (Multidimensional OLAP - MOLAP); реляционный OLAP (Relational OLAP - ROLAP); гибридный OLAP (Hybrid OLAP - HOLAP) и др. В настоящее время большое распространение получили реляционные ХД, не требующие от клиентских станций столь значительных вычислительных мощностей, как инструменты MOLAP. Для реализации ROLAP-систем могут использоваться встроенные в СУБД аналитические средства, например, MS SQL Server Analysis Services, либо аналитические платформы, такие как платформа Deductor от российского разработчика BaseGroup Labs.
Основными этапами создания ХД в программе Deductor Studio Academic являются: проектирование структуры хранилища, формирование ROLAP-схемы «снежинка», загрузка внешних данных в ХД и, наконец, визуализация данных из хранилища. На этапе проектирования осями многомерной системы координат назначают основные атрибуты анализируемого управленческого или бизнес-процесса. Например, для ХД “Фармация” это товар, отдел и дата продажи [2]. В качестве одного из измерений обязательно используется время. На пересечениях осей-измерений находятся данные, количественно характеризующие процесс – меры (на рис. 1 это сумма продажи и количество единиц товара). Концептуальную модель ХД представим в виде многомерного куба (рис. 1)
Рисунок 1 – OLAP-куб «Выручка и объем продаж лекарств в аптечной сети»
На логическом уровне многомерная модель воплощается в реляционную схему «снежинка» (рис.2), обеспечивающую максимально эффективную работу с иерархиями:
Рисунок 2 – ROLAP-схема «снежинка» (нотация IDEF1X)
Подобную схему построения реляционного ХД в Deductor Studio Academic реализуют с помощью редактора метаданных. При этом для каждого узла метаданных измерения или его атрибута задают идентификатор, метку и тип данных. Например, для измерения «Товар» это будут TV_ID, Код_товара и целый тип, соответственно. Затем определяют ссылки или иерархию измерений и их связь с центральной таблицей фактов (рис.3). Следующим важным этапом является загрузка внешних данных в ХД. Источниками структурированных данных в образовательной версии платформы Deductor Academic могут служить обычные txt-файлы.
Рисунок 3 Семантический слой реляционного ХД «Фармация»
Сценарий загрузки имеет древовидную форму, его узлами является последовательность таких операций как: 1) импорт данных из внешних источников; 2) экспорт данных в измерения с атрибутами, начиная с самого верхнего уровня иерархии (с измерения «Группа_товаров»); 3) экспорт данных в процесс «Продажи». Фрагмент сценария загрузки из файла проекта MyLoad.ded, изображен на рис. 4.
Рисунок 4 Панель сценариев ХД «Фармация»
На заключительном этапе с помощью мастера визуализаций создают сценарий получения данных из ХД и формируют OLAP-отчеты. Они представляют собой 3-мерные таблицы, в заголовках строк и столбцов которых содержатся аналитические признаки (срезы данных) с вложенной группировкой, а в ячейках – суммарные показатели отчета.
Список литературы:
Артюшина Е.А., Бершадская E.Г. Реляционное хранилище данных для внутривузовской системы обеспечения качества подготовки специалистов // XXI век: итоги прошлого и проблемы настоящего плюс: Научно-методический журнал – Пенза:Изд-во Пенз.гос.технол.ун-та, 2013. - № 10(14). - C.184-189.
Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учеб. пособие. 2-е изд., испр. СПб.: Питер, 2013. 704 с.