Некоторые особенности ETL-процесса для таблиц измерений - Студенческий научный форум

XI Международная студенческая научная конференция Студенческий научный форум - 2019

Некоторые особенности ETL-процесса для таблиц измерений

Кузьмина Ю.В. 1
1Брянский государственный университет имени академика И. Г. Петровского
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Хранилище данных– это набор интегрированных, предметно-ориентированных, неизменчивых, поддерживающих хронологию баз данных, разработанных с целью выполнения функций систем поддержки принятия решений [1]. Система ETL (extract, transform, load) служит для сбора данных из различных источников, приведения их к удобному для анализа виду и загрузки в хранилище.

В большинстве случаев мы имеем дело с многомерным хранилищем данных. Оно состоит из таблиц двух видов: таблиц фактов и таблиц измерений. Таблицы фактов содержат данные, которые впоследствии будут анализироваться, а таблицы измерений – различную дополнительную информацию: атрибуты сведений из таблицы фактов.

Для таких данных в таблицах измерений, которые не изменяются или изменяются редко, существует термин – медленно меняющиеся измерения (Slowly Changing Dimension, SCD).

Р. Кимбалл [2] выделяет следующие типы SCD:

– Тип 1 (Type 1 SCD). Старые значения атрибутов заменяют новыми. В такой таблице всегда будут храниться только последние актуальные значения. Этот способ самый простой в реализации. Но его можно применять, только если нет необходимости в отслеживании истории и агрегировании данных по этому атрибуту.

– Тип 2 (Type 2 SCD). В таблицу измерений добавляется новая строка с обновленными значениями атрибутов. В этом случае вся история сохраняется. Таблица должна содержать не менее трех дополнительных столбцов: дата начала или вступления в силу данных строки, дата окончания действия строки, флаг (индикатор), показывающий актуальность строки.

– Тип 3 (Type 3 SCD). Обновленный атрибут сохраняется в новом столбце таблицы измерений. В структуре такой таблицы предусмотрены один или несколько дополнительных столбцов. Объем сохраненных исторических данных при использовании этого типа ограничен количеством этих столбцов.

Рассмотрим ситуацию, когда в источнике данных атрибут изменяется. Система ETL должна определить способ обработки значения атрибута, которое изменилось по сравнению со значением, уже сохраненным в хранилище данных.

Существует три основных способа обработки строк таблицы измерения: перезаписать, добавить новую строку и добавить новый столбец.

Рисунок 1. Схема обработки строк измерения.

На рисунке 1 показана упрощенная схема процесса обработки медленно меняющихся измерений (SCD). Кроме указанных способов существуют и другие, например, добавление таблицы истории. А также применяются и их комбинации, в том числе, к разным столбцам таблицы могут применяться различные типы SCD.

Списоклитературы

Inmon W.H.. Building the Data Warehouses. Third edition. – Wiley Computer Publishing, 2015

Kimball R., Ross M. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling, Third Edition. Wiley. – 2013

Просмотров работы: 6