О ПОДХОДЕ К ОРГАНИЗАЦИИ ETL-ПРОЦЕССОВ С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЙ

Бобров А.А. 1

1ПГНИУ

Работа в формате PDF

208.7 KB

Сертификат участника

Комментарии

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

В те времена, когда компьютеры только начинали распространяться, основной целью из использования было проведение больших объемов вычислений над небольшим количеством данных. Вероятно, это было обусловлено слабым развитием средств запоминания данных. Например, объемы жестких дисков измерялись мегабайтами, а оперативной памяти – килобайтами. Сегодня ситуация кардинально изменилась. Объемы хранилищ сегодня измеряются петабайтами, а данных, которые нуждаются в обработке в десятки раз больше. По запросу рынка начинают появляться технологии обработки данных больших объемов. У всех на слуху такие названия, как BigData, что буквально означает «большие данные».

Сегодня для обработки «больших данных» используются технологии Business Intelligence, но их классическая реализация начинает отходить на второй план, уступая место новой тенденции, направленной на «семантизацию» средств обработки данных. При разработке ПО для работы с данными (извлечение из источников, загрузка, трансформация, очистка, агрегация) происходит активное внедрение подхода, основанного на использовании онтологий.

Источники данных являются основой Business Intelligence. Они имеют гетерогенную природу, т.е. различные виды и форматы представления данных, а также расположены в разных местах. Их количество постоянно растет. Наполнение хранилища данными в условиях роста количества источников становится крайне трудоемкой задачей. И хотя существуют стандартные форматы и подходы к организации таких источников, все равно каждый источник имеет свои уникальные особенности. В простейшем случае данные располагаются в БД, и тогда можно использовать, например, инструменты Oracle, которые позволяют получать данные из других БД. Если расширить охват источников, добавив к реляционным БД электронные таблицы, текстовые файлы, веб-страницы и т.д., то задача усложняется. Разрабатывать для каждого источника данных отдельный ETL-процесс является очень трудозатратным даже при условии использования специальных графических сред.

В данной статье предлагается метод организации ETL-процессов, в центре которого лежит онтология типов источников данных. Она позволит быстро находить существующий загрузчик и настройки для него, ускорить подключение нового источника данных, найти наиболее подходящий загрузчик в случае отсутствия данного источника данных в базе.

Вначале статьи приводятся общие сведения о ETL-процессах. Затем приводится анализ подходов к построению ETL-процессов и их сравнение. Далее приводится обзор существующих решений по организации загрузки данных из гетерогенных источников, в которых применяются онтологии. И в конце описывается предлагаемый подход с использованием онтологий.

Аналитический обзор

Для лучшего понимания того, какое место занимает предлагаемый вариант системы для загрузки данных в данной главе будет произведен обзор средств для организации загрузки данных из гетерогенных источников, которые используют онтологии для решения своих задач. Кроме того, будет произведен обзор решений, не использующих онтологии, но в которых онтологический подход мог бы быть использован. А начнем мы с определения того, чем является ETL-процесс, понятие которого лежит в основе предлагаемого подхода.

ETL-процессы

Данная работа нацелена на исследование загрузки данных из гетерогенных источников. Источники данных имеют массу отличий друг от друга, а именно, они могут отличаться по расположению (в интернете, интранете частных организаций, vpn-сетях, локальных сетях и т.д.), по типу источника (например, реляционные базы данных, структурированные и неструктурированные файлы, такие как CSV, XML, электронные таблицы, web-страницы, хранилища данных, web-сервисы и т.д.), по форматам величин, используемым структурам данных и многим другим параметрам. Кроме того, данные в них могут содержать ошибки, неточности, противоречия. В некоторых случаях источники вообще являются уникальными (источники сами в себе), например, такие как социальная сеть Вконтакте или Facebook. Данные из этих источников необходимо уметь извлекать, производить предварительные преобразования, очистку и загружать в хранилище или в витрину данных.

В связи с тем, что ETL-процессы настолько важны в контексте нашей задачи далее будет дано понятие о ETL-процессах, их назначению, архитектуре.

ETL процессы – это процессы, основной функцией которых является наполнение хранилища данных. Как правило, данные поступают из различных источников. Источники могут быть как структурированные (реляционные базы данных, электронные таблицы, xml-документы), так и неструктурированные (текстовые документы и web-страницы). Кроме того данные могут быть представлены в разных единицах измерения, а также могут пересекаться друг с другом, могут попадаться противоречивые данные, недостающие данные и т.д. ETL-процессы решают непростую задачу загрузки таких данных в единое хранилище данных, в котором данные должны быть согласованы и непротиворечивы, так как хранилища данных обычно используются в системах поддержки принятия решений, где очень важно иметь «хорошие» данные.

Место ETL в BI системах

Современные системы Business Intelligence (BI) представлены несколькими классами систем: от небольших настольных систем до систем корпоративного уровня. В больших корпоративных системах остро стоит проблем загрузки данных, так как количество источников данных превышает десятки и даже сотни. Это стало причиной выделения средств ETL в отдельную подсистему.

Перечислим основные компоненты BI-систем (см. рис. 1):

хранилище данных;
OLAP-средства;
ETL-средства;
средства генерации отчетов.

К данному списку иногда добавляют средства интеллектуального анализа данных, но наличие этих средств не является обязательным. Типичная схема BI-системы приведена ниже.

Хранилище данных имеет многомерную структуру, что позволяет более эффективно хранить и анализировать данные.

Средства OLAP (online analytical processing) позволяют производить различные манипуляции с данными, представленными в многомерном виде, например, вращение, разрез, переход на более высокий уровень агрегации и т.д. Таким образом, они позволяют производить первичный анализ данных.

Средства ETL (extract transform load) выполняют задачу извлечения данных из источников, подвергают данные трансформации для приведения формата данных к формату, принятому в хранилище, и загружают данные в хранилище данных, попутно выполняя согласование с уже имеющимися в хранилище данными.

Средства генерации отчетов отвечают за то, что видит пользователь системы – отчеты. Данные, извлеченные из множества источников, преобразованные и проанализированные, должны быть соответствующим образом оформлены для подачи их руководителям и аналитикам.

Рис. 1. Централизованное хранилище данных с ETL

Типовые подходы для загрузки данных

Тема загрузки данных из множества источников отнюдь не является новой. Любая программа создается для того, чтобы работать с данными. И часто эти данные располагаются на удаленных серверах в базах данных или файлах.

За время развития отрасли информационных технологий было накоплено множество подходов и инструментов для загрузки данных из различных источников.

Все множество подходов к загрузке данных можно разбить на несколько групп:

Использование языков низкого уровня.
Использование языков высокого уровня.
Использование специализированных библиотек.
Использование специализированных сред и инструментов для загрузки.
Использование интегрированных сред разработки ETL-процессов в визуальном режиме с возможностями расширения стандартного набора процедур обработки при помощи встраиваемых языков программирования.
Использование методов и подходов искусственного интеллекта.

Остановимся подробнее на каждой категории.

Языки низкого уровня (ассемблер, C, Algol, Pascal и др.) требуют от разработчика очень высокой квалификации, а также больших трудозатрат. Положительным моментом является возможность добиться высокой эффективности работы приложения. Но наибольшим недостатком можно считать негибкость такого решения. Это является очень существенным недостатком, т.к. источники данных быстро устаревают, часто меняют свою структуру в связи с развитием. В настоящее время этот подход практически не используется на практике ввиду своей неэффективности.

Языки высокого уровня (C++, Delphi, C#, Python, Java и др.) предоставляют программисту всю мощь объектно-ориентированной парадигмы при небольшом снижении производительности. Требуемы уровень квалификации разработчика по-прежнему высокий, а трудозатраты большие. В настоящее время иногда встречается, например, в тех случаях, когда приходится иметь дело с абсолютно нестандартными источниками данных.

Следующим шагом было написание и использование целого ряда библиотек для подключения к различным типам источников данных. К таким библиотекам можно отнести драйвера реляционных баз данных, библиотеки для чтения XML, CSV файлов, файлов электронных таблиц и web-страниц. Использование готовых библиотек позволяет повысить скорость и снизить сложность разработки. При этом решение остается достаточно эффективным с поправкой на используемый язык программирования. Этот подход в настоящее время широко распространен.

Использование специализированных средств и инструментов для загрузки данных из источников в свое время стало прорывом в области анализа данных, т.к. позволило пользователям непрограммистам настраивать загрузку данных самостоятельно. Производительность таких решений средняя.

Логическим продолжением множества невизуальных инструментов для организации процесса загрузки данных стало появление интегрированных сред разработки ETL-процессов, которые позволяют пользователю непрограммисту в визуальном режиме проектировать ETL-процесс. При этом эти средства остаются расширяемыми за счет использования специализированных внутренних встроенных языков программирования (DSL), либо предоставления внешнего API для разработки собственных модулей на языках программирования общего назначения. Такие решения, как правило, не обладают высокой производительностью, но при этом обеспечивают простоту создания ETL-процессов. В настоящее время очень широко используются. Подробнее про визуальные инструменты разработки ETL-процессов прочитать в [1].

Одним из самых современных веяний является применение методов искусственного интеллекта в процессах наполнения хранилища данными. Методы искусственного интеллекта базируются на обработке знаний. Знания – это информация, способ обработки которой зашит в самом ее представлении. Они отражают не просто сущности, но также различного рода связи между ними, зависимости и ограничения. Знания позволяют организовывать ETL-процесс более интеллектуальным образом, например, зависящим от семантики данных в источнике. Позволяют сделать систему более гибкой, управлять сразу множеством ETL для совместного решения задачи. Основным недостатком данного подхода является низкая производительность из-за наличия механизма логического вывода, который сложен в оптимизации. Требования к квалификации пользователя такой системы еще ниже, чем требования к квалификации пользователя интегрированных графических сред разработки. Но квалификация разработчика требуется высокая, т.к. помимо знаний языков программирования требуются квалификация в инженерии знаний. В табл. 1 отражены основные характеристика каждого из подходов.

Таблица 1. Сравнительная таблица подходов к разработке ETL

Подход	Квал-я польз-ля	Квал-я разраб-ка	Трудо-затраты	Производи-тельность	Гиб-кость	Распростанен-ность
Языки низкого уровня	Высокая	Высокая	Высокие	Высокая	Низкая	Низкая
Языки высокого уровня	Высокая	Высокая	Высокие	Высокая	Низкая	Низкая
Библиотеки	Выше среднего	Выше среднего	Выше среднего	Выше среднего	Средняя	Средняя
Спец. инструменты	Средняя	Средняя	Средние	Средняя	Выше среднего	Выше среднего
Интегрир-е графические среды	Ниже среднего	Средняя	Ниже среднего	Ниже среднего	Высокая	Высокая
Методы ИИ	Низкая	Высокая	Низкие	Низкая	Высокая	Низкая

По сводной таблице подходов к разработке ETL можно видеть, что в направлении совершенствования подходов к загрузке данных понижается требуемая квалификация пользователя, а также падает производительность решений. Трудозатраты для подключения новых источников также понижаются. В последней строке гладкая картина столбцов нарушается из-за того, что решения, основанные на методах ИИ, еще недостаточно распространены и находятся в области активных исследований, и, кроме того, более требовательны к квалификации разработчика в связи с необходимостью квалификации в инженерии знаний.

Подходы, основанные на онтологиях

Ранее были рассмотрены различные подходы к организации загрузки данных. Был выделен целый ряд подходов и проанализированы основные особенности, достоинства и недостатки. Из анализа хорошо видно, что наиболее перспективным подходом является подход, основанный на методах искусственного интеллекта.

В настоящее время существует большое разнообразие методов искусственного интеллекта: нейронные сети, семантические сети, фреймы, математическая логика, экспертные системы, методы, основанные на онтологиях и т.д. Но не все методы одинаково хорошо подходят для решения нашей задачи.

Для того чтобы разработать систему, облегчающую пользователям загрузку данных из источников, а разработчикам добавление новых источников данных необходимо решить следующие задачи:

Сохранять данные о типах источников. Здесь должна быть включена как минимум информация о параметрах, необходимых для загрузки из конкретного типа источника.
Минимизировать размер базы информации о типах источников. Необходимо максимальное переиспользование информации о типах источников.
Отслеживать связи между типами источников, для того, чтобы можно было собирать статистику о необходимых пользователям типах, либо пытаться найти наиболее подходящий загрузчик для требуемого источника. Кроме того, немаловажной деталью является эффективность выполнения поиска. При наличии связей поиск можно выполнять эффективно.
Обеспечить гибкость системы. Т.е. возможность расширения отношений между типами источников, введение новых атрибутов и зависимостей.

Существуют различные подходы для достижения поставленных задач.

Классический. Проектирование иерархии классов, организовывать структуры данных для обеспечения связывания. Но данный подход обладает одним существенным недостатком – он недостаточно гибок.

Наиболее подходящими под поставленные требования являются системы, базирующиеся на знаниях. Центральное место в таких системах занимает база знаний, знания в которой могут быть представлены различными способами, например, фреймами, семантическими сетями, продукционными правилами и др.

В системе, которая будет удовлетворять этим требованиям, центральное место будут знания, т.к. мы предполагаем хранить данные о типах источников, их атрибутах, которые, по сути, являются сущностями, или концептами и связями между ними отражающими отношения наследования между типами источников, принадлежности атрибутов к конкретным типам и т.д.

Одним из наиболее подходящих для нас подходов является подход, основанный на онтологиях. Онтология является попыткой формально описать проблемную область. Существуют различные определения онтологий. Например, по Груберу онтология – это точная спецификация концептуализации. Или более формальное определение: «Онтология это тройка. , где C – множество концептов (понятий), L – множество связей между понятиями и A – набор аксиом».

Далее будут рассмотрены различные решения, применяющие онтологии для обработки данных Business Intelligence.

Обзор решений для загрузки данных, использующих онтологии

Наибольшее применение относительно работы с источниками данных онтологии получили для создания семантических баз данных, а также решения для интеграции данных из гетерогенных источников.

В источнике [2] авторы рассматривают так называемые ODBA (Ontology-Based Data Access Systems) системы. Сравнивают различные подходы к построению систем: реляционный, объектный, логический, дескриптивные логики, онтологии. Рассматривается ряд систем: QuOnto, ROWLkit, QToolKit, DIG Server wrapper, MASTRO. Все эти системы используют онтологии. Онтология используется в качестве концептуальной схемы для интеграции данных из гетерогенных источников. Все перечисленные системы основаны на LD-Lite логике, имеют графический интерфейс и могут подключаться к большому числу баз данных.

В источнике [3] решается задача каталогизации и интеграции разнородных источников данных. Также предлагается метод, основанный на онтологиях. Рассматриваются проблемы интеграции данных. Ставится задача, не внося изменений в существующие источники данных предоставить к ним доступ по принципу «единого окна». А также предоставить возможность «семантической окраски» данных для дальнейшей машинной обработки. Авторы предлагают использовать дескрипционные логики для описания семантики источников и онтологии как инструмент представления обобщенных спецификаций. Авторы предлагают медиаторную архитектуру системы для решения данных задач. Центральное место занимает онтология-классификатор для описания предметных областей на высоком уровне. Кроме того, создаются расширяющие онтологии-отображения, которые отображают классы и свойства на реальную структуру источника.

В [4] рассматривается возможность применения онтологий для интеграции данных АСУ предприятия. Решается задача интеграции онтологий, извлеченных из источников данных. Для этого используется базовая онтологическая модель промышленного предприятия, которая позволяет осуществить глубокую интеграцию разнородных данных и избежать лексических и семантических конфликтов, а также специальный алгоритм определения семантической близости понятий.

Стоит отметить, что автор рассматривает именно семантическую интеграцию данных, т.е. важную роль играет то, что за данные находятся в источнике

В дипломной работе [5] целью онтологии ставится автоматическое выявление структурных изменений в источниках данных и возможность быстрого учета этих изменений, не приводящих к большим трудозатратам. Реализован метод поддержки структурных изменений. Для этого была реализована грамматика для проектирования ETL-процесса, правила изменения ETL-процесса для поддержки структурных изменений, а также метод генерации ETL-процесса в Kettle по модели. Здесь онтология используется для решения двух задач: представление информации о предметной области для семантического аннотирования хранилища данных и схема хранилища данных для определения необходимых правил преобразования.

Другой пример – интеграция инженерных данных, [6]. В данной статье авторы рассуждают о том, для инженерных данных подход, основанный на моделировании предметной области при помощи онтологий более предпочтителен. Единственным его недостатком является намного меньшая производительность по сравнению с традиционным подходом, использующим классические объектные модели и реляционные хранилища. Однако традиционный подход плохо согласуется с необходимостью интеграции данных на предприятиях, т.к. приходится обращаться ко множеству источников данных и интегрировать данные из них. Причины провала традиционного подхода – жесткие границы между сущностями, атрибутами и связями, разница в подходах описания пространства и времени и традиция деления мира на таксоны. На практике возникают проблемы при обращении к разным базам данных, в которых приняты принципиально разные решения по поводу объектов и атрибутов предметной области или по поводу отражения изменения объектов во времени, что практически блокирует всеобщую унификацию.

В [7] рассматривается применение онтологий для интеграции данных из гетерогенных источников. Для данной задачи авторы предлагают использовать т.н. «виртуальные» источники данных. Фактически данные хранятся во множестве различных систем, а виртуальный источник объединяет данные из этих систем и предоставляет пользователю актуальные данные, которые получает тут же. Авторы предлагают архитектуру медиаторов и адаптеров с той особенностью, что используется 2-х уровневый адаптер информационного источника, включающего агента, выполняющего перевод запроса из интегрированной схемы в термины локального семантического представления, и контент-адаптер, осуществляющий отображение объектов семантического представления на реальные объекты информационного ресурса. Медиатор содержит расширяемый тезаурус. Система производит 2-х уровневый поиск: сначала выделяются предметные области, а затем производится специализированные поиск уже в выделенных предметных областях.

В [8] авторы анализируют подходы к организации доступа к множеству разнородных источников данных, хранящих генетическую информацию, т.е. информацию о хромосомах, генах, локусах и т.д. В разрабатываемой системе YeastMed авторы предлагают подход медиаторной системы. Медиатор переписывает пользовательский запрос к данным на множество запросов к источникам. Авторы сравнивают 2 подхода к решению задачи: подход хранилищ данных и подход онтологий. Онтология играет роль глобальной схемы. На ее основе формулируются запросы к базам данных (Т.е. здесь мы видим подход семантических баз данных). Онтология также играет важную роль при генерации интерфейса пользователя для формулирования запросов.

В источнике [9] авторы рассуждают об OBDA системах. Предлагается система, которая строится на основе предметной онтологии. В онтологию включаются источники данных, маппинги классов онтологии на данные из источников. Система представляет собой плагин для Protégé, что позволяет использовать всю мощь редактора онтологий Protege.

В источнике [10] авторы ставят задачу интеграции данных из гетерогенных источников. Как и в некоторых рассмотренных ранее системах предлагается медиаторый подход к проектированию системы. Центрально место в системе (медиатор) занимает онтология SEMANCO. При помощи этой онтологии интегрируется техническая и статистическая информация о зданиях, которая располагается в структурированных гетерогенных источниках.

В статье [11] описывается подход для доступа к гетерогенным источникам, описанным при помощи xml. Онтология играет роль интерфейса между конечными пользователями и xml-источниками. Предоставляет гомогенное семантическое представление xml описаний данных, чтобы поддержать формулирование запросов на семантическом уровне, не заботясь о структуре и синтаксисе каждого описания. Определяет и поддерживает маппинги между онтологическими схемами и данными в источниках. Свои идеи авторы воплотили в системе VISPO. Онтология организована в 3 уровня: уровень семантического проецирования, промежуточный уровень, категоризирующий уровень.

В [12] глобальная онтология определяет все термины и понятия онтологии домена, кроме того она дополнена связями с глобальными репозиториями онтологий, которые содержат разработанные и специфицированные предметные онтологии, каждая из которых описывает контент всех источников данных из домена. Система, предлагаемая авторами, предполагает агентный подход. Есть агент для построения запроса, проецирующий агент, который сопоставляет запрос и предметную онтологию, далее транспортный агент перемещается на источник и получает данные.

В источнике [13] авторы разрабатывают 3-х летний проект геологической и геофизической интеграции данных (GeoDI), спонсируемый National Development Plan. Целью проекта – получить максимальную пользу от национальных данных и дать возможность легко интегрировать данные в будущем. Решается задача автоматического сопоставления схем источников данных при помощи онтологии. Онтология позволяет решить проблемы гетерогенности форматов, структурную гетерогенность, синтаксическую гетерогенность, семантическую гетерогенность.

В [14] онтологии используются для поиска данных. Для этого для каждой предметной области строится тезаурус, затем тезаурус привязывается к общей онтологии проблемной области, с помощью которой и выполняется поиск.

Источниками данных для поддержки принятия решений могут не обязательно являются базы данных. Напротив, большую долю источников, содержащих данные пригодные для анализа, составляют обычные электронные документы (до 80%). В следующей публикации [15] рассматривается подход поиска по документам и доступа к данным в документах, основанный на онтологии. Для организации поиска по документам изначально производится семантическое индексирование документов. В рассматриваемом подходе предполагается наличие трех типов онтологий: онтология предметной области конкретной информационной системы (ИС), онтология как база знаний (БЗ) интеллектуального агента, онтология как описание документа.

Итого, в рассмотренных системах можно выделить несколько основных применений онтологий:

семантические базы данных;
интеграция данных;
«программа» для интеллектуальных агентов.

Наиболее популярный тип архитектуры систем – медиаторная система, где в качестве медиатора выступает предметная онтология. Для того, чтобы взаимодействовать с источниками данных иногда используется агентный подход.

Заключение

В данной работе рассмотрено понятие ETL-процесса и его место в BI системах. Далее были рассмотрены типовые подходы к загрузке данных, выявлены их преимущества и недостатки и выполнено их сравнение. Рассмотрены подходы основанные на онтологиях. Произведен обзор решений использующих онтологии для организации ETL-процессов.

На основе полученной информации была подтверждена актуальность темы, т.к. подобных систем найдено не было. Предлагаемый подход состоит в том, чтобы построить онтологию типов источников данных, в которую войдет информация о структуре источников, методах доступа к ним, необходимых данных, идентификаторах, а также наследственные связи между источниками. В дальнейшем ,интерпретируя построенную онтологию, появится возможность ответа на вопросы:

Какие атрибуты нужны для подключения источника данных?
Какой наиболее подходящий ETL для данного источника?
Если нужного типа источника нет в онтологии, то какой наиболее близкий?
Каким источникам данных (и типам) пользователи отдают большее предпочтение?

С помощью программной реализации можно будет:

Быстро находить загрузчик для источника.
Находить наиболее близкий, но более общий загрузчик и предоставлять пользователю упрощенный вариант добавления источника данных.
Запрашивать у пользователя необходимые данные для подключения источника.
Эффективно производить поиск нужного загрузчика.
Ускорить разработку провайдеров для новых типов источников на основе общих предков.

Библиографический список

Бобров А.А. Обзор средств ETL для web-портала BiP [Электронный ресурс]. [Режим доступа: http://www.scienceforum.ru/2013/pdf/4270.pdf, свободный] [Проверено 25.02.2014].
Когаловский М.Р. Системы доступа к данным, основанные на онтологиях // Второй симпозиум «Онтологическое моделирование», Казань, октябрь 2010
Теленик С. Ф. Каталогизация и интеграция разнородных информационных ресурсов [Текст] // Молодой ученый. – 2013. – №5. – С. 176-179.
Кузнецов Д.П. Метод и средства интеграции онтологий разнородных источников данных в автоматизированных системах управления промышленных предприятий: Автореф. дис. … канд. техн. наук: 05.13.06; [Место защиты: ВлГУ]. Вологда: ВоГТУ, 2013.
Долбешкин А.Н. Поддержка структурных изменений в процессах загрузки данных // СПб.: СПБГУ. 2012. 47 стр.
Агроскин В., Левенчук А., Головков В. Онтология для инженерных данных // Открытые системы. – 2013. – № 6.
Ломов П.А., Шишаев М.Г. Интеграция данных на основе онтологий для обеспечения информационной поддержки принятия решений [Электронный ресурс]. [Режим доступа: http://crider.rork.ru/index.php?option=com_content &task=view&id=15&Itemid=31, свободный] [Проверено: 25.02.2014].
Briache A., Marrakchi K., Kerzazi A., Navas-Delgado I., Hassani B., Lairini K., Aldana-Montes J. Transparent mediation-based access to multiple yeast data sources using an ontology driven interface [Электронный ресурс] // Semantic Web Applications and Tools for Life Sciences. – 2010. – № 13. [Режим доступа: http://www.biomedcentral.com/content/pdf/1471-2105-13-S1-S7.pdf, свободный].
Rodriguez-Muro M., Calvanese D. Towards an open framework for Ontology Based Data Access with Protege and DIG 1.1 [Электронный ресурс]. [Режим доступа: http://ceur-ws.org/Vol-432/owled2008eu_submission_37.pdf, свободный] [Проверено: 25.02.2014].
Nemirovski G., Albstadt-Sigmaringen A. Data Integration Driven Ontology Design, Case Study Smart City [Электронный ресур]. [Режим доступа: http://semanco-project.eu/index_htm_files/web_intelligence_june_2013.pdf, свободный] [Проверено: 25.02.2014].
Bianchini D., Antonellis V. Ontology-based Integration for Sharing Knowledge over the Web [Электронный ресурс] [Режим доступа: http://www.doc.ic.ac.uk/~pjm/diweb2004 /DIWeb2004_Part8.pdf, свободный] [Проверено: 25.02.2014].
Ghamdi N., Saleh M., Eassa F. Ontology-Based Query in Heterogeneous & Distributed Data Sources // International Journal of Electrical & Computer Sciences IJECS-IJENS. – 2010 . – №06. С. 86-101.
Geoscientific Data Integration [Электронный ресурс]. [Режим доступа: http://geodi.ucc.ie/files/deliverables/GeoDI_D25_Final.pdf, свободный] [Проверено: 25.02.2014].
Рогушина Ю., Гладун А. Онтологии и мультилингвистические тезаурусы как основа семантического поиска информационных ресурсов интернет // Proceedings of the XII-th International Conference “Knowledge-Dialogue-Solution” – Varna, 2006
Ланин В.В. Онтологии как основа функционирования систем обработки электронных документов [Электронный ресурс]. [Режим доступа: http://www.math.nsc.ru/conference/zont09/reports/60Lanin.pdf, свободный] [Проверено: 25.02.2014].

Научный руководитель: к.ф-м.н, доцент кафедры МОВС ПГНИУ, Л.Н. Лядова.

Просмотров работы: 2367

Код для цитирования:

VI Международная студенческая научная конференция Студенческий научный форум - 2014

О ПОДХОДЕ К ОРГАНИЗАЦИИ ETL-ПРОЦЕССОВ С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЙ

Студенческий научный форум - 2014
VI Международная студенческая научная конференция