Одним из основных принципов современной научной деятельности является обмен опытом. И многие специалисты в различных предметных областях часто встречаются с необходимостью поиска информации (различных научных работ, исследований и т.п.) по своей тематике. Однако, несмотря на то, что в сети Интернет представлены множество различных источников, многие из них являются практически недоступными из-за недостаточной эффективности работы поисковых систем, проявляющейся, главным образом, в невозможности анализа в процессе поиска содержащейся в электронных источниках информации [3].
Для решения описанных проблем в работах [2-7] предлагается разрабатывать порталы знаний, предоставляющие в распоряжение пользователей средства интеллектуального поиска и автоматизированной обработки полученных результатов (документов, источников), а также удобные средства навигации по найденным ресурсам [2].
В основе таких порталов должны лежать онтологии, которые содержат как описание предметной области, так и описание релевантных ей ресурсов. Описание предметной̆ области включает совокупность терминов и отношений, семантически значимых для данной̆ предметной̆ области, а также правил, согласно которым можно строить новые утверждения об элементах данной предметной области. Описание ресурсов включает описание различных метаданных электронных источников, а также описание связей между ними [3].
При этом в качестве ресурсов, к которым предоставляется доступ посредством портала, могут выступать:
«локальные» электронные источники, которые размещают сами пользователи портала;
внешние источники, представляющие ресурсы сети Интернет.
Для реализации эффективного поискового механизма портала, который учитывал бы семантику содержимого его ресурсов, предлагается использовать операцию семантического индексирования, представляющую собой процесс построения семантических индексов. Семантический индекс обеспечивает однозначное соответствие между элементами ресурса и понятиями из онтологии предметной области, которая связана данным документом [6].
В данной работе рассматривается подход к созданию модуля семантического индексирования – одного из основных модулей системы управления ресурсами портала. Данный модуль предназначен для создания новых и редактирования уже существующих семантических индексов ресурсов портала. При этом данный модуль должен обеспечивать единый способ работы, как с локальными, так и внешними ресурсами. Для управления метаданными электронных ресурсов было принято решение использовать технологию XMP (Extensible Metadata Platform), которая обеспечивает возможность унифицированной работы с электронными документами, представленными в различных форматах [1].
Extensible Metadata PlatformExtensible Metadata Platform – технология, созданная корпорацией Adobe Systems, предназначенная для внедрения метаданных в электронные документы, представленные в различных форматах. Основным критерием возможности внедрения XMP-метаданных является наличие в таких форматах средств для расширения. Однако, и в случае отсутствия возможностей для расширения, стандарт XMP определяет возможности для хранения метаданных в отдельном файле [8].
XMP является международным стандартом ISO 16684-1:2012 и определяет [8]:
абстрактную модель, описывающую основные элементы XMP и их свойства;
формат сериализации метаданных, т.е. формат, в котором метаданные будут сохранены внутри документа;
набор предустановленных свойств, предназначенных для описания общих характеристик документа, вне зависимости от его формата.
Опишем каждый из этих элементов подробнее.
Модель метаданных XMPXMP-метаданные внутри документа хранятся в так называемых пакетах, которые представляют собой наборы свойств метаданных.
Каждое свойство состоит из имени и значения. Имя свойства должно быть правильным XML-идентификатором, включающим пространство имен, и должно быть уникальным в пределе пакета.
Значения XMP свойств могут быть представлены в следующих формах:
строка Unicode;
структура, которая содержит ноль или более именованных полей;
упорядоченный или неупорядоченный набор значений;
произвольные комбинации описанных выше форм.
Обычно XMP представляется конструкциями из подмножества модели RDF, которые в свою очередь обычно сериализуются в виде XML.
Основные свойства XMPВ стандарте XMP определен ряд специальных пространств имен:
пространство имен Dublin Core, в котором определены все базовые свойства в соответствии Dublin Core Metadata Element Set, например, dc:creator, dc:title и т.д.;
пространство имен XMP, содержащее такие свойства как, например, xmp:CreatorTool, xmp:Rating, предназначенные для указания программного средства, с помощью которого был создан документ и его рейтинга соответственно;
и др.
Для программной работы с метаданными электронных документов корпорация Adobe Systems разработала XMP Toolkit SDK, распространяемый как свободное программное обеспечение под лицензией BSD.
XMP Toolkit SDK состоит из двух основных библиотек согласно [10]:
XMPCore – содержит API, предназначенный для управления (создание, изменение, сериализация/десериализация) XMP метаданными.
XMPFiles – содержит API, предназначенный для низкоуровневой работы с файлами, содержащими XMP метаданные.
В текущую версию XMP Toolkit SDK (CS6) включены возможности работы со следующими форматами электронных документов:
графические форматы: DNG, JPEG, PNG, TIFF и др.;
медиа-форматы: FLV, MOV, MP3, MPEG-2, MPEG-4, SWF и др.;
видео-форматы: AVCHD, P2, Sony HDV и др.;
форматы разметки: HTML, XML;
форматы документов: PDF, PS, EPS и др.
Для поддержки форматов, отличных от перечисленных выше, можно использовать специальный механизм расширения – XMPFiles Custom File-Handler Plug-in SDK, который входит в состав XML Toolkit SDK начиная с версии CS6. Данный механизм расширения основывается на использовании плагинов – специальных модулей, которые содержат реализацию низкоуровневых операций для работы с форматами, поддержка которых отсутствует в XML Toolkit SDK. Например, с помощью данного механизма расширения можно реализовать возможность добавления XMP-метаданных в электронные документы, представленные в форматах Office Open XML, OpenDocument Format, RTF и т.д.
Архитектура системы семантической индексации электронных ресурсовОпишем архитектуру модуля семантической индексации, схематичное изображение которой представлено на рис. 1.
Рис.1. Архитектура системы семантической индексации электронных ресурсов
Модуль ввода-вывода – реализует функционал, предназначенный для низкоуровневого взаимодействия с ресурсами, размещаемыми на портале. При этом он обеспечивает возможность унифицированной работы, как с локальными, так и внешними ресурсами. Для программной реализации модуля ввода-вывода используется библиотека XMPFiles.
Модуль ввода-вывода содержит менеджер плагинов, с помощью которого реализуется поддержка тех форматов, которые не поддерживаются XMP Toolkit SDK. Менеджер плагинов содержит специальный функционал для управления плагинами. В его основе лежит XMPFiles Custom File-Handler Plug-in SDK.
Модуль индексации реализует две основные функции:
добавление и извлечение метаданных электронного ресурса;
редактирование метаданных из электронного ресурса.
Индексация электронного ресурса выполняется в соответствии с онтологией предметной области, хранящейся в репозитарии портала. Для реализации всех операций взаимодействия с метаданными используется библиотека XMPCore.
ЗаключениеВ данной работе была описана архитектура модуля семантического индексирования, который представляет собой один из основных модулей системы управления ресурсами портала знаний. Данный модуль предназначен для внедрения в ресурсы портала семантических индексов, устанавливающих соответствие между отдельными элементами конкретного ресурса и отдельными понятиями из онтологии предметной области. Созданные индексы используются поисковым механизмом портала и позволяют значительно повысить релевантность его результатов.
В качестве формата для представления семантических индексов используется формат XMP, который представляет собой международный стандарт. Основные аргументы в пользу XMP – его открытость и поддержка большого числа различных форматов электронных документов, а также наличие специального механизма расширения. Для программной реализации данного модуля используется XMP Toolkit SDK, разработанный корпорацией Adobe Systems.
БлагодарностиРабота выполняется при поддержке Научного фонда НИУ ВШЭ (программа софинансирования грантов РФФИ и РГНФ, проект № 12-09-0102).
Библиографический списокБессонов В.А. Обзор современных форматов электронных документов // Математика программных систем: межвуз. сб. науч. ст., выпуск 9 (2012 г.). С. 120-131.
Бессонов В.А., Ланин В.В. Подсистема управления документами портала, посвященного моделированию информационных систем // Математика программных систем: межвуз. сб. науч. ст., выпуск 9 (2012 г.). С. 112-119.
Боровикова О.И., Загорулько Ю.А. Организация порталов знаний на основе онтологий.
Боровикова О.И., Загорулько Ю.А. Разработка портала знаний по компьютерной лингвистике // Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г.
Ланин В.В. Организация обработки информационных ресурсов на учебно-исследовательском портале с использованием онтологий // Математика программных систем: межвуз. сб. науч. ст., выпуск 9 (2012 г.). С. 132-139.
Ланин В.В., Соколов Г.В. Организация средств семантического поиска портала на основе мультиагентного подхода // Математика программных систем: межвуз. сб. науч. ст., выпуск 9 (2012 г.). С. 140-149.
Spyns P., Oberle D. OntoWeb – a Semantic Web community portal / Spyns P., Oberle D., Volz R., Zheng J., Jarrar M., Sure Y., Studer R., Meersman R. // In Proceedings of the Fourth International Conference on Practical Aspects of Knowledge Management, 2002.
XMP Specification Part 1. Adobe Systems Inc. Data model, serialization, and core properties. April 2012. C 52
XMP Specification Part 3. Storage in files. Adobe Systems Inc. April 2012.
XMP Toolkit SDK Programmer’s Guide. Adobe Systems Inc.
Научный руководитель: к.ф.-м.н., доцент Л.Н. Лядова
5