ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО ОПИСАНИЯ ГРАФИЧЕСКОЙ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ КОНТЕКСТА НА ОСНОВЕ ПОДХОДОВ ИЗ ОБЛАСТИ DATA MINING - Студенческий научный форум

III Международная студенческая научная конференция Студенческий научный форум - 2011

ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО ОПИСАНИЯ ГРАФИЧЕСКОЙ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ КОНТЕКСТА НА ОСНОВЕ ПОДХОДОВ ИЗ ОБЛАСТИ DATA MINING

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Для решения задач, связанных с автоматизацией понимания смысла текстов на естественном языке (ТЕЯ) и генерацией текстов на заданную тему, необходимо также распознавать смысл разного рода графической информации (графиков, диаграмм, иллюстраций). Целью исследования является разработка и реализация  подхода к использованию методов онтологического инжиниринга и средств Data и Text Mining применительно к задаче онтологического описания графической информации с учетом контекста. Разрабатываемый подход позволяет извлекать семантическое содержание графической информации как на основе анализа непосредственно самой графической информации, так и ее контекста (надписей, подписей и обрамляющих фрагментов текста) и генерировать онтологическое описание этой информации.

Суть подхода заключается в следующем:

из документа в растровом формате на основе эвристических методов автоматически выделяется графическая информация (на основе знаний о форматах графических данных);

при помощи различных методов анализа (в частности, реализован метод Монте-Карло) решается своего рода задача аппроксимации выделенного на первом этапе графического изображения последовательностью графических примитивов;

результаты предыдущего этапа (представленные в виде внутреннего описания упорядоченной последовательности блоков графических примитивов) сопоставляются с имеющимися в базе знаний системы онтологическими описаниями различных видов графической информации, что сводится к задаче классификации на основе методов онтологического инжиниринга.

Извлеченные концепты связываются в единую онтологию основными парадигматическими отношениями типа «класс-подкласс», «часть-целое» и др. При этом активно используются разного рода эвристики, направленные на учет контекста графической информации. При помощи средств Text Mining из «окружающего» графическую информацию текста извлекаются известные системе концепты и сопоставляются с понятиями, связанными непосредственно с графической информацией. Если система интегрирована с онтологией отчетов для решения задач генерации аналитических отчетов, дополнительно используются методы Data Mining для извлечения необходимой информации и метаданных из соответствующих хранилищ данных. В последнем случае в онтологической БЗ системы имеются сведения об источниках данных для определенного вида графиков в определенных видах отчетов.

Полученное на основе описанного подхода онтологическое представление графической информации благодаря имеющимся стандартам представления онтологий в формате OWL позволяет значительно повысить семантическую мощность поисковых механизмов в задачах понимания смысла ТЕЯ, включающих графическую информацию, а также улучшить поиск в документах самой графической информации, исходя из ее содержания.

Просмотров работы: 3