Первая причина разработки языка разметки учебных материалов - проблема поиска информации - Студенческий научный форум

II Международная студенческая научная конференция Студенческий научный форум - 2010

Первая причина разработки языка разметки учебных материалов - проблема поиска информации

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
На данный момент в науке и образовании существует проблема под названием «Cold data» или холодные данные. Этот термин пошел из лексикона системных администраторов, и обозначает данные, которые хоть и хранятся на носителях, но практически никогда не используются. Существуют огромные объемы информации (например, учебных материалов и научных статей) доступ к которым для конечного пользователя существенно затруднен из-за недостатков современных технологий поиска и хранения информации. Эти данные часто не индексируются вообще, а ссылки на них либо совсем не попадают в результаты поиска, либо оказываются слишком далеко в списке найденного. Это происходит из-за того, что релевантность тех или иных документов определяется не столько его информационной ценностью, сколько числом переходов пользователей по ссылке. Любой человек пытавшийся искать информацию из достаточно узкой области знаний в современных поисковых системах сталкивался как минимум с двумя проблемами:
  • среди первых элементов выдачи слишком часто встречаются повторы (один и тот-же материал представленный на разных информационных ресурсах);
  • после этого релевантность материалов катастрофически падает.

Подобные системы основаны на той или иной форме полнотекстового поиска или поиска по ключевым словам. И такие данные мы получаем при том, что колоссальные объемы информации по данной теме доступны в интернете. Кроме того, есть еще и огромное количество пылящихся на полках библиотек источников информации, о которых все просто напросто забыли. О решение этой проблемы размышляют уже давно. В области поиска информации основные идеи - социальные технологии и семантическая паутина (Semantic Web). Социальные технологии условно можно разделить на две составляющие:

  • создание или агрегация материалов и ссылок на них пользователями;
  • использование пользователей для оценки релевантности.

Эти два принципа являются одними из основных в Wiki-системе и Web2. Технология семантического веба используется принцип семантической паутины - понятия связаны между собой через смысловые отношения. Пример простейшей семантической сети представлен на рис. 1. Теперь поисковый робот, имеющий информацию о смысловой связи между понятиями, способен хотя бы частично оценить релевантность тех или иных материалов для пользователя. Совместно эти два механизма обеспечивают прекрасное качество поиска, но проблему cold data не решают. Причины для этого две:

  • пользователи для начала должны найти данные, а уже потом сделать выводы о релевантности.
  • основным методом составления семантических сетей является лексографический анализ, что радикально снижает их качество, превращая их в очередной вариант полнотекстового поиска.

Наше предложение состоит в применении специальных методов форматирования документов с целью принципиального повышения качества их автоматического анализа поисковыми машинами. Задача автора материала меняется. При написании материала вместо форматирования автор сам добавляет в текст указания для эффективного поиска информации поисковым роботом. Важно то, что эту же информацию использует компьютер при экспорте документа в конкретный формат (будь-то офисный документ, web страница или печатный материал). Таким образом, форматирование заменяется определением семантических ролей. Благодаря этому один и тот же исходный текст может быть, при необходимости, в автоматическом режиме представлен как статья, курс лекций, материал ЦДО, методическое пособие по лабораторным работам, и т.п. Подобный подход не только упрощает поиск информации, но и помогает автору решить еще две проблемы:

  • автор больше не должен заботится о типографическом качестве документов, ему достаточно указать роли тех или иных участков текста. Это существенно упрощает процесс подготовки материалов и не требует от автора высокого мастерства владения текстовым процессором или помощи технического редактора;
  • автору проще структурировать свой материал, благодаря чему не только машине становится легче его обрабатывать, но и человеку удобнее с ним работать.
Просмотров работы: 6