Подобные системы основаны на той или иной форме полнотекстового поиска или поиска по ключевым словам. И такие данные мы получаем при том, что колоссальные объемы информации по данной теме доступны в интернете. Кроме того, есть еще и огромное количество пылящихся на полках библиотек источников информации, о которых все просто напросто забыли. О решение этой проблемы размышляют уже давно. В области поиска информации основные идеи - социальные технологии и семантическая паутина (Semantic Web). Социальные технологии условно можно разделить на две составляющие:
Эти два принципа являются одними из основных в Wiki-системе и Web2. Технология семантического веба используется принцип семантической паутины - понятия связаны между собой через смысловые отношения. Пример простейшей семантической сети представлен на рис. 1. Теперь поисковый робот, имеющий информацию о смысловой связи между понятиями, способен хотя бы частично оценить релевантность тех или иных материалов для пользователя. Совместно эти два механизма обеспечивают прекрасное качество поиска, но проблему cold data не решают. Причины для этого две:
Наше предложение состоит в применении специальных методов форматирования документов с целью принципиального повышения качества их автоматического анализа поисковыми машинами. Задача автора материала меняется. При написании материала вместо форматирования автор сам добавляет в текст указания для эффективного поиска информации поисковым роботом. Важно то, что эту же информацию использует компьютер при экспорте документа в конкретный формат (будь-то офисный документ, web страница или печатный материал). Таким образом, форматирование заменяется определением семантических ролей. Благодаря этому один и тот же исходный текст может быть, при необходимости, в автоматическом режиме представлен как статья, курс лекций, материал ЦДО, методическое пособие по лабораторным работам, и т.п. Подобный подход не только упрощает поиск информации, но и помогает автору решить еще две проблемы: