ОБЩАЯ ФУНКЦИОНАЛЬНАЯ СТРУКТУРА ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ И КРИТЕРИЙ СМЫСЛОВОГО СООТВЕТСТВИЯ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

ОБЩАЯ ФУНКЦИОНАЛЬНАЯ СТРУКТУРА ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ И КРИТЕРИЙ СМЫСЛОВОГО СООТВЕТСТВИЯ

Петченко В.П. 1
1Балаковский инженерно-технологический институт
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
     
     
     
     
     
     
     
     
     
     
     

ВВЕДЕНИЕ

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

Проблема поиска и сбора информации - одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания. Проблема поиска информации приобрела новый характер в 20-м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей. Проблема поиска информации значительно усложняется при использовании виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее.

На современном этапе все информационное пространство, в котором мы живем, все больше погружается в Internet. Internet становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы.

1 ИСТОРИЧЕСКИЕ ПРЕДПОСЫЛКИ РАЗВИТИЯ ПОИСКОВЫХ СИСТЕМ.

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами.

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере увеличения пользователей и хост-компьютеров прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher и FTP-серверы. Таким образом, пользователь получает возможность “путешествовать” по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.

Система Veronica используется для поиска информации в Gopher-пространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.

2 ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА.

Поиск - в информационном смысле: стремление найти что-либо, действие ищущего напрвленное на получение нового или утеряного, новых данных, знаний, закономерностей. Поиском так же называется один из способов обучения, обеспечение полезных знаний о природе, языке, обществе. Подразумевается получение знаний через самостоятельные мыслительные действия для решения задач.

Система - множество взаимосвязанных объектов и ресурсов организованных процессом системогенеза в единое целое и возможно противопоставимое среде.

Система в системном анализе - совокупность существующих и связей между ними, выделенных из среды на определенное время, с определенной целью.

Информационная система - организованная совокупность программно-технических и других вспомогательных средств, технологических процессов, функционально-определенных групп работников, обеспечивающая сбор, представление и накопление информационных ресурсов в определенной предметной области, поиск и выдача сведений необходимых для удовлетворения определенных потребностей.

Информационно-поисковая система - упорядоченная совокупность документов и информационных технологий предназначенных для хранения и поиска информации, текстов или данных.

Для того чтобы было с чем сравнивать необходимо некоторое количество непертинентных (соответствующих запросу) документов. Они называются «шум». Слишком большой шум затрудняет выделение пертинентных документов, малый не дает уверенности в том, что документы пертинентны.

Когда документов много используется информационно-поисковая система (ИПС).

В этом случае информационная потребность должна быть выражена средствами, которые понимает конкретная информационная система (поисковая). Иными словами, должен быть сформулирован запрос. Запрос может редко выразить информационную потребность, однако многие ИПС по разным причинам не могут определить, соответствует тот или иной документ запросу. Степень соответствия запросу называется релевантностью.

Релевантный документ может оказаться непертинентным.

Особенности информационно-поисковой система:

Поисковые процессы представлены четырьмя стадиями:

1. Формулировка (До начала поиска)

2. действие (начался поиск)

3. обзор результатов

4. усовершенствование

3 ИНТЕЛЛЕКТУАЛЬНЫЕ ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ.

3.1 Структура интеллектуальной системы

С развитием компьютерных технологий менялся смысл, вкладываемый в понятие информационной системы. Современная информационная система - это набор информационных технологий, направленных на поддержку жизненного цикла информации и включающего три основных процесса: обработку данных, управление информацией и управление знаниями. В условиях резкого увеличения объемов информации переход к работе со знаниями на основе искусственного интеллекта является, по всей вероятности, единственной альтернативой информационного общества.

Согласно определению Д.А. Поспелова, "Система называется интеллектуальной, если в ней реализованы следующие основные функции:

  1. накапливать знания об окружающем систему мире, классифицировать и оценивать их с точки зрения прагматической полезности и непротиворечивости, инициировать процессы получения новых знаний, осуществлять соотнесение новых знаний с ранее хранимыми;

  2. пополнять поступившие знания с помощью логического вывода, отражающего закономерности в окружающем систему мире в накопленных ею ранее знаниях, получать обобщенные знания на основе более частных знаний и логически планировать свою деятельность;

  3. общаться с человеком на языке, максимально приближенном к естественному человеческому языку;

  4. получать информацию от каналов, аналогичных тем, которые использует человек при восприятии окружающего мира;

  5. уметь формировать для себя или по просьбе человека (пользователя) объяснение собственной деятельности;

  6. оказывать пользователю помощь за счет тех знаний, которые хранятся в памяти, и тех логических средств рассуждений, которые присущи системе".

Перечисленные функции можно назвать функциями представления и обработки знаний, рассуждения и общения. Наряду с обязательными компонентами, в зависимости от решаемых задач и области применения в конкретной системе эти функции могут быть реализованы в различной степени, что определяет индивидуальность архитектуры.

База знаний представляет собой совокупность сред, хранящих знания различных типов. Рассмотрим кратко их назначение:

  1. База фактов (данных) хранит конкретные данные, а база правил - элементарные выражения, называемые в теории искусственного интеллекта продукциями.

  2. База процедур содержит прикладные программы, с помощью которых выполняются все необходимые преобразования и вычисления.

  3. База закономерностей включает различные сведения, относящиеся к особенностям той среды, в которой действует система.

  4. База метазнаний (база знаний о себе) содержит описание самой системы и способов ее функционирования: сведения о том, как внутри системы представляются единицы информации различного типа, как взаимодействуют различные компоненты системы, как было получено решение задачи.

  5. База целей содержит целевые структуры, называемые сценариями, позволяющие организовать процессы движения от исходных фактов, правил, процедур к достижению той цели, которая поступила в систему от пользователя либо была сформулирована самой системой в процессе ее деятельности в проблемной среде.

Управление всеми базами, входящими в базу знаний, и организацию их взаимодействия осуществляет система управления базами знаний. С ее же помощью реализуются связи баз знаний с внешней средой. Таким образом, машина базы знаний осуществляет первую функцию интеллектуальной системы.

Выполнение второй функции обеспечивает часть интеллектуальной системы, называемая решателем и состоящая из ряда блоков, которые управляются системой управления решателя. Часть из блоков реализует логический вывод.

Блок дедуктивного вывода осуществляет в решателе дедуктивные рассуждения, с помощью которых из закономерностей из базы знаний, фактов из базы фактов и правил из базы правил выводятся новые факты. Кроме этого, данный блок реализует эвристические процедуры поиска решений задач как поиск путей решения задачи по сценариям при заданной конечной цели. Для реализации рассуждений, которые не носят дедуктивного характера, то есть для поиска по аналогии, по прецеденту и так далее, используются блоки индуктивного и правдоподобного выводов.

Блок планирования применяется в задачах планирования решений совместно с блоком дедуктивного вывода.

Назначение блока функциональных преобразований состоит в решении задач расчетно-логического и алгоритмического типов.



Рисунок 1 - Общая структура интеллектуальной системы

Третья функция - функция общения - реализуется как с помощью компоненты естественно-языкового интерфейса, так и с помощью рецепторов и эффекторов, которые осуществляют так называемое невербальное общение и используются в интеллектуальных роботах.

3.2 Разновидности интеллектуальных систем.

В зависимости от набора компонентов, реализующих рассмотренные функции, можно выделить следующие основные разновидности интеллектуальных систем:

  1. интеллектуальные информационно-поисковые системы;

  2. экспертные системы (ЭС);

  3. расчетно-логические системы;

  4. гибридные экспертные системы.

Интеллектуальные информационно-поисковые системы являются системами взаимодействия с проблемно-ориентированными (фактографическими) базами данных на естественном, точнее ограниченном как грамматически, так и лексически (профессиональной лексикой) естественном языке (языке деловой прозы). Для них характерно использование (помимо базы знаний, реализующей семантическую модель представления знаний о проблемной области) лингвистического процессора.

Экспертные системы являются одним из бурно развивающихся классов интеллектуальных систем. Данные системы в первую очередь стали создаваться в математически слабоформализованных областях науки и техники, таких как медицина, геология, биология и другие. Для них характерна аккумуляция в системе знаний и правил рассуждений опытных специалистов в данной предметной области, а также наличие специальной системы объяснений.

Расчетно-логические системы позволяют решать управленческие и проектные задачи по их постановкам (описаниям) и исходным данным вне зависимости от сложности математических моделей этих задач. При этом конечному пользователю предоставляется возможность контролировать в режиме диалога все стадии вычислительного процесса. В общем случае, по описанию проблемы на языке предметной области обеспечивается автоматическое построение математической модели и автоматический синтез рабочих программ при формулировке функциональных задач из данной предметной области. Эти свойства реализуются благодаря наличию базы знаний в виде функциональной семантической сети и компонентов дедуктивного вывода и планирования.

В последнее время в специальный класс выделяются гибридные экспертные системы. Указанные системы должны вобрать в себя лучшие черты как экспертных, так и расчетно-логических и информационно-поисковых систем. Разработки в области гибридных экспертных систем находятся на начальном этапе.

Наиболее значительные успехи в настоящее время достигнуты в таком классе интеллектуальных систем, как экспертные системы.

Важное место в теории искусственного интеллекта (ИИ) занимает проблема представления знаний. В настоящее время выделяют следующие основные типы моделей представления знаний:

  1. семантические сети, в том числе функциональные;

  2. фреймы и сети фреймов;

  3. продукционные модели.

Семантические сети определяют то, как граф общего вида, в котором можно выделить множество вершин и ребер. Каждая вершина графа представляет некоторое понятие, а дуга - отношение между парой понятий. Метка и направление дуги конкретизируют семантику. Метки вершин семантической нагрузки не несут, а используются как справочная информация.

Различные разновидности семантических сетей обладают различной семантической мощностью, следовательно, можно описать одну и ту же предметную область более компактно или громоздко.

Фреймом называют структуру данных для представления и описания стереотипных объектов, событий или ситуаций. Фреймовая модель представления знаний состоит из двух частей:

  1. набора фреймов, составляющих библиотеку внутри представляемых знаний;

  2. механизмов их преобразования, связывания и так далее

Существует два типа фреймов:

  1. образец (прототип) - интенсиональное описание некоторого множества экземпляров;

  2. экземпляр (пример) - экстенсиональное представление фрейм-образца.

В общем виде фрейм может быть представлен следующим кортежем:

,

где ИФ - имя фрейма; ИС - имя слота; ЗС - значение слота; ПП - имя присоединенной процедуры (необязательный параметр).

Слоты - это некоторые незаполненные подструктуры фрейма, заполнение которых приводит к тому, что данный фрейм ставится в соответствие некоторой ситуации, явлению или объекту.

В качестве данных фрейм может содержать обращения к процедурам (так называемые присоединенные процедуры). Выделяют два вида процедур: процедуры-демоны и процедуры-слуги. Процедуры-демоны активизируются при каждой попытке добавления или удаления данных из слота. Процедуры-слуги активизируются только при выполнении условий, определенных пользователем при создании фрейма.

Продукционные модели - это набор правил вида "условия-действие", где условиями являются утверждения о содержимом базы данных, а действия представляют собой процедуры, которые могут изменять содержимое базы данных.

Формально продукция определяется следующим образом:

(i); Q;P;С; QA В; N,

где (i) - имя продукции (правила); Q - сфера применения правила; Р - предусловие (например, приоритетность); С - предикат (отношение); А -> В - ядро; N - постусловия (изменения, вносимые в систему правил).

Практически продукции строятся по схеме "ЕСЛИ" (причина или, иначе, посылка), "ТО" (следствие или, иначе, цель правила).

Полученные в результате срабатывания продукций новые знания могут использоваться в следующих целях:

  1. понимание и интерпретация фактов и правил с применением продукций, фреймов, семантических цепей;

  2. решение задач с помощью моделирования;

  3. идентификация источника данных, причин несовпадений новых знаний со старыми, получение метазнаний;

  4. составление вопросов к системе;

  5. усвоение новых знаний, устранение противоречий, систематизация избыточных данных.

Процесс рассмотрения компьютером набора правил (выполнение программы) называют консультацией. Ее наиболее удобная для пользователя форма - дружественный диалог с компьютером. Интерфейс может быть в форме меню, на языке команд и на естественном языке.

Диалог может быть построен на системе вопросов, задаваемых пользователем, компьютером, или фактов - данных, хранящихся в базе данных. Возможен смешанный вариант, когда в базе данных недостаточно фактов.

При прямом поиске пользователь может задавать две группы вопросов, на которые компьютер дает объяснения:

  1. как получено решение. При этом компьютер должен выдать на экран трассу в виде ссылок на использованные правила;

  2. почему компьютер задал какой-то вопрос. При этом на экран выдается своеобразная трасса, которую компьютер хотел бы использовать для вывода после получения ответа на задаваемый вопрос. Вопрос почему может быть задан как в процессе консультации, так и после выполнения программы.

Специфичен алгоритм поиска, реализуемый логическими языками: он является фактически последовательным перебором по дереву сверху вниз - слева направо.

4 ХАРАКТЕРИСТИКИ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Опишем основные характеристики поисковых систем:

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска подробные пояснения по странице результатов поиска, например, у «Яндекса» можно посмотреть по ссылке.

Функции информационно-поисковой системы.

Информационно-поисковая система - система, выполняющая функции:

  1. хранения больших объемов информации;

  2. быстрого поиска требуемой информации;

  3. добавления, удаления и изменения хранимой информации;

  4. вывода информации в удобном для человека виде.

Различают:

  1. автоматизированные (coputerised);

  2. библиографические (reference);

  3. диалоговые (online);

  4. документальные и фактографические информационно-поисковые системы.

5ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ INTERNET

При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.

Lycos

Как и большинство систем, Lycos дает возможность использовать простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке. Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о числе документов на каждое слово, а уже позже и список ссылок на формально релевантные документы. В списке напротив каждого документа указывается его мера близости запросу, число слов из запроса, которые попали в документ и оценочная мера близости, которая может быть больше или меньше формально вычисленной. На апрель 1996 года в Lycos не был реализован булевый поиск, такие планы были анонсированы. Последнее предложение подразумевает только то, что нельзя вводить эти операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Последнее относится к расширенной форме запроса, который предназначен для использования искушенными пользователями системы, которые уже научились пользоваться этим механизмом.

Таким образом мы видим, что Lycos относится к системе с языком запросов типа "Like this", но предполагается его расширения и на другие способы организации поисковых предписаний.

AltaVista

Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе.

Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo

Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На мой взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе.

Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText

Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска.

OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

InfoSeek

Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, "-" - термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры.

Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS

WAIS является одной из наиболее изощренных поисковых систем Internet. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.

Применение языков на практике

Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза:

"Best on the Web"

Подразумевалось, что следует найти документ, связанный с конкурсами "Лучший на Сети". Понятно, что уже в самом запросе есть определенная некорректность, но тем интереснее посмотреть, как с ней справились различные системы. Эта фраза задавалась в качестве набора слов и при этом получались следующие результаты.

AltaVista - после нормализации лексики от запроса осталось только Best. Естественно, что при этом качество поиска было отвратительным. Однако, использование поиска по фразе как по единому целому, поставило требуемый документ на первое место в списке найденных.

Lycos - здесь отсеялись "on the" и документ был указан только в конце списка. Поиск по фразе улучшения результатов не дал.

InfoSeek - при расширенном поиске нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело только к миграции документа вглубь списка.

OpenText - документ занимает пятую строчку в списке из десяти документов. Как и в случае с InfoSeek уточнение запроса результатов не дало.

Yahoo - документ попал в список найденных и занял третье место (ошибка в запросе: вместо "on the" следовало указывать "of the"). Но здесь следует заметить, что основное место хранения этого документа база данных Yahoo, то есть запрос точно совпадает с тематикой базы данных.

6 КРИТЕРИЙ СМЫСЛОВОГО СООТВЕТСТВИЯ

Критерий смыслового соответствия (КСС), или критерий выдачи, позволяет решать вопрос о выдаче или не выдаче того или иного документа, то есть является основой алгоритма поиска.

Существуют следующие виды КСС:

  1. КСС "на полное вхождение", или "на вхождение".

Условием выдачи документов является полное вхождение ПОЗ в ПОД. Иными словами, документ выдается, если множество дескрипторов, образующее ПОЗ (Мпоз), полностью входит (рисунок 2) в множество дескрипторов, содержащихся в ПОД (МПОЛ), или совпадает с Мпод, т.е. Мпоз Ì Мпод

Рисунок 2 - Критерий "на полное вхождение"

  1. КСС "на частичное вхождение".

ПОЗ входит в ПОД частично (пересечение ПОД и ПОЗ). Документ выдается, если ПОД и ПОЗ совпадают частично, т.е. если часть дескрипторов, содержащихся в Мпод, совпадает с дескрипторами, входящими в Мпоз (рисунок 3): Мпоз Ç Мпод.

Рисунок 3 - Критерий "на частичное вхождение"

  1. КСС с учетом текстуальных и базисных отношений.

Различие с предыдущим заключается в том, что сравнение дескрипторов ПОЗ и ПОД должно осуществляться с точностью до совпадения текстуальных отношений, в которые их прообразы вступают соответственно в запросе и документе.

  1. КСС с учетом весовых коэффициентов информативных слов или дескрипторов.

Каждому информативному слову в запросе приписывается весовой коэффициент (WI). Весовые коэффициенты в ПОЗ определяются пользователем и нормируются. Сумма всех весовых коэффициентов в запросе должна быть константой (ΣWI= const). Выдача эшелонируется в зависимости от суммы весовых коэффициентов слов запроса, совпавших со словами, употребляемыми в документе. Количество эшелонов выдачи, а также соответствующие каждому из них суммы весовых коэффициентов (порог) определяются разработчиком системы в процессе ее отладки.

  1. КСС с учетом синтаксических отношений.

Вводятся правила грамматики и сопоставляются синтагмы, формируемые из дескрипторов (или ключевых слов) с помощью введенных правил.

ЗАКЛЮЧЕНИЕ

При появлении сети Internet проблема поиска становилась более актуальной. Internet - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете хранится очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем.

Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты - новое направление, лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ, следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.

СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ

  1. Вагин, В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н. Вагин, Е.Ю. Головина, А.А. Загорянская. - Москва: СПб. [и др.] : Питер, 2015. - 282c.

  2. Вламис Бизнес-путь: Yahoo! Секреты самой популярной в мире интернет-компании / Вламис, Смит Энтони; , Боб. - М.: Крылов, 2015. - 256 c.

  3. Трояновский, В.М. Информационно-управляющие системы и прикладная теория случайных процессов; М.: Гелиос АРВ - Москва, 2013. - 304 c.

  4. Ланкастер, Ф. Информационно-поисковые системы: характеристики, испытание и оценка / Ф. Ланкастер. - М.: Мир, 2015. - 308 c.

  5. Фрейен, Бен HTML5 и CSS3.Разработка сайтов для любых браузеров и устройств / Бен Фрейен. - М.: Питер, 2014. - 304 c

Просмотров работы: 388