ПОВЫШЕНИЕ КАЧЕСТВА ИНФОРМАЦИОННОГО ПОИСКА ЗА СЧЁТ СОВЕРШЕНСТВОВАНИЯ РАНЖИРОВАНИЯ И ИСПОЛЬЗОВАНИЯ ОСОБЕННОСТЕЙ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

ПОВЫШЕНИЕ КАЧЕСТВА ИНФОРМАЦИОННОГО ПОИСКА ЗА СЧЁТ СОВЕРШЕНСТВОВАНИЯ РАНЖИРОВАНИЯ И ИСПОЛЬЗОВАНИЯ ОСОБЕННОСТЕЙ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Предметом научной статьи является процедура ранжирования информационных данных с учетом поведенческого фактора пользователей.

Цель заключается в анализе и совершенствовании теории компьютерных сетей посредством модернизации технологий ранжирования.

Результаты полученные при выполнении статьи. В ходе исследования были получены следующие результаты, имеющие научную новизну:

– модернизирован математический аппарат, который предназначен для ранжирования информационных данных с учетом предпочтений пользователей, имеющих свою очередь схожие интересы;

– усовершенствованы процедуры поиска информационных данных в Интернете.

В процессе выполнения работы применялись такие сведения как, элементы теории многокритериальной оптимизации, линейного математического программирования, дискретного программирования, теории вероятностей, комбинаторики.

Практическая ценность данной работы заключается в создании технологий, которые нацелены на:

– разработку алгоритмов для обеспечения эффективного ранжирования;

– наращивание эффективности применения web-ресурсов в качестве рыночных инструментов;

– уменьшение издержек на конкурентную разведку у компаний, пользующихся Интернетом;

– улучшение качественных параметров поисковых процедур, за счет учета пользовательских предпочтений;

– повышение скорости информационного поиска с учетом пользовательского поведения;

– содействие поиску эффективных площадок для конкурентной разведки и рыночного продвижения;

– снижение трудоемкости поисковых операций и обработки первичных данных.

В настоящее время глобальная сеть отличается повышенной информационной насыщенностью, таким образом, что инструменты, которые отвечают за обеспечение автоматизированного и качественного поиска информации является наиболее важными и незаменимыми. Безусловно, данный довод относиться к наиболее крупным дата-центрам, которые свою очередь предназначены для решения проблем возникающих в информационном поиске, а также ранжирования информации на глобальных уровнях. Стремительное развитие Всемирной паутины, сопряжённые с наращиванием числа пользователей, которые нуждаются в получении релевантной информации в совокупности постоянно растущими информационными массивами данных, привело к тому, что поисковые системы экспертами стали рассматриваются качестве самостоятельной проблемной области. Можно сказать, что автоматизированный поиск информации рассматривается как основа информационного развития.

Информация, которая содержится в хранилищах Интернета, имеет ценность когда она является легкодоступной для конечного пользователя и интерпретируется как форма знаний.

Качественная информация отвечает следующим требованиям (таблица 1).

Таблица 1

Комплекс принципиальных требований к высококачественному информационному обеспечению

Принципиальные требования

Особенности реализации принципов

Полнота

Формирование исследовательских планов, уточнение сути явлений, их места в иерархической структуре

Актуальность

Обеспечение представления достоверных данных в определённый момент времени

Цельность

Обеспечение соответствия информационных сведений ключевой цели исследования

Достоверность

Соответствие информационных данных научным принципам сбора, обработки и интерпретации

Информационное единство данных

Подчинение процессов сбора, обработки и интерпретации данных к единым правилам с целью выделения единого информационного пространства

Релевантность

Получение сведений согласно заданному запросу

Полезность

Получение информационных данных согласно культурным, образовательным, социальным, научным, рабочим и т.д. принципам

Поиск информации, который отвечает всему комплексу перечисленных нами требований, на сегодняшний день высокой трудоёмкостью кроме того, что он не всегда является эффективным. Совместно с формированием информационных хранилищ данных, которые характеризуются крупными габаритами, постоянным обновлением, общедоступностью, неоднородностью послужило необходимостью решения комплекса задач:

  • совершенствование информационных машин для поиска данных и навигации в Интернете (Yandex, Yahoo, Bing, Mail, Google, Rambler, , Webalta);

  • разработку механизмов для качественного и быстрого поиска данных;

  • выявление взаимосвязей между отдельными единицами информации.

Научные исследования в области обработки информации, в сфере организации процедуры ранжирования, согласно мнению авторов [3 ,6, 8], способны обеспечить совершенствование компьютерных сетей и, как следствие, повышение эффективности рейтингования и информационного поиска. Интерес, который возрастает к предметной области определен тотальной информационной глобализацией.

Отсутствие эффективного ранжирования информации утрачивает смысл результата поиска, поскольку они свою очередь могут содержать тысячи неупорядоченных позиций. В настоящее время признаки которые оказывают влияние на рейтингование являются следующие: статическая величина характеризующая частоту отдельных слов(фраз) и элементы отражающие географию и историю запросов, ссылочную структуру сети Интернет, а также особенности пользовательского поведения.

Разработка эффективных алгоритмов и внедрение средств контентной аналитики, которые позволяют точно и высококачественноранжировать информацию различной направленности, сдерживаются, ввиду несоответствия теоритической проработки этой проблемы стремительно изменяющимся поисковым пользовательским потребностям и вследствие весьма низкого уровня применения математических механизмов. Наличие огромных объёмов неупорядоченной информации в сети Интернет, ранжирование признаётся актуальной проблемой, которая очень трудоёмкая в реализации.

Традиционно применяемые в области информационного поиска показатели, которые отражают его полноту и достоверность субъективны. Объясняется тем, что общее понятие «релевантность» признавать строгим нельзя: степень релевантности определяется соответствии с его субъективной экспертной оценкой.

Согласно этой причине качественное рейтингованиеопределяет требования поиска объективных количественных оценок эффективности применяемых методов информационного поиска и ранжирования. Данный подход соответствует общему тренду коммерциализации сети Интернет, который проявляется в исследованиях рынков, конкурентной разведке, сборе сведений о потребительских предпочтениях, а также распространении технической и маркетинговой информации.

При таких обстоятельствах сложно переоценить значение специального инструмента, который помимо сохранения характеристик полноты и достоверности поисковой технологии, также мог гарантировать учет опыта определенного множества пользователей, которые имеющие интересы, схожие с интересами искателя. Существование подобного инструмента позволило бы обеспечить качественное рейтингование информации, в свою очередь которое позволило бы нарастить эффективность применения web- ресурсов в технологических и бизнес-процессах и уменьшить издержки компании, пользующихся Интернетом применяемых для целей конкурентной разведки.

Описание имеющийся проблемы. В популярных поисковых системах решение задачи учёта опыта пользователей осуществляется посредством алгоритмов типа PageRank – метода определения веса web-страницы при помощи установления важности ссылок на неё. Но применение данного алгоритма лишь незначительно улучшает качество поисковых операций в сравнении с применением общепринятых критериев релевантности.У алгоритма типа PageRank имеются недостатки:

  • при осуществлении информационного поиска со схожими интересами люди, как правило, просто открывает документацию, который имеет высокий уровень «обычной» релевантности, что в свою очередь не позволяет учесть наличие специального опыта;

  • алгоритмPageRank отличается усреднением оценки соответствия поисковых итогов запросам;

  • при запросе уникальных данных алгоритм PageRank воздействует снижаю качественных показателей поисковых операций;

  • имеет место вывод новых документов, которые не представлены в значительном количестве гиперссылок, из зоны внимания искателей;

Поскольку наличия недостатков у ныне существующих рейтинговых систем в части учёта предпочтений пользователей со схожими интересами, требуется обеспечить их модернизацию.

Постановка рабочей задачи. Для целей исследования обозначим пользователей с интересами, которые схожи с интересами искателя и задающими в качестве поисковых запросов аналогичные ключевые фразы, термином «партнёры». Аналогичность поисковых запросов «партнеров»даёт возможность представить тождественность их культурных, социальных, образовательных, рабочих, научных и т.д. потенциалов с потенциалом искателя.

В настоящее время практическая реализация подобного проекта, как рейтинговая система с учётом предпочтений “партнеров”, не отличается эффективностью. Согласно ряда авторов [1,7], причины такого положения дел состоят в следующем:

  • в наличии огромного количества источников информации в сети Интернет (объём данных достигает 100 терабайт);

  • в предельной динамичности массива информации;

  • в отсутствии профессиональных навыков информационных поисков у большинства пользователей;

  • в отсутствии действенного инструмента, который способен обеспечить учёт предпочтений “партнёров”в процессе поиска информации.

Решение поставленной задачи. Качество такого математического инструмента, который предназначен для ранжирования информации с учётом предпочтений «партнёров», можно значительно усовершенствовать за счёт последующего наблюдения: все пользователи поисковых систем, которые обнаруживают документацию, соответствующую их требованиям, прерывают поисковую операцию.

Как известно, предпочтение «партнёров» имею все шансы быть оценены посредством определения вероятности того, что по фразам из запроса конкретного искателя, его «партнёры» выбирают необходимую им информацию. Для нахождения величины этой вероятности проводиться сбор статистики обращений к информационным сведениям. Ссылки на те самые сведения присутствуют в итогах поиска. Просмотрев определенный объём информации, пользователи возвращаются к тем ссылкам где были наиболее релевантные документы. Небольшая часть пользователей оставляет в свою очередь, открытыми окна с просмотренными документами. Данное наблюдение обуславливает возможность следующей коррекции.

Определение оценки релевантности «О» происходит с учётом позиции открываемой пользователем документации в период поисковой операции (усреднение «У»), низкочастотной фильтрации (усреднение «Ф»), и степени релевантности (в форме усреднения в течении временного периода «В», равному количеству периодов, в которых набирается число сессий «С»). При этом происходит уменьшение степени зависимости релевантности от поведенческих особенностей пользователей.

Таким образом, коррекция выглядит следующим образом:

О = Нд / (Нт * В)Ʃ(1 / С)Ʃ(Мдс / Мс), (1)

гдеНд- число обращений к документации «д»; Д – общий объём документации, содержащий термин «т»; Т – общий объём терминов; Нт – общее число обращений к документации с запросами, которые включают термин «т»; Мс – число единиц документации, которые открыты в период сессии «с»; Мдс – позиция открытого документа «д» с начала поисковой операции «с».

На рисунке 1 изображена иерархия элементов, составляющих разработанный критерий релевантности.

 

Степень релевантность (О)

Очередность обращения

 

 

Усреднение (У)

 

 

Статистика переходов

Усреднение (Ф)

 

Рис. 1. Иерархия элементов, составляющих критерий релевантности, который учитывает пользовательское поведение и статистику переходов.

Предлагаемое решение, подлежащее применению на практике, обеспечивает:

  • сглаживание недостатков традиционных методов, которые позволяют снижать эффективность ранжирования информации;

  • отображение с высокой степенью достоверности предпочтений «партнёров», как среди результатов выдачи, так и среди подмножеств просмотренных «партнёрами» документов;

  • улучшение качественных показателей поисковых операций в сети Интернет, за счёт усиления их индивидуализации (настраивания на пользовательское предпочтения);

  • формирование серьёзного базиса, который позволяет значительно повышать точность и оперативность информационного поиска с учётом статистики переходов и пользовательского поведения;

  • содействие поиску эффективных площадок для конкретной разведки и рыночного продвижения;

  • снижение трудоёмкости поисковых операций, результатом которого является сокращение расходов организаций, пользующихся Интернетом;

  • рост эффективности использования web-ресурсов как рыночных инструментов.

В данном исследовании был модернизирован инструмент, рассчитанный с целью ранжирования информации с учётом предпочтения «партнёров», в котором выявлены преимущества усовершенствованного инструмента.

В следствие выполненной работы был сделан вывод о возможности его использования на практике для построения более эффективной системы управления базами данных.

Литература:

1.Адамович И.М., Заикин М.Ю., Земков Д.В., Пешков А.Н. Поиск информации в WEB. Сравнительная оценка поисковых машин. Системы и средства информатики.2003, №3.

2.Балдин К.В., Уткин В.Б., Информационные системы в экономике: Учебник, - М.: Дашков и Ко, 2008. – 395 стр.

3.Браславский П., Колычев И. eXtragon: экспериментальная система для автоматического реферирования веб-документов//Труды РОМИП-2005. СПб., 2005. С. 40-53.

4.Брицов Р.А. Ранжирование информации на основе оценок и поведения пользователей // T-Comm: Телекоммуникации и транспорт. – 2016. – Том 10. - №1. – С. 62-65.

5. Заикин Д.А. Построение словарей терминов для предметных областей // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2009. –Казань: Отечество, 2010. – С. 71-76.

6. Зарина Т.Ю., Чернышева Т.Ю. Проблемы, возникающие при выборе информационных систем и методы их решения // Математика в естественных исследованиях: сборник трудов Всероссийского научно-практической конференции молодых учёных, аспирантов и студентов, Юрга, 9-10 Октября 2014. – Томск: ТПУ, 2014. – С. 224-227.

7. Касумова В.А. Методы информационного поиска в Internetна основе нечётких отношений предпочтений. Автоматика и вычислительная техника. 2003, №4. С. 71-78.

8. Gantz, J and Reinsel, R 2013.‘The Digital Universe in 2020: Big Data. Bigger Digital Shadows, and Biggest Growth in the Far East’, IDC Country Brief.

Просмотров работы: 79