РАЗВИТИЕ ПОИСКОВЫХ СИСТЕМ - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

РАЗВИТИЕ ПОИСКОВЫХ СИСТЕМ

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Поисковые системы уже давно стали неотъемлемой частью российского Интернета. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными поисковыми системами [3].

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют… Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента [4].

Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам [3].

В настоящее время существует 3 основные международные поисковые систем - Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search. aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb - базу Yahoo [2].

По данным сайта-www.smartinsights.com, согласно чистой рыночной доле (по состоянию на апрель 2017 года) доля глобального маркетинга с точки зрения использования Google составляет более 77% (см.рис 1).

Рис 1. График популярности поисковых систем в мире на 2017 год

Как видно из рисунка 1 второе место занимает поисковая система Baidu (8,13%), третье место удерживает система Yahoo! (7,31%), а четвертое место за поисковой системой Ask (5,6%). Это еще раз подтверждает тот факт, что Google является лидером на рынке, но также подчеркивается, что другие, такие как Yahoo, Bing, Baidu и т. д. не стоит игнорировать. Интересно отметить, что значительная доля рынка Google по-прежнему растет [6].

В России основной поисковой системой долгое время являлся Яндекс, за ним шли Google.ru, Mail.ru, Rambler и др.

В 2010 году поисковая система Яндекс находилась с большим отрывом на первом месте в списке самых востребованных поисковых систем. Это видно на графике ниже (см. рис.2).

Рис 2. График популярности поисковых систем на январь и декабрь 2010 года.

Как видно из рис 2, доля Яндекса к началу года составляла внушительные 47,60% от общего числа, но к концу года эта доля увеличилась еще сильнее и уже составляла 56,70%. Другая, не менее известная поисковая система от компании «Google», имела долю 39,74% к началу года, которая уменьшилась к концу года и составляла уже 32,82%. Третье место занимала поисковая система Mail.ru. Ее доля составляла 8,61% к началу года и 7,02% к концу.

К началу 2013 года позиции Яндекса оставались все такими же внушительными. Но к концу года поисковая Google сделала большой скачок и подтянулась к своему главному конкуренту в России.

За год, поисковая система Google, смогла увеличить свою популярность почти на 13% и составляла уже не менее внушительные 46,71%, совсем немного уступив своему главному конкуренту Яндексу, доля которой с 53,28% в начале года упала до 47,75% к концу года. Доля поисковой системы Mail.ru уменьшилась в 2 раза с 8,35% до 4,16%. Всего лишь 1,38% популярности имели остальные поисковые системы, такие как Rambler и т.д. (см. рис.3).

Рис 3. График популярности поисковых систем на январь и декабрь 2013 года

В начале 2017 году первую строчку в рейтинге популярности поисковых систем с небольшим отрывом продолжал удерживать Яндекс, который имел долю 47,75% против 46,71% у Google, но к концу года вперед вырвалась поисковая система компании Google, которая смогла увеличить свою долю на 2,26% и с показателем 48,97% заняла первую строчку в рейтинге. Показатели Яндекса уменьшились до 46,34%. Немного выросла и доля поисковой системы Mail.ru, которая к концу года составила неплохие 4,16% (см. рис.4)

Рис 4. График популярности поисковых систем на январь и декабрь 2017 года

Таким образом, можно сделать вывод, что на состояние к декабрю 2017 самой популярной поисковой системой в России является система компании Google.

Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Эти системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию.

Как правило, сравниваются два основных показателя [5]:

  • пространственный масштаб, в котором работает ИПС,

  • и ее специализация.

Поисковая система - это сумма следующих компонентов:

Webserver (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.

Spider (паук) – программа, написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.

Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.

Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.

Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.

Searchengineresultsengine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования [1], [4].

Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из WorldWideWeb. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе, спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность [4].

После копирования разысканных Web-ресурсов, на сервер поисковой системы начинается второй этап работы — индексация. Индексирование страниц производится специальной программой называемой роботом. У каждой поисковой машины таких роботов очень много. Все это служит целью параллельного скачивания документов из различных мест сети. Скачивать документы по очереди не имеет смысла, так малоэффективно. Представьте себе постоянно растущее дерево. На стволах которого вновь и вновь появляются лепесточки (страницы сайтов). Конечно же, вновь появляющиеся сайты будет проиндексированы значительно быстрее, если роботов пустить по каждому ответвлению дерева, а не делать это последовательно [4].

Несмотря на то, что поисковые системы сильно изменились, большинство до сих пор отбирают результаты поиска на основании примерно следующих критериев:

  1. Title (заголовок): Присутствует ли ключевое слово в заголовке?

  2. Domain/URL (Домен/адрес): Присутствует ли ключевое слово в имени домена или в адресе страницы?

  3. Style (стиль): Жирный (STRONG или B), Курсив (EM или I), Заголовки HEAD: если место на странице, где ключевое слово использовано в жирных, курсивных или Hx (H1, H2) текстовых заголовках?

  4. Density (плотность): Как часто ключевое слово употреблено на странице? Количество ключевых слов относительно текста страницы называется плотностью ключевого слова.

  5. MetaInformation (мета данные): Хотя многие отрицают, некоторые поисковые системы до сих пор читают мета ключевые слова (metakeywords) и мета описания (metadescription).

  6. OutboundLinks (ссылки наружу): На кого есть ссылки на странице и встречается ли ключевое слово в тесте ссылки?

  7. InboundLinks (внешние ссылки): Кто еще в Интернет имеет ссылку на данный сайт? Каков текст ссылки? Это называется "внестраничный" критерий, потому что автор страницы не всегда может им управлять.

  8. InsiteLinks (ссылки внутри страницы): На какие еще страницы данного сайта содержит ссылки эта страница [3],[4].?

Как видите, поисковой машине необходимо делать множество уточняющих запросов, используя скаченную страницу целиком.

Рост информации бесконечен, а потому нет предела совершенствованию поисковых машин. Важнейшей задачей разработчиков является улучшение качества поиска, движение в сторону большей эффективности и удобства в использовании системы. С этой целью постоянно меняются поисковые алгоритмы, создаются дополнительные сервисы, дорабатывается дизайн [1].

Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск. Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет.

Список использованных источников:

  1. Абросимов А.Г., Абрамов Н.В., Мотовилов Н.В., Корпоративные экономические информационные системы, уч. пос. СГЭА, 2005.

  2. Колмановская Е., CompTekInternational, Яndex: система русского поиска Internet/Intranet.

  3. Петров, В.Н. Информационные системы [Текст]//В.Н. Петров - СПб. : Питер - 2003.

  4. Ландэ Д.В. - Как работают поисковые машины? – [Электронный ресурс] – Режим доступа. – URL: http://search.tstu.ru/main/technology/?te=4

  5. Семакин, И.Г., Хеннер, Е.К. Информационные системы и модели //И.Г. Семакин, Е.К. Хеннер – Москва : БИНОМ – 2005.

  6. Юдин Антон - Рейтинг поисковых систем в 2017 – [Электронный ресурс] – Режим доступа. – URL - https://marketer.ua/rejting-poiskovyh-sistem-v-2017-statistika-stran-sng-i-mira/

Просмотров работы: 75