АНАЛИЗ ВОЗМОЖНОСТЕЙ ИСПОЛЬЗОВАНИЯ ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО СБОРА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИНТЕРНЕТ-РЕСУРСОВ - Студенческий научный форум

XIII Международная студенческая научная конференция Студенческий научный форум - 2021

АНАЛИЗ ВОЗМОЖНОСТЕЙ ИСПОЛЬЗОВАНИЯ ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО СБОРА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИНТЕРНЕТ-РЕСУРСОВ

Караваева А.А. 1
1Брянский государственный университет имени академика И.Г. Петровского
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Автоматический сбор информации из открытых Интернет-ресурсов позволит мобильному приложению для виртуализации карт постоянного клиента расширить свои возможности. Для внедрения в мобильное приложение возможности просмотра акций по добавленной дисконтной карте рассмотрим два процесса: парсинг и краулинг.

Функционирование поискового робота строится по тем же принципам, по которым работает браузер. Поисковый робот (паук, web-краулер) – это программа, которая ищет в Интернете гипертекстовой документ, после анализирует содержимое, определяет тип, кодировку, язык и добавляет ссылки со страницы в очередь для их дальнейшей обкачки. Затем по ссылкам переходит на другой ресурс, повторяя установленный алгоритм действий. Периодически робот возвращается на посещенные страницы для проверки их актуальности.

Принцип работы поискового паука прост: попадая на страницу он находит файл robots.txt, после его изучения посещает главную страницу, с которой переходит по другим ссылкам, продвигаясь в глубину[1].

Web-роботов можно разделить на:

– роботы, которые используются для законных целей;

– роботы, которые используются злоумышленниками.

Кроме основного робота, который индексирует весь интернет в целом, есть и специализированные, которые отдельно скачивают картинки, видео, новости, rss и т.д. Таким образом они позволяют ускорить попадание документов определенного типа в поисковый индекс.

Кроме сбора и обработки информации web-роботы имеют возможность делать покупки на сайтах, рассылать спам, писать рекламные тексты [3].

Web-роботы бывают нескольких типов:

– индексирующие (проверяет состояние ресурса, после посещения уже проиндексированной страницы обновляет информацию);

– проверяющие правильность HTML (помогают оценить целостность сайта и найти неработающие ссылки или неправильность кода);

– мониторинг «нового» на сайте (облегчают поиск новой информации на сайте);

– зеркалирующие (предназначены для создания копий сайтов).

Так же web-роботов принято разделять на три основные категории:

– любительские (они используют прямой перебор страниц и выполняют только простые запросы);

– продвинутые web-роботы (изменяют свое поведение и повторяют шаблоны поведения пользователей);

– профессиональные (используют сложные алгоритмы поведения, настраиваются вручную под каждый web-ресурс) [2].

Парсинг – автоматизированный сбор неструктурированной информации, ее преобразование и выдача в структурированном виде [4].

Парсер – программа, которая занимается извлечением определенных данных, указанных пользователем, ищет конкретную информацию на определенном сайте или странице. Парсер извлекает исключительно текстовую информацию, помещает ее в файл формата, который будет удобен для дальнейшей работы. Целью парсинга является анализ ценовой политики, отслеживание изменений, акций, поиск контента.

Принцип работы парсера прост: попадая на страницу ищет данные по установленным параметрам, собирает информацию и систематизирует ее, после чего формирует отчет, соответствующий требуемым критериям.

Для парсинга данных можно использовать уже существующую специально для этого программу, либо программу, написанную самостоятельно (программа может быть написана практически на любом языке программирования).

Парсинг законен, если он касается сбора информации, находящейся в открытом доступе. То есть всего, что можно и так собрать вручную [4].

Для извлечения со страницы конкретной информации используется XPath – язык для формирования запросов к XML-документам.

Таким образом, для добавления в мобильное приложение для виртуализации карт постоянного клиента новой возможности – мониторинг акций – наиболее подходящим будет внедрение парсера.

Список литературы

Веб-скрейпинг [Электронный ресурс] – Режим доступа: https://vc.ru/seo/182968-veb-skreyping-kak-besplatno-sparsit-i-izvlech-dannye-s-sayta – (Дата обращения: 03.01.2021)

Общая информация о поисковых роботах [Электронный ресурс] – Режим доступа: http://robotstxt.org.ru/chavo – (Дата обращения: 03.01.2021)

Поисковый робот [Электронный ресурс] – Режим доступа: https://netpeaksoftware.com/ru/blog/chto-takoe-poiskoviy-robot-i-kak-on-rabotaet – (Дата обращения: 10.01.2021)

Что такое парсинг? [Электронный ресурс] – Режим доступа: https://blog.calltouch.ru/chto-takoe-parsing/ – (Дата обращения: 11.01.2021)

Просмотров работы: 10