ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО СБОРА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИНТЕРНЕТ-РЕСУРСОВ - Студенческий научный форум

XIV Международная студенческая научная конференция Студенческий научный форум - 2022

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО СБОРА ИНФОРМАЦИИ ИЗ ОТКРЫТЫХ ИНТЕРНЕТ-РЕСУРСОВ

Караваева А.А. 1
1Брянский государственный университет имени академика И.Г. Петровского
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Сбор данных, прежде всего, требует определения технических средств, которые обеспечивают быстрое и эффективное формирование процесса сбора, а также поддерживающих операций по вводу данных и представления их в электронной форме, которые выбирают в соответствии с типом собираемой информации и ее назначения.

Парсинг – это сбор того, что пользователи могут своими глазами увидеть на сайте и скопировать к себе руками. Таким образом, под статью об авторском праве могут попасть лишь действия с уже собранной информацией, т.е. действия владельца собранной информации.

Простым языком человек это делает долго медленно и с ошибками, а парсер – быстро и не ошибается. Что же делать, когда речь касается сбора данных с крупных международных торговых площадок? Человеку просто не под силу такая задача, и парсинг – единственный выход [1].

Одна из целей парсинга является ценовая «разведка», ассортиментный анализ, отслеживание акций. Также парсятся объявления, например, на актуальных площадках частных объявления. Еще одно применение парсинга – использование для получения контента [1].

Для того, чтобы получить нужную информацию с помощью парсинга нужно проделать некоторые шаги. Сначала необходимо найти подходящую программу для парсинга. Есть простые бесплатные сервисы, а есть дорогостоящие профессиональные инструменты [1].

После этого нужно определиться с тем, какую информацию требуется собрать. Необходимо подробно сформулировать критерии поиска. Парсеры имеют большое количество фильтров, благодаря этому данные будут более релевантными запросами и подробными.

Последний шаг – это запуск парсинга. Для этого в специальном окне выбранной программы нужно указать адрес страницы, с которой требуется собрать информацию.

Разберём работу программы-парсера.

Изначально рассматривается исходный код страницы, программа проходит по нему как по обычным словам, и находит некоторые соответствия, которые записаны в ее программный код. Она сравнивает их, сопоставляет и сохраняет то, что нужно по определенным условиям.

Последний шаг – сохранение в удобном формате данных. То есть какие-то программы или скрипты будут сохранять в SQl, какие-то – в XML, кто-то – в обычном TXT, либо в табличном документе.

На рисунке 1 представлена схема работы парсера [2].

На рисунке 2 изображен пример результата работы по парсингу сведений о наличии товаров в детском Интернет-магазине в формате CSV (открыт с помощью Microsoft Excel 2019).

Рисунок 1 – Схема работы парсера

Рисунок 2 – Результат работы парсинга

Имея множество применений, этот инструмент лучше всего себя раскроет в решении вопросов ценообразования и ценовых показателей, для которых цена является важным параметром и важна актуальность данных.

База данных, которая имеет в себе ценовые показатели от множества поставщиков и производителей сможет существенно облегчить процесс поиска и подбора необходимых товаров, а также даёт возможность решения вопроса «золотой средины цены».

Помимо этого, инструмент отлично подойдет для поиска информации о соискателях на сайтах объявление или поиске работы.

Список литературы

Парсинг данных [Электронный ресурс]. – Режим доступа: https://www.insales.ru/blogs/university/parsing-dannykh-dlya-internet-magazinov (Дата обращения: 04.01.2022)

Парсинг как один из инструментов интеллектуальных баз данных [Электронный ресурс]. – Режим доступа: https://alley-science.ru/domains_data/files/1June2020/PARSING%20KAK%20ODIN%20IZ%20INSTRUMENTOV%20INTELLEKTUALNYH%20BAZ%20DANNYH.pdf (Дата обращения: 13.03.2022)

Разработка приложения веб-скрапинга с возможностью обхода блокировок [Электронный ресурс]. – Режим доступа: https://cyberleninka.ru/article/n/razrabotka-prilozheniya-veb-skrapinga-s-vozmozhnostyami-obhoda-blokirovok/viewer (Дата обращения: 09.05.2022)

Сведения об авторах

Караваева Алина Александровна – магистрант ФГБОУ ВО «Брянский государственный университет имени академика И.Г. Петровского», e-mail:k.alina08@inbox.ru.

THE POSSIBILITIES OF USING THE TECHNOLOGY OF AUTOMATIC COLLECTION OF INFORMATION FROM OPEN INTERNET RESOURCESOF TRADE

A. A. Karavaeva

Bryansk State University named after Academician I.G. Petrovsky

This article discusses one of the ways to automatically collect information from open Internet resources.

Keywords:data collection, text analysis, parsing.

References

Data parsing [Electronic resource]. – Access mode: https://www.insales.ru/blogs/university/parsing-dannykh-dlya-internet-magazinov (Accessed: 04.01.2022)

Parsing as one of the tools of intelligent databases [Electronic resource]. – Access mode: https://alley-science.ru/domains_data/files/1June2020/PARSING%20KAK%20ODIN%20IZ%20INSTRUMENTOV%20INTELLEKTUALNYH%20BAZ%20DANNYH.pdf (Accessed: 03/13/2022)

Development of a web scraping application with the ability to bypass locks [Electronic resource]. – Access mode: https://cyberleninka.ru/article/n/razrabotka-prilozheniya-veb-skrapinga-s-vozmozhnostyami-obhoda-blokirovok/viewer (Accessed: 09.05.2022)

About authors

Karavaeva Alina Aleksandrovna – Student of the Bryansk State University named after Academician I. G. Petrovsky, e-mail: [email protected].

Просмотров работы: 21