Анализ набора данных о качестве воздуха - Студенческий научный форум

XIII Международная студенческая научная конференция Студенческий научный форум - 2021

Анализ набора данных о качестве воздуха

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Изо дня в день в век интернета и информационных технологий действия человека, какими бы они мелкими и незначительными не были, не остаются незамеченными. Поисковой запрос, обычная прогулка с телефоном в руках с использованием GPS, любая покупка в магазине, прослушивание музыки или установка приложения – каждое действие генерирует новый поток информации. Учитывая количество живущих на Земле людей, информации накапливается очень много. Еще больше данных производят машины, работа которых либо полностью основана на IT-технологиях, либо предполагает оцифровку физических или химических процессов, как, например, это происходит на нефтехимических предприятиях.[1, 2, 3]

В итоге мировой объем оцифрованной информации растет по экспоненте. Так, к 2003 году было накоплено 5 эксабайт данных (1 ЭБ = 1 млрд гигабайт = 1018 байт), к 2008-му — 0,18 зеттабайта (1 ЗБ = 1021 байт), к 2011 году — 1,76 зеттабайта, к 2017-му — порядка 10 зеттабайт (1022 байт) по данным российского IT-холдинга IBS.

Однако данные получают какую-либо ценность, только если сохраняются и анализируются. По оценке IBS, сегодня ценность имеет лишь несколько процентов генерируемых данных, а по расчетам аналитиков американской корпорации Dell ЕМС, используется лишь 3% от потенциально полезной информации. Дело в том, что существовавшими еще 10–15 лет назад методами с таким объемом данных справиться было невозможно[1].

Сегодня технологии big data на постоянной основе используются в бизнесе, медицине, экономике и прочих различных отраслях В данной работе на основе набора данных, описывающего состояние воздуха в мировом масштабе, мы проводим с помощью специальных инструментов анализ данных.

Основная часть (Результаты исследований)

Используя инструменты анализа больших данных, необходимо было выполнить следующие задачи:

Анализ и описание состава набора данных, полей и преобразование, если необходимо, данных

Поиск зависимостей, корреляций и гипотез в данных, построение соответствующих запросов, построение результирующих графиков и анализ результатов

Набор данных

Набор данных, взятый для данной работы, является «Real-time Air Quality» и представляет собой данные о качестве воздуха из 5490 локаций в 47 странах[4]. Набор включает в себя актуальные данные, которые обновляются по сей день по всему миру. Скриншот данных можно наблюдать на рисунке ниже.

Рис. 1. Данные Real-time Air Quality

Для выполнения задачи и аналитической работы с данными, используется BigQuery. BigQuery — это RESTful веб-сервис для интерактивного широкомасштабного анализа больших наборов данных, расположенных в Google Storage[5]. Данный инструмент позволяет с легкостью обрабатывать аналитические запросы с помощью SQL языка, с помощью Студии данных визуализировать информацию в нужном нам виде. В данном веб-сервисе уже присутствуют различные наборы данных, от медицинских до банковских, позволяющие быстро начать работу по освоению понимания анализа больших данных. Существует там так же раздел для загрузки своих наборов данных с различным форматированием и разделением, позволяющим в два клика загрузить данные из файла в удобную для анализа таблицу. Скриншот интерфейса представлен ниже.

Рис. 2. BigQuery

Анализ данных

Известно, что PM10 (мелкие твердые частицы диаметром 10 микрон и менее) вызывают заболевания и рак, что в 2012 году является причиной примерно 3 миллионов преждевре менных смертей во всем мире. Мы решили провести исследования на эту тему и посмотреть состояние концентрации конкретно в России, посмотреть актуальную информацию по самым загрязненным локациям на данный момент и так же рассмотреть статистику изменения качества на протяжении нескольких лет.

Данные по всему миру в табличном варианте представлены на рисунке ниже.

Рис. 3. Данные по всему миру

Данных конкретно по России немного, датчики снимают показания только столицы, но и тут можем наблюдать интересные результаты концентрации (рисунок ниже). Стоит отметить, что данные в наборе записаны официальным языком страны, из которой поступают данные, то есть на графике указаны локации именно так, как они записаны в датасете. Графический результат анализа представлен ниже.

Рис. 4. Данные по России

Страны с локациями с наиболее худшей ситуацией концентрации PM10 по последним данным.

Так же рассмотрим самые загрязненные локации на мировой картине.

Результаты запроса представлены ниже.

Рис. 5. Данные по загрязненным локациям

Инструментарий BigQuery позволяет быстро визуализировать результаты на карте мира, пример представлен ниже.

Рис. 6. Данные на мировой карте

Так же набор данных позволяет посмотреть исторические изменения качества воздуха, но, к сожалению, только в Америке.

Посмотрим, какой из городов за 20 лет наиболее улучшил качество воздуха. Для этого используем параметр air_quality_difference, который при запросе автоматически вычисляет разницу между текущим состоянием и данными за 1990 год.

Результат запроса ниже.

Рис. 7. Данные за 20 лет

Визуализированный результат запроса ниже.

Рис. 8. Данные за 20 лет, визуализация

За всё это время наилучший результат показал Вашингтон, что неудивительно, будучи столицей страны.

Заключение

Проанализированы актуальность направления больших данных и примеры использования, постановка задачи, описан используемый набор данный и инструментарий, который использовался для обработки и визуализации результатов запросов.

Проведен анализ данных и рассмотрено качество воздуха в различных районах и в различном времени.

Выбранный набор данных имеет потенциал в совместной работе с другими наборами, например, для реального сопоставления и подтверждения связи качество воздуха и проявления различных заболеваний, в отрасли туризма, для поиска наиболее выгодных и оздоровительных мест для отдыха и для настройки цен в зависимости от комфорта и качества воздуха в данных местах, для здравоохранения для поиска причины загрязнения и анализа эффективности уже предпринятых или только планируемых мер для улучшения качества воздуха и влияние на ментальное и психическое состояние населения в различных регионах с различным количеством концентрации определенных веществ в воздухе, для экономики, чтобы посмотреть влияние качества воздуха на продуктивность рабочего населения и производства в целом.

Литература

Александр Алексеев, Сергей Николаев Что такое big data: зачем они нужны, откуда берутся и как используются// Приложение «Индустрия 4.0 Просто о сложном» № 154 (сентябрь 2018) [Электронный ресурс]. URL: https://www.gazprom-neft.ru/files/journal/SNpr154.pdf (дата обращения: 20.01.2021).

Т. Дэвенпорт, К.Дж. Хо. О чем говорят цифры. М.: «Манн, Иванов и Фербер», 2015. 224 с.

The Big Data Conundrum: How to Define It? [Электронныйресурс]// MIT Technology Review. (дата обращения: 20.01.2021).

United States Environmental Protection Agency [Электронныйресурс] // EPA . (датаобращения: 20.01.2021).

Google Cloud BigQuery - Data warehouse [Электронныйресурс]// Google Cloud. (дата обращения: 20.01.2021).

Просмотров работы: 18