ОБЗОР ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ - Студенческий научный форум

XI Международная студенческая научная конференция Студенческий научный форум - 2019

ОБЗОР ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ

Тюхина И.В. 1, Лысакова Т.А. 1
1НИУ "БелГУ"
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Количество данных, которое создаётся и хранится на глобальном уровне почти невообразимо, и оно постоянно продолжает расти. Это означает, что есть еще больше возможностей для тщательного сбора ключевых сведений из бизнес-информации – однако на деле лишь малый процент данных на самом деле анализируется.

Большие данные – это термин, обозначающий большие объёмы данных – и структурированных, и неструктурированных.

Большие данные могут быть анализированы для получения сведений, которые приведут к лучшим решениям и стратегическим действиям в бизнесе.

Количество данных, которое создаётся и хранится на глобальном уровне почти невообразимо, и оно постоянно продолжает расти. Это означает, что есть еще больше возможностей для тщательного сбора ключевых сведений из бизнес-информации – однако на деле лишь малый процент данных на самом деле анализируется.

Некоторые предполагают, что важность больших данных вертится не вокруг того, как много данных у вас есть, а вокруг того, что вы с ними делаете. Вы можете получать данные из любого источника и анализировать их, чтобы найти ответы, которые позволяют:

1) снижать стоимостные затраты;

2) сокращать затраты времени;

3) разрабатывать новые продукты и оптимизировать предложения;

4) принимать умные решения.

Когда вы объединяете большие данные с высокомощной аналитикой, вы можете выполнять такие бизнес-задачи, как:

Определение корневых причин провалов, проблем и отклонений в почти реальном времени;

Генерировать купоны в момент времени продажи, основываясь на покупательском поведении клиента.

Перерасчёт множества портфелей риска за считанные минуты;

Обнаружение мошеннического поведения до того, как оно повлияет на организацию[1].

Таблица1 – организации, использующие большие данные

Банковское дело

Несомненно, банковское дело выиграет, если сможет использовать большие данные для своих нужд. Управление активами, оценка рисков и наращивание клиентской базы – вот ключевые потребности кредитных организаций нельзя будет удовлетворить, не научившись пользоваться инструментами big data [2].

Производство

Всё больше и больше производителей работают в культуре, основанной на аналитике; что означает, что они могут решать проблемы быстрее и принимать более гибкие бизнес - решения, используя анализ больших данных.

Образование

Педагоги, анализируя большие данные, смогут идентифицировать учащихся повышенного риска, убедиться, что учащиеся достигают необходимого прогресса, и могут внедрять более совершенные системы оценки и поддержки учителей и руководителей.

Источники больших данных обычно относятся к одной из трех категорий, представленных в таблице 2

Таблица2 – источники больших данных

Потоковые данные

Эта категория включает данные, конкретной ИТ-системы от сети подключённых устройств. Когда они прибывают, принимается решение о том, какие данные оставить, а какие нет, а что требует дальнейшего анализа.

Данные социальных медиа

Они часто имеют неструктурированную или частично структурированную формы, так что они довольно сложно поддаются анализу.

Публично доступные источники

Массивные объёмы данных доступны через свободные источники данных вроде государственного сайта США, Мировую книгу фактов CIA или Открытый портал данных ЕС.

После определения всех потенциальных источников данных обычно приходится ответить на следующие вопросы:

Как хранить (записывать/сохранять?) и управлять ей

Хотя хранилище было бы проблемой несколько лет назад, сейчас есть недорогие варианты хранения данных, если это лучшая стратегия для вашего бизнеса.

Как много из неё анализировать

Некоторые организации не исключают никакие данные из своих анализов, что возможно благодаря сегодняшним высокопроизводительным технологиям, таким как grid-вычисления или аналитика в памяти. Другой подход заключается в том, чтобы заранее определить, какие данные актуальны, прежде чем анализировать их.

Как использовать любые открытые сведения (идеи)

Чем больше знаний вы имеете, тем более уверенно вы будете в принятии бизнес-решений. Разумно иметь стратегию, когда у вас появляется для неё достаточно информации «на руках».

Однако, при использовании больших данных есть свои проблемы и риски. Например, риск переполнения хранилища, выдача преждевременных вердиктов, возможная некорректность информации и другое. Поэтому следует продумать – есть ли необходимость использовать большие данные, и если стоит, то какое ПО использовать.

На данный момент самой популярной программой обработки больших данных является Hadoop. Для него есть несколько альтернатив, но все они не такие мощные и не могут обработать такое же количество данных как Hadoop.

Hadoop используется для надежных, масштабируемых и распределенных вычислений, но может также применяться и как хранилище файлов общего назначения, способное вместить петабайты данных. В основном, Hadoop используется компаниями в исследовательских и производственных целях.

Современные системы СУРБД не могут вместить все то огромное количество данных, которое создается в больших компаниях, и тогда возникает необходимость идти на компромисс: данные либо только частично копируются в СУРБД, либо удаляются через определенное время. Необходимость таких компромиссных решений отпадает, если в качестве промежуточного слоя между интерактивной базой данных и хранилищем данных используется Hadoop.

Преимущества использования Hadoop:

- Производительность обработки данных возрастает пропорционально увеличению объема хранилища данных, в то время как в высокопроизводительных серверах рост количества данных и изменение производительности непропорциональны.

- При использовании Hadoop, чтобы повысить производительность обработки, достаточно просто добавить новые узлы в хранилище данных.

- Hadoop может хранить и обрабатывать многие петабайты данных [3].

На первый взгляд эта программа подходит всем, кто собирается использовать big-data, но из первого преимущества вытекает существенный минус – при использовании недостаточного объема анализируемых данных производительность снижается в разы.

Однако, некоторые авторы считают, что целесообразно использовать его только в том случае, если объем данных превышает 5 ТБ. В ином случае Hadoop уступает SQL, т.к. с помощью него можно свободно сделать любые вычисления, либо нужно воспользоваться созданным на Python скрипте.

Кроме того, SQL запросы могут выполняться очень быстро за счет рационального использования индексов — для вычисления достаточно просто посмотреть индекс (если он есть, конечно) и посмотреть необходимое значение ключа. Hadoop требует полного сканирования таблицы, с последующей полной сортировкой.

Из этого можно сделать вывод, что использование для анализа больших данных таким программным продуктом, как . Hadoop в небольших компаниях будет нецелесообразно.

Во первых – они просто не смогут найти такое большое количество информации, действительно необходимой для работы. Hadoop работает, как мы уже выяснили, пропорционально с анализируемым объемом данных по принципу – «больше данных – выше эффективность».

Во вторых – Hadoop довольно сложен в понимании и управлении. И гораздо проще сделать ту же самую операцию в других программах, чем пытаться её реализовать в Hadoop [4].

Поэтому анализ с помощью Hadoop не стоит проводить всем – для этого должна быть веская причина и необходимость. Когда другого варианта просто нет.

Поскольку у всех на слуху остается только один программный продукт, а именно Hadoop, можно сделать вывод, что на данный момент ниша разработки программных средств для анализа, сбора и хранения больших данных открыта. Пока не существует универсально средства, которое подходило бы как большим компаниям, так и индивидуальным предпринимателям, и могло работать с различными объемами информации без потери производительности.

Список литературы

Big Data What it is and why it matters [Электронныйресурс] // S.A.S. – Режимдоступа: https://www.sas.com/en_us/insights/big-data/what-is-big-data.html

Байназаров, Н. Волшебная палочка: зачем банкам big data [Электронный ресурс] / Н.Байназаров // Banki.ru. – Режим доступа: https: //www.banki.ru/news/daytheme/?id=9949915

Apache Hadoop [Электронный ресурс] // – Режим доступа: http://hadoop.apache.org

Зачем Hadoop? [Электронный ресурс] // Taskdata – Режим доступа: https:http://www.taskdata.com/index.php?option=com_content&view=article&id=26&Itemid=5

Просмотров работы: 55