Ежегодно происходит увеличение совокупного использования информации, развитие социальных сетей, интернета и других новшеств информационного общества способствуют накоплению огромных баз данных, охватывающих абсолютно разные сферы. Причем сами базы данных сильно изменились за последние десятилетия, и вместо устаревших реляционных баз, на их место пришло многомерное представление информации, например, OLAP системы, где данные образуют OLAP-куб. Наряду с развитием баз данных, изменения коснулись и способа их изучения, так в 1989 г. Григорий Пятецки-Шапиро впервые ввел термин Data Mining [1].
Таким образом, Data Mining – это метод сбора, обработки, анализа и изучения массивов данных, который можно применять в естественной, технической и гуманитарных науках. Сущность этого метода базируется на следующих решениях: применение искусственных нейронных сетей, «ветвящиеся решения в виде крон деревьев», нечеткость логики и интеллектуальное построение алгоритмов, создание ассоциативных решений, кластеризация данных, а также факторный, дисперсионный, дескриптивный, корреляционный и компонентный виды статистического анализа [1].
По оценкам специалистов компании IDC [2], совокупный объём информации созданный человечеством, в 2006 г. он составлял 0,16 зеттабайта, что равно , для сравнения гигабайт - . На начало 2019 этот показатель составлял 33 зеттабайта, то есть рост составляет 20625% или в усредненном значении 1473% в каждый год. При таком росте объёмов информации метод анализа Data Mining позволяет найти в терабайтах лишней информации только полезные крупицы, т.е. скрытые и неожиданные знания, которые старые подходы к анализу данных даже не заметят. Эти знания в совокупности с интеллектуальным анализом позволяют находить эффективные решения, создавать новые алгоритмы, а также выявлять и организовывать расплывчатые тенденции.
В разрезе применения Data Mining в информационной экономике и финансовых отношениях, стоит обратить внимание на интересный феномен появления большого количества хедж-фондов, начиная c 1980 г. С появлением высокопроизводительной вычислительной техники, различные специалисты в области математики из MIT, Гарварда, Чикагского и Калифорнийского технологического университетов, начали исследовать экономику и курсы ценных бумаг. Они находили неверно оцененные деривативы и играли на понижение или повышение цены базового актива. Для этого они применяли: Big Data, Data Mining, искусственный интеллект и непрямолинейное машинное мышление. Крайне высокая прибыльность этого занятия привлекала все больше и больше людей, таким образом, эта отрасль экономики сильно повлияла на кризис 2007 г.
По оценке Скотта Паттерсона в своей книге «Кванты» [3], наибольшую эффективность показывал довольно закрытый алгоритмический фонд «Renaissance Technologies», созданный в 1982 г. В течении 5-6 лет группа высококвалифицированных ученых на основе машинного обучения искусственного интеллекта, т.е. Data Mining, находила скрытые закономерности и новые законы торговли на бирже.
Представленные данные на рис. 1 [4] отражают реальную доходность фонда, которая во много раз превышает не только среднегодовой рост рынка, равный значению 7-9%, но и многие другие инвестиционные компании в смежной отрасли. В предоставленном периоде, за 28 лет, совокупная просадка стоимости инвестиционного портфеля, случившаяся по причинам неэффективности алгоритмов, случилась лишь один раз, и то, во время первоначального тестирования и отладки системы.
Рис. 1: Доходностьфонда «Renaissance Technologies» [4]
С другой стороны, технология Data Mining на практике применяется в сфере найма сотрудников, а также проверки и тестирования уже имеющихся. Таким образом, существует большое количество компаний, которые, собрав общую информацию о будущих или текущих сотрудниках, основываясь на различных уже созданных отчетах по выборкам больших данных, могут дать оценку вероятного поведения того или иного человека в будущем.
Под общими данными, имеется ввиду пол, возраст, семенное положение, наличие детей, опыт работы в данной сфере и в определенной компании, заработная плата. Хотя сама по себе, это разрозненная информация о человеке, ее совокупность и применение технологий Data Mining и Big Data дают впечатляющие результаты для HR – отдела. Как например: на основании косвенных признаков, можно наиболее точно спрогнозировать поведение того или иного индивида, более точно оценивать прошлую занятость сотрудника, и, на основе этого, делать выводы о его компетенции и предпочтительности для компании.
К числу крупных кадровых агентств, которые применяют технологии Data Mining и Big Data относятся: «Онлайн-оценка персонала Proaction.pro», «hr-monster.ru», «modis.com» и другие, а также HR-отделы внутри «Avito», «Habidatum», «ABBYY», «Data Monsters» [5].
По мнению Дэна Вессета, вице-президента группы по аналитике и управлению информацией в IDC, цифровая трансформация стала ключевым драйвером роста расходов на BDA (Big Data and Analytics) благодаря инициативам руководства, что приводит к глубокой оценке существующих бизнес-практик и требований к лучшему, более быстрому и более полному доступу к данным, аналитике и пониманию. Крупные компании стремятся освоить новые технологии в сфере Big Data, чтобы оставаться конкурентоспособными. Также, специалисты компании отмечают, что в 2019 г. объем рынка данных и бизнес аналитики достигнет 189,1 млрд долларов, это означает увеличение показателя на 12% относительно прошлого года [6].
Проводя исследование в области поиска б/у машин, группа программистов использовала технологию Data Mining для анализа вторичного рынка [7]. В своей статье они описали процесс проверки объявлений крупных сайтов (auto.ru, drom.ru, avito.ru). В разработке математической базы авторы использовали алгоритмы, в основе которых лежат деревья принятия решений, а именно - Random forest и Xgboost, поскольку первоначальная линейная зависимость показывала слишком разбросанные крайние значения. Используя следующие данные (год выпуска, марка и номер машины, цена, географическая область, и определенные характеристики машины), авторы провели исследование и выявили соотношение цены машины и выгоды, которую получает покупатель. Так, из выборки в несколько тысяч машин, были найдены варианты с выгодой 41%, 36%, 35% [8] и тд.
Основываясь на данном исследовании, авторы статьи создали сервис [9], который позволяет оценить стоимость подержанного автомобиля и найти наиболее подходящие и выгодные предложения на рынке. Данный сервис гораздо эффективнее ручного поиска подходящего автомобиля, поскольку человек, в отличие от алгоритмов машины, не может отслеживать и оценивать множество факторов в реальном времени. Как следствие, развитие технологии Data Mining позволяет людям существенно сократить временные затраты на однообразную и не всегда эффективную работу.
Таким образом, Data Mining в совокупности с Big Data и Machine Learning являются не далекими технологиями будущего, а уже сегодня находятся на вооружении множества компаний. Они позволяют эффективно решать задачи, которые поступают из абсолютно разных сфер бизнеса, от оптимизации систем поставок до увеличения вовлеченности аудитории к продукту и оценки стоимости машины, и т.д.
Библиографический список:
«Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях» статья на Сайберленика: https://cyberleninka.ru/article/n/primenenie-tehnologiy-intellektualnogo-analiza-dannyh
Исследование компании IDC; URL: https://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf
«The Quants: How a New Breed of Math Whizzes Conquered Wall Street and Nearly Destroyed It» 2013, СкоттПаттерсон.
Видео-интервью Bloomberg с официальными представителями компании; URL: https://www.bloomberg.com/news/videos/2016-11-21/the-fabled-finance-of-renaissance-s-medallion-fund
Интервью с HR-менеджерами и руководителями различных компаний проведенное «Нетология»; URL: https://habr.com/ru/company/netologyru/blog/454320/
Анализотчета International Data Corporation; URL: http://www.dailycomm.ru/m/46958/
Статья «Как программист машину покупал»; URL: https://habr.com/ru/post/302788/
Статья «Как программист машину покупал II»; URL: https://habr.com/ru/post/312842/
Сервис «Онлайн оценка подержанного автомобиля»; URL: https://robasta.ru/ocenka-avtomobilya-online