В современном информационном обществе организации имеют доступ к огромным объемам данных, которые могут помочь им принимать важные решения и делать выводы. Большая часть этих данных является неструктурированной информацией, которая не имеет определенного формата или порядка.
Для наглядного представления объема неструктурированных данных можно обратиться к ежегодной инфографике "Data Never Sleeps", которая показывает, сколько данных генерируется в Интернете каждую минуту.
Например, в 2022 году пользователи отправляли 231,4 миллиона электронных писем каждую минуту, загружали 500 часов видео на YouTube и делились 66 тысячами фотографий в Instagram (соцсеть признанна экстремистской и запрещенной на территории России, заблокирована РКН). Имея доступ к такому огромному объему неструктурированных данных, компании могут получить больше информации о своих клиентах, рынках и операциях, что в конечном итоге может привести к росту и успеху.
Что такое неструктурированные данные?
В своей простейшей форме неструктурированными данными называют любые данные, не имеющие заранее заданной структуры или организации. В отличие от структурированных данных, упорядоченных в удобные строки и столбцы базы данных, неструктурированные данные могут быть неотсортированной и обширной коллекцией информации. Она может поступать в различных видах: текстовые документы, электронные письма, изображения, видео, посты в соцсетях, показания датчиков и так далее.
Представьте стол, заваленный рукописными заметками, печатными статьями, рисунками и фотографиями. Этот информационный бардак и есть аналог неструктурированных данных. В нём много содержимого, но без первоначальной сортировки и категоризации его нельзя использовать и выполнять по нему поиск.
Типы неструктурированных данных
В общем виде неструктурированные данные можно классифицировать на две категории:
генерируемые людьми неструктурированные данные, к которым относятся различные виды создаваемого людьми контента: текстовые документы, электронные письма, посты в соцсетях, изображения, видео и так далее
машиногенерируемые неструктурированные данные создаются устройствами и датчиками, это файлы журналов, данные GPS, результаты работы Internet of Things (IoT) и другая телеметрическая информация.
Вне зависимости от источника, неструктурированные данные сложно обрабатывать, поскольку часто для извлечения из них ценной информации требуются современные методики и инструменты. Однако несмотря на такие трудности, это ценный ресурс, который правильном анализе может предоставить компаниям ценную информацию и конкурентные преимущества.
Сбор неструктурированных данных
Сбор неструктурированных данных требует решения уникальных проблем вследствие большого объёма, разнообразия и сложности информации. Для этого процесса необходимы извлечение данных из различных источников, обычно при помощи API. Для быстрого сбора обширных объёмов информации вам могут потребоваться разнообразные инструменты потребления данных и процессы ELT (extract, load, transform).
Интерфейсы программирования приложений (API) позволяют взаимодействовать различным приложениям и выполнять извлечение данных из разных источников, в частности, с платформ соцсетей, новостных веб-сайтов и других онлайн-сервисов.
Например, разработчики могут использовать Twitter API для сбора публичных твитов, профилей пользователей и других данных с платформы Twitter.
Инструменты потребления данных — это приложения или сервисы, предназначенные для сбора, импорта и обработки данных из различных источников в систему или репозиторий центрального хранилища данных.
Apache NiFi — это опенсорсный инструмент интеграции данных, автоматизирующий перемещение и преобразование данных между системами, предоставляющий веб-интерфейс для создания потоков данных, управления ими и их мониторинга.
Logstash — это серверный конвейер обработки данных, потребляющий данные из множества источников, преобразующий их и отправляющий их в реальном времени различным точкам наподобие Elasticsearch или файлового хранилища.
После сбора неструктурированных данных следующий этап заключается в эффективном хранении и обработке этих данных. Для того, чтобы справиться со сложностью и объёмами неструктурированных данных, компании должны вкладываться в современные решения.
Анализ неструктурированных данных
Для правильного анализа и интерпретирования различных типов данных (аудио, изображений, текста и видео) необходимо использовать современные технологии — машинное обучение и ИИ. Методики на основе машинного обучения, в том числе обработка естественного языка (natural language processing, NLP), анализ аудио и распознавание изображений, критически важны для выявления скрытой информации.
Natural Language Processing (NLP) — это область искусственного интеллекта, упрощающая понимание, интерпретирование и генерацию человеческого языка компьютером. В основном она используется для анализа текстовых неструктурированных данных (электронных писем, постов в соцсетях и отзывов покупателей).
Базовая методика NLP под названием классификация текста упрощает упорядочивание и категоризацию текста для упрощения его понимания и использования. Эта методика позволяет выполнять такие задачи, как разметка важности и выявление негативных комментариев в отзывах. В популярной сфере применения классификации текста под названием «анализ эмоциональной составляющей» (sentiment analysis) текст категоризируется на основании чувств, суждений или мнений автора. Это позволяет компаниям понимать отношение аудитории к ним, расставлять приоритеты задач клиентской поддержки и выявлять тенденции в отрасли.
Ещё одна методика NLP для обработки неструктурированных текстовых данных называется «извлечением информации» (information extraction, IE). IE извлекает нужную информацию (имена, даты событий или телефонные номера) и упорядочивает её в базу данных. IE является важной частью интеллектуальной обработки документов и использует NLP и компьютерное зрение для автоматического извлечения данных из различных документов, их классификации и преобразования в стандартный выходной формат.
Распознавание изображений позволяет определять на изображениях объекты, людей и сцены. Это крайне полезно для анализа визуальных данных, например, фотографий и иллюстраций. Методики распознавания изображений помогают распознавать генерируемый пользователями контент, анализировать изображения товаров и извлекать тексты из сканированных документов для дальнейшего анализа.
Аналитика видео заключается в извлечении существенной информации из видеоданных, например, в выявлении паттернов, объектов или действий в роликах. Эта технология может использоваться для множества целей, например, для обеспечения безопасности, анализа поведения клиентов и контроля качества на производстве. Методики обнаружения движения, отслеживания объектов и распознавания действий помогают организациям получать информацию об их операциях, клиентах и потенциальных угрозах.
Инструменты анализа аудио позволяют обрабатывать и анализировать аудиоданные, в том числе голосовые записи, музыку и звуки окружающей среды, с целью извлечения полезной информации или выявления паттернов. Такие методики анализа аудио, как распознавание речи, определение эмоций и идентификация говорящего используются во множестве отраслей, например, в индустрии развлечений (генерация контента, музыкальные рекомендации), обслуживание клиентов (аналитика кол-центров, голосовые помощники) и безопасность (голосовая биометрия, акустическое распознавание событий).
Если для вашего проекта обработки данных требуется создание собственных моделей машинного обучения, то вы можете выбрать одну из платформ, рассчитанных на конкретные задачи, которые помогут вам эффективно выявлять в неструктурированных данных паттерны, тенденции и взаимосвязи. Довольно многие платформы машинного обучения и ИИ предоставляют возможности обработки и анализа различных типов неструктурированных данных (текста, аудио и изображений), которые можно использовать для создания и развёртывания ИИ-моделей. Например, можно создать и обучить собственные модели машинного обучения при помощи перечисленных ниже инструментов. Однако для обучения моделей на ваших данных потребуется команда data science.
TensorFlow — это опенсорсный фреймворк машинного обучения, использующий множество алгоритмов машинного и глубокого обучения. Он обладает возможностью обработки неструктурированных данных и широкий выбор библиотек и инструментов для создания, обучения и развёртывания ИИ-моделей.
IBM Watson — это коллекция ИИ-сервисов и инструментов, в том числе для обработки естественного языка, анализа эмоциональной составляющей и распознавания изображений, позволяющий обрабатывать и неструктурированные данные. В нём есть множество готовых моделей и API, а также инструменты для создания специализированных моделей, что упрощает интеграцию функций ИИ в уже имеющиеся системы.
Наконец, если вы обучаете модели под собственные задачи, вам может пригодиться разметка данных. В разметке данных используется аннотирование соответствующей информацией сырых данных, например, текста, изображений, видео или аудио. Это помогает моделям машинного обучения изучать паттерны и точно выполнять конкретные задачи.
Например, при обучении моделей NLP с целью анализа эмоциональной составляющей живые аннотаторы размечают образцы текста, указывая соответствующие эмоции: положительные, отрицательные или нейтральные. Аналогичным образом аннотаторы размечают изображения или их области, чтобы помочь моделям правильно распознавать и классифицировать их. В области аналитики видео разметка данных может заключаться в определении объектов, отслеживании их движения и идентификации конкретных действий. Наконец, в анализе аудио разметка может включать в себя транскрибирование речи, идентификацию говорящих или конкретных событий в аудио.
Разумеется, это лишь небольшая часть технологий в океане множества других. Выбор конкретных инструментов сильно зависит от конкретного проекта обработки данных и задач бизнеса.
Список литературы
1. Кузнецов В.А. Неструктурированные данные в системах управления. // Системы управления и информационные технологии. - 2017. - № 3. - С. 38-43.
2. Мартынов А.В. Управление неструктурированными данными в информационных системах. // Вестник Волгоградского государственного технического университета. - 2019. - Т. 21, № 11. - С. 102-107.
3. Шабанов В.Г. Неструктурированные данные в системах управления. // Вестник Удмуртского университета. - 2018. - Т. 28, № 2. - С. 147-154.
4. Григорьев А.В., Чернев А.С. Неструктурированные данные: методы анализа и обработки. // Труды Института системного программирования РАН. - 2016. - № 3. - С. 84-97.
5. Сергеев В.И., Краснова Н.Е., Русаков А.С. Анализ и обработка неструктурированных данных. // Труды Международной научно-практической конференции "Научные исследования: от теории к практике". - 2018. - Т. 1. - С. 91-94.