Для извлечении данных, информацию необходимо извлечь системой обработки. Под системой обработки информации понимается совокупность средств и методов получения и преобразования информации, позволяющая на основе исходных данных получить совокупность выходных показателей, необходимых для анализа, контроля, планирования, управления. Создание систем преобразования, анализа, управления и обработки информации, позволяющих осуществлять комплексную оценку различного рода информации, поступающей из различных источников, собираемой и создаваемой в процессе функционирования сложных технических, экономических и социальных систем.
Многие коммерческие и некоммерческие организации ведут мониторинг отзывов и выполняют оценку качества своей деятельности на ее основе. Для решения задачи поиска и извлечения информации разработано множество программных продуктов и систем, некоторые из них представлены анализу в данной работе.
Архитектуры данных систем в настоящее время находятся на этапе бурного развития, т.к. применение подобных систем открывает более широкие аналитические возможности для исследования сложных предметных областей. Поэтому тематика данной работы, посвященная исследованию и разработке алгоритмов анализа неструктурированной и слабоструктурированной информации, является актуальной.
Целью данной работы является исследование и разработка системы анализа неструктурированной и слабоструктурированной информации.
Для достижения поставленной цели необходимо решение следующих исследовательских задач:
1. Провести обзор проблем в области анализа и неструктурированной и слабоструктурированной информации.
2. Выполнить математическое описание методов анализа неструктурированной и слабоструктурированной информации.
3. Разработать алгоритмы и программную реализацию системы анализа неструктурированной и слабоструктурированной информации.
4. Провести оценку эффективности предлагаемого математического описания, алгоритмов и точность анализа данных.
К неструктурированным относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные предоставляются пользователю в виде отклика поисковыми системами [1].
Слабоструктурированные данные — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа по каким-либо признакам с целью выполнения некоторых действий над элементом [2].
Система анализа неструктурированной и слабоструктурированной информации может быть использована для широкого круга задач поиска и извлечения информации, а также для организаций, которые ведут мониторинг отзывов и выполняют оценку качества своей деятельности на ее основе.
СПИСОК ЛИТЕРАТУРЫ:
Журавлев Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2014.
Хачумов М.В. Задача кластеризации текстовых документов. — Информационные технологии и вычислительные системы, № 2, 2013.
Кириченко К.М, Герасимов М.Б. Обзор методов кластеризации текстовой информации. – Режим доступа : http://www.dialog-21.ru/Archive/2001/volume2/226.htm