Программа для формирования вектора морфологических признаков документов - Студенческий научный форум

XIII Международная студенческая научная конференция Студенческий научный форум - 2021

Программа для формирования вектора морфологических признаков документов

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Текст является основным видом представление информации, несмотря на то, что последнее время мультимедийные форматы получают все более широкое распространение. Разработка эффективных подходов анализа текста является наиболее актуальным направлением в современных информационных технологий.

Одной из основных задач обработки текста является, например, определение авторского стиля документа [1-2]. Система, обладающие информацией о семантике документов, может осуществлять поиск текстов с учетом их особенностей (например, стиля).

Объектом исследования в данной работе служит морфологический анализ текста и основные требования к нему, а предметом исследования являются технологии его реализации. На основе такого анализа проверяется основная идея, приведенная в исследованиях [1-3], что вектор морфологических признаков текста несет информацию об авторском стиле произведения.

Следовательно, имея базу данных векторов морфологических признаков текстов различных авторов, возможно определение авторского стиля (или близости стиля произвольного произведения) тому или иному известному писателю.

Еще одна цель данной работы – проверить гипотезу о том, что на основе морфологического анализа возможно автоматизировать процесс сравнения стилей произведений разных авторов. Или по-другому – автоматически определять авторский стиль документа (вычисляя, например, Евклидово расстояние между векторами).

Для построения программы морфологического анализа текста было необходимо подключить библиотеки морфологического анализа. В нашем случае выбраны модули компании АОТ [5].

Программа работает при наличии установленного с сайта компании АОТ (www.aot.ru) лемматизера [6]. Там же находится полный перечень всех анкодов (приложения для анализа данных с открытым исходным кодом дистрибутив «Русская морфология для программистов»).

Разработанное приложение (рисунок 1) формирует вектор относительной частоты значений основных морфологических признаков текста (частей речи), таких, как существительные мужского, женского, среднего рода; глаголы; деепричастия и др.

Рисунок 1 – Интерфейс программы «Морфология»

Особенностью данной программы является возможность сохранения результатов обработки из DataGridView в базу данных. Также результат можно сохранять и в текстовом формате и в формате MSEXCEL.

На основе собранных данных можно анализировать данные и строить кривые, которые характеризуют авторский стиль (рисунок 2).

Показан анализ данных на примере произведений писателя А. В. Калинина: «Запретная зона», «Братья» и «Неумирающие корни». Из графиков видно, что для одного автора кривые практически совпадают.

Рисунок 2 – Пример графиков отображения векторов морфологических признаков

Таким образом, на этой основе данного приложения можно создать значительную базу авторских стилей.

Программа написана на языке C#. Отладка программы выполнялась в студии Microsoft Visual Studio Community 2019.

Список литературы

Vladimir Meshkov, Natalia Kochkovaya and Irina Usova. Formation of functional-role communication clusters based on morphological features of the verbal context. XIII International Scientific and Practical Conference “State and Prospects for the Development of Agribusiness – INTERAGROMASH 2020” E3S Web Conf. Volume 175, 2020

Мешков В.Е., Мешкова Е.В. Определение авторского стиля на основе статистическо-морфологического анализа произведений. В книге: Теория операторов, комплексный анализ и математическое моделирование Тезисы докладов XIII Международной научной конференции. пос. Дивноморское, 7-14 сентября 2016 года.

Мешков В.Е., Мешкова Е.В. Статистическо-морфологический метод анализа для определения авторского стиля. Всборнике: Science: discoveries and progress Proceedings of articles II International scientific conference. Editors F.I. Kevlja, M.A. Derho, T.F. Kosyreva, S.S. Kugaevskij. Karlovy Vary - Moscow, 2017. С. 123-132.

Мешков В.Е., Якимова И.С. Автоматизированная коррекция стиля текстового документа. Материалы X Международной студенческой электронной научной конференции «Студенческий научный форум» URL: http://www.scienceforum.ru/2018/2947/713

Основные интерфейсы компонента морфологического анализа [Электронный ресурс]: Компания АОТ, 2016. URL: http://www.aot.ru (дата обращения: 14.11.2020 )

Русский морфологический словарь Диалинг [Электронный ресурс]: Компания АОТ, 2017. URL: http://www.aot.ru

Просмотров работы: 6