РАЗРАБОТКА МОДУЛЯ ДЛЯ ПРОЕКТИРОВАНИЯ МАТЕРИАЛОВ ИНТЕРНЕТ-РЕСУРСА НА ОСНОВЕ ТОНАЛЬНОСТИ ОТЗЫВОВ ПОЛЬЗОВАТЕЛЕЙ - Студенческий научный форум

XI Международная студенческая научная конференция Студенческий научный форум - 2019

РАЗРАБОТКА МОДУЛЯ ДЛЯ ПРОЕКТИРОВАНИЯ МАТЕРИАЛОВ ИНТЕРНЕТ-РЕСУРСА НА ОСНОВЕ ТОНАЛЬНОСТИ ОТЗЫВОВ ПОЛЬЗОВАТЕЛЕЙ

Тимачёва В.В. 1, Лясин Д.Н. 1, Рыбанов А.А. 1
1Волжский политехнический институт (филиал) ФГБОУ ВО "Волгоградский государственный технический университет"
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Вместе с увеличением числа пользователей интернета возрастает количество генерируемого ими контента. Анализ тональности текста позволяет извлекать из данного контента эмоциональную лексику и отношение авторов, о которых идет речь в тексте. Результатповышения эффективности адаптации контента интернет-ресурса ожиданиям пользователей обуславливает актуальность работы [2].

Целью работы является повышение эффективности адаптации контента интернет-ресурса ожиданиям пользователей.

Для последующего решения были поставлены следующие задачи: разработать математический алгоритм работы, разработать программную реализацию модуля для проектирования материалов интернет-ресурса на основе тональности отзывов пользователей, оценить эффективность адаптации контента интернет-ресурса мнениям пользователей [1].

В процессе сопровождения данный модуль может быть использован в веб-ресурсах, в которых требуется оценка качества предлагаемого контента, товаров, услуг, для формирования статистики позитивных и негативных мнений.

Для сравнения были собраны следующие продукты, аналогичные по логике разрабатываемому программному модулю: «SentiStrength», «Аналитический курьер», «Ваал», «RCO», «X-files».

При проектировании данного программного модуля учитываются следующие критерии выбора аналогов для разработки [3]: анализ русскоязычного текста, анализ коротких текстов, оценка позитивной составляющей текста, оценка негативной составляющей текста. Наиболее подходящим аналогом для разработки по методу Саати была выявлена система SentiStrength, где алгоритм основан на поиске максимального значения тональности в тексте для каждой шкалы (подсчет максимальной негативной оценки и максимальной позитивной оценки). 

В качестве алгоритма разработки был выбран словарный метод определения тональности текста. Такой подход использует тональные словари (эмоционально-лексические словари) для анализа текста. Словарь является списком слов со значением тональности для каждого слова. Таким образом, имеется таблица данных, которую можно использовать как базовый источник слов для оценки тональности текста. Эти данные могут находиться как в сети интернет, так и на локальном сервере.

Изначально вручную было отобрано приблизительно 100 оценочных слов и поставлены им веса по шкале от 1 до 5 для отрицательно ориентированных слов и от 5 до 9 для положительно ориентированных. Далее данный список дополнялся ключевыми словами для положительного и отрицательного классов тональности.

В данном программном модуле подразумевается, что имеется своя таблица слов на локальном сервере [3]. Структура этой таблицы заключается в следующем [1]:

word – слово, которое может быть подвержено анализу;

valence – валентность, оценивается от 1 до 9 (от позитивного к негативному: 1 – негативное слово, 5 – нейтральное, 9 – позитивное), позитивность оценивается от 5 до 9, а негативность от 1 до 5 не включительно;

idAdmin – идентификатор администратора, который добавил слово. Программный модуль предоставляет администратору возможность оценить правильность определения тональности текста комментария, в случае некорректной оценки, поправить или пополнить эмоционально-лексический словарь. Редактировать словарную таблицу может только пользователь с правами администрирования.

Чтобы при добавлении пользовательского комментария тональность текста анализировалась правильно, был разработан алгоритм [1, 2]:

Каждому слову в тексте присваивается значение его тональности из словаря. Исключаются слова, не несущие смысловой нагрузки («и тому подобное» или «итак») и слова, не несущие эмоциональной оценки.

Числовые показатели тональности слов, к которым приставлены слова-модификаторы, увеличиваются или уменьшаются в зависимости от их значения в процентах. Например, слово «очень» увеличивает позитивную оценку тональности слова на 50%, либо уменьшает негативную оценку тональности слова на 50 %, а слово «незначительно» уменьшает позитивную оценку на 20% и повышает негативную оценку на 20%. В случае сопоставления с отрицательными словами тональность слова меняется на противоположное значение.

Вычисляется общая тональность текста: происходит подсчет позитивных и негативных слов.

Вычисляется средний показатель позитивности среди позитивных слов, средний показатель негативности среди негативны слов.

Происходит процентное соотношение позитивной и негативной составляющей текста пользовательского комментария.

Математическая модель алгоритма выглядит следующим образом. Для вычисления тональности оценочных слов, относящихся к классу позитивных применяется формула:

где – тональность слова, – табличное значение тональности слова, – табличное процентное значение, на которое должна модифицироваться оценка тональности слова.

Общая текста подсчитывается как среднее арифметическое числовых значений тональности каждого оценочного слова.

где – тональность текста, – тональность i-ого оценочного слова w, N – количество оценочных слов.

Для оценки эффективности алгоритма было проведено три эксперимента, в которых провелись расчеты, подтверждающие эффективность математического описания и алгоритма проектирования материалов на основе тональности отзывов пользователей.

Первый эксперимент заключается в оценке скорости (времени) проектирования материалов на основе определения тональности пользовательских комментариев [2]. Результаты первого эксперимента представлены на рисунке 1.

Рисунок 1. Результаты оценки скорости (времени) проектирования материалов на основе определения тональности пользовательских комментариев

По результатам эксперимента проектирование материалов с помощью разработанного модуля происходит быстрее по среднему значению в 39,8 раза, чем проектирование материалов вручную.

Второй эксперимент заключается в оценке качества проектирования материалов на основе определения тональности контента. Пяти пользователям предлагалось сравнить расположение контента согласно их ожиданиям до проектирования материалов и после. В результате пользователи выставляли по две субъективные оценки от 1 до 5.

Результаты второго эксперимента представлены на рисунке 2.

Рисунок 2. Результаты оценки качества проектирования материалов на основе определения тональности контента

На рисунке 2 видно, что с использованием модуля контент веб-ресурса адаптируется под ожидания пользователя, так как субъективные оценки пользователей выше в 2.2 раза. Разница в оценках вычислялась как среднее арифметическое между отношениями оценок пользователей до применения и после применения программного модуля. Таким образом, с использованием программного модуля для проектирования материалов каждый из пяти пользователей смог быстрее найти популярные статьи, что побудило его поставить оценку выше.

Таким образом, на основании экспериментальных оценок сделан вывод, что разработанный программный модуль позволяет эффективно адаптировать контент интернет-ресурса под ожидания пользователей, следовательно, цель работы достигнута.

Список литературы

Алексеев, А. Г. Составление словаря эмоционально окрашенных слов для анализа тональности текстов на русском языке / А. Г. Алексеев, В. В. Ржавин // Информатика и вычислительная техника. Сборник научных трудов. – 2017. – С. 9-15.

Лясин, Д.Н. Архитектурная оптимизация web-ресурсов на основе анализа метрик кода / Д.Н. Лясин //  17-я научно-практическая конференция профессорско-преподавательского состава ВПИ (филиал) ВолгГТУ – сборник материалов конференции. – 2018. – С. 65-67. 

Пескишева, Т. А. Методы анализа тональности текстов на естественном языке / Т. А. Пескишева // Общество. Наука. Инновации (НПК-2017) – сборник статей. Всероссийская ежегодная научно-практическая конференция. Вятский государственный университет. – 2017. – С. 1730-1742.

Просмотров работы: 5