АВТОМАТИЗИРОВАННАЯ КОРРЕКЦИЯ СТИЛЯ ТЕКСТОВОГО ДОКУМЕНТА - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

АВТОМАТИЗИРОВАННАЯ КОРРЕКЦИЯ СТИЛЯ ТЕКСТОВОГО ДОКУМЕНТА

Якимова И.С. 1, Мешков В.Е. 1
1Институт технологий Донской государственный технический университет Волгодонск, Россия
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Тематика данной работы связана с созданием программных средств для автоматизации процессов изменения стиля текстового документа.

Актуальность этого направления определяется как постоянным ростом интернет ресурсов, требующих оригинального контента, так и недостаточным насыщением рынка программных продуктов средствами автоматизации рерайтинга.

В настоящее время появилась настойчивая потребность в создании средств автоматизированной замены слов, выражений текста, а также приложений, помогающих в рерайтинге текста. Создание словарей является необходимым для большого количества направлений обработки текста. Создание словаря синонимов русского языка тем более необходимо, что при поиске в сети не найдено ни одной доступной базы данных синонимов, ни платной, ни бесплатной. Существуют только несколько онлайн-сервисов синонимов, однако они не покрывают потребности в базе данных, так как предназначены для решения других задач.

Отсюда цель данной работы – создание прикладной онлайн программы автоматизации рерайтинга [1] (программы-синонимайзера) весьма актуальна, особенно с практической точки зрения. Достижение указанной цели подразумевает решение следующих задач:

  • формирование базы данных для хранения словаря синонимов и наполнение ее контентом;

  • разработка и отладка программного web приложения для рерайтинга произвольного текста.

Практически в каждой сфере деятельности есть потребность проявиться в информационном пространстве глобальной сети Интернет. Необходимо продвижение и для коммерческих интересов, и для достижения личных задач, для привлечения новых партнеров и клиентов. И одним из наиболее значимых средств такого привлечения внимания является контент.

Использование информационных ресурсов, в большой степени текстовых, охватывает абсолютно все стороны современной жизни. Новостные каналы, сводки событий из всех сфер жизни различных сегментов общества; образовательные ресурсы во всем их многообразии (уроки, лекции, электронные учебники, электронные библиотеки, базы научных статей, рефератов и дипломов); электронная публицистика: журналы, блоги, социальные сети, площадки для активного обмена мнениями и гражданских инициатив и т.д. Также к текстовой информации относятся базы данных (открытые, закрытые, специализированные), а также закрытые информационные ресурсы.

Такое количество текстов [1]и источников текстовой информации, копирование и постоянный репост сделали актуальными два направления:

  • распознавание копирайта [2] и плагиата;

  • разработку средств автоматизации рерайтинга и скрытия заимствования.

Два данных направления являются, по сути, противоположностями, как лицензирование и торренты. Хотя рерайтинг, в чистом виде, не является копированием, а скорее, творческой переработкой первоисточника, нередко более популярной, чем исходный текст, и требующей существенных трудозатрат.

Задача определения копирайта и плагиата заимствований и дубликатов является довольно сложной, ее значительной составляющей является поиск дубликатов и плагиата среди веб-страниц. Также это системы антиплагиата, определяющие оригинальность дипломных работ, рефератов или статей.

Основа рерайта (в переводе – переписывание), состоит именно в переписывании, перефразировании исходного текста. Пересказ исходного текста своими словами, без потери смысла – такова суть рерайтинга. При работе с большим количеством текстов необходимы средства автоматизации, такие, как синонимайзеры, словари в виде базы данных, которые можно подключать к синонимайзеру или использовать автономно, различные электронные словари.

Создание баз данных словарей – орфографических, толковых, словарей синонимов и антонимов – является в настоящее время актуальным и востребованным направлением, и активно применяется в обработке текста.

Огромное количество текстов, обмен контентом и копирование, в том числе и без указания первоисточника, сделали выявление нечетких дубликатов, определение копирайта и плагиата важными задачами для современной глобальной сети.

Особенно в профессии вебмастера и редактора (одни из самых востребованных в современном мире), необходимо постоянно работать с новым контентом для отражения мира новейших информационных технологий и актуальности сети Интернет. При стремительном новостном темпе развития поддерживать самобытность издания или виртуального ресурса становится все труднее. Востребованы уникальные статьи, неповторимость контента на сайте, имидж издания ставится в прямую зависимость от подачи материалов. Требования к текстам - оригинальность и читаемость. Реалии сегодняшнего дня таковы, что поисковые системы все чаще "наказывают" сайты за дублированный контент. Но есть возможность выхода из ситуации – синонимайзер.

Разработка такой программы в виде Web приложения и является практической целью данной работы.

В качестве основы для автозамены слов, терминов, выражений, применяемой в рерайтинге, используются:

  1. словари, в том числе словари в виде базы данных;

  2. тезаурусы;

  3. морфологические модули.

Морфологические модули являются основой работы со словами и словоформами, разбором и определением нормальной формы слова, определения части речи, рода, падежа, и т.д. Подобные подходы используются также и при решении задач определения авторства текста [3, 4].

Задача построения синонимайзера не возможна без словаря синонимов. Словарь синонимов должен быть представлен в виде базы данных.

Первоначально был проведен поиск в Яндекс и Google, и найдена только одна база данных словаря синонимов. Так же было два предложения о продаже БД словарей, но оба предложения были неактивны. Найденная база данных словаря синонимов mysql на 193409 слов в формате sql. Результат скачан в сдавленном zipом виде у автора на сайте https://www.mindcollapse.com: rus_synonyms_mysql.zip.

База была импортирована в mqSQL и состояла из двух таблиц. Первая содержала id слова и само слово в поле word. Вторая представляла собой таблицу отношений между терминами, где проставлены соответствия синонимов.

Алгоритм использования выглядит обобщенно так:

  1. Получаем id слова запросом SELECT id FROM words WHERE word='слово'.

  2. Получаем список синонимов SELECT w_id, s_id FROM synonyms WHERE w_id='полученный_id' OR s_id=' полученный_id '.

  3. Сортируем повторяющиеся значения

  4. Забираем слова синонимы SELECT word FROM words WHERE id IN (массив найденных id).

После проверки работы базы была построен следующий алгоритм работы синонимайзера:

  1. Берем текст и разбиваем его на слова;

  2. Прогоняем в цикле (за исключенем одно- двух буквенных), получаем id слов.

  3. Для тех слов, для которых получены id, получаем номера синонимов.

  4. Получаем слова-синонимы, заменяем на них исходные слова.

  5. Склеиваем текст (или просто выводим поочередно).

Обращения к базе данных – на языке SQL. Реализация осуществляется на языке php. Основные функции, использованные в реализации:

  1. Функции для работы с базами данных: mysql_connect (подключение к MySQL), mysql_select_db (выбор нужной базы данных) и mysql_query (запрос к выбранной базе данных);

  2. Функция mysql_fetch_array, обрабатывает результат, полученный от базы данных, возвращает в виде массива;

  3. array_unique – выбирает только уникальные значения из массива;

  4. explode – разбивает текст на части по предложенному разделителю, используется при разделении текста на слова.

Были написаны пользовательские функции для работы со скачанной базой данных:

  1. function Get_id($word) для получения id передаваемого слова;

  2. function Get_syn($new_id) для получения по id слова id синонимов;

  3. function Get_syn_id($word_id) для получения слова-синонима по id. Все функции используют язык запросов SQL.

Таким образом, создана программа, включающая парсер словарей и модуль записи слов в базу данных. Программа для нормальной работы требует размещения на любом Web сервере.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

  1. Что такое рерайтинг, зачем он нужен и как делать рерайт [Электронный ресурс]: Фотообозреватель, 2015. URL: http://fototimes.ru/ (дата обращения: 20.12.2017)

  2. Программы для рерайта – помощники создателей текстов: какую выбрать? [Электронный ресурс]: Международная фриланс-платформа лингвистических услуг, 2016. URL: https://2polyglot.com (дата обращения: 20.12.2017)

  3. Дьячкин Е.А., Мешков В.Е. Определение авторского стиля литературного произведения на основе анализа морфологических признаков документа. Материалы IX Международной студенческой научной конференции "СТУДЕНЧЕСКИЙ НАУЧНЫЙ ФОРУМ 2017" РАЕ, Москва 2017. (РИНЦ)

  4. Мешков В.Е., Дьячкин Е.А. . Задача определения близости документов. Материалы Всероссийской нучно- практической конференции «Научный потенциал высшей школы – будующему России», Волгодонск, 2017 (РИНЦ)

Просмотров работы: 141