Разработка алгоритма обнаружения лингвистических дефектов в научном тексте - Студенческий научный форум

XIII Международная студенческая научная конференция Студенческий научный форум - 2021

Разработка алгоритма обнаружения лингвистических дефектов в научном тексте

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Научные тексты предназначены, прежде всего, для трансляции результатов познания. В соответствии с этим одно из важнейших требований к их построению состоит в максимально возможном объективном изложении этих результатов, в устранении их субъективных оценок, авторского отношения к ним. Точность и ясность составляют фундаментальную основу научного текста, так как обеспечивают возможность извлечь информацию, при этом «ясность научного текста определяется четкостью понятийно-терминологического аппарата, логичностью изложения, иллюстративным материалом и простым и строгим литературным языком», а его точность «заключается в развертывании и уточнении характеристик понятия» [3].

В настоящее время в огромном потоке публикаций научных текстов допускается большое количество отступлений от норм научного изложения, которые мы рассматриваем как дефекты или ошибки. Текст как целостное связное речевое произведение отличается сложнос­тью и многослойностью своей содержательной, структурной и коммуника­тивной организации, что обусловливает, с одной стороны, многоаспектность рассмотрения его природы, а с другой стороны, множественность его квалификации. Дефектными текстами признаются те, которые содержат в себе ошибки. В большинстве случаев нарушения приводят к снижению ясности изложения, что вводит в заблуждение как исследователей, которые знакомятся с новой для них научной областью, так и аналитиков, работающих с большими объемами данных, у которых нет возможности рассматривать каждый текст детально.

Проведенное исследование различных нарушений в текстах научной сферы и выполненный обзор методов автоматического анализа качества научных текстов показывает возможность обнаружения нарушений с применением анализа лексики и синтаксических структур. Наличие или отсутствие в тексте определенного нарушения является признаком, характеризующим качество текста.

Выделены следующие типы признаков:

- признаки, связанные с нарушением лексики;

 структурные признаки;

 признаки, связанные с лингвистическими ошибками;

 Лексические, морфологические, синтаксические, семантические и информационные характеристики текста лежат в основе перечисленных выше признаков и могут быть получены с помощью методов глубокого лингвистического анализа и статистических методов [1].

Общий метод обнаружения лингвистических ошибок в научных текстах заключается в последовательном применении сформированных правил к результатам лингвистического анализа, которые представляют собой полуструктурированные данные, т.е. текст с установленными свойствами его элементов. Такие данные позволяют учитывать семантические, синтаксические, морфологические и лексические характеристики элементов текста, их контекст и взаимную сочетаемость. Лингвистический анализ проводится на первом шаге алгоритма обнаружения ошибок.

В ходе работы алгоритма, при выполнении условия какого-либо правила, предложение, содержащее нарушение, добавляется в структурированный список подозрительных предложений вместе с меткой типа ошибки. Одновременно увеличивается показатель количества выявленных ошибок соответствующего типа. Такие показатели будут использоваться для определения значений признаков, характеризующих качество текста научной сферы. В настоящей работе признаки соответствуют различным нарушениям и имеют значения «нарушение присутствует», «нарушение отсутствует» [5].

В рамках настоящей работы разработан метод обнаружения лингвистических ошибок в научных текстах. В основе метода лежит некоторое множество правил R, с помощью которых можно выявить нарушения правил согласования, нарушения семантической связности, последовательности изложения и др. Для формирования множества правил предлагается следующий алгоритм.

Алгоритм формирования правила, характеризующего лингвистические ошибки:

Шаг 1. Выбрать одно из правил русского языка r′.

Шаг 2. Исследовать примеры предложений из множества S + , удовлетворяющих данному правилу, и примеры предложений с нарушением правила из множества S – . 60

Шаг 3. Извлечь условия, выполнение которых свидетельствует о наличии ошибки. При формировании условий степень обобщения ограничивается множеством правильных предложений S + .

Шаг 4. В выборке научных текстов выделить предложения S 0 , для которых выполняются полученные условия.

Шаг 5. Если среди выделенных предложений содержатся правильные предложения (    S S 0 ∅) или обнаруживаются предложения с нарушениями S – , которые не были выделены (  0 S \ S ∅), и есть возможность уточнить условия так, чтобы правило покрывало меньше предложений из S + и больше из S – , то уточнить правило и выполнить шаг 4. Правило r является результатом последовательного итерационного уточнения условий.

С использованием описанного алгоритма получено 9 правил, покрывающих основные нарушения. Рассмотрим одно из правил: «Если в состав предложения входят однородные подлежащие, принадлежащие к разному грамматическому роду, и сказуемое в форме глагола прошедшего времени единственного числа, то предложение содержит нарушение согласования сказуемого с однородными подлежащими». Приведем пример предложения, найденного автоматически по этому правилу: «Несмотря на то, что все преобразования … существовали в разных видах в разных местах, … выбор и ответственность за него ложился на реформатора».

Тексты с низкой синтаксической и семантической связностью могут быть обнаружены в результате лингвистического анализа: они содержат большое число слов, отделенных от синтаксического дерева (отсутствует связь со словом-родителем) и не входящих в семантическую сеть.

Следующее правило позволяет выявить такие тексты: «Если в тексте превышено допустимое количество слов, не связываемых со словами-родителями, то степень синтаксической и семантической связности текста является низкой». Допустимое количество несвязанных слов устанавливается автоматически при обучении на выборке научных статей. Проведенные эксперименты подтверждают, что разработанные методы применимы для обнаружения различных нарушений и отступлений от норм научного текста.

В работе предложен метод и алгоритм автоматического обнаружения признаков лингвистических дефектов в научных текстах. Показано, что лежащие в основе метода правила позволяют находить нарушения речи в предложениях русского языка. Таким образом, предложенный метод применим к обнаружению дефектов, что обуславливает целесообразность его дальнейшего развития.

Список литературы

Алпатов В.М. Вступительная статья // Фрей А. Грамматика ошибок: Пер. с англ. М.: КомКнига, 2018. С. 8-12.

Журавлёв И.В. Семиотический анализ расстройств речемыслительной деятельности. М.: Издательство ЛКИ, 2017. – 356 с.

Кузнецова Ю.М., Осипов Г.С., Чудова Н.В., Швец А.В. Автоматическое установление соответствия статей требованиям к научным публикациям // Труды ИСА РАН. – 2017. – Т. 62. – Вып. 3. – С. 132-138.

Осипов Г. С., Смирнов И. В., Тихомиров И. А. Реляционноситуационный метод поиска и анализа текстов и его приложения // Искусственный интеллект и принятие решений. – 2018. – № 2. – С. 3-10.

Швец А.В. Формирование признакового пространства в задачах автоматического анализа научных текстов // Труды шестой международной конференции «Системный анализ и информационные технологии» (САИТ-2015). Светлогорск, 2018. – Т. 1. – C. 222-228

Швец А.В., Кузнецова Ю.М., Осипов Г.С., Латышев А.В. Метод и алгоритм обнаружения признаков лингвистических дефектов в научно-технических текстах // Информационные технологии и вычислительные системы. – 2013. – № 2. – С. 79-87.

Эльконин Д.Б. Развитие устной и письменной речи учащихся / Под ред. В.В. Давыдова, Т.А. Нежновой. М.: ИНТОР, 2011. 112 с.

Просмотров работы: 12