Методы автоматического анализа качества научных текстов. Основные проблемы - Студенческий научный форум

XIV Международная студенческая научная конференция Студенческий научный форум - 2022

Методы автоматического анализа качества научных текстов. Основные проблемы

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В области автоматического анализа качества научных текстов сформировалось два основных подхода. Первый поход – это база машинного обучения, а второй подход основан на моделях языка и правил, составленных экспертами. Вследствие того, что второй подход достаточно трудоемкий процесс, занимающий много времени он уступил место машинному обучению – автоматическому анализу.

Основными задачами в области автоматической обработки научных текстов являются:

создание полноценной системы, занимающейся обработкой и реконструированием данных;

полноценный перевод целостности текста;

генерация речи;

поиск ответов на вопросы;

машинный перевод;

извлечение смысла из текста;

анализ тональности высказываний;

ведение диалога;

проверка правописания;

классификация текстов по темам;

анализ мнений и отзывов.

Важной особенностью вышеперечисленных задач является их сложность и отсутствие формализации. Все это привело к тому, что в данный момент нет полноценного набора решений, соединивших в себе весь этот комплекс, а вспомогательные методы являются недостаточными[3].

В настоящее время любая современная система автоматического анализа научного текста, которая осуществляет поиск в сети Интернет, содержит модули автоматического лингвистического анализа. Данный анализ текста проводится на нескольких уровнях представления:

графематический анализ (токенизация).  Особенностью графематического анализа является выделение из массива данных предложений и слов (токенов). Также в данном процессе происходит выделение границ предложений;

морфологический анализ.  Данный анализ происходит путем выделения грамматической основы слова, определения частей речи, приведения слова к словарной форме[4];

синтаксический анализ.  Синтаксический анализ проводится путем выявления синтаксических связей между словами и предложениями, в дальнейшем происходит построение синтаксической структуры предложения[5];

семантический анализ. Выявление семантических связей между словами и синтаксическими группами, извлечение семантических отношений. Данный анализ устанавливает семантические отношения между словами текста и объединяет языковые выражения, относящиеся к одному и тому же понятию. Особенностью данного анализа является то, что он не может работать без лексикографических ресурсов, таких как информационно-поисковые тезаурусы или лингвистические онтологии [1].

Семантический анализ текста является одной из наиболее сложных проблем таких областей как искусственный интеллект и компьютерная лингвистика. Результаты семантического анализа текстов могут быть применены для решения задач диагностирования больных в психиатрии, предсказания результатов выборов в политологии. Однако, несмотря на свою востребованность, семантический анализ остается одной из сложнейших математических задач. Главная проблема заключается в том, как «научить» компьютер однозначно верно трактовать образы, которые пытался передать автор текста[2].

Хотелось бы отметить, что все вышеперечисленные анализы – это самостоятельный вид задачи, которая, к сожалению, не имеет собственного практического применения, но необходимая для решения общих задач.

В качестве примера таких систем может служить средство NLTK для графематического анализа и токенизации, морфологический анализатор mystem и синтаксический парсер ЭТАП3.

Особой значимостью обладает такой тип входных данных как морфологические словари. В настоящий момент во многих исследовательских и коммерческих проектах используют библиотеку автоматической обработки текстов, которая представляет собой словарь Зализняка в цифровой форме. Другой вид широко востребованных входных данных это – тезаурусы или по другому, семантические сети. К примеру, самый известный тезаурус - это WordNet. Данная семантическая сеть представляет собой ресурс связанных семантических отношений, таких как: синонимии, гиперонимии (частное — обобщение), гипонимии (обобщение — частное), меронимии (часть — целое) и др. Тезаурус WordNet в сфере автоматического анализа тестов оказывает большое влияние. Он полезен в целях машинного перевода, классификации текстов, генерацации текстов. Но, хотелось бы отметить, что к сожалению, русского аналога WordNet пока нет.

Важную роль в системе автоматического анализа качества научных текстов играют корпусы. Корпусы являются частью многих систем обработки текстов, поэтому именно в них каждое слово наделено исчерпывающими грамматическими характеристиками. В корпусах содержатся ответы на такие вопросы как:

какова синтаксическая роль слова;

в какой форме находится слово;

к какой части речи оно принадлежит.

Параллельные корпусы, состоящие из одинаковых текстов на разных языках, используют для обучения машинных переводчиков.

Основная проблема корпусов заключается в том, что они создаются годами, даже десятилетиями. Например проект «Национальный корпус русского языка» был создан тринадцать лет назад и в настоящее время поддерживается компанией «Яндекс».

Хотелось бы отметить тот факт, что, на мой взгляд, является большой проблемой системы автоматического анализа качества научных текстов – это проблема ориентированности с русским языком. Разработанные в недрах научных сообществ и взятые на вооружение такими крупными игроками цифрового рынка как Google, IBM, Microsoft многие модели автоматизации существуют на базе английского, китайского, арабского, европейского языков.

Существующие же российские системы решают довольно простые задачи, такие как: выделение основы слова, приведение слова к начальной форме. Такие специальные задачи как: автоматическое выделение смысла из текста, генерация речи они к сожалению, пока решить не могут.

Подводя итоги вышеизложенного, необходимо отметить, что электронная информация в современной жизни общества играет огромную роль. Развитие информационных ресурсов многократно усугубило проблему информационной перегрузки. В данной ситуации особо актуальными становятся методы автоматического анализа. Автоматический анализ текста находит применение в самых различных сферах, таких как бизнес (автоматическая обработка и классификация документов), политология и социология (предсказание результатов выборов или будущих общественных волнений на основе записей пользователей в социальных сетях), филология (определение авторства произведений, авторского стиля), в экспертных системах, системах машинного перевода, поисковых системах, а также во многих других.

Список литературы:

Батура, Т. В. Математическая лингвистика и автоматическая обработка текстов : учеб. пособие / Т. В. Батура ; Новосиб. гос. ун-т. – Новосибирск : РИЦ НГУ, 2016. – 166 с.

Мочалова Анастасия Викторовна Алгоритм семантического анализа текста, основанный на базовых семантических шаблонах с удалением // Научно-технический вестник информационных технологий, механики и оптики. 2014. № 5 (93). URL: http://cyberleninka.ru/article/n/algoritm-semanticheskogo-analiza-teksta-osnovannyy-na-bazovyh-seman... (дата обращения: 15.11.2021).

Константин Селезнев, Александр Владимиров. Лингвистика и обработка текстов // Открытые системы. — 2013. — № 04. — C. 46–49.

Большакова Е.И., Воронцов К.В., Ефремова Н.Э.,
Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных / — М.: Изд-во НИУ ВШЭ,
2017. — 269 с.

Боярский К. К. Введение в компьютерную лингвистику. Учебное пособие. – СПб: НИУ ИТМО, 2013. – 72 с.

Просмотров работы: 68