ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ В ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ СИСТЕМАХ - Студенческий научный форум

XVII Международная студенческая научная конференция Студенческий научный форум - 2025

ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ В ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ СИСТЕМАХ

Шалаев Н.С. 1, Спиркин А.Н. 1
1Пензенский государственный университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В современном мире новые технологии призваны не только облегчить жизнь человека, но и подвигнуть его к новым этапам технологического развития. Кроме того, развитие информационно-коммуникационных систем, представляющие собой компьютерные переводчик, приводят к расширению языковой аудитории. Существенный скачок такого развитии дали исследования в области машинного перевода, который совершенствуется день ото дня. Потребительская востребованность в эффективных и точных инструментах, которые могут справиться с большим объемом работы и обеспечить высокое качество перевода в короткое время, делают искусственные нейронные сети (ИНС) актуальными. На основании этого целью данной статьи является анализ существующих алгоритмов машинного перевода и перспектив использования ИНС при разработки информационно-коммуникационных систем.

Онлайн-переводчики основаны на машинном переводе – это процесс автоматического перевода текста или речи с одного естественного языка на другой, осуществляемый искусственным интеллектом без участия человека. Существует множество алгоритмов машинного перевода, на которых основаны компьютерные переводчики, наиболее популярные из них следующие:

  1. Статистическиймашинныйперевод (Statistical Machine Translation – SMT). Основан на анализе больших корпусов двуязычных текстов [1]. Алгоритм ищет шаблоны и статистические зависимости между словами и фразами на разных языках и выбирает наиболее вероятный перевод для заданного текста.

Преимущества SMT: быстрая настройка компьютерного переводчика; простота в добавлении новых тематик перевода; наиболее логическое и связное построение предложений после перевода.

Недостатки SMT: ошибочное построение предложений, из-за схожести языков, в результате этого возникают грамматические ошибки при целевом языке перевода.

  1. Нейронныймашинныйперевод (Neural Machine Translation – NMT). Для анализа контекста и структуры предложений используются ИНС. Модели обучаются на огромных объёмах данных, что позволяет им понимать более сложные языковые конструкции и их особенности.

Преимущества NMT: для их работы требуется лишь малая часть памяти по сравнению с традиционными SMT; все части модели нейронного перевода обучаются совместно (от начала до конца), чтобы максимизировать эффективность перевода; двунаправленная рекуррентная нейронная сеть (Recurrent neural network – RNN) [2,3], также известная как «кодировщик», используется ИНС для кодирования исходного предложения для второй рекуррентной сети, также известной как «декодировщик», которая используется для предсказания слов в конечном языке (рисунок 1).

Рисунок 1 – Нейросетевое предсказание слов при ответе на вопрос

Недостатки NMT: качество перевода напрямую зависит от частоты обучающих данных; может допускать ошибки при переводе редких или специфических терминов языка.

  1. Гибридныймашинныйперевод (Hybrid Machine Translation – HMT). Данный тип машинного перевода предполагает параллельное выполнение работы сразу нескольких систем машинного перевода (SMT и NMT) [4]. Результатом такой деятельности является объединение результатов всех подсистем. Алгоритм работы HMT следующий [5]:

  1. Создание автоматическим путём терминологического словаря из параллельных текстов (общетематические словари объемом до несколько десятков тысяч статей, и специализированные словари по отдельным тематикам, объёмом до нескольких десятков тысяч статей).

  2. Генерирование всех возможных вариантов перевода на основе: лексических, синтаксических и грамматических норм и правил языка.

  3. Выбор лучшего варианта перевода текста.

Преимущества HMT: быстрая автоматическая настройка на основе Translation Memories заказчика; терминологическая точность перевода, а также единство стиля; получение дополнительных полезных данных – двуязычного терминологического словаря (Rule-based machine translation – RBMT) [6]; «машинный акцент» нивелируется за счёт использования параллельных корпусов и статистических методов анализа данных.

Недостатки HMT: трудоемкость и длительность разработки модели перевода; необходимость поддерживать и актуализировать лингвистические базы данных;

На рисунке 1 представлена обобщенная схема обучения HMT.

Рисунок 1 – Обобщенная схема обучения HMT

На рисунке 2 представлена схема перевода текстового сообщения при использовании HMT.

Рисунке 2 – Схема HMT при переводе текстового сообщения

Таким образом алгоритм нейронного машинного перевода следующий:

  • Вводится предложение, и система разбивает его на сегменты, слова и фрагменты.

  • Для каждого сегмента система определяет «вес», т.е. насколько сильно определенные слова или фразы информативны и могут повлиять на финальное решение или результат.

  • Затем вычисляются значения, максимально вероятные для выделенных сегментов.

  • Заключительный этап состоит в переводе слов, в соответствии с грамматикой (или с заданными правилами).

ИНС широко используются в разных областях деятельности человека, например, такие как, медицина, финансы, производство, логистика и другие. Однако их потенциал в области перевода еще не полностью изучен и реализован.

Специфика работы переводчиков с ИНС обусловлена рядом следующих факторов:

  1. Обучение на больших объемах данных. ИНС обучаются на больших объемах текстовых данных, содержащие пары предложений на разных языках, переведенные профессиональным переводчиками. Это позволяет ИНС при обучении с учителем [7] создавать точные модели перевода, учитывающие контекст и особенности языка.

  2. Адаптация к различным стилям и жанрам текста. ИНС способны дообучаться и адаптироваться к различным стилям и жанрам текста, что позволяет им переводить научные статьи, художественные произведения и даже разговорную речь.

  3. Учет контекста и особенностей языка. Благодаря использованию алгоритмов машинного обучения и больших объемов данных, переводчик при работе с ИНС может учитывать контекст и особенности языка, что приводит к более точному и естественному переводу (учитывая терминологию и акцента).

  4. Скорость и эффективность. Переводчик при использовании ИНС способен переводить большие объемы текста за короткое время, что особенно полезно для компаний и организаций, работающих с большим количеством документов на разных языках.

  5. Невозможность полностью заменить профессионального переводчика. Хотя переводчик с помощью ИНС может выполнять большую часть работы по переводу, окончательное редактирование и корректировка все равно требуют участия человека.

  6. Необходимость больших объемов данных для обучения. Для обучения ИНС требуется большое количество генеральной выборки.

  7. Сложность перевода сложных терминов и идиом. ИНС не всегда хорошо справляется с переводом сложных терминов и идиом, например, из-за культур различий, неоднозначности, сложность структуры выражения и т.п.

  8. Интеграция с другими технологиями. Для получения большей информации переводчик может взаимодействовать с другими технологиями, такими как системы автоматического распознавания речи и системы обработки естественного языка.

Таким образом, специфика и эффективность работы переводчика с ИНС обусловлены его способностью обучаться на больших объемах данных, адаптироваться к различным стилям и жанрам текста, учитывать контекст и особенности языка, а также интегрироваться с другими технологиями.

Списоклитературы

  1. Никитин И. Статистическая система машинного перевода – М.: МАИ, 2013.– 65 с.

  2. Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). Neural Machine Translation by Jointly Learning to Align and Translate // ArXiv. – pp. 1409.

  3. Beloglazov A.A. Spirkin A.N., Istomina T.V. USING DEEP LEARNING IN SPEECH INTERFACES / A.A. Beloglazov, A.N. Spirkin, T.V. Istomina / Information Innovative Technologies: Materials of the International scientific - practical conference. Ed. Uvaysov S. U., Ivanov I.A. - M.: Association of graduates and employees of AFEA named after prof. Zhukovsky, 2022, – 380 p. ISSN 2542-1824

  4. Wolk, Krzysztof; Marasek, Krzysztof. Neural-based Machine Translation for Medical Text Domain. Based on European Medicines Agency Leaflet Texts (англ.) // Procedia Computer Science. – 2015. – Vol. 64, no. 64. – P. 2–9.

  5. Kalchbrenner, Nal; Blunsom, Philip. Recurrent Continuous Translation Models (неопр.) // Proceedings of the Association for Computational Linguistics. – 2013.

  6. Злобин В. К., Ручкин В. Н. Нейросети и нейро-компьютеры: учеб. пособие. – СПб.: БВХ – Петербург, 2011. 256 с.

  7. Морозкина Е. А., Мифтахова Р. Г. Влияние информационных технологий на развитие лингвистических норм. Башкирский гос. ун-т. Вестник, 2012. №1. С. 162-164 .

Просмотров работы: 12