Русский язык в корпусной лингвистике - Студенческий научный форум

XIV Международная студенческая научная конференция Студенческий научный форум - 2022

Русский язык в корпусной лингвистике

Насильников Е.В. 1
1Владимирский государственный университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Русский язык, его отличие от других языков, его прошлое, настоящее и будущее, его судьба на рубеже 20 и 21 веков, возможность радикальных изменений в его строе и в сфере употребления – все эти темы практически необозримы и вызывают интерес не только у лингвистов. В наше время особенная «ветвь» науки о языке – корпусная лингвистика – дает ответы на вопросы по этим темам [3]. Корпус — это инструмент, который вполне поддается оценке качества и эффективности. Создание такого языкового корпуса, который будет отвечать современным стандартам – сложная задача и требует вовлечения большого количества специалистов. Нужна целая команда лингвистов, которая будет работать над таким проектом несколько лет. Лучшие образцы корпусной лингвистики, такие как, например, Британский национальный корпус (BNC) – это настоящие «сокровищницы» для современной лексикологии. Несмотря на все недостатки, связанные с частыми техническими ошибками, ограниченностью возможности изучения, слабой представленностью устной речи носителей, в целом, национальный корпус удовлетворяет лингвистов. Действительно, если отвлечься от слабых мест в теории и методологии, то окажется, что BNC выполняет массу не только в рамках лингвистики как науки, но и за ее пределами. Например, В Индии в 2012 году при разработке 22 переводных словарей с местных языков на английский использовалось более 12 тысяч слов и фраз из BNC. Разработка велась в рамках движения по реформации системы образования и сохранению в Индии языков малых народов [5]. Сфера влияния даже одного варианта современного английского языка – британского английского - крайне широка, и подобный эксперимент показал, как посредством национального корпуса достигается самая настоящая межкультурная коммуникация.

Вслед за Британским национальным корпусом последовали другие национальные корпуса – возможно, это менее амбициозные проекты, но, точно можно сказать, что они крайне важны для документации современного состояния языка. Это объект лингвистического наследия, по сути, энциклопедический проект, ставший реальностью только в 21 веке.

По этим причинам создание национального корпуса русского языка было вопросом времени. Долгая письменная традиция, достаточно широкий ареал распространения языка– этих аргументов достаточно, чтобы обосновать нужность работы над корпусом. К тому же русский является важным языком международного общения (одним из официальных языков ООН) [4]. Разработкой русского национального корпуса с 2001 занимаются ведущие институты Российской академии наук. Получается, что корпус разрабатывается уже 20 лет, а предпосылки для появления главного корпуса русского языка закладывались еще в 80-х годах прошлого столетия [2] – речь идет о программе Машинного фонда русского языка [1]. Корпус состоит из 8 подкорпусов: основной корпус письменных текстов; корпус СМИ 1990-2000-х годов (газетный корпус); корпус региональной и зарубежной прессы; корпус устных текстов (корпус живой русской речи); акцентологический корпус (корпус истории русского ударения); мультимедийный корпус; параллельный корпус письменных текстов; корпус диалектных текстов; корпус поэтических текстов; обучающий корпус русского языка. Длительная работа над корпусом позволила привлечь источники не только современной речи, но и образцы церковнославянских, древнерусских и среднерусских текстов. Нужно признать, что корпус, будучи новаторским проектом отвечает задачам традиционного языкознания – сравнительной лингвистики, диахронических и синхронических исследований. Главное новаторство корпусного подхода – применение современных технических средств. Корпус обновляется не только в плане добавления лексики (2 ноября 2021 года общий объем корпуса превысил 1 миллиард словоформ), но и с технической стороны. Новые функции поиска, анализ статистических данных, возможность исправления тех-ошибок – все это неоспоримо отличает формат работы с корпусом от работы со «статичными» инструментами – словарями и архивами.

Только один факт о корпусе можно считать негативным - Доступ ко всему корпусу невозможен в связи с законом об авторских правах. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение. Возможно, в будущем эта ситуация изменится, но уже сейчас нам доступны продвинутые инструменты поиска по корпусу, и это главное.

Конечно же, корпусные исследования в России не ограничиваются разработкой НКРЯ. В настоящее время существуют и другие корпуса – например, крайне интересный корпус текстов из Интернета – Генеральный интернет-корпус русского языка, достигший объема в несколько миллиардов слов. С учетом того, сколько времени мы уделяем на переписку в Интернете ежедневно, можно предположить, что данный корпус будет признан важнейшим для изучения наиболее современной письменной речи.

Список литературы:

Андрющенко В. М. Концепция и архитектура Машинного фонда русского языка. М.: Наука, 1989.

Ершов А. П. Машинный фонд русского языка: внешняя постановка // Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986.

https://ruscorpora.ru/new/sbornik2005/02plu.pdf

https://www.un.org/ru/our-work/official-languages

https://ru.wikipedia.org/wiki/%D0%91%D1%80%D0%B8%D1%82%D0%B0%D0%BD%D1%81%D0%BA%D0%B8%D0%B9_%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81#cite_note-india-23

Просмотров работы: 11