Методы и алгоритмы дистрибутивной семантики

Попел П.П. 1

1БГУ им. И.Г. Петровского

Диплом лауреата Диплом руководителя секции

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Дистрибутивная семантика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).

Концепция дистрибутивной семантики состоит в том, что каждому слову анализируемых данных присваивается свой контекстный вектор. Множество контекстных векторов формирует словесное семантическое векторное пространство.

Дистрибутивный анализ — это метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.

В рамках данного метода исследования языка к текстам изучаемого языка используется упорядоченный набор универсальных последовательностей, что даёт возможность выделить основные семантические единицы языка (фонемы, морфемы, слова и словосочетания), провести их анализ, классифицировать и выделить соотношения сочетаемости между ними.

Главное внимание при этом уделяется на языковых явлениях с регулярно встречающимися признаками текста (свойствами, значениями). Таким образом, данный метод ориентирован на применение внутренних языковых признаков повторяемости различных явлений или их значений. Регулярные признаки встречаются в тексте в соседстве с другими признаками.

Языковые элементы текста отличаются взаимным расположением относительно друг друга и сопутствующим окружением, то есть постоянным близким расположением с другими фигурантами речевого текста. По характеру окружения элементов текста определяется статус анализируемого языкового элемента: его самостоятельность или несамостоятельность, зависимость или независимость.

Таким образом, чтобы представить дистрибуцию какого-либо языкового элемента, необходимо решить задачу поиска окружения, в которых он встречается в речи. Сходство и различие дистрибуции исследуемых языковых единиц служит основанием для их классификации.

Дистрибутивный анализ текста применим на всех уровнях исследования языка, поэтому конечной целью анализа должно быть итоговое компактное описание исследуемого языка в единстве всех его структурных частей. Основной алгоритм дистрибутивного анализа можно свести к двум операциям:

а) обнаружению языковых единиц (элементов);

б) вычислению их дистрибуции относительно друг друга.

Такой алгоритм используется на всех уровнях исследуемого языка.

Языковые единицы (языковые элементы) определяются в результате отождествления сходных сегментов. Языковая единица (элемент) — это некоторый класс сегментов. Например:

Рисунок 1 – Три речевых отрезка

Таким образом, сегментация текста может опираться на акустическое восприятие отдельных частей речевого отрезка и смысловых пауз.

Контрастная дистрибуция — это такой тип дистрибутивных отношений, при котором встречающиеся в одном и том же семантическом окружении первоначально выявленные поименованные сегменты могут заменять друг друга, в процессе изменяя первоначальный смысл высказывания. Тогда они являются представителями разных языковых единиц текста.

Дополнительная дистрибуция — это дистрибутивные отношения двух выделенных речевых сегментов, которые никогда не встречаются в одинаковом окружении, несмотря на их внешнее формальное сходство. В отношении дополнительной дистрибуции находятся позиционные варианты одной и той же единицы языка.

Наглядным примером этому может служить дистрибуция форм [и] и [ы]: [и] встречается в позиции

а) между двумя пробелами — союз «и»;

б) в начале слова — игра;

в) после гласных — мои;

г) после мягких согласных — лилия.

Ни в одной из этих позиций не употребляется [ы]. Позиция звука [ы] — после твердых согласных, но она неприемлема для звука [и].

Таким образом, первый тип дистрибутивных отношений в тексте диагностирует разные (самостоятельные) языковые юниты, а второй и третий — различные варианты одной и той же языковой единицы. Для осуществления дистрибутивного анализа необходимо абстрагироваться от конкретных словоформ языка с указанием их речевой принадлежности и грамматической формы.

Рисунок 2 – Применение дистрибутивного анализа

При разработке трансформационного метода в методах анализа дистрибутивной семантики в качестве базового метода служит предположение о том, что любое обособленное высказывание может быть протестировано на вероятность тех или иных изменений и что такие испытания должны служить выявлению различий семантико-синтаксического характера между сегментами высказывания.

Потребность в таком разграничении возникает тогда, когда оно неразрешимо при помощи метода дистрибутивного анализа и метода НС (непосредственно составляющих). Например, эти методы создают двусмысленными семантические конструкции, например обучение учителя: либо (Кто-то) обучает учителя, либо Учитель обучает (кого-то). Однако именно различное осмысление говорит о том, что перед нами две омонимические конструкции (N,N2).

Трансформом называется результирующее высказывание, созданное в результате трансформации первоначального высказывания и связанное с первоначальным отношением трансформации.

Например:

1) Режиссер Иванов ставит новый спектакль > Режиссер Иванов будет ставить новый спектакль > Новый спектакль будет ставиться режиссером Ивановым;

2) Режиссер Иванов ставит новый спектакль > Постановка нового спектакля режиссером Иванов.

К наиболее частым видам трансформаций относят:

Изменение активной конструкции в пассивную конструкцию и обратно: Птицы строят гнездо — Гнездо строится птицами.
Изменение утвердительной конструкции в отрицательную конструкцию и обратно: Ребёнок любит играть — Ребёнок не любит играть.
Изменение повествовательной конструкции в вопросительную и обратно: Девушка танцует. — Танцует ли девушка?
Изменение предложения в словосочетание и обратно: Певец исполняет песню — Исполнение песни певцом.
Изменение одного типа словосочетания в другой: Строить здание — Строительство здания.

Характер трансформаций, их виды и содержание определяются теми типами конструкций, которые способны выражать сравнительное значение.

Т,: Конструкция со сравнительными союзами как, как будто, будто, словно, точно, подобно тому как.

Т2: Конструкция с творительным сравнением.

Т3: Предложная конструкция подобно + д.п.

Т4: Наречная конструкция с приставкой по-

Т5: Придаточное сравнительное предложение.

Каждую сравнительную конструкцию подвергаем испытанию на возможность (+) / невозможность (—) ее преобразования по заданному списку трансформаций.

Таблица 1 – Возможность / невозможность сравнительных конструкций

Сравнительные обороты		Трансформации
Сравнительные обороты		т,	Т2	Т,	Т4	Т5
1.	Нервы натянуты, как струна	+	+	+	—	—
2.	Народу набилось как селедки в бочке	+	—	+	_	+
3.	Горой стоят (за своего командира)	+	+	_	—	_
4.	Вьется как уж	+	—	+	+	+
5.	Смотрит волком	+	+	+	+	—
6.	Дрожит как осиновый лист	-	-	±	-	-
7.	Лось забился в воде, как раненый лебедь	+	+	+	-	+
8.	(Нужен) как мертвому припарка	±	-	-	-	-

Главным образом это касается низкой степени объективности проводимого исследования: трансформационная методика оставляет достаточно широкий простор для «субъективного понимания» субъекта при определении недостаточно чётких пределов трансформаций, при указании критериев их отбора и упорядочения и т.п. (о чем свидетельствуют и трансформации, приведенные в таблице 1).

Общую картину сворачивания высказываний по методу непосредственных составляющих можно представить в виде графической схемы:

а) с помощью скобок, применяемых при обычной — линейной — записи высказывания;

б) в виде «дерева» непосредственных составляющих.

а) {(Известный певец) исполнил [(очень сложный) романс]}

Рисунок 3 – Линейная запись высказывания

б) Известный певец исполнил очень сложный романс.

Рисунок 4 – «Дерево» непосредственных составляющих

Графический способ отображения дерева операций сворачивания не всегда позволяет выявить порядок выполнения действий. В этом случае необходимо использовать последовательные записи этих операций в виде цепочек символов:

Рисунок 5 – Последовательные записи в виде цепочек символов

Вывод. Модели анализа дистрибутивной семантики нашли применение в аналитических исследованиях и практических реализациях компьютерных моделей, связанных с семантическими моделями неформального языка.

Дистрибутивные модели используются для реализации следующих задач:

определение семантической близости форм слов и словосочетаний в неформальном тексте;
автоматическая кластеризация единиц текста в зависимости от их семантической близости;
автоматическое создание тезаурусов и двуязычных словарей;
разрешение лексической неоднозначности неформального текста;
расширение запросов за счет ассоциативных связей;
определение тематики документа;
кластеризация документов для информационного поиска;
извлечение знаний из текстов;
построение семантических карт различных предметных областей;
моделирование перифраз;
определение тональности высказывания;
моделирование сочетаемостных ограничений слов.

Просмотров работы: 171

Код для цитирования:

XVI Международная студенческая научная конференция Студенческий научный форум - 2024

Методы и алгоритмы дистрибутивной семантики

Студенческий научный форум - 2024
XVI Международная студенческая научная конференция