Дистрибутивная семантика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).
Концепция дистрибутивной семантики состоит в том, что каждому слову анализируемых данных присваивается свой контекстный вектор. Множество контекстных векторов формирует словесное семантическое векторное пространство.
Дистрибутивный анализ — это метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.
В рамках данного метода исследования языка к текстам изучаемого языка используется упорядоченный набор универсальных последовательностей, что даёт возможность выделить основные семантические единицы языка (фонемы, морфемы, слова и словосочетания), провести их анализ, классифицировать и выделить соотношения сочетаемости между ними.
Главное внимание при этом уделяется на языковых явлениях с регулярно встречающимися признаками текста (свойствами, значениями). Таким образом, данный метод ориентирован на применение внутренних языковых признаков повторяемости различных явлений или их значений. Регулярные признаки встречаются в тексте в соседстве с другими признаками.
Языковые элементы текста отличаются взаимным расположением относительно друг друга и сопутствующим окружением, то есть постоянным близким расположением с другими фигурантами речевого текста. По характеру окружения элементов текста определяется статус анализируемого языкового элемента: его самостоятельность или несамостоятельность, зависимость или независимость.
Таким образом, чтобы представить дистрибуцию какого-либо языкового элемента, необходимо решить задачу поиска окружения, в которых он встречается в речи. Сходство и различие дистрибуции исследуемых языковых единиц служит основанием для их классификации.
Дистрибутивный анализ текста применим на всех уровнях исследования языка, поэтому конечной целью анализа должно быть итоговое компактное описание исследуемого языка в единстве всех его структурных частей. Основной алгоритм дистрибутивного анализа можно свести к двум операциям:
а) обнаружению языковых единиц (элементов);
б) вычислению их дистрибуции относительно друг друга.
Такой алгоритм используется на всех уровнях исследуемого языка.
Языковые единицы (языковые элементы) определяются в результате отождествления сходных сегментов. Языковая единица (элемент) — это некоторый класс сегментов. Например:
Рисунок 1 – Три речевых отрезка
Таким образом, сегментация текста может опираться на акустическое восприятие отдельных частей речевого отрезка и смысловых пауз.
Контрастная дистрибуция — это такой тип дистрибутивных отношений, при котором встречающиеся в одном и том же семантическом окружении первоначально выявленные поименованные сегменты могут заменять друг друга, в процессе изменяя первоначальный смысл высказывания. Тогда они являются представителями разных языковых единиц текста.
Дополнительная дистрибуция — это дистрибутивные отношения двух выделенных речевых сегментов, которые никогда не встречаются в одинаковом окружении, несмотря на их внешнее формальное сходство. В отношении дополнительной дистрибуции находятся позиционные варианты одной и той же единицы языка.
Наглядным примером этому может служить дистрибуция форм [и] и [ы]: [и] встречается в позиции
а) между двумя пробелами — союз «и»;
б) в начале слова — игра;
в) после гласных — мои;
г) после мягких согласных — лилия.
Ни в одной из этих позиций не употребляется [ы]. Позиция звука [ы] — после твердых согласных, но она неприемлема для звука [и].
Таким образом, первый тип дистрибутивных отношений в тексте диагностирует разные (самостоятельные) языковые юниты, а второй и третий — различные варианты одной и той же языковой единицы. Для осуществления дистрибутивного анализа необходимо абстрагироваться от конкретных словоформ языка с указанием их речевой принадлежности и грамматической формы.
Рисунок 2 – Применение дистрибутивного анализа
При разработке трансформационного метода в методах анализа дистрибутивной семантики в качестве базового метода служит предположение о том, что любое обособленное высказывание может быть протестировано на вероятность тех или иных изменений и что такие испытания должны служить выявлению различий семантико-синтаксического характера между сегментами высказывания.
Потребность в таком разграничении возникает тогда, когда оно неразрешимо при помощи метода дистрибутивного анализа и метода НС (непосредственно составляющих). Например, эти методы создают двусмысленными семантические конструкции, например обучение учителя: либо (Кто-то) обучает учителя, либо Учитель обучает (кого-то). Однако именно различное осмысление говорит о том, что перед нами две омонимические конструкции (N,N2).
Трансформом называется результирующее высказывание, созданное в результате трансформации первоначального высказывания и связанное с первоначальным отношением трансформации.
Например:
1) Режиссер Иванов ставит новый спектакль > Режиссер Иванов будет ставить новый спектакль > Новый спектакль будет ставиться режиссером Ивановым;
2) Режиссер Иванов ставит новый спектакль > Постановка нового спектакля режиссером Иванов.
К наиболее частым видам трансформаций относят:
Изменение активной конструкции в пассивную конструкцию и обратно: Птицы строят гнездо — Гнездо строится птицами.
Изменение утвердительной конструкции в отрицательную конструкцию и обратно: Ребёнок любит играть — Ребёнок не любит играть.
Изменение повествовательной конструкции в вопросительную и обратно: Девушка танцует. — Танцует ли девушка?
Изменение предложения в словосочетание и обратно: Певец исполняет песню — Исполнение песни певцом.
Изменение одного типа словосочетания в другой: Строить здание — Строительство здания.
Характер трансформаций, их виды и содержание определяются теми типами конструкций, которые способны выражать сравнительное значение.
Т,: Конструкция со сравнительными союзами как, как будто, будто, словно, точно, подобно тому как.
Т2: Конструкция с творительным сравнением.
Т3: Предложная конструкция подобно + д.п.
Т4: Наречная конструкция с приставкой по-
Т5: Придаточное сравнительное предложение.
Каждую сравнительную конструкцию подвергаем испытанию на возможность (+) / невозможность (—) ее преобразования по заданному списку трансформаций.
Таблица 1 – Возможность / невозможность сравнительных конструкций
Сравнительные обороты |
Трансформации |
|||||
т, |
Т2 |
Т, |
Т4 |
Т5 |
||
1. |
Нервы натянуты, как струна |
+ |
+ |
+ |
— |
— |
2. |
Народу набилось как селедки в бочке |
+ |
— |
+ |
_ |
+ |
3. |
Горой стоят (за своего командира) |
+ |
+ |
_ |
— |
_ |
4. |
Вьется как уж |
+ |
— |
+ |
+ |
+ |
5. |
Смотрит волком |
+ |
+ |
+ |
+ |
— |
6. |
Дрожит как осиновый лист |
- |
- |
± |
- |
- |
7. |
Лось забился в воде, как раненый лебедь |
+ |
+ |
+ |
- |
+ |
8. |
(Нужен) как мертвому припарка |
± |
- |
- |
- |
- |
Главным образом это касается низкой степени объективности проводимого исследования: трансформационная методика оставляет достаточно широкий простор для «субъективного понимания» субъекта при определении недостаточно чётких пределов трансформаций, при указании критериев их отбора и упорядочения и т.п. (о чем свидетельствуют и трансформации, приведенные в таблице 1).
Общую картину сворачивания высказываний по методу непосредственных составляющих можно представить в виде графической схемы:
а) с помощью скобок, применяемых при обычной — линейной — записи высказывания;
б) в виде «дерева» непосредственных составляющих.
а) {(Известный певец) исполнил [(очень сложный) романс]}
Рисунок 3 – Линейная запись высказывания
б) Известный певец исполнил очень сложный романс.
Рисунок 4 – «Дерево» непосредственных составляющих
Графический способ отображения дерева операций сворачивания не всегда позволяет выявить порядок выполнения действий. В этом случае необходимо использовать последовательные записи этих операций в виде цепочек символов:
Рисунок 5 – Последовательные записи в виде цепочек символов
Вывод. Модели анализа дистрибутивной семантики нашли применение в аналитических исследованиях и практических реализациях компьютерных моделей, связанных с семантическими моделями неформального языка.
Дистрибутивные модели используются для реализации следующих задач:
определение семантической близости форм слов и словосочетаний в неформальном тексте;
автоматическая кластеризация единиц текста в зависимости от их семантической близости;
автоматическое создание тезаурусов и двуязычных словарей;
разрешение лексической неоднозначности неформального текста;
расширение запросов за счет ассоциативных связей;
определение тематики документа;
кластеризация документов для информационного поиска;
извлечение знаний из текстов;
построение семантических карт различных предметных областей;
моделирование перифраз;
определение тональности высказывания;
моделирование сочетаемостных ограничений слов.