Методы и алгоритмы дистрибутивной семантики - Студенческий научный форум

XVI Международная студенческая научная конференция Студенческий научный форум - 2024

Методы и алгоритмы дистрибутивной семантики

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Дистрибутивная семантика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их распределения (дистрибуции) в больших массивах лингвистических данных (текстовых корпусах).

Концепция дистрибутивной семантики состоит в том, что каждому слову анализируемых данных присваивается свой контекстный вектор. Множество контекстных векторов формирует словесное семантическое векторное пространство.

Дистрибутивный анализ — это метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.

В рамках данного метода исследования языка к текстам изучаемого языка используется упорядоченный набор универсальных последовательностей, что даёт возможность выделить основные семантические единицы языка (фонемы, морфемы, слова и словосочетания), провести их анализ, классифицировать и выделить соотношения сочетаемости между ними.

Главное внимание при этом уделяется на языковых явлениях с регулярно встречающимися признаками текста (свойствами, значениями). Таким образом, данный метод ориентирован на применение внутренних языковых признаков повторяемости различных явлений или их значений. Регулярные признаки встречаются в тексте в соседстве с другими признаками.

Языковые элементы текста отличаются взаимным расположением относительно друг друга и сопутствующим окружением, то есть постоянным близким расположением с другими фигурантами речевого текста. По характеру окружения элементов текста определяется статус анализируемого языкового элемента: его самостоятельность или несамостоятельность, зависимость или независимость.

Таким образом, чтобы представить дистрибуцию какого-либо языкового элемента, необходимо решить задачу поиска окружения, в которых он встречается в речи. Сходство и различие дистрибуции исследуемых языковых единиц служит основанием для их классификации.

Дистрибутивный анализ текста применим на всех уровнях исследования языка, поэтому конечной целью анализа должно быть итоговое компактное описание исследуемого языка в единстве всех его структурных частей. Основной алгоритм дистрибутивного анализа можно свести к двум операциям:

а) обнаружению языковых единиц (элементов);

б) вычислению их дистрибуции относительно друг друга.

Такой алгоритм используется на всех уровнях исследуемого языка.

Языковые единицы (языковые элементы) определяются в результате отождествления сходных сегментов. Языковая единица (элемент) — это некоторый класс сегментов. Например:

Рисунок 1 – Три речевых отрезка

Таким образом, сегментация текста может опираться на акустическое восприятие отдельных частей речевого отрезка и смысловых пауз.

Контрастная дистрибуция — это такой тип дистрибутивных отношений, при котором встречающиеся в одном и том же семантическом окружении первоначально выявленные поименованные сегменты могут заменять друг друга, в процессе изменяя первоначальный смысл высказывания. Тогда они являются представителями разных языковых единиц текста.

Дополнительная дистрибуция — это дистрибутивные отношения двух выделенных речевых сегментов, которые никогда не встречаются в одинаковом окружении, несмотря на их внешнее формальное сходство. В отношении дополнительной дистрибуции находятся позиционные варианты одной и той же единицы языка.

Наглядным примером этому может служить дистрибуция форм [и] и [ы]: [и] встречается в позиции

а) между двумя пробелами — союз «и»;

б) в начале слова — игра;

в) после гласных — мои; 

г) после мягких согласных — лилия.

Ни в одной из этих позиций не употребляется [ы]. Позиция звука [ы] — после твердых согласных, но она неприемлема для звука [и].

Таким образом, первый тип дистрибутивных отношений в тексте диагностирует разные (самостоятельные) языковые юниты, а второй и третий — различные варианты одной и той же языковой единицы. Для осуществления дистрибутивного анализа необходимо абстрагироваться от конкретных словоформ языка с указанием их речевой принадлежности и грамматической формы.

Рисунок 2 – Применение дистрибутивного анализа

При разработке трансформационного метода в методах анализа дистрибутивной семантики в качестве базового метода служит предположение о том, что любое обособленное высказывание может быть протестировано на вероятность тех или иных изменений и что такие испытания должны служить выявлению различий семантико-синтаксического характера между сегментами высказывания.

Потребность в таком разграничении возникает тогда, когда оно неразрешимо при помощи метода дистрибутивного анализа и метода НС (непосредственно составляющих). Например, эти методы создают двусмысленными семантические конструкции, например  обучение учителя: либо (Кто-то) обучает учителя, либо Учитель обучает (кого-то). Однако именно различное осмысление говорит о том, что перед нами две омонимические конструкции (N,N2).

Трансформом называется результирующее высказывание, созданное в результате трансформации первоначального высказывания и связанное с первоначальным отношением трансформации.

Например:

1) Режиссер Иванов ставит новый спектакль > Режиссер Иванов будет ставить новый спектакль > Новый спектакль будет ставиться режиссером Ивановым;

2) Режиссер Иванов ставит новый спектакль > Постановка нового спектакля режиссером Иванов.

К наиболее частым видам трансформаций относят:

  • Изменение активной конструкции в пассивную конструкцию и обратно: Птицы строят гнездо — Гнездо строится птицами.

  • Изменение утвердительной конструкции в отрицательную конструкцию и обратно: Ребёнок любит играть — Ребёнок не любит играть.

  • Изменение повествовательной конструкции в вопросительную и обратно: Девушка танцует. — Танцует ли девушка?

  • Изменение предложения в словосочетание и обратно: Певец исполняет песнюИсполнение песни певцом.

  • Изменение одного типа словосочетания в другой: Строить здание — Строительство здания.

Характер трансформаций, их виды и содержание определяются теми типами конструкций, которые способны выражать сравнительное значение.

Т,: Конструкция со сравнительными союзами как, как будто, будто, словно, точно, подобно тому как.

Т2: Конструкция с творительным сравнением.

Т3: Предложная конструкция подобно + д.п.

Т4: Наречная конструкция с приставкой по-

Т5: Придаточное сравнительное предложение.

Каждую сравнительную конструкцию подвергаем испытанию на возможность (+) / невозможность (—) ее преобразования по заданному списку трансформаций.

Таблица 1 – Возможность / невозможность сравнительных конструкций

Сравнительные обороты

Трансформации

т,

Т2

Т,

Т4

Т5

1.

Нервы натянуты, как струна

+

+

+

2.

Народу набилось как селедки в бочке

+

+

_

+

3.

Горой стоят (за своего командира)

+

+

_

_

4.

Вьется как уж

+

+

+

+

5.

Смотрит волком

+

+

+

+

6.

Дрожит как осиновый лист

-

-

±

-

-

7.

Лось забился в воде, как раненый лебедь

+

+

+

-

+

8.

(Нужен) как мертвому припарка

±

-

-

-

-

Главным образом это касается низкой степени объективности проводимого исследования: трансформационная методика оставляет достаточно широкий простор для «субъективного понимания» субъекта при определении недостаточно чётких пределов трансформаций, при указании критериев их отбора и упорядочения и т.п. (о чем свидетельствуют и трансформации, приведенные в таблице 1).

Общую картину сворачивания высказываний по методу непосредственных составляющих можно представить в виде графической схемы:

а) с помощью скобок, применяемых при обычной — линейной — записи высказывания;

б) в виде «дерева» непосредственных составляющих.

а) {(Известный певец) исполнил [(очень сложный) романс]}

Рисунок 3 – Линейная запись высказывания

б) Известный певец исполнил очень сложный романс.

 

Рисунок 4 – «Дерево» непосредственных составляющих

Графический способ отображения дерева операций сворачивания не всегда позволяет выявить порядок выполнения действий. В этом случае необходимо использовать последовательные записи этих операций в виде цепочек символов:

Рисунок 5 – Последовательные записи в виде цепочек символов

Вывод. Модели анализа дистрибутивной семантики нашли применение в аналитических исследованиях и практических реализациях компьютерных моделей, связанных с семантическими моделями неформального языка.

Дистрибутивные модели используются для реализации следующих задач:

  • определение семантической близости форм слов и словосочетаний в неформальном тексте;

  • автоматическая кластеризация единиц текста в зависимости от их семантической близости;

  • автоматическое создание тезаурусов и двуязычных словарей;

  • разрешение лексической неоднозначности неформального текста;

  • расширение запросов за счет ассоциативных связей;

  • определение тематики документа;

  • кластеризация документов для информационного поиска;

  • извлечение знаний из текстов;

  • построение семантических карт различных предметных областей;

  • моделирование перифраз;

  • определение тональности высказывания;

  • моделирование сочетаемостных ограничений слов.

Просмотров работы: 100