АНАЛИЗ ОГРАНИЧЕНИЙ ПРЕОБРАЗОВАНИЯ ЗАПРОСОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ В SQL ДЛЯ РАБОТЫ С ГЕОМЕТРИЧЕСКИМИ ДАННЫМИ

Бабенко Г.О. 1

1ФГБОУ ВО "Мелитопольский государственный университет"

Диплом участника Диплом победителя 2 степени за лучшую работу

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Постановка научной проблемы. Разработка систем NL2SQL для геометрических данных сталкивается с рядом фундаментальных ограничений, связанных с архитектурой современных подходов к интерпретации естественно-языковых запросов. Большинство существующих решений, включая системы на основе больших языковых моделей, демонстрируют высокую эффективность на стандартных реляционных наборах данных, но теряют точность при обработке пространственной семантики. Одни и те же языковые конструкции («в городе», «на территории города», «рядом с городом») могут соответствовать различным геометрическим предикатам, а выбор правильного оператора часто зависит от контекста, который сложно формализовать при интерпретации SQL-запроса rule-based или LLM-методом. Отсутствие количественной определённости в формулировках близости («возле», «около», «недалеко») требует произвольного выбора порогового расстояния и может приводить к семантически некорректным результатам, не соответствующим ожиданиям пользователя. Остаются актуальными характерные ограничения подходов, например, отсутствие адаптивности rule-based систем к вариативности русского языка (синонимы, свободный порядок слов, падежные формы) и склонность LLM-подходов к семантическим подменам и синтаксическим ошибкам при генерации запросов для расширений СУБД.

Возникает необходимость систематического анализа ограничений существующих подходов к NL2SQL при работе с геометрическими данными, выявления типовых ошибок интерпретации и определения границ применимости rule-based и LLM-методов интерпретации. Решение этих проблем позволит повысить надёжность естественно-языковых интерфейсов для пространственных баз данных и расширить область их практического применения.

Анализ последних исследований и публикаций по теме. Современные исследования в области NL2SQL в основном ориентированы на использование больших языковых моделей, демонстрирующих высокую точность на стандартизированных наборах данных и сложных схемах реляционных БД [1]. Однако такие работы, как правило, фокусируются на синтаксической корректности или совпадении результата выполнения запроса с эталоном, не анализируя причины семантических ошибок и специфику пространственных данных. Отдельные исследования рассматривают применение естественно-языковых интерфейсов в контексте геоинформационных систем и пространственного анализа, подчёркивая сложность интерпретации пространственных выражений и необходимость явного сопоставления языковых конструкций с геометрическими операторами [2]. Работы ограничиваются демонстрационными примерами, без систематического анализа ошибок и ограничений автоматической интерпретации. Дополнительным недостатком существующих исследований является отсутствие сравнительного анализа различных подходов к интерпретации естественно-языковых пространственных запросов. Rule-based методы, обладающие детерминированностью и прозрачностью логики, практически не рассматриваются в сопоставлении с LLM-подходами, несмотря на их потенциальную важность для задач, требующих семантической строгости и воспроизводимости результатов. Недавние работы указывают на ограниченную надёжность генеративных моделей при интерпретации сложных или неоднозначных пространственных отношений, что подчёркивает необходимость дополнительного анализа границ их применимости [3].

Таким образом, анализ литературы выявляет исследовательский пробел, связанный с отсутствием систематического изучения ограничений автоматического преобразования естественно-языковых запросов в SQL при работе с геометрическими данными. Недостаточно исследованы классы пространственных запросов, поддающиеся корректной автоматической интерпретации, а также характерные семантические и синтаксические ошибки, возникающие при использовании rule-based и LLM-подходов. Настоящее исследование направлено на восполнение данного пробела путём сравнительного анализа указанных подходов и выявления принципиальных ограничений интерпретации пространственной семантики.

Введение. В последние годы наблюдается значительный рост интереса к системам, позволяющим пользователям взаимодействовать с базами данных с помощью запросов на естественном языке. Задача автоматического преобразования естественно-языковых запросов в SQL (NL2SQL) активно развивается. Такие системы упрощают доступ к данным для неспециалистов, устраняя необходимость знания формального синтаксиса SQL. Однако при работе с геометрическими данными данная задача существенно усложняется из-за наличия пространственной семантики. Пространственные запросы оперируют не только традиционными реляционными отношениями, но и специфическими геометрическими предикатами, такими как вложенность, пересечение, близость и пространственная иерархия. В естественном языке эти отношения часто выражаются неявно, через предлоги и наречия («внутри», «рядом», «возле», «около»), которые могут быть многозначными и зависеть от контекста. В результате даже синтаксически корректный сгенерированный SQL-запрос может давать логически неверный результат, что критично в прикладных областях — геоинформационных системах, картографии, навигационных сервисах и градостроительстве.

Формулировка целей статьи. Целью настоящей работы является анализ ограничений автоматического преобразования запросов на естественном языке в SQL при работе с геометрическими данными, а также выявление и классификация типовых семантических ошибок и неоднозначностей, возникающих при использовании rule-based и LLM-подходов к интерпретации пространственных запросов.

Для достижения поставленной цели в работе предполагается решение следующих задач:

проанализировать особенности интерпретации естественно-языковых запросов, содержащих пространственные отношения, при работе с геометрическими данными в геоинформационных СУБД;
разработать экспериментальную среду для тестирования автоматического преобразования пространственных запросов на естественном языке в SQL;
реализовать и применить rule-based подход к интерпретации пространственных запросов на основе фиксированных правил и шаблонов;
провести экспериментальное тестирование LLM-подхода к генерации SQL-запросов для работы с геометрическими данными;
сформировать классификацию типовых ошибок и неоднозначностей, возникающих при автоматической интерпретации SQL-запросов для пространственных баз данных;
выполнить сравнительный анализ результатов работы rule-based и LLM-подходов с точки зрения семантической корректности, устойчивости и границ применимости.

Основная часть. Rule-based подход к интерпретации естественно-языковых запросов основан на использовании заранее заданного набора правил сопоставления языковых конструкций с формальными SQL-операциями. Данный подход обладает детерминированным характером и обеспечивает предсказуемость результата при условии, что запрос пользователя соответствует одному из предусмотренных шаблонов. Ограниченность множества правил существенно снижает адаптивность подхода при обработке неоднозначных или нетипичных формулировок запросов. Расширение области применимости rule-based систем требует явного добавления новых правил, что затрудняет масштабирование и сопровождение таких решений. Существенным ограничением rule-based подхода является его зависимость от языковой специфики. Для каждого естественного языка требуется разработка отдельного набора правил с учётом морфологических и синтаксических особенностей, включая, например, систему падежей и свободный порядок слов в русском языке. Кроме того, правило-ориентированные системы оказываются чувствительными к грамматическим и орфографическим ошибкам пользователя, которые сложно предусмотреть на этапе проектирования. В результате даже семантически простые запросы могут не быть корректно обработаны при отсутствии соответствующего правила. В то же время, rule-based подход демонстрирует высокую корректность интерпретации для тех классов запросов, для которых правила были явно сформулированы. В таких случаях обеспечивается однозначное соответствие между естественно-языковым запросом и формируемым SQL-запросом, что позволяет гарантировать семантическую корректность результата.

Подход, основанный на использовании больших языковых моделей (LLM), характеризуется значительно большей гибкостью при интерпретации естественно-языковых запросов. Такие модели способны обрабатывать вариативные формулировки, учитывать контекст и частично компенсировать наличие грамматических или орфографических ошибок пользователя. Это расширяет класс запросов, которые могут быть успешно интерпретированы без явного задания правил. Однако применение LLM-подхода сопровождается рядом ограничений. В частности, при обработке семантически размытых или неоднозначных пространственных запросов наблюдаются ошибки в выборе соответствующих пространственных предикатов и операторов. Кроме того, в ряде случаев генерируемые SQL-запросы оказываются синтаксически некорректными или несовместимыми с конкретной реализацией СУБД, что приводит к ошибкам выполнения. В отличие от rule-based подхода, LLM-подход не обеспечивает детерминированности результата, вследствие чего корректность и релевантность полученного SQL-запроса не могут быть гарантированы для каждого входного запроса.

Проблема семантической интерпретации указанными методами осложняется тем, что один и тот же пространственный предлог может соответствовать разным SQL-операторам в зависимости от контекста. Это требует учёта не только лексического значения предлога, но и синтаксической структуры запроса, а также типа пространственных объектов и характера их взаимного расположения. В противном случае возможны неоднозначности при формировании SQL-запроса, приводящие к некорректной интерпретации пользовательского намерения [4].

Для оценки ограничений NL2SQL-преобразования проведено сравнение rule-based и LLM-подходов в среде СУБД SQLite с расширением SpatiaLite версии 5.1.0, обеспечивающим поддержку пространственных типов данных и операторов OGC [5]. Экспериментальная база данных включала две таблицы: cities, содержащую полигональные геометрии городов, и places, содержащую точечные объекты. Геометрии задавались в системе координат WGS-84 (SRID 4326). База данных содержала 2 города и 5 точечных объектов, распределённых внутри и вне границ полигонов городов. Для проведения эксперимента был сформирован тестовый набор из 12 естественно-языковых запросов. Rule-based интерпретация реализовывалась на основе набора фиксированных лексических и шаблонных правил, сопоставляющих ключевые слова запроса с пространственными предикатами SpatiaLite (ST_Contains, ST_Intersects, ST_Distance, ST_Touches). Для запросов, не удовлетворяющих заданным правилам, интерпретация считалась невозможной. LLM-подход использовал инструкционную модель, генерирующую SQL-запрос на основе схемы БД и API-запросов. Результатом считался SQL-запрос, успешно выполняющийся в SpatiaLite без синтаксических ошибок и соответствующий пространственному смыслу исходного запроса.

Оценка результатов проводилась качественным образом и включала следующие критерии:

проверку синтаксической корректности сгенерированного SQL;
сопоставление результата выполнения запроса с эталонным набором объектов;
классификацию ошибок по типам E1–E4.

Для анализа результатов использовалась следующая классификация ошибок интерпретации SQL-запросов:

E1 — семантическая неоднозначность;
E2 — отсутствие формального правила;
E3 — количественная неопределённость;
E4 — ограниченность языка правил или синтаксическая ошибка.

В рамках эксперимента запрос считался успешно интерпретированным при одновременном выполнении следующих условий:

отсутствие синтаксических ошибок SQL;
корректное использование пространственных предикатов;
совпадение результирующего множества объектов с эталонным.

Количественная оценка точности не применялась ввиду малого объёма тестовой выборки и ориентации исследования на выявление типовых классов ошибок, а не на статистическую обобщаемость результатов.

Таблица 1

Сравнительные результаты интерпретации запросов rule-based и LLM-подходами

№	NL-запрос	Rule-based (интерпретация / оценка / ошибка / результаты)	LLM (интерпретация / оценка / ошибка / результаты)
1	Найти объекты внутри города CityA	ST_Contains ✔ Соответствует эталону P1, P2, P3	ST_Contains(c.geom, p.geom) ✔ Соответствует эталону P1, P2, P3
2	Показать точки, находящиеся в городе CityA	Не интерпретировано ⨉ E4: Несовпадение шаблона фразы	ST_Contains(c.geom, p.geom) ✔ Успешная интерпретация синонима P1, P2, P3
3	Найти объекты, пересекающие город CityA	Не интерпретировано ⨉ E4: Несовпадение шаблона фразы	ST_Intersects(p.geom, c.geom) ⨉ E4: Синтаксическая ошибка (лишние символы ``` в коде) Error
4	Найти объекты рядом с городом CityA	Не интерпретировано ⨉ E4: Несовпадение шаблона фразы	ST_Intersects(c.geom, p.geom) ⨉ E1: Семантическая подмена (Intersects вместо Distance) P1, P2, P3
5	Показать объекты возле города CityA	ST_Distance < 2 ⚠ E3: Количественная неопределенность («возле») P1, P2, P3, P4	ST_Intersects(c.geom, p.geom) ⨉ E1: Семантическая подмена P1, P2, P3
6	Найти объекты около города CityA	ST_Distance < 2 ⚠ E3: Количественная неопределенность («около») P1, P2, P3, P4	ST_Intersects(p.geom, c.geom) ⨉ E1: Семантическая подмена P1, P2, P3
7	Найти объекты на территории города CityA	Не интерпретировано ⨉ E1: Семантическая неоднозначность термина	ST_Contains(c.geom, p.geom) ✔ Успешное разрешение неоднозначности P1, P2, P3
8	Найти объекты в пределах города CityA	Не интерпретировано ⨉ E1: Семантическая неоднозначность термина	ST_Contains(c.geom, p.geom) ✔ Успешное разрешение неоднозначности P1, P2, P3
9	Показать объекты, относящиеся к городу CityA	Не интерпретировано ⨉ E1: Неопределенность пространственной связи	ST_Contains(c.geom, p.geom) ✔ Успешное разрешение неоднозначности P1, P2, P3
10	Найти объекты внутри или пересекающие город CityA	Не интерпретировано ⨉ E2: Отсутствие правила для составных условий	ST_Contains OR ST_Intersects ⨉ E4: Синтаксическая ошибка (нарушен порядок JOIN/WHERE) Error
11	Найти объекты вне города CityA	Не интерпретировано ⨉ E2: Отсутствие правила для отрицания (NOT)	NOT ST_Contains(c.geom, p.geom) ⨉ E4: Синтаксическая ошибка (JOIN после WHERE) Error
12	Найти ближайшие объекты к городу CityA	Не интерпретировано ⨉ E2: Отсутствие правила для функций ранжирования	ST_Distance(...) ⨉ E1, E3: Подмена логики (выданы объекты внутри через Distance) P1, P2, P3

Результаты экспериментального тестирования демонстрируют существенные различия в эффективности rule-based и LLM-подходов при интерпретации естественно-языковых запросов к геометрическим данным. В случае rule-based подхода успешная интерпретация достигается преимущественно для простых запросов с прямым соответствием ключевых слов формальным пространственным предикатам. Для большинства тестовых запросов (9 из 12) интерпретация rule-based подходом оказалась невозможной вследствие ограниченности словаря и набора шаблонов. Это свидетельствует о низкой адаптивности метода к синонимическим и контекстуальным вариациям формулировок. Семантически неоднозначные и составные запросы, включающие сложные логические конструкции, отрицания или ранжирование, не поддаются интерпретации из-за отсутствия соответствующих правил (ошибки E2 и E4), что ограничивает применимость rule-based подхода рамками строго формализованных шаблонов.

LLM-подход демонстрирует более высокую гибкость интерпретации. Успешная генерация корректных SQL-запросов достигается для пяти тестовых запросов, включая случаи с синонимичными и переформулированными выражениями пространственных отношений («находящиеся в пределах», «на территории города»). В этих случаях модель корректно выбирает пространственный предикат ST_Contains и обеспечивает совпадение результатов с эталоном. Однако в ряде случаев выявляются существенные ошибки интерпретации. Наиболее распространёнными являются семантические подмены (E1), при которых отношения пространственной близости интерпретируются как пересечение геометрий (ST_Intersects) вместо использования метрических предикатов (ST_Distance), что приводит к логически некорректным результатам. В отдельных случаях синтаксические ошибки сочетаются с количественной неопределённостью (E3) и нарушением логики запроса.

Сравнительный анализ показывает комплементарность рассматриваемых подходов. Rule-based метод обеспечивает детерминированность и высокую семантическую точность в узком классе формализованных запросов (успех в 8% случаев без ошибок и 17% — с пограничным результатом), однако не масштабируется на более сложные формулировки. LLM-подход охватывает более широкий спектр запросов (42% успешных интерпретаций), но сопровождается повышенным риском семантических и синтаксических ошибок (58% неудачных случаев). Преобладающими типами ошибок для обоих подходов являются E1 и E4, что подчёркивает фундаментальную сложность формализации пространственных отношений естественного языка, включая понятия близости, вложенности и отрицания. Полученные результаты позволяют очертить границы применимости исследуемых методов: rule-based подход эффективен в предсказуемых сценариях с фиксированным словарём и чёткой семантикой, тогда как LLM-подход предпочтителен при работе с вариативными формулировками, но требует дополнительных механизмов валидации и специализации на пространственных данных. Это подтверждает, что автоматическое преобразование естественно-языковых запросов в SQL остаётся ограниченным для семантически неоднозначных и составных запросов, требующих уточнения пользовательских намерений или ручной корректировки. Результаты исследования закладывают основу для дальнейших работ в направлении гибридных методов и специализированных обучающих выборок для пространственных NL2SQL-систем.

Выводы. В рамках проведённого исследования был выполнен анализ ограничений автоматического преобразования естественно-языковых запросов в SQL при работе с геометрическими данными. Полученные результаты позволяют сделать следующие выводы.

Установлено, что корректной автоматической интерпретации в наибольшей степени поддаются пространственные запросы с однозначной семантикой и явным соответствием ключевых слов формальным геометрическим предикатам.
Показано, что rule-based подход обладает высокой детерминированностью и семантической точностью при обработке строго формализованных запросов, однако его применимость существенно ограничена фиксированным набором правил и шаблонов. Данный подход неустойчив к синонимическим, контекстуальным и составным формулировкам, а также к пространственным отношениям, требующим параметризации или сложной логической структуры.
Установлено, что LLM-подход демонстрирует более высокую гибкость интерпретации и способен обрабатывать вариативные запросы, недоступные rule-based методам. Вместе с тем выявлено, что отсутствие детерминированной логики интерпретации приводит к частым семантическим подменам и синтаксическим ошибкам.
В ходе эксперимента сформирована классификация типовых ошибок автоматической интерпретации пространственных запросов, включающая семантическую неоднозначность, отсутствие формального правила, количественную неопределённость и синтаксические ограничения. Показано, что преобладающими для обоих подходов являются ошибки, связанные с неоднозначностью пространственной семантики и ограничениями формализации естественного языка.
Проведённый сравнительный анализ позволил определить границы применимости исследуемых методов. Rule-based подход эффективен в предсказуемых сценариях с чётко определённой семантикой, тогда как LLM-подход предпочтителен для обработки вариативных формулировок.

Результаты исследования подтверждают, что автоматическое преобразование естественно-языковых запросов в SQL при работе с геометрическими данными остаётся ограниченным для семантически неоднозначных и составных запросов. Полученные выводы подтверждают целесообразность дальнейших исследований в направлении гибридных методов, сочетающих детерминированность rule-based подходов с гибкостью LLM, а также разработки специализированных моделей и обучающих выборок для пространственных NL2SQL-систем.

Список литературы

Fan Yu., Wen Q., Chen Y., Wang X. S. Rethinking data in NL2SQL: a survey of what we have and what we expect // Vicinagearth. 2025. Vol. 2. Art. 15.
Авдюшина А. Е., Королёва Ю. А., Маркина Т. А., Бессмертный И. А. Применение методов географического информационного поиска для анализа новостных данных // Информационные и математические технологии в науке и управлении. 2024. № 1 (33).; URL: https://cyberleninka.ru/article/n/primenenie-metodov-geograficheskogo-informatsionnogo-poiska-dlya-analiza-novostnyh-dannyh (дата обращения: 24.12.2025).
Shuyang H., Haoyue J., Ziqi L., Lutong X., Guanyu C., Shaowen W., Xuefeng G., Huayi W. GeoSQL-Eval: First Evaluation of LLMs on PostGIS-Based NL2GeoSQL Queries // arXiv. 2025. arXiv:2509.25264. URL: https://arxiv.org/pdf/2509.25264 (дата обращения: 24.12.2025).
Бакшандаева Д., Сомов О., Дмитриева Е., Давыдова В., Тутубалина Е. PAUQ: Text-to-SQL in Russian // Findings of the Association for Computational Linguistics: EMNLP 2022. 2022. P. 2355–2376. URL: https://www.researchgate.net/publication/372922079_PAUQ_Text-to-SQL_in_Russian (дата обращения: 24.12.2025).
Leyk S., Uhl J. H. Data Descriptor: HISDAC-US, historical settlement data compilation for the conterminous United States over 200 years // Scientific Data. 2018. Vol. 5. Art. 180175. URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC6122163/pdf/sdata2018175.pdf (дата обращения: 24.12.2025).

Просмотров работы: 27

Код для цитирования:

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

АНАЛИЗ ОГРАНИЧЕНИЙ ПРЕОБРАЗОВАНИЯ ЗАПРОСОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ В SQL ДЛЯ РАБОТЫ С ГЕОМЕТРИЧЕСКИМИ ДАННЫМИ

Студенческий научный форум - 2026
XVIII Международная студенческая научная конференция