АЛГОРИТМ РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ УПРАВЛЕНИЯ ЭЛЕМЕНТАМИ ВЕБ-САЙТА - Студенческий научный форум

XVI Международная студенческая научная конференция Студенческий научный форум - 2024

АЛГОРИТМ РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ УПРАВЛЕНИЯ ЭЛЕМЕНТАМИ ВЕБ-САЙТА

Иванусык К.В. 1
1Федеральное государственное бюджетное образовательное учреждение высшего образования "Мелитопольский Государственный Университет"
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение. Широкое внедрение информационных технологий во все сферы жизни человека требует постоянного усовершенствования и разработки новых алгоритмов взаимодействия с компьютерной системой. Одним из направления исследований в этой сфере является внедрение новых форм взаимодействия, которые бы были интуитивно понятными и естественными для человека. На сегодняшний день самым популярным способом взаимодействия человека с технической системой является речь. Голосовой интерфейс обладает рядом достоинств: он позволяет обеспечивать удобный и менее ограниченный способ взаимодействия, не требует владения пользователем специальных навыков, тем самым повышая эффективность и комфорт взаимодействия пользователя с системой [1]. Особое значение использование голосового интерфейса приобретает, когда речь идет о создании условий жизни для людей с нарушением опорно-двигательного аппарата, а также специалистов, утративших способность использовать стандартные средства в результате профессионального заболевания или травмы [2]. В связи с вышесказанным становится актуальной проблема возможности создания простого алгоритма распознавания речи, который бы позволял управлять элементами веб-сайта, был простым и удобным, не требовал большого объема ресурсов и имел малое время малое время отклика на запрос пользователя.

Цель исследования Целью данной работы является разработка алгоритма распознавания речи для управления элементами веб-сайта без применения тяжелых посторонних ресурсов.

Материал и методы исследования. Разработка голосовых интерфейсов в последнее время значительно продвинулось. Современный рынок информационных технологий насыщен многими голосовыми интерфейсами. В частности, такие компании, как Google и Apple, являются главными разработчиками таких интерфейсов. Google CLOUD SPEECH API предоставляет ограниченный трафик и бесплатное пользование [3]. Сервис Mozilla Web Speech API использует стороне ресурсы, тем самым не создает излишнюю нагрузку на веб-ресурс [3]. В основе актуальной версии голосового поиска Google лежит улучшенный алгоритм обучения нейронных сетей, созданный специально для анализа и распознавания акустических моделей. Но недостатком такого алгоритма является низкая скорость распознавания речи по сравнению с сервисом Mozilla Web Speech API, применяемым для распознавания небольших фраз. Поэтому, создание простого и удобного алгоритма распознавания речи для управления элементами веб-сайта является актуальной задачей.

Результаты исследования и их обсуждение. Использование голосового интерфейса в повседневной жизни человека получило широкое распространение. Использование голосового управления позволяет оставить глаза и руки пользователя свободны от перегрузки, что повышает надежность и качество управления веб-сайтами.

Голосовое управление обладает рядом преимуществ [3]: отсутствие необходимости у пользователя специальных навыков; максимально приближенная естественность общения с технической системой; возможность управления системой в ограниченных условиях: занятость рук, плохая видимость; мгновенное реагирование системы на изменение языка общения и т.д. Голосовое управление может применяться на огромном разнообразии технических средств: на стационарных компьютерах, мобильных устройствах, часах, беспилотных летательных аппаратах, умных колонках, в системах Internet of Things [4]. В существующих сервисах, использующих голосовые интерфейсы, наблюдается ряд недостатков: низкая скорость распознавания речи, использование дополнительных ресурсов и т.д.

Перед нами стоит задача распознавать небольшие фразы при минимальном расходовании ресурсов. Для решения данной задачи воспользуемся методом распознавания речи на основе ограниченного словаря [5]. Предлагаемый алгоритм распознавания голосовой речи реализован на странице веб-сайта с помощью языка программирования JavaScript. В алгоритм добавлен скрипт, позволяющий при нажатии на иконку с микрофоном на рабочем столе пользователя, записывать языковую команду. Это позволяет повысить точность и скорость распознавания для конкретного набора слов, а использовать алгоритм на любом веб-сайте. Было решено использовать открытую технологию распознавания речи Mozilla Web Speech API [5].

Для работы алгоритма распознавания речи для управления элементами веб-сайта использованы два интерфейса: SpeechRecognition Web Speech API и SpeechGrammarList API Web Speech. Интерфейс SpeechRecognition Web Speech API является контроллером для сервиса распознавания речи. Создать новый класс recognition можно следующим образом:

var recognition = new SpeechRecognition();

Интерфейс SpeechGrammarList API Web Speech содержит структуру списка объектов SpeechGrammar, содержащих слова и фразы, которые необходимо распознать. Грамматика определяется с использованием формата JSpeech (JSGF).

var grammar = '#JSGF V1.0; grammar phrase; public <phrase> = ' + phrase +';';

var speechRecognitionList = new SpeechGrammarList();

speechRecognitionList.addFromString(grammar, 1);

Для установки базовой настройки (связать грамматику с интерфейсом и указать язык работы) интерфейса SpeechRecognition необходимо использовать команду:

recognition.grammars = speechRecognitionList;

recognition.lang = 'ru-RU';

Перед началом распознавания речи, необходимо создать событие и нажать на икону микрофона. Распознавание речи начнется с помощью функции:

recognition.start();

Для получения первой фразы можно использовать следующую конструкцию:

var speechResult = event.results[0][0].transcript;

Получившуюся фразу необходимо перевести в нижний регистр и с помощью конструкции switch определить соответствует ли фраза, произнесенная пользователем, тем фразам, которые выполняют определенное действие на сайте:

var word = speechResult.toLowerCase();

switch(word){

case 'запам’ятати':

check(true);

break;

case 'не запам’ятовувати':

check(false);

break;

...

}

В примере рассматривается использование checkbox в голосовом управлении. То есть можно записать любую фразу для выполнения первоначальной операции.

Выводы или заключение Анализ исследований в области применения распознавания голосовой речи показали его важность и необходимость в процессе диалога человека и технической системы. Для управления работой элементами веб-сайт предлагает алгоритм, реализация которого возможна за счет использования только микрофона на рабочем столе пользователя. Особенностью предлагаемой модели является то, что в существующую конструкцию можно легко добавлять любые команды.

Список литературы

  1. Садыкова А. А., Амиргалиев Е. Н. Изучение применения автоматического распознавания речи // Colloquium-journal. 2020. №11 (63). [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/izuchenie-primeneniya-avtomaticheskogo-raspoznavaniya-rechi (дата обращения: 28.11.2023).

  2. Алексеева Н.А., Емельченко А.Н., Емельченко Н.Г., Алексеев В.В., Алексеева Н.С. Анализ технологий и имеющегося на рынке программного обеспечения для людейс ограниченными физическими возможностями // Журнал фундаментальной медицины и биологии. 2012. №3. С. 126-132.

  3. Cloud Speech-to-Text API. [Электронный ресурс]. URL: https://cloud.google.com/speech-to-text/docs/reference/rest (дата обращения: 22.11.2023).

  4. Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса // Научно-технический вестник информационных технологий, механики и оптики. 2019. №4.

  5. Строкань О.В. Модель розпізнавання мовлення для вирішення задачі керування елементами веб-сайту // UkrainianJournalofEducationalStudiesandInformationTechnology. Мелітополь: Вид-во МДПУ ім. Богдана Хмельницького. 2018. №2. С. 1-7.

Просмотров работы: 49