Введение. Широкое внедрение информационных технологий во все сферы жизни человека требует постоянного усовершенствования и разработки новых алгоритмов взаимодействия с компьютерной системой. Одним из направления исследований в этой сфере является внедрение новых форм взаимодействия, которые бы были интуитивно понятными и естественными для человека. На сегодняшний день самым популярным способом взаимодействия человека с технической системой является речь. Голосовой интерфейс обладает рядом достоинств: он позволяет обеспечивать удобный и менее ограниченный способ взаимодействия, не требует владения пользователем специальных навыков, тем самым повышая эффективность и комфорт взаимодействия пользователя с системой [1]. Особое значение использование голосового интерфейса приобретает, когда речь идет о создании условий жизни для людей с нарушением опорно-двигательного аппарата, а также специалистов, утративших способность использовать стандартные средства в результате профессионального заболевания или травмы [2]. В связи с вышесказанным становится актуальной проблема возможности создания простого алгоритма распознавания речи, который бы позволял управлять элементами веб-сайта, был простым и удобным, не требовал большого объема ресурсов и имел малое время малое время отклика на запрос пользователя.
Цель исследования Целью данной работы является разработка алгоритма распознавания речи для управления элементами веб-сайта без применения тяжелых посторонних ресурсов.
Материал и методы исследования. Разработка голосовых интерфейсов в последнее время значительно продвинулось. Современный рынок информационных технологий насыщен многими голосовыми интерфейсами. В частности, такие компании, как Google и Apple, являются главными разработчиками таких интерфейсов. Google CLOUD SPEECH API предоставляет ограниченный трафик и бесплатное пользование [3]. Сервис Mozilla Web Speech API использует стороне ресурсы, тем самым не создает излишнюю нагрузку на веб-ресурс [3]. В основе актуальной версии голосового поиска Google лежит улучшенный алгоритм обучения нейронных сетей, созданный специально для анализа и распознавания акустических моделей. Но недостатком такого алгоритма является низкая скорость распознавания речи по сравнению с сервисом Mozilla Web Speech API, применяемым для распознавания небольших фраз. Поэтому, создание простого и удобного алгоритма распознавания речи для управления элементами веб-сайта является актуальной задачей.
Результаты исследования и их обсуждение. Использование голосового интерфейса в повседневной жизни человека получило широкое распространение. Использование голосового управления позволяет оставить глаза и руки пользователя свободны от перегрузки, что повышает надежность и качество управления веб-сайтами.
Голосовое управление обладает рядом преимуществ [3]: отсутствие необходимости у пользователя специальных навыков; максимально приближенная естественность общения с технической системой; возможность управления системой в ограниченных условиях: занятость рук, плохая видимость; мгновенное реагирование системы на изменение языка общения и т.д. Голосовое управление может применяться на огромном разнообразии технических средств: на стационарных компьютерах, мобильных устройствах, часах, беспилотных летательных аппаратах, умных колонках, в системах Internet of Things [4]. В существующих сервисах, использующих голосовые интерфейсы, наблюдается ряд недостатков: низкая скорость распознавания речи, использование дополнительных ресурсов и т.д.
Перед нами стоит задача распознавать небольшие фразы при минимальном расходовании ресурсов. Для решения данной задачи воспользуемся методом распознавания речи на основе ограниченного словаря [5]. Предлагаемый алгоритм распознавания голосовой речи реализован на странице веб-сайта с помощью языка программирования JavaScript. В алгоритм добавлен скрипт, позволяющий при нажатии на иконку с микрофоном на рабочем столе пользователя, записывать языковую команду. Это позволяет повысить точность и скорость распознавания для конкретного набора слов, а использовать алгоритм на любом веб-сайте. Было решено использовать открытую технологию распознавания речи Mozilla Web Speech API [5].
Для работы алгоритма распознавания речи для управления элементами веб-сайта использованы два интерфейса: SpeechRecognition Web Speech API и SpeechGrammarList API Web Speech. Интерфейс SpeechRecognition Web Speech API является контроллером для сервиса распознавания речи. Создать новый класс recognition можно следующим образом:
var recognition = new SpeechRecognition();
Интерфейс SpeechGrammarList API Web Speech содержит структуру списка объектов SpeechGrammar, содержащих слова и фразы, которые необходимо распознать. Грамматика определяется с использованием формата JSpeech (JSGF).
var grammar = '#JSGF V1.0; grammar phrase; public <phrase> = ' + phrase +';';
var speechRecognitionList = new SpeechGrammarList();
speechRecognitionList.addFromString(grammar, 1);
Для установки базовой настройки (связать грамматику с интерфейсом и указать язык работы) интерфейса SpeechRecognition необходимо использовать команду:
recognition.grammars = speechRecognitionList;
recognition.lang = 'ru-RU';
Перед началом распознавания речи, необходимо создать событие и нажать на икону микрофона. Распознавание речи начнется с помощью функции:
recognition.start();
Для получения первой фразы можно использовать следующую конструкцию:
var speechResult = event.results[0][0].transcript;
Получившуюся фразу необходимо перевести в нижний регистр и с помощью конструкции switch определить соответствует ли фраза, произнесенная пользователем, тем фразам, которые выполняют определенное действие на сайте:
var word = speechResult.toLowerCase();
switch(word){
case 'запам’ятати':
check(true);
break;
case 'не запам’ятовувати':
check(false);
break;
...
}
В примере рассматривается использование checkbox в голосовом управлении. То есть можно записать любую фразу для выполнения первоначальной операции.
Выводы или заключение Анализ исследований в области применения распознавания голосовой речи показали его важность и необходимость в процессе диалога человека и технической системы. Для управления работой элементами веб-сайт предлагает алгоритм, реализация которого возможна за счет использования только микрофона на рабочем столе пользователя. Особенностью предлагаемой модели является то, что в существующую конструкцию можно легко добавлять любые команды.
Список литературы
Садыкова А. А., Амиргалиев Е. Н. Изучение применения автоматического распознавания речи // Colloquium-journal. 2020. №11 (63). [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/izuchenie-primeneniya-avtomaticheskogo-raspoznavaniya-rechi (дата обращения: 28.11.2023).
Алексеева Н.А., Емельченко А.Н., Емельченко Н.Г., Алексеев В.В., Алексеева Н.С. Анализ технологий и имеющегося на рынке программного обеспечения для людейс ограниченными физическими возможностями // Журнал фундаментальной медицины и биологии. 2012. №3. С. 126-132.
Cloud Speech-to-Text API. [Электронный ресурс]. URL: https://cloud.google.com/speech-to-text/docs/reference/rest (дата обращения: 22.11.2023).
Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса // Научно-технический вестник информационных технологий, механики и оптики. 2019. №4.
Строкань О.В. Модель розпізнавання мовлення для вирішення задачі керування елементами веб-сайту // UkrainianJournalofEducationalStudiesandInformationTechnology. Мелітополь: Вид-во МДПУ ім. Богдана Хмельницького. 2018. №2. С. 1-7.