СРАВНИТЕЛЬНЫЙ АНАЛИЗ ИНСТРУМЕНТОВ ВЫДЕЛЕНИЯ ХАРАКТЕРИСТИК ЧЕТВЁРТОЙ ФОРМАНТЫ - Студенческий научный форум

XII Международная студенческая научная конференция Студенческий научный форум - 2020

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ИНСТРУМЕНТОВ ВЫДЕЛЕНИЯ ХАРАКТЕРИСТИК ЧЕТВЁРТОЙ ФОРМАНТЫ

Белова Е.П. 1, Машкина И.В. 1, Герасимов В.В. 3
1Ufa State Aviation Technical University (UGATU)
3Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Анализ рынка биометрических продуктов показывает, что аутентификация по голосу признана одним из наиболее эффективных и экономичных методов биометрической аутентификации [1,2]. Авторами разработан биометрический образ личности, который базируется на характеристиках четвёртой форманты [3]. Целесообразность использования частоты четвёртой форманты гласного звука доказана в работе [4].

Под формантой понимается концентрация энергии в ограниченной частотной области [5, 6], а под частотой четвёртой форманты гласного звука -частота, соответствующая максимальному значению амплитуды выброса энергии в четвёртой частотной области на спектрограмме.

Характеристики четвёртой форманты включают в себя частоту начала четвёртой частотной области на спектрограмме, частоту четвёртой форманты и частоту конца четвёртой частотной области на спектрограмме.

Данная статья посвящена выделению при помощи различных модулей частоты начала четвёртой частотной области на спектрограмме и частоты конца четвёртой частотной области на спектрограмме.

В работе применяются следующие обозначения:

- частота четвёртой форманты;

- частота, определяющая начало четвёртой ограниченной частотной области на спектрограмме;

- частота, определяющая конец четвёртой ограниченной частотной области на спектрограмме.

Каждый из 7 человек, принявших участие в эксперименте, по 10 раз произносили каждый из трёх гласных звуков: «А», «О» и «Э».

Характеристики четвёртых формант данных гласных звуков автоматически выделены при помощи разработанного авторами данной статьи модуля [7].

В программе Bard [8] выделение соответствующих частот начала и конца четвёртой ограниченной частотной области на спектрограмме осуществляется в ручном режиме. В ходе проведения сравнительного анализа сформированы 42 таблицы (по 7 таблиц (так как 7 пользователей) на каждый гласный звук для представления значений частот начала четвёртой частотной области и аналогичным образом сформированные 21 таблица - для значений частот конца четвёртой частотной области). Пример одной из них - таб. 1.

Модуль/Номер реализации

1

2

...

8

9

10

Среднее

Bard

799,83

793,96

...

700,09

747

743,29

774,057

Авторский модуль

758,67

750,91

...

738,64

716,6

725,12

741,419

Отклонение

41,16

43,05

...

38,55

30,4

18,17

45,136

Таблица 1 - Сравнение величин частоты начала четвёртой частотной области гласного звука «Э», произнесённого первым пользователем, Гц

Итоговый сравнительный анализ полученных результатов при сравнении полученных значений частоты начала четвёртой частотной области приведён в таб. 2.

Таблица 2 - Сравнительный анализ величин частоты начала четвёртой частотной области гласных звуков, Гц

Гласный звук

А

О

Э

Среднее

Величина среднего отклонения

44,22

33,42

33,61

37,08

Итоговый сравнительный анализ полученных результатов при сравнении полученных значений частоты конца четвёртой частотной области представлена в таб. 3.

Таблица 3 - Сравнительный анализ величин частоты конца четвёртой частотной области гласных звуков, Гц

Гласный звук

А

О

Э

Среднее

Величина среднего отклонения

45,91

42,12

26,30

38,11

Эксперимент показал, что отличия между автоматическим и ручным способами выделения характеристик четвёртой форманты не превышают пределы нормы. Полученные средние величины отклонения, 37,08 Гц и 38,11 Гц, соответствуют погрешностям, обусловленным неточностями ручного измерения, то есть человеческим фактором. Модуль, разработанный авторами данной статьи, показал высокую эффективность при решении поставленной перед ним задачи.

Список литературы

1. Мировой рынок биометрических систем 2015-2022 гг. Обзор рынка, январь 2017 г. // режим доступа: http://json.tv/ict_telecom_analytics_view/mirovoy-rynok-biometricheskih-sistem-2015-2022-gg-20170119025618, свободный.

2. Сорокин В. Н. Верификация диктора по спектрально-временным параметрам речевого сигнала / В. Н. Сорокин, А. И. Цыплихин // Информационные процессы. 2010. Т. 10, №2. С. 87-104.

3. Машкина И. В., Белова Е. П. Разработка нейросетевой базы данных биометрических образов на основе нескольких параметров спектров гласных звуков для системы аутентификации и авторизации по голосу // Безопасность информационных технологий №3, Москва, 2019, с. 90 - 102.

4. Belova Ye. P., Mashkina I. V., Research Results of Artificial Neural Network for User Authentication According to Frequency of Fourth Formant of Vowel Sound Phoneme // Сборник научных трудов «2018 International Russian Automatisation Conference (RusAutoCon)», издательство: институт IEEE, номер DOI: 10.1109/RUSAUTOCON.2018.8501680, 2018 г. URL: https://ieeexplore.ieee.org/document/8501680.

5. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - 496 с.

6. Сидоренко И. А., Кускова П. А. О спектральном анализе фонем с использованием звуковых редакторов [Текст] / Научные ведомости БелГУ, серия История. Политология. Экономика. Информатика. 2013, №22 (165) – с. 246 – 250.

7. Герасимов В. В., Белова Е. П., Машкина И. В. Выделение характеристик четвёртой форманты гласного звука // Свидетельство о государственной регистрации программы для ЭВМ от 3 апреля 2019 года №2019614367.

8. Bard 0.1.7 // режим доступа: http://psi-logic.narod.ru/bard/bard.htm, свободный.

Просмотров работы: 9