ПРОБЛЕМЫ СРАВНЕНИЯ АУДИОФАЙЛОВ - Студенческий научный форум

XVII Международная студенческая научная конференция Студенческий научный форум - 2025

ПРОБЛЕМЫ СРАВНЕНИЯ АУДИОФАЙЛОВ

Золотарев А.А. 1, Панин Д.В. 1
1Воронежский институт высоких технологий - автономная некоммерческая образовательная организация высшего образования, Воронеж
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Рассматриваемая задача посвящена численной оценке схожести аудиофайлов на основе алгоритмов нечеткого поиска. На сегодняшний день задача сравнения мелодий яв­ляется актуальной в свете резкого скачка в развитии технологий цифровой обработки сигна­лов, их распознавания и сравнения. Многие крупные компании музыкально-технологической сферы занимаются исследованиями в данной области, разработкой и совершенствованием новых алгоритмов, технологий и программного обеспечения.

Цель работы состоит в подведении теоретической базы и реализации процесса срав­нения содержимого аудиофайлов на основе алгоритма нечеткого поиска с использованием метрики Левенштейна. Объектом для исследования был избран формат .wav.

Рассматриваемая задача сводится к считыванию данных из двух WAV-файлов, их преобразованию и анализу схожести двух мелодий.

В общем случае оценить схожесть двух наборов каких-либо значений можно с помощью алгоритмов нечеткого поиска. Задача нечеткого поиска в общем виде формулируется следую­щим образом: «По заданному «слову» найти в тексте или словаре размера n все «слова», сов­падающие с этим словом (или начинающиеся с этого слова) с учетом k возможных разли­чий».

На вход подаются два аудиофайла с расширением .wav. Функционал программы должен включать [1]:

разбор этих файлов и извлечение из них последовательностей значений амплитуд звукового сигнала;

преобразование полученных амплитудных значений в частотные путем применения БПФ;

перевод числовых последовательностей значений частот в символьные последователь­ности и сравнение их с помощью алгоритма Левенштейна.

На выходе мы получаем числовую оценку схожести содержимого данных аудиофайлов.

Цифровой звук — это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды.

Звуковая волна имеет три основных характеризующих ее параметра: амплитуда, частота и фаза. Два последних являются функцией времени, тогда как амплитуда определяет динамический диапазон. Отсюда следует, что для корректного представления звукового сигнала в цифровой форме необходимо сохранить изменения амплитуды как функцию времени.

Для получения спектра звукового сигнала наиболее часто используются дискретное преобразование Фурье и вейвлет-преобразование. Интегральное преобразование и ряды Фурье лежат в основе спектрального анализа. Однако несмотря на популярность преобразования Фурье для частотного представления сигнала, существует ряд фундаментальных ограничений, которые привели к появлению оконного преобразования Фурье и стимулировали развитие вейвлетного преобразования. Основные из них [2,3]:

  • Ограниченная информативность анализа нестационарных сигналов и практически полное отсутствие возможностей анализа их особенностей (сингулярностей), т. к. в частотной области происходит «размазывание» особенностей сигналов (разрывов, ступенек, пиков и т. п.) по всему частотному диапазону спектра.

  • Гармонические базисные функции разложения не способны в принципе отображать перепады сигналов с бесконечной крутизной типа прямоугольных импульсов, т. к. для этого требуется бесконечно большое число членов ряда. При ограничении числа членов ряда Фурье в окрестностях скачков и разрывов восстановленного сигнала возникают осцилляции (явление Гиббса).

Несмотря на очевидные ограничения классического дискретного преобразования Фурье, на начальном этапе разработки программного решения задачи было выбрано именно оно (точнее, его оптимизированная вариация, называемая быстрым преобразованием Фурье). Этот метод наиболее интуитивен на начальных этапах изучения теоретического базиса спектрального анализа, имеет множество реализаций на разных языках программирования и оставляет пространство для дальнейшего расширения функциональности программной реализации, добавления других методов преобразования для сравнения их эффективности.

Стоит отметить, что на данном этапе работы программное решение удовлетворяет лишь частному случаю постановки задачи. Сравнение будет эффективно при малой длительности целевых аудиофайлов (приблизительно до 1с), поскольку без применения оконной функции при преобразовании Фурье теряется информация о времени, когда прозвучала та или иная частота. Для сравнительной оценки частотного спектра коротких аудиосигналов можно использовать алгоритмы нечеткого поиска. В отличие от прямого сравнения, нечеткий поиск дает возможность получить оценку схожести приблизительнопохожих отрывков, что позволит в некоторой степени пренебречь возможными помехами, повреждениями хранящихся в аудиофайлах данных и другими незначительными отличиями различной природы.

В силу того, что классические алгоритмы нечеткого поиска подразумевают работу с символь­ными последовательностями, встает вопрос о выборе принципа применения этих алгоритмов к данной предметной области. Здесь существует два пути.

Первый подразумевает модификацию классических алгоритмов для обработки числовых (в т. ч. и комплексных) данных. Это самый очевидный путь. В то же время он довольно трудоем­кий, требует глубокого и детального изучения математической базы и может повлечь за собой непредвиденные сложности в связи с дальнейшей оптимизацией.

Второй вариант кажется более затратным по времени и вычислительным мощностям, но, на мой взгляд, оправдывает себя простотой реализации. Он состоит в переводе числовой после­довательности в некую эквивалентную ей последовательность символов, к которой затем можно применить классический алгоритм поиска без каких-либо дополнительных манипуля­ций с данными или модификаций самого алгоритма.

Список литературы:

1. Попов В. Н. и др. Подготовка набора данных для обучения нейронной сети, используемой в задачах сравнения аудиофайлов //ПРОБЛЕМЫ ПРАВОВОЙ И ТЕХНИЧЕСКОЙ ЗАЩИТЫ ИНФОРМАЦИИ. – 2021. – №. 9. – С. 22-27.

2. Юрченко Наталья Юрьевна АУДИО- И ВИДЕОМАТЕРИАЛЫ ИЗ ИНТЕРНЕТА: ТРУДНОСТИ И ВОЗМОЖНОСТИ // Вестник УМЦ. 2017. №15-2. URL: https://cyberleninka.ru/article/n/audio-i-videomaterialy-iz-interneta-trudnosti-i-vozmozhnosti

3. Слепой ABX тест звучания аудиофайлов. URL: https://hamsterilla.ru/slepoj-abx-test-zvuchaniya-audiofajlov/

Просмотров работы: 0