Одной из широко изучаемых в технических науках тем является тема обработки звуковых сигналов. Для распознавания звуковых сигналов применяются такие математические методы как корреляционный анализ, быстрое преобразование Фурье и нечёткая логика.
В научных работах таких известных учёных как Клод Шеннон и Гарри Нейквист отражены основы теории связи и ИКМ (импульсно-кодовая модуляция) и заложены основы в этой области науки. Также на основе этих работ было положено начало компьютерной музыке. Вклад в развитие компьютерной музыки внёс известный учётный Макс Мэтьюз.
В рамках данной работы каждый из перечисленных методов был рассмотрен по отдельности и для каждого метода были подобраны определённые параметры, которые дают наилучшие результаты распознавания звуковых сигналов. В качестве примеров для исследования в данной статье выбраны кашлевые моменты пациентов.
Благодаря большому количеству накопленных знаний одним из лучших инструментов анализа процессов для распознавания звуковых сигналов стало математическое моделирование. В частности, математическое моделирование можно использовать для распознавания кашлевых моментов пациентов в звуковых записях. Чаще всего математическое моделирование применяется для создания комплекса правил вывода для воздействия на факторы и характеристики звукового сигнала. Рассмотрим более подробно корреляционный анализ для его применения по части обработки звуковых сигналов. Термин «Корреляционный анализ» представляет из себя совокупность методов поиска корреляционной зависимости между парами случайных признаков. Алгоритм корреляционного анализа состоит из ряда практических шагов. Первый шаг – вычисление коэффициента корреляции (коэффициента Пирсона). Формула вычисление представлена в (1).
(1)
Следующим этапом после вычисления коэффициента Пирсона является проверка статистической гипотезы значимости корреляционной связи: - сильная связь наблюдается в диапазоне коэффициента от 0,7 до 1, связь средней силы в диапазоне коэффициента от 0,3 до 0,69, соответственно показатели слабой связи лежат в диапазоне от 0 до 0,299. После вычисления силы корреляционной связи необходимо построить корреляционное поле и составить корреляционную таблицу по рассчитанным данным. Для сравнения также можно вычислить коэффициент корреляции Спирмена. Данный коэффициент вычисляется по формуле (2).
(2)
Таблица сравнения коэффициентов приведена в таблице 1. Первоначально для распознавания кашлевых моментов и шумовых фрагментов использовался только один коэффициент корреляции Пирсона.
Таблица 1 – сравнение коэффициентов Спирмена и Пирсона.
Коэффициент Пирсона |
Коэффициент Спирмена |
|
Кашель эталонный |
1 |
1 |
min значение коэффициента корреляции кашля прациента |
0,12 |
0,99995 |
max значение коэффициента корреляции кашля пациента |
0,24 |
0,99998 |
max значение коэффициента шума |
0,22 |
0,99997 |
Далее рассмотрим возможность применения быстрого преобразования Фурье. Данный метод применяется для повышения точности и надёжности результатов при распознавании кашлевых моментов. Для использования метода быстрого преобразования Фурье использован программный пакет Maple? Была использована встроенная функция fft(f). Так, на рисунке 3 показано, что спектры кашля и шума в большинстве случаев различаются.
Рисунок 1 – сравнение изображений кашля (слева) и шума (справа)
Преобразованный по быстрому преобразованию Фурье сигнал близок к прямой линии относительно оси ординат или под углом к ней. Однако существуют шумы очень похожие на кашель (рисунок 2). Отсюда следует, что на данный подход не дает возможность делать однозначные выводы.
Рисунок 2 – изображение шума, близкого к кашлю
Далее рассмотрим возможность использования лингвистических переменных для анализа сложных или плохо определённых явлений. Словесное описание явлений даёт возможность описывать достаточно сложные системы. Более точно структура лингвистической переменной описывается набором (N, T, X, G, M), в котором N - название этой переменной; T - терм-множество N, т.е. совокупность ее лингвистических значений; X - универсальное множество с базовой переменной x; G - синтаксическое правило, которое может быть задано в форме бесконтекстной грамматики, порождающей термы множества T; M - семантическое правило, которое каждому лингвистическому значению t ставит в соответствие его смысл М(t), причем М(t) обозначает нечеткое подмножество множества X. В таблице 2 представлено описание лингвистических переменных по показателям, которые указаны выше.
Таблица 2 – описание лингвистических переменных
Переменная |
Коэффициент корреляции |
Отклонение амплитуд |
Среднее значение амплитуды < 0 |
Среднее значение амплитуды > 0 |
N |
Коэффициент корреляции |
Отклонение амплитуд |
Среднее значение отрицательной амплитуды |
Среднее значение положительной амплитуды |
T |
Высокий, средний, низкий |
Высокое, среднее, низкое |
Высокое, среднее, низкое |
Высокое, среднее, низкое |
X |
[0;1] |
[0;1] |
[0;1] |
[0;1] |
G |
Не, очень, не очень |
Не, очень, не очень |
Не, очень, не очень |
Не, очень, не очень |
Рассмотрим ряд правил нечёткого вывода, которые можно сформировать на основе таблицы 2.
если все показатели низкие, то это является шумом;
если один показатель средний, а остальные ниже, то звуковая запись является шумом;
при одном высоком показателе и остальных низких – это шум;
если все показатели средние, то не исключено, что кашель;
если один из показателей низкий, а остальные высокие, то возможно кашель;
ЕСЛИ одна половина показателей высокие, а другая низкие, ТО возможно кашель;
ЕСЛИ один показатель средний остальные высокие, ТО кашель;
ЕСЛИ все показатели высокие, ТО кашель.
Использование методом нечёткой логики упрощает анализ звуковой записи и позволяет отличить кашлевые моменты пациентов с большой уверенностью, но не позволяет сделать однозначный выбор.
В результате исследования методов обработки звуковых сигналов был исследован ряд методом, а именно: корреляционный метод, метод быстрого преобразования Фурье, а также применялись методы нечёткой логики.
Вывод по использованию корреляционного метода: использование только одного параметра (коэффициента корреляции) для определения кашлевых моментов в звуковой записи дало низкую точность. Анализ результатов показал, что нельзя использовать только метод корреляционного анализа, т.к. максимальное значение коэффициента корреляции шума больше минимального значения коэффициента корреляции кашля пациента.
Вывод по использованию быстрого преобразования Фурье: каждый шаг при выделении кашлевых моментов из многовременной записи вносил свои неточности и неопределенности в общий алгоритм. Поэтому было принято решение по использованию механизмов нечеткой логики, который позволит объединить данные по исследованию коэффициентов корреляции и быстрого преобразования Фурье.
Вывод по использованию нечёткой логики как алгоритма обработки звукового сигнала. Использованные параметры преобразовали в правила, которые позволили распознать звуковые сигналы, но точность результатов не была высока, т.к. градация разделения звуковой записи проходила по 3 составляющим: «кашель», «возможно кашель» и «шум». Таким образом, появляется необходимость в модификации (расширении, дополнении и качественном изменении) алгоритма анализа звуковой записи и выбора кашлевых моментов.