Исследования, касающиеся областей распознавания речи, определяются двумя основными сферами: фундаментальными исследованиями, цели которых направлены на проведение разработки и тестирования новых методик, алгоритмов и подходов на некоммерческой основе; и соответствующих исследований, которые связаны с тем, чтобы улучшать существующие способы, ориентируясь на определенные критерии [1].
Для систем по распознаванию речи, которые имеют слова, процессы распознавания определяют проведение сравнений среди входными словами и теми словами, которые есть в словаре. Для того, чтобы эффективно решать проблемы, связанные с динамическими алгоритмами сравнения, требуется использовать временные масштабы для двух слов по оптимальному соответствию.
Одним из направлений, которые связаны с привлечением процедур, касающихся автоматического анализа речи можно выделить задачи с осуществлением визуализации результатов, что приводит к помощи в обучении произношению. Подобное обучение нацелено как на отдельные звуки, так и на целые слова и фразы.
На настоящий момент довольно распространенным способом, применяемым при решении аналогичных задач по анализу и распознаванию речи можно считать статистический подход. Осуществляется представление речевых единиц в гауссовых моделей сигналов.
Идет представление каждого слова в виде одного или нескольких эталонов по пространству измерений и происходит вычисление расстояний от эталонов по отношению к неизвестным реализациям речевых сигналов. Для простого случая, когда идет возникновение отклонений для реализаций некоторых слов от эталонов, опираясь на случайный процесс, имеющий нормальное распределение, в качестве оптимального можно считать проведение вычисления расстояний в рамках евклидовой метрики, которое реализуется, например, как коэффициент корреляции.
Для того чтобы проводить реализацию адаптивных алгоритмов распознавания, требуется использовать речевые эталоны, дающие возможности проводить отражения по медленным изменениям в произношении людей относительно времени. При реализациях важно привлекать обратные связи для уровней точности по каждых попытках, связанных с распознаванием.
Важно понимать, что при проведении обработки текстовых данных требуется применять комплексные информационные системы [2-5].
Отметим некоторые характеристики систем, предназначенных для распознавания речи:
1.Устойчивость по отношению к речи того, кто в текущий момент анализируется.
2.Размеры словаря.
3.Принятие во внимание того, раздельная или слитная речь у людей.
Существуют возможности повышения скорости при проведении распознавании речи, когда учитывают следующие критерии:
1.Размеры для той лексики, которую анализируют;
2.Время, необходимое для того, чтобы адаптировать систему;
3.Степень спонтанности речи, которую требуется распознать;
4.Время, необходимое для того, чтобы осуществить распознавание.
ЛИТЕРАТУРА
1.Кленяева Г.В. Современные проблемы речевой акустики и построения систем автоматического распознавания речи / Г.В.Кленяева, А.П.Преображенский // Вестник Воронежского института высоких технологий. 2007. Т. 1. № 2-1. С. 071-074.
2.Преображенский А.П. Анализ методов кодирования разных видов информации / А.П. Преображенский // Вестник Воронежского института высоких технологий. 2013. № 10. С. 74-77.
3.Львович И.Я. О характеристиках обучающих систем / И.Я. Львович, А.П.Преображенский //Вестник Воронежского института высоких технологий. 2013. № 11. С. 179-180.
4.Головинов С.О. Цифровая обработка сигналов / С.О. Головинов, С.Г.Миронченко, Е.В.Щепилов, А.П.Преображенский // Вестник Воронежского института высоких технологий. 2009. № 4. С. 064-065.
5.Кульнева Е.Ю. О вейвлет преобразованиях при обработке сигналов / Е.Ю.Кульнева, И.А.Гащенко // Современные наукоемкие технологии. 2014. № 5-2. С. 49.