Введение.Глубокие нейронные сети сегодня являются основой многих интеллектуальных систем – от анализа изображений и текста до сложных задач прогнозирования. Однако их эффективность во многом определяется не только архитектурой, но и тем, какие методы оптимизации применяются в процессе обучения. Именно оптимизация позволяет сети находить баланс между скоростью сходимости и качеством результата, а также избегать трудностей, связанных с большим количеством параметров и особенностями функции потерь.
Научные исследования последних лет показывают, что вопрос выбора оптимизатора остаётся открытым: универсального подхода, подходящего для всех типов задач, пока не существует [1-3]. Поэтому актуальным направлением является сравнительный анализ существующих методов и поиск новых решений, которые могли бы улучшить устойчивость и адаптивность обучения.
Цель. Обзор и сопоставление современных методов оптимизации глубоких нейронных сетей, выявление их сильных и слабых сторон, а также определение тенденций дальнейшего развития.
Основная часть.
Теоретические основы оптимизации
О
(1)
бучение нейронной сети представляет собой процесс определения весов связей между нейронами таким образом, чтобы сеть аппроксимировала целевую функцию с заданной точностью. В общем виде выход отдельного нейрона описывается формулой:
,
где – входные сигналы, – весовые коэффициенты, а φ – нелинейная функция активации [1].
С математической точки зрения, процесс обучения формализуется как задача минимизации функции ошибки E(w), измеряющей расхождение между предсказанным значением сети и истинным ответом. Для нахождения оптимальных весов широко применяется алгоритм обратного распространения ошибки, основанный на методе градиентного спуска [2]. При этом градиент ошибки по каждому весу указывает направление изменения параметров: веса корректируются на малое приращение, пропорциональное градиенту, по формуле:
(2)
где - скорость обучения, определяющая размер шага оптимизации.
Однако в глубоких сетях с большим числом слоёв возникают серьёзные теоретические трудности. Основная из них – проблема исчезающего градиента: производные функции ошибки экспоненциально затухают при распространении назад через большое количество слоёв. Это приводит к тому, что обновления весов на ранних слоях становятся пренебрежимо малыми, и обучение практически прекращается. Аналогично, при использовании некоторых функций активации возможен эффект «взрывающегося градиента», когда производные становятся чрезмерно большими, что делает оптимизацию нестабильной.Чаще всего проблема исчезающего градиента возникает при использовании функций активации с насыщением, таких как сигмоида или гиперболический тангенс, в глубоких сетях. Взрывающийся градиент типичен для сетей без нормализации, рекуррентных архитектур и неудачной инициализации весов. Современные архитектурные приёмы, такие как остаточные связи (ResNet), сквозные связи (DenseNet) и пакетная нормация, были разработаны, в том числе, для смягчения этих проблем.
Классические методы
Классические методы оптимизации заложили основу для развития более современных алгоритмов. Стохастический градиентный спуск, несмотря на свою простоту, обладает существенным недостатком – высокой дисперсией обновлений, что приводит к сильным колебаниям функции потерь и замедляет сходимость. Для решения этой проблемы были разработан импульсный метод.
И
(3)
(4)
дея метода импульса заключается в накоплении «инерции» при движении в устойчивых направлениях антиградиента. Это позволяет не только ускорить сходимость, но и проходить через мелкие локальные минимумы и колебания [2]. Формула обновления весов принимает вид:
.
где - коэффициент момента, обычно устанавливаемый в районе 0.9.
Сравнительные исследования показывают, что стохастический градиентный спуск наиболее целесообразно использовать на небольших и сбалансированных наборах данных, где его простота и хорошая обобщающая способность дают наилучший результат. Метод моментов, в свою очередь, демонстрирует высокую эффективность на стандартных наборах данных, показывая устойчивую и надежную сходимость для различных архитектур нейронных сетей [2].
В
(5)
(6)
ажным развитием идеи импульса стал метод Нестерова (Nesterov Accelerated Gradient, NAG), который сначала делает «шаг по инерции», а затем вычисляет градиент в новой предполагаемой точке. Это позволяет алгоритму более точно корректировать траекторию и часто приводит к более быстрой и стабильной сходимости. Для классических задач компьютерного зрения коэффициенты момента (µ) обычно выбираются в диапазоне 0.9–0.99, а скорость обучения (α) – на порядок ниже, чем для обычного SGD.
На практике метод Нестерова демонстрирует лучшую сходимость на задачах с негладкими функциями потерь и является стандартным выбором во многих современных реализациях оптимизаторов [3].
Адаптивные методы
Следующим эволюционным шагом стало появление адаптивных методов, которые устраняют необходимость ручного подбора скорости обучения, вычисляя индивидуальную скорость для каждого параметра модели. Первым таким методом был Adagrad, который хорошо подходит для работы с разреженными данными, адаптивно уменьшая шаг для часто встречающихся признаков и увеличивая для редких. Однако его ключевым недостатком является монотонное уменьшение скорости обучения до практически нулевых значений.
Этот недостаток был устранен в методах RMSProp и Adadelta, которые заменяют сумму градиентов на экспоненциально затухающее среднее, придавая большее значение последним градиентам. Наиболее популярным и сбалансированным адаптивным методом на сегодняшний день является Adam, который сочетает в себе идеи импульса и адаптивности. Благодаря своей устойчивости к выбору «гиперпараметров», Adam часто используется как метод по умолчанию во многих библиотеках глубокого обучения. Однако поздние исследования выявили и его недостатки: в некоторых задачах, особенно требующих высокой обобщающей способности, Adam может сходиться к более острым минимумам и проигрывать по итоговому качеству, тонко настроенному SGD с моментом. Модификация AdamW исправляет это за счёт раздельного применения весового затухания (weight decay), что улучшает обобщение и сделало AdamW де-факто стандартом для обучения больших трансформерных моделей (например, BERT, GPT).
Современные тенденции
Современные тенденции в оптимизации нейронных сетей выходят за рамки обновления весов и смещаются к метамоделям – методологиям построения, сжатия и автоматизации ИИ-систем. Важное направление – сжатие и ускорение моделей для работы на устройствах с ограниченными ресурсами: квантование (уменьшение точности весов), обрезка малозначимых связей, дистилляция знаний (передача опыта от большой модели к компактной) и матричные разложения [4].
Не менее значимо AutoML, автоматизирующее выбор архитектуры, гиперпараметров и признаков; такие системы, как Google AutoML, способны создавать модели, превосходящие вручную разработанные [5].
Помимо коммерческих решений, активно развиваются открытые фреймворки, такие как AutoKeras, TPOT и Optuna, которые позволяют автоматизировать не только подбор архитектуры (NAS), но и оптимизацию гиперпараметров оптимизатора (скорости обучения, момента).
Среди других трендов – интерпретируемость, мультизадачное обучение, перенос знаний. Архитектурные новшества вроде ReLU, остаточных связей и пакетной нормализации помогли преодолеть проблему затухающих градиентов и обучать сети глубиной в сотни слоёв.
Заключение.
Проведенный анализ демонстрирует эволюционный путь развития методов оптимизации глубоких нейронных сетей: от простых градиентных алгоритмов к сложным адаптивным методам первого порядка, а затем – к метамоделям, которые автоматизируют процесс построения и оптимизации систем искусственного интеллекта. Сравнительный анализ показывает, что не существует универсального «лучшего» оптимизатора. Выбор зависит от специфики задачи: Стохастический градиентный спуск и метод импульса демонстрируют превосходную обобщающую способность, Adam обеспечивает высокую скорость сходимости. Современные тенденции смещаются в сторону автоматизации, сжатия моделей для их эффективного развертывания, а также повышения их интерпретируемости и универсальности.На практике выбор оптимизатора рекомендуется делать на основе специфики задачи: для задач с небольшими данными и необходимостью хорошего обобщения часто предпочтителен SGD или SGD с моментом; для быстрого прототипирования и работы с разреженными или нестационарными данными – адаптивные методы (Adam, RMSProp); для обучения современных больших языковых и трансформерных моделей – AdamW. Ключевым трендом становится гибридный подход, когда обучение начинают с адаптивного метода для быстрого прогресса, а завершают SGD для финальной «подгонки» и улучшения обобщения.
Список литературы
Созыкин, А. В. Обзор методов обучения глубоких нейронных сетей / А. В. Созыкин // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. – 2017. – Т. 6, № 3. – С. 28-59. – DOI 10.14529/cmse170303. – EDN ZGWDMB.
Каширина, И. Л. Исследование и сравнительный анализ методов оптимизации, используемых при обучении нейронных сетей / И. Л. Каширина, М. В. Демченко // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. – 2018. – № 4. – С. 123-132. – EDN YTRTOP.
Sutskever, I., Martens, J., Dahl, G., Hinton, G. (2013). "On the importance of initialization and momentum in deep learning" // Proceedings of the 30th International Conference on Machine Learning (ICML). P. 1139–1147.
Торкунова, Ю. В. Оптимизация нейронных сетей: методы и их сравнение на примере интеллектуального анализа текста / Ю. В. Торкунова, Д. В. Милованов // International Journal of Advanced Studies. – 2023. – Т. 13, № 4. – С. 142-158. – DOI 10.12731/2227-930X-2023-13-4-142-158. – EDN SFIPKW.
Коротеев, М. В. Обзор некоторых современных тенденций в технологии машинного обучения / М. В. Коротеев // E-Management. – 2018. – Т. 1, № 1. – С. 26-35. – DOI 10.26425/2658-3445-2018-1-26-35. – EDN VRFFVU.