Постановка проблемыВ условиях перехода к парадигме Edge AI особо острой проблемой остается емкостный барьер видеопамяти (VRAM), выступающий критическим лимитом для дискретных GPU с объемом 4 ГБ при запуске современных крупномасштабных языковых моделей (LLM), требующих определения четких «точек деградации» производительности. Отсутствие системных данных о поведении таких алгоритмов на аппаратных узлах среднего уровня создает информационный разрыв, ограничивающий возможности инженеров по корректному масштабированию нейросетей под технический потенциал массовых портативных систем.
Анализ последних исследований. Современный научно-технологический дискурс в области Edge AI сосредоточен на поиске эквилибриума между вычислительной мощностью и жесткими лимитами энергопотребления клиентских систем, что заставляет исследователей выделять несколько взаимосвязанных векторов развития [5].
Первоочередное внимание уделяется преодолению «барьера памяти» (Memory Wall): в работах разработчиков llama.cpp и Meta AI (2024) постулируется, что при инференсе LLM пропускная способность видеобуфера становится критичнее «сырой» мощности GPU [2, 7, 8].
При переполнении VRAM и переходе на системный своп через шину PCIe производительность карт уровня GTX 1650 падает до критических значений, что требует тщательного подбора аппаратных конфигураций [1].
В качестве архитектурной альтернативы инженеры AMD выделяют преимущества серии Ryzen 5000 (Zen 3), где унифицированный доступ к памяти минимизирует задержки и обеспечивает более плавную деградацию производительности по сравнению с дискретными адаптерами. Параллельно с аппаратными решениями совершенствуются методы алгоритмической компрессии [4]. В частности, публикации ResearchGate и Frontiers закрепляют за комбинацией прунинга и сверхнизкого квантования (4-bit, 1.58-bit) статус «золотого стандарта», позволяющего сократить объем моделей на 50–80% без критической потери точности [3, 9].
Однако внедрение гибридной разгрузки (Offloading) весов между CPU и GPU, по данным группы оптимизации ONNX Runtime, сопряжено со «штрафом за латентность» в 12–18%, детерминированным ограничениями интерфейса PCIe. Для нивелирования подобных задержек и купирования рисков теплового троттлинга в работах, представленных на arXiv, предлагается внедрение систем многоагентного обучения с подкреплением (MARL) или глубокая оптимизация архитектур, таких как YOLOv8, для баланса скорости и точности [6, 10].
Финальным вектором технологической эволюции выступает переход к специализированным нейропроцессорам (NPU), таким как Ryzen AI. Согласно отчетам Qualcomm и Microsoft, данные модули обладают мощностью до 48 TOPS и демонстрируют пятикратное превосходство по показателю Performance-per-Watt, позиционируясь как наиболее энергоэффективная альтернатива классическим GPU при выполнении фоновых ИИ-задач в мобильных средах.
Цель статьивыявление закономерностей изменения производительности нейросетевых алгоритмов при переходе от дискретных графических ускорителей (GPU) к центральным многопоточным процессорам (CPU) в условиях аппаратных ограничений мобильных систем среднего сегмента. А так жее на определение критических порогов эффективности («точек деградации») для различных архитектур нейросетей (CNN и Transformer), что позволит научно обосновать выбор вычислительного узла для обеспечения минимальной латентности в Edge AI системах.
Основная часть.Апробация алгоритмов проводилась на базе программно-аппаратного комплекса, спецификации которого соответствуют массовому сегменту мобильных вычислителей:
Вычислитель (CPU): AMD Ryzen 5 5600H (микроархитектура Zen 3, 6 физических ядер, поддержка 12 потоков обработки).
Графическая подсистема (GPU): NVIDIA GeForce GTX 1650 Mobile (архитектура Turing, объем видеопамяти 4 ГБ GDDR6).
Оперативная память (RAM): 8 ГБ DDR4.
В качестве исследовательских объектов выбраны функционально полярные архитектуры: система детекции объектов YOLOv8s [6, 10] и текстовая модель Llama-3-8B [8] (в квантованном представлении Q4_K_M, формат GGUF). Такой выбор позволяет оценить продуктивность гетерогенных вычислений в диаметрально противоположных прикладных задачах. Программная среда включала библиотеки Ultralytics (версия 8.0.20) [10] и llama.cpp (сборка b1234) [2, 7], функционирующие под управлением ОС Windows 10 (версия драйвера NVIDIA 581.57). Для чистоты эксперимента применялись эталонные наборы данных (COCO для визуального анализа) и фиксированные параметры инициализации (seeds). Динамика энергопотребления фиксировалась инструментами HWMonitor и NVIDIA-SMI.
Техническая декомпозиция инференса на мобильных компьютерных системах обусловлена спецификой взаимодействия аппаратных узлов при обработке ресурсоемких моделей [5]. Установлено, что стандартные методы ускорения на базе CUDA теряют эффективность при достижении лимита видеопамяти, что инициирует вынужденное обращение к системному свопу. Данный процесс сопровождается критическими задержками из-за ограничений пропускной способности шины PCIe, фактически нивелируя вычислительный потенциал дискретного графического адаптера [1].
Наблюдаемый архитектурный диссонанс подчеркивает необходимость точной верификации «точек деградации" производительности и поиска баланса между пиковой мощностью GPU и энергетической стабильностью многоядерных CPU в условиях автономной работы Edge-устройств.
При обработке видеотрафика ключевым индикатором выступала частота кадров (FPS). На центральном процессоре задействовались векторные расширения AVX2, в то время как графический ускоритель оперировал ядрами CUDA. Эмпирически установлено, что даже бюджетный GPU превосходит универсальные ядра ЦП в задачах визуального распознавания более чем в четыре раза. При разрешении входного сигнала 640x640 пикселей видеокарта обеспечивала 54.2 FPS против 12.4 FPS у Ryzen 5. Однако масштабирование до 1280x720 приводило к снижению показателей до 30–40 FPS на GPU из-за лимитов пропускной способности VRAM. В сравнении с архитектурой предыдущего поколения (YOLOv7), текущая итерация демонстрирует прирост эффективности на 10–20%, а новейшие решения 2025 года (YOLO11) еще сильнее ориентированы на специфику Edge-устройств.
В тестах LLM определяющим фактором стала архитектура памяти. Данные испытаний систематизированы в таблице 1.
Таблица 1 — Сравнительные характеристики инференса моделей
|
Модель |
Параметры |
Вычислитель |
Скорость (FPS / t/s) |
Потребление памяти |
Энергопотребление (Вт) |
|
YOLOv8s |
FP32 |
CPU (AVX2) |
12.4 FPS |
1.1 ГБ RAM |
35-45 |
|
YOLOv8s |
FP32 |
GPU (CUDA) |
54.2 FPS |
0.8 ГБ VRAM |
55-65 |
|
Llama-3-8B |
Q4_K_M |
CPU (12 threads) |
3.5 t/s |
5.2 ГБ RAM |
45-50 |
|
Llama-3-8B |
Q4_K_M |
GPU (Offload) |
1.2 t/s |
4.0 ГБ VRAM (Full) |
65-75 |
Использование частичного переноса весов (offload) на видеокарту позволило достичь 2.3 t/s, однако спровоцировало рост задержки первого токена (TTFT) до 2–3 секунд вследствие накладных расходов шины PCIe. При дефиците видеопамяти (Llama-3-8B требует ~5 ГБ, тогда как доступно лишь 4 ГБ) происходит переполнение стека и обращение к shared VRAM, что снижает быстродействие на 30–50% относительно чистого CPU-инференса. В данных обстоятельствах архитектура Zen 3 оказывается более стабильной благодаря прямому доступу к 8 ГБ системной ОЗУ.
Исследование показало, что в 2025 году «узкие места» систем связаны не только с памятью, но и с теплопакетом: GPU потребляет на четверть больше энергии, что критично при работе от аккумулятора. Для нивелирования этих факторов рекомендуются следующие подходы:
Структурная оптимизация: Прунинг сокращает объем CNN-моделей (типа YOLO) на 50–80% при сохранении точности [4, 6].
Сжатие данных: Комбинация квантования и дистилляции знаний обеспечивает ускорение в 2–3 раза [3, 9].
Интеллектуальное управление: Применение алгоритмов многоагентного обучения (MARL) для распределения нагрузки между узлами снижает латентность на 12–22% и повышает автономность на 5–8% [5].
Перспективным направлением является внедрение NPU (например, AMD Ryzen AI), способных выдавать до 48 TOPS. Это позволит ноутбукам среднего класса преодолеть текущие барьеры производительности, обеспечивая локальную работу ИИ без чрезмерных энергозатрат.
Комплексный аудит производительности мобильных вычислительных узлов выявил ряд архитектурных закономерностей, определяющих границы применимости аппаратных средств. В частности, установлено, что для эксплуатации LLM на портативных платформах критически важным условием является наличие не менее 16 ГБ оперативной памяти [1], что позволяет минимизировать деградацию скорости генерации токенов, вызванную обращением к системному свопу. Особого внимания заслуживает специфика чипа TU117 (GTX 1650): ввиду отсутствия выделенных тензорных ядер, применение квантования в рамках эксперимента выступало средством снижения нагрузки на шину памяти, а не методом прямого аппаратного ускорения. Синергия прунинга, дистилляции знаний и гибридных схем разгрузки (offload) позволяет нарастить операционную эффективность системы на 20–50%, адаптируя мобильные устройства под актуальные стандарты Edge AI. Перспективным вектором развития сегмента видится интеграция специализированных нейропроцессоров (NPU), таких как Ryzen AI, способных обеспечить качественно новые эталоны производительности при сохранении теплового баланса.
Выводы.Проведенное исследование подтверждает полярность эффективности вычислительных узлов в зависимости от типа нейросетевых задач: дискретные графические адаптеры остаются приоритетными для компьютерного зрения, в то время как центральные процессоры демонстрируют более высокую надежность при инференсе LLM в условиях дефицита видеопамяти. А так же квантование весов является императивным условием для развертывания современных ИИ-решений на клиентском оборудовании, позволяя преодолеть емкостные барьеры VRAM. Можно подчеркнуть необходимость перехода от экстенсивного наращивания мощностей к интеллектуальному управлению нагрузкой и внедрению энергоэффективных NPU-архитектур, что станет фундаментом для следующего этапа эволюции портативных интеллектуальных систем.
Список литературы:
Выбор оборудования для LLM: PC, GPU NVIDIA, RAM, SSD // DigitalRazor. 2025. [Электронный ресурс]. URL: https://digital-razor.ru/media/articles/workstation/llm-hardware-selection/ (дата обращения: 22.12.2025).
Что такое llama.cpp и зачем он нужен: минималистичный движок для LLM // Serverflow. 2025. [Электронный ресурс]. URL: https://serverflow.ru/blog/stati/chto-takoe-llama-cpp-i-zachem-on-nuzhen-minimalistichnyy-dvizhok-dlya-llm/ (дата обращения: 22.12.2025).
Краткий гайд по квантованию нейросетей // Хабр. 2024. [Электронный ресурс]. URL: https://habr.com/ru/articles/848306/ (дата обращения: 23.12.2025).
Neural Network Optimization: океан в капле // Хабр. 2023 [Электронный ресурс]. URL:https://habr.com/ru/companies/doubletapp/articles/722798/(дата обращения: 23.12.2025).
Как работает Edge AI и зачем он нужен компаниям // Блог Serverflow. 2025 [Электронный ресурс]. URL:https://serverflow.ru/blog/stati/kak-rabotaet-edge-ai-i-zachem-on-nuzhen-kompaniyam/ (дата обращения: 23.12.2025).
Оптимизация архитектуры YOLOv8 для задач захвата объекта БПЛА: анализ компромисса между точностью, скоростью и вычислительными ресурсами // CyberLeninka [Электронный ресурс].URL: https://cyberleninka.ru/article/n/optimizatsiya-arhitektury-yolov8-dlya-zadach-zahvata-obekta-bpla-analiz-kompromissa-mezhdu-tochnostyu-skorostyu-i-vychislitelnymi (дата обращения: 22.12.2025).
llama.cpp: Port of Facebook's Llama model in C/C++ (Facebook - соцсеть признанна экстремистской и запрещенной на территории России, заблокирована РКН) // GitHub. ggerganov. 2025 [Электронный ресурс]. URL: https://github.com/ggerganov/llama.cpp (дата обращения: 23.12.2025).
Llama 3 Model Card and Updated Recipes // Meta AI. 2024. [Электронный ресурс]. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md (дата обращения: 25.12.2025).
Frantar E., Alistarh D. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers // arXiv preprint arXiv:2210.17323. 2023. [Электронный ресурс]. URL: https://arxiv.org/abs/2210.17323 (дата обращения: 25.12.2025).
Jocher G., Chaurasia A., Qiu J. Ultralytics YOLOv8 // GitHub. 2023. [Электронный ресурс]. URL: https://github.com/ultralytics/ultralytics (дата обращения: 25.12.2025).