Сравнительный анализ трансформерных и сверточных моделей для задачи детекции объектов - Студенческий научный форум

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

Сравнительный анализ трансформерных и сверточных моделей для задачи детекции объектов

Бабин С.Е. 1, Ананченко И.В. 1
1СПБГТИ(ТУ)
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение. Задача детекции объектов является одной из ключевых в компьютерном зрении и предполагает не только классификацию объектов на изображении, но и локализацию их положения посредством предсказания координат ограничивающей рамки. Долгое время стандартом де-факто в данной области являлись сверточные нейронные сети CNN (Convolutional Neural Network) [1], архитектура которых имитирует принципы работы зрительной коры. Применение Transformer [2] в компьютерном зрении привело к переходу от сверточных сетей как доминирующей архитектуры к моделям на основе внимания, способным захватывать глобальные зависимости в изображениях. В научной среде актуальным остается вопрос выбора между проверенными временем сверточными решениями и новыми трансформерными подходами.

Цель. Обзор и сопоставление архитектурных принципов сверточных (например, YOLO) и трансформерных (например, RT-DETR) нейронных сетей, выявление их сильных и слабых сторон, а также определение тенденций дальнейшего развития и границ применимости в задачах реального времени.

Основная часть.

  1. Теоретические основы: свертка и внимание

Для понимания различий в эффективности алгоритмов необходимо рассмотреть фундаментальные принципы обработки информации в CNN и трансформерах.

    1. Сверточные сети: локальность и инвариантность

Базовым элементом сверточной нейронной сети является операция свертки. Она заключается в поэлементном умножении весов фильтра (ядра) на локальный участок входного сигнала с последующим суммированием. На практике в CNN используется операция корреляции, традиционно называемая сверткой.

Для двумерного изображения выходное значение карты признаков в позиции определяется выражением:

где X – входная матрица; K – ядро свертки; m,n – индексы ядра; b – смещение.

Особенность свертки заключается в том, что она обрабатывает изображение по частям и использует одни и те же фильтры для всей области. Это позволяет эффективно находить локальные признаки, такие как границы и текстуры, и формировать иерархию признаков. Однако учет глобальных зависимостей требует увеличения глубины сети.

    1. Трансформеры: механизм внимания

Трансформеры базируются на механизме Self-Attention (внимания или самовнимания), впервые представленном А. Васвани и соавторами в работе «Attention Is All You Need» [2]. Он позволяет моделировать зависимости между всеми элементами входных данных одновременно. Функция внимания вычисляется следующим образом:

где векторы запросов, ключей и значений соответственно; – коэффициент нормализации.

В отличие от свертки, данный механизм обеспечивает глобальное рецептивное поле уже на первом слое, однако вычислительная сложность операции квадратично зависит от размера входных данных.

  1. Архитектура YOLO: сегментация и оптимизация

Семейство архитектур YOLO (You Only Look Once) реализует концепцию одностадийной детекции. В отличие от двухстадийных методов (таких как Faster R-CNN), которые сначала генерируют кандидатов на объекты (Region Proposals), а затем классифицируют их, YOLO переформулирует задачу детекции как единую задачу регрессии. Нейронная сеть принимает на вход полноразмерное изображение и за один проход предсказывает тензоры, содержащие координаты ограничивающих рамок и вероятности классов, что обеспечивает возможность работы в реальном времени.

    1. Принцип дискретизации и функция потерь

В основе метода лежит разделение входного изображения на сетку (grid). Ответственность за детекцию объекта возлагается на ту ячейку, в которую попадает центр объекта [1]. Для оценки точности локализации в современных версиях (YOLOv8/v10) применяется функция потерь CIoU (Complete IoU) [7]:

где – евклидово расстояние между центрами рамок; c – диагональ описывающего прямоугольника; – геометрические центры предсказанной и истинной рамок; – параметры согласованности соотношения сторон.

    1. Пост-обработка

Характерной особенностью работы сверточных детекторов является генерация множественных перекрывающихся рамок-кандидатов для одного объекта. Для фильтрации избыточных предсказаний применяется алгоритм подавления немаксимумов (NMS), суть которого заключается в итеративном отборе рамок с наивысшей оценкой уверенности и удалении дубликатов. В классическом варианте (Greedy NMS) рамка-кандидат удаляется, если коэффициент её пересечения (IoU) с рамкой M, имеющей максимальную достоверность, превышает установленный порог :

Однако данный подход демонстрирует снижение точности в сценах с плотным расположением объектов, так как опирается исключительно на площадь перекрытия и может ошибочно подавить верную рамку соседнего объекта. Для решения этой проблемы применяется модифицированный алгоритм DIoU-NMS [7], который учитывает не только перекрытие, но и расстояние между центрами рамок. В этом случае условие подавления становится более гибким и принимает вид:

где штрафной член рассчитывается на основе евклидова расстояния между центрами рамок ​ и , отнесенного к квадрату диагонали c наименьшего охватывающего их прямоугольника. Такой подход позволяет сохранить корректные детекции даже при значительном визуальном перекрытии объектов, при условии, что их геометрические центры разнесены в пространстве.

    1. Эволюция к гиперграфовым вычислениям (YOLOv13)

Развитие архитектуры в версии YOLOv13 направлено на преодоление ограничений локальной свертки без полного перехода на трансформеры. Для этого применяется подход Hypergraph-Enhanced Adaptive Visual Perception [9]. В данной архитектуре связи между признаками моделируются не только как попарные (как в графах или Attention), а как множественные отношения (гиперребра), объединяющие группы пикселей со схожими семантическими свойствами. Это позволяет сети захватывать сложные геометрические структуры эффективнее, чем обычные свертки, но требует больших вычислительных затрат, что объясняет рост задержки (latency) в старших моделях.

  1. Архитектура RT-DETR

RT-DETR (Real-Time Detection Transformer) объединяет архитектурные преимущества трансформеров и вычислительную эффективность сверточных сетей [5].

    1. Гибридная архитектура и сопоставление

RT-DETR использует сверточный backbone для извлечения признаков и трансформерный энкодер. Ключевым архитектурным отличием от YOLO является отказ от использования NMS. Задача обучения формулируется как предсказание множества (set prediction): модель выдает фиксированный набор предсказаний (например, N=300), который необходимо сопоставить с реальными объектами на изображении.

Для нахождения оптимального соответствия между предсказаниями и истиной используется двудольное сопоставление (bipartite matching), которое математически решается через поиск перестановки с минимальной суммарной стоимостью (венгерский алгоритм) [4]:

где N – фиксированное количество предсказаний, выдаваемое моделью; y – множество истинных объектов (ground truth), дополненное пустыми объектами (нет цели) до размера N; – множество предсказаний модели; – множество всех возможных перестановок (вариантов сопоставления) индексов длины N; – конкретная перестановка, ставящая в соответствие i-му истинному объекту предсказание с индексом ; – функция стоимости попарного сопоставления. Она учитывает как вероятность класса, так и точность координат рамки (box loss).

Это позволяет обучать модель по принципу end-to-end.

    1. Дистилляция знаний

В версии «4» используется дистилляция знаний от больших моделей («учителей»). Механизм глубокой семантической инъекции (Deep Semantic Injector) минимизирует расстояние между векторами признаков учителя и ученика, повышая точность без роста вычислительной сложности при инференсе [5]. Разработчики рекомендуют использовать учителя «DINOv3».

  1. Сравнительный анализ

Разработчиками для объективной оценки эффективности рассматриваемых архитектур был проведен анализ результатов их работы на стандартном датасете MS COCO val2017. В данной работе будет проведено сравнение модели YOLOv13 [9] и трансформерной модели RT-DETRv4, использующей дистилляцию больших фундаментальных моделей [8].

    1. Условия эксперимента

В качестве основной метрики точности использовалась средняя точность AP (Average Precision) в диапазоне IoU от 0.5 до 0.95. Для оценки быстродействия измерялась задержка (latency) в миллисекундах на графическом ускорителе NVIDIA T4 с использованием TensorRT (FP16), что является индустриальным стандартом для оценки серверных решений.

    1. Количественное сравнение

Модель

Разрешение

AP (val), %

Latency (T4), мс

FPS (T4)

YOLOv13-S

640x640

48.0%

2.98

~335

RT-DETRv4-S

640x640

49.8%

3.66

273

RT-DETRv4-M

640x640

53.7%

5.91

169

YOLOv13-L

640x640

53.4%

8.63

~116

RT-DETRv4-L

640x640

55.4%

8.07

124

YOLOv13-X

640x640

54.8%

14.67

~68

RT-DETRv4-X

640x640

57.0%

12.90

78

В таблице 1 представлены сводные данные производительности для моделей различных масштабов (small, medium, large, extra-large).

Источник данных: официальные репозитории iMoonLab/yolov13 [9] и RT-DETRs/RT-DETRv4 [8].

    1. Анализ результатов

Данные показывают, что RT-DETRv4-L не только превосходит YOLOv13-L по точности (+2% AP), но и демонстрирует меньшую задержку (8.07 мс против 8.63 мс). Это ставит под сомнение распространённое представление о более высокой латентности трансформерных моделей [4]. Механизм внимания в RT-DETRv4, оптимизированный через гибридный энкодер, на мощных GPU (T4/A100) работает эффективнее, чем усложненные сверточные блоки в YOLOv13.

Особого внимания заслуживает модель RT-DETRv4-M. Согласно данным [8], она достигает точности 53.7% AP при задержке всего 5.91 мс. Фактически, средняя версия трансформера работает быстрее и точнее, чем тяжелая версия YOLOv13-L (53.4% AP, 8.63 мс). Это указывает на более совершенный баланс производительности у трансформерного подхода при наличии тензорных ядер.

В классе компактных моделей YOLOv13-S сохраняет лидерство по скорости (2.98 мс против 3.66 мс у RT-DETR), что делает сверточную архитектуру предпочтительной для устройств без мощных ускорителей (NPU, CPU). Однако трансформерная модель RT-DETRv4-S обеспечивает более высокую точность (+1.8% AP), что может быть критично для задач, где цена ошибки высока.

Заключение.

Проведённый сравнительный анализ архитектур глубокого обучения показывает, что современные модели существенно расширили возможности детекции объектов по сравнению с ранними подходами. Результаты экспериментов подтверждают, что архитектура RT-DETRv4 преодолела историческое отставание трансформерных моделей в скорости инференса на серверном оборудовании. В сегменте высокопроизводительных моделей (Large и Extra-Large) данный подход не только обеспечивает превосходство в точности обнаружения, достигая 57.0% AP, но и демонстрирует лучшую частоту кадров по сравнению с новой сверточной архитектурой YOLOv13.

Полученные результаты объясняются различиями в подходах к развитию архитектур. В модели YOLOv13 повышение точности достигается в основном за счёт усложнения сверточной архитектуры и дополнительных вычислительных механизмов, что со временем приводит к росту задержек. В отличие от этого, преимущество RT-DETRv4 связано с использованием дистилляции знаний из крупных предварительно обученных моделей компьютерного зрения. Это позволяет формировать более информативные признаки без значительного увеличения вычислительной сложности на этапе инференса.

На основе проведённого анализа можно выделить области наиболее эффективного применения данных архитектур. Для серверных систем и высоконагруженных задач видеоаналитики более предпочтительным является RT-DETRv4, поскольку данная модель не требует применения NMS и обеспечивает стабильное время отклика. В то же время YOLOv13 остаётся актуальным решением для задач граничных вычислений (Edge AI), где важны низкие вычислительные требования и энергоэффективность.

Список литературы

  1. Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016). "You Only Look Once: Unified, Real-Time Object Detection" // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). P. 779–788.

  2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., Polosukhin, I. (2017). "Attention Is All You Need" // Advances in Neural Information Processing Systems (NeurIPS). Vol. 30.

  3. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N. (2021). "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" // International Conference on Learning Representations (ICLR).

  4. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S. (2020). "End-to-End Object Detection with Transformers" // European Conference on Computer Vision (ECCV). Springer, Cham. P. 213–229.

  5. Lv, W., Zhao, Y., Xu, S., Wei, J., Wang, G., Cui, C., Du, Y., Dang, Q., Lai, Y. (2024). "RT-DETR: DETRs Beat YOLOs on Real-time Object Detection" // Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38, No. 4. P. 3856–3864.

  6. Wang, A., Chen, H., Liu, L., Chen, K., Lin, Z., Han, J., Ding, G. (2024). "YOLOv10: Real-Time End-to-End Object Detection" // arXiv preprint arXiv:2405.14458. DOI 10.48550/arXiv.2405.14458.

  7. Zheng, Z., Wang, P., Liu, W., Li, J., Ye, R., Ren, D. (2020). "Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression" // Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34, No. 07. P. 12993–13000.

  8. Lv, W. et al. (2025). "RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models" [Электронныйресурс] // GitHub. URL: https://github.com/RT-DETRs/RT-DETRv4 (Дата обращения: 26.01.2026).

  9. iMoonLab. (2025). "YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception" [Электронныйресурс] // GitHub. URL: https://github.com/iMoonLab/yolov13 (Датаобращения: 26.01.2026).

  10. Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C. L. (2014). "Microsoft COCO: Common Objects in Context" // European Conference on Computer Vision. Springer, Cham. P. 740–755.

Просмотров работы: 15