Сравнительный анализ моделей YOLOv8–YOLO11 в задачах обнаружения объектов в реальном времени

Корж А.А. 1, Олейник Н.П. 1

1Мелитопольский Государственный Университет

Диплом участника Диплом руководителя секции

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Постановка проблемы отсутствие сопоставимых по методике сравнений YOLOv8–YOLO11 приводит к выбору моделей «по привычке» или по разрозненным публикациям, где различаются датасеты, размер входа и правила измерения задержки. Для практических систем это означает либо избыточные требования к вычислительным ресурсам, либо неприемлемое снижение качества детекции при переносе на целевую сцену.

Анализ последних исследований и публикаций. История семейства YOLO начинается с работы J. Redmon и соавт. (2015) [1], где предложен одноэтапный подход к детекции объектов. В последующих версиях развивались идеи ускорения и повышения точности; например, для YOLOv7 показано, что переработка backbone/neck и обучение с учётом задач реального времени позволяют сохранить высокую скорость при конкурентной точности [2].

Ultralytics в YOLOv8 перешли к anchor-free предсказаниям и унифицированному фреймворку задач, оставив NMS как обязательную часть конвейера [3].

В YOLOv9 введены GELAN и механизм PGI, рассчитанный на улучшение градиентного потока на этапе обучения [4]. Работа по YOLOv10 (TsinghuaUniversity) предложила end-to-end детекцию без NMS через согласованное двойное назначение (one-to-many и one-to-one) и более лёгкие вычислительные блоки [5].

В YOLO11 Ultralytics сфокусировались на снижении параметрической сложности и ускорении CPU-инференса, заменив базовые блоки и расширив внимание (C2PSA) [6].

При этом в прикладной литературе преобладают оценки отдельных версий на COCO; сравнения по одинаковым метрикам задержки и потребления ресурсов для edge/CPU встречаются ограниченно.

Цель исследования выполнить структурированный анализ YOLOv8–YOLO11, сопоставив архитектурные изменения и их влияние на mAP, задержку инференса и число параметров, и дать практические рекомендации выбора модели для типовых сценариев развёртывания.

Основная часть. Все рассматриваемые версии сохраняют трёхкомпонентную схему (backbone–neck–head), однако различаются тем, как организован поток признаков и как формируется обучающий сигнал. YOLOv8 использует блок C2f и SPPF, работает в anchor-free постановке и требует NMS. YOLOv9 вводит GELAN и PGI: вспомогательный путь для устойчивых градиентов используется на обучении и удаляется на инференсе, сохраняя классическую постобработку. YOLOv10 переносит часть сложности из постобработки в обучение: схема one-to-one позволяет выполнять вывод без NMS, что уменьшает задержку и упрощает конвейер. YOLO11 развивает линию повышения эффективности за счёт более компактных блоков (C3k2) и внимания (C2PSA), что важно для CPU и энергоограниченных систем.

Таблица 1

Сравнение ключевых компонентов YOLOv8–YOLO11

Компонент	YOLOv8	YOLOv9	YOLOv10	YOLO11
Backbone block	C2f	RepNCSPELAN4 (GELAN)	C2f / C2fCIB (rank-guided)	C3k2
Downsampling	Conv (3×3, stride=2)	ADown (pooling-based)	SCDown (decoupled)	Conv (3×3, stride=2)
Neck attention	SPPF	SPPELAN	SPPF + PSA	SPPF + C2PSA
Необходимость NMS	Требуется	Требуется	Не требуется	Требуется (ускорена)
Эффективность параметров	Базовая	Выше (меньше параметров)	Высокая	Высокая
Особенности вывода	Стандартный конвейер	PGI только на обучении	End-to-end one-to-one	Ускорение CPU, DWConv

По опубликованным бенчмаркам [4,5], различия точности между поколениями после YOLOv9 сравнительно невелики, тогда как различия по задержке и цене вывода заметнее. В частности, для малых конфигураций заявлено, что YOLOv10-S достигает латентности порядка 2,49 мс с учётом всей постобработки (без отдельного NMS), тогда как для YOLOv8-S приводится около 7,07 мс с учётом NMS. Для CPU-сценариев YOLO11 демонстрирует ускорение порядка 30% для nano-модели, что критично при работе на видеосерверах без GPU и на edge-устройствах.

В прикладных областях выбор версии определяется не только mAP, но и распределением задержки, памятью и устойчивостью. В автономном вождении важны стабильные 30 FPS и поведение при тумане, дожде и ночной сцене; отсутствие NMS в YOLOv10 снижает вариативность задержки, а модели YOLO11 среднего размера целесообразны, когда требуется более высокая точность при наличии GPU. В видеонаблюдении приоритетом становится непрерывная работа 24/7 и ограничение ложных тревог; компактные модели YOLO11n подходят для CPU-развёртывания и малой памяти, а YOLOv10s оправдана при наличии GPU и жёстком ограничении на задержку. В промышленном контроле качества критичны мелкие дефекты и высокая частота кадров; здесь полезны более точные конфигурации и, при необходимости, варианты с сегментацией, при этом ускорение вывода уменьшает нагрузку на линию инспекции.

Таблица 2

Рекомендации по выбору версии для типовых сценариев

Сценарий	Рекомендуемая версия	Основание выбора
Edge-устройства (Raspberry Pi, Jetson Nano)	YOLO11n	Малая модель, ускоренный CPU-инференс, низкое потребление памяти.
Видеонаблюдение 24/7	YOLO11n/s или YOLOv10s	YOLO11 — экономия ресурсов на CPU; YOLOv10 — минимальная задержка при наличии GPU и отсутствии NMS.
Автономное вождение	YOLOv10m или YOLO11m	YOLOv10 — более предсказуемая задержка без NMS; YOLO11m — выше точность при наличии вычислительного бюджета.
Промышленный контроль качества	YOLO11m (и варианты с сегментацией) / YOLOv10m	Нужны высокая точность по мелким объектам и высокая частота кадров; выбор зависит от доступного ускорителя.
Облачный сервис	YOLO11x или YOLOv10x	Приоритет точности; задержка на GPU приемлема, выбирается по нагрузке и стоимости вычислений.

Личный вклад авторов заключается в систематизации различий между версиями по единой схеме сравнения (архитектура, обучение, постобработка, ресурсы) и в формировании матрицы выбора для типовых сценариев. Представленная структура анализа может использоваться как шаблон для проверки новых выпусков YOLO, когда скорость обновления превышает скорость появления полноценных сравнительных публикаций.

Для прикладных внедрений требуется расширять набор проверок за пределы стандартных отчётов COCO: оценивать устойчивость к шуму, сжатию и артефактам видеопотока, проверять перенос на узкие доменные датасеты (аэрофото, подводная съёмка, медицинские изображения) с фиксированным бюджетом дообучения, а также измерять влияние INT8-квантования и дистилляции на качество и задержку на конкретном CPU/NPU. Отдельный интерес представляет сравнение не только средних значений, но и распределений латентности, поскольку именно предсказуемость задержки определяет пригодность детектора для реального времени.

Выводы. Сопоставление YOLOv8–YOLO11 показывает, что эволюция после 2023 года в значительной мере направлена на снижение задержки и стоимости вывода при близких уровнях точности: YOLOv9 усиливает обучение через PGI, YOLOv10 устраняет необходимость NMS и тем самым уменьшает задержку, а YOLO11 сокращает число параметров и ускоряет CPU-инференс за счёт замены базовых блоков и расширения внимания, на практике это позволяет обоснованно выбирать версию под ограничения конкретного стенда (CPU/GPU, память, требуемый FPS) и сокращает риск неоправданных затрат при развёртывании, при этом дальнейшая проверка должна включать доменную переносимость, устойчивость к артефактам видеопотока и эффект квантования на целевом оборудовании.

Литература

1. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 779-788. https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf {in English}.

2. YOLOv7: Trainable state-of-the-art object detector. arXiv preprint arXiv:2207.02696. https://arxiv.org/abs/2207.02696 {in English}.

3. YOLOv8: A state-of-the-art real-time object detector. Ultralytics GitHub Repository. https://github.com/ultralytics/ultralytics {in English}.

4. YOLOv9: Learning what you want to learn using programmable gradient information. arXiv preprint arXiv:2402.13616. https://arxiv.org/abs/2402.13616 {in English}.

5. YOLOv10: Real-time end-to-end object detection. arXiv preprint arXiv:2405.14458. https://arxiv.org/abs/2405.14458 {in English}.

6. YOLO11: Advanced Real-time Object Detection. Ultralytics Documentation. https://docs.ultralytics.com/ {in English}.

SRAVNITEL'NYY ANALIZ MODELEY YOLOV8–YOLO11 V ZADACHAKH OBNARUZHENIYA OB''EKTOV V REAL'NOM VREMENI

Korzh A.A.

Oleynik N.P.

Federal'noegosudarstvennoebyudzhetnoeobrazovatel'noeuchrezhdenievysshegoobrazovaniya «Melitopol'skiyGosudarstvennyyUniversitet» (g. Melitopol', Rossiya).

Annotatsiya

Bystroe obnovlenie semeystva YOLO v 2023–2024 gg. privelo k poyavleniyu neskol'kikh blizkikh po naznacheniyu, no razlichayushchikhsya po arkhitekturnym resheniyam pokoleniy detektorov, chto oslozhnyaet vybor modeli dlya zadach real'nogo vremeni i razvyortyvaniya na ustroystvakh s ogranichennymi resursami. V stat'e vypolnen sopostavitel'nyy analiz YOLOv8, YOLOv9, YOLOv10 i YOLO11 na edinoy logike sravneniya: rassmotreny izmeneniya v backbone/neck/head, sposoby naznacheniya polozhitel'nykh primerov pri obuchenii, rol' postobrabotki i vliyanie blokov vnimaniya na tochnost' i zaderzhku. Dlya kolichestvennoy chasti ispol'zovany opublikovannye rezul'taty dlya COCO i otkrytye spetsifikatsii repozitoriev; analiz sosredotochen na metrikakh mAP, latentnosti inferensa, chisle parametrov i prakticheskikh ogranicheniyakh CPU/GPU. Pokazano, chto posle YOLOv9 prirost tochnosti stanovitsya umerennym, a klyuchevye uluchsheniya smeshchayutsya v storonu snizheniya zaderzhki i stoimosti vyvoda: YOLOv10 ustranyaet neobkhodimost' NMS za schyot skhemy one-to-one, a YOLO11 sokrashchaet chislo parametrov i uskoryaet CPU-inferens za schyot zameny bazovykh blokov i rasshireniya vnimaniya. Na osnove sravneniya sformulirovany rekomendatsii vybora versii dlya tipovykh stsenariev (edge-ustroystva, videonablyudenie, promyshlennyy kontrol' kachestva, oblachnyy servis) s uchyotom kompromissov mezhdu tochnost'yu i zaderzhkoy i ukazany napravleniya dal'neyshey proverki, vazhnye dlya prikladnykh vnedreniy: ustoychivost' k shumam i artefaktam, perenos na domennye datasety i vliyanie kvantovaniya.

Klyuchevye slova: obnaruzhenie ob''ektov, YOLO, komp'yuternoe zrenie, neyronnye seti, detektsiya v real'nom vremeni, arkhitekturnoe sravnenie, proizvoditel'nost' modeley, inferens, NMS, vnimanie.

References

2. YOLOv7: Trainable state-of-the-art object detector. arXiv preprint arXiv:2207.02696. https://arxiv.org/abs/2207.02696 {in English}.

3. YOLOv8: A state-of-the-art real-time object detector. Ultralytics GitHub Repository. https://github.com/ultralytics/ultralytics {in English}.

4. YOLOv9: Learning what you want to learn using programmable gradient information. arXiv preprint arXiv:2402.13616. https://arxiv.org/abs/2402.13616 {in English}.

5. YOLOv10: Real-time end-to-end object detection. arXiv preprint arXiv:2405.14458. https://arxiv.org/abs/2405.14458 {in English}.

6. YOLO11: Advanced Real-time Object Detection. Ultralytics Documentation. https://docs.ultralytics.com/ {in English}.

Просмотров работы: 16

Код для цитирования:

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

Сравнительный анализ моделей YOLOv8–YOLO11 в задачах обнаружения объектов в реальном времени

Студенческий научный форум - 2026
XVIII Международная студенческая научная конференция