Введение.Обнаружение и сопровождение движущихся объектов является одной из ключевых задач компьютерного зрения и широко применяется в системах видеонаблюдения, интеллектуальных транспортных системах, робототехнике, промышленной автоматизации и средствах контроля безопасности. Рост требований к точности распознавания, скорости обработки видеопотока и устойчивости к динамическим изменениям окружающей среды стимулирует развитие алгоритмов, способных работать в реальном времени и эффективно адаптироваться к разнообразию условий съёмки. Современные методы анализа движения варьируются от простейшей кадровой дифференциации до сложных моделей оптического потока и нейросетевых архитектур. Эти технологии позволяют выделять движущиеся объекты на фоне сцены, оценивать их траекторию, динамику и параметры движения. В практических приложениях большое значение приобретает не только корректное обнаружение объекта, но и стабильность его сопровождения в условиях частичных перекрытий, изменения освещённости, шумов сенсора или изменения масштаба объекта. Сопровождение объектов является логическим продолжением детекции и позволяет обеспечивать непрерывность наблюдения. Для решения этой задачи используются математические методы фильтрации, вероятностные модели, каскадные алгоритмы и алгоритмы адаптивного обновления модели объекта. Наиболее известными представителями являются фильтр Калмана, MeanShift, CamShift и их модификации, применяющиеся как в классических системах анализа движения, так и в современных вычислительных решениях, основанных на машинном обучении.
Дополнительный интерес представляют программно-аппаратные вопросы реализации систем обнаружения и сопровождения, поскольку в условиях реального времени алгоритмы должны быть оптимизированы под конкретный вычислительный ресурс. Это касается как выбора видеосенсоров и программных библиотек (OpenCV, Dlib), так и построения общей архитектуры комплекса, обеспечивающей устойчивость и минимальные задержки обработки.
Цель исследования — систематизация методов обнаружения и сопровождения движения объектов, анализ их математических и вычислительных основ.
Материал и методы исследования
Материалом исследования послужили классические и современные методы обнаружения и сопровождения движения объектов, применяемые в системах компьютерного зрения. Основой анализа выступили алгоритмы, включая методы кадровой дифференциации, вычитания фона, использование оптического потока и алгоритмы трекинга (фильтр Калмана, MeanShift, CamShift). Дополнительно были учтены результаты экспериментов, проведённых автором дипломного проекта при создании программного средства фиксации движущихся объектов.
Для расширения теоретической и практической базы исследования были использованы библиотеки компьютерного зрения — преимущественно OpenCV, Dlib и EmguCV, которые представляют собой стандартизированный инструментарий для обработки изображений, выделения особенностей, анализа движения и реализации алгоритмов трекинга. Программно-аппаратные решения рассматривались на основе экспериментальных данных, полученных при работе с типовыми видеосенсорами, используемыми в системах наблюдения.
Результаты исследования и их обсуждение
Обнаружение и анализ движения являются фундаментальными задачами компьютерного зрения, обеспечивающими основу для решения широкого круга практических задач — от элементарного мониторинга сцены до построения интеллектуальных систем слежения в реальном времени. Важность этих задач обусловлена необходимостью выделять из видеопотока значимые объекты, определять их динамику и обеспечивать непрерывность наблюдения. Развитие методов детекции и трекинга прошло несколько этапов: от простых методов анализа разности кадров до применения нейросетевых архитектур, способных распознавать и сопровождать объекты с высокой точностью. Методы обнаружения и сопровождения движения опираются на математические модели, описывающие временные и пространственные изменения изображения. Выбор конкретного метода зависит от условий съёмки, характера сцены, скорости объектов и требований к времени обработки. Ниже рассмотрены основные подходы, применяемые в современных системах.
Одним из первых подходов к выделению движущихся объектов стала кадровая дифференциация, основанная на сравнении интенсивности пикселей двух последовательных кадров. Этот метод позволяет выделять зоны сцены, в которых произошло изменение интенсивности, и формировать бинарную маску движения. Его достоинствами являются простота реализации и высокая скорость работы, что делает метод подходящим для систем реального времени. Однако кадровая дифференциация чувствительна к шумам, колебаниям освещения и не позволяет формировать устойчивое представление об объекте, если его движение нерегулярно или содержит моменты остановки [1].
Более устойчивым является метод вычитания фона. Он предполагает построение математической модели фона сцены, которую обновляют по мере накопления данных. Затем текущий кадр сравнивается с моделью фона, и пиксели, существенно отличающиеся по яркости или цвету, классифицируются как элементы движущихся объектов. Модель фона может формироваться с помощью:
простого усреднения;
гауссовыхмоделейсмеси (Mixture of Gaussians, MOG/MOG2);
адаптивных моделей с динамическим обновлением параметров.
Метод вычитания фона демонстрирует высокую эффективность при статичной камере и стабильном освещении, но теряет устойчивость при большом количестве динамических элементов сцены (дым, дождь, листья) [3]. Оптический поток — это векторное поле, описывающее смещение точек изображения между двумя кадрами. Он позволяет оценивать движение объекта с высокой точностью и является универсальным инструментом анализа динамики сцены. Существуют два основных метода вычисления оптического потока:
1. Метод Лукаса-Канаде (локальная модель) —опирается на предположение о постоянстве интенсивности пикселя и малых смещениях между кадрами. Этот метод вычисляет движение на уровне небольших блоков (окрестностей), где движение считается однородным. Он хорошо работает при:
малых скоростях движения;
хорошей текстуре изображения;
отсутствующих резких изменений освещения.
2. Метод Хорна-Шанка (глобальная модель) —использует регуляризационные методы и решает уравнение оптического потока для всего изображения, стремясь построить гладкое поле движения.
Оптический поток широко применяется в системах сопровождения объектов, поскольку позволяет точно определить направление и скорость движения, а также устойчиво поддерживать объект в кадре при отсутствии явных границ. С развитием глубокого обучения детекция и трекинг объектов получили новое направление развития. Нейросетевые модели позволяют уверенно распознавать объекты даже в условиях шумных сцен, скрытий, изменения масштаба и сложной фоновой структуры. Наиболее популярные архитектуры детекции:
YOLO (You Only Look Once) — обеспечивает высокую скорость детекции и применяется для задач реального времени.
SSD (Single Shot Multibox Detector) — оптимальна для мобильных и встраиваемых систем.
Faster R-CNN — демонстрирует высокую точность при сложном фоне, но требует больших вычислительных ресурсов.
Для трекинга применяются модели:
Deep SORT — сочетает классический алгоритм SORT с CNN-эмбеддингами для устойчивой идентификации объектов;
FairMOT — объединяет детекцию и трекинг в единую архитектуру;
ByteTrack — обеспечивает устойчивое сопровождение объектов при неполной детекции.
Современные алгоритмы сопровождения объектов в видеопотоках
Сопровождение движения объектов является ключевым этапом анализа динамических сцен [2], поскольку позволяет не только выделить движущийся объект, но и обеспечить непрерывность наблюдения, прогнозировать его траекторию и корректировать положение при частичных потерях. Трекинг объединяет в себе методы вероятностной фильтрации, алгоритмы адаптивного обновления модели объекта, а также механизмы прогнозирования и коррекции состояния. В современных системах применяются как классические алгоритмы, так и гибридные подходы, сочетающие детекцию и сопровождение в единой архитектуре.
Фильтр Калмана является одним из самых известных методов сопровождения объектов, основанных на статистической фильтрации. Он описывает движение объекта в виде линейной динамической системы и оценивает его состояние (положение, скорость, направление) на основе предыдущих измерений. Основные преимущества:
устойчивость к шумам видеосигнала;
возможность прогнозирования положения объекта даже при кратковременной потере;
высокая скорость работы.
Недостаток — трудность применения к нелинейным движениям без дополнительных модификаций (расширенный фильтр Калмана, фильтр частиц).
MeanShift — итеративный алгоритм поиска максимума плотности вероятности в пространстве признаков. В задачах трекинга он используется для поиска положения объекта в окне вокруг предполагаемой позиции.
Суть метода:
Строится гистограмма признаков объекта (например, распределение по цветовым каналам).
Алгоритм смещает окно поиска в направлении максимальной плотности признаков.
Процесс повторяется до сходимости.
MeanShift устойчив к частичным перекрытиям и изменению освещения, но не учитывает изменения размера объекта.
CamShift (Continuously Adaptive MeanShift) является развитием MeanShift и решает его ключевое ограничение — изменение масштаба объекта.
Особенности:
динамическое обновление размера окна поиска;
адаптация к изменению ориентации и положения объекта;
высокая скорость — подходит для видеопотоков.
CamShift демонстрирует устойчивость в условиях умеренной динамики и часто используется в системах видеонаблюдения и слежения за лицами.
Прогнозирование позволяет определить ожидаемое положение объекта в следующем кадре. Для прогнозирования применяются [7]:
Линейные модели движения — оценивают скорость и направление объекта, предполагая равномерное движение. Используются в простых системах.
Нелинейные динамические модели — подходят для сложных траекторий (например, изменения скорости или направления). Реализуются с помощью расширенного фильтра Калмана или фильтра частиц.
Нейросетевые модели (LSTM, GRU) — используются в современных системах анализа видеопотоков. Позволяют учитывать длительную историю движения и предсказывать сложные траектории.
В современном компьютерном зрении наиболее эффективными считаются гибридные методы, объединяющие:
детекцию (определение местоположения объекта),
сопровождение (поддержание непрерывности наблюдения).
Причины популярности гибридных решений [4]:
детекторы хорошо находят объект, но плохо сопровождают при перекрытиях;
трекеры устойчивы, но без начальной детекции теряют объект;
комбинация обеспечивает как точность, так и стабильность.
Наиболее известные гибридные подходы:
SORT — трекинг на основе детекции и фильтра Калмана;
Deep SORT — добавлены CNN-признаки для устойчивой идентификации;
ByteTrack — улучшенная обработка слабых детекций, высокая точность;
CenterTrack — объединение нейросетевой детекции и оценки смещений.
Анализ программных и аппаратных средств реализации систем детекции движения
Эффективность систем обнаружения и сопровождения объектов определяется не только выбранным алгоритмом, но и характеристиками программных библиотек, видеосенсоров и общей архитектуры вычислительного комплекса. Для обеспечения работы в реальном времени требуется согласованность всех компонентов системы — от качества видеозахвата до оптимизации алгоритмов обработки изображений. В настоящее время широко применяются интегрированные решения, комбинирующие аппаратные ускорители, специализированные библиотеки компьютерного зрения и гибкие программные платформы [6]. Рассмотрим ключевые элементы таких систем.
OpenCV является наиболее распространённой библиотекой для обработки изображений и анализа видеопотоков. В контексте задач детекции и трекинга она предоставляет широкий набор инструментов: фильтры Калмана, алгоритмы MeanShift и CamShift, вычисление оптического потока, выделение признаков, вычитание фона и многое другое. Преимущества OpenCV:
высокая производительность за счёт оптимизации под CPU и GPU;
поддержка множества языков (C++, Python, Java, C#);
интеграция с нейросетевыми библиотеками (TensorFlow, ONNX Runtime);
широкий набор алгоритмов для всех этапов компьютерного зрения.
Dlib известна благодаря встроенным алгоритмам машинного обучения, включая средства для трекинга объектов, анализа лиц и оптимизации моделей. Её трекинговые функции основаны на коррелирующих фильтрах, что делает библиотеку подходящей для задач сопровождения объектов с умеренной динамикой.
EmguCV — это .NET-обёртка для OpenCV, предназначенная для разработки приложений под Windows. Она особенно востребована при создании систем, имеющих графический интерфейс и ориентированных на интеграцию с другими компонентами .NET-приложений. Достоинства EmguCV:
быстрая интеграция в C#-приложения;
доступ ко всем алгоритмам OpenCV;
поддержка аппаратного ускорения.
Выбор метода обнаружения и сопровождения объектов в значительной степени определяется условиями съёмки, динамикой сцены и требованиями к точности. Эффективность алгоритмов может существенно различаться: одни демонстрируют высокую устойчивость к шумам, другие обеспечивают быструю обработку, третьи сохраняют корректность работы даже при частичных перекрытиях объекта. Для объективной оценки необходимо учитывать целый комплекс характеристик, включая точность детекции, стабильность сопровождения, скорость обработки видеопотока и способность алгоритма адаптироваться к изменениям в сцене.
Критерии оценки эффективности
Точность детекции (accuracy) — отражает степень совпадения обнаруженного объекта с истинным положением. Высокая точность важна для задач идентификации или анализа формы объекта.
Устойчивость трекинга (stability) — оценивает способность алгоритма удерживать объект в кадре при:
резких движениях,
частичных перекрытиях,
изменении масштаба,
потере контраста.
Скорость обработки (FPS) — среднее значение должно превышать 20–25 fps. Некоторые алгоритмы (например, оптический поток Хорна–Шанка) обеспечивают высокую точность, но недостаточны по производительности.
Помехоустойчивость —оценивает устойчивость к шумам сенсора, дрожанию камеры, изменениям освещения, динамическим фоновым объектам.
Эти критерии позволяют формировать комплексную оценку алгоритмов, а также определять области их рационального применения.
На основании проведённого анализа можно выделить типовые области применения:
Классические методы (дифференциация, вычитание фона)
простые системы видеонаблюдения;
контроль движения на фиксированной сцене.
MeanShift / CamShift
системы сопровождения людей или транспортных средств;
отслеживание объектов в умеренно динамичных сценах;
реализация в портативных устройствах и маломощных системах.
Фильтр Калмана
прогнозирование движения;
задачи, требующие высокой устойчивости сопровождения.
Оптический поток
анализ микродвижений;
задачи робототехники, стабилизации и навигации.
Нейросетевые трекеры [5]
интеллектуальные системы видеонаблюдения;
автономные транспортные системы;
сложные сцены с множеством объектов.
Выводы. Проведённое исследование подтверждает, что методы обнаружения и сопровождения движения объектов являются ключевыми компонентами современных систем компьютерного зрения, определяющими их точность, устойчивость и способность функционировать в реальном времени. Анализ показал, что разнообразие алгоритмов обусловлено широким спектром задач и условий, в которых используются такие системы: от простых систем видеонаблюдения до интеллектуальных комплексов мониторинга и робототехнических платформ. Изученные классические методы, включая кадровую дифференциацию и вычитание фона, обладают высокой скоростью и простотой реализации, но чувствительны к изменениям освещения и не обеспечивают устойчивого сопровождения. Методы на основе оптического потока позволяют получать точные данные о локальных перемещениях, однако требуют значительных вычислительных ресурсов. В свою очередь, алгоритмы сопровождения — фильтр Калмана, MeanShift и CamShift — демонстрируют баланс между вычислительной эффективностью и устойчивостью, что делает их подходящими для систем, ориентированных на оперативную обработку видеопотока. Сравнительный анализ алгоритмов подтвердил, что CamShift и фильтр Калмана являются наиболее подходящими для практических систем реального времени, поскольку они сочетают высокую скорость работы, устойчивость к частичным перекрытиям и способность адаптироваться к динамике объекта. Современные тенденции развития в этой области связаны с интеграцией нейросетевых моделей, способных обеспечивать высокую точность распознавания объектов в сложных сценах и повышать устойчивость трекинга. Однако их применение ограничено вычислительными требованиями, что делает классические методы по-прежнему востребованными при создании мобильных, компактных и малоресурсных систем. Таким образом, выбор оптимального алгоритма зависит от конкретных условий эксплуатации, доступных вычислительных ресурсов и требуемой точности. Комбинация детекции и трекинга, а также использование гибридных методов позволяют построить устойчивые и надёжные системы сопровождения объектов, способные работать в реальном времени и обеспечивать высокое качество мониторинга динамичных сцен.
Список литературы
Андреев К. С. Компьютерное зрение и машинное обучение. СПб.: Питер, 2020.
Букреев, Д. А. Метод распознавания нарушений правил дорожного движения в режиме реального времени с помощью технологий компьютерного зрения / Д. А. Букреев, А. С. Гуров // Университетская наука. 2025. № 1(19). С. 168-173.
Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2018.
Касаткин А. С. Нейросетевые технологии обработки изображений. СПб.: Питер, 2022.
Половников Е. П. Технологии машинного обучения в автоматизированных системах. М.: Академия, 2021.
Ткачёв Е. В. Применение нейросетевых технологий в радиолокационных системах. М.: Радиотехника, 2022.
Bukreiev D. Neuro-network technologies as a mean for creating individualization conditions for students learning //SHS Web of Conferences. – EDP Sciences, 2020. Т. 75. С. 04013.