МЕТОДЫ ОБНАРУЖЕНИЯ И СОПРОВОЖДЕНИЯ ДВИЖЕНИЯ ОБЪЕКТОВ - Студенческий научный форум

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

МЕТОДЫ ОБНАРУЖЕНИЯ И СОПРОВОЖДЕНИЯ ДВИЖЕНИЯ ОБЪЕКТОВ

Охотницкий А.С. 1
1Федеральное государственное бюджетное образовательное учреждение высшего образования (ФГБОУ ВО) «Мелитопольский государственный университет»
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение.Обнаружение и сопровождение движущихся объектов является одной из ключевых задач компьютерного зрения и широко применяется в системах видеонаблюдения, интеллектуальных транспортных системах, робототехнике, промышленной автоматизации и средствах контроля безопасности. Рост требований к точности распознавания, скорости обработки видеопотока и устойчивости к динамическим изменениям окружающей среды стимулирует развитие алгоритмов, способных работать в реальном времени и эффективно адаптироваться к разнообразию условий съёмки. Современные методы анализа движения варьируются от простейшей кадровой дифференциации до сложных моделей оптического потока и нейросетевых архитектур. Эти технологии позволяют выделять движущиеся объекты на фоне сцены, оценивать их траекторию, динамику и параметры движения. В практических приложениях большое значение приобретает не только корректное обнаружение объекта, но и стабильность его сопровождения в условиях частичных перекрытий, изменения освещённости, шумов сенсора или изменения масштаба объекта. Сопровождение объектов является логическим продолжением детекции и позволяет обеспечивать непрерывность наблюдения. Для решения этой задачи используются математические методы фильтрации, вероятностные модели, каскадные алгоритмы и алгоритмы адаптивного обновления модели объекта. Наиболее известными представителями являются фильтр Калмана, MeanShift, CamShift и их модификации, применяющиеся как в классических системах анализа движения, так и в современных вычислительных решениях, основанных на машинном обучении.

Дополнительный интерес представляют программно-аппаратные вопросы реализации систем обнаружения и сопровождения, поскольку в условиях реального времени алгоритмы должны быть оптимизированы под конкретный вычислительный ресурс. Это касается как выбора видеосенсоров и программных библиотек (OpenCV, Dlib), так и построения общей архитектуры комплекса, обеспечивающей устойчивость и минимальные задержки обработки.

Цель исследования — систематизация методов обнаружения и сопровождения движения объектов, анализ их математических и вычислительных основ.

Материал и методы исследования

Материалом исследования послужили классические и современные методы обнаружения и сопровождения движения объектов, применяемые в системах компьютерного зрения. Основой анализа выступили алгоритмы, включая методы кадровой дифференциации, вычитания фона, использование оптического потока и алгоритмы трекинга (фильтр Калмана, MeanShift, CamShift). Дополнительно были учтены результаты экспериментов, проведённых автором дипломного проекта при создании программного средства фиксации движущихся объектов.

Для расширения теоретической и практической базы исследования были использованы библиотеки компьютерного зрения — преимущественно OpenCV, Dlib и EmguCV, которые представляют собой стандартизированный инструментарий для обработки изображений, выделения особенностей, анализа движения и реализации алгоритмов трекинга. Программно-аппаратные решения рассматривались на основе экспериментальных данных, полученных при работе с типовыми видеосенсорами, используемыми в системах наблюдения.

Результаты исследования и их обсуждение

Обнаружение и анализ движения являются фундаментальными задачами компьютерного зрения, обеспечивающими основу для решения широкого круга практических задач — от элементарного мониторинга сцены до построения интеллектуальных систем слежения в реальном времени. Важность этих задач обусловлена необходимостью выделять из видеопотока значимые объекты, определять их динамику и обеспечивать непрерывность наблюдения. Развитие методов детекции и трекинга прошло несколько этапов: от простых методов анализа разности кадров до применения нейросетевых архитектур, способных распознавать и сопровождать объекты с высокой точностью. Методы обнаружения и сопровождения движения опираются на математические модели, описывающие временные и пространственные изменения изображения. Выбор конкретного метода зависит от условий съёмки, характера сцены, скорости объектов и требований к времени обработки. Ниже рассмотрены основные подходы, применяемые в современных системах.

Одним из первых подходов к выделению движущихся объектов стала кадровая дифференциация, основанная на сравнении интенсивности пикселей двух последовательных кадров. Этот метод позволяет выделять зоны сцены, в которых произошло изменение интенсивности, и формировать бинарную маску движения. Его достоинствами являются простота реализации и высокая скорость работы, что делает метод подходящим для систем реального времени. Однако кадровая дифференциация чувствительна к шумам, колебаниям освещения и не позволяет формировать устойчивое представление об объекте, если его движение нерегулярно или содержит моменты остановки [1].

Более устойчивым является метод вычитания фона. Он предполагает построение математической модели фона сцены, которую обновляют по мере накопления данных. Затем текущий кадр сравнивается с моделью фона, и пиксели, существенно отличающиеся по яркости или цвету, классифицируются как элементы движущихся объектов. Модель фона может формироваться с помощью:

  • простого усреднения;

  • гауссовыхмоделейсмеси (Mixture of Gaussians, MOG/MOG2);

  • адаптивных моделей с динамическим обновлением параметров.

Метод вычитания фона демонстрирует высокую эффективность при статичной камере и стабильном освещении, но теряет устойчивость при большом количестве динамических элементов сцены (дым, дождь, листья) [3]. Оптический поток — это векторное поле, описывающее смещение точек изображения между двумя кадрами. Он позволяет оценивать движение объекта с высокой точностью и является универсальным инструментом анализа динамики сцены. Существуют два основных метода вычисления оптического потока:

1. Метод Лукаса-Канаде (локальная модель) —опирается на предположение о постоянстве интенсивности пикселя и малых смещениях между кадрами. Этот метод вычисляет движение на уровне небольших блоков (окрестностей), где движение считается однородным. Он хорошо работает при:

  • малых скоростях движения;

  • хорошей текстуре изображения;

  • отсутствующих резких изменений освещения.

2. Метод Хорна-Шанка (глобальная модель) —использует регуляризационные методы и решает уравнение оптического потока для всего изображения, стремясь построить гладкое поле движения.

Оптический поток широко применяется в системах сопровождения объектов, поскольку позволяет точно определить направление и скорость движения, а также устойчиво поддерживать объект в кадре при отсутствии явных границ. С развитием глубокого обучения детекция и трекинг объектов получили новое направление развития. Нейросетевые модели позволяют уверенно распознавать объекты даже в условиях шумных сцен, скрытий, изменения масштаба и сложной фоновой структуры. Наиболее популярные архитектуры детекции:

  1. YOLO (You Only Look Once) — обеспечивает высокую скорость детекции и применяется для задач реального времени.

  2. SSD (Single Shot Multibox Detector) — оптимальна для мобильных и встраиваемых систем.

  3. Faster R-CNN — демонстрирует высокую точность при сложном фоне, но требует больших вычислительных ресурсов.

Для трекинга применяются модели:

  1. Deep SORT — сочетает классический алгоритм SORT с CNN-эмбеддингами для устойчивой идентификации объектов;

  2. FairMOT — объединяет детекцию и трекинг в единую архитектуру;

  3. ByteTrack — обеспечивает устойчивое сопровождение объектов при неполной детекции.

Современные алгоритмы сопровождения объектов в видеопотоках

Сопровождение движения объектов является ключевым этапом анализа динамических сцен [2], поскольку позволяет не только выделить движущийся объект, но и обеспечить непрерывность наблюдения, прогнозировать его траекторию и корректировать положение при частичных потерях. Трекинг объединяет в себе методы вероятностной фильтрации, алгоритмы адаптивного обновления модели объекта, а также механизмы прогнозирования и коррекции состояния. В современных системах применяются как классические алгоритмы, так и гибридные подходы, сочетающие детекцию и сопровождение в единой архитектуре.

  1. Фильтр Калмана является одним из самых известных методов сопровождения объектов, основанных на статистической фильтрации. Он описывает движение объекта в виде линейной динамической системы и оценивает его состояние (положение, скорость, направление) на основе предыдущих измерений. Основные преимущества:

  • устойчивость к шумам видеосигнала;

  • возможность прогнозирования положения объекта даже при кратковременной потере;

  • высокая скорость работы.

Недостаток — трудность применения к нелинейным движениям без дополнительных модификаций (расширенный фильтр Калмана, фильтр частиц).

  1. MeanShift — итеративный алгоритм поиска максимума плотности вероятности в пространстве признаков. В задачах трекинга он используется для поиска положения объекта в окне вокруг предполагаемой позиции.

Суть метода:

  1. Строится гистограмма признаков объекта (например, распределение по цветовым каналам).

  2. Алгоритм смещает окно поиска в направлении максимальной плотности признаков.

  3. Процесс повторяется до сходимости.

MeanShift устойчив к частичным перекрытиям и изменению освещения, но не учитывает изменения размера объекта.

  1. CamShift (Continuously Adaptive MeanShift) является развитием MeanShift и решает его ключевое ограничение — изменение масштаба объекта.

Особенности:

  • динамическое обновление размера окна поиска;

  • адаптация к изменению ориентации и положения объекта;

  • высокая скорость — подходит для видеопотоков.

CamShift демонстрирует устойчивость в условиях умеренной динамики и часто используется в системах видеонаблюдения и слежения за лицами.

Прогнозирование позволяет определить ожидаемое положение объекта в следующем кадре. Для прогнозирования применяются [7]:

  1. Линейные модели движения — оценивают скорость и направление объекта, предполагая равномерное движение. Используются в простых системах.

  2. Нелинейные динамические модели — подходят для сложных траекторий (например, изменения скорости или направления). Реализуются с помощью расширенного фильтра Калмана или фильтра частиц.

  3. Нейросетевые модели (LSTM, GRU) — используются в современных системах анализа видеопотоков. Позволяют учитывать длительную историю движения и предсказывать сложные траектории.

В современном компьютерном зрении наиболее эффективными считаются гибридные методы, объединяющие:

  • детекцию (определение местоположения объекта),

  • сопровождение (поддержание непрерывности наблюдения).

Причины популярности гибридных решений [4]:

  • детекторы хорошо находят объект, но плохо сопровождают при перекрытиях;

  • трекеры устойчивы, но без начальной детекции теряют объект;

  • комбинация обеспечивает как точность, так и стабильность.

Наиболее известные гибридные подходы:

  1. SORT — трекинг на основе детекции и фильтра Калмана;

  2. Deep SORT — добавлены CNN-признаки для устойчивой идентификации;

  3. ByteTrack — улучшенная обработка слабых детекций, высокая точность;

  4. CenterTrack — объединение нейросетевой детекции и оценки смещений.

Анализ программных и аппаратных средств реализации систем детекции движения

Эффективность систем обнаружения и сопровождения объектов определяется не только выбранным алгоритмом, но и характеристиками программных библиотек, видеосенсоров и общей архитектуры вычислительного комплекса. Для обеспечения работы в реальном времени требуется согласованность всех компонентов системы — от качества видеозахвата до оптимизации алгоритмов обработки изображений. В настоящее время широко применяются интегрированные решения, комбинирующие аппаратные ускорители, специализированные библиотеки компьютерного зрения и гибкие программные платформы [6]. Рассмотрим ключевые элементы таких систем.

  1. OpenCV является наиболее распространённой библиотекой для обработки изображений и анализа видеопотоков. В контексте задач детекции и трекинга она предоставляет широкий набор инструментов: фильтры Калмана, алгоритмы MeanShift и CamShift, вычисление оптического потока, выделение признаков, вычитание фона и многое другое. Преимущества OpenCV:

  • высокая производительность за счёт оптимизации под CPU и GPU;

  • поддержка множества языков (C++, Python, Java, C#);

  • интеграция с нейросетевыми библиотеками (TensorFlow, ONNX Runtime);

  • широкий набор алгоритмов для всех этапов компьютерного зрения.

  1. Dlib известна благодаря встроенным алгоритмам машинного обучения, включая средства для трекинга объектов, анализа лиц и оптимизации моделей. Её трекинговые функции основаны на коррелирующих фильтрах, что делает библиотеку подходящей для задач сопровождения объектов с умеренной динамикой.

  2. EmguCV — это .NET-обёртка для OpenCV, предназначенная для разработки приложений под Windows. Она особенно востребована при создании систем, имеющих графический интерфейс и ориентированных на интеграцию с другими компонентами .NET-приложений. Достоинства EmguCV:

  • быстрая интеграция в C#-приложения;

  • доступ ко всем алгоритмам OpenCV;

  • поддержка аппаратного ускорения.

Выбор метода обнаружения и сопровождения объектов в значительной степени определяется условиями съёмки, динамикой сцены и требованиями к точности. Эффективность алгоритмов может существенно различаться: одни демонстрируют высокую устойчивость к шумам, другие обеспечивают быструю обработку, третьи сохраняют корректность работы даже при частичных перекрытиях объекта. Для объективной оценки необходимо учитывать целый комплекс характеристик, включая точность детекции, стабильность сопровождения, скорость обработки видеопотока и способность алгоритма адаптироваться к изменениям в сцене.

Критерии оценки эффективности

  1. Точность детекции (accuracy) — отражает степень совпадения обнаруженного объекта с истинным положением. Высокая точность важна для задач идентификации или анализа формы объекта.

  2. Устойчивость трекинга (stability) — оценивает способность алгоритма удерживать объект в кадре при:

  • резких движениях,

  • частичных перекрытиях,

  • изменении масштаба,

  • потере контраста.

  1. Скорость обработки (FPS) — среднее значение должно превышать 20–25 fps. Некоторые алгоритмы (например, оптический поток Хорна–Шанка) обеспечивают высокую точность, но недостаточны по производительности.

  2. Помехоустойчивость —оценивает устойчивость к шумам сенсора, дрожанию камеры, изменениям освещения, динамическим фоновым объектам.

Эти критерии позволяют формировать комплексную оценку алгоритмов, а также определять области их рационального применения.

На основании проведённого анализа можно выделить типовые области применения:

  1. Классические методы (дифференциация, вычитание фона)

  • простые системы видеонаблюдения;

  • контроль движения на фиксированной сцене.

  1. MeanShift / CamShift

  • системы сопровождения людей или транспортных средств;

  • отслеживание объектов в умеренно динамичных сценах;

  • реализация в портативных устройствах и маломощных системах.

  1. Фильтр Калмана

  • прогнозирование движения;

  • задачи, требующие высокой устойчивости сопровождения.

  1. Оптический поток

  • анализ микродвижений;

  • задачи робототехники, стабилизации и навигации.

  1. Нейросетевые трекеры [5]

  • интеллектуальные системы видеонаблюдения;

  • автономные транспортные системы;

  • сложные сцены с множеством объектов.

Выводы. Проведённое исследование подтверждает, что методы обнаружения и сопровождения движения объектов являются ключевыми компонентами современных систем компьютерного зрения, определяющими их точность, устойчивость и способность функционировать в реальном времени. Анализ показал, что разнообразие алгоритмов обусловлено широким спектром задач и условий, в которых используются такие системы: от простых систем видеонаблюдения до интеллектуальных комплексов мониторинга и робототехнических платформ. Изученные классические методы, включая кадровую дифференциацию и вычитание фона, обладают высокой скоростью и простотой реализации, но чувствительны к изменениям освещения и не обеспечивают устойчивого сопровождения. Методы на основе оптического потока позволяют получать точные данные о локальных перемещениях, однако требуют значительных вычислительных ресурсов. В свою очередь, алгоритмы сопровождения — фильтр Калмана, MeanShift и CamShift — демонстрируют баланс между вычислительной эффективностью и устойчивостью, что делает их подходящими для систем, ориентированных на оперативную обработку видеопотока. Сравнительный анализ алгоритмов подтвердил, что CamShift и фильтр Калмана являются наиболее подходящими для практических систем реального времени, поскольку они сочетают высокую скорость работы, устойчивость к частичным перекрытиям и способность адаптироваться к динамике объекта. Современные тенденции развития в этой области связаны с интеграцией нейросетевых моделей, способных обеспечивать высокую точность распознавания объектов в сложных сценах и повышать устойчивость трекинга. Однако их применение ограничено вычислительными требованиями, что делает классические методы по-прежнему востребованными при создании мобильных, компактных и малоресурсных систем. Таким образом, выбор оптимального алгоритма зависит от конкретных условий эксплуатации, доступных вычислительных ресурсов и требуемой точности. Комбинация детекции и трекинга, а также использование гибридных методов позволяют построить устойчивые и надёжные системы сопровождения объектов, способные работать в реальном времени и обеспечивать высокое качество мониторинга динамичных сцен.

Список литературы

  1. Андреев К. С. Компьютерное зрение и машинное обучение. СПб.: Питер, 2020.

  2. Букреев, Д. А. Метод распознавания нарушений правил дорожного движения в режиме реального времени с помощью технологий компьютерного зрения / Д. А. Букреев, А. С. Гуров // Университетская наука. 2025. № 1(19). С. 168-173.

  3. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2018.

  4. Касаткин А. С. Нейросетевые технологии обработки изображений. СПб.: Питер, 2022.

  5. Половников Е. П. Технологии машинного обучения в автоматизированных системах. М.: Академия, 2021.

  6. Ткачёв Е. В. Применение нейросетевых технологий в радиолокационных системах. М.: Радиотехника, 2022.

  7. Bukreiev D. Neuro-network technologies as a mean for creating individualization conditions for students learning //SHS Web of Conferences. – EDP Sciences, 2020. Т. 75. С. 04013.

Просмотров работы: 0