Анализ видео
Трекинг — определение местоположения объекта (нескольких объектов) во времени.
Задача отслеживания объектов на видео является одной из самых интересных задач в информационных технологиях. На первый взгляд, видеопоток можно рассматривать как последовательность отдельных кадров, поэтому применимы многие алгоритмы, использующиеся для обработки обычных изображений. Сегодня к задаче распознавания объектов также широко применяются методы классификации, а именно, строятся системы, которые определяют к какому классу (изображение содержит объект или изображение не содержит объект) относится изображение.
С другой стороны, видеопоток обладает свойством связности: каждый последующий кадр не сильно отличается от предыдущего, поэтому возможно применение алгоритмов, основанных на этом свойстве. Одной из интересных задач в этой области является трекинг перемещений объектов на видео. В работе [1] алгоритмы отслеживания разделены на четыре основные категории: отслеживание областей, отслеживание по активному контуру, отслеживание по характерным признакам, отслеживание по модели.
Содержание
Распознавание изображений
Для детектирования объекта на изображении применяются алгоритмы распознавания. Алгоритм распознавания изображений принимает картинку в качестве входных данных и выводит, что содержится на данном изображении.
Классификация изображений производится поэтапно. На первом шаге входное изображение зачастую предварительно обрабатывается для нормализации контраста и яркости, а также на этом шаге входное изображение обрезается и масштабируется до фиксированного размера.
На втором шаге необходимо упростить изображение путем извлечения важной информации, так как исходное изображение содержит слишком много дополнительной информации, которая не требуется для классификации. Этот шаг называется извлечением признаков. Существует достаточно большое количество признаков, используемых в компьютерном зрении, — это признаки Хаара, HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Feature) и другие.
На третьем шаге алгоритм классификации принимает вектор признаков в качестве входных данных и выводит к какому классу принадлежит изображение.
Метод Виолы-Джонса
Основной принцип алгоритмы Виолы-Джонса, основанный на признаках Хаара, заключается в сканировании изображения с помощью сканирующего окна, которое позволяет обнаружить заданный объект. Однако признаки, предложенные Виолой и Джонсом, содержат более одной прямоугольной области и несколько сложнее. На иллюстрации показано четыре различных типа признаков. Величина каждого признака вычисляется как сумма пикселей в белых прямоугольниках, из которой вычитается сумма пикселей в чёрных областях. Прямоугольные признаки более примитивны, чем steerable filter, и, несмотря на то, что они чувствительны к вертикальным и горизонтальным особенностям изображений, результат их поиска более груб. Однако, при хранении изображения в интегральном формате проверка прямоугольного признака на конкретной позиции проводится за константное время, что является их преимуществом по сравнению с более точными вариантами. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчёт признака с двумя прямоугольниками состоит из шести обращений в интегральный массив, для признака с тремя прямоугольниками - из восьми, и с четырьмя прямоугольниками - из девяти.
Отслеживание объекта
Отслеживанием называется поиск объекта в последовательных кадрах видео. Отслеживание объекта в некоторых случаях может выполняться при помощи алгоритмов детектирования. При детектировании основная идея заключается в том, чтобы сначала определить регионы интереса (ключевые точки), которые будут независимы к преобразованиям. Затем для каждого региона интереса строится его векторное представление — дескриптор. Далее на каждом кадре будет выполняться поиск объекта и выделение его местоположения прямоугольником.
При трекинге целью является нахождение объекта в текущем кадре, если он успешно отслеживался во всех предыдущих кадрах. Так как объект был отслежен до текущего кадра, известны параметры модели движения: скорость и направление движения объекта в предыдущих кадрах. Поэтому можно предсказать новое местоположение объекта, опираясь на его модель движения, и оно будет очень близко к реальному новому положению объекта.
Visual object tracking
VOT (Visual object tracking)
- Рассматривается отслеживание одного объекта
- Объект уже выделен на первом кадре
- "Model-free" — нет ничего, кроме одного изображения на первом кадре, т.е. не можем детектировать объект
- "Short-term" — отслеживаем на коротких промежутках времени, не применяем повторное обнаружение
- Не используются будущие кадры, только предыдущие
Пример алгоритма
- Инициализация
- Находим 100 контрольных точек с помощью метода поиска локальных особенностей (Harris corners) в рамке руки
- Вычисляем медиану
- Вычисляем цветовую статистику в окрестности центра
- Разметить в рамке руки все пиксели, похожие на кожу
- Слежение
- Отслеживаем контрольные точки
- Если точка нарушает условия стаи, то удаляем её
- Инициализация новых контрольных точек
- Ищем особенности (Harris corners)
- Если точка не на коже, то удаляем её
Input : Pretrained CNN filters {,..., } Initial target state Output: Estimated target states 1: Randomly initialize the last layer . 2: Train a bounding box regression model. 3: Draw positive samples and negative samples . 4: Update { } using and ; 5: {1} and {1}. 6: repeat 7: Draw target candidate samples ; 8: Find the optimal target state by Eq. (1). 9: if > 0.5 then 10: Draw training samples and . 11: { }, { }. 12: if | | > then \ { }. 13: if | | > then \ { }. 14: Adjust using bounding box regression. 15: if < 0.5 then 16: Update { } using mod 10 = 0 then 18: Update { } using кадров в секунду
- Изменение по времени
- Вид объекта меняется от кадра к кадру из-за ракурса, изменения освещения, внутренний изменений
- Взаимодействие объектов
- Перекрытие объектов
- Визуальное сходство объектов
- Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные
- Подготовить эталонные данные для видео существенно сложнее, чем для изображения
- Один эталонный пример для выделения объектов — одно изображение
- Один эталонный пример для отслеживания объектов — одно видео
- Сейчас есть хорошие конкурсы, но объём данных по прежнему ограничен, особенно для MOT
Список литературы
2. Лавелина Е.С., Закуанова М.Р., Масловская М.А. ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ В ВИДЕОПОТОКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 20.04.2020)