20120414 videorecognition konushin_lecture04

Сопровождение объектов и распознавание событий

13-15 апреля 2012 года

Антон КонушинComputer science club, Екатеринбург

Сопровождение объектов

• Допустим, объект уже выделен на первом кадре. • Вручную рамкой• Детектор объектов• Вычитание фона

• Нужно определить его положение на всех последующих кадрах

• Результат – след (track) или траектория движения• X(1), X(2), X(3),…,X(N)

• Object tracking• Сопровождение объектов• Отслеживание объектов• Слежение за объектами

Сложность задачи

• Изменение по времени• Вид объекта меняется от кадра к кадру из-за ракурса,

изменения освещения, внутренних изменений (идущий человек)

• Масштабируемость• Видео гораздо больше одного изображения, гораздо

выше вычислительная нагрузка

• Несколько объектов• В сцене могут быть несколько объектов, которые могут

быть похожи друг на друга, перекрывать друг друга и т.д.

Сложность оценки результата

• Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные

• Подготовить эталонные данные для видео существенно сложнее, чем для изображений• Один эталонный пример для выделения объектов – 1 изображение• Один эталонный пример для отслеживания объектов - 1 видео

• Допустим, есть эталонные данные, в которых отмечено положение объекта в каждом кадре (или в ключевых кадрах)

• Ошибка сопровождения – покадровое расстояние от измеренного до эталонного следа

• Ожидаемая ошибка на видеопоследовательности

• Точность (precision)

• Надежность (robustness)

Оценка качества по эталонным данным

Методы к рассмотрению

• Ассоциация обнаружений между кадрами• Сопоставление шаблонов

• Кросс-корелляция• На основе карт краёв

• «Стая точек»• Сдвиг среднего• Комбинация методов

Ассоциация выделенных объектов• Допустим, на I(t) и I(t+1) выделении

объекты с помощью вычитания фона• Какому объекту (следу) какой блоб

соответствует?• Фактически – задача сопоставления или

ассоциации данных (Data association)• «Tracking by detection»• Можем каждый объект описать набором

признаков• Цвет, текстура, и т.д.

Детерминированное слежение

Алгоритм установления соответствий между объектами, найденными на соседних кадрах с учетом ограничений

Варианты: Появление нового объекта в поле зрения Сопоставление сопровождаемому объекту Пропадание объекта из поле зрения

Простейшая стратегия

Простейшая стратегия в более сложных случаях не срабатывает, поэтому исследовались разные ограничения

Сопоставим ближайшее наблюдение следу

Примеры других ограничений

• (а) близость• (b) максимальная скорость• (c) малое изменение вектора скорости• (d) общее движение• (e) «жесткость»

Детерминированные алгоритмы

Двухкадровые Многокадровые

Подходы к установлению соответствий:• Перебор разных варианты• Энергетическая формулировка:

• Для каждого ограничения сформулируем «штраф»• Составим функцию «энергии» сопоставления• Будем оптимизировать энергию с помощью какого-нибудь

метода дискретной оптимизации

Пример работы

Отслеживание объектов

• Что делать, если фон не стационарный или и мы не можем на каждом кадре выделять объекты?• Выделять объекты (те же лица) на каждом кадре

вычислительно тяжело

• Придётся строить какую-то модель «вида» объекта, и искать на следующем кадре похожий объект

Текущий кадр

… …

Схема слежения

Выбор пространства

признаков

Представление модели в

выбранном пространстве

Инициализация модели

Поиск в окрестности в следующем

кадре

Старт с текущей позиции

Выбор положения,

максимизирующего сходство

Повторение процедуры

для следующего

кадра

Текущий кадр

… …

Модель Кандидат

Схема слежения

Представление объектов

• Как будем описывать объект (модель объекта) ?• Шаблон• Набор точек• Признаки объекта

Сопоставление шаблонов

• Фиксируем изображение объекта (шаблон – pattern)

• Будем искать положение шаблона в новом кадре • Например, в окрестности предыдущего

положения

• Попиксельно будем сравнивать шаблон и фрагмент нового кадра с помощью какой-нибудь метрики

Метрики

(SAD) Sum of absolute differences

(SSD) Sum of squared differences

(CC) Cross-correlation

• SAD, SSD – минимизируются (0 – точное совпадение)• CC, NCC – максимизируется (1 – точное совпадение)

(NCC) Normalized cross correlation

Пример: пульт ТВ

• Шаблон (слева), изображение (в центре), карта нормализованной корреляции (справа)• Пик яркости (максимум корреляции) соответствует положению руки (искомого шаблона)

Пример: пульт ТВ

Края для сопоставления шаблонов

• Мы знаем, что в края – очень информативный признак, и они устойчивы к измненеию освещения • Попробуем использовать только края для поиска / отслеживания объекта• Как эффективно сопоставлять карты краев?

• Попиксельно явно нельзя!

Метрики• Сhamfer Distance

• Для каждого пикселя a края шаблона A вычисляем расстояние до ближайшего пикселя b края изображения B

•Суммируем все найденные расстояния

• Hausdorff Distance• Почти то же самое, но берём не сумму, а максимальное расстояния

baBarBb

min),(

Aa BbbaBAChDist min),(

baBAHausDistBbAa

minmax),(

Какую метрику использовать заранее сказать нельзя, нужна экспериментальная проверка

Поиск ближайших пикселей края

Вопрос: как найти ближайший пиксель края на изображении?

Distance Transform

Для каждого пикселя вычисляется расстояние до ближайшего пикселя края• Многопроходный алгоритм (пометить соседей, потом их

соседей и т.д.)• Двухпроходный алгоритм

«Дистантное преобразование»

Применение DT

Совмещаем шаблон и карту DT Вычисляем ошибку, суммирую все значения в пикселях краев (для Chamfer distance)

Пример поиска с помощью DT

• HUTTENLOCHER, D., NOH, J., AND RUCKLIDGE, W.. Tracking nonrigid objects in complex scenes. ICCV 1993

Сопровождение с помощью карт краёв

• Карта краёв шаблона используется для дальнейшего сравнения• Вычисляется метрика Хаусдорфа на основании DT• Шаблон обновляется как набор краёв, ближайших к краям шаблона предыдущего кадра

Множество точек

• Мы умеем вычислять движение отдельных точек с помощью локального метода оценки оптического потока Lucas-Kanade

• Но каждая точка в отдельности может быстро сбиться из-за ошибок в вычислении оптического потока и его несоответствия движению точек сцены

• Решение – использование «стаи точек»(«flock of features»)

Пример: отслеживание руки

• Стая – множество контрольных точек, удовлетворяющих 2м условиям:• Никакие две контрольные точки не совпадают (порог на

близость)• Никакая контрольные точки не уходят далеко от

медианного центра (порог на удаление)


• Шаг 1: инициализация• Находим 100 контрольных точек с помощью метода поиска

локальных особенностей (Harris corners) в рамке руки• Вычисляем медиану• Вычисляем цветовую статистику в окрестности центра

– Одна гауссиана (или гистограмма)– Это модель кожи

• Разметить в рамке руки все пиксели, похожие на кожу


• Шаг 2: слежение• Отслеживаем контрольные точки• Если точка нарушает условия стаи, её удаляем

• Шаг 3: инициализация новых контрольных точек• Ищем особенности (Harris corners)• Если точка не на коже, то отбрасываем её

Инициализация объекта слежения

Квантованная цветовая модель

Выбор пространства

признаков

Модель = распределение

признаков в объекте

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

1 2 3 . . . m

color

Pro

babi

lity

Мean-Shift («Cдвиг среднего»)

• Вместо жесткого шаблона вычислим вектор-признак по области объекта• Например, гистограмму распределения цветов

,f y f q p y

Сходство:

Модель(центр в 0)

Кандидат(центр в y)

1..1

1m

u uu mu

q q q

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

1 2 3 . . . m

color

Pro

babi

lity

1..1

1m

u uu mu

p y p y p

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 . . . m

color

Pro

bab

ility

Слежение сдвигом среднего

•Будем сравнивать гистограммы опорной модели и положений-кандидатов на новом кадре

f y

Сходство: ,f y f p y q


• Методы сопоставления шаблонов страдают от проблемы негладкости целевой функции

• Небольшие смещения могут привести к резким скачкам ошибки сопоставления• Поэтому мы не можем использовать, например, метод градиентного спуска для поиска оптимального положения

• Для решения этой проблемы и был предложен метод Mean-Shift

Dorin Comaniciu, Visvanathan Ramesh, Peter Meer, Kernel-Based Object Tracking, PAMI 2003

f y

Сходство: ,f y f p y q


• Покроем цель изотропным ядром. Веса на границе цели близки к нулю• Теперь небольшие смещения приводят к небольшим изменениям ошибки сопоставления• Ошибка сопоставления становится гладкой (по сдвигу от оптимального положения • Теперь мы можем не перебирать все положения в окрестности, а воспользоваться методом градиентного спуска

Изотропное ядро:

1..i i nx

Пиксели цели

( )k x Изотропное, выпуклое, дифференцируемое, монотонно убывающее ядро(Пиксели по краям могут перекрываться, взаимодействовать с фоном и т.д.)

( )b x Индекс ячейки гистограммы (1..m) для пиксела x

2( )i

u ib x u

q C k x

Нормализация Вес пиксела

Вероятность признака u в модели

0

0.05

0. 1

0.15

0. 2

0.25

0. 3

1 2 3 . . . m

color

Pro

babi

lity

Вероятность признака u в кандидате

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 . . . m

co lor

Pro

babi

lity

2

( )i

iu h

b x u

y xp y C kh

Нормализация Вес пиксела

0

model

y

candidate


1 , , mp y p y p y

1, , mq q q

Модель цели:

Кандидат:

Подобие: , ?f y f p y q

1 , , mp y p y p y

1 , , mq q q

q

p yy

1

1

The Bhattacharyya Coefficient

1

cosT m

y u uu

p y qf y p y q

p y q

Функция сравнения

,f p y q

Начинаем с текущей позиции

q

Ищем в окрестности сл.

кадра

p y

Максимизируем сходство

Гладкая целевая функция

Иллюстрация сдвига среднего

11

1

n

i iin

ii

x wy

w

Для определенных ядер можно показать, что поиск градиентный спуск превращается в «сдвиг среднего», где:

Проблема :

Масштаб цели

меняется

Масштаб (h) ядра должен

меняться

Решение:

Прогоняем поиск 3 раза с

разными h

Выбираем h, на котором достигается максимум


COLLINS, R. AND LIU, Y.. On-line selection of discriminative tracking features. ICCV 2003

Выбор признаков

• В зависимости от разных факторов, объект может быть различим в разных каналах цветности

Виды каналов

• Построим 49 каналов, как линейные комбинации цветовых каналов:

Идея оценки каналов

• Мы оцениваем, насколько хорошо по каналу отличается объект и фон.• Отберём несколько наилучших каналов• На следующих кадрах мы можем изменить каналы!

Примеры оценки каналов

Сравнение методов

Один фиксированный канал (MeanShift)

Выбор каналов на лету

B. Stenger, T. Woodley, R. Cipolla Learning to Track With Multiple Observers, СVPR 2009

Композиция методов

• Идея:• Протестировать ряд базовых трекеров на наборе выборок, оценить качество и надежность• Найти зависимость качества трекера от уверенности (confidence value)• Найти хорошо дополняющие друг друга группы методов• При падении доверия к первому методу в группе мы переключаемся на второй метод

Тестовые данные

• Indoor и Outdoor данные• Во всех присутствует изменение позы, размера, размытие из движения (motion blur)

Обучение метрики доверия

• По тестовым данным обучаем p(e|c), где c – параметр доверия, специфичный для каждого метода

Каскадное объединение

• Если оценка качества по доверию для метода 1 падает ниже порога, переключаемся на метод 2• Когда все методы дают низкое качество, происходит переинициализация метода

NCC NCC NCC

CM CM CM

Примеры работы

• Работает NCC, при возникновении motion blur система переключается на CM (color + motion map)


NCC NCC NCC

FF FF MS• Работает NCC, потом переключение на FF (flock of features), потом на MS (mean shift)

Распознавание действий

Для чего может пригодится:• Автоматизация систем видеонаблюдения

• «Началась драка у пивного киоска»• Поиск видео в архивах

• Найти сцену «Обама пожимает руку Медведеву»• Навигация по контенту

•Перемотка до следующей важной сцены (пр. гола)

• Огромное количество видеоданных

• Действия (action) людей – главные события в кино, новостях, домашнем видео, видеонаблюдении 150,000 uploads every day

Действия (Actions)

• Физическое движение тела человека• Атомарное (жест) или

более сложное KTH action dataset

Определение 1:

Определение 2

• Одно и то же движение имеет разный смысл в зависимости от окружения

Взаимодействие человека с окружением с определенной целью

Действия (Actions)

• Взаимодействие нескольких человек с определенной цельюОпределение 3:

Драка

Кража

Тестовые базы

• Самые известные:

• KTH Actions

• UCF Sport Actions

• Hollywood2

KTH Actions

• 25 человек, 6 действий, 4 сценария (внутри, снаружи, снаружи др. масштаба, снаружи в др. одежде)

• Всего 2391 фрагмент

C. Schüldt, I. Laptev, and B. Caputo. Recognizing human actions: A local SVM approach. ICPR, 2004.

UCF Sport Actions

• 10 видов «спортивных» действий• 150 видеофрагментов• Можно увеличить с помощью

«шевеления»/зеркального отображения

M. Rodriguez, J. Ahmed, and M. Shah. Action mach: A spatio-temporal maximum average correlation height filter for action recognition. CVPR, 2008

Hollywood2

• 10 разных обыденных действий из 69 голливудских фильмов

• 1707 фрагментов

• Интересно, как можно автоматизировать подготовку таких эталонных данных?

•I. Laptev, M. Marszałek, C. Schmid and B. Rozenfeld; "Learning realistic human actions from movies“ CVPR 2008•M. Marszałek, I. Laptev, and C. Schmid. Actions in context. CVPR, 2009

…117201:20:17,240 --> 01:20:20,437

Why weren't you honest with me?Why'd you keep your marriage a secret?

117301:20:20,640 --> 01:20:23,598

lt wasn't my secret, Richard.Victor wanted it that way.

117401:20:23,800 --> 01:20:26,189

Not even our closest friendsknew about our marriage.…

…RICK

Why weren't you honest with me? Whydid you keep your marriage a secret?

Rick sits down with Ilsa.

ILSA

Oh, it wasn't my secret, Richard. Victor wanted it that way. Not even our closest friends knew about our marriage.

…

01:20:17

01:20:23

subtitles movie script

• Сценарии есть для более 500 фильмовwww.dailyscript.com, www.movie-page.com, www.weeklyscript.com …

• Субтитры (со временем) есть почти для всех фильмов• Можем сопоставить на основе этой информации

Аннотация по сценарию

Извлечение действий из сценария

“… Will gets out of the Chevrolet. …” “… Erin exits her new truck…”

• Высокая вариабельность описаний в тексте:

GetOutCar действий

Потенциальная ошибка: “…About to sit down, he freezes…”

• => Классификация текста с учителем

Неустранимые ошибки

Пример ошибки

A black car pulls up, two army officers get out.

Автоматическую разметку необходимо потом просматривать на наличие ошибок

Распознавание действий

“атомарные действия

car exit phoning smoking hand shaking drinking

“стабильные по виду” объекты

• Человек может некоторые действия распознать по статичному изображению

• Много сложностей:• Все обычные сложности при распознавании• Некоторые действия не возможно определить по одному кадру• Для описания действия нужно распознавать несколько

предметов и их взаимное отношение

Подходы к распознаванию

Распознавание событий – одна из самых сложных задач в компьютерном зрении, сейчас ей уделяется очень много внимания:

• Одноуровневые подходы• Анализ последовательностей событий (HMM)• Пространственно-временные признаки

• Иерархические подходы• Синтаксические/статистические методы• Методы на основе описаний (description-based)

Мы рассмотрим только один вариант – одноуровненый подход на основе пространственно-временных признаков

«Скользящее окно»

• Применим к видео схему «скользящее окно»• Выделим фрагмент - пространственно-временной

параллелепипед• Возникают задачи, аналогичные задачам

классификации изображений и поиска объектов, но для 3х мерного пространственно-временного объема

time time time time

Задачи распознавания в видео

• Задачи, аналогичные задачам классификации изображений и поиска объектов, но для 3х мерного пространственно-временного объема• Классификация видеофрагмента• Поиск действий в видео (3D bbox)

• Можем применить наработанную методологию• Вычисление признаков (но уже по объему)• Поиск особых точек• Построение словарей• Классификация (Nearest Neighbor, SVM, Boosting)• И т.д.

Распознавание событий

30и пиксельный человечек

Alexei A. Efros, Alexander C. Berg, Greg Mori and Jitendra Malik. Recognizing Action at a Distance. ICCV 2003

Идея

• Движение – информативный признак и позволяет распознать многие действия без распознавания объектов и их взаимодейстия

• Этот алгоритм – наглядный пример важности использования движения, даже в простой форме• Будем сравнивать тестовые объекты с примерами из базы

с помощью Nearest Neighbor

Задача и её свойства

• Распознавать события (действия человека) на расстоянии• Низкое разрешение, шумные данные• Движущаяся камера, перекрытия• Широкая гамма событий• Объект существенно перемещается между кадрами

Сбор данных

• Отслеживание• Инициализируется пользователем• Простой коррелятор

Представление

• Стабилизированный пространственно-временной объем• Нет информации о перемещении• Всё движение вызвано движением

конечностей человека

• Стабилизировать «окно» нам важно потому, что объект быстро меняет своё положение в кадре• Если это не так, то можной обойтись

без стабилизации

input sequence

Схема распознавания

• Будем аннотировать видеопоток сопоставляя его с ранее записанными видеофрагментами• Для каждого кадра, сопоставим фрагмент в некотором

временном интервале• Распознавание через сопоставление (Nearest Neighbor)

motion analysisrun

walk leftswing walk right

jog

database

Дескриптор движения

Изображение Оптический поток yxF ,

yx FF , yyxx FFFF ,,, сглаженные

yyxx FFFF ,,,

Дескриптор движения

t

…

…

…

…S

Фрагмент A

Фрагмент B

Временной интервал E

Матрица сходства движений

A

B

I -матрица

E

E

сглаженная I

E

EBПокадровая

Матрица сходства

A

Действия: сопоставление

Исходноевидео

Сопоставленные кадры

вход сопоставление

Классификация действий: футбол

10 действий; 4500 кадров всего; 13 кадров в дескрипторе

Распознавание: теннис

Аннотированная база событий

input sequence

database

run

walk leftswing

walk right

jog

run walk left swing walk right jogРаспознавание действий:

Положения суставов:

Перенос 2D скелета• База размечена 2D точками в местах сочленений

конечностей (суставах)• После сопоставления перенос скелета на новую

последовательность• Уточнение (Поиск наилучшего сдвига/масштаба для

совмещения карты движения)

Исходная последовательность:

Перенос скелета:

“Do as I Do” синтез движения

• Параметры качества синтеза:• Сходство движений между видео• Сходство внешности между видео

• Энергетическая формулировка, динамическое программирование

input sequence

synthetic sequence

“Do as I Do”

Исходное движение Исходный вид

3400 кадров

Результат

Замена персонажа

Наработки в распознавании изображений

• Особые точки или плотный выбор фрагментов• Разные дескрипторы для описания фрагментов• Квантование (словари, «мешок слов» и т.д.)• Классификация с помощью SVM, Boosting и т.д.

Все это адаптировали для классификации событий

Вычислим признаки по

области

Посчитаем статистики по блокам

Квантуем признаки

Разбиваем область на

блоки

Область анализа Классифицируем

Локальныей особенности

• Известные декторы локальных особенностей:

• Harris3D (2003)

• Сuboid (2005)

• Hessian (2008)

H. Wang, M. M. Ullah, A. Kläser, I. Laptev and C. Schmid; "Evaluation of local spatio-temporal features for action recognition" in Proc. BMVC‘2009,

Harris3D

I. Laptev and T. Lindeberg; "Space-Time Interest Points”, ICCV’2003

Ivan Laptev, INRIA

Harris3D

• Вычислим матрицу вторых моментов, аналогично детектору Harris:

Где g – ядро гаусса (сглаживание)σ, τ - параметры масштаба

• Функция отклика угла:

Синтетические примеры

Примеры на видео

Код

• Ivan Laptev’s code• http://www.irisa.fr/vista/Equipe/People/Laptev/download.html#s

tip

• Piotr's Image & Video Toolbox for Matlab• http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html• Много полезных функций (k-means, meanshift, PCA, ferns,

RBF, DOG-фильтры и т.д.)

• Hessian executables:• http://homes.esat.kuleuven.be/~gwillems/research/Hes-STIP/

Плотный выбор точек

• По аналогии с обычными изображениями, можно точки выбирать плотно на изображении, а не искать специальным детектором

• Обычно выбирают с 50% перекрытием

Дескрипторы

• Jet (2003)• Вектор градиентов:

• Расстояние Махаланобиса

• Cuboid (2005)• HOG/HOF (2007)• HOG3D (2008)• Extended SURF (2008)

HOG/HOF

Гистограмма ориентаций градиентов (HOG)

3x3x2x4bins HOGдескриптор

Гистограмма оптического потока(HOF)

3x3x2x5bins HOF дескриптор

Public code available at www.irisa.fr/vista/actions

Гистограммы по 3D окрестностям точек

Построение словаря

• Кластеризуем К- средними• Квантуем особенности

Примеры

• Примеры 4х самых часто встречающихся пространственно-временных особенностей

Классификация по мешку слов

• Сравним разные детекторы / дескрипторы с помощью простого алгоритма:• Построим словарь• Построим мешок слов для всего видео• Классификация через SVM с ядром Хи-Квадрат

Результаты сравнения

База KTH Actions

База UCF Sports Actions


База Hollywood2

База Hollywood2 – разное разрешение


Размеры окрестностей

Оценка скорости

Для повышения качества распознавания на сложных данных, как и в изображениях, можем разбивать окрестности на блоки и считать признаки для каждого блока, а затем конкатенировать в один дескриптор

По пространству1x1 (стандартный мешок)2x2, o2x2 (50% перекрытие)h3x1 (горизонтальный), v1x3 (вертикальный)3x3

По времени:t1 (стандартный мешок), t2, t3

Пространственное разбиение

Можем подобрать «оптимальную» комбинацию типов признаков и разбиений с помощью SVM с многокальным хи-квадрат ядром для классификации:

Канал c – это комбинация детектора, дескриптора и вида сетки Dc(Hi, Hj) – расстояние хи-квадрат между гистограммамиAc среднее расстояние между всеми обучающими примерами Выбор наилучшей комбинации каналов осуществляется жадным методом

Многоканальное ядро для SVM

Сравнение разных комбинаций

Разные сетки и комбинации каналов обеспечивают прирост качества

Многокальный SVM

Примеры работы на данных из кинофильмов

Распознавание в кино

Устойчивость к шуму

Деградация качества в присутствии неправильных меток

До 20% неправильных – незначительное снижение качества При 40% - снижение качества на 10%

Сравнение по средней точности для каждого класса при автоматической и чистой (ручной) разметке данных

Распознавание в кино

Пример

Выделение событий в видео

I. Laptev and P. Pérez. "Retrieving actions in movies“ ICCV 2007

• Попробуем не просто распознавать присутствие события в видео, но и локализовывать его в кадре

• Идея «нацеливания алгоритма» на нужных кадрах

Выбранные действия

Разница в форме

Разница в движении

Оба действия похожи по форме (поза человека) и по движению (движение руки)

Вариабельность больше, чем для изображений

Пить

Курить

Но движение дает дополнительную информацию

Выберем пару сложных и похожих действий

Тестовая база

• Ролики собраны из фильмов “Coffee and Cigarettes”; “Sea of Love”

KeyframeFirst frame Last framehead rectangle

torso rectangle

Временная разметкаПространственная разметка

“Пить”: 159 размеченных примеров

“Курить”: 149 размеченных примеров

Примеры действия «пить»

Классификация по форме и движению

• Обучим детекторы – 1) по объёму и движению 2) по одному кадру и гистограммам градиентов• Детектор по одному кадру может выделить фрагмент и быстро, но не может отделить «пить» от «курить»

Random motion patterns

Нацеливание алгоритма

Обучение

Positive training sample

Negative training samples

Тестирование

Идея: обучим классификатор по объёму и движению только на тех фрагментах, которые нашел детектор по одному кадру

Важность «нацеливания»

Нацеливание позволяет классификатору действий настроится только на важные признаки для различения действий, и получается лучше, чем пытаться сразу выделить «объём» действия

С нацеливанием

Без нацеливания

Резюме• Базовые методы – шаблоны, стая точек, сдвиг

среднего.• Комбинация методов, выбор каналов позволяют

повысить качество слежения• Слежение всегда ошибётся, нужно быть готовым к

восстановлению после ошибок• Для распознавания видео мы можем использовать

те же подходы, что и к изображению, но переведя их в трёхмерные пространственно-временной объём• Скользящее окно• Особенности, детекторы и дескрипторы• Мешок слов и методы классификации

• Данные и их объём является общей проблемой. Нужно использовать «слабую» разметку.

20120414 videorecognition konushin_lecture04

Education