20120414 videorecognition konushin_lecture04

120
Сопровождение объектов и распознавание событий 13-15 апреля 2012 года Антон Конушин Computer science club, Екатеринбург

Upload: computer-science-club

Post on 12-Jun-2015

654 views

Category:

Education


1 download

TRANSCRIPT

Page 1: 20120414 videorecognition konushin_lecture04

Сопровождение объектов и распознавание событий

13-15 апреля 2012 года

Антон КонушинComputer science club, Екатеринбург

Page 2: 20120414 videorecognition konushin_lecture04

Сопровождение объектов

• Допустим, объект уже выделен на первом кадре. • Вручную рамкой• Детектор объектов• Вычитание фона

• Нужно определить его положение на всех последующих кадрах

• Результат – след (track) или траектория движения• X(1), X(2), X(3),…,X(N)

• Object tracking• Сопровождение объектов• Отслеживание объектов• Слежение за объектами

Page 3: 20120414 videorecognition konushin_lecture04

Сложность задачи

• Изменение по времени• Вид объекта меняется от кадра к кадру из-за ракурса,

изменения освещения, внутренних изменений (идущий человек)

• Масштабируемость• Видео гораздо больше одного изображения, гораздо

выше вычислительная нагрузка

• Несколько объектов• В сцене могут быть несколько объектов, которые могут

быть похожи друг на друга, перекрывать друг друга и т.д.

Page 4: 20120414 videorecognition konushin_lecture04

Сложность оценки результата

• Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные

• Подготовить эталонные данные для видео существенно сложнее, чем для изображений• Один эталонный пример для выделения объектов – 1 изображение• Один эталонный пример для отслеживания объектов - 1 видео

Page 5: 20120414 videorecognition konushin_lecture04

• Допустим, есть эталонные данные, в которых отмечено положение объекта в каждом кадре (или в ключевых кадрах)

• Ошибка сопровождения – покадровое расстояние от измеренного до эталонного следа

• Ожидаемая ошибка на видеопоследовательности

• Точность (precision)

• Надежность (robustness)

Оценка качества по эталонным данным

Page 6: 20120414 videorecognition konushin_lecture04

Методы к рассмотрению

• Ассоциация обнаружений между кадрами• Сопоставление шаблонов

• Кросс-корелляция• На основе карт краёв

• «Стая точек»• Сдвиг среднего• Комбинация методов

Page 7: 20120414 videorecognition konushin_lecture04

Ассоциация выделенных объектов• Допустим, на I(t) и I(t+1) выделении

объекты с помощью вычитания фона• Какому объекту (следу) какой блоб

соответствует?• Фактически – задача сопоставления или

ассоциации данных (Data association)• «Tracking by detection»• Можем каждый объект описать набором

признаков• Цвет, текстура, и т.д.

Page 8: 20120414 videorecognition konushin_lecture04

Детерминированное слежение

Алгоритм установления соответствий между объектами, найденными на соседних кадрах с учетом ограничений

Варианты: Появление нового объекта в поле зрения Сопоставление сопровождаемому объекту Пропадание объекта из поле зрения

Page 9: 20120414 videorecognition konushin_lecture04

Простейшая стратегия

Простейшая стратегия в более сложных случаях не срабатывает, поэтому исследовались разные ограничения

Сопоставим ближайшее наблюдение следу

Page 10: 20120414 videorecognition konushin_lecture04

Примеры других ограничений

• (а) близость• (b) максимальная скорость• (c) малое изменение вектора скорости• (d) общее движение• (e) «жесткость»

Page 11: 20120414 videorecognition konushin_lecture04

Детерминированные алгоритмы

Двухкадровые Многокадровые

Подходы к установлению соответствий:• Перебор разных варианты• Энергетическая формулировка:

• Для каждого ограничения сформулируем «штраф»• Составим функцию «энергии» сопоставления• Будем оптимизировать энергию с помощью какого-нибудь

метода дискретной оптимизации

Page 12: 20120414 videorecognition konushin_lecture04

Пример работы

Page 13: 20120414 videorecognition konushin_lecture04

Отслеживание объектов

• Что делать, если фон не стационарный или и мы не можем на каждом кадре выделять объекты?• Выделять объекты (те же лица) на каждом кадре

вычислительно тяжело

• Придётся строить какую-то модель «вида» объекта, и искать на следующем кадре похожий объект

Page 14: 20120414 videorecognition konushin_lecture04

Текущий кадр

… …

Схема слежения

Выбор пространства

признаков

Представление модели в

выбранном пространстве

Инициализация модели

Page 15: 20120414 videorecognition konushin_lecture04

Поиск в окрестности в следующем

кадре

Старт с текущей позиции

Выбор положения,

максимизирующего сходство

Повторение процедуры

для следующего

кадра

Текущий кадр

… …

Модель Кандидат

Схема слежения

Page 16: 20120414 videorecognition konushin_lecture04

Представление объектов

• Как будем описывать объект (модель объекта) ?• Шаблон• Набор точек• Признаки объекта

Page 17: 20120414 videorecognition konushin_lecture04

Сопоставление шаблонов

• Фиксируем изображение объекта (шаблон – pattern)

• Будем искать положение шаблона в новом кадре • Например, в окрестности предыдущего

положения

• Попиксельно будем сравнивать шаблон и фрагмент нового кадра с помощью какой-нибудь метрики

Page 18: 20120414 videorecognition konushin_lecture04

Метрики

(SAD) Sum of absolute differences

(SSD) Sum of squared differences

(CC) Cross-correlation

• SAD, SSD – минимизируются (0 – точное совпадение)• CC, NCC – максимизируется (1 – точное совпадение)

(NCC) Normalized cross correlation

Page 19: 20120414 videorecognition konushin_lecture04

Пример: пульт ТВ

• Шаблон (слева), изображение (в центре), карта нормализованной корреляции (справа)• Пик яркости (максимум корреляции) соответствует положению руки (искомого шаблона)

Page 20: 20120414 videorecognition konushin_lecture04

Пример: пульт ТВ

Page 21: 20120414 videorecognition konushin_lecture04

Пример: пульт ТВ

Page 22: 20120414 videorecognition konushin_lecture04

Пример: пульт ТВ

Page 23: 20120414 videorecognition konushin_lecture04

Пример: пульт ТВ

Page 24: 20120414 videorecognition konushin_lecture04

Края для сопоставления шаблонов

• Мы знаем, что в края – очень информативный признак, и они устойчивы к измненеию освещения • Попробуем использовать только края для поиска / отслеживания объекта• Как эффективно сопоставлять карты краев?

• Попиксельно явно нельзя!

Page 25: 20120414 videorecognition konushin_lecture04

Метрики• Сhamfer Distance

• Для каждого пикселя a края шаблона A вычисляем расстояние до ближайшего пикселя b края изображения B

•Суммируем все найденные расстояния

• Hausdorff Distance• Почти то же самое, но берём не сумму, а максимальное расстояния

baBarBb

min),(

Aa BbbaBAChDist min),(

baBAHausDistBbAa

minmax),(

Какую метрику использовать заранее сказать нельзя, нужна экспериментальная проверка

Page 26: 20120414 videorecognition konushin_lecture04

Поиск ближайших пикселей края

Вопрос: как найти ближайший пиксель края на изображении?

Page 27: 20120414 videorecognition konushin_lecture04

Distance Transform

Для каждого пикселя вычисляется расстояние до ближайшего пикселя края• Многопроходный алгоритм (пометить соседей, потом их

соседей и т.д.)• Двухпроходный алгоритм

«Дистантное преобразование»

Page 28: 20120414 videorecognition konushin_lecture04

Применение DT

Совмещаем шаблон и карту DT Вычисляем ошибку, суммирую все значения в пикселях краев (для Chamfer distance)

Page 29: 20120414 videorecognition konushin_lecture04

Пример поиска с помощью DT

Page 30: 20120414 videorecognition konushin_lecture04

• HUTTENLOCHER, D., NOH, J., AND RUCKLIDGE, W.. Tracking nonrigid objects in complex scenes. ICCV 1993

Сопровождение с помощью карт краёв

• Карта краёв шаблона используется для дальнейшего сравнения• Вычисляется метрика Хаусдорфа на основании DT• Шаблон обновляется как набор краёв, ближайших к краям шаблона предыдущего кадра

Page 31: 20120414 videorecognition konushin_lecture04

Пример работы

Page 32: 20120414 videorecognition konushin_lecture04

Множество точек

• Мы умеем вычислять движение отдельных точек с помощью локального метода оценки оптического потока Lucas-Kanade

• Но каждая точка в отдельности может быстро сбиться из-за ошибок в вычислении оптического потока и его несоответствия движению точек сцены

• Решение – использование «стаи точек»(«flock of features»)

Page 33: 20120414 videorecognition konushin_lecture04

Пример: отслеживание руки

• Стая – множество контрольных точек, удовлетворяющих 2м условиям:• Никакие две контрольные точки не совпадают (порог на

близость)• Никакая контрольные точки не уходят далеко от

медианного центра (порог на удаление)

Page 34: 20120414 videorecognition konushin_lecture04

Пример: отслеживание руки

• Шаг 1: инициализация• Находим 100 контрольных точек с помощью метода поиска

локальных особенностей (Harris corners) в рамке руки• Вычисляем медиану• Вычисляем цветовую статистику в окрестности центра

– Одна гауссиана (или гистограмма)– Это модель кожи

• Разметить в рамке руки все пиксели, похожие на кожу

Page 35: 20120414 videorecognition konushin_lecture04

Пример: отслеживание руки

• Шаг 2: слежение• Отслеживаем контрольные точки• Если точка нарушает условия стаи, её удаляем

• Шаг 3: инициализация новых контрольных точек• Ищем особенности (Harris corners)• Если точка не на коже, то отбрасываем её

Page 36: 20120414 videorecognition konushin_lecture04

Пример работы

Page 37: 20120414 videorecognition konushin_lecture04

Инициализация объекта слежения

Квантованная цветовая модель

Выбор пространства

признаков

Модель = распределение

признаков в объекте

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

1 2 3 . . . m

color

Pro

babi

lity

Мean-Shift («Cдвиг среднего»)

• Вместо жесткого шаблона вычислим вектор-признак по области объекта• Например, гистограмму распределения цветов

Page 38: 20120414 videorecognition konushin_lecture04

,f y f q p y

Сходство:

Модель(центр в 0)

Кандидат(центр в y)

1..1

1m

u uu mu

q q q

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

1 2 3 . . . m

color

Pro

babi

lity

1..1

1m

u uu mu

p y p y p

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 . . . m

color

Pro

bab

ility

Слежение сдвигом среднего

•Будем сравнивать гистограммы опорной модели и положений-кандидатов на новом кадре

Page 39: 20120414 videorecognition konushin_lecture04

f y

Сходство: ,f y f p y q

Слежение сдвигом среднего

• Методы сопоставления шаблонов страдают от проблемы негладкости целевой функции

• Небольшие смещения могут привести к резким скачкам ошибки сопоставления• Поэтому мы не можем использовать, например, метод градиентного спуска для поиска оптимального положения

• Для решения этой проблемы и был предложен метод Mean-Shift

Dorin Comaniciu, Visvanathan Ramesh, Peter Meer, Kernel-Based Object Tracking, PAMI 2003

Page 40: 20120414 videorecognition konushin_lecture04

f y

Сходство: ,f y f p y q

Слежение сдвигом среднего

• Покроем цель изотропным ядром. Веса на границе цели близки к нулю• Теперь небольшие смещения приводят к небольшим изменениям ошибки сопоставления• Ошибка сопоставления становится гладкой (по сдвигу от оптимального положения • Теперь мы можем не перебирать все положения в окрестности, а воспользоваться методом градиентного спуска

Изотропное ядро:

Page 41: 20120414 videorecognition konushin_lecture04

1..i i nx

Пиксели цели

( )k x Изотропное, выпуклое, дифференцируемое, монотонно убывающее ядро(Пиксели по краям могут перекрываться, взаимодействовать с фоном и т.д.)

( )b x Индекс ячейки гистограммы (1..m) для пиксела x

2( )i

u ib x u

q C k x

Нормализация Вес пиксела

Вероятность признака u в модели

0

0.05

0. 1

0.15

0. 2

0.25

0. 3

1 2 3 . . . m

color

Pro

babi

lity

Вероятность признака u в кандидате

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 . . . m

co lor

Pro

babi

lity

2

( )i

iu h

b x u

y xp y C kh

Нормализация Вес пиксела

0

model

y

candidate

Слежение сдвигом среднего

Page 42: 20120414 videorecognition konushin_lecture04

1 , , mp y p y p y

1, , mq q q

Модель цели:

Кандидат:

Подобие: , ?f y f p y q

1 , , mp y p y p y

1 , , mq q q

q

p yy

1

1

The Bhattacharyya Coefficient

1

cosT m

y u uu

p y qf y p y q

p y q

Функция сравнения

Page 43: 20120414 videorecognition konushin_lecture04

,f p y q

Начинаем с текущей позиции

q

Ищем в окрестности сл.

кадра

p y

Максимизируем сходство

Гладкая целевая функция

Page 44: 20120414 videorecognition konushin_lecture04

Иллюстрация сдвига среднего

11

1

n

i iin

ii

x wy

w

Для определенных ядер можно показать, что поиск градиентный спуск превращается в «сдвиг среднего», где:

Page 45: 20120414 videorecognition konushin_lecture04

Проблема :

Масштаб цели

меняется

Масштаб (h) ядра должен

меняться

Решение:

Прогоняем поиск 3 раза с

разными h

Выбираем h, на котором достигается максимум

Слежение сдвигом среднего

Page 46: 20120414 videorecognition konushin_lecture04

Пример работы

Page 47: 20120414 videorecognition konushin_lecture04

COLLINS, R. AND LIU, Y.. On-line selection of discriminative tracking features. ICCV 2003

Выбор признаков

• В зависимости от разных факторов, объект может быть различим в разных каналах цветности

Page 48: 20120414 videorecognition konushin_lecture04

Виды каналов

• Построим 49 каналов, как линейные комбинации цветовых каналов:

Page 49: 20120414 videorecognition konushin_lecture04

Идея оценки каналов

• Мы оцениваем, насколько хорошо по каналу отличается объект и фон.• Отберём несколько наилучших каналов• На следующих кадрах мы можем изменить каналы!

Page 50: 20120414 videorecognition konushin_lecture04

Примеры оценки каналов

Page 51: 20120414 videorecognition konushin_lecture04

Сравнение методов

Один фиксированный канал (MeanShift)

Выбор каналов на лету

Page 52: 20120414 videorecognition konushin_lecture04

B. Stenger, T. Woodley, R. Cipolla Learning to Track With Multiple Observers, СVPR 2009

Композиция методов

• Идея:• Протестировать ряд базовых трекеров на наборе выборок, оценить качество и надежность• Найти зависимость качества трекера от уверенности (confidence value)• Найти хорошо дополняющие друг друга группы методов• При падении доверия к первому методу в группе мы переключаемся на второй метод

Page 53: 20120414 videorecognition konushin_lecture04

Тестовые данные

• Indoor и Outdoor данные• Во всех присутствует изменение позы, размера, размытие из движения (motion blur)

Page 54: 20120414 videorecognition konushin_lecture04

Обучение метрики доверия

• По тестовым данным обучаем p(e|c), где c – параметр доверия, специфичный для каждого метода

Page 55: 20120414 videorecognition konushin_lecture04

Каскадное объединение

• Если оценка качества по доверию для метода 1 падает ниже порога, переключаемся на метод 2• Когда все методы дают низкое качество, происходит переинициализация метода

Page 56: 20120414 videorecognition konushin_lecture04

NCC NCC NCC

CM CM CM

Примеры работы

• Работает NCC, при возникновении motion blur система переключается на CM (color + motion map)

Page 57: 20120414 videorecognition konushin_lecture04

Примеры работы

NCC NCC NCC

FF FF MS• Работает NCC, потом переключение на FF (flock of features), потом на MS (mean shift)

Page 58: 20120414 videorecognition konushin_lecture04

Примеры работы

Page 59: 20120414 videorecognition konushin_lecture04

Распознавание действий

Для чего может пригодится:• Автоматизация систем видеонаблюдения

• «Началась драка у пивного киоска»• Поиск видео в архивах

• Найти сцену «Обама пожимает руку Медведеву»• Навигация по контенту

•Перемотка до следующей важной сцены (пр. гола)

• Огромное количество видеоданных

• Действия (action) людей – главные события в кино, новостях, домашнем видео, видеонаблюдении 150,000 uploads every day

Page 60: 20120414 videorecognition konushin_lecture04

Действия (Actions)

• Физическое движение тела человека• Атомарное (жест) или

более сложное KTH action dataset

Определение 1:

Определение 2

• Одно и то же движение имеет разный смысл в зависимости от окружения

Взаимодействие человека с окружением с определенной целью

Page 61: 20120414 videorecognition konushin_lecture04

Действия (Actions)

• Взаимодействие нескольких человек с определенной цельюОпределение 3:

Драка

Кража

Page 62: 20120414 videorecognition konushin_lecture04

Тестовые базы

• Самые известные:

• KTH Actions

• UCF Sport Actions

• Hollywood2

Page 63: 20120414 videorecognition konushin_lecture04

KTH Actions

• 25 человек, 6 действий, 4 сценария (внутри, снаружи, снаружи др. масштаба, снаружи в др. одежде)

• Всего 2391 фрагмент

C. Schüldt, I. Laptev, and B. Caputo. Recognizing human actions: A local SVM approach. ICPR, 2004.

Page 64: 20120414 videorecognition konushin_lecture04

UCF Sport Actions

• 10 видов «спортивных» действий• 150 видеофрагментов• Можно увеличить с помощью

«шевеления»/зеркального отображения

M. Rodriguez, J. Ahmed, and M. Shah. Action mach: A spatio-temporal maximum average correlation height filter for action recognition. CVPR, 2008

Page 65: 20120414 videorecognition konushin_lecture04

Hollywood2

• 10 разных обыденных действий из 69 голливудских фильмов

• 1707 фрагментов

• Интересно, как можно автоматизировать подготовку таких эталонных данных?

•I. Laptev, M. Marszałek, C. Schmid and B. Rozenfeld; "Learning realistic human actions from movies“ CVPR 2008•M. Marszałek, I. Laptev, and C. Schmid. Actions in context. CVPR, 2009

Page 66: 20120414 videorecognition konushin_lecture04

…117201:20:17,240 --> 01:20:20,437

Why weren't you honest with me?Why'd you keep your marriage a secret?

117301:20:20,640 --> 01:20:23,598

lt wasn't my secret, Richard.Victor wanted it that way.

117401:20:23,800 --> 01:20:26,189

Not even our closest friendsknew about our marriage.…

…RICK

Why weren't you honest with me? Whydid you keep your marriage a secret?

Rick sits down with Ilsa.

ILSA

Oh, it wasn't my secret, Richard. Victor wanted it that way. Not even our closest friends knew about our marriage.

01:20:17

01:20:23

subtitles movie script

• Сценарии есть для более 500 фильмовwww.dailyscript.com, www.movie-page.com, www.weeklyscript.com …

• Субтитры (со временем) есть почти для всех фильмов• Можем сопоставить на основе этой информации

Аннотация по сценарию

Page 67: 20120414 videorecognition konushin_lecture04

Извлечение действий из сценария

“… Will gets out of the Chevrolet. …” “… Erin exits her new truck…”

• Высокая вариабельность описаний в тексте:

GetOutCar действий

Потенциальная ошибка: “…About to sit down, he freezes…”

• => Классификация текста с учителем

Page 68: 20120414 videorecognition konushin_lecture04

Неустранимые ошибки

Пример ошибки

A black car pulls up, two army officers get out.

Автоматическую разметку необходимо потом просматривать на наличие ошибок

Page 69: 20120414 videorecognition konushin_lecture04

Распознавание действий

“атомарные действия

car exit phoning smoking hand shaking drinking

“стабильные по виду” объекты

• Человек может некоторые действия распознать по статичному изображению

• Много сложностей:• Все обычные сложности при распознавании• Некоторые действия не возможно определить по одному кадру• Для описания действия нужно распознавать несколько

предметов и их взаимное отношение

Page 70: 20120414 videorecognition konushin_lecture04

Подходы к распознаванию

Распознавание событий – одна из самых сложных задач в компьютерном зрении, сейчас ей уделяется очень много внимания:

• Одноуровневые подходы• Анализ последовательностей событий (HMM)• Пространственно-временные признаки

• Иерархические подходы• Синтаксические/статистические методы• Методы на основе описаний (description-based)

Мы рассмотрим только один вариант – одноуровненый подход на основе пространственно-временных признаков

Page 71: 20120414 videorecognition konushin_lecture04

«Скользящее окно»

• Применим к видео схему «скользящее окно»• Выделим фрагмент - пространственно-временной

параллелепипед• Возникают задачи, аналогичные задачам

классификации изображений и поиска объектов, но для 3х мерного пространственно-временного объема

time time time time

Page 72: 20120414 videorecognition konushin_lecture04

Задачи распознавания в видео

• Задачи, аналогичные задачам классификации изображений и поиска объектов, но для 3х мерного пространственно-временного объема• Классификация видеофрагмента• Поиск действий в видео (3D bbox)

• Можем применить наработанную методологию• Вычисление признаков (но уже по объему)• Поиск особых точек• Построение словарей• Классификация (Nearest Neighbor, SVM, Boosting)• И т.д.

Page 73: 20120414 videorecognition konushin_lecture04

Распознавание событий

30и пиксельный человечек

Alexei A. Efros, Alexander C. Berg, Greg Mori and Jitendra Malik. Recognizing Action at a Distance. ICCV 2003

Page 74: 20120414 videorecognition konushin_lecture04

Идея

• Движение – информативный признак и позволяет распознать многие действия без распознавания объектов и их взаимодейстия

• Этот алгоритм – наглядный пример важности использования движения, даже в простой форме• Будем сравнивать тестовые объекты с примерами из базы

с помощью Nearest Neighbor

Page 75: 20120414 videorecognition konushin_lecture04

Задача и её свойства

• Распознавать события (действия человека) на расстоянии• Низкое разрешение, шумные данные• Движущаяся камера, перекрытия• Широкая гамма событий• Объект существенно перемещается между кадрами

Page 76: 20120414 videorecognition konushin_lecture04

Сбор данных

• Отслеживание• Инициализируется пользователем• Простой коррелятор

Page 77: 20120414 videorecognition konushin_lecture04

Представление

• Стабилизированный пространственно-временной объем• Нет информации о перемещении• Всё движение вызвано движением

конечностей человека

• Стабилизировать «окно» нам важно потому, что объект быстро меняет своё положение в кадре• Если это не так, то можной обойтись

без стабилизации

Page 78: 20120414 videorecognition konushin_lecture04

input sequence

Схема распознавания

• Будем аннотировать видеопоток сопоставляя его с ранее записанными видеофрагментами• Для каждого кадра, сопоставим фрагмент в некотором

временном интервале• Распознавание через сопоставление (Nearest Neighbor)

motion analysisrun

walk leftswing walk right

jog

database

Page 79: 20120414 videorecognition konushin_lecture04

Дескриптор движения

Изображение Оптический поток yxF ,

yx FF , yyxx FFFF ,,, сглаженные

yyxx FFFF ,,,

Page 80: 20120414 videorecognition konushin_lecture04

Дескриптор движения

t

…S

Фрагмент A

Фрагмент B

Временной интервал E

Матрица сходства движений

A

B

I -матрица

E

E

сглаженная I

E

EBПокадровая

Матрица сходства

A

Page 81: 20120414 videorecognition konushin_lecture04

Действия: сопоставление

Исходноевидео

Сопоставленные кадры

вход сопоставление

Page 82: 20120414 videorecognition konushin_lecture04

Классификация действий: футбол

10 действий; 4500 кадров всего; 13 кадров в дескрипторе

Page 83: 20120414 videorecognition konushin_lecture04

Распознавание: теннис

Page 84: 20120414 videorecognition konushin_lecture04

Аннотированная база событий

input sequence

database

run

walk leftswing

walk right

jog

run walk left swing walk right jogРаспознавание действий:

Положения суставов:

Page 85: 20120414 videorecognition konushin_lecture04

Перенос 2D скелета• База размечена 2D точками в местах сочленений

конечностей (суставах)• После сопоставления перенос скелета на новую

последовательность• Уточнение (Поиск наилучшего сдвига/масштаба для

совмещения карты движения)

Исходная последовательность:

Перенос скелета:

Page 86: 20120414 videorecognition konushin_lecture04

“Do as I Do” синтез движения

• Параметры качества синтеза:• Сходство движений между видео• Сходство внешности между видео

• Энергетическая формулировка, динамическое программирование

input sequence

synthetic sequence

Page 87: 20120414 videorecognition konushin_lecture04

“Do as I Do”

Исходное движение Исходный вид

3400 кадров

Результат

Page 88: 20120414 videorecognition konushin_lecture04

Замена персонажа

Page 89: 20120414 videorecognition konushin_lecture04

Наработки в распознавании изображений

• Особые точки или плотный выбор фрагментов• Разные дескрипторы для описания фрагментов• Квантование (словари, «мешок слов» и т.д.)• Классификация с помощью SVM, Boosting и т.д.

Все это адаптировали для классификации событий

Вычислим признаки по

области

Посчитаем статистики по блокам

Квантуем признаки

Разбиваем область на

блоки

Область анализа Классифицируем

Page 90: 20120414 videorecognition konushin_lecture04

Локальныей особенности

• Известные декторы локальных особенностей:

• Harris3D (2003)

• Сuboid (2005)

• Hessian (2008)

H. Wang, M. M. Ullah, A. Kläser, I. Laptev and C. Schmid; "Evaluation of local spatio-temporal features for action recognition" in Proc. BMVC‘2009,

Page 91: 20120414 videorecognition konushin_lecture04

Harris3D

I. Laptev and T. Lindeberg; "Space-Time Interest Points”, ICCV’2003

Ivan Laptev, INRIA

Page 92: 20120414 videorecognition konushin_lecture04

Harris3D

• Вычислим матрицу вторых моментов, аналогично детектору Harris:

Где g – ядро гаусса (сглаживание)σ, τ - параметры масштаба

• Функция отклика угла:

Page 93: 20120414 videorecognition konushin_lecture04

Синтетические примеры

Page 94: 20120414 videorecognition konushin_lecture04

Примеры на видео

Page 95: 20120414 videorecognition konushin_lecture04

Код

• Ivan Laptev’s code• http://www.irisa.fr/vista/Equipe/People/Laptev/download.html#s

tip

• Piotr's Image & Video Toolbox for Matlab• http://vision.ucsd.edu/~pdollar/toolbox/doc/index.html• Много полезных функций (k-means, meanshift, PCA, ferns,

RBF, DOG-фильтры и т.д.)

• Hessian executables:• http://homes.esat.kuleuven.be/~gwillems/research/Hes-STIP/

Page 96: 20120414 videorecognition konushin_lecture04

Плотный выбор точек

• По аналогии с обычными изображениями, можно точки выбирать плотно на изображении, а не искать специальным детектором

• Обычно выбирают с 50% перекрытием

Page 97: 20120414 videorecognition konushin_lecture04

Дескрипторы

• Jet (2003)• Вектор градиентов:

• Расстояние Махаланобиса

• Cuboid (2005)• HOG/HOF (2007)• HOG3D (2008)• Extended SURF (2008)

Page 98: 20120414 videorecognition konushin_lecture04

HOG/HOF

Гистограмма ориентаций градиентов (HOG)

3x3x2x4bins HOGдескриптор

Гистограмма оптического потока(HOF)

3x3x2x5bins HOF дескриптор

Public code available at www.irisa.fr/vista/actions

Гистограммы по 3D окрестностям точек

Page 99: 20120414 videorecognition konushin_lecture04

Построение словаря

• Кластеризуем К- средними• Квантуем особенности

Page 100: 20120414 videorecognition konushin_lecture04

Примеры

• Примеры 4х самых часто встречающихся пространственно-временных особенностей

Page 101: 20120414 videorecognition konushin_lecture04

Классификация по мешку слов

• Сравним разные детекторы / дескрипторы с помощью простого алгоритма:• Построим словарь• Построим мешок слов для всего видео• Классификация через SVM с ядром Хи-Квадрат

Page 102: 20120414 videorecognition konushin_lecture04

Результаты сравнения

База KTH Actions

База UCF Sports Actions

Page 103: 20120414 videorecognition konushin_lecture04

Результаты сравнения

База Hollywood2

База Hollywood2 – разное разрешение

Page 104: 20120414 videorecognition konushin_lecture04

Результаты сравнения

Размеры окрестностей

Оценка скорости

Page 105: 20120414 videorecognition konushin_lecture04

Для повышения качества распознавания на сложных данных, как и в изображениях, можем разбивать окрестности на блоки и считать признаки для каждого блока, а затем конкатенировать в один дескриптор

По пространству1x1 (стандартный мешок)2x2, o2x2 (50% перекрытие)h3x1 (горизонтальный), v1x3 (вертикальный)3x3

По времени:t1 (стандартный мешок), t2, t3

Пространственное разбиение

Page 106: 20120414 videorecognition konushin_lecture04

Можем подобрать «оптимальную» комбинацию типов признаков и разбиений с помощью SVM с многокальным хи-квадрат ядром для классификации:

Канал c – это комбинация детектора, дескриптора и вида сетки Dc(Hi, Hj) – расстояние хи-квадрат между гистограммамиAc среднее расстояние между всеми обучающими примерами Выбор наилучшей комбинации каналов осуществляется жадным методом

Многоканальное ядро для SVM

Page 107: 20120414 videorecognition konushin_lecture04

Сравнение разных комбинаций

Разные сетки и комбинации каналов обеспечивают прирост качества

Многокальный SVM

Page 108: 20120414 videorecognition konushin_lecture04

Примеры работы на данных из кинофильмов

Распознавание в кино

Page 109: 20120414 videorecognition konushin_lecture04

Устойчивость к шуму

Деградация качества в присутствии неправильных меток

До 20% неправильных – незначительное снижение качества При 40% - снижение качества на 10%

Page 110: 20120414 videorecognition konushin_lecture04

Сравнение по средней точности для каждого класса при автоматической и чистой (ручной) разметке данных

Распознавание в кино

Page 111: 20120414 videorecognition konushin_lecture04

Пример

Page 112: 20120414 videorecognition konushin_lecture04

Выделение событий в видео

I. Laptev and P. Pérez. "Retrieving actions in movies“ ICCV 2007

• Попробуем не просто распознавать присутствие события в видео, но и локализовывать его в кадре

• Идея «нацеливания алгоритма» на нужных кадрах

Page 113: 20120414 videorecognition konushin_lecture04

Выбранные действия

Разница в форме

Разница в движении

Оба действия похожи по форме (поза человека) и по движению (движение руки)

Вариабельность больше, чем для изображений

Пить

Курить

Но движение дает дополнительную информацию

Выберем пару сложных и похожих действий

Page 114: 20120414 videorecognition konushin_lecture04

Тестовая база

• Ролики собраны из фильмов “Coffee and Cigarettes”; “Sea of Love”

KeyframeFirst frame Last framehead rectangle

torso rectangle

Временная разметкаПространственная разметка

“Пить”: 159 размеченных примеров

“Курить”: 149 размеченных примеров

Page 115: 20120414 videorecognition konushin_lecture04

Примеры действия «пить»

Page 116: 20120414 videorecognition konushin_lecture04

Классификация по форме и движению

• Обучим детекторы – 1) по объёму и движению 2) по одному кадру и гистограммам градиентов• Детектор по одному кадру может выделить фрагмент и быстро, но не может отделить «пить» от «курить»

Random motion patterns

Page 117: 20120414 videorecognition konushin_lecture04

Нацеливание алгоритма

Обучение

Positive training sample

Negative training samples

Тестирование

Идея: обучим классификатор по объёму и движению только на тех фрагментах, которые нашел детектор по одному кадру

Page 118: 20120414 videorecognition konushin_lecture04

Важность «нацеливания»

Нацеливание позволяет классификатору действий настроится только на важные признаки для различения действий, и получается лучше, чем пытаться сразу выделить «объём» действия

С нацеливанием

Без нацеливания

Page 119: 20120414 videorecognition konushin_lecture04

Примеры работы

Page 120: 20120414 videorecognition konushin_lecture04

Резюме• Базовые методы – шаблоны, стая точек, сдвиг

среднего.• Комбинация методов, выбор каналов позволяют

повысить качество слежения• Слежение всегда ошибётся, нужно быть готовым к

восстановлению после ошибок• Для распознавания видео мы можем использовать

те же подходы, что и к изображению, но переведя их в трёхмерные пространственно-временной объём• Скользящее окно• Особенности, детекторы и дескрипторы• Мешок слов и методы классификации

• Данные и их объём является общей проблемой. Нужно использовать «слабую» разметку.