Детектирование объектов переднего плана в видео

Детектирование объектов переднего плана в видео

Александр Новиков

Video Group CS MSU Graphics & Media Lab

CS MSU Graphics & Media Lab (Video Group) www.compression.ru/video/

Only for Maxus

Содержание

Введение

Обработка пространственно-временных срезов

Проверка условий 3D-геометрии сцены

Распространение пространственной и цветовой информации

Использование информации о смене цветов на областях открытия

Заключение

2

http://www.compression.ru/video/


Only for Maxus

Постановка задачи

Задача — выделить объекты переднего плана в видео

Проблемы:

Движение камеры

Необходимость сохранения временной целостности

Изменение внешнего вида объекта во времени

3 F. Liu, M. Gleicher, “Learning color and locality cues for moving object detection and segmentation”, IEEE CVPR, 2009

Кадр последовательности Выделенный объект



Only for Maxus

Применения

Редактирование видео

Слежение за объектами

Удаление объектов

Конвертация 2D видео в 3D

4



Only for Maxus


Введение





Заключение 5



Only for Maxus Пространственно-

временные срезы (1)

Пространственно-временные срезы — это изображения, получаемые при перемещении в (x,t) [(y,t)] измерениях при фиксированном y [x]

Срезы разделяются на

— горизонтальные,

фиксирован y=i

— вертикальные,

фиксирован x=j

6

),(H txiy

),(V tyjx

Ch.-W. Ngo, T.-Ch. Pong, H.-J. Zhang, “Motion Analysis and Segmentation Through Spatio-Temporal Slices Processing”, IEEE ToIP, 2003

Горизонтальный срез видео

t



Only for Maxus Пространственно-

временные срезы (2)

Структура пространственно-временных срезов позволяет определить вид и направление движения камеры

7


t



Only for Maxus

Идея метода

1) Разбиение видео на участки с однородным движением камеры и классификация:

Отсутствие движения

Панорамирование

Приближение/отдаление

Сложное движение

2) Восстановление фона сцены

3) Background subtraction и выделение движущихся объектов

8




Only for Maxus

Структура среза H в точке представляется матрицей Г

9

Алгоритм Локальная структура срезов

ttxt

xtxx

JJ

JJГ

wtx

ttt

wtx

txxt

wtx

xxx

ttxx

ttxxttxx

ttxx

,

,

,

2

),(HJ

),(H),(HJ

),(HJ

t

G

x

Gtx

H)(H,

H)(H — частные производные срезов,

__сглаженных фильтром Гаусса

w — окно 3x3 с центром в некотором пикселе




Only for Maxus

Вычисляется локальная ориентация ϕ в окне w

c — мера того, насколько точно

ϕ оценивает локальную

ориентацию,

с = 1 — точная направленность

Алгоритм Локальная направленность

10

xxtt

xt

JJ

J2tan

2

1 1

2

,2

,2

0,2

otherwise

]1,0[,)J(J

J4)J(J2

22

cc

ttxx

xtttxx




Only for Maxus

Алгоритм Гистограмма направленностей

Строится двумерная гистограмма локальных направленностей

На кадрах [k,k+N] выделяется доминирующая

траектория {ϕ}, если для них выполняется

11

,0

,),(),ˆ( i x

iytxctM

T

t

tp

Nk

kt

Nk

kt

),M(

)( ),M(max)(2/2/

ttp


TN , — константы, в статье 15 и 0.6

ˆ),( iytx

otherwise



Only for Maxus

Неподвижная камера

Панорамирование

Отдаление/приближение

Иначе — сложное движение

t

y

ϕ

Алгоритм Классификация движения камеры

12

],[ aa

1),M(

),M(

0

0

t

t

t

t

aa ,

0a

t

y

ϕ


2

2

2

2



Only for Maxus

Алгоритм Выделение фона на срезах

Дискретизация гистограммы

Выделение на срезах пикселей с движением

близким к основному (LoS — layer of support)

13

]90,45(

]45,25(

]25,5(

]5,5[

)5,25[

)25,45[

)45,90[

7

6

5

4

3

2

1

ki t

ik t

),M()N(

)N(maxargˆ

kk

otherwisetxLoS iy

ˆ

,0

,1),(

t

y




Only for Maxus

Алгоритм Восстановление панорамы фона

Пиксели с LoS = 1 считаются принадлежащими фону

Для каждого кадра t выбирается сдвиг

где — выбранный для кадра t срез с наибольшим

количеством текстурной информации

14

1)1()(

)1()(maxargHH

iyiy

iyiy

tntn

tCtC

iy

x

iyiyiy txLoStxctС ),(),()( x

iyiy txLoStn ),()(

iyH

},)1,(H),(Hmed{minarg)( iyiyxd

tdxtxtd




Only for Maxus

Алгоритм Color back-projection

По LoS для фона инвертированием вычисляется LoS

для переднего плана

Строится дискретизованная гистограмма C цветов

пикселей со значениями LoS переднего плана = 1

Передний план F вычисляется по формуле:

15


),()),(R)),((С(2

1),F( tXImagetXtXImagetX

С

),(R tX — нормализованная карта разницы |Image-Background|

— нормализованная гистограмма C



Only for Maxus

Результаты (1) Background subtraction

16




Only for Maxus

Результаты (2) Color back-projection

17




Only for Maxus

Выводы

Достоинства:

Скорость работы

Восстановление фона

Недостатки:

Отсутствие временной целостности

Недостаточно точная сегментация

18




Only for Maxus


Введение






19



Only for Maxus

Схема работы алгоритма

1) Восстановление структуры сцены по движению

2) Оценка движения и глубины

При фиксированной сегментации оцениваются движение и области открытия

Строится карта глубины и карта ошибок геометрии

3) Выделение фона и переднего плана

4) Повторение второго и третьего шагов k (2-3) раз

5) Matting границ выделенных объектов

20

G. Zhang, J. Jia, W. Xiong, T.-T. Wong, P.-A. Heng, H. Bao, “Moving object extraction with a hand-held camera”, IEEE ICCV, 2007



Only for Maxus

Алгоритм Structure From Motion

Выполняется поиск 3D-feature points

Для каждого кадра вычисляются матрицы камеры

21

)( tttt

X TXRKu

ttt TRK ,, — матрицы камеры для кадра t

t

Xu — проекция 3D-точки X на кадр t

G. Zhang, X. Qin, W. Hua, T.-T. Wong, P.-A. Heng, H. Bao, “Robust metric reconstruction from challenging video sequences”, IEEE CVPR, 2007

Вставленные объекты демонстрируют определенную геометрию сцены



Only for Maxus

Оценка движения и поиск областей закрытия выполняется решением задачи минимизации

Алгоритм Оценка движения (1)

22

1

1

,11,

,)),(),((minarg

n

t

tttt

ododEodE

t

ifi

tt

Nj

tttttt DQjisimodE )()],()([),( 1,1,1,1,

)(

),,(),(

1,

1,1,

DQ

jisim

tt

tttt

— условия соответствия данных, гладкости поля motion-\\\векторов и соответствия 3D-feature points

iN — множество 8 пикселей, соседних с i-м

)(1, io tt

i

— индикатор принадлежности пикселя i области открытия

\\\при переходе от кадра t к t+1

)(1, id tt — motion-вектор пикселя i при переходе с кадра t к t+1




Only for Maxus

t

ifi

tt

Nj

ttt,ttt DQjisimodE )()],()([),( 1,1,11,


Условие соответствия данных:

23

1

,0

,0

,

},),(min{

),(

)(1,

11,

11,

1,

1,

1,

tt

i

t

i

t

i

tt

i

t

i

t

i

tt

i

o

o

tt

d

tt

d

tt

o

o

o

i

i

im

21

21

1,

)()(

)()()(

ifif

ififi

tt

d

tt

tt

d


do , — константы, в статье 0.5 и 400 соответственно

)(it

i — индикатор принадлежности пикселя i кадра t переднему

\\\плану

)(if t— цвет пикселя i кадра t

i — пиксель кадра t +1 соответствующий i-тому по dt,t+1



Only for Maxus

Условие гладкости поля motion-векторов:

1, tt

iW


24

1,1,1,1,1,1, ),(),( tt

i

tt

iw

tt

j

tt

io

tt

ss

tt Wooojijis

1

121,1,

1,

,0

},)()(min{),(

t

j

t

i

t

j

t

is

tttttt

s

jdidji

— 1, если для пикселя f t(i) нет соответствующего по dt+1,t ///пикселя в f t+1, 0 — иначе

),(1, jitt

s

— мера сонаправленности векторов dt,t+1(i) и dt,t+1(j)

s

wos ,, — балансирующие коэффициенты, 0.1, 0.21 и 0.6 в статье

— ограничение сверху, 4 в статье


t

ifi

tt

Nj




Only for Maxus

Условие соответствия 3D-feature points:

— проекция 3D-точки X на кадр t


25


t

Xu

)(X

D

— множество кадров, на которых X имеет

\\\соответствующую feature point

— коэффициент, берется большим, в статье равен 100

DX Xff

t

X

t

X

t

X

tt

D

tt

tt

uuudQ)(,

211,1,

1

)()(

D — множество всех 3D-feature points

t

ifi

tt

Nj




Only for Maxus

Трек — последовательность пикселей видео, связанных по векторам движения

Связь между пикселями i и i′ разрывается, если:

Хотя бы один из них отмечен как область открытия

Ошибка согласованности optical flow

выше некоторого предела (2.0 в статье)

27

Алгоритм Карта глубины и карта ошибок (1)

)()()( ,11,1, ididie tttttt

flow


Красные стрелки — motion-векторы Синим отмечены пиксели трека

Кадр 1 Кадр 2 Кадр 3



Only for Maxus

Алгоритм Карта глубины и карта ошибок (2)

Все пиксели трека p от кадра fl до fr должны соответствовать одной

3D-точке Xp

Xp оценивается минимизацией среднеквадратического отклонения (RMSE)

Карта глубины для кадров берется из z координат точек треков,

для всех пикселей записывается RMSE в карту ошибок

28

t

px

)( t

p

ttt

p TXRKx

t

p

tt

p

t

p

t

p Xzyx TR],,[

r

lt

t

p

ttt

pX

Xxlrp

2

)T(RK1

1minarg

t




Only for Maxus

Большое значение ошибки — пиксель находится на объекте переднего плана

Проблема — карта ошибок зашумлена на границах объектов

Алгоритм Результаты (1)

29

Кадр


Полученная карта глубины Карта ошибок

Ярче — дальше Ярче — больше



Only for Maxus

В случае слежения камеры за объектом строится неверная карта глубины, и по карте ошибок нельзя выделить объект

Алгоритм Результаты (2)

30

Полученная карта глубины Карта ошибок Кадр

Ярче — дальше Ярче — больше G. Zhang, J. Jia, W. Xiong, T.-T. Wong, P.-A. Heng, H. Bao, “Moving object extraction with a hand-held camera”, IEEE ICCV, 2007



Only for Maxus

Алгоритм 3D-warping

Выполняется 3D-warping кадров 2l соседних кадров на текущий с использованием карты глубины

Красным отмечены точки, не имеющие проекции

31

Различия между полученными кадрами и текущим позволяют выявить движущиеся объекты




Only for Maxus

Разделение на фон и передний план выполняется

минимизацией функции энергии по α:

Алгоритм Сегментация

34


n

t fi Nj

t

SS

t

TT

t

Bt

i

jiGiGiLE1

)),()()(()(

tL

t

SG

t

TG

— функция правдоподобия данных

— условие пространственной гладкости

— условие временной гладкости

ST , — балансирующие коэффициенты iN — множество 8 соседних с i-м пикселей



Only for Maxus

Результаты (1)

37

Кадр последовательности Выделенный объект переднего плана G. Zhang, J. Jia, W. Xiong, T.-T. Wong, P.-A. Heng, H. Bao, “Moving object extraction with a hand-held camera”, IEEE ICCV, 2007



Only for Maxus


38


Кадр последовательности Выделенный объект переднего плана



Only for Maxus

Выводы


Высокая точность сегментации

Восстановление фона за объектами


Очень низкая скорость работы

Основан на Structure From Motion

39




Only for Maxus


Введение






40



Only for Maxus

41

Идея метода

Выделить кадры со значительными областями с движением, отличным от глобального

Выделить на них двигающиеся части объектов переднего плана (подобъекты)

Собрав информацию о цвете и расположении подобъектов, распространить их во времени

F. Liu, M. Gleicher, “Learning color and locality cues for moving object detection and segmentation”, IEEE CVPR, 2009



Only for Maxus

Алгоритм Motion cues

Motion cue – разница между локальным движением и глобальным смещением камеры

Оценка движения

Глобального (ищутся feature points алгоритмом SIFT, устанавливаются соответствия и строится преобразование) — mo(x,y)

Локального (optical flow) — mg(x,y)

Вычисление motion cues

42 F. Liu, M. Gleicher, “Learning color and locality cues for moving

object detection and segmentation”, IEEE CVPR, 2009

2

2),(),(),( yxmyxmyxmc go



Only for Maxus

Алгоритм Выделение ключевых кадров

Ключевым называется кадр, на котором объект, либо его часть совершает заметное движение, отличное от глобального

Критерии:

Большое количество пикселей с движением, отличным от глобального

Их компактное расположение

43

maxSpanyxmcyx )),(|),Var((

minAreayxmc )),((

— константы


,,minAreamaxSpan



Only for Maxus

Алгоритм Выделение движущихся подобъектов (1)

Для каждого кадра строится функция правдоподобия для произвольного распределения меток “фон” и “движущийся объект”

На основании информации о цвете:

44

},,1{

),ψ(),,1|p(Mi Nj

jii

i

llMil

))),d((

exp(),ψ(ji

llll

ji

ji


— множество 8 пикселей, соседних с i-м

),d( ji — разница по цвету между пикселями i и j

il — метка i-го пикселя (-1 — движущийся объект, 1 — фон)

, — константы

iN



Only for Maxus


На основании информации о движении:

45

),(p}),,1,{|p(},,1{

m i

Mi

ii lmcMilI

))(exp()|(pm miiii mcllmc


m — константа

М — количество пикселей в изображении

— множество 8 пикселей, соседних с i-м

il — метка i-го пикселя (-1 — движущийся объект, 1 — фон)

iN



Only for Maxus


Объединяя информацию о цвете и движении, получим функцию правдоподобия

Для каждого ключевого кадра находится набор меток

li, её максимизирующий

Выделяются подобъекты — движущиеся на конкретном ключевом кадре части объектов

46

Ii Ii Nj

jiii

i

lllmc ),ψ()|(pI)|P(L m

— множество всех меток

— множество всех пикселей кадра

L

I




Only for Maxus

Алгоритм Ключевые кадры и motion cues


Motion cues

Key frames



Only for Maxus

Алгоритм Ключевые кадры и подобъекты


Key frames

Moving sub-objects



Only for Maxus

Функция близости пикселя с цветом

c к цветовой модели

Функция правдоподобия сегментации с точки зрения цветовой модели

Строится распределение цветов в виде Gaussian Mixture Model (GMM)

Алгоритм Близость по цвету

49

nigG if ,,1,

)(max)(affic cgc jGg fj

)))((log(affiexp()|(p cc ciiii cllc

с — константа

Распределение цветов объектов




Only for Maxus

Алгоритм Удаление фоновых компонент из GMM

Из-за ошибок выделения подобъектов в GMM могли

появиться компоненты gi,

связанные с фоном

Вычисляется мера близости компоненты GMM к фону сцены

Из GMM исключаются все gi

со значениями близости, превышающими порог

50 F. Liu, M. Gleicher, “Learning color and locality cues for moving

object detection and segmentation”, IEEE CVPR, 2009



Only for Maxus

Вводится мера пространственной близости точки к выделенным подобъектам и пространственная функция правдоподобия сегментации

Вводится обновлённая функция правдоподобия, и еще раз выполняется сегментация ключевых кадров

Алгоритм Пространственная близость


)2

)()(exp(max

2

1)(affi

22s

ji

T

ji

Fji

txxxx

x

)))((log(affiexp()|(p ss si

t

iii

t xllx

s , — константы

F — движущийся объект

)|(logp)|(logp)|(logp)|(logp scm ii

t

sii

t

cii

t

ii

t lxlclmclf

cs , — балансирующие коэффициенты



Only for Maxus

Алгоритм Распространение пространственной информации

Для каждого ключевого кадра k:

Распространить пространственную информацию

на кадры k+1, k+2, … следующим образом:

1. Инициализировать пространственную функцию

правдоподобия на кадре t+1 функцией кадра t

2. Выделить движущиеся объекты обновленной функцией правдоподобия

3. По выделенным объектам обновить пространственную

информацию и функцию правдоподобия кадра t+1

4. Если кадр t+1 ключевой и выделенные на шаге 2 объекты

покрывают выделенные ранее, удалить кадр из ключевых

Аналогично распространить на кадры k-1, k-2, …




Only for Maxus



Кадры последовательности

Результаты сегментации



Only for Maxus







Only for Maxus

Выводы


Качество сегментации

Временная целостность выделенных объектов


Время работы

Проблемы при близости объектов к фону по цвету

55



Only for Maxus


Введение






56



Only for Maxus

T-Junctions

T-Junction — это фигура из двух отрезков, формирующих букву T, расположенная на местах резкой смены градиентов на изображении

57 N. Apostoloff, A. W. Fitzgibbon, “Learning spatiotemporal T-junctions for occlusion detection”, IEEE CVPR, 2005

t

y

Пример выделенных T-Junctions. Заметим, что красные отрезки лежат на фоне сцены, зеленые — на движущихся объектах



Only for Maxus

Алгоритм Поиск T-Junctions

Первым шагом выполняется поиск T-Junctions, которые выступают как индикаторы областей открытия

Таким образом получены спаренные пробы пикселей из переднего плана и фона

58

t

y

N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using spatiotemporal T-junctions”, BMVC, 2007



Only for Maxus

Алгоритм Использование цветовой информации

По выделенным T-Junctions строятся GMM-модели

Распределения цветов фона и переднего плана сцены

Смены цвета на областях открытия

59


Модель областей закрытия: каждый столбец соответствует одному варианту смены цвета




Only for Maxus

Разделение на фон и передний план происходит минимизацией для каждого кадра функции энергии:

— условие соответствия модели смены цветов пикселей ///на областях открытия

Алгоритм Сегментация

60

VWUE

U — отвечает за близость выделенных объектов по цвету ///к цветовой модели

V — условие пространственной гладкости

W




Only for Maxus


61

Кадр последовательности

Сегментация без условия смены цветов

Сегментация с использованием всех условий




Only for Maxus


62 N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using spatiotemporal T-junctions”, BMVC, 2007

Исходное видео Результат сегментации



Only for Maxus


63

Исходное видео

Результат сегментации N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using spatiotemporal T-junctions”, BMVC, 2007



Only for Maxus

Выводы

Достоинство:

Скорость работы

Интересная идея решения задачи


Основное движение должно быть горизонтальным

Проблемы с временной целостностью

64



Only for Maxus


Введение






65



Only for Maxus

Дальнейшие планы (1)

Алгоритм:

1. Оценка движения

2. Построение гистограммы векторов ME

3. Кластеризация гистограммы (Mean-shift)

4. Наибольший кластер — фон, остальные — движущиеся объекты

66

Визуализация гистограммы (высоты соответствуют количеству векторов с направлением)

Ортогональная проекция гистограммы (белые – векторы движения фона, синие – переднего плана)



Only for Maxus


67




Only for Maxus


Решить проблемы:

Разбиения на чрезмерно большое количество кластеров (пространственным объединением кластеров)

Отсутствия временной целостности

68



Only for Maxus

Литература

1. Ch.-W. Ngo, T.-Ch. Pong, H.-J. Zhang, “Motion Analysis and Segmentation Through Spatio-Temporal Slices Processing”, IEEETransactions on Image Processing, vol. 2, 2003

2. G. Zhang, X. Qin, W. Hua, T.-T. Wong, P.-A. Heng, H. Bao, “Robust metric reconstruction from challenging video sequences”, IEEE CVPR, 2007

3. G. Zhang, J. Jia, W. Xiong, T.-T. Wong, P.-A. Heng, H. Bao, “Moving object extraction with a hand-held camera”, IEEE ICCV, 2007

4. F. Liu, M. Gleicher, “Learning color and locality cues for moving object detection and segmentation”, IEEE CVPR, 2009

5. N. Apostoloff, A. Fitzgibbon, “Automatic video segmentation using spatiotemporal T-junctions”, BMVC, 2007

6. N. Apostoloff, A. W. Fitzgibbon, “Learning spatiotemporal T-junctions for occlusion detection”, IEEE CVPR, 2005

7. V. Kolmogorov, R. Zabih, “What energy functions can be minimized via graph cuts”, IEEE ECCV, 2002

69



Only for Maxus Лаборатория компьютерной

графики и мультимедиа

Видеогруппа — это:

Выпускники в аспирантурах Англии, Франции, Швейцарии (в России в МГУ и ИПМ им. Келдыша)

Выпускниками защищено 5 диссертаций

Наиболее популярные в мире сравнения видеокодеков

Более 3 миллионов скачанных фильтров обработки видео

70


http://en.wikipedia.org/wiki/Comparison_of_video_codecs



Детектирование объектов переднего плана в видео

Education