ユーザの表情に基づく映像コンテンツへのタギング

ユーザの表情に基づく映像コンテンツへのタギング

神戸大学大学院工学研究科　宮原正典，青木政樹，滝口哲也，有木康雄

研究の背景

テレビのディジタル放送開始→多チャンネル化 YouTube, ニコニコ動画など動画共有サイトの発達

ユーザが視聴可能な映像コンテンツが増大見たい番組を簡単に探すのが困難に

番組自動推薦システムの必要性　　⇒　映像コンテンツへの自動タギング手法

番組自動推薦システム（ユーザ解析）リモコン操作履歴 [1]

好きなキーワード [2]

顔表情 [3]

（コンテンツ解析）映像シーンの動きシーンの色変化顔・物体認識

タグつきコンテンツデータベース

（番組推薦）

[1]2001,Taka [2]2001,Masumitsu [3]2006,Yamamoto

従来手法の課題と提案

⇒ 関心「有」をさらに，正の関心，負の関心に詳細化

⇒ 特徴抽出に EBGM[1997,Wiskott] の導入

⇒ 学習によって，自動的にリジェクトする機能

従来の顔表情に基づくタギング手法 [2006,Yamamoto]

関心の「有無」の 2 クラスのみを判定

顔の傾きやオクルージョンに弱い

想定環境

User

Webcam

Display

PC

ユーザは PC のディスプレイに映るコンテンツを 1 人で視聴

ウェブカメラはユーザを撮影

PC はコンテンツの再生とユーザ顔動画の解析処理

想定環境上面図

提案システムの概要

特徴抽出

User’s profile

EBGM

SVM

無表情画像

個人用顔表情識別器

個人認識

AdaBoost顔表情認識

・ Neutral

・ Positive

・Negative

・Rejective

Tag

AdaBoost による顔領域抽出

Haar-like 特徴を用いた AdaBoost により，正確な顔領域の抽出を行う． [2001,Viola]

顔領域を切り出すことで，ユーザとカメラとの距離を正規化できる

EBGM において，探索範囲を限定することで，計算時間を短縮

利点

EBGM による特徴点抽出・個人認識

画像を，様々な周波数と方向を持った Gabor フィルターで畳み込み，それらの応答の集合を Jet とする．

顔特徴点の各点の Jet を組み合わせたものを Face Graph と呼び，あらかじめ複数人から Face Graph を生成して束ねたものを Bunch Graph と呼ぶ．

Bunch Graph と入力画像の Face Graph の類似度を計算し，特徴点の探索を行い，特徴点抽出と個人認識を行う．

Jet Bunch GraphGabor Wavelet

[1997,Wiskott]

SVM による顔表情認識

EBGM の個人認識により，個人を特定し，その人の無表情画像と個人顔表情識別器を選択する．

EBGM によって抽出された 34 点の顔特徴点について，無表情のときとの差分を取った， 68次元のベクトルを特徴ベクトルとする．

Multiclass SVM(RBF カーネル ) により顔表情認識を行う．

顔表情のクラス分類 ( タグ ) 定義

クラス名内容

Neutral (Neu) 無表情

Positive (Pos) 喜び，笑い，快，など

Negative (Neg) 怒り，嫌悪，不快，など

Rejective (Rej)

画面に顔を向けていない，顔の一部が隠れている，

顔が傾いている，など

実験条件

被験者 2名 (A,B) に 1回約 17分間の映像コンテンツを 4回分視聴させる．

その際，被験者を撮影した動画と，再生されている映像コンテンツを同期させながら， 15fpsで記録．

その後，以下のようなインターフェースを用いて，顔表情タギングを手動で行った．

顔動画の手動タギング結果

Neu Pos Neg Rej 合計被験者

A49865 7665 3719 1466 62715

被験者B

56531 2347 3105 775 62758

表：各表情クラスのタギングフレーム数

この手動タギング結果つきの顔動画を

実験動画と呼び，以降の評価実験で用いる．

予備実験 1

特徴抽出

User’s profile

EBGM

SVM

無表情画像


個人認識


・ Neutral

・ Positive

・Negative

・Rejective

Tag

AdaBoost による顔領域抽出の精度について実験を行った

予備実験 1－ AdaBoost による顔領域抽出

被験者 A Neu Pos Neg

誤検出数 20 3 1

全フレーム数 49865 7665 3719

誤検出率(%)

0.0401 0.0391 0.0269 被験者 B Neu Pos Neg

誤検出数 132 106 9

全フレーム数 56531 2347 3105

誤検出率(%)

0.2335 4.5164 0.2899

被験者 B は笑うと，顔を大きく上に向ける癖があり，顔以外の部分が顔と誤検出される傾向があった．

未検出率は被験者 A,B ともに 0%だった．誤検出率については，以下の表の通り．

予備実験 2

特徴抽出

User’s profile

EBGM

SVM

無表情画像


個人認識


・ Neutral

・ Positive

・Negative

・Rejective

Tag

EBGM による個人認識の精度について実験を行った

予備実験 2－ EBGM による個人認識

　被験者 A Neu Pos Neg

誤認識数 2 0 0

全フレーム数 49845 7662 3718

誤認識率(%)

0.0040 0.0000 0.0000 　被験者 B Neu Pos Neg

誤認識数 2 20 0

全フレーム数 56399 2241 3096

誤認識率(%)

0.0035 0.8925 0.0000

個人認識の精度に問題がないことを確認．

EBGM で個人認識をし，個人用の識別器を選択をすることは十分可能といえる．

評価実験

特徴抽出

User’s profile

EBGM

SVM

無表情画像


個人認識


・ Neutral

・ Positive

・Negative

・Rejective

Tag

SVM による顔表情認識の精度について実験を行った

評価実験－ SVM による顔表情認識

各被験者について， 4本中 3本の動画から学習を行い，個人顔表情識別器を生成する．残りの1本についてテストを行う． (クロスバリデーション )

リジェクト機能顔領域抽出で顔領域が発見できなかったフレームは無条件で， Rejectiveに分類

顔領域抽出に成功したフレームは，そのまま顔特徴点抽出を行い，学習・認識の対象とする

実験結果－ SVM による表情認識

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Neu Pos Neg Rej

(precision)適合率(recall)再現率

考察

平均再現率は 87.6% ，平均適合率は 88.0% と良好な結果が得られた．

被験者が Positive や Negative と答えていても，表情表出の度合いが小さい場合，システムがNeutral と誤認識するパターンが多い．

1つのフレームに表情のタグは 1つしかないと仮定しているので，中間的な表情をしている場合，誤認識が多発する．

デモ映像

まとめと今後の方向

事前学習の手間をできるだけ減らすようにする複数人同時視聴に対応顔方向・視線方向の追跡表情以外のマルチモーダル情報も使い，番組推

薦を行うシステムの構築

EBGM を特徴点抽出に用いることで， Neutral, Positive, Negative, Rejective という４つのクラスに拡張しても高い再現率，適合率が得られた

実験結果－ Confusion matrix 被験者A

被験者A 　 Neu Pos Neg Rej 合計再現率

(%)

Neu 48275 443 525 622 49865 96.81

Pos 743 6907 1 14 7665 90.11

Neg 356 107 3250 6 3719 87.39

Rej 135 0 5 1326 1466 90.45

合計 49509 7457 3781 1968 62715 91.19

適合率(%)

97.51 92.62 85.96 67.38 85.87 　

実験結果－ Confusion matrix 被験者B

　被験者B

Neu Pos Neg Rej 合計再現率(%)

Neu 56068 138 264 61 56531 99.18

Pos 231 2076 8 32 2347 88.45

Neg 641 24 2402 38 3105 77.36

Rej 203 0 21 551 775 71.10

合計 57143 2238 2695 682 62758 84.02

適合率(%)

98.12 92.76 89.13 80.79 90.20 　

ユーザの表情に基づく 映像コンテンツへのタギング

Documents

ユーザの表情に基づく映像コンテンツへのタギング