イベント区間検出統合型 blstm-hmmハイブリッドモデルによる...
TRANSCRIPT
1
イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる
多重音響イベント検出◎林 知樹†, 渡部晋治††, 戸田智基†,
堀貴明††, Jonathan Le Roux††, 武田一哉†† 名古屋大学
†† Mitsubishi Electric Research Laboratory (MERL)
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
2
環境音理解への関心の高まりp 従来の音声・音楽以外のあらゆる音を理解する試みp 非常に幅広い応用の可能性
n 監視 / ライフログ / 環境理解 / 騒音分析 etc.p 多数のチャレンジの開催 / データセットの公開
n DCASE2013 / 2016 / 2017:環境音分類/検出チャレンジn AudioSet:Google謹製大規模環境音データセット
AudioSethttp://g.co/audioset
DCASE2017http://www.cs.tut.fi/sgn/arg/dcase2017/
今後ますますの発展が望まれる研究分野
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
3
多重音響イベント検出 (SED)p イベントの開始/終了時刻+ラベルを特定するタスクp 同時刻に複数のイベントがオーバーラップ
Event 1Event 2
TimeEvent 3
SED System
Time
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
4
本研究の貢献p 新たな多重音響イベント検出手法を提案
p 多重音響イベント検出タスクDCASE2016 Task2で評価
提案1: BLSTM-HMMハイブリッドモデルü BLSTMで入力特徴量の時系列情報を最大限利用ü HMMで出力系列に制約+系列単位の処理を実現
提案2: SADネットワークによるバイナリマスキングü イベント区間を検出するネットワークの併用ü 雑音環境下における挿入誤りを効率的に抑制
チャレンジのベスト結果を上回る性能を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
5
関連研究 GMM-HMMベースp イベント毎にGMM-HMMを学習p ビタビアルゴリズムで最尤系列を決定
J 系列単位の処理が可能L 入力特徴量空間をGMMでうまく表現できない
Event 1 GMM-HMM
Event C GMM-HMM
⋮
Viterbi DecodingTime
State
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
6
関連研究 NMFベースp 各イベントの基底を学習し基底辞書を作成p 辞書を利用し各イベントのアクティベーションを推定
J 入力特徴量の次元間相関を活用可能L フレーム間相関を非活用 / フレーム単位の処理
Event 1 basis
Event 2 basis
Event 3 basis
Pre-learned event basis dictionary
Event 3 activationEvent 2 activationEvent 1 activation
✕
Thresholding
Classifier
Fixed
PredictionPrediction
Data
NM
F
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
7
関連研究 ニューラルネットベースp マルチラベル分類のネットワークを学習p 閾値処理で各イベントのアクティベーションを推定
J BLSTMなどの利用で入力特徴量をフル活用L フレーム単位の処理
Thresholding
Sigmoid
Feature Vector
Event 1 Prediction
Event 2PredictionEvent 3
Prediction
Neural Network
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
8
本研究の提案提案①: BLSTM-HMMハイブリッドモデルü BLSTMで入力特徴量の時系列情報を最大限利用ü HMMで出力系列に制約+系列単位の処理を実現
提案②: SADネットワークバイナリマスキングü イベント区間を検出するネットワークの併用ü 雑音環境下における挿入誤りを効率的に抑制
上記2つの提案手法を統合したイベント区間検出統合型BLSTM-HMMハイブリッドモデル
を提案
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
9
提案法の位置づけ
手法 入力次元間の相関の利用
入力フレーム間の相関の利用 系列単位の処理
GMM-HMM ✕ ✕ ◯
NMF ◯ ✕ ✕
NN ◯ ◯ ✕
提案法 ◯ ◯ ◯
入力特徴量をフル活用しつつ系列単位の処置を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
10
提案手法
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
11
提案システムフロー
Audio
Feature extraction
Feature vector
State posterior
Em
ission prob.
ML Path
Binary m
ask PredictionPrior normalization
Viterbi decoding
Post-processing
✕
SAD
network
Thresholding
SED
network
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
12
事後処理
特徴量抽出
提案システムフロー
Audio
Feature extraction
Feature vector
State posterior
Em
ission prob.
ML Path
Binary m
ask PredictionPrior normalization
Viterbi decoding
Post-processing
✕
SAD
network
Thresholding
SED
network
提案②: SADネットワークバイナリマスキング
提案①: BLSTM-HMMハイブリッドモデル
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
13
特徴量抽出
提案システムフロー
Audio
Feature extraction
Feature vector
State posterior
Em
ission prob.
ML Path
Binary m
ask PredictionPrior normalization
Viterbi decoding
Post-processing
✕
SAD
network
Thresholding
SED
network
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
14
特徴量抽出p 窓幅25 msec / シフト幅10 msec でSTFTp 対数フィルタバンク100 bin抽出 + 発話単位CMN
n 音響イベント検出では高域がより重要視されるため
入力音響信号 抽出された特徴量
Am
plitu
de
Time [sec] Time [sec]
Freq
uenc
y bi
n
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
15
提案システムフロー
Audio
Feature extraction
Feature vector
State posterior
Em
ission prob.
ML Path
Binary m
ask PredictionPrior normalization
Viterbi decoding
Post-processing
✕
SAD
network
Thresholding
SED
network提案①:
BLSTM-HMMハイブリッドモデル
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
16
提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築
0 2 5𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
17
提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築
0 2 5𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11イベントがアクティブな部分を表現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
18
提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築
無音もしくは他のイベントがアクティブな部分を表現
0 2 5𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
19
提案①: BLSTM-HMM (1)p 各イベントごとに下記のHMMを構築
n 遷移確率𝐀は学習データからビタビ学習で決定
出力確率𝑩をBLSTMでモデル化
0 2 5𝑎&' 𝑎'(
𝑏((𝐱,)𝑏'(𝐱,)𝑏&(𝐱,)
31
4
𝑏1(𝐱,)
Initial state Final state
Non-active state
𝑎1& 𝑎(1
𝑎&& 𝑎'' 𝑎((
𝑎11
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
20
提案①: BLSTM-HMM (2)p HMMの事後確率を推定するSEDネットワークを構築
Inputs 100
Forward LSTM 512Backward LSTM 512
Projection 256Projection 256
Backward LSTM 512
Projection 256Projection 256
Backward LSTM 512Projection 256
Outputs 4 Outputs 4 Outputs 4⋯Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,, 𝐱,) 𝑃 𝐬',, 𝐱,) 𝑃 𝐬9,, 𝐱,)
: Forward Propagation: Backward Propagation
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
21
提案①: BLSTM-HMM (2)p HMMの事後確率を推定するSEDネットワークを構築
n クラス分類問題のマルチタスク学習で最適化
Inputs 100
Forward LSTM 512Backward LSTM 512
Projection 256Projection 256
Backward LSTM 512
Projection 256Projection 256
Backward LSTM 512Projection 256
Outputs 4 Outputs 4 Outputs 4⋯Projection 256
Forward LSTM 512
Forward LSTM 512
𝑃 𝐬&,, 𝐱,) 𝑃 𝐬',, 𝐱,) 𝑃 𝐬9,, 𝐱,)
: Forward Propagation: Backward Propagation
Event 1のHMMの状態事後確率
Event 2のHMMの状態事後確率
Event CのHMMの状態事後確率
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
22
提案①: BLSTM-HMM (3)p SEDネットワークの事後確率を出力確率へ変換
n 予め計算した事前確率とベイズの定理を利用
p 出力確率を用いて各HMM独立にビタビデコード
)()|()|()(
nsPnsPnsPb
t
tttttn =
=@==
xxx出力確率
事後確率
事前確率
# events
Time
State
Time
State
Time
State
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
23
提案システムフロー
Audio
Feature extraction
Feature vector
State posterior
Em
ission prob.
ML Path
Binary m
ask PredictionPrior normalization
Viterbi decoding
Post-processing
✕
SAD
network
Thresholding
SED
network
提案②: SADネットワークバイナリマスキング
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
24
提案②: SADネットワーク (1)p イベントの有無を判定するSADネットワークを構築
n 2値分類の交差エントロピー最小化で最適化
Inputs 100
Forward LSTM 512Backward LSTM 512
Projection 256Projection 256
Backward LSTM 512
Projection 256Projection 256
Backward LSTM 512Projection 256
Output 1
Projection 256
Forward LSTM 512
Forward LSTM 512
0 ≤ y ≤ 1
: Forward Propagation: Backward Propagation
イベントが存在しない イベントが存在する
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
25
提案②: SADネットワーク (2)p SADネットワークの事後確率を閾値処理で2値化
n 閾値は0.5に設定p 2値化により得られたバイナリマスクをBLSTM-HMMで
推定された各イベントの予測結果に適用
Time予測結果
Timeマスク
⨀ 要素積=
Timeマスク適用後
予測結果
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
26
事後処理
提案システムフロー
Audio
Feature extraction
Feature vector
State posterior
Em
ission prob.
ML Path
Binary m
ask PredictionPrior normalization
Viterbi decoding
Post-processing
✕
SAD
network
Thresholding
SED
network
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
27
事後処理1. 150 msec (15 frames) スパンのメディアンフィルタ
2. 100 msec (10 frames) 以下の穴埋め
3. 各イベントの学習データ中の最小長の3/4以下を削除
Time Time
Time Time
Time
¾ minimum length Time
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
28
評価実験
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
29
評価実験実験設定p 多重音響イベント検出タスクDCASE2016 task2で評価p 11 種類の音響イベントが対象
評価尺度p Segment-based (SB): 1秒のセグメント単位の評価p Event-based (EB): イベント単位での評価p それぞれでF1-score (F1)とError rate (ER)を計算
比較手法p NMF (DCASE2016 task2 ベースライン)p BLSTM
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
30
実験条件Sampling rate 44,100 HzBit rate 16 bit# sound events 11# training data 4 sec * 100,000 samples# development data 120 sec * 18 samples # evaluation data 120 sec * 54 samples # hidden layer 3# LSTM unit Forward : 512 Backward: 512# projection unit Forward : 256 Backward: 256Initial Scale 0.001Learning rate 0.0005Max gradient norm 5# step 400# batch 128Optimization method Adam
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
31
実験結果Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 54.2 77.9 39.6
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 44.7 80.5 33.8
低いほど高性能高いほど高性能
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
32
手法間の比較Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 54.2 77.9 39.6
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 44.7 80.5 33.8
提案法が全ての評価尺度において最も高い性能
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
33
SADマスク有無の比較Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
NMF (Baseline) 24.0 168.5 37.0 89.3
BLSTM w/o SAD mask 65.2 66.9 76.1 45.2
BLSTM w/ SAD mask 70.1 (+4.8) 54.2 (-12.7) 77.9 (+1.8) 39.6 (-5.6)
BLSTM-HMM w/o SAD mask 71.7 52.3 79.5 36.7
BLSTM-HMM w/ SAD mask 74.9 (+3.2) 44.7 (-7.6) 80.5 (+1.0) 33.8 (-2.9)
SADマスクはモデルによらず性能の改善を実現
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
34
DCASEチャレンジ結果との比較Model EB-F1 [%] EB-ER [%] SB-F1 [%] SB-ER [%]
Our best result 74.9 44.7 80.5 33.8
DCASE 1st T. Komatsu+NMF based method 73.8 46.2 80.2 33.1
DCASE 2nd I. Choi+DNN based method 67.1 61.8 78.7 36.7
1つの評価尺度を除き最高性能を達成
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
35
まとめと今後の課題
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」
36
まとめと今後の課題まとめp 区間検出統合型BLSTM-HMMハイブリッドモデルの提案p 多重音響イベント検出タスクDCASE2016 task2で評価p 提案モデルがチャレンジベストを上回る最高性能を達成
今後の課題p 大規模データセットへの適応p HSMMへの拡張p 系列識別学習の導入
日本音響学会2017年春季研究発表会 2-5-5 「イベント区間検出統合型BLSTM-HMMハイブリッドモデルによる多重音響イベント検出」