変調スペクトルを考慮したhmm音声合成
DESCRIPTION
TRANSCRIPT
2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST 09/26/2013
高道 慎之介 戸田 智基
Graham Neubig Sakriani Sakti 中村 哲 (奈良先端大)
日本音響学会 2013年 秋季研究発表会
2-7-10
変調スペクトルを考慮したHMM音声合成
/15
発表概要
問題: HMM音声合成 [Zen et al., 2009.] の音質劣化
– HMMの平滑化処理により発生
– 平滑化の影響を定量的に表現する特徴量とは?
2
平滑化を表現する特徴量とは?:
– パラメータ系列の分散 (GV: Global Variance) [Toda et al., 2007.]
HMM音声合成およびGVと比較して、合成音声の音質を改善
– 系列の変調スペクトル (MS: Modulation Spectrum)を本発表で導入
提案法: 変調スペクトルを補償するポストフィルタ
– 生成パラメータ系列に対して、事前学習したフィルタを適用
/15
HMM音声合成の枠組み
3
HMM
freq
Time 自然音声のパラメータ系列
HMM学習
freq
Time
合成音声のパラメータ系列
パラメータ 生成
[Zen et al., 2009.]
ある次元のパラメータ系列を見てみると・・・?
/15
自然/合成音声のパラメータ系列
4
自然/合成音声のパラメータ系列の違いとは?
Time
HMM [Zen et al., 2009.]
Natural speech
HMM+GV [Toda et al., 2007.]
4th
me
l-ce
pst
ral c
oef
fici
ent
/15
変調スペクトル(MS: Modulation Spectrum)
変調スペクトルを、パラメータ系列の対数振幅スペクトルと定義
– 系列の周波数変動を表現するパラメータ
– 先行研究における有効性
• 音声知覚におけるスペクトルキュー [Rob et al., 1993.]
• HMMによる音声認識技術の精度向上 [Sriram et al., 2009.]
– 本研究では、系列毎に変調スペクトルを計算
5
離散フーリエ変換 &
対数振幅の計算 変調スペクトル
(MS)
/15
自然/合成音声のパラメータ系列のMS
6
Modulation frequency
Mo
du
lati
on
sp
ectr
um
(M
S)
変調スペクトルの直接補償により、音質改善が期待
“HMM”のMS
“Natural speech”のMS
“HMM+GV”のMS
提案法
7
/15
提案法の処理手順
8
生成部
自然音声 学習
生成
学習部
MSを 計算
MS
確率密度 関数を推定
確率密度関数
MS
生成
MSを 計算 位相を
計算 位相
フィルタ後のMS ポスト フィルタ
/15
学習部: MSの確率密度関数を推定
9
Modulation frequency m
MS
of
d-t
h p
aram
eter
s
equ
ence
Sd(m
)
)G(
,
)G(
, , mdmdd ms N
)N(
,
)N(
, , mdmdd ms N
“HMM”のMSの 確率密度関数
“Natural speech”のMSの 確率密度関数
自然/合成音声のパラメータ系列のMSを正規分布でモデル化
/15
生成部: 生成パラメータのMSを線形変換
10
)N(
,
)G(
,)G(
,
)N(
,1' mdmddmd
mddd mskmskms
“HMM”のMS フィルタ後のMS フィルタ強度係数
変換
Modulation frequency m
MS
of
d-t
h p
aram
eter
s
equ
ence
Sd(m
)
)G(
,
)G(
, , mdmdd ms N
“HMM”のMS
)N(
,
)N(
, , mdmdd ms Nフィルタ後のMS
/15
Time
HMM [Zen et al., 2009.]
HMM+GV [Toda et al., 2007.]
Natural speech
自然音声、従来法/提案法のパラメータ系列
HMM+MS:”HMM”に フィルタリング
11
4th
me
l-ce
pst
ral c
oef
fici
ent
/15
実験条件
評価:
– 適切なフィルタ強度係数の決定 (客観評価)
– 音質改善効果の確認 (主観評価)
手法:
– “HMM”: HMM音声合成 [Zen et al., 2009.]
– “HMM+MS”: “HMM”に提案法を適用
– “HMM+GV”: GVを考慮 [Toda et al., 2007.]
– “HMM+GV+MS”: “HMM+GV”に提案法を適用
12
実験条件
学習データ ATR音素バランス文450文、女性
テストデータ 同53文
スペクトルパラメータ 0~24次のメルケプストラム (提案法を適用)
音源パラメータ 対数F0、5周波数帯域の非周期成分
MSのFFT長 4096 (全データの系列の長さを超える値)
/15
客観評価:適切なフィルタ強度係数
13
ポストフィルタ後のパラメータ系列のHMM・GV・MS尤度を計算
主観評価に用いるフィルタ強度係数を0.85に決定
55
60
65
70
75
80
85
90
95
0 0.25 0.5 0.75 1
-150
-100
-50
0
50
100
0 0.250.50.75 1
-16
-14
-12
-10
-8
-6
-4
-2
0 0.25 0.5 0.75 1
Log
HM
M li
kelih
oo
d
Log
GV
like
liho
od
Log
MS
likel
iho
od
(x0
.00
1)
HMM+MS
HMM+GV+MS
Natural speech
Filter coefficient Filter coefficient Filter coefficient
/15
主観評価:音質改善効果
14
0
0.2
0.4
0.6
0.8
1
HMM HMM+MS HMM+GV HMM+GV+MS Pre
fere
nce
sco
re f
or
spee
ch q
ual
ity
提案法による音質改善を確認
7人に対するプリファレンステストを実施
/15
まとめ
目的
– HMM音声合成による合成音声の音質改善
変調スペクトル(MS)を考慮した提案法
– 合成音声のMSは、自然音声のMSと比較して大きく劣化
– MSを補償するポストフィルタを提案
評価結果
– 従来法と比較して音質改善を確認
今後の予定
– HMM尤度・GV尤度・MS尤度を考慮したパラメータ生成法
15
/15 16 HMM HMM+MS HMM+GV HMM+GV+MS