変調スペクトルを考慮したhmm音声合成

16
2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST 09/26/2013 高道 慎之介 戸田 智基 Graham Neubig Sakriani Sakti 中村 (奈良先端大) 日本音響学会 2013秋季研究発表会 2-7-10 変調スペクトルを考慮したHMM音声合成

Upload: naistis

Post on 21-Dec-2014

2.786 views

Category:

Technology


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 変調スペクトルを考慮したHMM音声合成

2013©Shinnosuke TAKAMICHI AHC-Lab, IS, NAIST 09/26/2013

高道 慎之介 戸田 智基

Graham Neubig Sakriani Sakti 中村 哲 (奈良先端大)

日本音響学会 2013年 秋季研究発表会

2-7-10

変調スペクトルを考慮したHMM音声合成

Page 2: 変調スペクトルを考慮したHMM音声合成

/15

発表概要

問題: HMM音声合成 [Zen et al., 2009.] の音質劣化

– HMMの平滑化処理により発生

– 平滑化の影響を定量的に表現する特徴量とは?

2

平滑化を表現する特徴量とは?:

– パラメータ系列の分散 (GV: Global Variance) [Toda et al., 2007.]

HMM音声合成およびGVと比較して、合成音声の音質を改善

– 系列の変調スペクトル (MS: Modulation Spectrum)を本発表で導入

提案法: 変調スペクトルを補償するポストフィルタ

– 生成パラメータ系列に対して、事前学習したフィルタを適用

Page 3: 変調スペクトルを考慮したHMM音声合成

/15

HMM音声合成の枠組み

3

HMM

freq

Time 自然音声のパラメータ系列

HMM学習

freq

Time

合成音声のパラメータ系列

パラメータ 生成

[Zen et al., 2009.]

ある次元のパラメータ系列を見てみると・・・?

Page 4: 変調スペクトルを考慮したHMM音声合成

/15

自然/合成音声のパラメータ系列

4

自然/合成音声のパラメータ系列の違いとは?

Time

HMM [Zen et al., 2009.]

Natural speech

HMM+GV [Toda et al., 2007.]

4th

me

l-ce

pst

ral c

oef

fici

ent

Page 5: 変調スペクトルを考慮したHMM音声合成

/15

変調スペクトル(MS: Modulation Spectrum)

変調スペクトルを、パラメータ系列の対数振幅スペクトルと定義

– 系列の周波数変動を表現するパラメータ

– 先行研究における有効性

• 音声知覚におけるスペクトルキュー [Rob et al., 1993.]

• HMMによる音声認識技術の精度向上 [Sriram et al., 2009.]

– 本研究では、系列毎に変調スペクトルを計算

5

離散フーリエ変換 &

対数振幅の計算 変調スペクトル

(MS)

Page 6: 変調スペクトルを考慮したHMM音声合成

/15

自然/合成音声のパラメータ系列のMS

6

Modulation frequency

Mo

du

lati

on

sp

ectr

um

(M

S)

変調スペクトルの直接補償により、音質改善が期待

“HMM”のMS

“Natural speech”のMS

“HMM+GV”のMS

Page 7: 変調スペクトルを考慮したHMM音声合成

提案法

7

Page 8: 変調スペクトルを考慮したHMM音声合成

/15

提案法の処理手順

8

生成部

自然音声 学習

生成

学習部

MSを 計算

MS

確率密度 関数を推定

確率密度関数

MS

生成

MSを 計算 位相を

計算 位相

フィルタ後のMS ポスト フィルタ

Page 9: 変調スペクトルを考慮したHMM音声合成

/15

学習部: MSの確率密度関数を推定

9

Modulation frequency m

MS

of

d-t

h p

aram

eter

s

equ

ence

Sd(m

)

)G(

,

)G(

, , mdmdd ms N

)N(

,

)N(

, , mdmdd ms N

“HMM”のMSの 確率密度関数

“Natural speech”のMSの 確率密度関数

自然/合成音声のパラメータ系列のMSを正規分布でモデル化

Page 10: 変調スペクトルを考慮したHMM音声合成

/15

生成部: 生成パラメータのMSを線形変換

10

)N(

,

)G(

,)G(

,

)N(

,1' mdmddmd

mddd mskmskms

“HMM”のMS フィルタ後のMS フィルタ強度係数

変換

Modulation frequency m

MS

of

d-t

h p

aram

eter

s

equ

ence

Sd(m

)

)G(

,

)G(

, , mdmdd ms N

“HMM”のMS

)N(

,

)N(

, , mdmdd ms Nフィルタ後のMS

Page 11: 変調スペクトルを考慮したHMM音声合成

/15

Time

HMM [Zen et al., 2009.]

HMM+GV [Toda et al., 2007.]

Natural speech

自然音声、従来法/提案法のパラメータ系列

HMM+MS:”HMM”に フィルタリング

11

4th

me

l-ce

pst

ral c

oef

fici

ent

Page 12: 変調スペクトルを考慮したHMM音声合成

/15

実験条件

評価:

– 適切なフィルタ強度係数の決定 (客観評価)

– 音質改善効果の確認 (主観評価)

手法:

– “HMM”: HMM音声合成 [Zen et al., 2009.]

– “HMM+MS”: “HMM”に提案法を適用

– “HMM+GV”: GVを考慮 [Toda et al., 2007.]

– “HMM+GV+MS”: “HMM+GV”に提案法を適用

12

実験条件

学習データ ATR音素バランス文450文、女性

テストデータ 同53文

スペクトルパラメータ 0~24次のメルケプストラム (提案法を適用)

音源パラメータ 対数F0、5周波数帯域の非周期成分

MSのFFT長 4096 (全データの系列の長さを超える値)

Page 13: 変調スペクトルを考慮したHMM音声合成

/15

客観評価:適切なフィルタ強度係数

13

ポストフィルタ後のパラメータ系列のHMM・GV・MS尤度を計算

主観評価に用いるフィルタ強度係数を0.85に決定

55

60

65

70

75

80

85

90

95

0 0.25 0.5 0.75 1

-150

-100

-50

0

50

100

0 0.250.50.75 1

-16

-14

-12

-10

-8

-6

-4

-2

0 0.25 0.5 0.75 1

Log

HM

M li

kelih

oo

d

Log

GV

like

liho

od

Log

MS

likel

iho

od

(x0

.00

1)

HMM+MS

HMM+GV+MS

Natural speech

Filter coefficient Filter coefficient Filter coefficient

Page 14: 変調スペクトルを考慮したHMM音声合成

/15

主観評価:音質改善効果

14

0

0.2

0.4

0.6

0.8

1

HMM HMM+MS HMM+GV HMM+GV+MS Pre

fere

nce

sco

re f

or

spee

ch q

ual

ity

提案法による音質改善を確認

7人に対するプリファレンステストを実施

Page 15: 変調スペクトルを考慮したHMM音声合成

/15

まとめ

目的

– HMM音声合成による合成音声の音質改善

変調スペクトル(MS)を考慮した提案法

– 合成音声のMSは、自然音声のMSと比較して大きく劣化

– MSを補償するポストフィルタを提案

評価結果

– 従来法と比較して音質改善を確認

今後の予定

– HMM尤度・GV尤度・MS尤度を考慮したパラメータ生成法

15

Page 16: 変調スペクトルを考慮したHMM音声合成

/15 16 HMM HMM+MS HMM+GV HMM+GV+MS