hmm歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/sigmus2012_slide.pdf · ⇒...

17
歌声合成 HMM歌声合成における ⾳⾼正規化学習の検討 ⾳⾼正規化学習の検討 ○⼤浦圭⼀郎 間瀬絢美 間瀬絢美 南⾓吉彦 徳⽥恵⼀ (名古屋⼯業⼤学) (名古屋⼯業⼤学)

Upload: others

Post on 12-Aug-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

歌声合成HMM歌声合成における⾳⾼正規化学習の検討⾳⾼正規化学習の検討

○⼤浦圭⼀郎間瀬絢美間瀬絢美南⾓吉彦徳⽥恵⼀

(名古屋⼯業⼤学)(名古屋⼯業⼤学)

Page 2: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

はじめにはじめに

• 歌声合成コンピュ タに任意の歌を歌わせる技術– コンピュータに任意の歌を歌わせる技術

– 歌うことなく歌唱を⼿に⼊れることが可能– エンターテイメント分野などでの活躍が期待

• 需要の増加需要の増加– 動画投稿サイトとの相乗効果で若年層を中⼼に普及

増 が増– 利⽤者の増加に伴い歌声合成に対する需要が増加⇒ より⾼精度な歌声合成システムが必要より⾼精度な歌声合成システムが必要

• 合成⽅式隠れマルコフモデル(HMM)に基づく合成– 隠れマルコフモデル(HMM)に基づく合成

Page 3: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

HMM歌声合成 (1/2)HMM歌声合成 (1/2)

HMM合成された

歌声譜面情報歌声+楽譜情報

学習学習 合成合成

• 特徴特徴– 統計的・パラメトリック

• 全⾃動学習• 全⾃動学習• 軽量(数MB)• 多様性(声まね 声混ぜなど)• 多様性(声まね,声混ぜなど)• ⾔語依存性が低い

⼈⼿による調整作業(調教)が不要– ⼈⼿による調整作業(調教)が不要

Page 4: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

HMM歌声合成 (2/2)HMM歌声合成 (2/2)

歌声パラメータ抽出

⾳⾊ ⾳⾼ ビブラ ト静的特徴量+Δ+ΔΔ

歌声データベース ⾳⾊

(メルケプストラム)⾳⾼

(対数基本周波数)ビブラート(振幅,周波数)

楽譜 ラベル変換 HMMの学習

学習部

合成部歌声モデル

合成部

楽譜 ラベル変換 パラメータ⽣成

歌声MLSAフィルタフィルタ

Page 5: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

HMM歌声合成 (2/2)HMM歌声合成 (2/2)

歌声パラメータ抽出

⾳⾊ ⾳⾼ ビブラ ト静的特徴量+Δ+ΔΔ

歌声データベース ⾳⾊

(メルケプストラム)⾳⾼

(対数基本周波数)ビブラート(振幅,周波数)

楽譜 ラベル変換 HMMの学習

学習部

合成部歌声モデル

合成部

楽譜 ラベル変換 パラメータ⽣成

歌声MLSAフィルタパラメトリック? フィルタパラメトリック?

Page 6: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

HMM歌声合成 (2/2)HMM歌声合成 (2/2)

歌声パラメータ抽出

⾳⾊ ⾳⾼ ビブラ ト静的特徴量+Δ+ΔΔ

歌声データベース ⾳⾊

(メルケプストラム)⾳⾼

(対数基本周波数)ビブラート(振幅,周波数)

楽譜 ラベル変換 HMMの学習

学習部

合成部歌声モデル

合成部

楽譜 ラベル変換 パラメータ⽣成

歌声MLSAフィルタ統計的? フィルタ統計的?

Page 7: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

HMM歌声合成 (2/2)HMM歌声合成 (2/2)

歌声パラメータ抽出

⾳⾊ ⾳⾼ ビブラ ト静的特徴量+Δ+ΔΔ

歌声データベース ⾳⾊

(メルケプストラム)⾳⾼

(対数基本周波数)ビブラート(振幅,周波数)

楽譜 ラベル変換 HMMの学習

学習部

合成部歌声モデル

合成部

楽譜 ラベル変換 パラメータ⽣成

歌声MLSAフィルタ調教不要? フィルタ調教不要?

Page 8: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

研究の⽬的研究の⽬的

データベースに無い⾳域の歌声を合成⇒ 既存の歌声データのみで合成歌声の品質向上を⽬指す⇒ 既存の歌声データのみで合成歌声の品質向上を⽬指す

Page 9: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

⾳⾼シフトによる疑似学習データ⾳⾼シフトによる疑似学習デ タ

• ⾳⾼をシフトした疑似学習データで学習 [間瀬らʼ10]デ タで学習 [間瀬ら 10]

半⾳上げる半⾳下げる

⇒ 合成⾳声の⾃然性が向上⇒ 合成⾳声の⾃然性が向上• 主な問題点

– 特定の⾳⾼のみに含まれる特徴をモデル化不可能– シフト量:⼩ ⇒ 合成不可能な⾳域の増加シフト量:⼩ ⇒ 合成不可能な⾳域の増加– シフト量:⼤ ⇒ 学習時間の増加

Page 10: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

⾳⾼の正規化⾳⾼の正規化

• データ不⾜収録できるのは限られた⾳⾼のみ– 収録できるのは限られた⾳⾼のみ

– 全ての⾳⾼を再現できる形が理想⇒ ⾳⾼の正規化が必要

• ⾳⾼正規化⼿法⾳⾼正規化⼿法– 学習データ側の正規化 [才野ら; ʼ10]

対数基本 波数 静的特徴 じ 規化• 対数基本周波数の静的特徴量をあらかじめ正規化したデータを⽤意

– ⾳響モデル側の正規化(提案法)• ⾳⾼を正規化するモデル構造を導⼊⾳⾼を正規化するモデル構造を導⼊

Page 11: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

学習データ側の正規化 (1/2)学習デ タ側の正規化 (1/2)

• 楽譜と歌声のタイミング通常 歌声は楽譜どおりに発声していない– 通常,歌声は楽譜どおりに発声していない

• 正しい⾳符境界が必要• 正しい⾳符境界が必要– ⼈⼿で境界を決定 ⇒ ⾼コスト– ⾃動で境界を推定 ⇒ 推定誤り

Page 12: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

学習データ側の正規化 (2/2)

学習デ タ

HMMの学習特徴量抽出モデル境界学習データの正規化境界

⾳声波形学習データ

⾳符境界 k a e ru no u

歌声の対数基本周波数

系列⾳符の⾳⾼-

学習データ列

歌声の対数基本周波数

系列 学習データ・・

静的特徴量

Δ

対数基本周波数系列と⾳⾼の差

分・・・ ・・Δ

Δ Δ

静的特徴量

Δa e

Δ Δ

Page 13: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

⾳響モデル側の正規化(提案法)

学習デ タ

特徴量抽出 HMMの学習

学習データ列学習データ

学習デ タ列

k a e r u

・・・

歌声の対数基本周波数

系列

静的特徴量

Δ

Δ Δ+ + +

音符の音高

+ + +

Page 14: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

実験条件実験条件

歌声データベース ⼥性1 名による童謡(70分)学習:60分 評価:10分

サンプリング周波数 48kHz量⼦化ビット数 16bit モノラル

分析周期 5ms49次STRAIGHTメルケプストラム+Δ+ΔΔ

特徴量 対数基本周波数+Δ+ΔΔビブラートパラメータ(振幅,周波数)+Δ+ΔΔ

評価⽅法 段階 OS評価⽅法 5段階MOS被験者数 10⼈(15フレーズ/⼈)

学習データに用いた歌声の例

Page 15: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

主観評価実験結果主観評価実験結果

・評価セットオープン10 曲⾳域

自然性が向上

・⾳域C4〜D5

・評価セットオープン10曲自然性が向上 オ プン10曲

・⾳域(半⾳上に移調)C#4〜D#5

自然性が向

Page 16: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

計算時間計算時間

• 60分のデータの学習に⽤いた計算時間⼿法 時間

ベースライン 85時間30分ベ スライン 85時間30分⾳⾼シフト 273時間58分

提案法 93時間0分

– ⾳⾼シフトはベースラインの約3倍の時間が必要提案法はベ スラインと同程度の計算量で学習可能– 提案法はベースラインと同程度の計算量で学習可能

Page 17: HMM歌声合成における ⾳⾼正規化学習の検討uratec/sigmus/SIGMUS2012_slide.pdf · ⇒ ⾳⾼の正規化が必要 • ⾳⾼正規化⼿法 –学習データ側の正規化[才野ら;

むすびむすび

• ⾳⾼正規化学習を⽤いたHMM歌声合成⾳⾼を正規化するモデル構造の導⼊– ⾳⾼を正規化するモデル構造の導⼊

– スペクトル,対数基本周波数と⾳符の⾳⾼の差分,ビブ ト 状態継続⻑ 同時最適化ビブラート,状態継続⻑の同時最適化

学習デ タの⾳域内外での合成⾳声の⾃然性の向上を確認

デモンストレ シ ン

学習データの⾳域内外での合成⾳声の⾃然性の向上を確認

• デモンストレーション