アニモにおける音声技術への取り組み - xml...
TRANSCRIPT
Copyright©2001 ANIMO Limited. All rights reserved 1
第5回VoiceXML部会資料第5回VoiceXML部会資料
アニモにおける音声技術への取り組み アニモにおける音声技術への取り組み
平成13年12月21日
株式会社アニモ
Copyright©,2000-2002 The XML Consortium, All rights reserved.
Copyright©2001 ANIMO Limited. All rights reserved 2
株式会社株式会社アニモアニモ のご紹介のご紹介
1.設立 平成6年8月5日[富士通ベンチャー第一号として設立]
2.所在地 神奈川県横浜市中区尾上町2-27(朝日生命横浜関内ビル)
3.従業員 38名4.社名の由来 ポルトガル語で「元気!」
会社概要会社概要
事業内容事業内容
Voice Technology Voice Technology
Security Security
Edutainment Edutainment
Welfare Welfare
1.音声関連「基礎技術」の研究開発および製品販売2.音声認証、マルチバイオメトリクス応用技術の開発3.音と医療、福祉分野の事業開発、バリアフリー・コミュニティの開発と運営4.自社開発技術をもった音声技術コンサルおよびシステム開発
VoiceBaseⅡ(音声・音響信号処理ライブラリ)SUGI SpeechAnalyzer(音声分析・表示ソフトウェア)Fujitsu VoiceSeries(合成・認識エンジン), FineSpeech(高品質音声合成エンジン)
VoiceGATEⅡ, VoiceGATE Extension(本人認証)VoiceSync(話者照合・話者検索)音声認証サーバVoicePassport(多段階認証システム)
VoiceClinic(声紋分析エンタテイメント・コンテンツ)メルポリ(メール文章診断コンテンツ)音相ネーミングサービス(姓名分析、社名・商品名イメージ分析コンテンツ)
花鼓Ⅱ(失語症リハビリ支援システム)スピーチトレーナー(聴覚障害児のための発声発話訓練システム)アニモネットワークサークル(聴覚障害者の社会参加支援活動)
Copyright©2001 ANIMO Limited. All rights reserved 3
Voice TechnologyVoice Technology
Copyright©2001 ANIMO Limited. All rights reserved 4
VoiceBaseIIVoiceBaseII
nn 音声・音響信号処理ライブラリ音声・音響信号処理ライブラリ
nn 豊富な関数群豊富な関数群nn 音声処理ライブラリ音声処理ライブラリ63関数63関数
nn 音響編集ライブラリ音響編集ライブラリ70関数70関数
nn アニモの音声技術のベースアニモの音声技術のベース
Copyright©2001 ANIMO Limited. All rights reserved 5
SUGI SpeechAnalyzer
nn 音声研究、音声教育向け音声分析・表示ソフト音声研究、音声教育向け音声分析・表示ソフト
nn 監修・著 杉藤美代子先生監修・著 杉藤美代子先生 (音声言語研究所長)(音声言語研究所長)
nn 機能機能
nn 音声波形表示機能音声波形表示機能
nn スペクトル分析・表示機能スペクトル分析・表示機能
広帯域、狭帯域 広帯域、狭帯域
nn ピッチ抽出機能、修正機能ピッチ抽出機能、修正機能
Copyright©2001 ANIMO Limited. All rights reserved 6
FineSpeechFineSpeech ~~高品質音声合成高品質音声合成~~
◆◆ 従来に比べ格段になめらかで自然な合成音声生成を実現従来に比べ格段になめらかで自然な合成音声生成を実現 コーパスベース波形生成アルゴリズムを採用
◆◆ 抜群のマルチスレッド性能を実現抜群のマルチスレッド性能を実現 32多重@550MHz PⅢ
音声合成向けに最適化したソフトウェアアーキテク チャ、プログラムコードを採用
◆◆ Fujitsu Fujitsu VoiceSeriesVoiceSeries の資産を継承の資産を継承 富士通独自の高機能API、および広く利用されている富 士通独自の音声合成用中間表記(富士通表音文字列) をサポート (MS SAPI5.0にも対応済)
Copyright©2001 ANIMO Limited. All rights reserved 7
SecuritySecurity
Copyright©2001 ANIMO Limited. All rights reserved 8
『音声認証』プロダクトの推移『音声認証』プロダクトの推移
音声認証サーバVoicePassport音声認証サーバ音声認証サーバ
VoicePassportVoicePassport
VoiceGATEⅡVoiceGATEVoiceGATEⅡⅡ
VoiceGATEExtension
VoiceGATEVoiceGATEExtensionExtension
1996年 2000年 2001年 2002年
VoiceGATEVoiceGATEVoiceGATE
VoiceGATEⅡにフリーワード
認証方式を追加
音声入力機能DB連携機能等
を搭載したサーバソフト
VS2000IVRシステムとの連携
VoiceGATEVoiceGATEⅡⅡの機能改善点の機能改善点1.新機能アルゴリズムの導入(1)処理速度向上(10倍)、 データ量大幅軽減(10分の1)(2)有効音声/キーワード切り出し
性能強化 「えー、アオヤマですけれど・」
(3)強化版ノイズキャンセラー採用(4)特徴データセット方式による経年
経時変化への対応
2.多重照合方式の採用 従来: 1対1照合 今回: 多対1照合
VoiceScriptVoiceScript2000/Option2000/Option
Copyright©2001 ANIMO Limited. All rights reserved 9
EdutainmentEdutainment
Copyright©2001 ANIMO Limited. All rights reserved 10
VoiceClinicVoiceClinic
nn 声の分析により、健康状態、性格、相性を診断する声の分析により、健康状態、性格、相性を診断するエンタテインメントサービスエンタテインメントサービス
nn 15万人の声のクラスタリングに基づく診断ロジック15万人の声のクラスタリングに基づく診断ロジックnn キーワード: キーワード: ““I LOVE YOUI LOVE YOU””
nn NTTドコモ中央様 情報ダイヤル NTTドコモ中央様 情報ダイヤル #8140#8140nn ピーク時:ピーク時:3030万コール万コール//日日
nn AOLJapan様 インターネットサービスAOLJapan様 インターネットサービス
nn 韓国、台湾、インドネシア、シンガポールでもサービス中韓国、台湾、インドネシア、シンガポールでもサービス中
Copyright©2001 ANIMO Limited. All rights reserved 11
音相ネーミングサービス音相ネーミングサービス
nn 文字列が「どのような響き」を持った言葉かを評価文字列が「どのような響き」を持った言葉かを評価 姓名 姓名, , 会社名会社名, , 製品名製品名, , etc.etc.
nn 音相システム研究所の音相理論に基づいた評価ロジック音相システム研究所の音相理論に基づいた評価ロジック
nn 1,000 1,000 評価評価//日日
@@nifty, BIGLOBE, inifty, BIGLOBE, i--modemode
Copyright©2001 ANIMO Limited. All rights reserved 12
WelfareWelfare
Copyright©2001 ANIMO Limited. All rights reserved 13
花鼓Ⅱ花鼓Ⅱ
nn PCPCの機能を活用した失語症リハビリテーション支援システムの機能を活用した失語症リハビリテーション支援システムnn 視覚・・・写真、イラスト、文字、アニメーション視覚・・・写真、イラスト、文字、アニメーションnn 聴覚・・・ナレーション、特定周波数刺激聴覚・・・ナレーション、特定周波数刺激nn 触覚・・・振動刺激触覚・・・振動刺激
などの五感を効果的に活用し、「ことば」および「ことば」になどの五感を効果的に活用し、「ことば」および「ことば」に結びついている概念を再構成結びついている概念を再構成
nn 東京慈恵会医科大学監修東京慈恵会医科大学監修
nn 約約300300病院病院//施設へ導入済施設へ導入済
Copyright©2001 ANIMO Limited. All rights reserved 14
アニモネットワークアニモネットワーク
nn 聴覚・視覚障害者向けコミュニティサービス聴覚・視覚障害者向けコミュニティサービス
nn 運営: 日本フィランソロピー協会運営: 日本フィランソロピー協会
nn 技術支援: (株)アニモ技術支援: (株)アニモ
nn 提供サービス提供サービスnn 手話による手話によるPCPC教室教室
nn 手話ができる添乗員つき海外旅行手話ができる添乗員つき海外旅行nn 週刊誌音読サービス週刊誌音読サービス (声の花束)(声の花束)
nn バリアフリーバリアフリーWebWebサイトデザインサイトデザイン
nn ボランティア支援ボランティア支援
Copyright©2001 ANIMO Limited. All rights reserved 15
Speaker Recognition
Copyright©2001 ANIMO Limited. All rights reserved 16
話者認識とは?話者認識とは?
話者認識 話者認識 Speaker RecognitionSpeaker Recognition
話者照合話者照合 Speaker Verification (1:1)Speaker Verification (1:1) 入力した音声が、その本人のものかどうかを判定入力した音声が、その本人のものかどうかを判定
話者識別話者識別 Speaker Identification (1:n)Speaker Identification (1:n) 入力した音声が、n人のうちの誰の声にもっとも似ているかを判定入力した音声が、n人のうちの誰の声にもっとも似ているかを判定
Copyright©2001 ANIMO Limited. All rights reserved 17
音声認証のメリット音声認証のメリット
nn コストおよび使い勝手コストおよび使い勝手n 電話機が使える・・・日本では1億台、世界では?
認証用専用装置が不要n 安価なパソコン用マイクで利用可能・・・インターネット/イントラネット 世界中から利用可能
nn 他のバイオメトリクス技術との決定的な差他のバイオメトリクス技術との決定的な差n 音声認識(入力)・合成(応答)技術の活用
高齢者、視覚障害者等にキーボード・レスでのサービスが 提供可能(情報バリアフリー)n 言葉は“人の意思”を明確に表現できる
コンピュータと柔軟性に富んだ意思疎通
Copyright©2001 ANIMO Limited. All rights reserved 18
2つの音声認証エンジン2つの音声認証エンジン
nn VoiceGATEVoiceGATEⅡⅡ(キーワード認証方式エンジン)n 氏名など固定キーワードを1秒程度(6音節以上)入力
n 精度:他人受入誤り率1%未満の場合、本人拒否率5%未満n レスポンス:200msec /1秒入力(*1)
nn VoiceGATEVoiceGATE ExtensionExtension(フリーワード認証方式エンジン)n 自由な発話で認証可能n 登録時20秒以上、照合時10秒以上の音声入力n 精度:他人受入誤り率1%未満の場合、本人拒否率1%未満
n レスポンス:300msec/10秒入力(*1)
n 2種のエンジンの組み合わせ(多段階認証)にて、認証精度向上
n 両エンジンともマルチリンガル(言語に非依存)n 各種デバイスに適用(PCマイク/電話)
*1レスポンスはエンジン単体の性能。全体性能は、各ネットワーク環境/システム環境に依存
Copyright©2001 ANIMO Limited. All rights reserved 19
製造物流
各種受付、入退出管理、問合せ業務
行政
旅行
金融
医療
通販
テレホンバンキング
インターネットバンキング
インターネットトレーディング(株式)
チケット予約
マイレージ照会
調達/手配
在庫管理/問合せ
入札
登録・申請・手続き
イントラネット
エクストラネット
電子カルテ
薬品管理
状況確認テレホンショッピング
インターネットショッピング
企業
電話機の普及(国内 1億台)
電子政府、電子商取引
セキュリティとバリアフリーの両立
*1 郵政省「通信白書 平成12年度版」より
電子政府
音声認証の適用分野音声認証の適用分野
Copyright©2001 ANIMO Limited. All rights reserved 20
音声認証デモ音声認証デモ
1. キーワード認証
2. フリーワード認証
VoiceGATE-ExtensionVoiceSync
3. 認証サーバ (キーワード/フリーワード)VoicePASSPORT
VoiceGATEⅡ
Copyright©2001 ANIMO Limited. All rights reserved 21
TextText--toto--SpeechSpeech
Copyright©2001 ANIMO Limited. All rights reserved 22
言語処理言語処理言語処理
音響処理音響処理音響処理
合成音声合成音声
テキストテキスト
単語辞書単語辞書単語辞書
波形辞書波形辞書波形辞書
表音文字列表音文字列
(規則合成)(規則合成)
FineSpeech FineSpeech の処理の流れの処理の流れ
Copyright©2001 ANIMO Limited. All rights reserved 23
波形辞書(ラベル付けされた
音声データ)
1. 山梨県の高校から...
2. 別件の覚せい剤取締法...
3. ...八尾市のJR関西線...
4. 中央アジア最貧国の...5. 韓国と北朝鮮、…
・・・ (~300文)
「山梨県のJR中央線大月
駅で起きた事故は、…」
入力テキスト:
最適接続単位の決定
連結
ピッチ・時間長・振幅の変換
合成音声
合成エンジン
単語、文パターンの出現頻度 を考慮して選択
システム構成システム構成
大規模テキストコーパス
85万文
音響処理 -音響処理 - 波形の生成波形の生成 --
Copyright©2001 ANIMO Limited. All rights reserved 24
【評価結果】 聴取実験によりスコアの向上を確認(被験者7名)自然不自然
1 2 3 4 5
VoiceSeriesVoiceSeries FineSpeechFineSpeech
▲▲
従来技術との比較従来技術との比較
従来技術 新技術
従来技術:
新技術:
補間部分
従来技術と比較して、補間(=品質劣化)部分が30%以下に減少
ニュース2
残高読み上げ1
従来⇒新方式内容
Copyright©2001 ANIMO Limited. All rights reserved 25
言語処理の必要性言語処理の必要性
渋谷様、渋谷駅、渋谷へ、渋谷様、渋谷駅、渋谷へ、渋谷らが、ドクター渋谷、渋谷らが、ドクター渋谷、渋谷公園、渋谷公園、渋谷家渋谷家
例: 姓と地名でアクセントが違う!例: 姓と地名でアクセントが違う!
シブヤシブヤシブヤシブヤ
姓姓 地名地名
Copyright©2001 ANIMO Limited. All rights reserved 26
単語辞書単語辞書
普通名詞普通名詞(54448)(54448),英単語,英単語(27737)(27737),姓,姓(9092)(9092),名,名(17280)(17280),,固有名詞固有名詞(1996)(1996),地名,地名(5685)(5685),人名,人名(138)(138),サ変名詞,サ変名詞(10774)(10774),,副詞副詞(2609)(2609),連体詞,連体詞(106)(106),接続詞,接続詞(128)(128),感動詞,感動詞(207)(207),,五段動詞五段動詞(6293)(6293),上/下一段動詞,上/下一段動詞(2009)(2009),カ変/サ変動詞,カ変/サ変動詞(324)(324),,形容詞形容詞(1304)(1304),形容動詞,形容動詞(3839)(3839),一般記号,一般記号(441)(441),助詞,助詞(79)(79),,助動詞助動詞(139)(139),接頭接尾語,接頭接尾語(1555)(1555),数詞,数詞(177)(177),助数詞,助数詞(606)(606),,活用語尾活用語尾(498)(498),単漢字,単漢字(6694)(6694),その他,その他(43)(43)
合計:合計: 約約15.915.9万万 単語単語
■一般単語辞書の内訳■一般単語辞書の内訳
■単語一エントリの内容■単語一エントリの内容表記,読み,アクセント型(東京方言),品詞(表記,読み,アクセント型(東京方言),品詞(797797種),種),
属性(3種),頻度,助数詞属性属性(3種),頻度,助数詞属性……....
Copyright©2001 ANIMO Limited. All rights reserved 27
0
20
40
60
80
100
0 50000 100000 150000
語彙数(単語)
カバ
ー率
(%)
単語辞書の大きさとカバー率の関係単語辞書の大きさとカバー率の関係
対象:対象: 新聞記事約3ヶ月分新聞記事約3ヶ月分
一般単語一般単語固有名詞・専門用語固有名詞・専門用語
単語辞書単語辞書 ~必要な語彙数は?~~必要な語彙数は?~
Copyright©2001 ANIMO Limited. All rights reserved 28
辞書の内容 単語数 備 考
住所辞書(KUIN2) 150,000 全国 31 万地点
氏名辞書(KUIN2) 360,000 姓 23 万、名 13 万
駅名辞書 12,000 JR,私鉄,地下鉄,市電
学校名辞書 48,000小学校,中学校,高校,高専,短大,大学,各種学校,専修学校
交差点辞書 42,000
※表記、読み、東京山手方言アクセントの情報付※表記、読み、東京山手方言アクセントの情報付
音声合成向け固有名詞辞書音声合成向け固有名詞辞書
Copyright©2001 ANIMO Limited. All rights reserved 29
北海道ホッカ‘イドー
北海道北海道ホッカホッカ‘‘イドーイドー 函館市
ハコダテ‘シ函館市函館市
ハコダテハコダテ‘‘シシ
旭川市アサヒカワ‘シ
旭川市旭川市アサヒカワアサヒカワ‘‘シシ
滝川市タキカワ‘シ
滝川市滝川市タキカワタキカワ‘‘シシ
本町ホ‘ンチョー
本町本町ホホ‘‘ンチョーンチョー
本町モトマチ本町本町
モトマチモトマチ
本町ホ‘ンマチ
本町本町ホホ‘‘ンマチンマチ
・日本全国31万地点の住所を正しく発音するための住所ツリーを構築・日本全国31万地点の住所を正しく発音するための住所ツリーを構築
情報ソース:情報ソース:(財)国土地理開発協会発行の国土行政区画総覧(財)国土地理開発協会発行の国土行政区画総覧
単語数:単語数:145、000語145、000語
音声合成向け住所辞書音声合成向け住所辞書
Copyright©2001 ANIMO Limited. All rights reserved 30
住所辞書有
住所辞書無
東京都中央区日本橋東京都中央区日本橋..大阪市浪速区日本橋大阪市浪速区日本橋..八王子市川町八王子市川町..青梅市成木青梅市成木..旭川市本町旭川市本町..滝川市本町滝川市本町..目黒区自由ケ丘目黒区自由ケ丘..京都市伏見区深草藤森町京都市伏見区深草藤森町..盛岡市内丸盛岡市内丸..新宿区西新宿1-24-2新宿区西新宿1-24-2..
住所読み上げ住所読み上げ
Copyright©2001 ANIMO Limited. All rights reserved 31
時間時間
韻律事例ベース
韻律韻律事例ベース事例ベース
アクセント生成ルールアクセントアクセント生成ルール生成ルール
[[路線路線] ] のの [[方向方向] ] はは [[地名地名]]を先頭にを先頭に [[距離距離] ] のの [[状態状態] ] です。です。ピッチピッチ周波数周波数
名神高速道路名神高速道路 のの 西行き西行きはは 名古屋名古屋を先頭にを先頭に7キロ7キロのの 渋滞渋滞 です。です。
名神高速道路名神高速道路 西行き西行き 名古屋名古屋 7キロ7キロ 渋滞渋滞
++
フレーズ成分、ポーズフレーズ成分、ポーズ
アクセント成分アクセント成分
「韻律はめ込み」の処理「韻律はめ込み」の処理
Copyright©2001 ANIMO Limited. All rights reserved 32
「韻律はめ込み」デモ「韻律はめ込み」デモ
阪神高速神戸線の西行きは、魚崎を先頭に7キロの渋滞です。阪神高速神戸線の西行きは、魚崎を先頭に7キロの渋滞です。
従来方式従来方式 ⇒⇒ 韻律はめ込み方式韻律はめ込み方式
東京方言東京方言 ⇒⇒ 関西弁関西弁
Copyright©2001 ANIMO Limited. All rights reserved 33
11 22 33 44 55不自然不自然 やや不自然やや不自然 どちらともどちらとも
言えない言えない
やや自然やや自然 自然自然
AA BB CC
A: A: 従来方式による韻律従来方式による韻律B: B: 韻律はめ込みによる韻律韻律はめ込みによる韻律C: C: ナレータの発声した韻律ナレータの発声した韻律
「韻律はめ込み」の評価結果「韻律はめ込み」の評価結果
Copyright©2001 ANIMO Limited. All rights reserved 34
お問合せお問合せ
Sound Solution Provider
株式会社アニモ〒231-0015
横浜市中区尾上町2丁目27番 朝日生命横浜関内ビル4階TEL 045-663-8640 FAX 045-663-8627E-mail :[email protected] :http://www.animo.co.jp/