grundlagen der automatischen … · • behindertenunterstützung und -kommunikation:...

153
GRUNDLAGEN DER AUTOMATISCHEN SPRACHERKENNUNG Prof. Dr.-Ing. Dorothea Kolossa Institut für Kommunikationsakustik, Ruhr-Universität Bochum [email protected] 17. Juni 2014

Upload: phunglien

Post on 12-Aug-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

GRUNDLAGEN DER AUTOMATISCHEN

SPRACHERKENNUNG

Prof. Dr.-Ing. Dorothea KolossaInstitut für Kommunikationsakustik, Ruhr-Universität Bochum

[email protected]

17. Juni 2014

Page 2: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1 Einführung

Seit langem ist es eine Traumvorstellung von vielen (besonders von vielen Informatikern) miteinem Computer zu sprechen und verstanden zu werden. Obwohl dieser Traum sicher nochfür eine Weile im Bereich der Wunschvorstellungen bleiben wird, gibt es einige Anwendun-gen, die sowohl nützlich als auch möglich erscheinen. Mit den Grundlagen, die für solcheAnwendungen notwendig sind, soll sich diese Lehrveranstaltung in der Vorlesung und Übungbeschäftigen.

Einige Beispiele für besonders interessante Anwendungsgebiete sind:

• Diktierprogramme: Darunter sind inzwischen einige zu finden, z.B. IBM ViaVoice oderDragon Systems Naturally Speaking, die mit Vokabularien von mehreren hunderttau-send Worten umgehen können. Generell benötigt man dafür ein Training auf den Spre-cher, der das System benutzen soll, und ein geräuscharmes Mikrophon. Letzteres wirdgerne vom Softwarehersteller mitgeliefert.

• Fernbedienung: Gerne würden viele Anbieter beispielsweise von Home-Entertainment-Systemen auch akustische Fernbedienungen anbieten, so dass der Couchtisch von den 5separaten (oder der einen programmierbaren aber gelegentlich nicht optimal nutzbaren)Fernbedienung befreit wäre. Derzeit sind allerdings zwei wichtige Probleme nicht gutgenug gelöst, um das zu realisieren: Sprachbedienungen sind zu geräuschanfällig undvor allem in Bezug auf lange Raumimpulsantworten noch nicht hinreichend robust.

• Fahrzeugnavigation und Telefonie: Einige größere Automobilhersteller bieten inzwi-schen Systeme an, mit denen das Telefon oder das Navigationssystem per Sprachegesteuert werden. Auch hier liegt, wie bei den Diktiersystemen, der Schwerpunkt derArbeit auf der Geräuschbefreiung. Glücklicherweise sind die Raumimpulsantworten inAutos recht kurz, so dass in dieser Hinsicht keine größeren Probleme auftreten.

• Telefonauskunftsysteme: Sowohl die deutsche Bahn als auch viele Banken und andereAnbieter lassen die Benutzer inzwischen mit Sprachdialogsystemen telefonieren. DieTelefonnummer der Deutschen Bahn beispielsweise ist zur Zeit 0800-1507090, was aufjeden Fall ein interessanter Praxisversuch ist.

• Fremdsprachensoftware: Um die Aussprache zu trainieren, bieten einige Firmen inzwi-schen Fremdsprachensoftware mit automatischer Spracherkennung an. Da dort die Vo-kabularien limitiert und die gewünschten Antworten von vornherein vielfach bekanntsind, und da außerdem Headsets benutzt werden, ist das eines der weniger problemati-schen Einsatzgebiete für Spracherkennungs-Systeme.

2

Page 3: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienungkönnen für motorisch eingeschränkte Menschen sicher das Leben erleichtern. Was indieser Hinsicht noch fehlt, sind aber oft auch gute Ideen, wie eine Sprachbedienungso eingesetzt werden kann, dass der maximale Nutzen entsteht. An dieser Stelle liegtwahrscheinlich eine der interessanteren bislang wenig genutzten Schnittstellen zwischenKommunikationswissenschaft, Ergonomie und Softwaretechnik.

• Mobile Computer: Smartphones sollen in Zukunft immer mehr durch Sprache gesteuertwerden. Hier liegt aber ein Problem darin, dass diese Geräte an völlig unterschiedli-chen, verschieden lauten und unterschiedlich stark verhallten Orten genutzt werden unddass die Verwendung eines Headsets oft (z.B. im Freisprechmodus) inakzeptabel ist. Sobleibt trotz des hohen Interesses vieler Hersteller und sicher auch Kunden das primäreEingabemedium zur Zeit noch der Touchscreen.

Auch andere Anwendungen sind natürlich gut denkbar, so dass sich vielleicht die Frage stellenkönnte, warum es nicht häufiger im Alltag Spracherkennungssysteme zu sehen gibt. ZweiAspekte sind dazu wohl wichtig:

• Benutzbarkeit und Zuverlässigkeit Es ist nicht offensichtlich, wie Spracherkennungs-systeme entworfen werden sollten, so dass sie dem Benutzer attraktiver erscheinen alsein Mausklick oder ein anderer Knopfdruck. Oft wünscht man sich, dass das Gerät, dasgerade gesteuert werden soll, exakt und sofort, also ohne Rückfragen, die gewünschteAktion einleitet. Da Spracherkenner immer noch deutlich unter 100% Erkennungsrateliefern, muss meistens eine besondere Situation vorliegen, wie z.B. eine Fahrt im Auto,die man selber zu steuern hat, damit die Verwendung eines Spracherkenners attraktiv ist(über die Spielerei hinaus, die sicher auch ein wichtiger Grund ist, sich mit dem Themazu beschäftigen :) Aber besonders in sicherheitskritischen Anwendungen wird durch diegenannten Aspekte der zuverlässigen und zuverlässig schnellen Reaktion oft der Einsatzvon Spracherkennern völlig unmöglich.

• Programmierbarkeit Spracherkennung ist nicht ganz leicht. Woran das liegt, zeigt derfolgende Abschnitt.

1.1. WARUM IST SPRACHERKENNUNG SCHWIERIG?

Wie schon zu erwarten ist, sieht der zeitliche Verlauf des Schalldrucks sehr unterschiedlichaus, auch wenn das selbe Wort vom selben Sprecher zweimal sehr ähnlich ausgesprochenwird. Das zeigen zum Beispiel die folgenden zwei Bilder, 1.1 und 1.2. Dieses erste Problem,dass ein und der selbe Sprecher das selbe Wort immer wieder anders sagt, wird auch als Intra-sprechervariabilität bezeichnet. Dieses Problem besteht grundsätzlich, unabhängig davon, fürwelche konkrete Anwendung ein Spracherkenner entwickelt werden soll.

Um mit dieser Verschiedenheit des gleichen Wortes umzugehen, arbeitet man in der Spra-cherkennung zunächst einmal meist mit statistischen Methoden, die darauf beruhen, dass mannicht etwa versucht, eine eins zu eins Abbildung der aufgenommenen Sprache auf vorher ge-speicherte Signale von bekannten Worten zu finden, sondern dass man stattdessen ein sehr

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 4: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 0.2 0.4 0.6 0.8 1

−2000

−1500

−1000

−500

0

500

1000

1500

2000

2500

’Seven’, Speaker AR, Version 1

Abbildung 1.1: Erste Version des Worts “Sieben“.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

−2000

−1500

−1000

−500

0

500

1000

1500

2000

’Seven’, Speaker AR, Version 2

Abbildung 1.2: Zweite Version des Worts “Sieben“.

flexibles, statistisches Modell lernt, das beschreiben kann, mit welcher Wahrscheinlichkeit einWort auf eine bestimmte Art ausgesprochen wird.

Trotzdem sind im Zeitbereich die Signale immer noch zu unterschiedlich, als dass manalleine mit statistischen Modellen zufrieden sein könnte. Deswegen werden in allen Spracher-kennungssystemen andere charakteristische Merkmale statt des zeitlichen Verlaufs benutzt.Was man in sehr vielen Fällen als ersten Schritt vornimmt, ist eine Transformation in denSpektralbereich. Weil das Sprachsignal sich recht schnell ändert, wird dazu eine Kurzzeit-

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 5: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Fouriertransformation benutzt, die später noch ausführlich besprochen wird. Hier sind dazuerst einmal nur zwei Anmerkungen wichtig: Wenn man ein Signal kurzzeit-fouriertransfor-miert, heißt das, dass man es in kurze, zeitliche Segmente einteilt, die sich jeweils ein Stücküberlappen. Für jedes dieser Segmente kann man, unter der Annahme, dass das Signal in die-sem Bereich stationär ist, eine Fensterung und anschließend eine Fouriertransformation durch-führen. Die Ergebnisse davon sind für jeden der kurzen Bereiche, die als Frames bezeichnetwerden, Kurzzeitspektren des Signals. Um einen optischen Eindruck von diesen zeitlichenVerläufen zu geben, werden die Betragsspektren der einzelnen Frames farblich codiert undnebeneinandergelegt, so dass entlang der x-Achse der zeitliche und auf der y-Achse der Fre-quenzverlauf zu sehen ist. Die Abbildungen 1.3 und 1.4 zeigen das Ergebnis.

Hier kann man unter anderem erkennen, dass der Verlauf des Spektrogramms von Realisie-rung zu Realisierung schon ähnlicher ist als das im Zeitbereich der Fall wäre, zum anderenaber auch, dass die Unterschiede durchaus noch groß sein können.

Das zweite Problem, dem man begegnet, sind die Unterschiede zwischen verschiedenenSprechern. Diese werden auch als Intersprechervariabilität bezeichnet und sind zwischen denAbbildungen 1.5 und 1.6 zu erkennen.

Dieses Problem tritt natürlich um so stärker in Erscheinung, je größer die Anzahl der Spre-cher ist, mit denen ein System arbeiten soll, und je stärker diese sich unterscheiden. Einigeder Unterschiede zwischen Sprechern, wie zum Beispiel die unterschiedliche Stimmlage (be-schrieben durch die sogenannte Grundfrequenz) und die verschiedene Länge des Vokaltrakts,vor allem zwischen Kindern und erwachsenen Männern, lassen sich relativ gut kompensieren.Andere, wie zum Beispiel die Unterschiede zwischen Muttersprachlern und fremdsprachlichaufgewachsenen, oder auch die Unterschiede zwischen regionalen Dialekten, lassen sich kaumkompensieren und müssen durch entsprechende Trainingsdatensätze neu gelernt werden, oderdas Modell muss im Nachhinein auf die einzelnen Sprecher adaptiert werden.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 6: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Sample

Fre

qu

en

cy

’Seven’, Speaker AR, Version 1

0 2000 4000 6000 8000 100000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Abbildung 1.3: Erste Version des Worts “Sieben“ im Spektralbereich.

Sample

Fre

quency

’Seven’, Speaker AR, Version 2

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Abbildung 1.4: Zweite Version des selben Worts vom selben Sprecher.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 7: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9−2000

−1000

0

1000

2000

’Seven’, Speaker AR, Version 1

Time

Fre

qu

en

cy

’Seven’, Speaker AR, Version 1

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

0.2

0.4

0.6

0.8

1

Abbildung 1.5: Zeit- und Frequenzbereichsdarstellung des Wortes “Sieben“ für Sprecher 1.

0 0.2 0.4 0.6 0.8 1

−4000

−2000

0

2000

4000

’Seven’, Speaker GA

Time

Fre

qu

en

cy

’Seven’, Speaker GA

0 2000 4000 6000 8000 100000

0.2

0.4

0.6

0.8

1

Abbildung 1.6: Zeit- und Frequenzbereichsdarstellung des Wortes “Sieben“ für Sprecher 2.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 8: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Eine weitere Schwierigkeit tritt auf, wenn der Spracherkenner für fließend gesprocheneSprache eingesetzt werden soll. Dann verlangt man vom Sprecher nicht mehr, zwischen zweiWorten unnatürlich lange Pausen zu machen. Das hat aber zur Folge, dass die Wortgrenzen oftvöllig verschwimmen, wie es in Abbildung 1.7 zu erkennen ist.

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2−2000

−1000

0

1000

2000

3000

’One Nine Zero Seven’, Speaker AR

Sample

Fre

qu

en

cy

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

x 104

0

0.2

0.4

0.6

0.8

1

Abbildung 1.7: Fließende Wortgrenzen, auch als Verschleifungen bezeichnet.

Eine weitere Schwierigkeit tritt auf, wenn der Einfluss von Übertragungsfunktionen zu be-rücksichtigen ist. Das können einerseits Raumübertragungsfunktionen oder andererseits auchsuboptimale Komponenten des Aufnahmesystems sein. Der Einfluss äußert sich einerseits inDämpfungen oder Verstärkungen von einzelnen Frequenzen oder Frequenzbereichen wie alsUnterschied zwischen den Bildern 1.8 und 1.9 zu sehen ist, andererseits tritt auch bei langenImpulsantworten, wie sie in großen Räumen zu berücksichtigen sind, zeitliche Verschmierun-gen des Spektrogramms auf, die ganz besonders große Schwierigkeiten verursachen können.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 9: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9−2000

−1000

0

1000

2000

’Seven’, Speaker AR, Version 1

Time

Fre

quency

’Seven’, Speaker AR, Version 1

0 1000 2000 3000 4000 5000 6000 7000 8000 90000

0.2

0.4

0.6

0.8

1

Abbildung 1.8: Originalaufnahme des Wortes “Sieben“.

0 0.2 0.4 0.6 0.8 1

−0.5

0

0.5

1

’Seven’, Speaker AR, Version 1, In−Car

Sample

Fre

qu

en

cy

’Seven’, Speaker AR, Version 1, In−Car

0 2000 4000 6000 8000 100000

0.2

0.4

0.6

0.8

1

Abbildung 1.9: Aufnahme des selben Wortes in leicht verrauschter Umgebung mit begrenzterBandbreite der Übertragungsfunktion.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 10: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Den Einfluss von Störgeräuschen zeigt Bild 1.10. Dieses Signal wurde in einem fahrenden

0 0.2 0.4 0.6 0.8 1

−1

−0.5

0

0.5

’Seven’, Speaker AR, Version 1, In−Car 100km/h

Time

Fre

qu

en

cy

’Seven’, Speaker AR, Version 1, In−Car

1000 2000 3000 4000 5000 6000 7000 8000 9000 100000

0.2

0.4

0.6

0.8

1

Abbildung 1.10: Aufnahme bei -10dB Signal-to-Noise Ratio (SNR).

Auto bei 100km/h aufgenommen und ist für Menschen noch gut verständlich. Die verschie-denen Dimensionen der Schwierigkeit, mit denen es Entwickler von Spracherkennern zu tunbekommen können, zeigt Tabelle 1.1. Entsprechend der Flexibilität hinsichtlich dieser mögli-chen Schwierigkeiten unterteilt man auch allgemein Spracherkenner in

• Sprecherabhängige, sprecheradaptive und sprecherunabhängige Systeme

• mit kleinem (<100), mittlerem und großem (>1000 Worte) Vokabular

• für getrennt oder verbunden gesprochene Sprache.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 11: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Problem besonders wichtig bei Lösungsansätze

Intersprechervariabilität allen Erkennern geeignete FeaturesIntrasprechervariabilität Sprecherunabhängigen Systemen geeignete Features,

SprechernormalisierungVerschleifungen Systemen für fließend Modellierung der

gesprochene Worte WortübergängeÜbertragungssysteme: mobilen Geräten Kompensation der

Verzerrungen Hausgerätesteuerung Übertragungsfunktion,Frequenzgang Trainingsdaten in vielen

Situationen sammelnAber große Probleme in

verhallten Räumen.Rauschen und mobilen Geräten RauschunterdrückungStörgeräusche Hausgerätesteuerung ICA

in Fahrzeugen viele Trainingsdatenan verschiedenen Orten

Tabelle 1.1: Probleme und Lösungsansätze in der Spracherkennung.

1.2. ORGANISATION DER LEHRVERANSTALTUNG

1.2.1. Vorlesung

In der Vorlesung werden wir uns mit folgenden Themen beschäftigen:

Grundlagen

• Spracherzeugung und Phonologie

• Sprachwahrnehmung

• Wahrscheinlichkeitsrechnung und Statistik

Signalverarbeitung

• Signalaufnahme

• Signalanalyse

– Spektralanalyse

– Wahrnehmungsorientierte Analyse

– Cepstrum

– Vektorquantisierung

Spracherkennung

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 12: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• Sprachmodelle

– HMMs

– Gauß’sche Mischungsmodelle

– Neuronale Netze

• Mustererkennung

– Dynamic Time Warping

– Viterbi-Algorithmus

• Training von Spracherkennern

• Clustering-Verfahren

• Viterbi-Training

• Baum-Welch-Algorithmus

• Besonderheiten bei großem Vokabular

– Grammatiken und Sprachmodelle

– Effiziente Suchverfahren

– Parameter Tying

Und wenn die Zeit es erlaubt

Robustheit

• Adaptierung an Sprecher und Umgebung

• Missing-Data-Techniken

1.2.2. Übung

In der Übung wird als Begleitung zur Vorlesung ein vergleichsweise einfacher Erkenner fürfließend gesprochene Ziffernketten programmiert. Dazu sind Vorkenntnisse in Matlab nütz-lich, aber nicht unbedingt notwendig.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 13: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1.2.3. Literaturhinweise

Hier sind ein paar Buchtipps, die für die gesamte Veranstaltung besonders nützlich sind:

Automatische SpracherkennungSchukat-TalamazziniVieweg 1995.www.minet.uni-jena.de/fakultaet/schukat/MYPUB/SchukatTalamazzini95:ASG.pdf

HTK-BookS. Young et. al.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.394.5632&rep=rep1&type=pdf

Fundamentals of Speech RecognitionRabiner and JuangPrentice Hall 1993.

Spoken Language ProcessingHuang, Acero and HonPrentice Hall 2001.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 14: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1.3. SPRACHERZEUGUNG UND KLASSIFIKATION

1.3.1. Phonetik

Mit der menschlichen Spracherzeugung beschäftigt sich die Phonetik, genauer gesagt de-ren Teilgebiet der artikulatorischen Phonetik. Um die Spracherzeugung mathematisch zu be-schreiben, wird dabei das in Bild 1.11 gezeigte Modell häufig verwendet. Hier dient die Lunge

Lunge

StimmlosesSignal

GrundtonPeriodisches Signal

Vokaltrakt+

Stimmbänder

Luftperiodische

Bewegung

offen

*

1 / F0

*

Abbildung 1.11: Grundlegendes, physiologisch motiviertes Modell der Spracherzeugung.

als Quelle, die den Luftstrom für alle weiteren Vorgänge zur Verfügung stellt. An den Stimm-bändern entscheidet sich, ob der Laut stimmhaft oder stimmlos werden soll. Bei stimmlosenLauten sind die Stimmbänder so weit auseinandergezogen, dass sie durch den vorbeigehen-den Luftstrom nicht zu sehr beeinflusst werden, bei stimmhaften Lauten liegen sie aneinan-der und werden durch den Luftstrom in regelmäßigen Abständen auseinanderbewegt und soin Schwingungen versetzt. Die Frequenz dieser Schwingung wird auch als Grundfrequenzbezeichnet. Dieser, je nach Stimmbandstellung periodische oder aperiodische Luftstrom pas-siert anschließend den Vokaltrakt, der als Filter dient und manche Frequenzen betont, anderedämpft. Der Vokaltrakt kann gut als Allpolfilter beschrieben werden, was zum Beispiel zurAnalyse oder Synthese von Sprachsignalen nützlich sein kann. Die Abb. 1.12 zeigt den Vokal-trakt genauer. Die Sprechorgane, die eine besonders Rolle in der Klangerzeugung oder For-mung spielen, werden als Artikulatoren bezeichnet. Dabei unterscheidet man die mehr oderminder bewusst beeinflussten von den nur mitbenutzten, bzw. die aktiven von den passivenArtikulatoren.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 15: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Hintere AlveolenVordere Alveolen

Oberzähne

Oberlippe

Unterlippe

UnterzähneKiefer

Stimmbänder(Glottis)

Zahn damm (Alveolen)Nasenhöle

harter Gaumen

weicher Gaumen(Palatum)

(Velum)

(Uvula)

Nasengang

Zäpfchen

hintere Zungemittlere ZungeZungenrückenZungenspitze

Aktive ArtikulatorenPassive Artikulatoren

Abbildung 1.12: Aufbau des Vokaltraktes.

1.3.2. Klassifikation von Lauten

Um die vielen, verschiedenen Klänge der menschlichen Sprache zu beschreiben, benötigt manzunächst eine kleinste Einheit, die als Basis für ein Beschreibungsalphabet dienen kann. Diesekleinste Einheit bezeichnet man in der Phonetik als Laut oder auch als Phon. Um zu einemSatz von allen möglichen Lauten zu gelangen, ist dann ein systematischer Klassifikations-mechanismus nötig. Dazu gibt es einen weit anerkannten Standard, der auch die Grundlagefür das internationale Phonetische Alphabet (IPA) bildet. 1 Die wichtigste Unterscheidung beidiesem System ist die in Vokale und Konsonanten. Bei Vokalen kann die Luft, der sogenanntePhonationsstrom, weitgehend ungehindert ausströmen, während bei Konsonanten der Vokal-trakt an mindestens einer Stelle stark verengt ist. Dementsprechend klassifiziert man auchKonsonanten nach Art und Ort der Engebildung, wie es in der folgenden Übersicht gezeigt ist.

Im Gegensatz dazu werden die Vokale nach der Stellung der Zunge und der Lippen ein-geteilt, wobei zum einen die Weite der Öffnung und zum anderen der Ort der größten Engeentscheidend sind. Außerdem unterteilt man Vokale in gerundete und ungerundete Vokale.

Als Koordinaten für eine Darstellung der möglichen Vokale kann zum Beispiel Zungenho-

1Das IPA sollte nicht verwechselt werden mit der IPA, der international phonetic association, die das IPAentwickelt hat.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 16: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Artikulations-Ort

-art bilabial alveolar velar glottal labiodental palatal uvular lateral Halbvokal

Plosivep, b t,d k,g Q

Nasalem n ï

Frikative s,z, S,Z x h f,v j χ

Frikationslosel j

Engebildung

Tabelle 1.2: Klassifikation von Konsonanten

Zungen-Vertikallagegeschlossen halboffen offen

i: e: a

Zungen-HorizontallageVordere Mittlere hintere

i:, e: @ u:, o:

Lippenrundunggerundet ungerundet

y:, φ i:, e:

Tabelle 1.3: Klassifikation von Vokalen.

rizontallage und Vertikalstellung dienen, dann erhält man das Vokalviereck, das in Bild 1.13gezeigt ist.

Hecke

,

Vokalviereck derVokalviereck derdeutschen Vokale deutschen Diphtonge

hintenvorne

offen

geschlossenlange

vokale

ähnlich können wasser

kanne

luftdünn

Abbildung 1.13: Vokalviereck, mit Eintragung aller deutschen Vokale und Diphtonge.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 17: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1.3.3. Phonologie

Die Phonologie untersucht die Rolle, die verschiedene Laute in der menschlichen Sprachkom-munikation spielen. Dazu entfernt sie sich von dem Konzept des Phons, das nur die Art derKlangerzeugung als Gruppierungsmerkmal für Laute verwendet, und untersucht stattdessen,welche Klänge in einer konkreten Sprache wichtig zur Übertragung von Informationen sind.So kommen Phonetik und Phonologie zu zwei verschiedenen Alphabeten. Die Phonetik suchtund findet die kleinsten klanglichen Einheiten und kommt dadurch zum „International Pho-netic Alphabet“, das alle Laute umfasst, die von Menschen in irgendeiner Sprache verwendetwerden (jedenfalls, so weit wie diese bekannt sind.) Die Phonologie dagegen unterscheidet inihrem Alphabet nur die kleinsten bedeutungsrelevanten Einheiten, die sogenannten Phoneme.Da diese von Sprache zu Sprache unterschiedlich sind - so unterscheidet das Mandarin vierverschiedene, der kantonesische Dialekt der chinesischen Sprache sogar neun verschiedeneTonhöhen bzw. Tonhöhenvariationen, die die Bedeutung eines Wortes bestimmen, währenddie Tonhöhe in europäischen Sprachen nur zur Unterscheidung von Fragen und Aussagen undzur Übermittlung anderer, z. B. emotionaler, Nebeninformationen dient. Da also die Bedeu-tung in verschiedenen Sprachen anhand von verschiedenen Aspekten der Laute unterschiedenwird, ist auch das Phonem-Alphabet von Sprache zu Sprache unterschiedlich, beispielsweisebildet im Japanischen das r und l ein einziges Phonem. Die einzelnen Laute, die ein Phonemumfasst, werden als Allophone bezeichnet, so hat also das Japanische Phonem /r/ die beidenLaute [r] und [l] als Allophone.2 Um den Satz von Phonemen einer Sprache zusammenzustel-len, gibt es prinzipiell zwei verschiedene Ansätze:

1.3.3.1. Minimalpaaranalyse

In der Minimalpaaranalyse findet man zwei Worte, die sich nur durch einen Laut unterschei-den. Diese beiden unterschiedlichen Laute sind dann offenbar verantwortlich für die Unter-scheidung der Bedeutung und müssen so zu zwei verschiedenen Phonemklassen gehören.Beispielsweise unterscheiden sich die Worte „Fach“ und „wach“ nur im Anlaut und bildendeswegen ein Minimalpaar. So ist klar, dass die Laute „f“ bzw. „w“ zu zwei verschiedenenPhonemen gehören müssen, im deutschen zu den Phonemen /f/ und /w/.

1.3.3.2. Komplementärdistributionsanalyse

Zwei Laute stehen in komplementärer Distribution, wenn sie nie im selben lautlichen Zu-sammenhang vorkommen. Beispielsweise wird im Deutschen der Laut [x] (zweiter Laut in in„ich“) am Wortanfang, nach vorderen Vokalen oder Konsonanten gesprochen, der Laut [ç](in„Dach“) taucht dagegen nur nach hinteren Vokalen auf, so dass diese beiden Laute in kom-plementärer Distribution stehen. Diese Eigenschaft kann auch zur Konstruktion eines Pho-nemalphabets genutzt werden, wobei nur Laute in komplementärer Distribution jeweils demgleichen Phonem zugeordnet werden können. Im beschriebenen Fall beispielsweise werdensowohl [x] als auch [ç] dem Phonem /x/ zugeordnet.

2Um Phoneme und Phone in der Notation zu unterscheiden, werden Phoneme in Schrägstriche, Phone dagegenin eckige Klammern eingeschlossen.

Vorlesung 1 Einführung in die automatische Spracherkennung

Page 18: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

2 Menschliche Sprachwahrnehmung

Die Wahrnehmung von Sprache erfolgt sowohl durch das Gehör als auch visuell. Das zeigtsich beispielsweise daran, dass die menschliche Erkennung von Sprache wesentlich durchdie Präsentation von Bildinformation gesteigert werden kann, was zum Beispiel die Sprach-ausgabe in Form einer Gesichtsanimation attraktiv macht. So ist auch eines der aktuellerenForschungsthemen in der automatischen Spracherkennung die Fusion von mehreren, auch op-tischen, Sensoren. Trotzdem wird sich dieses Kapitel mit ausschließlich der akustischen Wahr-nehmung von Sprache beschäftigen, die natürlich das einfachste und verbreitetste Medium zurSpracheingabe darstellt.

2.1. MENSCHLICHES GEHÖR

Der Mensch kann einen Frequenzbereich von 20 bis 16000Hz wahrnehmen, Kinder bringenes bis zu 20000Hz.1 Das Gehör bietet mindestens in zwei Aspekten eine erstaunliche Wahr-nehmungsfähigkeit.

Intensität: Schalldrücke sind in der Luft auch bei von uns als laut empfundenen Ereignissen sehrgering. Die Einheit des Schalldruckpegels L in dB ist definiert als 20 log p

p0. Dabei ist

der Referenzdruck mit p0 = 20µPa so gewählt, dass er nahe an der durchschnittlichenRuhehörschwelle für reine 2kHz-Sinustöne liegt. Beispielsweise im Vergleich mit dematmosphärischen Druck ist er sehr klein.2

Frequenz: Die Nerven, deren Impulse ja benutzt werden müssen, um akustische Informationen andas Gehirn weiterzuleiten und dort zu verarbeiten, haben eine Refraktärzeit von 2ms.3

Damit könnte man theoretisch nur Schall mit bis zu 500Hz exakt wiedergeben, trotz-dem sind feine Frequenzauflösungen auch im oberen Frequenzbereich möglich. Um daszu bewerkstelligen, ist eine aufwendige mechanische Verarbeitung der Schallimpulsenotwendig.

2.1.1. Aufbau des Gehörapparates

Das Ohr besteht prinzipiell aus drei Teilen, dem äußeren, mittleren und Innenohr. Das äußereOhr besteht seinerseits aus der Gehörmuschel, die es unter anderem durch ihre Richtcharakte-

1Im Vergleich dazu gibt es Tierarten, die auch sehr viel hochfrequentere Schwingungen wahrnehmen können -beispielsweise Hunde hören bis 35000Hz, Wale sogar bis 100000Hz.

2Ein Pascal entspricht einem Druck von einem Newton pro Quadratmeter, der atmosphärische Druck beträgtauf Meereshöhe im Mittel 1013.2hPa.

3Die Refraktärzeit ist die „Erholungszeit“ nach einem Aktionspotential, während derer die Nervenzellen nochnicht erneut feuern können.

18

Page 19: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

ristik erleichtert, sich auf Geräusche aus einer bestimmten Einfallsrichtung zu konzentrieren,aus dem Gehörgang, der vor allem Fremdkörper fernhält, und wird begrenzt vom Trommelfell,das durch Schallwellen zu Schwingungen angeregt wird. Das Mittelohr besteht aus einer etwa1cm3 großen, luftgefüllten Kammer, die über die eustachische Röhre belüftet wird. Im Mittel-ohr bewirken die drei Gehörknöchelchen Hammer, Amboß und Steigbügel eine Impedanzan-passung, die notwendig ist, weil der Schallwiderstand des flüssigkeitsgefüllten Innenohrs sehrviel größer ist als der der Luft, so dass ohne eine entsprechende mechanische Umsetzung derSchall keine nennenswerte Wirkung auf das Innenohr haben würde. Zu dem Zweck werden

Gehörknöchelchen

Ovales Fenster

Ohrtrompete

Trommelfell

Paukenhöhle

Cochlea

Hörnerv

Rundes Fenster

Abbildung 2.1: Aufbau des Gehörs.

von den Gehörknöchelchen, die in Bild 2.1 zu sehen sind, zwei Mechanismen ausgenutzt:

• Druck = Kraft pro Fläche. Da das Trommelfell eine sehr viel größere Fläche hat als derSteigbügel, der am ovalen Fenster die Kraft auf das Innenohr überträgt, kann hier derDruck deutlich, im Mittel etwa um den Faktor 17, gesteigert werden.

• Hebelwirkung. Durch die Hebelwirkung wird der Druck weiter etwa um den Faktor 1,3gesteigert.

Insgesamt erreicht so das gesunde Mittelohr eine Verstärkung um etwa den Faktor 22, so dassca. 60% der Schallenergie in das Innenohr übertragen werden können, während 40% reflektiertwerden. Ohne die Wirkung der Gehörknöchelchen kann bei einem geschädigten Mittelohr nurca. 2% der Energie übertragen werden. Die Aufgabe des Innenohrs schließlich besteht in derFrequenzanalyse des Schalls, was teils auf mechanischem Weg erreicht wird. Genauer gesagtfindet im Innenohr eine Frequenz-Ortsabbildung statt, das heißt, dass Eingangssignale ver-schiedener Frequenz mit Hilfe des Resonanzprinzips auf verschiedenen Stellen des Innenohrszu Anregungen von Neuronen führen. Diese Frequenz-Ortsabbildung wird als Tonotopie be-zeichnet. Um diese Abbildung leisten zu können, besteht das Innenohr aus einer aufgerollten,flüssigkeitsgefüllten Röhre, der sogenannten Cochlea oder Gehörschnecke. Wie diese abge-rollt prinzipiell aussieht zeigt Abbildung 2.2. Entlang der Cochlea ändern sich die Festigkeit

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 20: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

FensterHelicotrema

0.1 mmhohe Resonanz-frequenz (20000 Hz)

0.5 mmniedrige Resonanz-frequenz (20 Hz)

weicherhärter

Abbildung 2.2: Abgerollte Cochlea.

des Proteingewebes und die Breite der Cochlea selbst. Am Anfang ist die Cochlea dünn undfest, zum Ende hin wird sie breiter und flexibler. Und aus dem gleichen Grund, aus dem dün-ne, feste Gitarrensaiten hohe und dicke, lockere Saiten niedrige Resonanzfrequenzen haben,hat auch die Cochlea an ihrem Anfang am ovalen Fenster, wo sie dünn und fest ist, eine hoheResonanzfrequenz von ca 20kHz, während sie an der Spitze, dem Helicotrema, ihre niedrigsteResonanzfrequenz von etwa 20Hz besitzt. Wie aus Abbildung 2.3 zu erkennen ist, trifft derSteigbügel des Mittelohrs am Ovalen Fenster auf die Cochlea und überträgt dort die Schall-energie in die Gehörschnecke. Diese besteht aus drei flüssigkeitsgefüllten Kammern, der Sca-la Vestibuli, der Scala Media und der Scala Tympani. Die Grenze zwischen Scala Tympaniund Scala Media bildet die Basilarmembran, die durch die Schwingungen der Flüssigkeit ander Stelle in Schwingungen versetzt wird, die eine mit der Schallfrequenz korrespondierendeResonanzfrequenz hat. Am anderen Ende der Cochlea, am runden Fenster, wird schließlichwieder die Schwingung der Flüssigkeit gedämpft. Die Wanderwelle, die sich über die Ba-

Scala Vestibuli

Scala Media

Scala Tympani

Rundes Fenster

Ovales Fenster

Helicotrema

Basilarmembran

Reißnersche Membran

Steigbügel

Abbildung 2.3: Prinzipieller Aufbau der Cochlea.

silarmembran bewegt, hat noch in einem vergleichsweise großen Bereich hohe Amplituden,auch wenn nur eine einzelne Frequenz im Schall vorhanden ist. Die hohe Frequenzselektivi-tät des Gehörs wird erst dadurch erreicht, dass eine selektive Verstärkung durch die äußerenHaarzellen stattfindet. Diese äußeren Haarzellen werden durch die Verschiebungen der Tekto-

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 21: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

rialmembran gegenüber der Basilarmembran depolarisiert, was sie zu rhythmischen Kontrak-tionen veranlasst. Dadurch wird die Welle an der Stelle der maximalen Auslenkungen nochweiter, etwa um den Faktor 1000 verstärkt, so dass sie groß genug wird, um die inneren Haar-zellen anzuregen, die dann einen Impuls am Gehörnerv verursachen. Die inneren Haarzellen,von denen es beim Menschen nur etwa 3500 gibt, sind entlang der Cochlea angeordnet. Bis zueiner Anregungsfrequenz von etwa 500Hz lösen sie synchron zum Schallereignis Aktionspo-tentiale aus, danach ist die Feuerrate nichtlinear abhängig von der Signalamplitude. Bis etwa6000Hz besteht aber eine Neigung zur Synchronisation mit der Schallwelle, die auch als Pha-senkopplung bezeichnet wird. Eine genauere Vorstellung vom Aufbau des Corti-Organs, indem diese Verstärkung und Reizauslösung stattfindet, bieten Abbildung 2.4 und 2.5.

Tektorialmembran

innere undäußere

Haarzellen

Hörnerv

Scala Tympani

Basilarmembran

Scala Media

ReißnermembranScala Vestibuli

Ligamentum-Spirale

Abbildung 2.4: Querschnitt durch die Cochlea.

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 22: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Deiter-Zellen

innere Haarzellen äußere Haarzellen

Corti-Tunnel

Hörnervenfasern

Limbus-Spirale

BasilarmembranPfeilerzelle

ReißnermembranTektorialmembran

Abbildung 2.5: Aufbau des Corti-Organs.

2.1.2. Lautheitswahrnehmung

Im Gegensatz zur Schallintensitätspegel LI und zum Schalldruckpegel LP, deren Werte fre-quenzunabhängig aus

LP = 20 logp

p0(2.1)

mit p0 = 20µPa= 20µNm2 für den Schalldruck, bzw

10 logI

I0(2.2)

mit I0 = 10−12 Wm2 für die Schallintensität berechnet werden, ist die Lautheit auf komplexe

Weise von den Signalcharakteristika abhängig. Die empfundene Lautheit eines Tons hängtnichtlinear

• von seiner Amplitude

• seiner Frequenz

• und verschiedenen Zeit- und Frequenzmaskierungseffekten ab.

Um diese Effekte zu beschreiben, wird die Einheit der Lautheit eingeführt, die das Lautstär-keempfinden in sone misst. Für einen Sinuston oder breitbandiges Rauschen sind nichtlineareFunktionen gemessen worden, die die Lautheit in Abhängigkeit von der Signalfrequenz unddessen Pegel angeben. Allgemein hängt aber die Lautheit nicht nur von der Frequenz son-dern vom Frequenzspektrum und nicht nur von der Schallintensität sondern auch von derenVerlauf über die Zeit ab. In DIN 45631 und ISO 532 B sind genormte Messverfahren zur Laut-heitsmessung beschrieben, die auf einer ausführlichen Modellierung dieser Effekte beruhen,wie sie dem Verfahren von Zwicker, siehe [Zwicker1999] zugrunde liegen. Die Modellierungaller dieser Effekte ist besonders wichtig, wenn beispielsweise eine verlustbehaftete Audioco-dierung gesucht wird, die das ästhetische Empfinden und gegebenenfalls die Verständlichkeit

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 23: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

möglichst wenig beeinträchtigt. Auch einige Methoden zur Feature Extraction berücksichtigendiese Maskierungseffekte, da das Themengebiet aber sehr umfangreich ist, werden in dieserVeranstaltung nur an entsprechenden Stellen, soweit erforderlich, weitere Aspekte der Mas-kierung und Lautheitsempfindung behandelt. Schneller zu modellieren und fast universell inSpracherkennungssystemen verwendet ist dagegen die menschliche Frequenzwahrnehmung,die genau wie die Lautstärkeempfindung zwar nichtlinear, trotzdem aber leichter zu modellie-ren ist und im folgenden Abschnitt 2.1.3 beschrieben wird.

2.1.3. Frequenzwahrnehmung

Die Abbildung der Frequenzen auf ihre Resonanzstellen in der Cochlea zeigt schematischAbbildung 2.6. Wie auch in dieser schematischen Darstellung schon klar wird, ist die Abbil-

Ovales Fenster

Rundes Fenster

20 kHz

7 kHz 5 kHz Basilarmembran

4 kHz

3 kHz

600 Hz

Helicotrema

2 kHz

1,5 kHz

400Hz

800 Hz1 kHz

200 Hz

Abbildung 2.6: Frequenz-Ortsabbildung in der Cochlea.

dung der Frequenz auf den Ort keineswegs linear, stattdessen steht ein sehr großer Bereich derCochlea für die Abbildung der niedrigen Frequenzen zur Verfügung und mit steigender Fre-quenz wird die Abbildung immer gröber. Diese physiologische Gegebenheit korrespondiertauch in etwa mit der menschlichen Wahrnehmung von Frequenzen, die sich in verschiedenenwahrnehmungsorientierten Skalen niederschlägt.

2.1.3.1. Skala der westlichen Musik

In der westlichen Musik liegt die Frequenz F2 eine Oktave über F1, wenn sie doppelt so großist, also entspricht eine Oktave einer Verdopplung der Frequenz. Halbtöne werden gebildet,

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 24: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

indem die Oktave in 12 Intervalle eingeteilt wird. Die Wahl dieser Halbtöne hängt sehr von derangestrebten harmonischen Wirkung ab. Wenn ein Instrument auf eine Tonart gestimmt wird,liegen die Halbtöne in ungleichen Verhältnissen zueinander, es ist allerdings auch möglich, denHalbtönen auch wieder jeweils das gleiche Frequenzverhältnis zueinander zu geben. Wenn indiesem Fall, der als gleichstufig temperiert bezeichnet wird, also F2 um einen Halbton über F1

liegt, heißt das: F2 = F1 ·21

12 . Zumindest grob läßt sich aus dieser Darstellung schon erkennen,dass das menschliche Gehör in etwa logarithmisch funktionieren muss, ein doppelt so großempfundener Abstand von F2 zu F1 entspricht ja einem doppelten log( F2

F1 ).

2.1.3.2. Mel-Skala

Läßt man Testhörer den wahrnehmbaren Frequenzbereich in gleich große Intervalle aufteilen,ergibt sich in Einheiten von Hertz eine ungleiche Einteilung, bei der bis etwa 1000Hz die Fre-quenzintervalle angenähert gleich groß sind, während sie bei weiter wachsenden Frequenzenimmer größer werden. Verzerrt man nun die Frequenzskala so, dass gleich groß empfundeneIntervalle auch auf der Skala gleich sind, dann erhält man die Mel-Skala mit der nichtlinearenVerzerrungsfunktion

Mel( f ) = 2595 log10(1 +f

700), (2.3)

deren Parameter durch die oben beschriebenen Experimente bestimmt worden sind 4.

2.1.3.3. Bark-Skala

Misst man die Lautstärke, die ein einzelner Ton bei 1kHz haben muss, um wahrgenommen zuwerden, erhält man im Mittel +3dB als Schwellwert. Benutzt man zwei Töne, die im Abstandvon 20Hz um 1kHz liegen, muss jeder von Ihnen nur noch 0dB als Amplitude haben, umgehört zu werden. Es bleibt also der Gesamtpegel des Schwellwertes konstant, was wenig Er-staunen hervorruft. Nimmt man zwei weitere Töne, mit wieder jeweils 20Hz Abstand, hinzu,ist nun der Schwellwert bei -3dB, bei acht Tönen -6dB. Bis dahin bleibt also der Gesamtpegelweiter konstant. Nimmt man allerdings weitere Töne hinzu, endet bei 1000Hz nach etwa 9Tönen diese Regelmäßigkeit, stattdessen muss nun der Pegel jedes Einzeltones konstant blei-ben, um die Gesamtheit wahrnehmbar zu machen. Dieses Phänomen erklärt man sich durchdas Konzept von der sogenannten kritischen Bandbreite: Das menschliche Gehör integriert in-nerhalb von einer Reihe von Bandpaßfiltern jeweils die Amplitude aller darin liegenden Töneund nimmt einen Ton erst dann wahr, wenn innerhalb der Bandbreite eines Filters ein Schwell-wert überschritten wird. Nimmt man das an, dann kann man mit dem beschriebenen Experi-ment die Bandbreite dieser Filter, die kritische Bandbreite, messen, was auch viele weitereMaskierungseffekte erklären kann. Eine andere Eigenschaft, die zur Messung der kritischenBandbreite verwendet werden kann, ist die Lautheitsempfindung für Rauschen in Abhängig-keit von dessen Bandbreite. Bei diesem Experiment spielt man Rauschen mit einer Bandbreite

4Diese Definition der Mel-Skala wurde von Stanley Smith Stevens eingeführt. Dabei wird dem Ton mit derFrequenz f = 1000 Hertz der Wert von 1000 mel zugeordnet. Später wurde von Eberhard Zwicker eine Mel-Skala definiert, die den Ton mit der Frequenz f = 125 Hertz auf 125 mel abbildet [Zwicker1999]. Abgesehenvon der Normierung sind die beiden Skalen äquivalent.

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 25: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

von 100Hz um eine Mittenfrequenz von beispielsweise 2kHz als Testton ab, und läßt danndie Testhörer die empfundene Lautheit dieses Signals mit dem von breitbandigerem Rauschenvergleichen. Dabei hält man den gesamten Schalldruck des Testsignals konstant. So findetman ganz grob gezeichnet eine Kurve, wie sie in Abbildung 2.7 zu sehen ist. Wie zu erkennen

102

103

1.8

2

2.2

2.4

2.6

2.8

3

3.2

3.4

3.6

3.8

Bandbreite des Rauschens [Hz]

La

uth

eit [

so

ne

]

Abbildung 2.7: Lautheit als Funktion der Bandbreite.

ist, bleibt die empfundene Lautheit des Rauschens so lange konstant, bis die kritische Band-breite erreicht ist. Ab der kritischen Bandbreite nimmt die Lautheitsempfindung bei steigenderRauschbandbreite so lange zu, bis die Lautheit von Breitbandrauschen erreicht ist. Eine aus-führliche Erklärung dieser und vieler weiterer Phänomene mit ausführlicherer Erklärung vielerExperimente findet sich in [Zwicker1999]. Diese beiden und die anderen Versuche bieten nunverschiedene Möglichkeiten, die kritische Bandbreite bei allen Frequenzen zu messen. EineSkala kann man nun aus diesen Meßwerten der kritischen Bandbreite, die übrigens bei allenExperimenten gut korrespondieren, gewinnen, indem man den kritischen Band-Index als Fre-quenzangabe verwendet. Der Konvention nach bekommt das erste kritische Band als Index dieNull. Da es eine kritische Bandbreite von 100Hz aufweist, beginnt die kritische Band-Skala,die Bark-Skala mit

0Hz↔ 0 Bark100Hz↔ 1 Bark. . .

Die Mittenfrequenz bekommt einen Offset von 0.5 Bark, so dass 50Hz genau 0.5 Barkentsprechen.

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 26: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

2.1.3.4. Gerade wahrnehmbare Frequenzunterschiede

Schließlich kann man das menschliche Frequenzempfinden noch untersuchen, indem man te-stet, wie groß ein Unterschied zwischen zwei Frequenzen sein muss, damit er gerade ebenwahrgenommen wird. Dieser Frequenzunterschied wird in der englischen Fachliteratur alsjust audible pitch step bezeichnet, und kann auch als Maß für die Einteilung des hörbaren Fre-quenzbereichs verwendet werden, was dann zwischen 0Hz und 16000Hz eine Skala von 640Schritten ergibt.

2.1.3.5. Vergleich der Skalen

Vergleicht man alle diese Skalen - die Skala der empfundenen Intervallgrößen von 0 bis 2400Mel, die Skala der kritischen Bandbreite von 0 bis 24 Bark und die Skala der gerade wahr-nehmbaren Frequenzunterschiede in 640 Schritten mit der Anordnung der Resonanzfrequen-zen auf der Cochlea, ergibt sich folgende Abbildung 2.8. Daraus läßt sich zumindest eine Tat-

Cochlea

Helicotrema Ovales Fensters

32241680Länge [mm]

6404803201600Anzahl der Schritte

2400180012006000Pitch [mel]

24211815129630Kritische Bänder [Bark]

1684210,50,250Frequenz [kHz]

Abbildung 2.8: Verschiedene Frequenzskalen, bezüglich der Resonanzorte auf der Cochleaweitestgehend linear, nichtlinear bezüglich der Frequenz in [Hz].

sache erkennen: Weder die lineare Frequenz noch eine völlig logarithmische Skala sind gutgeeignet, um die empfundene Tonhöhe zu beschreiben. Demgegenüber bildet die abgerollteCochlea eine Skala, in Bezug auf welche sich die Mel- die Bark- und die Just-Noticeable-Difference-Skala angenähert linear verhalten. Zwar ist dies keine exakte Beziehung, so sinddie Bark- und die Mel-Skala relativ zueinander auch leicht nichtlinear, aber die Annäherungist sehr viel besser, als das entweder eine lineare oder eine logarithmische Skala liefern kann.

2.1.4. Gehörorientierte Frequenzbandanalyse

Ein üblicher erster Analyseschritt auf dem Weg vom zeitlichen Verlauf des Sprachsignals zueinem Sprachfeature, das zur Erkennung geeignet ist, stellt die Fouriertransformation dar, diein einem späteren Abschnitt ausführlicher behandelt wird. Die sich daraus ergebende Fre-quenzskala ist aber zunächst einmal linear, was wie oben dargestellt nicht gut mit dem mensch-

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 27: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

lichen Frequenzempfinden korrespondiert. Um eine bessere Korrespondenz zu erhalten, wirdhäufig aus der Fouriertransformation eine sogenanntes mel-skaliertes Spektrum berechnet. Da-zu geht man in folgenden Schritten vor:

• Suche N (N ≈ 30-50) äquidistante Mittenfrequenzen fm auf der Mel-Skala.

• Berechne die nächstgelegenen Frequenzstützstellen fm′ der Fouriertransformation.

• Lege um die Frequenzstützstellen Dreiecksfilter und summiere alle Fourierkoeffizientengewichtet mit den Dreiecksfunktionen auf.

Bild 2.9 zeigt prinzipiell die Form von Dreiecksfiltern, die hierfür verwendet werden können.

Frequenz

xNxnx1 Energie in jedem Band

Abbildung 2.9: Mel-Filterbank-Koeffizienten.

2.2. LITERATURHINWEISE

[Fasold1984] Fasold, W., Knaak, W. und Schirmer, W. „Taschenbuch Akustik,“ VEBVerlag Technik, Berlin, 1984.

[Lewitt1990] Lewitt, H., Picket, M. und Houde R.A. „Sensory Aids for the HearingImpaired,“ IEEE Press, New York, 1990.

[HTK2002] Young, S. et al. „HTK-Book,“http://htk.eng.cam.ac.uk/prot_docs/htk_book.shtml, Cambridge, 2002.

[Schmidt1993] Schmidt, R. (Hrsg.) „Neuro- und Sinnesphysiologie,“ Springer Verlag,Berlin, Heidelberg, New York, 1993.

[Zwicker1999] Zwicker, E. und Fastl, H. „Psychoacoustics,“ Springer Verlag, Berlin,Heidelberg, New York, 1999.

Vorlesung 2 Einführung in die automatische Spracherkennung

Page 28: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

3 Wahrscheinlichkeitsrechnung

Die klassische Wahrscheinlichkeitsrechnung befasst sich mit Ergebnissen von Zufallsexperi-menten. Ein Zufallsexperiment ist ein Experiment

• zu dem der Raum aller möglichen Ergebnisse bekannt ist,

• bei dem man aber im Voraus den Ausgang eines konkreten Versuchs nicht kennt und

• das unter identischen Bedingungen wiederholt werden kann.

Den Raum aller möglichen Ergebnisse eine Zufallsexperiments bezeichnet man als den Ereig-nisraum Ω.

Wenn dann bei N Versuchen ein Ereignis A ∈ Ω k-mal auftritt, bezeichnet man mit

PN(A) =K

N(3.1)

die relative Häufigkeit von A.

Die Wahrscheinlichkeit von A ist definiert als der Grenzwert der relativen Häufigkeit1:

P(A) = limN→∞

PN(A) = limN→∞

K

N. (3.2)

Eine Zufallsvariable ist eine Funktion

x : Ω→ R, (3.3)

1Man kann Wahrscheinlichkeiten auch ganz anders einführen, unter Verzicht auf relative Häufigkeiten in un-endlich vielen Experimenten. Das zeigt E.T. Jaynes in [Jaynes2003], wo Wahrscheinlichkeiten, ganz grobgesprochen, mit dem Grad der Plausibilität eines bestimmten Ereignisses gleichgesetzt werden, und wo aufinteressante Weise gezeigt wird, warum aus ganz wenigen Annahmen, die alle nur den „gesunden Menschen-verstand“ wiederspiegeln, alle bekannten Regeln der Wahrscheinlichkeitsrechnung folgen.

28

Page 29: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

die den Ereignisraum auf den Raum der reellen Zahlen abbildet, beispielsweise:

x : 7 → 0

8 → 0

9 → 0

10 → 10

B → 2

D → 3

K → 4

As → 11

Grundsätzlich unterscheidet man diskrete und kontinuierliche Zufallsvariablen.

3.0.1. Diskrete Zufallsvariablen

Bei diskreten Zufallsvariablen gibt es nur eine endliche Anzahl möglicher Ereignisse, derenWahrscheinlichkeiten man durch eine sogenannte diskrete Verteilungsdichte beschreiben kann.Ein Beispiel für eine diskrete Zufallsvariable ist der rein hypothetische, faire Würfel, der füralle Zahlen die Wahrscheinlichkeit 1/6 besitzt. Dessen Verteilungsdichte zeigt die Abbildung3.1.

0 1 2 3 4 5 6 7−0.05

0

0.05

0.1

0.15

0.2

a

Diskrete Verteilungsdichte

P(a)

Abbildung 3.1: Verteilungsdichte des idealen Würfels.

Es ist also der Ereignisraum, bestehend aus den Elementarereignissen „1 Auge“ . . . „6 Au-gen“, durch die Zufallsvariable auf die Werte der ganzen Zahlen von 1 bis 6 abgebildet worden,

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 30: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

und für jeden der möglichen Werte a, den die Zufallsvariable X annehmen kann, wird hier inder Verteilungsdichte die Wahrscheinlichkeit P(X = a) dargestellt.

Möchte man nun wissen, wie groß die Wahrscheinlichkeit ist, ein Ergebnis kleiner als odergleich 5 zu würfeln, muss man die Wahrscheinlichkeiten aller möglichen Ereignisse E mitX(E) ≤ 5 aufsummieren. Das Ergebnis solcher Summationen ist die kumulative Verteilungs-dichte, die auch als Verteilungsfunktion bezeichnet wird. Dementsprechend ist also die Vertei-lungsfunktion F definiert als:

F(a) = P(X ≤ a) (3.4)

und kann berechnet werden aus

F(a) =∑

X≤a

P(X = a). (3.5)

Für das Würfelbeispiel (genau wie auch für alle anderen diskreten Verteilungsdichten) siehtdie Verteilungsfunktion wie eine Treppenfunktion aus und ist in Abbildung 3.2 dargestellt.

0 1 2 3 4 5 6 7

0

0.2

0.4

0.6

0.8

1

Diskrete Verteilungsfunktion

F(a)

a

Abbildung 3.2: Verteilungsfunktion des idealen Würfels.

Zufallsvariablen, bei denen alle Werte gleich häufig sind, nennt man auch gleichverteilt.Andere Verteilungsdichten, neben der Gleichverteilung, sind zum Beispiel die Bernoulli-Zu-fallsvariable:

P(X = a) =

pk für a = 1(1 − pk) für a = 0

(3.6)

mit der man unter anderem die Wahrscheinlichkeit beschreiben kann, dass eine Münze auf dereinen oder anderen Seite landet, oder die Binomialverteilung:

P(X = i) =n!

i!(n − i)!pi

k · (1 − pk)n−i (3.7)

Mit der Binomialverteilung kann man beispielsweise ausrechnen, wie wahrscheinlich es ist,dass unter 10 Würfen der obigen Münze zweimal das Ereignis „Kopf“ eintritt:

P(X = 2) =10!

2!8!p2

k · (1 − pk)8. (3.8)

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 31: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Es ist dabei n die Anzahl der Experimente, i die Anzahl der positiven Ereignisse und pk dieWahrscheinlichkeit eines positiven Ereignisses in einem Einzelexperiment. Wie kann man sichdie Binomialverteilung erklären?

3.0.2. Kontinuierliche Zufallsvariablen

Wenn man ein Kontinuum möglicher Ereignisse beschreiben möchte, funktionieren diskreteZufallsvariablen nur noch schlecht. Wenn beispielsweise ein Anfänger auf eine Bowlingbahngeht, und den Ball wie in Abbildung 3.3 in Richtung Kugeln rollt und dabei einen Abwurf-winkel zur Optimalrichtung von α = 9.743457

erzielt, dann ist die Wahrscheinlichkeit genau

dieses Ereignisses p(α = 9.743457) genau Null, da es unendlich viele andere Winkel gibt,

die er genauso gut oder sogar noch wahrscheinlicher hätte treffen können. Auch bei einemProfi würde es übrigens nicht einfacher werden. Selbst dann, wenn jahrzehntelanges Traininggarantiert, dass der Winkel nie um mehr als 1 vom Optimum abweicht, gibt es doch innerhalbder 2 Breite immer noch unendlich viele mögliche Ergebnisse. Um solche Fälle kontinuier-

Abbildung 3.3: Zufallsexperiment im Bowling.

licher Zufallsvariablen zu beschreiben, benutzt man das Konzept einer Verteilungsdichte f .Diese beschreibt die Ableitung der (kumulativen) Verteilungsfunktion F(a) = P(X ≤ a), dasheißt:

f (a) =d

daP(X ≤ a). (3.9)

Bild 3.4 zeigt, wie man diese Funktion benutzt: Wenn die Wahrscheinlichkeit gesucht ist, dassder Abwurfwinkel in einem bestimmten Bereich (hier einmal zwischen -10 und +10) liegt,integriert man die Verteilungsdichtefunktion über diesen Bereich. Das heißt hier also konkret:

P(−10 ≤ α ≤ 10) =

∫ 10

−10f (α)dα. (3.10)

Im Überblick zeigt Abbildung 3.5 noch einmal die wichtigsten Eigenschaften von diskretenund kontinuierlichen Verteilungsdichten und -funktionen.

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 32: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

-10° 10°

f ( )

P(-10° 10°)

90°-90°

Abbildung 3.4: Verteilungsdichte der Abwurfwinkel.

Verteilungsdichte

Normalisierungs-

bedingung

Verteilungsfunktion

Diskret Kontinuierlich

Px(x)

1

fx(x)

Fx(x)

x x

x x

1Fx=P(X x)

0 0

Abbildung 3.5: Diskrete und kontinuierliche Zufallsvariablen.

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 33: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

3.0.2.1. Wichtige kontinuierliche Verteilungsfunktionen

Die einfachste Verteilungsdichtefunktion ist die Gleichverteilung, bei der in einem Bereich a ≤x ≤ b alle Werte gleich wahrscheinlich auftreten. Wie sie aussieht, zeigt grob die Abbildung3.6. Damit die Normalisierungsbedingung für Verteilungsdichten,

∫p(x)dx = 1, erfüllt ist,

fx(x)

xa b

c

Abbildung 3.6: Gleichverteilung.

muss also gelten: ∫ b

a

fX(x)dx =

∫ b

a

cdx = cb − ca!= 1, (3.11)

daraus folgt dann c = 1b−a

. Eine weitere, sehr nützliche Verteilungsdichte ist die Gaußvertei-lung, die früher immerhin berühmt genug war, um auf die 10DM-Scheine gedruckt zu werden.Sie beschreibt, wie sich Zufallsvariablen verteilen, deren Größe von sehr vielen, unabhängigenEinflussfaktoren determiniert wird. Dazu wird später noch mehr gesagt, hier zeigt zunächsteinmal Abbildung 3.7 in etwa die Form. Die Verteilungsdichte lautet:

0 0.5 1 1.5 2 2.5 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

x

fx(x)

µ

σ

Abbildung 3.7: Gaußverteilung.

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 34: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

fgauss(x) =1√

2πσe−

(x−µ)22σ2 , (3.12)

wobei µ den Mittelwert und hier auch das Maximum darstellt und σ die Standardabweichung.Zu diesen beiden Parametern gibt es mehr Informationen im Abschnitt 3.0.3. Die Gaußvertei-lung wird sehr häufig verwendet, so dass sich eine abkürzende Schreibung durchgesetzt hat:

N(x, a, b)de f=

1√

2πbe−

(x−a)2

2b2 , (3.13)

es ist also N(x, a, b) die Verteilung einer gaußverteilten Zufallsvariable x mit dem Mittelwerta und der Standardabweichung b. Eine besonders nützliche Erweiterung der Gaußverteilungist die Gauß’sche Mischverteilung (engl.: Mixture of Gaussians, abgekürzt MOG). Sie istbesonders deswegen beliebt weil

• man mit einer MOG-Verteilung beliebige Verteilungsdichten mit beliebiger Genauigkeitapproximieren kann [Alspach1972] und weil

• es mit dem EM-Algorithmus ein Verfahren gibt, das zum Anpassen einer MOG-Vertei-lung an beliebige Datensätze geeignet ist.

Die Gauß’sche Mischverteilung ist einfach eine gewichtete Summe von einzelnen Gaußver-teilungen:

p(x) =K∑

i=1

γiN(x, µi, σi). (3.14)

Damit sie richtig normiert ist, müssen die Mischungsgewichte γ sich zu 1 addieren:

K∑

i=1

γi!= 1. (3.15)

Ein Beispiel einer MOG-Verteilung wird in Bild 3.8 gezeigt, dort sieht man, wie sie ausse-hen kann, wenn sie aus drei Komponenten (also drei überlagerten Gaußverteilungen) besteht.Schließlich zählt noch die Laplaceverteilung zu den interessanteren Verteilungen dieser Veran-staltung, weil sie besonders gut die Verteilungsdichte von Sprachsignalen annähert. Abbildung3.9 zeigt die Laplaceverteilung im Vergleich mit dem Histogramm eines Sprachausschnitts.Die Verteilungsdichte der Laplaceverteilung lautet

p(x) =1

2be−|x−µ|

b , (3.16)

wobei µ wieder der Erwartungswert und b der Skalenparameter ist.

3.0.3. Eigenschaften von Zufallsvariablen

Der Mittelwert mn einer Zufallsvariablen x ist der mittlere Wert, den sie in n Experimentenangenommen hat:

mn =1

n

n∑

i=1

x(i). (3.17)

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 35: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 0.5 1 1.5 2 2.5 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

x

px(x

)

Abbildung 3.8: Gauß’sches Mischungsmodell.

−0.025 −0.02 −0.015 −0.01 −0.005 0 0.005 0.01 0.015 0.02 0.0250

0.05

0.1

0.15

0.2

0.25Laplaceverteilung und Sprachhistogramm

skalierte Amplitude

Abbildung 3.9: Laplaceverteilung.

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 36: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Beschreibt man die relative Häufigkeitsverteilung nach n Experimenten mit Pn(x) dann kannman also auch folgendermaßen den Mittelwert berechnen:

mn =∑

∀xk

Pn(xk) · xk. (3.18)

Dabei sind die xk alle Werte, die die Zufallsvariable x annehmen kann. Der Erwartungswertist der Limes des Mittelwertes für unendlich viele Versuche:

E(x) = limn→∞

mn (3.19)

= limn→∞

∀xk

Pn(xk) · xk

=∑

∀xk

limn→∞

Pn(xk) · xk

=∑

∀xk

P(xk) · xk

de f= µx.

So definiert, gibt µx also an, was wir als mittleres Ergebnis des durch x beschriebenen Zu-fallsprozesses erwarten können. Wenn man außerdem berechnen möchte, wie weit sich x imMittel von seinem Mittelwert entfernt, wie breit also die Streuung des Zufallsprozesses ist,erweist sich die Standardabweichung

σxde f=

√∑

xk

(xk − µx)2 · p(xk) (3.20)

als günstig. Ihr Quadrat σ2 wird auch als die Varianz von x, Var(x), bezeichnet.

3.0.4. Vektorwertige Zufallsvariablen

Zufallsvariablen dürfen auch in Form von Vektoren auftreten, wo sie mehrere Dimensionenhaben, die voneinander ganz oder auch nur teilweise unabhängig sein dürfen. Im weiterenwerden diese mehrdimensionalen Zufallsvariablen hier als Spaltenvektoren geschrieben, zumBeispiel so:

x =

x1

x2...

xm

Wenn man jetzt den Erwartungswert µx

genauso berechnet, wie das in (3.19) definiert wurde,also über ∑

∀xk

P(xk) · xk, (3.21)

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 37: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

erhält man auch für den Erwartungswert einen Vektor, der die selbe Dimension besitzt wie dieZufallsvariable x:

µx=

µx1µ

x2...

µxm

.

Eine Frage, die bei mehreren Zufallsvariablen (vielleicht x und y) oft auftaucht ist die, wiestark die Variablen miteinander korreliert sind, das heißt, wie weit sie im Mittel gleichzeitigund in die gleiche Richtung von ihren jeweiligen Mittelwerten abweichen. Um diese Frage zubeantworten, muss man also folgenden Ausdruck berechnen2:

Cov(x, y) = E((x − µx)(y − µy)). (3.22)

Sind die interessanten Zufallsvariablen in einem Vektor zusammengefasst, kann man die Kor-relationen aller Komponenten von x durch eine einzige Operation berechnen, das Ergebnisbezeichnet man als Kovarianzmatrix Cx(x):

Cx(x) = E((x − µx)(x − µx)T ). (3.23)

Welche Dimension hat die Kovarianzmatrix, wenn x aus 3 Elementen besteht? Welche Einträ-ge hat dann Cx(x) im einzelnen?Neben der Kovarianzmatrix ist außerdem die Autokorrelationsmatrix Rx(x) interessant, diesich von der Kovarianzmatrix dadurch unterscheidet, dass der Mittelwert nicht subtrahiertwird:

Rx(x) = E(x xT ). (3.24)

Wie sieht die Autokorrelationsmatrix einer 4-dimensionalen Zufallsvariablen genau aus?Die Autokorrelationsmatrix wird übrigens oft für Zufallsvektoren berechnet, die sich aus ein-zelnen Samples eines Zufallsprozesses zu verschiedenen Zeitpunkten zusammensetzt, wo alsogilt x = [x(t = 0), x(t = T s), x(t = 2T s), ...]T .Auch für 2- und beliebige m-dimensionale Zufallsvariablen kann man das Verhalten über Ver-teilungsdichten beschreiben. Wieder gibt dann das Integral über einen Bereich der Verteilungs-dichte an, wie wahrscheinlich es ist, dass der Zufallsvektor in diesem Bereich liegt:

P(a ≤ x ≤ b, c ≤ y ≤ d) =

∫ d

c

∫ b

a

fxy(x, y)dxdy (3.25)

Hier handelt es sich also, wie auch in Abbildung 3.10 veranschaulicht, um eine mehrdimensio-nale Verteilungsdichte und dementsprechend muss auch das Integral als Flächen-, Volumen-oder allgemein mehrdimensionales Integral ausgeführt werden. Auch hier gilt wieder die Nor-mierungsbedingung ∫ ∞

−∞

∫ ∞

−∞fxy(x, y)dxdy

!= 1, (3.26)

2Damit bestimmt man die Kovarianz, der Korrelationskoeffizient von zwei Variablen ist einfach die auf denBereich −1 ≤ corr ≤ 1 normierte Kovarianz

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 38: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

010

2030

4050

60

0

20

40

600

0.02

0.04

0.06

0.08

0.1

0.12

0.14

xy

p(x

,y)

Abbildung 3.10: 2-dimensionale Gaußverteilung.

(die hier aus Platzgründen nur für den 2-dimensionalen Fall aufgeschrieben ist). Die mehr-dimensionale kumulative Verteilungsfunktion ist wieder die Stammfunktion der Verteilungs-dichte:

Fxy(a, b) =

∫ b

−∞

∫ a

−∞fxy(x, y)dxdy. (3.27)

Ein sehr wichtiges Beispiel für mehrdimensionale Verteilungsfunktionen ist wieder die Gauß-verteilung. Anschaulich sieht man den Verlauf der Verteilungsdichte in Abbildung 3.10, et-was weniger anschaulich lautet die allgemeine multidimensionale Verteilungsdichte für m-dimensionale gaußverteilte Variablen:

fGauss(x) =1

√(2π)m|C|

e−12 (x−µ)T C−1(x−µ). (3.28)

Dabei ist |C| die Determinante der Kovarianzmatrix C. Übrigens ergibt sich für den eindimen-sionalen Fall wieder

fgauss(x) =1√

2πσe−

(x−µ)22σ2 , (3.29)

wenn man die Kovarianzmatrix C mit nur einem Eintrag versieht, dessen Wert σ2 ist.

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 39: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

3.0.5. Konvergenzbegriffe bei Zufallsvariablen

Im Umgang mit deterministischen Sequenzen S ist der Konvergenzbegriff meist unproblema-tisch: eine deterministische Sequenz S (n) konvergiert gegen einen Grenzwert g, wenn für allenoch so kleinen Abstände ǫ von g eine, oft große, Zahl N existiert, so dass alle Werte der Se-quenz für n > N einen kleineren Abstand als ǫ von g haben. Das Konvergenzkriterium lautetalso: S (n) konvergiert gegen g genau dann wenn

∀ǫ∃N : |S (n) − g| ≤ ǫ ∀n > N. (3.30)

Bei Zufallsvariablen ist dieser einfache Test nicht ausreichend, um die vielen möglichen Situa-tionen zu beschreiben, stattdessen werden verschiedene Konvergenzkriterien je nach Situationbenötigt. Um Konvergenz definieren zu können, braucht man zunächst eine Sequenz von Zu-fallsvariablen: X1 . . . XN , mit der Möglichkeit, dass N → ∞, darauf aufbauend werden dannverschiedene Formen von Konvergenz definiert.

3.0.5.1. Konvergenz „in Distribution“

Diese Art der Konvergenz ist auch bekannt als die schwache Konvergenz, und stellt das schwäch-ste der behandelten Kriterien dar. Eine Sequenz von Zufallsvariablen X1 . . . XN konvergiertschwach („in Distribution“) gegen X, wenn die zugehörigen Verteilungsfunktionen F1 . . . FN

gegen die Verteilungsfunktion von X konvergieren, also:

XnD→ X g.d.w. lim

n→∞Fn = F. (3.31)

Diese Art von Konvergenzkriterium benutzt der zentrale Grenzwertsatz: Es seien X1 . . . Xn

eine Menge von identisch verteilten, unabhängigen Zufallsvariablen mit dem Mittelwert µund der Varianz σ2. Dann konvergiert die Verteilung von ihrer normierten Summe Xsn „inDistribution“ gegen die Gaußverteilung mit Mittelwert 0 und Varianz 1. Anders geschriebenheißt das:

Xsnde f=

∑ni=1 Xi − nµ

σ√

n

D→ N(Xs, 0, 1). (3.32)

Hier soll wieder N(x, a, b) eine Gaußverteilung mit Mittelwert a und Standardabweichung bdarstellen.

3.0.5.2. Konvergenz „in Wahrscheinlichkeit“

Eine Folge von Zufallsvariablen X1 . . . XN konvergiert „in Wahrscheinlichkeit“ gegen X, wenndie Wahrscheinlichkeit einer beliebig kleinen, festen Abweichung mit zunehmendem n zu Nullwird:

XnPr→ X g.d.w.∀ǫ : lim

n→∞P(|Xn − X| > ǫ) = 0. (3.33)

Diese Art von Konvergenzkriterium benutzt das schwache Gesetz der großen Zahl. Das schwa-che Gesetz der großen Zahl sagt: Wenn X1 . . . Xn unkorrelierte Variablen mit dem selben Mit-telwert µ und identischer Varianz σ sind, dann konvergiert der Mittelwert ihrer Summe „in

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 40: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Wahrscheinlichkeit“ gegen den Erwartungswert:

∑Ni=1 Xi

N

Pr→ µ. (3.34)

Konvergenz in Wahrscheinlichkeit impliziert schwache Konvergenz.

3.0.5.3. Konvergenz „with Probability 1“

Dies ist ein starkes Konvergenzkriterium, aus Konvergenz „with Probability 1“ kann man aufbeide oben genannte Konvergenzformen schließen. Konvergenz with Probability 1 wird auchals fast sichere Konvergenz, als almost sure convergence und als convergence almost every-where bezeichnet. Eine Folge von Zufallsvariablen X1 . . . XN konvergiert „with probability 1“oder „almost surely“ gegen X, wenn unendlich viel mehr Sequenzen dieser Zufallsvariablenexistieren, die exakt konvergieren, als solche die es nicht tun, anders ausgedrückt

Xna.s.→ X g.d.w. P( lim

n→∞(Xn) = X) = 1. (3.35)

Das Konzept der starken Konvergenz wird vom starken Gesetz der großen Zahl benutzt. Dasstarke Gesetz der großen Zahl sagt: Wenn X1 . . . Xn identisch verteilte, unabhängige Variablenmit dem Mittelwert µ und mit begrenzter Varianz σ2 sind, dann konvergiert der Mittelwertihrer Summe fast sicher gegen den Erwartungswert:

∑Ni=1 Xi

N

a.s.→ µ. (3.36)

3.0.5.4. Konvergenz im r’ten Mittel

Konvergenz im r’ten Mittel bedeutet:

limn→∞

E(|Xn − X|r) = 0. (3.37)

Die wichtigsten Sonderfälle sind r = 1, dann konvergiert Xn „im Mittel“ gegen X und r = 2,dann liegt Konvergenz im quadratischen Mittel vor. Dieser Konvergenzbegriff wird später zurÜberprüfung der Leistungsfähigkeit von Schätzverfahren benötigt.

Links

Wahrscheinlichkeitsrechnung allgemein:http://www.stochastik.jku.at/Kurs_Stochastik/

Konvergenz:http://www.mathematik.uni-ulm.de/stochastik/lehre/ws03_04/wr/skript/

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 41: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

3.1. LITERATURHINWEISE

[Alspach1972] Alspach D. L. und Sorenson H. W. „Nonlinear Bayesian Estimation usingGaussian Sum Approximations,“ IEEE Transactions on Automatic Con-trol, Vol. AC-17, No. 4, August 1972.

[Jaynes2003] Jaynes E. T. „Probability Theory: The Logic of Science,“ Cambridge Uni-versity Press, Cambridge, 2003.

[Koehler2005] Köhler B.-U. „Konzepte der statistischen Signalverarbeitung,“ SpringerVerlag, Berlin, 2005.

[Ross1997] Ross S. M. „Introduction to Probability Models,“ Academic Press, SanDiego, 1997.

Vorlesung 3 Einführung in die automatische Spracherkennung

Page 42: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

4 Klassifikation

Die Klassifikationstheorie beschäftigt sich mit der Frage, wie man gegebene Objekte oderDaten optimal in verschiedene Klassen einteilen kann. Die einfachste Beispielanwendung isteine Einteilung in zwei Klassen, wie zum Beispiel in der Fertigungskontrolle in intakte und de-fekte Teile oder in der Sprachvorverarbeitung in Sprachsegmente und Nicht-Sprachsegmente.Komplexer wird die Situation, wenn beispielsweise dutzende oder auch hunderte von Pho-nemmodellen oder HMM-Zuständen unterschieden werden sollen.

Die probabilistischen Klassifikationsmethoden sind aber in allen diesen Fällen anwendbar,und gehen in den meisten Fällen zurück auf die Verwendung von Verteilungsdichten und Ver-teilungsfunktionen, wobei man annimmt, dass jede Klasse durch ihre eigene Verteilungsfunk-tion von den anderen unterschieden werden kann. Dabei können die Verteilungsfunktionen(die man auch als die probabilistischen Modelle der Klassen bezeichnen könnte) ein- odermehrdimensional und diskret oder kontinuierlich sein, wie es im Überblick auch Abbildung4.1 noch einmal zeigt.

Verteilungs-dichte

Normalisierungs-bedingung

Verteilungs-funktion

Diskret Kontinuierlich

fx(x)

xx

Px(x)

Fx(x)

x x

Fx(x)

Kontinuierlich 2D

1 1

Abbildung 4.1: Verteilungsdichten und Verteilungsfunktionen.

42

Page 43: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

4.1. SATZ VON BAYES

Eine wichtige Frage bei der Klassifikation ist die, wie man Vorwissen auf strukturierte Art indie Entscheidungsfindung einbeziehen kann.

Dazu zeigt Abbildung 4.2 ein sehr kleines Beispiel, in dem die Einbeziehung von Vorwis-sen recht einfach ist. Die Aufgabenstellung ist folgende: Es ist bekannt, mit welcher Wahr-scheinlichkeit es an einem beliebigen Abend regnet. Wie kann man, wenn man die zusätzlicheInformation erhält, dass es am Morgen des betrachteten Tages neblig ist, diese Zusatzinfor-mation einbeziehen, um das Wetter des Abends genauer vorherzusagen? In dem Beispiel hier

Gegeben: Ereignisraum EBeobachtbares Ereignis A: morgens NebelBeobachtbares Ereignis B: abends Regen

E

A, P(A) = 1/3

B, P(B) = 1/6

Abbildung 4.2: Ereignisraum mit zwei Teilräumen.

sollen nicht nur die einzelnen Wahrscheinlichkeiten bekannt sein, sondern außerdem auch dieWahrscheinlichkeiten aller Schnittmengen von Ereignissen. Damit sind auch implizit alle Ab-hängigkeiten der einzelnen Zufallsvariablen gegeben. Um diese festzuhalten, ist in Abbildung4.2 ein (ausnahmsweise eckiges) Venn-Diagramm gezeigt. Dieses veranschaulicht die Wahr-scheinlichkeit des Ereignisses A (eines nebligen Morgens) mit dem Flächenverhältnis von derMenge A zum gesamten Ereignisraum E:

P(A) =F(A)

F(E)=

1

3(4.1)

und genauso ist

P(B) =F(B)

F(E)=

1

6. (4.2)

Möchte man nun das Vorwissen, dass der Morgen neblig war, einbeziehen, um die Wetter-vorhersage für den Abend zu verbessern, kann man den Ereignisraum einschränken auf dieTeilmenge des Morgennebels, also auf die Teilmenge A. Damit erhält man dann die Wahr-scheinlichkeit von B unter Einbeziehung des Vorwissens, dass A wahr ist auch wieder aus denFlächenverhältnissen, aber diesmal nur aus dem Teilbereich in dem A gilt:

P(B|A) =F(B ∩ A)

F(A)=

14

42=

1

3. (4.3)

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 44: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Diese Wahrscheinlichkeit nennt man bedingte Wahrscheinlichkeit und „P(B|A)“ spricht man„Wahrscheinlichkeit von B gegeben A“. Neben der Möglichkeit, Vorwissen einzubeziehen,möchte man manchmal auch Schlussketten umkehren können. Dazu hilft die Umformung von(4.3) in

P(B|A) =P(B ∩ A)

P(A)⇔ P(B ∩ A) = P(B|A)P(A). (4.4)

Genauso muss auch

P(A ∩ B) = P(A|B)P(B) (4.5)

gelten, so dass man letztlich

P(A ∩ B) = P(B|A)P(A) = P(A|B)P(B)

⇔ P(A|B) =P(B|A)P(A)

P(B). (4.6)

als Ergebnis erhält. Das ist der bekannte Satz von Bayes, der auch in einigen Variationennützlich ist. Einerseits kann man zusätzliche Informationen (zum Beispiel die Tatsache C,dass mittags die Sonne geschienen hat) jederzeit hinzunehmen, ohne dass sich etwas an derStruktur der Gleichung ändert:

P(A|B,C) =P(B|A,C)P(A|C)

P(B|C)(4.7)

und andererseits kann man von bedingten Wahrscheinlichkeiten auch durch Summation wie-der auf „bedingungslose“ Wahrscheinlichkeiten, auf sogenannte Randverteilungsdichten bzw.marginal distributions gelangen:

P(A) =∑

∀Bk

P(A|Bk)P(Bk). (4.8)

Diese Vorgehensweise wird Marginalisierung genannt und ist oft ziemlich nützlich. Für kon-tinuierliche Zufallsvariablen geschrieben, ergibt (4.8) den Satz von der totalen Wahrschein-lichkeit

p(a) =

∫ ∞

−∞p(a|b)p(b)db. (4.9)

4.2. ENTWURF VON KLASSIFIKATOREN

Der Satz von Bayes ist für viele probabilistische Lernverfahren sehr nützlich, unter anderemnatürlich auch für das Lernen von optimalen Klassifikationsregeln. Nach welchen Regeln mandabei vorgehen kann, ist das Thema dieses Abschnitts.

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 45: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

4.2.1. Vorüberlegungen zum Entwurf eines Klassifikators

Dazu soll als erstes Beispiel die Sprachpausenerkennung dienen, bei der man aus dem zeitli-chen Verlauf eines Mikrophonsignals erkennen möchte, zu welchen Zeitpunkten ein Sprechergeredet hat und zu welchen Zeiten er still war. Im einfachsten Fall hat man also zwei KlassenK1 und K2, die man unterscheiden möchte: Sprache und Hintergrundgeräusch. Da der zeitli-che Verlauf selbst aus einer übergroßen Menge an Daten besteht, ist bei diesem Problem, wieauch bei sehr vielen anderen Klassifikationsproblemen, die Aufgabe eigentlich zweiteilig:

• Zuerst wird die Dimension der Daten möglichst stark aber trotzdem informationserhal-tend reduziert. Dieser Vorgang ermittelt Werte von charakteristischen Merkmalen, diezur Klassifikation möglichst gut geeignet sind.

• Im nächsten Schritt werden die Merkmale (bzw. Features) dem eigentlichen Klassifika-tor zugeführt.

Natürlich wird man die Schritte (die Festlegung der Klassen, die Suche nach den geeignetenMerkmalen und die nach dem für die Merkmale besten Klassifikator) gelegentlich auch iterie-ren müssen. Beispielsweise könnte sich zeigen, dass für das gegebene Beispiel die Nulldurch-gangsrate zwar eigentlich ein interessantes Merkmal ist, dass die Verteilungsdichtefunktionenallerdings aussieht wie in Bild 4.3. In dem Fall könnte man zunächst durch geeignetere Defi-

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

x

P(x

|k)

P(x|k1)

P(x|k2)

Abbildung 4.3: Erste Verteilungsdichte.

nition der Klassen selbst eine weit bessere Situation erreichen. Es ist generell so, dass sowohlRauschen als auch Reibelaute und Plosive eine recht hohe Nulldurchgangsrate haben, wäh-rend diese bei Vokalen, Halbvokalen und Nasalen tendenziell geringer ist. Hier könnte es alsosinnvoll sein, statt einer einzigen Klasse für Sprache nun zwei Sprachklassen zu definieren, die

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 46: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Frikativ- & Plosivklasse K1 und die Vokalklasse K2, und die Klasse für Nicht-Sprachsegmenteentsprechend in K3 umzubenennen. Das Ergebnis würde dann aussehen wie in Bild 4.4. Wie

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

x

P(x

|k)

P(x|k3)

P(x|k1)

P(x|k2)

Abbildung 4.4: Zweite Verteilungsdichte, bei der die Sprache in zwei Unterklassen, K1 undK2 eingeteilt wurde.

man erkennt, läßt sich die zweite Verteilungsdichte schon einmal durch einfache Gauß’scheModelle beschreiben, man kann also für alle drei Klassen jeweils eine Gaußverteilung alsHypothese annehmen und mit Hilfe dieser Modelle und der später beschriebenen Verfahreneine grobe Klassifikation erreichen. Deutlich besser ist die Situation allerdings, wenn man einweiteres Merkmal, wie zum Beispiel die Signalenergie, hinzuzieht. Dann könnte man einemehrdimensionale Verteilungsdichte erhalten, die beispielsweise wie die Abbildung 4.5 aus-sieht, und sich entsprechend gut und zuverlässig zur Unterscheidung von allen drei Klasseneignet, da hier als zusätzliche Information die Tatsache hinzukommt, dass das Rauschen einedeutlich geringere Energie als stimmhafte Laute und immerhin im Mittel auch eine etwas ge-ringere Energie als stimmlose Laute aufweist. Nachdem nun die Klassen und Merkmale füreine grobe Unterscheidung der Klassen geeignet sind, kann die erste Klassifikation durchge-führt werden.

4.2.2. Der Maximum-Likelihood Klassifikator

Die vielleicht einfachste Möglichkeit zur Klassifikation eines unbekannten Datensatzes - al-so in diesem Beispiel eines Frames des Mikrofonsignals - besteht darin, dass man berech-net, mit welcher Wahrscheinlichkeit man diesen Datensatz erhält, wenn die verschiedenenKlassen auftreten. Dann ordnet man den neuen Datensatz genau der Klasse zu, bei der erdie höchste Wahrscheinlichkeit erhält. Da diese Wahrscheinlichkeit eines Merkmalswertes

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 47: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

01

23

45

0

2

4

6

0

0.2

0.4

0.6

0.8

Energie

Nulldurchgänge

p(x|k)

p(x|k3)

p(x|k2)

p(x|k1)

Abbildung 4.5: Dritte Verteilungsdichte, mit zwei Merkmalen und drei Klassen.

oder -vektors, gegeben die Klasse, auch Likelihood heißt, trägt der Klassifikator den Na-men Maximum Likelihood Klassifikator. Das Bild 4.6 zeigt, wie der Raum aller möglichenMerkmale im eindimensionalen Fall vom Maximum-Likelihood-Klassifikator eingeteilt wür-de. Zusammenfassend schreibt man die Klassifikationsregel auch:

k = arg maxki

p(x|ki). (4.10)

Hier ist k die vom Klassifikator getroffene Klassenentscheidung, ki, i = 1 . . .N sind die Nmöglichen Klassen und p(x|ki) ist die Likelihood des Merkmalsvektors1 innerhalb der Klasseki. Eingesetzt wird der Maximum Likelihood-Klassifikator besonders in den Fällen, wenn

• Die Klassenwahrscheinlichkeiten p(ki) für alle Klassen entweder angenähert gleich odervöllig unbekannt sind und

• eine Fehlklassifikation in jeder Richtung ähnlich hohe Kosten verursacht (anders alszum Beispiel in der Fertigungskontrolle eines Luftfahrzeugherstellers, wo defekte Teilesehr viel teurer sind als eine zweite Kontrolle von möglicherweise inadäquaten Teilen.)

1in diesem Beispiel ist der Merkmalsvektor eindimensional und besteht aus der Nulldurchgangsrate des be-trachteten Frames.

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 48: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

Nulldurchgangsrate

P

P(x|K2)

P(x|K3)

P(x|K1)

Abbildung 4.6: Entscheidungsräume des Maximum-Likelihood Klassifikators.

4.2.3. Bayes’sche Klassifikation

Wenn die Wahrscheinlichkeiten der einzelnen Klassen P(ki) a priori2 bekannt sind, kann manmit diesen das Klassifikationsergebnis im Mittel deutlich verbessern. Dazu bestimmt man bei-spielsweise statt

k = arg maxki

p(x|ki) (4.11)

lieber die wahrscheinlichste Klasse, also

k = arg maxki

p(ki|x). (4.12)

Mit dem Satz von Bayes erhält man dafür den Ausdruck

k = arg maxki

p(x|ki)p(ki)

p(x). (4.13)

Da die Wahrscheinlichkeit eines Merkmalsvektors p(x) von der Klasse ki unabhängig ist, istdas äquivalent zu

k = arg maxki

p(x|ki)p(ki), (4.14)

was die Klassifikationsregel des Bayes-Klassifikators darstellt. Bildlich gesehen, wichtet derBayes-Klassifikator also die Likelihood p(x|ki) noch zusätzlich mit den Klassenwahrschein-lichkeiten, so dass häufige Klassen bevorzugt erkannt werden, wie auch Bild 4.7 zeigt.

2von Vornherein, bevor ein Versuch gemacht wurde. Diese Klassenwahrscheinlichkeiten P(ki) kann man auchals a-priori-Wahrscheinlichkeiten bezeichnen.

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 49: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

Nulldurchgangsrate

P

P(x|K1)*P(K

1)

P(x|K3)*P(k

3)

P(x|K2)*P(K

2)

Abbildung 4.7: Entscheidungsräume des Bayes-Klassifikators, mit P(k1) = P(k2) = 0.3 undP(k3) = 0.6, gestrichelt werden die ungewichteten Likelihood-Werte P(x|ki)dargestellt.

4.2.4. Entwurf optimaler Klassifikatoren

Um einen optimalen Klassifikator entwerfen zu können, muss als erstes festgelegt werden,was unter „optimal“ verstanden wird. Das kann relativ einfach geschehen, indem man jederFehlentscheidung Kosten zuordnet, also eine Kostenfunktion definiert. Dabei kann man zumBeispiel mit dem Ausdruck ci j die Kosten beschreiben, die entstehen, wenn die Klasse i alsKlasse j klassifiziert wird. Bei zwei Klassen, einer Klasse kd mit defekten und einer ko mitTeilen, die ok sind, würde man dann zum Beispiel aus wirtschaftlichen Erwägungen die Ko-stenfunktion folgendermaßen definieren:

• coo = 0

• cdd = 0

• cod = Herstellungskosten, evtl. Entsorgungskosten

• cdo = Haftung, Imageschäden

Was man nun minimieren möchte, sind die im Mittel auftretenden Kosten, also den Erwar-tungswert der Kostenfunktion E(ci j). Um diese Kosten zu beschreiben, definiert man zunächsteine Risikofunktion, welche die zu erwartenden Kosten in Abhängigkeit von der getroffenenKlassifikationsentscheidung darstellt:

R j = E(ci j). (4.15)

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 50: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Damit kann man für jeden beliebigen Merkmalsvektor x und für alle möglichen Klassifika-tionsentscheidungen die zu erwartenden Kosten via

R j(x) = E(ci j) =N∑

i=1

P(i|x)ci j (4.16)

berechnen. Dabei ist i die wahre Klasse, die den Daten zugrundeliegt, und j ist die, die vomKlassifikationsverfahren „erkannt“ wird. Schließlich trifft man für den beobachteten Merk-malsvektor x die Klassifikationsentscheidung, mit der die zu erwartenden Kosten minimiertwerden, also

k = arg minj

R j(x) = arg minj

N∑

i=1

P(i|x)ci j. (4.17)

So ist die Klassifikationsvorschrift vollständig bestimmt, sobald die Entscheidung für eineKostenfunktion ci j gefallen ist.

4.2.4.1. Beispielentwurf eines optimalen Klassifikators

Wählt man die Kostenfunktion folgendermaßen:

ci j =

0 wenn i = j,c sonst,

(4.18)

dann werden alle Fehlentscheidungen gleich hart bestraft. Kurz könnte man die gleiche Ko-stenfunktion auch so formulieren:

ci j = c(1 − δi j). (4.19)

Die Risikofunktion R j, die die erwarteten Kosten angibt, wenn der Klassifikator sich ange-sichts des Merkmalsvektors x für Klasse j entscheidet, erhält man, wie oben beschrieben, alsErwartungswert von ci j. Dazu muss man nur über alle möglichen Klassen summieren:

R j(x) =N∑

i=1

ci jP(i|x)

=

N∑

i=1

c(1 − δi j)P(i|x)

= cN∑

i=1,i, j

P(i|x)

= c[N∑

i=1,i, j

P(i|x) + P( j|x) − P( j|x)]

= c[N∑

i=1,

P(i|x) − P( j|x)]

= c[1 − P( j|x)].

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 51: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Damit ist also die Risikofunktion bei konstanten Kosten:

R j(x) = c − cP( j|x). (4.20)

Um diese Funktion durch Wahl der Klasse j zu minimieren, muss man also P( j|x) maximieren,das heißt

jopt = arg minj

R j(x) = arg maxj

P( j|x). (4.21)

Das ist genau die Klassifikationsregel des Bayes-Klassifikators - dieser ist also immer dannoptimal, wenn

• alle Fehlklassifikation das gleiche Maß an Problemen verursachen und

• wenn man P( j|x) halbwegs zuverlässig berechnen kann.

Weil die Bayes’sche Klassifikationsregel

jopt = arg maxj

P( j|x). (4.22)

immer die Klasse auswählt, deren a-posteriori Wahrscheinlichkeit3 P( j|x) maximal ist, wirder übrigens in der Literatur auch oft als Maximum-a-posteriori-Klassifikator, kurz MAP-Klassifikator, bezeichnet.

4.2.4.2. Beispielentwurf eines anderen optimalen Klassifikators

Der Maximum-Likelihood-Klassifikator aus Abschnitt 4.2.2 kann auch als optimaler Klassifi-kator hergeleitet werden, wenn man dazu die Kostenfunktion

ci j =

0 wenn i = j,

1P(i) sonst,

(4.23)

benutzt. Das heißt, dass man Fehlentscheidungen um so stärker bestraft, je unwahrscheinlicherdie falsch ausgewählte Klasse war. Die Herleitung ist nicht unbedingt für jeden spannend undverläuft nach einem ähnlichen Muster wie die des Bayes-Klassifikators, deswegen befindet siesich im Anhang.

4.3. EINSATZ VON KLASSIFIKATOREN ZUR EINZELWORTERKENNUNG

4.3.1. Wortschatzdefinition

Für die Erkennung einzelner Worte muss zuerst ein Wortschatz definiert werden. Einmal ange-nommen, er bestünde aus den vier Worten „up“,„down“,„left“ und „right“, dann könnte maneine erste Klassenzuordnung definieren:K1 ↔ „up“

3A-posteriori sagt in dem Fall, dass es die Wahrscheinlichkeit der Klasse nach Beobachtung des Feature-Vektorsx ist.

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 52: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

K2 ↔ „down“K3 ↔ „left“K4 ↔ „right“.Außerdem ist es oft sinnvoll, ein Modell hinzuzunehmen, das beschreibt, wie alles andereklingt, also zum Beispiel andere Worte und Hintergrundgeräusche. So ein Auffangmodell wirdauch gerne Garbage-Modell genannt und könnte hier die Klassendefinitionen noch umK5 ↔ garbageergänzen.

4.3.2. Struktur eines einfachen Einzelworterkenners

Modelle für die einzelnen Worte sind etwas komplexer, als die bisher betrachteten „Modelle“P(x|ki), die ja aus einfachen Verteilungsdichtefunktionen bestehen. Als Wortmodelle für Ein-zelworterkenner kann man stattdessen sinnvollerweise HMMs oder auch Neuronale Modellebenutzen, wie sie später noch genauer besprochen werden. Im Moment ist nur eines zum Ver-ständnis wichtig: Ein Wortmodell liefert, analog zu dem, was bei den einfachen Beispielen dieVerteilungsdichtefunktionen tun, die Wahrscheinlichkeit der Merkmalsvektoren. Wenn alsodas Wortmodell für das Wort „up“ trainiert ist, und wenn das Sprachsignal analysiert und in dieMerkmalsvektoren x zerlegt worden ist, kann mit Hilfe des Wortmodells die Wahrscheinlich-keit P(x|„up“) bestimmt werden. Parallel kann man auch alle anderen Wortmodelle benutzen,um die Wahrscheinlichkeiten der Merkmalsvektoren x bezüglich dieser anderen Modelle zubestimmen. Insgesamt sieht das System dann also so aus, wie es die Abbildung 4.8 zeigt. So

AnalyseSprache Merkmale

x„up“

garbage

„down“

„left“

„right“

P(x|„up“) = P(x|k1)

P(x|„down“) = P(x|k2)

P(x|„left“) = P(x|k3)

P(x|„right“) = P(x|k4)

P(x|garbage) = P(x|k5)

Abbildung 4.8: Struktur eines Einzelworterkenners.

erhält man also aus dem Sprachsignal s(t) zuerst die Featurevektoren x und dann mit Hilfe derWortmodelle aus den Features wieder die einzelnen Likelihoods der Klassen P(x|ki). Gesucht

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 53: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

ist dann das Wort, das unter Berücksichtigung der Featurevektoren am wahrscheinlichsten ist,also

k = arg maxki

P(ki|x)

= arg maxki

P(x|ki)P(ki)

P(x). (4.24)

Wieder ist der Term P(x) unabhängig von der Klasse, so dass mit

k = arg maxki

P(x|ki)P(ki) (4.25)

auch die optimale Klasse, also hier das optimale Wort, gefunden wird. Dieser Ausdruck,(4.25), enthält zwei Terme, die gemeinsam zu einer im Bayes’schen Sinn optimalen Erken-nung führen: Die P(x|ki) werden von den Wortmodellen geliefert, den zweiten Teil, P(ki),liefert wenn nötig das sogenannte Sprachmodell, im einfachsten Fall in Form von Wortwahr-scheinlichkeiten.

Anhang - Herleitung des Maximum-Likelihood-Klassifikators

Wenn als Risikofunktion

ci j =1

P(i)(1 − δi j) (4.26)

benutzt wird, ist der Erwartungswert der Kostenfunktion ci j

R j(x) = E(ci j)

=

N∑

i=1

ci jP(i|x)

=

N∑

i=1

1

P(i)(1 − δi j)P(i|x)

=

N∑

i=1,i, j

P(i|x)

P(i)

=

N∑

i=1

P(i|x)

P(i)− P( j|x)

P( j). (4.27)

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 54: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Dieser letzte Term kann mit dem Satz von Bayes umgeformt werden:

R j(x) =N∑

i=1

P(i|x)

P(i)− P( j|x)

P( j)

=

N∑

i=1

P(x|i)P(i)

P(i)P(x)− P(x| j)P( j)

P( j)P(x)

=

N∑

i=1

P(x|i)P(x)

− P(x| j)P(x)

=1

P(x)

N∑

i=1

P(x|i) − P(x| j). (4.28)

Weil P(x) durch die Wahl der Klasse j nicht beeinflusst wird, kann man auch statt (4.28) gleich

R j(x) ∝N∑

i=1

P(x|i) − P(x| j) (4.29)

optimieren. Und weil auch die ganze Summe∑N

i=1 P(x|i) von j unabhängig ist, wird die Risi-kofunktion R j minimal, wenn man

jopt = arg maxj

P(x| j). (4.30)

wählt, was genau die Klassifikationsregel der Maximum-Likelihood-Methode ist.

4.4. LITERATURHINWEISE

[Duda2000] Duda R., Hart P. und Stork D. „Pattern Classification,“ Wiley Inter-science, 2000.

[Gelman2004] Gelman A. et al. „Bayesian Data Analysis,“ CRC Press, Boca Raton,USA, 2004.

[Koehler2005] Köhler B.-U. „Konzepte der statistischen Signalverarbeitung,“ SpringerVerlag, Berlin, 2005.

Vorlesung 4 Einführung in die automatische Spracherkennung

Page 55: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

5 Schätztheorie

5.1. WIEDERHOLUNG ZUR KLASSIFIKATION

Die bisher vorgestellten Klassifikationsverfahren benötigen für jede Klasse k eine dazugehöri-ge Verteilungsdichte der Features, p(x|k). Erst damit können sie die Klassifikation vornehmen.Dazu zeigt Abbildung 5.1 noch einmal kurz den Überblick:

• Zuerst berechnet eine Feature-Extraction-Stufe aus den Rohdaten s (z.B. den Mikrofon-signalen) die Features x, die zur Klassifikation verwendet werden.

• Anschließend werden die Features anhand der Verteilungsdichten der Klasse zugeord-net.

Gegeben: • Klassen k1...kN

(z.B.: k1 = Konsonant, k2 = Vokal, k3 = Rauschen)

• Verteilungsdichten p(x|k1)...p(x|kN)

für die Features x aus: FeatureExtraction

Signals

Feat.x

Abbildung 5.1: Aus den Verteilungsdichten der gegebenen Klassen berechnet ein Klassifika-tor für einen gegebenen Featurevektor x die passendste Zuordnung zu einerKlasse.

55

Page 56: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Zwei Klassifikationsmethoden sind besonders populär. Bei der Maximum-Likelihood-Klassi-fikation werden nur die Likelihoods p(x|ki) für alle Klassen verglichen, und letztlich wird dieKlasse ausgewählt, bei der die beobachteten Features am wahrscheinlichsten sind:

k = arg maxki

p(x|ki). (5.1)

Bei der Bayes’schen Klassifikation dagegen wird auch das Vorwissen über die Klassenwahr-scheinlichkeiten einbezogen, so dass wahrscheinlichere Klassen häufiger ausgewählt werden.Dazu optimiert man die a-posteriori-Wahrscheinlichkeit der Klasse entsprechend

k = arg maxki

p(ki|x) = arg maxki

p(ki)p(x|ki). (5.2)

Wie im Abschnitt 4.2.4 gezeigt wurde, kann man mit diesen beiden Klassifikationsmethodenin Bezug auf unterschiedliche Kostenfunktionen optimale Ergebnisse erhalten. In jedem Fallhängt diese Optimalität aber davon ab, dass in den Likelihood-Funktionen p(x|ki) tatsächlichdie wahren Verteilungsdichten gegeben sind.

5.2. SCHÄTZTHEORIE

5.2.1. Aufgabe der Schätzverfahren

Die Schätztheorie beschäftigt sich genau mit dieser Frage, wie man die Verteilungsdichteneines Datensatzes p(x|k) optimal lernen kann. Dies Problem kann man auf zwei verschiedeneArten angehen, mit sogenannten parametrischen und mit nichtparametrischen Methoden. Hierwerden im folgenden nur die parametrischen Verfahren behandelt, die nichtparametrischenMethoden sind beispielsweise Grundlage von Kernel-Density-Estimation-Verfahren, die aberbisher in der Sprachverarbeitung nur sehr vereinzelt eingesetzt werden. Bei parametrischenMethoden geschieht das Schätzen von Verteilungsdichten in zwei Schritten:

• Erst sucht man eine passende Form einer Verteilung mit freien Parametern,

• anschließend lernt bzw. „schätzt“ man die freien Parameter.

Dabei kann die Verteilungsdichte prinzipiell jede beliebige Art von Verteilungsfunktion sein,in den folgenden Beispielen wird aber als Form der Verteilungsfunktion generell die Gauß-verteilung angenommen. Für die Gaußverteilung ist es besonders sinnvoll, als freie Parameterden Mittelwert und die Varianz zu verwenden. Diese Werte, µ und σ2, werden üblicherweisezu einem Vektor, dem Parametervektor, zusammengefasst. Diesen Vektor, der oft θ genanntwird, muss nun das Schätzverfahren aus den Daten ermitteln. Damit entspricht das Schätzver-fahren einer Methode oder Vorschrift, die Daten x auf einen geschätzten Parametervektor θabzubilden, man könnte also schreiben:

F : x→ θ. (5.3)

wobei F den Schätzalgorithmus oder auch kurz, den Schätzer, darstellt. Die Abbildung 5.1zeigt die Vorgehensweise noch einmal im Überblick.

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 57: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Gesucht: p (x|k)Gegeben: Trainingsdaten der Klasse k

Merkmale x

p (x|K)

zwei Stufige Vorgehensweise: 1. Hypothese über die Form der Verteilungsdichte

z.B. Gaußverteilung, d.h.:

p (x|k) =1

√2πσ2

exp

(−0, 5

(x − µ)2

σ2

)

2. Parameter lernen oder schätzen aus den Traininngsdatenθ = (µ, σ)F : x→ θ

Tabelle 5.1: Ablauf eines parametrischen Schätzverfahrens.

5.2.2. Gütekriterien für Schätzverfahren

Das Schätzverfahren liefert aus den Daten (N vorliegenden Featurevektoren x1 . . . xN) einengeschätzten Parameterwert θ. Um abzuschätzen, wie gut dieses Ergebnis ist, benutzt man alswichtiges Kriterium oft die Erwartungstreue: Ein Schätzer ist erwartungstreu, wenn der Er-wartungswert des geschätzten Parametervektors E(θ) mit dem wahren Wert übereinstimmt,wenn also gilt

E(θ) = θ. (5.4)

Eventuell ist die Erwartungstreue erst dann gegeben, wenn der Schätzer unendlich viele Da-tenpunkte in die Schätzung einbezogen hat. In diesem Fall bezeichnet man den Schätzer alsasymptotisch erwartungstreu und schreibt

limN→∞

E(θN) = θ. (5.5)

Die Erwartungstreue sagt also, ob der Erwartungswert eines Schätzers gegen den wahren Para-meter konvergiert. Damit ist noch nichts über die Größe der möglichen Fehler gesagt (solangesie nur in beide Richtungen im Mittel gleich groß sind). Aussagen über die Größe der Feh-ler erhält man, wenn man die Konsistenz eines Schätzers untersucht. Dabei gilt ein Schätzerals konsistent, wenn die Wahrscheinlichkeit eines mehr als infinitesimal großen Fehlers gegenNull geht:

limN→∞

P(|θN − θ| > ǫ) = 0. (5.6)

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 58: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Das entspricht der Konvergenz in Wahrscheinlichkeit, man könnte also auch kürzer schreiben,dass ein Schätzer konsistent ist, wenn

θNPr.→ θ (5.7)

gilt. Aber auch konsistente Schätzverfahren können, in Abhängigkeit von den Featurevekto-ren, die sie präsentiert bekommen, gelegentlich (wenn auch sehr selten) gegen falsche Werte(oder gar nicht) konvergieren. Wenn das nicht der Fall sein soll, ist starke Konsistenz gefor-dert. Die sagt, dass die Wahrscheinlichkeit dafür, dass der Schätzer gegen den wahren Wertkonvergiert, gleich eins sein soll:

θNA.s.→ θ, (5.8)

entsprechendP( lim

N→∞θN = θ) = 1. (5.9)

Aber asymptotische Fehlerfreiheit sagt nichts über das Verhalten bei nur endlich vielen Da-ten aus, was in der Praxis natürlich besonders wichtig ist. In der Abbildung 5.2 sind die Ver-teilungsdichtefunktionen der Ergebnisse θ von zwei Schätzverfahren für den selben Parametergezeigt. Wie aus der Abbildung hervorgeht, sind beide Schätzer erwartungstreu. Gleichzeitighat aber der eine Schätzer eine geringere durchschnittliche Abweichung vom wahren Para-meterwert, ist also im Mittel besser. Um diesen quantitativen Unterschied zu beschreiben,vergleicht man die Varianzen von Schätzern. Ein Schätzer ist besser, und heißt wirksamer,als ein anderer Schätzer, wenn er für alle möglichen wahren Parameterwerte θ eine kleinereVarianz als der andere Schätzer hat.

θ

P(θ)

θ

E(θ)=θ

E(θ)=θ

Abbildung 5.2: Verteilungsdichtefunktionen der Ergebnisse für zwei unterschiedlich wirksa-me, aber erwartungstreue Schätzer.

5.2.3. Cramer-Rao Lower Bound

Für die Varianz, die man erreichen kann, gibt es allerdings eine Untergrenze: Wie Abbil-dung 5.3 illustriert, kann kein erwartungstreuer Schätzer eine Fehlervarianz unterhalb des

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 59: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Cramer-Rao Lower Bound erreichen. Dass es eine Untergrenze für die mögliche Wirksam-

Var(θ)

untere Schranke:CRLB

θ

Abbildung 5.3: Der Cramer-Rao Lower Bound begrenzt die erreichbare Wirksamkeit der er-wartungstreuen Schätzer.

keit bzw. Genauigkeit der Schätzung gibt, liegt daran, dass in den Daten nur eine begrenzteInformation über die Parameterwerte enthalten ist. Zum Beispiel sei einmal angenommen,dass man eine Spannung u aus einem verrauschten Messwert x bestimmen möchte. Wenn dasRauschen und die zu messende Spannung sich einfach addieren, ist also

x = u + n (5.10)

und das Rauschen n ist eine Zufallsvariable, die nur durch ihre Verteilungsdichte, z.B.

n ∼ N(0, σ2) (5.11)

beschrieben wird. Dann zeigt die Abbildung 5.4 die Verteilungsdichte, die sich daraus für dieMesswerte x ergibt. Wie man sich auch anhand dieses Bildes vorstellen kann, läßt sich ein Pa-rameter um so genauer schätzen, je mehr „Information“ über den Parameter in den gemessenenDaten vorhanden ist. Das Maß, dass sich dafür aus informationstheoretischer Sicht anbietet,ist die „Fisher-Information“, die informell gesprochen die Spitzheit der Verteilungsdichte an-gibt. Sie wird gemessen als zweite Ableitung der logarithmierten Wahrscheinlichkeit, wobei

Px(x)

u

x=u+N(0,σ1)

x=u+N(0,σ2)

x

2

2

Abbildung 5.4: Verteilungsdichten der Messwerte

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 60: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

ein Erwartungswert über alle möglichen Messwerte x gebildet wird. Für skalare Parameter θist die Fisher-Information I(θ) mathematisch definiert als

I(θ) = −E

[δ2 ln p(x; θ)

δθ2

](5.12)

und für vektorielle Parameter θ = [θ1, . . . , θn] ist die Fisher-Information gegeben durch dieMatrix

[I(θ)]i j = −E

[δ2 ln p(x; θ)

δθiδθ j

]. (5.13)

Um den Cramer-Rao Lower Bound für eine gegebene Situation zu ermitteln, braucht mandann folgenden

Satz 5.2.1 Gegeben die Verteilungsdichte p(x; θ), die für alle θ die Bedingung

−E

[δ ln p(x; θ)

δθ

]!= 0

erfüllt, ist die optimal erreichbare Schätzfehlervarianz aller erwartungstreuen Schätzer nachunten begrenzt durch

var(θopt) ≥1

I(θ)(5.14)

für skalare Parameter und alsvar(θi,opt) ≥ [I(θ)−1]ii (5.15)

für das i’te Element eines vektoriellen Parameters.

Dabei begrenzt der CRLB die erreichbare Wirksamkeit aller erwartungstreuen Schätzer, es istaber nicht gesagt, ob ein Schätzer existiert, der diese minimale Varianz besitzt. Ob ein solchererwartungstreuer Schätzer existiert, der den CRLB erreicht, sagt der folgende

Satz 5.2.2 Ein erwartungstreuer Schätzer, der den CRLB erreicht, existiert nur dann, wenn esFunktionen g und I gibt, für die

δ ln p(x; θ)

δθ= I(θ)(g(x) − θ)

gilt. Dieser optimale Schätzer, der „Minimum Variance Unbiased Estimator“, ist dann θopt =

g(x).

Die Verwendung des Cramer-Rao Lower Bound kann man sich an einem einfachen Bei-spiel klar machen: Wenn ein DC-Pegel in einem verrauschten Messsignal mit gaußverteiltemweißem Rauschen bestimmt werden soll, wenn also wie oben

x = u + n

n ∼ N(0, σ2)

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 61: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

gilt, dann ist der zu schätzende Parameter θ der DC-Pegel u und die Verteilungsdichte p(x, θ)entspricht damit

p(x; u) =1√

2πσe−

(x−u)2

2σ2 . (5.16)

Um den CRLB zu bestimmen, wird nun als erstes die Fisher-Information I(θ) = −E[δ2 ln p(x;θ)δθ2

]

benötigt. Diese erhält man folgendermaßen:

ln p(x; u) = ln1√

2πσ− (x − u)2

2σ2

δ

δuln p(x; u) =

(x − u)

σ2

δ2

δu2ln p(x; u) = − 1

σ2

−E

[δ2

δu2ln p(x; u)

]=

1

σ2. (5.17)

(5.18)

Daraus ergibt sich dann der CRLB mit

var(θopt) ≥1

I(θ)= σ2. (5.19)

So ist also der bestmögliche Schätzer, den man aus informationstheoretischer Sicht für eineneinzigen Messwert eines DC-Signals in Rauschen mit der Varianz σ2 bekommen kann ein er-wartungstreuer Schätzer der Varianz σ2. Wenn man sich nun als Schätzer für u den Abtastwertx nimmt, also u = x setzt, dann gilt:

u = x = u + n

var(u) = var(u + n)

= var(u) + var(n)

= var(n)

= σ2.

(5.20)

Damit hat man also schon den optimalen Schätzer gefunden und es lohnt sich nicht, weitereOptimierungsversuche zu unternehmen.

5.2.4. Bayes-Schätzung

Bei der bisherigen Beschreibung der Schätzverfahren wurde der zu schätzende Parameter θ alsunbekannt, aber fest, betrachtet. Im Gegensatz dazu behandeln Bayes’sche Verfahren auch denParameter selbst als eine Zufallsvariable. Aus dieser Idee heraus ergeben sich neue Möglich-keiten zur Bestimmung angenähert optimaler Schätzmethoden. Denn genau wie die optimalenKlassifikatoren durch Minimierung einer Risikofunktion hergeleitet werden können, kann das

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 62: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

C(θ,θ')

θθ'

Abbildung 5.5: Kostenfunktion für MAP-Schätzung.

auch für im Bayes’schen Sinn optimale Schätzer geschehen. Dazu wird auch hier wieder eineKostenfunktion C definiert, deren Wert von dem wahren Parameter θ und dem geschätztenParameter θ′ abhängen sollte. Und genau wie bei der optimalen Klassifikation eine Risiko-funktion R den Erwartungswert der Kostenfunktion C angibt, soll das auch hier passieren.Man definiert sich also ein

R(θ′) = E(C(θ, θ′)) (5.21)

und versucht, diese Risikofunktion durch die bestmögliche Wahl von θ′ zu minimieren.

5.2.4.1. MAP-Schätzung

Definiert man die Kostenfunktion als C(θ, θ′) = 1 − δ(θ − θ′),1 erhält man einen Verlauf derKostenfunktion wie in Abbildung 5.5. Die dazugehörige Risikofunktion ist

R(θ′) = E(C(θ, θ′))

=

∫ ∞

−∞C(θ, θ′)p(θ|x)dθ

=

∫ ∞

−∞(1 − δ(θ − θ′))p(θ|x)dθ

=

∫ ∞

−∞p(θ|x)dθ −

∫ ∞

−∞δ(θ − θ′)p(θ|x)dθ

⇒ R(θ′) = 1 − p(θ′|x). (5.22)

So kann man dann den optimalen Schätzer θ aus

θ = arg minθ′

R(θ′) = arg maxθ′

p(θ′|x) (5.23)

bestimmen.2 Dieses Schätzverfahren wird MAP-Schätzung genannt, dabei steht das MAP fürMaximum a Posteriori. Durch Einbeziehung von Vorwissen kann man bei der MAP-Schätzungein verbessertes Ergebnis erreichen. Dazu formt man Gleichung (5.23) mit dem Satz von

1Das δ-Funktional ist definiert über∫

f (t)δ(t − τ)dt = f (τ).2Das erinnert nicht wenig an den Bayes-Klassifikator kopt = arg maxk p(k|x).

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 63: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Bayes um in

θ = arg maxθ′

p(θ′|x)

= arg maxθ′

p(x|θ′)p(θ′)

p(x)= arg max

θ′p(x|θ′)p(θ′). (5.24)

Der erste Term, p(x|θ′) beschreibt dann wieder die Likelihood der Daten, gegeben hier denParameter θ′3 und der zweite Ausdruck, p(θ′), kann benutzt werden, um das Vorwissen überden Parameter einzubeziehen. Am Beispiel der Gaußverteilung kann man sich hier folgendesBild, das auch in Abb. 5.6 gezeigt ist, vorstellen: Ohne Vorwissen hat man eine gaußförmigeLikelihoodfunktion. Wenn dann noch zusätzlich das Wissen hinzukommt, dass der zu schät-zende Parameter u in einem bestimmten Bereich liegen muss, multiplizieren sich die beidenFunktionen und die zu optimierende Funktion für die Bayes-Schätzung ist nur noch der un-ten gezeigte Ausschnitt aus einer Gaußverteilung. Mit der gleichen Risikofunktion wie für dieMAP-Schätzung und mit Hilfe des Satzes von Bayes kann man also auch Vorwissen über dieVerteilung des Parameters θ einbauen. Damit erhält man einen neuen Schätzer, der für wahr-scheinliche Parameterwerte kleinere Fehler macht, der eventuell in diesen Fällen sogar einekleinere Varianz aufweist als den Cramer-Rao Lower Bound, der allerdings für unwahrschein-liche Parameterwerte unter Umständen schlecht (und eventuell nicht erwartungstreu) ist.

5.2.4.2. Maximum-Likelihood-Schätzung

Wenn man für die Berechnung des Bayes-Schätzers

θ = arg maxθ′

p(x|θ′)p(θ′) (5.25)

keinerlei Vorwissen über die Verteilung der Parameter hat, kann man einen sogenannten non-informative prior einsetzen, der letztlich nur das Unwissen über den Parameter θ′ codiert. Sokann man als noninformative Prior die Gleichverteilung p(θ′) = c wählen und gelangt dannmit

θ = arg maxθ′

p(x|θ′)c = arg maxθ′

p(x|θ′) (5.26)

zur Maximum-Likelihood-Schätzung. Dieses Verfahren ist aus mehreren Gründen besondersbeliebt:

• Zum einen, weil es mit der Likelihood-Funktion p(x|θ′) arbeitet, die oft leicht zu model-lieren und zu überprüfen ist,

• weil es eine Methode ist, die man ohne allzuviele Sonderüberlegungen und Spezialfälleeinfach anwenden kann,

• weil der Maximum-Likelihood-Schätzer asymptotisch erwartungstreu ist, weil alsolimN→∞ θML = θ gilt und

3Im letzten Kapitel war es „gegeben die Klasse“.

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 64: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 1 2 3 4 5 6 70

0.2

0.4

0.6

0.8

u

Likelihood P(x|u)

Prior P(u)

0 1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

u

P(u|x) ∝ P(x|u)*P(u)

Abbildung 5.6: Änderung der MAP-Schätzung durch Einbeziehung von Vorwissen.

• weil der Maximum-Likelihood-Schätzer auch asymptotisch wirksam ist, also für unend-lich viele Daten die geringstmögliche Schätzfehlervarianz erreicht, oderlimN→∞ var(θML) = var(θopt).

Als Beispiel kann man auch hier wieder den DC-Pegel im Gauß’schen Rauschen benutzen, esist also wie gewohnt

x = u + n

n ∼ N(0, σ)

und

p(x|u) =1√

2πσe−

(x−u)2

2σ2 . (5.27)

Daraus bekommt man

u = arg maxu′

p(x|u′)

= arg maxu′

1√

2πσe−

(x−u′)22σ2 (5.28)

und durch Ableiten und Nullsetzen auch ziemlich schnell

u = arg maxu′

p(u′|x) = x. (5.29)

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 65: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1 2 3 4 50

1

2

3

θ’

C(θ,θ’)

θ

MMSE−Kostenfunktion

MAVE−Kostenfunktion

Abbildung 5.7: Gewichtung der Schätzfehler bei Minimum Mean Square Error (MMSE) undMinimum Absolute Value of Error (MAVE)-Schätzern.

5.2.4.3. Verfahren mit Gewichtung der Schätzfehler

Manchmal sollen größere Schätzfehler stärker gewichtet werden als kleine Fehler. Dazu kannals Kostenfunktion zum Beispiel der absolute Fehler oder der quadratische Fehler verwendetwerden. Die Kostenfunktion ist dementsprechend

CMAVE(θ, θ′) = |θ − θ′| (5.30)

oder

CMMS E(θ, θ′) = (θ − θ′)2 (5.31)

und wird in Abbildung 5.7 dargestellt. Beliebt ist vor allem der (differenzierbare) quadratischeFehler, dessen Minimierung den Minimum-Mean-Square-Error-Schätzer (MMSE-Schätzer)liefert. Zur Minimierung des mittleren quadratischen Fehlers geht man dann folgendermaßenvor: Zuerst stellt man die Risikofunktion auf, also

RMMS E(θ′) = E(CMMS E(θ, θ′))

= E((θ − θ′)2) (5.32)

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 66: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

und minimiert diese dann, sucht also den Punkt, an dem δR(θ′)δθ′ = 0 ist. Dazu benötigt man die

Ableitung der Risikofunktion nach den Parametern, also

δR(θ′)

δθ′=δ

δθ′E

((θ − θ′)2|x

)

δθ′

∫ ∞

−∞p(θ|x)(θ − θ′)2dθ. (5.33)

Nach Einsetzen der binomischen Formel und Weglassen des von θ′ unabhängigen Ausdrucksder binomischen Summe bekommt man dann

δR(θ′)

δθ′=δ

δθ′

[∫ ∞

−∞p(θ|x)θ′2dθ −

∫ ∞

−∞p(θ|x)2θ′θdθ

]

=

∫ ∞

−∞p(θ|x)2θ′dθ −

∫ ∞

−∞p(θ|x)2θdθ

= 2θ′∫ ∞

−∞p(θ|x)dθ − 2

∫ ∞

−∞p(θ|x)θdθ

= 2θ′ · 1 − 2E(θ|x). (5.34)

(5.35)

Damit die Risikofunktion Null wird, muss dieser letzte Ausdruck auch Null sein, es muss alsogelten:

θ′ = E(θ|x). (5.36)

Letztlich zeigt sich also, dass der MMSE-Schätzer eines Parameters θ dem bedingten Erwar-tungswert E(θ|x) entspricht. Den kann man dann in einigen Fällen durch Lösen des IntegralesE(θ|x) =

∫ ∞−∞ p(θ|x)θdθ berechnen. Das kostet im Allgemeinen recht viel Mühe, gelegentlich

lohnt sich aber der Aufwand. Ein Ergebnis, das auf diese Weise entstanden ist, ist das Ephraim-Malah-Filter [Ephraim1984], das verrauschte Sprachsignale optimal vom Rauschen befreienkann (und in vielen Fällen sehr gute Ergebnisse liefert.)

5.3. LITERATURHINWEISE

[Ephraim1984] Ephraim Y. and Malah D. „Speech enhancement using a minimum-meansquare error short-time spectral amplitude estimator,“ IEEE Transactionson Acoustics, Speech, and Signal Processing, Vol. 32, No. 6, pp. 1109 -1121, 1984.

[Kay1993] Kay S. „Fundamentals of Statistical Signal Processing Volume I: Estima-tion Theory,“ Prentice Hall, 1993.

[Koehler2005] Köhler B.-U. „Konzepte der statistischen Signalverarbeitung,“ SpringerVerlag, Berlin, 2005.

[Vaseghi1996] Vaseghi S. „Advanced Signal Processing and Digital Noise Reduction,“John Wiley, New York, 1996.

Vorlesung 5 Einführung in die automatische Spracherkennung

Page 67: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

5.4. NICHTPARAMETRISCHE SCHÄTZUNG

Die bisher behandelten Verfahren der Schätztheorie kann man alle auch als parametrischeVerfahren bezeichnen, weil das Konzept eines zu lernenden Paramterwertes bei ihnen allenzentral ist. Zusammenfassend besteht die bisher vorgestellte Vorgehensweise darin, dass man

1. eine parametrisierte Verteilungsdichtefunktion der Daten x, p(x|θ) postuliert, in der θ diefreien Parameter sind,

2. und die freien Parameter θk für jede der Klassen k aus den Trainingsdaten xtrain lernt.

3. Dann kann man mit einer beliebigen Klassifikationsregel, beispielsweise durchk = arg maxi p(xtest|θki), neue, unbekannte Daten xtest einer bestimmten Klasse k zuord-nen.

Diese Vorgehensweise ist insofern sinnvoll, als man oft weiß, welche Form einer Vertei-lungsfunktion (z.B. eine Gauß- oder Laplaceverteilung) die Daten gut beschreibt. Dann kannman mit parametrischen Verfahren dieses Vorwissen über die Art der Verteilung einbeziehen.Auch die Wahrscheinlichkeiten bestimmter Parameter lassen sich durch Bayes’sche Schätzver-fahren gut in den Lernprozess einbeziehen. Andererseits gibt es auch Fälle, in denen entwederdie Form einer sinnvollen Hypothese der Verteilungsdichte vollkommen unklar ist, oder indenen keine guten Schätzverfahren für die Parameter gefunden werden können (wie beispiels-weise bei hochdimensionalen Problemen). In diesen Fällen, oder auch, wenn vor allem einleicht zu implementierendes Klassifikationsverfahren benötigt wird, kann es sich anbieten,nichtparametrischen Klassifikationsverfahren den Vorzug zu geben. Diese zeichnen sich da-durch aus, dass der Umweg über eine postulierte Verteilungsfunktion ganz vermieden wird,und dass man stattdessen direkt eine Klassifikationsfunktion Q : Q(x)→ k aus den Trainings-daten lernt.

5.5. NEAREST-NEIGHBOR-KLASSIFIKATION

Die erste Variante der Nearest-Neighbor-Klassifikatoren ist einfach der Nearest NeighborKlassifikator, der genau einen Trainingsdatenpunkt benutzt, nämlich den besten, um einenneuen Featurevektor xtest zu klassifizieren. Der wird dann also zu der Klasse zugeordnet, inder sich der ähnlichste Featurevektor aus den Trainingsdaten befindet. Damit lautet die Klas-sifikationsvorschrift

ki = arg mini

(d(xtrain,i, xtest)). (5.37)

In diesem Ausdruck kann d ein beliebiges Distanzmaß sein Diese Kostenfunktion führt dannzu Entscheidungsgeraden, wie sie in Abbildung 5.8 gezeigt sind. Das Verfahren ist damit unge-wöhnlich leicht zu implementieren, ist allerdings gegenüber Ausreißern (engl. Outliers) in denTrainingsdaten nicht besonders robust, wie die Abbildung 5.9 zeigt. Wegen dieser mangeln-den Robustheit sind häufig k-Nearest-Neighbor Verfahren (besonders häufig mit ungeradenk=3,5,...) die geeignetere Wahl. Dabei sucht man die k nächsten Nachbarn des Testfeature-vektors und wählt dann diejenige Klasse, die in den k nächsten Nachbarn am häufigsten ist.

Vorlesung 6 +7 Einführung in die automatische Spracherkennung

Page 68: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

x1

x2

Test-Datenpunkte:

Abbildung 5.8: Entscheidungsgeraden des Nearest-Neighbor-Klassifikationsverfahrens

x1

x2

Test-Datenpunkte:

Abbildung 5.9: Reaktion des Nearest-Neighbor-Klassifikationsverfahrens auf Ausreißer inden Trainingsdaten.

In deadlock-Situationen (z.B. 3 Nachbarn aus drei Klassen) kann man zum Beispiel ein oderzwei weitere nächste Nachbarn suchen, und mit deren Hilfe die Entscheidung treffen. Das re-sultierende Verhalten des 3-NN-Klassifikators zeigt Abb. 5.10. Insgesamt gesprochen, liegendie Vorteile der k-Nearest-Neighbor-Klassifikatoren in

• der leichten Implementierbarkeit

• und dem sehr geringen Trainingsaufwand.

Allerdings verschiebt sich auf der anderen Seite der Rechenaufwand auf die Klassifikations-zeit, der Speicherbedarf ist unter Umständen recht hoch und man vergibt sich auch die Chance,durch Lernen des Klassifikationsfunktion selber etwas menschenverständliches über die Ver-teilungen der Features zu lernen.

Vorlesung 6 +7 Einführung in die automatische Spracherkennung

Page 69: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

x1

x2

Test-Datenpunkte:

Abbildung 5.10: Reaktion des 3-Nearest-Neighbor-Klassifikationsverfahrens auf Ausreißer inden Trainingsdaten.

5.6. NEURONALE KLASSIFIKATOREN

Neuronale Klassifikatoren waren in der Vergangenheit für die Spracherkennung populärer, alsdas heute der Fall ist. Dabei sind vor allem zwei Arten von Neuronalen Netzen besondershäufig verwendet worden:

• Das Multi-Layer Perzeptron mit dem Backpropagation-Lernverfahren

• und die Time-Delay Neuronalen Netze.

Das Multi-Layer-Perzeptron wurde in der Spracherkennung oft in hybriden NN/HMM-Struk-turen eingesetzt (siehe zum Beispiel [?]), während das Time-Delay-Neural-Network (bei-spielsweise in [?]) sozusagen stand-alone-fähig ist, da es auch zeitliche Verläufe gut charakte-risieren kann. Beide Arten von Klassifikator leiden allerdings unter dem Problem von Under-und Overfitting und die optimale Anzahl freier Parameter läßt sich meist nicht ohne weiteresableiten. Zudem existieren viele lokale Minima und die Wahl der Sigmoid-Funktion beein-flusst implizit die Generalisierungsfähigkeit, wird aber bisher nach empirischen Gesichtspunk-ten festgelegt. Insofern ist zur Zeit die Vorgehensweise der obigen Kapitel (sowohl der para-metrischen Klassifikation als auch der nichtparametrischen Klassifikation) um einiges häufi-ger anzutreffen als die der klassischen neuronalen Netze. Diese werden deswegen hier nichtausführlicher besprochen.

Vorlesung 6 +7 Einführung in die automatische Spracherkennung

Page 70: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Anhang -

Herleitung des Maximum-Likelihood-Schätzers für mehrere Beobachtungen

Im Normalfall werden natürlich nicht nur einer sondern mehrere Featurevektoren x1 . . . xN indie Maximum-Likelihood-Schätzung einbezogen. Die oben gezeigte Rechnung ist dann nichtmehr so leicht durchzuführen, da nun die Likelihoodfunktion

p(x1, x2, . . . , xN |µ) =N∏

i=1

N(xi, µ, σ) (5.38)

=

N∏

i=1

1√

2πσe−

(xi−µ)2

2σ2 (5.39)

nach µ abgeleitet werden müsste. Hier ist es einfacher, stattdessen die logarithmierte Like-lihood log p(x1, x2, . . . , xN |µ) zu benutzen, denn weil der Logarithmus eine streng monotonsteigende Funktion ist, gilt ganz allgemein arg maxx F(x) = arg maxx log F(x). Deswegen kön-nen die Parameter auch geschätzt werden mit

µ = arg maxµ

p(x|µ) (5.40)

= arg maxµ

log p(x|µ). (5.41)

Nun ist

log p(x|µ) = logN∏

i=1

1√

2πσe−

(xi−µ)2

2σ2 (5.42)

= log

(1√

2πσ

)N

+ logN∏

i=1

e−(xi−µ)2

2σ2 (5.43)

= log

(1√

2πσ

)N

+

N∑

i=1

log e−(xi−µ)2

2σ2 (5.44)

= N log1√

2πσ−

N∑

i=1

(xi − µ)2

2σ2. (5.45)

Um die Maximum-Likelihood-Schätzung µ zu finden, muß Gleichung 5.45 nach µ abgeleitetund zu Null gesetzt werden. Die Ableitung ist

δ

δµlog p(x|µ) = δ

δµ

N log1√

2πσ−

N∑

i=1

(xi − µ)2

2σ2

(5.46)

δµ

−N∑

i=1

(xi − µ)2

2σ2

(5.47)

=

N∑

i=1

(xi − µ)σ2

. (5.48)

Vorlesung 6 +7 Einführung in die automatische Spracherkennung

Page 71: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Damit das Maximum erreicht wird, muß Gleichung 5.48 zu null werden, muss also

N∑

i=1

(xi − µ)σ2

!= 0 (5.49)

gelten, weswegen

1

σ2

N∑

i=1

(xi − µ) = 0 (5.50)

N∑

i=1

xi −N∑

i=1

µ = 0 (5.51)

⇒N∑

i=1

xi =

N∑

i=1

µ (5.52)

⇒N∑

i=1

xi = Nµ (5.53)

auch gelten muss. Daraus erhält man dann schließlich für den Maximum Likelihood Schätzer

µ =

∑Ni=1 xi

N, (5.54)

was genau der Mittelwert aller Datenpunkte ist. Auf die gleiche Art, allerdings etwas aufwän-diger, läßt sich auch der Maximum-Likelihood-Schätzer σ für die Varianz herleiten.

Vorlesung 6 +7 Einführung in die automatische Spracherkennung

Page 72: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

6 Feature Extraction

Die Aufgabe der Merkmalsextraktion besteht darin, aus dem Sprachsignal, das eine Vielzahlan redundanter und irrelevanter Information enthält, einige relevante und möglichst kompakteMerkmale zu ermitteln.

6.1. GESAMTSTRUKTUR

Den Ablauf der typischen Vorgehensweise zur Feature Extraction zeigt Abbildung 6.1.

Abtastung

Quantisierung

Voice Activity Detection

Preemphase

Parameter-berechnung

Sprachsignals(t)

Features x( )

s(k)

Anforderung bei VAD:Entscheidung sollte immer zugunsten desSprachsignals fallen.

a T

sin sout-

.Ts *

TsFs > Fmax

. 2!

1/Ts

ft

Abbildung 6.1: Signalflussplan der Feature Extraction.

6.1.1. Abtastung und Quantisierung

Zuerst muss das Sprachsignal abgetastet und quantisiert werden. Bei der Abtastung sollte dieAbtastung mit mehr als der doppelten, im Signal maximal vorkommenden Frequenz Fmax

geschehen, um Aliasing-Fehler zu vermeiden.Bei der Signalquantisierung gibt es drei wichtige Entscheidungen, die zu treffen sind:

• Die Quantisierungskennlinie,

• die Anzahl von Bits B und

72

Page 73: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• die maximal zu quantisierende Amplitude smax müssen gewählt werden.

Bezüglich der Quantisierungskennlinie kann man zwischen Mid-Tread und Mid-Rise Quanti-sierungskennlinien wählen, die beide in Abbildung 6.2 gezeigt sind1. In beiden Fällen tretenzwei Arten von Fehler auf; zum einen das Quantisierungsrauschen innerhalb und zum anderndie Überlastungsfehler außerhalb des Arbeitsbereiches. Dies veranschaulicht Abbildung 6.3.

Mid-Rise• symmetrisch• auch leises Rauschen wird übertragen

Mid-Tread• asymmetrisch• Signal konstant nullbei kleiner Amplitude

s(k) sq(k)

Kennlinie: sq(k)=f(s(k))

s(k)

sq(k)

smax

E

s(k)

sq(k)

s(k)

s(k)

Abbildung 6.2: Ausschnitte aus den Kennlinien von Mid-Rise- und Mid-Tread-Quantisierern.

Wie man erkennen kann, wird der Einfluss des Überlastungsrauschens auf den Gesamtfehlerimmer größer, wenn der Maximalpegel smax kleiner wird. Andererseits sinkt der Einfluss desQuantisierungsrauschens innerhalb des Arbeitsbereiches stetig mit sinkendem smax, so dass eseinen Optimalwert für smax geben muss, bei dem der Gesamtfehler minimal wird, wie das auchdie Abbildung 6.4 zeigt. Unter einigen Annahmen, nämlich

• einer Gleichverteilung des Quantisierungsrauschens zwischen ∆/2 und −∆/2,

• der Unabhängigkeit zwischen Signal und Quantisierungsrauschen

• und der zeitlichen Unkorreliertheit des Quantisierungsrauschens

1Nichtlineare Quantisierung ist für Spracherkennungszwecke unüblich, weil viele der Eigenschaften, die diespätere Feature Extraction ausnutzt, gerade auf einer Linearität der Eingangsstufe beruhen.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 74: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

s(k)

sq(k)

smax

E

s(k)-smax

Quantisierungsrauschen Überlastungs-rauschen

Überlastungs-rauschen

Abbildung 6.3: Quantisierungs- und Überlastungsrauschen.

smax

Eges

Eq

Eges = Eq +

smax,opt

Feh

lere

nerg

ie

Abbildung 6.4: Einfluss von smax auf Quantisierungsrauschen und Überlastungsfehler.

gelangt man zu einem Ausdruck, der das Signal- Störverhältnis

S NRquant = 10 log10

σ2x

σ2q

(6.1)

bestimmen kann. Dabei ist σ2x die Nutz- und σ2

q die Quantisierungsrauschenergie. Wie zuerwarten war, ist das SNR abhängig von der Anzahl der Quantisierungsbits B und der Aus-

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 75: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

steuerungsgrenze smax. Daraus kann mit Hilfe von

S NRquant ≈ 6, 02B + 4, 77 − 20 log10

smax

σx[dB] (6.2)

das SNR berechnet werden, wobei in der Gleichung (6.2) das Überlastungsrauschen als irre-levant betrachtet und ignoriert wird.2 Möchte man also mit Hilfe dieser Gleichung die Aus-steuerungsgrenze festlegen, sollte man durch geeignete Wahl von smax dafür sorgen, dass Über-lastungsfehler (also Übersteuerung) möglichst selten auftreten. Ein häufig gewählter Grenz-wert, der an dieser Stelle einen guten Kompromiss darzustellen scheint, ist smax = 4σx.Unter der Annahme eines laplaceverteilten Sprachsignals kann man zeigen, dass bei die-ser Wahl der Aussteuerungsgrenze 0,35% der Signalsamples außerhalb des Aussteuerungs-bereiches liegen, gleichzeitig trägt in Gleichung (6.2) der Term 20 log10(smax/σx) 12,0dBzum Signal-Störabstand bei, so dass insgesamt beispielsweise bei B = 12bit ein SNR vonS NRquant = 65.0dB erreicht wird. Da der Dynamikbereich der Sprache bei etwa 50 bis 60dBliegt, kann man also etwa bei 12Bit von einer sinnvollen Quantisierungsgenauigkeit sprechen,während bei 8Bit gelegentlich ein Teil des Dynamikumfangs im Quantisierungsrauschen un-tergehen kann.

6.1.2. Voice Activity Detection

In der Voice Activity Detection werden Sprachsegmente von Intervallen des Schweigens desZielsprechers unterschieden. Dadurch kann man vermeiden, dass der Spracherkenner ver-sucht, Hintergrundgeräusche als Worte zu identifizieren. Besonders wichtig ist das, wennSprachbedienung zum Beispiel in lauten Umgebungen erfolgen soll, und ganz besonders wich-tig ist es natürlich, wenn mehrere Störsprecher im Aufnahmebereich der Mikrophone sind,deren Sprache nicht erkannt werden soll. Die Unterscheidung von Ziel- und Störsprechern istmeist nur mit mehreren Mikrophonen möglich, hier soll aber die Unterscheidung von Sprach-signalen und Störungen im Vordergrund stehen.

Zu diesem Zweck gibt es eine große Anzahl von Algorithmen, unter anderem zu finden in[Rabiner1975] und [Deller1987]. Die einfacheren Verfahren, die aber für viele Anwendun-gen hinreichend sind, unterscheiden Sprache von Störungen oft anhand zweier Merkmale:der Nulldurchgangsrate und der Energie des Signals. Anhand von geeigneten Schwellwertenkann mit diesen beiden Features eine hinlänglich gute Unterscheidung von Sprach- und Stör-segmenten getroffen werden, wobei immer ein zentrales Kriterium sein wird, dass die VoiceActivity Detection

• so gut wie gar keine Sprachsegmente als Störsegment klassifiziert (während es durch-aus akzeptabel sein kann, einige Fehler in die andere Richtung, also False-Acceptance-Fehler, zuzulassen)

• und niemals Worte zerschneidet.

Während eine Voice Activity Detection nicht zwingend erforderlich ist, kann doch auf dieseWeise mit relativ geringem Aufwand eine große Verbesserung der Erkennungsleistung erreicht

2Die ausführliche Herleitung ist im Anhang.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 76: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

werden, vor allem die Anzahl von falsch als Worte erkannten Lauten, also von Insertion Er-rors läßt sich so ganz deutlich verringern, wenn die zu erkennende Sprache in anderen als inruhigen Studioumgebungen aufgenommen wird.

6.1.3. Preemphasefilter

Nach Abtastung und Quantisierung liegt das Sprachsignal in digitaler Form vor. Da das Spek-trum eines Sprachsignals aufgrund der Vokaltraktübertragungsfunktion typischerweise mit et-wa 8-10dB pro Oktave abnimmt, da aber gleichzeitig alle gut wahrnehmbaren Frequenzen zurErkennung eine ähnliche Bedeutung haben, schließt sich oft als erstes Glied der digitalen Ver-arbeitungskette ein einfaches Hochpassfilter an. Dieses kann man auch als Whitening-Filterbezeichnen, da es das Leistungsdichtespektrum glättet. Sehr oft wird an dieser Stelle ein re-kursives Filter erster Ordnung gewählt, mit Filterkoeffizienten, die typischerweise zwischen0,9 und 1 liegen [Deller1987].

0 1 2 3 4 5 6 7 8−25

−20

−15

−10

−5

0

5

Frequenz [kHz]

Leis

tungsdic

hte

spektr

um

[dB

]

Vier gemittelte männliche Sprachsignale

Vier gemittelte weibliche Sprachsignale

Abbildung 6.5: Die Tiefpasscharakteristik von Sprachsignalen, den sogenannten „SpectralSlope“, erkennt man am gemittelten Leistungsdichtespektrum, hier gezeigt imMittel über 4 Sprecher.

6.2. PARAMETERBERECHNUNG

Nachdem das zeitkontinuierliche Signal so in ein diskretes Signal (mit angenähert konstan-tem Leistungsdichtespektrum) überführt ist, können die eigentlich für die Erkennung relevan-ten Features extrahiert werden. Dabei gibt es viele unterschiedliche Varianten von Feature-Extraction-Stufen, eine der typischsten Strukturen zeigt Abbildung 6.6.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 77: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

ggf.Zeitbereichs-featureanalyse

Zeit-Frequenzanalyse

Cepstral-analyse

Zeitbereichssignals(k)

Features x( )‘

Vektor-quantisierung

Features x( )

xq( )

Dimensions-reduktion

Berech-nungder

Ablei-tungen

S(j )

scep( )

scep( )

scep( )

Optimierungsmöglichkeit:

Abbildung 6.6: Typisches Blockdiagramm der Feature Extraction..

6.3. ZEITBEREICHSFEATURES

Im Zeitbereich haben vor allem zwei Features eine signifikante Bedeutung für die Spracher-kennung:

• Energie und

• Grundfrequenz.

Beide Features haben nicht für einzelne Samples sondern nur für größere Blöcke tatsächlicheine Bedeutung, deswegen bietet es sich auch hier schon an, das Signal in Blöcke einzuteilen(das sogenannte Framing) bevor diese Features berechnet werden.

6.3.1. Framing

Das Signal wird in mehrere, überlappende Segmente eingeteilt. Die Länge der Frames solltekurz genug sein, dass das Sprachsignal innerhalb eines Frames noch hinlänglich stationär ist(d.h. seine statistischen Eigenschaften sich nicht ändern), gleichzeitig aber lang genug, dasseine sinnvolle Schätzung statistischer Parameter möglich wird. Typischerweise werden 10 bis25ms Framelänge gewählt. Die Frames werden dann überlappend gebildet, wie es Abbildung

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 78: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

6.7 zeigt. Die notwendige Überlappung beträgt normalerweise 3/4 einer Framelänge. Damit

Frame n Frame n+1

Signal in überlappenden Frames

Merkmalsvektor

Rahmenverschiebung

Fensterlänge

Sprachsignal

Abbildung 6.7: Einteilung des Signals in überlappende Frames..

läuft der Zeitindex für das k’te Frame von tk,min = (k − 1) · (1 − overlap) · N bis tk,max =

(k − 1) · (1 − overlap) · N + N − 1, wobei N und overlap hier für die Framelänge und denÜberlappungsfaktor stehen.

6.3.2. Energie

Die Energie kann im Zeitbereich berechnet werden, dazu rechnet man zum Beispiel für dask’te Frame

E(k) =tk,max∑

n=tk,min

s(n)2. (6.3)

Die Energie ist allerdings nur dann ein zuverlässiges Kriterium für die Spracherkennung, wenndie Sprachdaten an irgendeinem Punkt auf den gleichen, durchschnittlichen Energiepegel ge-bracht werden. Das kann entweder durch die Art der Aufnahme mit automatischer Ampli-tudenregelung geschehen, oder muss anderenfalls später in der Signalverarbeitungskette an

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 79: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

irgendeiner Stelle explizit berechnet werden. Wegen dieses Aufwandes und der damit verbun-denen Unsicherheiten verzichten einige Spracherkenner auch ganz auf die Energie als Merk-mal.

6.3.3. Grundfrequenz

In der deutschen und auch in fast allen anderen europäischen Sprachen dient die Grundfre-quenz nur zur Übermittlung syntaktischer und emotionaler Nebeninformationen3 und wirddeswegen auch im Entwurf von Spracherkennern oft nicht berücksichtigt. In vielen asiati-schen, wie zum Beispiel den sino-tibetischen, Sprachen4 und einigen afrikanischen Sprachenist aber auch die Grundfrequenz bedeutungstragend. Und auch in sprachverarbeitenden Syste-men europäischer Sprachen wird die Grundfrequenzinformation oft benötigt, zum Beispiel

• wenn prosodisch übermittelte Information wie zum Beispiel die Intention oder die Stim-mung des Sprechers erkannt werden soll,

• zur Sprecheridentifikation,

• oder für grundfrequenzsynchrone Signalanalyse.

Für die Grundfrequenzanalyse müssen Periodizitäten im Signal gefunden werden. Dazuwerden vor allem zwei wichtige Merkmale des Sprachsignals genutzt:

Erstens bietet sich besonders das Cepstrum an, das gerade zur Ermittlung von periodischenAnteilen in Signalen gedacht ist. Starke periodische Anteile zeigen sich durch deutlich aus-geprägte Peaks im Cepstrum, die dann zur Grundfrequenzanalyse ausgewertet werden. Dazugibt es später, im Abschnitt 6.7.1, mehr Informationen.

Zweitens ist auch die Autokorrelationsfunktion zur Grundfrequenzanalyse geeignet. Dieseist definiert als

rss(τ) = E(s(k)s(k − τ)). (6.4)

Sie kann in der Praxis für ein Signalframe, von tmin bis tmax, zum Beispiel mit

rss(τ) =1

tmax − tmin + 1

tmax∑

k=tmin+τ

s(k)s(k − τ) (6.5)

geschätzt werden.5 Die Autokorrelationsfunktion eines periodischen Signals mit der PeriodeTp ist selbst wieder periodisch, und zwar ebenfalls mit der Periode Tp, und sie hat Maxima beiden Vielfachen der Periode, N · Tp. Wenn beispielsweise das Signal s(k) die Form

s(k) = cos(ωp · k + ϕ) (6.6)

3Sie ist ein wichtiger Teil der Satzmelodie, der sogenannten Prosodie, die neben dem Verlauf der Grundfrequenzvor allem durch den Sprachrhytmus bestimmt wird.

4Dazu gehören unter anderem Mandarin und Kantonesisch.5Für kurze Frames geht rss(τ) gegen Null, wenn τ → N. Für limN → ∞ handelt es sich hierbei aber um einen

konsistenten Schätzer [Jenkins1968].

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 80: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

besitzt, dann ist

rss(m) = E (s(k)s(k − m)) (6.7)

= E[cos(ωp · k + ϕ) cos(ωp · (k − m) + ϕ)

](6.8)

und wegen des Additionstheorems cosα cos β = 12 cos(α − β) + 1

2 cos(α + β)

rss(m) = E

[1

2cos

(ωp · k − ωp · (k − m)

)+

1

2cos

(ωp(2k − m) + 2ϕ

)]. (6.9)

Weil der Erwartungswert des zweiten Summanden gleich Null ist, gilt weiter

rss(m) = E

[1

2cos(ωp · m)

](6.10)

=1

2cos(ωpm) (6.11)

=1

2cos

(2π

Tpm

)(6.12)

und der letzte Ausdruck, 1/2 cos(2πm/Tp

), wird maximal, wenn das Argument des Cosinus

ein Vielfaches von 2π ist, wenn also m/Tp ganzzahlig ist. Das heißt, dass die AKF ihre Maximabei den Zeitverschiebungen m hat, die ganzzahlige Vielfache der Grundperiodendauer sind.Damit kann prinzipiell die Grundperiode der Sprache ermittelt werden. Schwierig wird es

• durch den weiten Bereich, in dem die Grundfrequenz liegen kann - diese liegt fürmenschliche Sprache zwischen etwa 40Hz bei erwachsenen Männern und 600Hz beiKindern,

• durch subharmonische Fehler (periodische Signale mit der Periode T0 sind auch peri-odisch mit der Periode m · T0)

• und durch superharmonische Fehler, die auftreten können, wenn durch die Übertra-gungsfunktion des Vokaltrakts die Grundfrequenz stark gedämpft werden und gleich-zeitig Formanten (die Resonanzstellen des Vokaltraktes) nahe an einem Vielfachen derGrundfrequenz liegen.

Trotz dieser Probleme eine zuverlässige Grundfrequenzschätzung zu erhalten, ist nicht trivial.Umfangreiche Informationen zu dem Thema gibt es beispielsweise in [Deller1987].

Ganz grundsätzlich gesprochen, ist es vor allem wichtig, bei der Grundfrequenzanalyse

• nur stimmhafte Segmente zu analysieren (da nur in diesen überhaupt eine Grundfre-quenz definiert ist) und

• die Schätzung durch die Nachverfolgung der Grundfrequenz über einen längeren Zeit-raum, durch Pitch-Tracking, zuverlässiger zu gestalten.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 81: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

6.4. FREQUENZBEREICHSFEATURES

6.4.1. Herleitung der Diskreten Fouriertransformation

Zur Wiederholung sind hier noch einmal die Definitionen der verschiedenen Frequenzbe-reichstransformationen gezeigt, mit deren Hilfe schließlich die diskrete Fouriertransformationdefiniert werden kann.

Frequenzanalyse

Kontinuierlich:

t

x(t)

ω

|X( jω)|

X( jω) =

∫ ∞

t=−∞x(t)e− jωtdt

Tabelle 6.1: Definition der Fouriertransformation.

Wenn ein Signal im Zeitbereich abgetastet wird, entspricht das im Frequenzbereich einerFaltung mit einem Deltakamm:

a(t) · b(t) A( jω) ∗ B( jω). (6.13)

Für ein abgetastetes Signal ergibt sich daraus, dass das Spektrum periodisch fortgesetzt ist.Alle Information ist aber auch in einem einzelnen der Teilbänder enthalten.

Die Fouriertransformation von abgetasteten Signalen ist dementsprechend im Frequenz-bereich periodisch, ist aber nach wie vor frequenzkontinuierlich und wird als ZeitdiskreteFouriertransformation bezeichnet. Da das Signal zeitdiskret ist, ist das Integral nicht mehrerforderlich und wird durch eine (nicht immer aber möglicherweise doch unendliche) Summeersetzt, wie es die Abbildung 6.2 zeigt.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 82: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Frequenzanalyse

Diskret:

tk =k

Fs

xzd = x(t) · δ 1Fs

tXzd( jω)

k

x(k)

ω2πFs

|Xzd( jω)|

Xzd( jω) =

∫ ∞

t=−∞x(t)δ 1

Fse− jωtdt

Xzd( jω) =∞∑

k=−∞x

(k

Fs

)e− jω k

Fs dt

Tabelle 6.2: Berechnung der zeitdiskreten Fouriertransformation (ZDFT).

Für die Definition der diskreten Fouriertransformation werden die Frequenzen auf den Be-reich 0 . . . 2π normiert, die normierte Frequenz Ω erhält man dazu aus

Ωde f=

2π f

Fs. (6.14)

Xzd( jω) =∞∑

k=−∞xk (k) e− j 2π f

Fskdt

Normierte Kreisfrequenz⇒ Ω :=2π f

Fs

Xzd(Ω) =∞∑

k=−∞xk (k) e− jΩkdt

Tabelle 6.3: Normierung der Frequenzen für die diskrete Fouriertransformation.

Die diskrete Fouriertransformation ist nicht nur im Zeit- sondern auch im Frequenzbereichquantisiert. Die Quantisierung findet für die normierte Frequenz Ω statt, es werden N Wertebenötigt, also berechnet man nur noch die Frequenzen

Ω = 0,2π

N,

2 · 2πN, . . .

2π(N − 1)

N(6.15)

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 83: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

oder

Ωnde f=

n · 2πN, fur n = 0 . . .N − 1. (6.16)

Allerdings sind für reelle Zeitsignale nur die ersten N/2+1 Werte 6 relevant, da der zweite Teildes Spektrums konjugiert symmetrisch ist. Diese Quantisierung im Frequenzbereich entsprichtim Zeitbereich einer periodischen Fortsetzung des Signals, so dass die Fouriertransformiertenur für Signale von endlicher Länge definiert ist.

Abtastung im Frequenzbereich = Periodische Fortsetzung im Zeitbereich

k

x(k)

n

|Xzd( jω)|

⇒ deswegen nur definiert für endliche Folgen

XDFT(n) =N−1∑

k=0

xk (k) e− jωnk =

N−1∑

k=0

xk (k) e− j 2πnN k

Tabelle 6.4: Definition der diskreten Fouriertransformation (DFT).

6.4.2. Einfluss der Fensterfunkion

Vor der Berechnung der Fouriertransformation wird das Signal im Zeitbereich in überlappendeSegmente eingeteilt, wie es in Abschnitt 6.3.1 beschrieben ist. Mathematisch betrachtet ent-spricht dieses Ausschneiden von Zeitsegmenten aus dem Gesamtsignal einer Multiplikationmit einer Rechteckfunktion. Diese Operation der Multiplikation mit einer Funktion, die alleSignalanteile, abgesehen von einem endlichen Bereich, auf Null setzt, wird auch als Fenste-rung bezeichnet. Genauer gesagt muss eine Fensterfunktion fünf Eigenschaften besitzen, umals solche bezeichnet zu werden:

Definition 6.4.1 Das Transformationspaar w(t) W( jω) stellt eine Fensterfunktion dargenau dann, wenn

• w(t) reell und symmetrisch ist

• w(t) auf einem begrenzten Bereich ungleich Null ist: w(t) = 0 ∀|t| > T

• w(0) normalisiert ist, also w(0) = 12π

∫ ∞−∞W( jω)dω = 1 und

• W( jω) von kurzer Dauer ist.

6Bei ungeraden N sind es die ersten (N + 1)/2 Werte.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 84: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Um den Effekt einer Fensterung analysieren zu können, schreibt man

xw(k) = x(k) · w(k), (6.17)

wobei xw(k) für das gefensterte Zeitsignal steht. Diese Fensterung im Zeitbereich entsprichtim Frequenzbereich einer Faltung mit der fouriertransformierten Fensterfunktion:

Xw(Ω) = X(Ω) ∗W(Ω). (6.18)

Wenn der Faltungsoperator ausgeschrieben wird, erhält man

Xw(Ω) =

∫ ∞

−∞X(Ω′)W(Ω −Ω′)dΩ′. (6.19)

Betrachtet man diesen Ausdruck einmal konkret für eine Frequenzstützstelle Ωn, ergibt sich

Xw(Ωn) =

∫ ∞

−∞X(Ω′)W(Ωn −Ω′)dΩ′. (6.20)

Man erhält also das n’te Band der DFT, indem man das Spektrum des Ursprungssignals X(Ω)nach Multiplikation mit dem Spektrum der Fensterfunktion über alle Frequenzen integriert,nachdem das Spektrum der Fensterfunktion, W(Ω) um Ωn verschoben und ausserdem gespie-gelt wurde. Der Effekt einer gefensterten DFT entspricht also dem einer Gruppe von Band-passfiltern. Die Übertragungsfunktion der Bandpässe ist die Fouriertransformierte der Fenster-funktion und die Mittenfrequenzen sind genau die Analysefrequenzen Ωn. Die Abbildung 6.8zeigt die Filterbankdarstellung der DFT im Spektralbereich. Da also das Spektrum der Fenster-funktion die Form der einzelnen Bandpässe der DFT ergibt, ist es wichtig, eine geeignete Fen-sterfunktion auszuwählen. Je schmaler die Hauptkeule der Fensterfunktion ist, und je stärkerdie Nebenkeulen gedämpft werden, desto selektiver wird die DFT jeweils genau die Mittenfre-quenzen zeigen. Die Rechteckfunktion ist als Fensterfunktion insofern immerhin akzeptabel,als sie eine schmale Hauptkeule besitzt. Wegen ihrer nur vergleichsweise schwach gedämpftenNebenkeulen bevorzugt man allerdings oft andere Fensterfunktionen, die bezüglich der Größeder Nebenkeulen ein besseres Verhalten zeigen. Besonders häufig findet man die Hamming-und Hanning-Fensterfunktion oder das Blackman-Fenster. Bei dem Kaiser-Fenster, das in Be-zug auf das Verhältnis zwischen den Energien der Haupt- und der Nebenkeulen optimiert ist,erlaubt ein zusätzlicher Parameter die Kontrolle über die Amplitude der Nebenkeulen.

Betrachtet man das Rechteck-, Hamming-, Hannfenster im Zeitbereich, zeigt sich, dass sieeine gemeinsame Form besitzen:

w(k) = ξ0 + ξ1 cos(2πk

M − 1), 0 ≤ k ≤ M − 1. (6.21)

Das Blackmanfenster besitzt einen zweiten Cosinusterm, der den Ripple im Sperrbereich ver-ringert. Tabelle 6.5 fasst die Parameter der genannten Fensterfunktionen zusammen und Ab-bildung 6.9 zeigt ihre Übertragungsfunktionen.

Unabhängig von der verwendeten Fensterfunktion gibt es eine weitere prinzipielle Un-terscheidung, nämlich die zwischen Breitband- und Schmalbandspektrogrammen. Bei Breit-bandspektrogrammen ist die Fensterlänge kleiner als eine Grundperiode, normalerweise unter

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 85: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 500 1000 1500 2000 2500 3000 3500 4000−200

−150

−100

−50

0Zur Illustration

0 500 1000 1500 2000 2500 3000 3500 4000−200

−150

−100

−50

0Realitätsnahe Bedingungen bei 8000Hz und NFFT=256

Abbildung 6.8: DFT als Filterbank, oben sind einige ausgewählte Frequenzbänder zu sehen,unten wird der Effekt der FFT gezeigt, wenn das Signal mit 8kHz abgetastet istund die Anzahl der Frequenzbänder 256 beträgt (eine hohe Frequenzauflösungvon 31.25Hz, was mit einer recht geringen zeitlichen Auflösung von 32mskorrespondiert).

Fensterfunktion ZeitfunktionHamming-Fenster ξ0 = 0.54, ξ1 = −0.46

Hanning-Fenster ξ0 = 0.5, ξ1 = −0.5Rechteck-Fenster ξ0 = 1, ξ1 = 0

Blackman-Fenster ξ0 + ξ1 cos(

2πkM−1

)+ ξ2 cos

(4πkM−1

)

ξ0 = 0.42, ξ1 = −0.5, ξ2 = 0.08

Kaiser-Fenster I0

√1 − 4k2

(M−1)2

)/I0(β) 7

Tabelle 6.5: Wichtige Fensterfunktionen.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 86: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 100 200 3000

20

40

60

80

20

log

10

(ab

s(W

))

Rechteck−Fenster

0 100 200 300

−20

0

20

40

60

20

log

10

(ab

s(W

))

Hamming−Fenster

0 100 200 300−40

−20

0

20

40

60

20

log

10

(ab

s(W

))

Hanning−Fenster

0 100 200 300

−50

0

50

20

log

10

(ab

s(W

))

Blackman−Fenster

Abbildung 6.9: Frequenzgänge von vier wichtigen Fensterfunktionen. Das Rechteckfensterbesitzt eine schmale Hauptkeule, das Hamming-Fenster gelangt relativ schnellzu guten Dämpfungswerten, das Hanning-Fenster erzielt eine hohe Sperr-dämpfung und das Blackman-Fenster ist bezüglich des Ripples im Sperrbe-reich optimiert.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 87: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

10ms. Damit passt in ein Fenster nur ein Teil einer Grundperiode, wie auch die Abbildung 6.10illustriert. Damit ändert sich, während das Fenster bei der Kurzzeittransformation entlang desSignals verschoben wird, auch der Teil der Grundperiode, der in der jeweiligen Analysefenstersichtbar ist, so dass es in Kurzzeitspektrogrammen zu einer vertikalen Streifenbildung kommt.Breitbandspektrogramme zeigen das Signal also mit einer sehr hohen zeitlichen Auflösung,besitzen allerdings wegen der wenigen Samples pro Analysefenster eine geringe Frequenz-auflösung.

Bei Schmalbandspektrogrammen sind demgegenüber die Frequenzen hoch und die Zeit istgering aufgelöst, die Analysefensterlänge sollte größer sein als eine Grundperiode. Üblichsind Analysefensterlängen ab etwa 20ms. Dadurch findet man zwar keine vertikalen Streifen,da nun mehr als eine Grundperiode in einem Fenster liegt, allerdings ergeben sich horizontaleStreifen, die den Harmonischen der Grundfrequenz entsprechen.

Grundfrequenzsynchrone Analyse bietet einen Kompromiss zwischen zeitlicher und Fre-quenzauflösung und vermeidet ausserdem die Artefakte, die die dominante Grundperiodesonst verursacht, man erhält also keine gestreiften Spektrogramme mehr, sondern stattdessenden Frequenzinhalte jeder Grundperiode, in Frequenzbändern deren Breite der Grundfrequenzentspricht. Allerdings ist für diese Analysemethode eine vorgeschaltete Grundfrequenzanalyseerforderlich, was grundfrequenzsynchrone Analyse deutlich aufwendiger macht als Breitband-oder Schmalbandspektrogramme.

Grund-periode

x(k)

2

k

1

Abbildung 6.10: Zwei verschiedene Fensterpositionen, 1 und 2, führen bei einer Kurzzeitana-lyse zu unterschiedlichen Ergebnissen.

.

6.4.3. Wahrnehmungsangepasste Analyse

DFT-Parameter sind stark redundant und nicht wahrnehmungsorientiert. Deswegen werdenin sehr vielen Spracherkennern zunächst aus den DFT-Parametern M mel-skalierte Filter-bankausgänge F1..M(τ) berechnet. Dafür werden die spektralen Werte nach Betragsbildung

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 88: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

(ggfs. auch Betragsquadratbildung) mit meist dreiecksförmigen Filterfunktionen gewichtetsummiert, wie es in Bild 6.11 angedeutet ist. Die Filterfunktionen H1..M(k) haben Mitten-

H1(k) = Dreiecksfunktion desersten Filters

F1( )

FM( )

Xw( 1, )

Xw( N, )

x(t)DFT

::

::

Abbildung 6.11: Dreiecksfilterbank.

frequenzen, die auf der Mel- oder Bark-Skala gleichmäßig verteilt sind, und besitzen die ge-hörangepasste kritische Bandbreite. Aus der Dreiecksfilterbank ergeben sich dann die wahr-nehmungsorientierten Spektren mittels

F j(τ) =NFFT∑

k=1

|Xw(Ωk, τ)|H j(k) (6.22)

als Summen der Einzelbandbeträge oder über

F j(τ) =NFFT∑

k=1

|Xw(Ωk, τ)|2H j(k) (6.23)

als Summen der Energien über alle NFFT nichtredundanten Frequenzstützstellen. Die resul-tierende Betragsübertragungsfunktion entsprechend (6.22) erhält man aus

|H j,ges(Ω)| =NFFT∑

k=1

|W(Ωk −Ω)|H j(k), (6.24)

da die einzelnen Bänder |W(Ωk − Ω)| nur linear kombiniert werden. Das Ergebnis der be-tragsmäßigen Summation ist in Abbildung 6.12 für ein Beispiel eines Dreiecksfilters gezeigt.Statt der Filterung via DFT mit anschliessender Gewichtung könnte eine Filterbank auch aufanderem Weg realisiert werden, z.B. als

• Filter im Zeitbereich (FIR oder IIR) (ggf. mit anschliessender Unterabtastung),

• als Filterbank in Baumstruktur,

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 89: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 500 1000 1500 2000 2500 3000 3500 4000−40

−20

0

20

40

60

Resultie

render

Fre

quenzgang

f[Hz]

0 500 1000 1500 2000 2500 3000 3500 4000−150

−100

−50

0

50

Fre

quenzgänge d

er

rele

vante

n K

anäle

Frequenzgangsberechnung für einen Kanal einer DFT−Dreiecks−Filterbank

f[Hz]

Abbildung 6.12: Beispiel einer resultierenden Übertragungsfunktion für ein Band einer Mel-Filterbank.

• als im Zeitbereich entworfenes Gammaton-Filter (das sowohl die Frequenz- als auch dieZeitauflösung der gehörinternen Signalverarbeitung approximiert) oder

• über Wavelets.

• Die derzeit aber wohl wichtigste Alternative zur DFT ist die linear prädiktive Codierung,die auch (u.A. im Mobilfunk) zur Sprachkompression verwendet wird.

Bei der linear prädiktiven Codierung (LPC) wird ein Spracherzeugungsmodell zugrundegelegt, in dem das Sprachsignal durch die Faltung eines (periodischen oder auch nichtperi-odischen) Anregungssignals mit der Impulsantwort des Vokaltraktes entsteht. Mit der LPCversucht man, die Vokaltraktübertragungsfunktion H(z) aus dem Sprachsignal S(z) zu schät-zen, wobei ausserdem eine Schätzung für das Anregungssignal V(z) entsteht. Das Blockbildzeigt Abbildung 6.13. Weil ein rein rekursives Modell für H(z) verwendet wird, kann diesesdurch seine Polstellen parametrisiert werden. Durch immer größere Ordnung des Systemmo-dells kann man die Schätzung sukzessive verfeinern, so erhält man Schätzungen verschiedenerOrdnung, wie sie auch in Abbildung 6.14 gezeigt sind. Neben der Übertragungsfunktion kann

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 90: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Impuls-generator

Rausch-generator

H(z)

Stimmhaft?

f0 1/ f0

VokaltraktfilterV(z) V(z).H(z) = S(z)

Sprache

Abbildung 6.13: Modell der Spracherzeugung, das der linear prädiktiven Codierungzugrundeliegt.

auch die Anregungsfunktion mit geschätzt werden, um die Übertragungsqualität zu verbes-sern. Das passiert zum Beispiel im GSM-Vollratencodec, wo neben den Koeffizienten vonH(z) auch die Schätzung von V(z) mit übertragen wird, oder im GSM-Halbratencodec, derstatt V(z) den am besten passenden Eintrag aus einem Codebuch übermittelt. Für die Spra-cherkennung ist allerdings das Anregungssignal V(z) meist irrelevant oder sogar unerwünscht,da die wesentliche Information über die Art des Lautes in der Form des Vokaltrakts, und damitin den Koeffizienten von H(z) enthalten ist.

Anhang - Herleitung des SNR

Das SNR ist definiert als

S NRquant = 10 log10

σ2x

σ2q

(6.25)

Die Störsignalvarianz σ2q erhält man als

σ2q = E((sq − s)2) (6.26)

wobei s das Sprachsignal und sq die quantisierte Version davon ist. Es gibt bei gleichmäßi-ger mid-rise Quantisierung 2B Quantisierungsstufen, die bei einer maximal quantisierbarenSignalamplitude smax die Breite

∆ =2smax

2B(6.27)

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 91: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 2 4 6 8 10 12−30

−20

−10

0

10

20

30

40LPC 4ter Ordnung, 513−Punkt−DFT

Frequenz [kHz]

Am

plit

ud

e [d

B]

0 2 4 6 8 10 12−30

−20

−10

0

10

20

30

40LPC 32ter Ordnung, 513−Punkt−DFT

Frequenz [kHz]

Am

plit

ud

e [d

B]

0 2 4 6 8 10 12−30

−20

−10

0

10

20

30

40LPC 64ter Ordnung, 513−Punkt−DFT

Frequenz [kHz]

Am

plit

ude [

dB

]

0 2 4 6 8 10 12−30

−20

−10

0

10

20

30

40LPC 128ter Ordnung, 513−Punkt−DFT

Frequenz [kHz]

Am

plit

ude [

dB

]

Abbildung 6.14: LPC (rot und dick) und DFT für verschiedene LPC-Ordnungen.

haben. Nimmt man an, dass der Fehler innerhalb einer Quantisierungsstufe gleichverteilt ist,dann erhält man als Varianz aus

σ2q = E((sq − s)2)

de f= E((e)2) (6.28)

=

∫ ∆/2

−∆/2e2p(e)de (6.29)

=1

∫ ∆/2

−∆/2e2de (6.30)

den Ausdruck

σ2q =∆2

12. (6.31)

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 92: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Aus (6.27) ergibt sich also

σ2q =

s2max

3 · 22B(6.32)

und deswegen ist entsprechend der Definition (6.25) das SNR

S NRquant = 10 log10

3 · 22Bσ2x

s2max

(6.33)

= 10 log10 3 · 22B σ2x

s2max

(6.34)

≈ 4, 77 + 2B · 10 log10 2 − 20 log10

smax

σx(6.35)

≈ 4, 77 + 6, 02B − 20 log10

smax

σx. (6.36)

6.5. LITERATURHINWEISE

[Deller1987] Deller J., Proakis J. und Hansen J. „Discrete-Time Processing of SpeechSignals,“ Prentice Hall, New Jersey, 1987.

[HTK2002] Young, S. et al. „HTK-Book,“ Cambridge, 2002.http://htk.eng.cam.ac.uk/prot_docs/htk_book.shtml

[Jenkins1968] Jenkins G. und Watts D. „Spectral Analysis and its Applications,“Holden-Day, San Francisco, 1968.

[Papamichalis2004] Papamichalis P., Lecture Notes zu „Digital Speech Processing,“http://engr.smu.edu/ee/8373/lectures09-11.pdf, 2004.

[Rabiner1975] Rabiner L. und Sambour M. „An algorithm for detecting the endpoints ofisolated utterances,“ in The Bell System Technical Journal, Vol. 54, No. 2,S. 297-315, 1975.

[Vary1998] Vary P., Heute U. und Hess W. „Digitale Sprachsignalverarbeitung,“Teubner-Verlag, Stuttgart, 1998.

Vorlesung 6 + 7 Einführung in die automatische Spracherkennung

Page 93: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Struktur der Parameterextraktion

Zur Wiederholung ist hier noch einmal der Überblick über die Parameterextraktion aus Ab-schnitt 6.2 gezeigt:

ggf.Zeitbereichs-featureanalyse

Zeit-Frequenzanalyse

Cepstral-analyse

Zeitbereichssignals(k)

Features x( )‘

Vektor-quantisierung

Features x( )

xq( )

Dimensions-reduktion

Berech-nungder

Ablei-tungen

S(j )

scep( )

scep( )

scep( )

Optimierungsmöglichkeit:

Abbildung 6.15: Typischer Ablauf der Feature Extraction.

Wie hier wieder zu sehen ist, werden aus Frequenzbereichsfeatures meist in der nächstenStufe der Parameterberechnung Cepstrale Features gewonnen.

6.6. CEPSTRALE FEATURES

Nach der Bestimmung des Spektrums sind die Merkmale noch stark abhängig von dem Spre-cher und der Umgebung, gleichzeitig sind die einzelnen Parameter stark redundant und korre-liert. Eine robustere und gleichzeitig kompaktere Repräsentation des Sprachsignals erhält manmit dem Cepstrum. Es wird derzeit beispielsweise für

• die Spracherkennungssysteme von Microsoft, NTT und Daimler-Chrysler

• den HTK-Erkenner, der für eine aktuelle, internationale Robustheitsstudie eingesetztwurde 8

8Aurora 2/3, verwendet für Special Sessions zu Robuster Spracherkennung auf den Konferenzen Eurospeech2001, 2002 und 2003, [Hirsch2000]

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 94: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• und den aktuell von ETSI entwickelten Feature-Extraction-Standard [ETSI2000] ver-wendet.

6.6.1. Das Cepstrum als Raum der Verzögerungszeiten

Gegeben ist zuerst ein Signal s(t). Wenn dieses Signal auf zwei Wegen an einem Sensor ein-trifft, einmal unverzögert und einmal um t′ verzögert und mit dem Dämpfungsfaktor α abge-schwächt, erhält man als Sensorsignal x(t):

x(t) = s(t) + αs(t − t′). (6.37)

Das kann man auch schreiben als

x(t) = s(t) ∗ (δ(t) + αδ(t − t′))

(6.38)

so dass die Fouriertransformierte des Gesamtsignals

X( j f ) = S ( j f ) ·(1 + αe− j2π f t′

)(6.39)

ist. Das Energiedichtespektrum |X( j f )|2 erhält man dann aus

|X( j f )|2 = X( j f ) · X( j f )∗ (6.40)

= S ( j f ) · S (− j f )(1 + αe j2π f t′

) (1 + αe− j2π f t′

)(6.41)

= |S ( j f )|2(1 + α2 + αe j2π f t′ + αe− j2π f t′

). (6.42)

Weil e jx + e− jx = 2 cos x gilt, erhält man dann

|X( j f )|2 = |S ( j f )|2(1 + α2 + 2α cos(2π f t′)

). (6.43)

Wie man sieht, besteht das Spektrum des Mikrophonsignals dann aus dem ursprüngliche Si-gnalspektrum, verstärkt um den Faktor (1+α2), und aus einer weiteren Komponente, in der dasSpektrum |S ( j f )|2 zusätzlich mit einer cos-Schwingung moduliert ist. Die “Frequenz” dieserSchwingung ist gleich der Verzögerungszeit t′ und die “Amplitude” ist 2α. Es wäre nun inter-essant, automatisiert aus einem Signalspektrum solche periodischen Anteile zu extrahieren.

Zu diesem Zweck kann man das Mikrofonsignal im Frequenzbereich logarithmieren. DasErgebnis besteht dann aus:

log |X( j f )|2 = log |S ( j f )|2 + log(1 + α2 + 2α cos(2π f t′)

). (6.44)

Hier sieht man, dass das logarithmierte Spektrum aus zwei Anteilen besteht, dem logarithmier-ten Spektrum des Quellensignals log |S ( j f )|2 und der Funktion log(1 + α2 + 2α cos(2π f t′)).

Es sind also der Anteil des Quellensignals und der Anteil der Übertragungsfunktion aus ei-ner Faltung (im Zeitbereich) in eine Summe (im logarithmierten Spektrum) überführt worden.Wenn man nun an der Verzögerungszeit t′ interessiert ist, kann man diese aus dem zweitenTeil des Spektrums, log(1+ α2 + 2α cos(2π f t′)), gewinnen. Dieses ist nämlich periodisch (pe-riodisch im Frequenzbereich) mit der „Periodendauer“ 1

t′ , also mit der „Frequenz“ t′. Wenn

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 95: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

man diese Funktion also mit einer Fouriertransformation in ihre „spektralen“ Anteile zerlegt,erhält man zwei Teile: einen „DC-Anteil“ und einen Anteil bei der „Frequenz“ t′.

Das ist genau die Vorgehensweise, der man bei der Cepstral-Transformation folgt: das reelleCepstrum ist definiert als die inverse Fouriertransformation9 des logarithmierten Betragsspek-trums

scep(t′) = IDFT(log(|S ( j f )|)) (6.45)

oder, genauer:

scep(t′) =1

∫ Fs/2

−Fs/2

log(|S ( j f )|)e j2π f t′d f . (6.46)

Weil Betragsspektren reell und symmetrisch sind, kann statt der IDFT die Diskrete Kosi-nustransformation der nichtredundanten spektralen Anteile verwendet werden. Diese nimmtimplizit eine symmetrische Ergänzung des Spektrums vor, die im Anhang etwas ausführlicherbeschrieben ist.

Um nach der zweiten Spektraltransformation mit den Begriffen nicht durcheinanderzukom-men, wurden die Analyseergebnisse von ihren Erfindern mit neuen Namen versehen:

• Das Ergebnis der gesamten Rechnung, das „Spektrum“ des logarithmierten Betrags-spektrums, wird als Cepstrum bezeichnet,

• die „Frequenz“ einer Schwingung im logarithmierten Spektrums, äquivalent zur Verzö-gerungszeit im Zeitsignal, nennt man Quefrenz,

• und eine „Filterung“ des Cepstrums wird gelegentlich (jedenfalls in der englischen Li-teratur) als Liftering bezeichnet.

6.6.2. Verzögerungszeiten in Sprachsignalen

Sprachsignale bestehen aus mehreren Gründen aus verzögerten Überlagerungen eines Ur-sprungssignals:

• Mit der Grundfrequenz besitzen sie in stimmhaften Segmenten einen starken periodi-schen Anteil,

• es kommt im Vokaltrakt und

• im Raum zu Reflexionen.

Einerseits ist das von den Stimmbändern gebildete Anregungssignal periodisch, so dass man esals Faltung einer einzigen Grundperiode mit einem Deltakamm modellieren kann, andererseitswird dieses Anregungssignal sowohl mit der Impulsantwort des Vokaltrakts als mit der desRaumes gefiltert, was auch wieder dargestellt werden kann als die Summe von verschiedenstark gedämpften und verzögerten Varianten des Ursprungssignals. Mit der Cepstralanalyse

9Fouriertransformierte und inverse Fouriertransformierte eines reellen Signals unterscheiden sich nur darin,dass sie konjugiert komplex zueinander sind und einen anderen Skalierungsfaktor haben: F (S ) = cF −1(S )∗.Insofern ist es sinnvoll, die inverse Fouriertransformation hier als eine Spektralanalyse zu bezeichnen.

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 96: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

versucht man, alle drei Ursachen für solche “Wiederholungen” im Signal zu finden und zutrennen - man trennt also die Periodizität des Anregungssignals von den Verzögerungszeitendes Vokaltraktes und des Raumes.

6.6.2.1. Periodizität mit der Grundperiode

Das Sprachsignal ist in stimmhaften Segmenten angenähert periodisch mit der GrundperiodeTp. Wäre es exakt periodisch, könnte man es als Faltung einer einzelnen Grundperiode s1(t)mit einem Deltakamm δT p(t) modellieren, wie auch die Abbildung 6.16 zeigt. Ein Sprachsi-

t

s

T0

t

s0

*

t

T0

T0

s(t)=s0(t)+s0(t-T0)+s0(t-2T0)+... = s0(t) * T0(t)

Abbildung 6.16: Periodische Signale können als Faltung der Grundperiode mit einem Delta-kamm modelliert werden.

gnal ist zwar nie exakt periodisch, aber trotz der Änderungen von Grundperiode zu Grund-periode hat es spektrale Anteile, die einen deutlichen Einfluss der Grundperiode zeigen, wieman in Abbildung 6.17 erkennen kann. Dementsprechend kann man erwarten, dass das Cep-strum einen starken Anteil bei der Verzögerungszeit Tp enthält. Abbildung 6.18 zeigt an einemBeispiel, dass das tatsächlich in stimmhaften Segmenten der Fall ist.

6.7. ANWENDUNGEN DES CEPSTRUMS

6.7.1. Grundfrequenzbestimmung

Wie schon in Abschnitt 6.3.3 erwähnt wurde, kann das Cepstrum eines stimmhaften Sprach-signals zur Grundfrequenzbestimmung verwendet werden, da es ausgeprägte Peaks bei denVielfachen der Grundperiode k · Tp besitzt. Im Cepstralbereich ist der erste Peak im für dieGrundfrequenz relevanten Suchbereich normalerweise deutlicher von harmonischen und sub-harmonischen Schwingungen separiert, als das beispielsweise bei der AKF der Fall ist. Damitwerden auch Vorverarbeitungsmethoden wie zum Beispiel das Peak-Clipping, das für AKF-basierte Grundfrequenzbestimmung oft benötigt wird, unnötig. Ausführlichere Erklärungendazu sind unter anderem in [Deller1987] und [Noll1967] zu finden.

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 97: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

x =

Grund-

frequenz F0

x 120Hz = F0

Peaks alle

T0.Fs Samples

Abbildung 6.17: Die Analyseergebnisse eines stimmhaften Signals zeigen Periodizitäten so-wohl in der AKF als auch im Spektrum, das hier zweimal als Spektrogrammund außerdem einmal als Segment-Spektrum gezeigt ist.

6.7.2. Kompensation der Raumübertragungsfunktion

Außerdem kann mit Hilfe des Cepstrums die Raumübertragungsfunktion berechnet und kom-pensiert werden. Dazu setzt man voraus, dass das Cepstrum des Sprachsignals variabel undim Mittel Null ist, während die Raumübertragungsfunktion sich mit der Zeit nicht ändert, sodass der Mittelwert des Cepstrums der Raumübertragungsfunktion entsprechen sollte. Dannbekommt man aus der Zeitbereichsverknüpfung von Signal s(t) und Raumimpulsantwort h(t)

x(t) = s(t) ∗ h(t) (6.47)

nach Transformation in den Frequenzbereich

X( jω) = S ( jω) · H( jω) (6.48)

und Betragsbildung mit anschließender Logarithmierung

log |X( jω)| = log |S ( jω)| + log |H( jω)| (6.49)

schließlich einen Ausdruck, in dem das Signal S und die Übertragungsfunktion H nur nochals Terme einer Summe auftreten. Da die DCT eine lineare Transformation ist, bleiben die

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 98: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

0 0.01 0.02 0.03 0.04 0.05

0

5

10

15

20

Segment-Cepstrum mit Markierungs-Linien bei k/GF

Time Delay [s]

Cepstr

um

T0

3T0

2T 0

4T0

5T0

Abbildung 6.18: Cepstrum eines stimmhaften Sprachsegments.

Zusammenhänge auch nach der DCT additiv, so dass

DCT (log |X( jω)|) = DCT (log |S ( jω)|) + DCT (log |H( jω)|) (6.50)

gilt. Definiert man nun das Cepstrum eines Signals y als yc(t′) = DCT (log |Y( jω)|), heißt das

xc(t′) = sc(t

′) + hc(t′). (6.51)

Für Signale sc, die im Cepstralbereich mittelwertfrei sind, gilt dann ausserdem

E(xc(t′)) = E(sc(t

′) + hc(t′)) (6.52)

= E(sc(t′)) + E(hc(t

′)) (6.53)

= E(hc(t′)). (6.54)

(6.55)

Den Erwartungswert von xc kann man durch zeitliche Mittelwertbildung schätzen, dazu rech-net man

Eτ(xc(t′, τ)) ≈ 1

T

T−1∑

τ=0

xc(t′, τ) (6.56)

wobei xc(t′, τ) das Cepstrum von x im τ’ten Frame darstellt. Dann erhält man aus (6.51) und(6.52)

xc(t′, τ) − Eτ(xc(t

′, τ)) = sc(t′, τ) + hc(t

′, τ) − Eτ(sc(t′, τ) + hc(t

′, τ)) (6.57)

= sc(t′, τ) + hc(t

′, τ) − Eτ(hc(t′, τ)). (6.58)

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 99: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Wenn die Raumimpulsantwort hc(t′, τ) sich mit dem Frameindex τ nicht ändert, gilt hc(t′, τ) =Eτ(hc(t′, τ)) und damit wird

xc(t′, τ) − Eτ(xc(t

′, τ)) = sc(t′, τ). (6.59)

Aus verständlichen Gründen nennt man diese Vorgehensweise auch Cepstral Mean Subtrac-tion (CMS). Statt den Mittelwert explizit zu berechnen und abzuziehen, kann man auch dieAbleitung des Cepstrums nach der Zeit berechnen. Für diskrete Signale kann man die Ablei-tung nach t approximieren durch eine diskrete Ableitung nach dem Frameindex k:

∆xcep(t′, τ) =xcep(t′, τ + δτ) − xcep(t′, τ − δτ)

2δτ. (6.60)

Diese ist, bei zeitinvarianter Raumübertragungsfunktion (hcep(t′, τi) = hcep(t′, τ j)∀i, j), eben-falls unabhängig von der Raumübertragungsfunktion, und kann deswegen als Feature einge-setzt werden, das nur vom Sprachsignal selbst abhängig ist.

6.7.3. Trennung von Quelle und Vokaltrakt

Betrachtet man noch einmal die Abbildung 6.13, sieht man, dass das Sprachsignal s(t) maß-geblich von zwei Faktoren abhängt:

• Zuerst erzeugt die Quelle, die Lunge in Kombination mit den Stimmbändern, das soge-nannte Anregungssignal,

• anschließend wird dieses im Vokaltrakt gefiltert.

Das Anregungssignal ist in stimmhaften Segmenten periodisch mit recht langen Periodendau-ern > 1.5ms.10 Die Impulsantwort des Vokaltrakts liegt hauptsächlich bei kürzeren Verzöge-rungszeiten. Deswegen kann man die oberen Teile des Cepstrums (also die hohen Verzöge-rungszeiten) dem Anregungssignal und die unteren (für kurze Verzögerungen) dem Vokaltraktzuordnen. Da die Stellung des Vokaltraktes für die Spracherkennung meist viel interessanterist als das Stimmbandsignal selbst, werden meist nur die unteren cepstralen Koeffizienten ver-wendet, deren Verzögerungszeit unter der Grundperiodendauer liegt.11 Ein Beispiel für dieseVorgehensweise zeigt Abbildung 6.19

6.8. LITERATURHINWEISE

[Deller1987] Deller J., Proakis J. und Hansen J. „Discrete-Time Processing of SpeechSignals,“ Prentice Hall, New Jersey, 1987.

10Die Grundfrequenz liegt in den allermeisten Fällen zwischen 40 und 600Hz, so dass die Grundperiode zwi-schen 1.7ms und 25ms variieren kann.

11Diese Vorgehensweise hat eine gewisse Ähnlichkeit mit dem Entfernen spektraler Signalkomponenten, alsomit dem Filtern von Signalen, und wird deswegen oft als Liftering bezeichnet. Mehr Informationen dazu sindzum Beispiel im Artikel von Oppenheim zu finden [Oppenheim2004].

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 100: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Abbildung 6.19: Für die Spracherkennung (im Gegensatz zur Sprechererkennung) sind primärdie cepstralen Koeffizienten unterhalb der Grundfrequenz interessant. Dieoberen werden oft entfernt, bevor das Signal aus der Merkmals-Extraktionan die Mustererkennung weitergeleitet wird.

[ETSI2000] ETSI ES 201108 Version 1.1.2 „Speech Processing, Transmission andQuality Aspects (STQ);Distributed Speech Recognition;Front End Fea-ture Extraction Algorithm;Compression Algorithms,“ April 2000.

[Flickner1982] Flickner M. und Ahmed N. „A derivation for the Discrete Cosine Trans-form,“ in Proceedings of the IEEE, September 1982.

[Hirsch2000] Hirsch H.G. und Pearce D. „The Aurora Experimental Framework forthe Performance Evaluation of Speech Recognition Systems under NoisyConditions,“ in Proceedings of the ASR2000, September 2000.

[HTK2002] Young, S. et al. „HTK-Book,“http:\\htk.eng.cam.ac.uk\prot_docs\htk_book.shtml, Cambridge, 2002.

[Makhoul1980] Makhoul, J. „A fast cosine transform in one and two dimensions,“ in IE-EE Trans. on Acoustics, Speech and Signal Processing, vol. ASSP-28,S. 27-34, Februar 1980.

[Noll1967] Noll A. „Cepstrum Pitch Determination,“ in Journal of the AcousticalSociety of America, vol. 41, S. 293-309, Februar 1967.

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 101: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

[Oppenheim2004] Oppenheim A. und Schafer R. „From Frequency to Quefrency: A Historyof the Cepstrum,“ in IEEE Signal Processing Magazine, September 2004.

[Vary1998] Vary P., Heute U. und Hess W. „Digitale Sprachsignalverarbeitung,“Teubner-Verlag, Stuttgart, 1998.

Vorlesung 8 Einführung in die automatische Spracherkennung

Page 102: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Verhältnis zwischen DFT und DCT

Definition der DCT

Die DCT eines Signals x(t) ist definiert als

XDCT (k) =

1√N

∑N−1m=0 x(m) für k = 0,√

2N

∑N−1m=0 x(m) cos (2m+1)kπ

2Nfür 1 ≤ k ≤ N − 1.

(6.61)

Eine andere Definition, bei der die Ergebnisse anders skaliert sind, sowohl absolut alsauch relativ zueinander, aber die gleichen Eigenschaften besitzen, wurde von Makhoul in[Makhoul1980] beschrieben und eignet sich besonders gut zur Herleitung der Frequenzbe-reichseigenschaften der Diskreten Kosinustransformation. Sie lautet:

XDCT (k) = 2N−1∑

m=0

x(m) cos(2m + 1)kπ

2N. (6.62)

Hiermit analysiert man also die Zeitbereichssequenz x(m) und gelangt so in den Frequenz-bereich mit der diskreten Frequenzvariablen k.

Definition der erweiterten Sequenz

Um zu untersuchen, welche Eigenschaften diese Transformation hat, definiert man zuerst eineSequenz

x2(m) =

x(m) für m = 0, 1, . . . ,N − 1,x(2N − m − 1) für m = N,N + 1, . . . , 2N − 1.

(6.63)

Diese Sequenz ist eine symmetrische Ergänzung von x um den Punkt x(N − 1/2), wie Abbil-dung 6.20 zeigt.

DFT der symmetrischen Erweiterung

Die DFT eines Zeitsignals y(n) ist definiert als

YDFT (k) =N−1∑

m=0

y(n)exp(− j2πnk

N) (6.64)

(für die Herleitung, siehe Abschnitt 6.4.1).Wenn man hier die Sequenz x2(m) analysiert, die von m = 1 bis 2N − 1 läuft, dann erhält

man

X2,DFT (k) =2N−1∑

m=0

x2(m)e− j 2πmk2N . (6.65)

Mit der DefinitionWA = e− j 2π

A (6.66)

Herleitung DCT Einführung in die automatische Spracherkennung

Page 103: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

x(m)

x2(m)

x2(m)mit periodischer Forsetzung durch DFT

Originalsequenz

mit symmetrischer Ergänzung aufdoppelte Länge erweitert

m

m

m

N-1

N-1 2N-1

N-1 2N-1

Abbildung 6.20: Symmetrische Ergänzung von x zu x2 (oben und mitte) und implizite peri-odische Fortsetzung durch DFT (unten).

wird daraus

X2,DFT (k) =2N−1∑

m=0

x2(m)Wmk2N . (6.67)

Das kann man teilweise auch durch die Originalsequenz x(m) ausdrücken, wenn man berück-sichtigt, dass x2(m) = x(m) für alle m < N. Damit ist

X2,DFT (k) =N−1∑

m=0

x(m)Wmk2N

︸ ︷︷ ︸L

+

2N−1∑

m=N

x2(2N − m − 1)Wmk2N

︸ ︷︷ ︸R

. (6.68)

Der linke und rechte Term (L bzw. R) kann jeweils separat umgeformt bzw. vereinfacht wer-den:

Herleitung DCT Einführung in die automatische Spracherkennung

Page 104: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

L =

N−1∑

m=0

x(m)Wmk2N (6.69)

=

N−1∑

m=0

x(m)W−k/22N Wk/2

2N Wmk2N (6.70)

= W−k/22N

N−1∑

m=0

x(m)Wk/22N Wmk

2N . (6.71)

Bei dem rechten Term kann man eine Substitution der Variablen vornehmen. Dazu definiertman

m = 2N − m − 1, (6.72)

so dassm = 2N − m − 1. (6.73)

Nit dieser neuen Variablen wird aus

R =2N−1∑

m=N

x2(2N − m − 1)Wmk2N (6.74)

jetzt

R =

0∑

m=N−1

x2(m)W (2N−m−1)k2N (6.75)

=

N−1∑

m=0

x2(m)W2Nk2N W−mk

2N W−k2N . (6.76)

Wenn man berücksichtigt, dass W2Nk2N = e− j2πk = 1, wird daraus

R =

N−1∑

m=0

x2(m)W−mk2N W−k

2N (6.77)

=

N−1∑

m=0

x2(m)W−k/22N W−mk

2N W−k2NWk/2

2N (6.78)

= W−k/22N

N−1∑

m=0

x2(m)W−mk2N W−k/2

2N . (6.79)

Jetzt können die beiden Terme, L und R, wieder zusammengefasst werden. Die Benennungder Laufvariablen ist unwichtig, so kann man z.B. beide Summen auch über n laufen lassen:

X2,DFT (k) = L + R (6.80)

= W−k/22N

N−1∑

n=0

x(n)Wk/22N Wnk

2N +W−k/22N

N−1∑

n=0

x2(n)W−nk2N W−k/2

2N . (6.81)

Herleitung DCT Einführung in die automatische Spracherkennung

Page 105: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Weil in der rechten Summe der Index nur bis N − 1 läuft, gilt hier x2(n) = x(n), also ist

X2,DFT (k) = W−k/22N

N−1∑

n=0

x(n)Wk/22N Wnk

2N + x(n)W−nk2N W−k/2

2N

(6.82)

= W−k/22N

N−1∑

n=0

x(n)(Wk/2

2N Wnk2N +W−nk

2N W−k/22N

) . (6.83)

Wegen e jx + e− jx = 2 cos(x) und aufgrund der Definition von W in (6.66) ist das

X2,DFT (k) = W−k/22N

N−1∑

n=0

x(n)

(exp−2 jπ

(k/2

2N+

nk

2N

)+ exp−2 jπ

(−k/2

2N+−nk

2N

))

= W−k/22N

N−1∑

n=0

x(n)

(2 cos

(2πk

4N+

2πnk

2N

))

= W−k/22N

N−1∑

n=0

x(n)

(2 cos

(kπ(2n + 1)

2N

)) . (6.84)

Der letzte Ausdruck entspricht genau der Kosinustransformation von der Ursprungssequenzx(n), wie sie in Gleichung 6.62 definiert wurde, deswegen kann man auch schreiben

X2,DFT (k) = W−k/22N · XDCT (k)

= exp

((2 jπk)/2

2N

)· XDCT (k) (6.85)

oder

XDCT (k) = exp

(− (2 jπk)/2

2N

)· X2,DFT (k). (6.86)

Deswegen entspricht die DCT der Ursprungssequenz x(n) genau der DFT einer auf doppelteLänge erweiterten Sequenz x2(n), die zusätzlich noch um ein halbes Sample nach rechts ver-schoben ist12 so dass sie übrigens symmetrisch wird (wie man sich vorstellen kann, wenn manAbbildung 6.20 um ein halbes Sample nach rechts verschiebt) und sich so zur Darstellung mitsymmetrischen Basisfunktionen anbietet.

6.9. LITERATURHINWEISE

[Makhoul1980] Makhoul, J. „A fast cosine transform in one and two dimensions,“ in IE-EE Trans. on Acoustics, Speech and Signal Processing, vol. ASSP-28,S. 27-34, Februar 1980.

12Die Multiplikation eines Signals mit exp(− jωT ) entspricht einer Zeitverschiebung um T nach rechts, bei dendiskreten Systemen wird statt der kontinuierlichen Kreisfrequenz ω für das k’te Band die diskrete, normierteFrequenz 2πk

2N eingesetzt, mit 2N im Nenner wegen der verdoppelten Sequenzlänge.

Herleitung DCT Einführung in die automatische Spracherkennung

Page 106: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7 Klassifikation von Zeitreihen

7.1. ÜBERBLICK

Bisher hat sich diese Veranstaltung mit zwei Aspekten der Spracherkennung beschäftigt, mitder

• Klassifikation und der

• Merkmalsextraktion.

Die bisher behandelten Methoden der Klassifikation sind allerdings nur für einzelne Merk-malsvektoren x geeignet. Die Klassifikation dieser Merkmale erfolgt dann durch Vergleichvon p(x|ki) für alle möglichen Klassen ki, zum Beispiel lautete die Entscheidungsregel desMaximum-Likelihood-Klassifikators

k = arg maxi

P(x|ki) (7.1)

und der Bayes’sche-Klassifikator entscheidet sich für diejenige Klasse, bei der

k = arg maxi

P(x|ki)P(ki) (7.2)

ist.Bei Sprachsignalen liefert die Merkmalsextraktion allerdings nicht nur einzelne Feature-

vektoren x, sondern für ein einzelnes Wort wird der Zeitverlauf in mehrere, aufeinander fol-gende Segmente eingeteilt, deren Features jeweils separat extrahiert werden können. Das führtdann zu einer Zeitreihe von Featurevektoren, wie sie in Abbildung 7.1 beispielhaft für Mel-Frequenz-Cepstralkoeffizienten mit ersten und zweiten Ableitungen gezeigt ist. Daher mussfür die Verwendung in Spracherkennern die Klassifikationsstufe so modifiziert werden, dasssie auch mit Zeitreihen x(t) umgehen kann. Das kann auf verschiedene Arten geschehen, zumBeispiel durch

• Hidden Markov Modelle

• Dynamic Time Warping oder

• Time-Delay Neural Networks.

Bei den Hidden Markov Modellen (HMMs), die wegen ihrer großen Flexibilität im Umgangmit Wort- und Sprachmodellen und wegen ihrer effizienten Implementierbarkeit besondershäufig verwendet werden, kann die Entscheidungsmethode der „klassischen“ Klassifikatoren

106

Page 107: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

x(1) x(2) x(T)

scep (T

)

scep (2)

scep (1)

scep (1)

scep (1)

scep (2)

scep (2)

scep (T

)s

cep (T)

.......

.......

.......

Abbildung 7.1: Das Ergebnis der Feature Extraction ist eine Sequenz von Feature-Vektorenx(1) . . . x(T ). Für ein 500ms langes Wort mit einem Frameshift von 10 msergeben sich zum Beispiel T = 50 Featurevektoren.

direkt übernommen werden, denn HMMs erlauben es, die Wahrscheinlichkeit einer Zeitrei-he P(x(t)|ki) direkt zu berechnen. Wenn diese erst einmal berechnet sind, kann der Rest derKlassifikationsregel (also zum Beispiel (7.2) oder (7.1)) direkt übernommen werden.1 FürEinzelworterkenner, bei denen die Klassen k1 . . . kN den N verschiedenen Worten entsprechen,erhält man dann zum Beispiel als Bayes’sche Entscheidungsregel:

k = arg maxi

P(x(t)|ki)P(ki). (7.3)

Die Berechnung von P(x(t)|ki) wird dann mit Hilfe von HMMs erledigt, wie die nächstenAbschnitte es beschreiben.

7.2. NEUE NOTATION

In der bisher behandelten Klassifikation von Objekten anhand einzelner Merkmalsvektorenbezeichnet man die Merkmalsvektoren üblicherweise mit einem x. Bei den Hidden MarkovModellen hat sich aber das x als Bezeichnung für den Zustand des Modells durchgesetzt.Um hier konform mit der beinahe gesamten Literatur zum Thema zu bleiben, heißen ab jetztdie Featurevektoren auch Beobachtungen, und werden in Formeln mit einem kleinen o für

1zumindest ist das für Einzelworterkenner möglich, die Vorgehensweise für fließend gesprochene Worte istetwas komplexer und wird in einem späteren Abschnitt ausführlicher behandelt.

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 108: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

„observation“ bezeichnet. Die Beobachtung zum Zeitpunkt t wird mit o(t) oder kurz auch oftmit ot geschrieben.

7.3. MARKOV-KETTEN

Markov-Ketten sind eine wichtige Vorstufe der Hidden Markov Modelle. Markov-Ketten kön-nen das zeitliche Verhalten von Zufallsprozessen modellieren. Dazu benutzen sie einen soge-nannten Zustand, der in der Zustandsvariablen x gespeichert wird.

In der Abbildung 7.2 ist ein Beispiel für solch eine Markov-Kette zu sehen

„2“

Regen

are,re = 0.8

are,so

= 0.1

asn,sn = 0.3

„3“

Schnee

„1“

Sonne

aso,so = 0.5

0.3

asn,so

= 0.3

0.20.1

0.4

so =

0.2

sn

= 0.3

re

= 0.5

Abbildung 7.2: Beispiel einer einfachen Markov-Kette.

Zu jedem Zeitpunkt t befindet sich dann eine Markov-Kette genau in einem Zustand x(t).Die Wahrscheinlichkeit dafür, dass es mit einem bestimmten Zustand i anfängt, ist mit derinitialen Wahrscheinlichkeit πi gegeben, man könnte also auch sagen

p(x(1) = i) = πi. (7.4)

Zu jedem Zeitpunkt findet dann in der Markov-Kette zufällig ein Zustandsübergang statt. Mitwelcher Wahrscheinlichkeit welcher Nachfolgezustand angesteuert wird, hängt nur von demZustand i ab, in dem sich die Markov-Kette gerade befindet. Die Größe dieser Übergangs-Wahrscheinlichkeiten gibt die sogenannte Übergangsmatrix A an.2 Dort steht in der i’ten Zeileund der j’ten Spalte die Wahrscheinlichkeit dafür, dass die Kette aus Zustand i in den Zustandj übergeht. Wenn zum Beispiel auf einen Sonnentag mit 50%iger Wahrscheinlichkeit wiederein Sonnentag folgt, ist an dieser Stelle der Wert der Transitionsmatrix aso,so = 0.5. Genauergesagt ist damit:

p(x(t + 1) = j|x(t) = i) = ai j. (7.5)

2Manchmal wird sie auch Transitionsmatrix genannt.

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 109: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Es stehen also in der i’ten Zeile der Übergangsmatrix die Wahrscheinlichkeiten für alle Nach-folgezustände von Zustand i. Damit die Wahrscheinlichkeiten zusammen 1 ergeben und so dieNormalisierungsbedingung einhalten, muss deswegen für alle Zeilen i gelten

M∑

j=1

ai j = 1. (7.6)

Hier steht M für die Anzahl von Zuständen der Markov-Kette. Dagegen summieren sich übri-gens die Spalten nur in seltenen Fällen zufällig zu 1.

Zusammengefasst sind also drei Größen nötig, um eine Markov-Kette vollständig zu be-schreiben,

• eine Menge von Zuständen S (hier im Beispiel ist S = re, so, sn),

• die Übergangsmatrix, die Abbildung 7.3 noch einmal für das Wetter-Markov-Modellzeigt,

• und schließlich ein Satz von initialen Wahrscheinlichkeiten Π = π1, . . . , πM.

Abbildung 7.3: Transitionsmatrix für das oben gezeigte Wetter-Modell.

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 110: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.3.1. Eigenschaften von Markov-Ketten

7.3.1.1. Berechnung der Wahrscheinlichkeit von Zustandssequenzen

Um die Wahrscheinlichkeit einer Sequenz von T Zuständen (angefangen bei t=1) zu erhalten,muss die initiale Wahrscheinlichkeit des ersten Zustandes mit den Wahrscheinlichkeiten allerZustandsübergänge multipliziert werden. Damit erhält man

P(x(1), x(2), . . . x(T )) = πx(1) · ax(1),x(2) · ax(2),x(3) · . . . ax(T−1),x(T ) (7.7)

= πx(1) ·T−1∏

t=1

ax(t),x(t+1). (7.8)

7.3.1.2. Berechnung der durchschnittlichen Aufenthaltsdauer in einem Zustand

Die durchschnittliche Aufenthaltsdauer3 t im Zustand i beträgt 11−aii

, was folgendermaßen her-geleitet werden kann:

t = E(t) (7.9)

=∑

t

t · P(t) (7.10)

= 1 · (1 − aii) + 2 · aii(1 − aii) + 3 · a2ii(1 − aii) . . . (7.11)

= 1 − aii + 2aii − 2a2ii + 3a2

ii − 3a3ii . . . (7.12)

= 1 + aii + a2ii + a3

ii . . . (7.13)

=

∞∑

n=0

anii. (7.14)

Das ist genau die geometrische Reihe4, also ist

t =1

1 − aii. (7.15)

Das heißt, dass Markov-Ketten auch die durchschnittliche Aufenthaltsdauer in einem Zustandmodellieren. Beispielsweise gilt für das oben gezeigte Wetter-Modell im Zustand „Regen“:are,re = 0.8, so dass man mit (7.15) auf ein Mittel von fünf aufeinander folgenden Regentagenkommt.

7.4. HIDDEN MARKOV MODELLE

Bei Hidden Markov Modellen kann die Zustandssequenz nicht mehr direkt beobachtet wer-den. Stattdessen hat man nur noch Beobachtungen zur Verfügung, aus denen man indirekt aufden Zustand des Prozesses schließen kann. Für dieses Beispiel kann man sich vorstellen, dass

3Das ist die Zeit, die die Markov-Kette durchschnittlich im Zustand i verbringt, nachdem sie einmal hineinge-raten ist.

4Die geometrische Reihe ist die Summe∑∞

n=0 c · yn und konvergiert gegen c1−y , falls |y| < 1.

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 111: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

in einem fensterlosen Großraumbüro nur noch ein Funkthermometer steht, aus dessen Anzei-ge man Rückschlüsse auf das Wetter draussen ziehen möchte. Deswegen ist, neben der Über-gangsmatrix A und den initialen Wahrscheinlichkeiten Π, nun zusätzlich eine Verteilungsdich-te erforderlich, die beschreibt, mit welcher Wahrscheinlichkeit in einem bestimmten Zustandein bestimmter Beobachtungswert (also eine bestimmte Temperatur) erzeugt wird. Um die-se Wahrscheinlichkeiten zu beschreiben, ordnet man jedem Zustand i eine Verteilungsdichtebi(o) zu. Diese sagt dann, mit welcher Wahrscheinlichkeit in dem Zustand i eine bestimmteBeobachtung o auftritt. Abbildung 7.4 zeigt ein Beispiel, in dem ein gesamtes Hidden MarkovModell zu sehen ist. Wie man sieht, sind also zur Beschreibung eines Hidden Markov Modells

1/3

„2“

Regen

1/2

1/4

„3“

Schnee

„1“

Sonne

so =

1/4

sn

= 1/4

re

= 1/2

Beispiel-HMM

1/4

1/4

1/4

1/4

1/4

1/2

1/2

o

bre(o)

1 2 3 4

1/4

bsn(o)

o-1-2 0

1/8

1/4

bso(o)

o1 2 3 40-1

Abbildung 7.4: Ein Hidden Markov Modell besteht aus einer Menge von Zuständen, denenjeweils eine eigene Verteilungsdichte zugeordnet ist. Diese Verteilungsdichtebeschreibt die Wahrscheinlichkeit, dass das Modell, wenn es sich im betref-fenden Zustand i befindet, einen bestimmten Beobachtungsvektor o erzeugt.Das heißt also in anderen Worten: bi(o) = p(obs(t) = o|x(t) = i). In wel-chem Zustand ein HMM sich im ersten Zeitschritt befindet, ist auch dem Zu-fall überlassen, die Wahrscheinlichkeiten für die einzelnen Zustände stehen iminitialen Wahrscheinlichkeitsvektor Π, der hier die Werte [0.50.250.25] ent-hält. Schließlich erfolgt in jedem Zeitschritt ein Zustandsübergang, wobei dieWahrscheinlichkeiten für alle möglichen Übergänge in der TransitionsmatrixA stehen. Wenn man übrigens die Wahrscheinlichkeiten A2 für den Zustands-wechsel nach zwei Übergängen sucht, findet man diese, indem man A qua-driert, also A2 = A2 und auf die gleiche Art ergibt sich die Transitionswahr-scheinlichkeit nach n Übergängen An aus An = An.

(HMM) insgesamt fünf Angaben erforderlich

• Einmal die Übergangsmatrix, die genauso definiert ist wie für Markov-Ketten,

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 112: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• zweitens auch wieder ein Satz von initialen WahrscheinlichkeitenΠ = π1, . . . , πM,

• drittens eine Menge von Zuständen S = re, so, sn

und als neue Merkmale gegenüber den Markov-Ketten

• eine Menge von möglichen Beobachtungen O (hier im Beispiel ist O = N) und

• eine Menge von dazugehörigen Beobachtungsverteilungsdichten, eine für jeden Zu-stand: B = b1(o), . . . , bM(o).

7.4.0.3. Berechnung der Wahrscheinlichkeit von Zustands- + Beobachtungssequenzen

Genau wie für die Markov-Ketten kann man auch bei Hidden-Markov-Modellen die Wahr-scheinlichkeit einer bestimmten Sequenz von Zuständen durch

P(x(1), x(2), . . . x(T )) = πx(1) ·T−1∏

t=1

ax(t),x(t+1). (7.16)

berechnen. Interessiert man sich dagegen für die Wahrscheinlichkeit, dass das Modell die Zu-standsfolge x(1), x(2), . . . x(T ) durchläuft und dabei gleichzeitig die Folge von Beobachtungeno(1), o(2), . . . o(T ) produziert, muss man zusätzlich noch die Beobachtungswahrscheinlichkei-ten einbeziehen. Das ergibt zusammen die Wahrscheinlichkeit

P(x(1), o(1), x(2), o(2) . . . x(T ), o(T )) =

πx(1)bx(1)(o(1)) · ax(1),x(2)bx(2)(o(2)) · ax(2),x(3)bx(3)(o(3)) · . . . ax(T−1),x(T )bx(T )(o(T )) =

πx(1) · bx(1)(o(1))T−1∏

t=1

ax(i),x(t+1)bx(t+1)(o(t + 1)). (7.17)

7.5. HIDDEN MARKOV MODELLE FÜR DIE SPRACHERKENNUNG

7.5.1. Ausgangsverteilungsdichten für die Spracherkennung

Die Beobachtungswahrscheinlichkeiten bi(o(t)) = P(o(t)|x(t) = i) geben an, mit welcherWahrscheinlichkeit im Zustand i die Beobachtung o(t) auftritt. Dazu werden primär zwei For-men von Verteilungsdichten eingesetzt:

• die Diskrete Verteilungsdichte

• und Gauß’sche Mischungsmodelle.

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 113: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.5.1.1. Diskrete Verteilungsdichte

Bei der diskreten Verteilungsdichte ist eine Menge möglicher Beobachtungen O = o1 . . . okgegeben, von denen jeder eine bestimmte Wahrscheinlichkeit P(on) zugeordnet ist. Das ent-spricht der Form einer Verteilungsfunktion, wie sie im Beispiel-HMM in Abbildung 7.4 zusehen ist. Für Spracherkenner, die mit vektorquantisierten Features arbeiten, ist (wegen derdiskreten Features, die jeweils einer Nummer in einer Tabelle entsprechen), ebenfalls die dis-krete Verteilungsfunktion sinnvoll. Als typische Codebuchgrößen werden oft 256 (eher fürkleine Vokabularien) bis 1024 Einträge verwendet, so dass also aus einem hochdimensionalenFeaturevektor jeweils eine 8-10 Bit große Binärzahl wird.

7.5.1.2. Gauß’sche Mischungsmodelle

Wie es in Gleichung 3.14 definiert wurde, besteht ein Gauß’sches Mischungsmodell aus einergewichteten Summe von einzelnen Gaußglocken:

p(o) =K∑

i=1

γiN(o, µi, σi).

Dabei müssen sich die Mischungsgewichte γi zu 1 addieren, damit das Modell der Normali-sierungsbedingung gehorcht. Wie es in [Alspach1972] nachgewiesen wurde, lassen sich mitGauß’schen Mischungsmodellen beliebige Verteilungsdichtefunktionen mit beliebiger Genau-igkeit approximieren (wenn nur hinlänglich viele Mischungskomponenten, also hinreichendviele einzelne Gaußglocken addiert werden). Wie viele Komponenten ein Mischungsmodellfür eine erfolgreiche Spracherkennung benötigt, hängt davon ab, wie groß die Variationen in-nerhalb der zu erkennenden Daten sind. Wenn beispielsweise nur ein Sprecher gelernt wird,und wenn alle Daten unter sehr ähnlichen Bedingungen aufgenommen sind, kann man un-ter Umständen sogar mit nur einer Mischungskomponente akzeptable Ergebnisse erreichen.Wenn dagegen ein sehr großes Vokabular mit vielen Sprechern, Akzenten, Sprechercharak-teristika und Aufnahmebedingungen trainiert wird, benötigt man sehr viel mehr Flexibilitätbei den Modellen, und wählt deshalb mehr Mischungskomponenten. Typische Werte für dieAnzahlen der Mischungskomponenten liegen meist zwischen 5 und 30 Komponenten.

7.5.2. HMM-Strukturen zur Spracherkennung

Die bisher gezeigten Beispiel-HMMs waren alle ergodisch, das heißt, dass sie für limt→∞ inein stationäres Verhalten übergehen. Damit eignen sie sich zum Beispiel für die Modellierungvon

• biologischen und

• physikalischen Prozessen oder auch

• Börsenkursen (falls sich neben einem Nachbau der Börse überhaupt etwas zur Model-lierung von Börsenkursen eignet)

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 114: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

a)

b)

c)

/ //l/ /f/ /t/

Lineares HMM

A:

Links-Rechts-HMM

A:

Bakis-Modell

A:

obere Dreiecksmatrix

Abbildung 7.5: Links-Rechts-HMMs: a) Lineares HMM b) allgemeines Links-Rechts-Modellund c) Bakis-Modell.

und sind auch schon zu allen diesen Zwecken eingesetzt worden. Für die Spracherkennungallerdings sind Links-Rechts-Modelle und deren Varianten geeigneter. Dabei werden bei all-gemeinen Links-Rechts-Modellen Übergänge beliebiger Länge in eine Richtung zugelassen,bei linearen Modellen ist die Schrittweite auf einen und bei Bakis-Modellen auf zwei Schrit-te beschränkt. Abbildung 7.5 zeigt diese drei häufigen Arten von HMMs, zusammen mit derStruktur von ihren Transitionsmatrizen A (ein weiß gefärbtes Feld zeigt an, dass dieser EintragNull ist.)

7.5.3. Drei wichtige Probleme

Um HMMs erfolgreich für die Spracherkennung einsetzen zu können, müssen drei wichtigeProbleme gelöst werden.5

Um hierfür eine einfache Notation zu schaffen, sollen alle Parameter eines HMMs, also

• die Übergangsmatrix A mit allen Einträgen ai, j

• die Ausgangswahrscheinlichkeiten für alle Zustände B = bi(o) und

• die initialen Wahrscheinlichkeiten Π = πi

5Diese Gliederung und die komplette Beschreibung findet man sehr ausführlich auch in [Rabiner1989].

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 115: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

zu einem Parametersatz λde f= A, B,Π zusammengefasst werden, der das gesamte HMM

beschreibt. Ausserdem wird als Abkürzung für o(t) und x(t) bei Bedarf einfach ot bzw. xt

geschrieben

7.5.3.1. Problem 1: Berechnung der Wahrscheinlichkeit einer Beobachtungssequenz

Die Wahrscheinlichkeit einer Folge von Beobachtungsvektoren soll berechnet werden, wenndas HMM gegeben ist (d.h. es ist fertig trainiert und alle Parameter λ sind bekannt). Problem 1lautet also: Finde P(o1, o2, . . . oT |λ).

Nützlich ist es an vielen Stellen, dieses Problem lösen zu können. Ganz besonders wichtigist es für die Einzelworterkennung. Wenn man für jedes Wort, das man erkennen möchte, einseparates HMM hat, wie das in Abbildung 7.6 gezeigt ist, kann man (sobald das Problem

„w“ „n“„ “

Modell-

parameter

1

„t“ „u “

„ “ „i:“„r“

2

3

Abbildung 7.6: Drei sehr stark vereinfachte Einzelwort-HMMs für die Worte „One“, „Two“und „Three“.

1 gelöst ist) für alle Modelle der verschiedenen Worte w = 1, 2, 3 die WahrscheinlichkeitenP(o1, o2, . . . oT |λw) berechnen. Anschließend kann man dann mit

w = arg maxw

(P(w|o1, o2, . . . oT )) (7.18)

≈ arg maxw

(P(Wortmodellw|o1, o2, . . . oT )) (7.19)

= arg maxw

P(o1, o2, . . . oT |Wortmodellw)P(w)

P(o1, o2, . . . oT )(7.20)

= arg maxw

P(o1, o2, . . . oT |λw)P(w) (7.21)

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 116: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

das gegeben die Beobachtung o1, o2, . . . oT wahrscheinlichste Wort w finden und als erkanntausgeben.

7.5.3.2. Problem 2: Finden der besten Zustandssequenz

Das zweite wichtige Problem ist die Suche nach der Sequenz, die das Modell am wahrschein-lichsten durchlaufen hat. Genauer gesagt, wird die Sequenz x = [x(1) . . . x(T )] gesucht, fürdie die Wahrscheinlichkeit am größten ist, dass sie gleichzeitig mit den gemachten Beobach-tungen auftritt. Problem 2 lautet also:

Finde x∗ = arg maxx

P(x, o|λ). (7.22)

Diese wahrscheinlichste Sequenz wird besonders effizient z.B. vom Viterbi-Algorithmus ge-sucht und gefunden. Sie ist wichtig, wenn ein Verbundworterkenner oder ein phonembasierterErkenner für kontinuierliche Sprache aufgebaut wird, denn dann kann man aus der wahr-scheinlichsten Zustandssequenz auf die wahrscheinlichsten Worte schließen, da die Zuständejeweils eindeutig einem Wort bzw. Phonem zugeordnet sind. Dazu konstruiert man zuerst einVerbundwort-HMM, wie es in Abbildung 7.7 zu sehen ist. Wenn nun so ein Modell vorhanden

1 32

4 5

6 87

„w“ „ “ „n“

„t“ „u:“

„r“ „i:“„ “

0

1/3

1/3

1/39

1

= „Glue State“, besitzt keine Beobachtungswahrscheinlichkeit

Abbildung 7.7: Verbundwort-HMM für die Worte „One“, „Two“ und „Three“. Entsprechenddieses Modells dürfen die drei Worte in beliebig langen Ziffernketten ohneZwischenpause aufeinander folgen.

ist, und wenn man ausserdem in der Lage ist, die optimale Sequenz x∗ durch das Modell zu

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 117: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Beobachtung:

x*: 0, 4, 4, 5, 9,0, 6, 7, 8

Erkannte Worte: two three

o1 o2 o3 o4 o5 o6

Abbildung 7.8: Beobachtungssequenz o und dazugehörige optimale Zustandssequenz x∗.

finden (wenn also Problem 2 gelöst ist), kann man, wie in Abbildung 7.8 gezeigt, für eine ge-gebene Zustandssequenz den besten Pfad durch das Verbundwort-HMM ermitteln und darausauf die gesprochenen Worte schließen. In dem hier gezeigten Modell korrespondiert die opti-male Sequenz x∗ = [4, 4, 5, 6, 7, 8] mit einem Durchlauf durch die Wortmodelle „two,three“,und damit würden diese beiden Worte hier „erkannt“ werden.

7.5.3.3. Problem 3: Lernen der Modellparameter

Das dritte wichtige Problem ist das Training von HMMs, genauer gesagt die Berechnung derbesten Modellparameter.

Dieses Problem löst man beispielsweise mit dem Baum-Welch-Algorithmus, der die Li-kelihood der Beobachtungen (der Trainingsdaten), gegeben die Modellparameter maximiert.Man sucht die Lösung zum Optimierungsproblem

λ = arg maxλ

P(o1, o2, . . . , oT |λ) (7.23)

und erhält damit die Modellparameter λ, die man später für die Erkennung entsprechend Ab-schnitt 7.5.3.1 oder 7.5.3.2 benötigt.

7.6. LITERATURHINWEISE

[Deller1987] Deller J., Proakis J. und Hansen J. „Discrete-Time Processing of SpeechSignals,“ Prentice Hall, New Jersey, 1987.

[HTK2002] Young, S. et al. „HTK-Book,“http:\\htk.eng.cam.ac.uk\prot_docs\htk_book.shtml, Cambridge, 2002.

[Rabiner1989] Rabiner L. „A tutorial on Hidden Markov Models and selected Applicati-ons in Speech Recognition,“ in Proceedings of the IEEE, Vol. 77, No. 2,1989.

Vorlesung 9 Einführung in die automatische Spracherkennung

Page 118: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.7. HIDDEN MARKOV MODELLE FÜR DIE SPRACHERKENNUNG

7.7.1. Lösung 1: Berechnung der Wahrscheinlichkeit einer Beobachtungssequenz

Die Berechnung der Wahrscheinlichkeit einer Sequenz gegeben das Modell P(o|λ) kann mangut in zwei Teile zerlegen. Zuerst berechnet man die Beobachtungswahrscheinlichkeit für einefeste Zustandssequenz, anschließend summiert man über alle möglichen Zustandssequenzen:

Problem 1a Berechne die Wahrscheinlichkeit der Beobachtungssequenz, wenn die Zustandssequenzgegeben ist, finde also P(o1, o2, . . . oT |x1, x2, . . . xT , λ). Wenn die Abfolge der Zuständebekannt ist, ist das relativ einfach, es müssen nur die Beobachtungswahrscheinlichkeitenfür die gegebenen Zustände und für alle Zeitpunkte miteinander multipliziert werden:

P(o1, o2, . . . oT |x1, x2, . . . xT , λ) = P(o1, o2, . . . oT |x, λ) =T∏

t=1

bxt(ot) (7.24)

Problem 1b Berechne die Wahrscheinlichkeit der Beobachtungssequenz bei unbekannter Zustands-sequenz. Wenn die Wahrscheinlichkeiten aus Problem 1a berechnet sind, ist auch dasrelativ einfach, denn nun kann man über alle möglichen Zustandssequenzen addieren:

P(o1, o2, . . . oT |λ) =∑

x

P(o1, o2, . . . oT |x, λ)P(x|λ). (7.25)

Nun benötigt man nur noch die Wahrscheinlichkeit der Zustandssequenz, also P(x|λ). Diesewar schon im Abschnitt über Markov-Ketten bestimmt worden, man erhält sie entsprechendGleichung (7.16) aus

P(x|λ) = πx1

T−1∏

t=1

axt ,xt+1 . (7.26)

Fügt man dann die Lösungen der beiden Teilprobleme zusammen, ergibt sich daraus die ge-samte Lösung für Problem 1 als

P(o1, o2, . . . oT |λ) =∑

x

T∏

t=1

bxt(ot)πx1

T−1∏

t=1

axt ,xt+1 . (7.27)

Bei direkter Berechnung dieser Summe ist der Rechenaufwand allerdings indiskutabel,rechnet man zuerst alle Sequenzen aus und ermittelt für jede einzelne von ihnen die Lösung,dann beträgt die Anzahl der benötigten Multiplikationen 2T NT (wobei N die Anzahl der Zu-stände und T die Anzahl der Beobachtungen bezeichnet), der Aufwand steigt also exponentiellmit der betrachteten Zeitdauer. Deswegen ist eine effiziente Implementierung an dieser Stellebesonders wichtig. Sehr viel effizienter kann man mit Hilfe von Methoden der dynamischenProgrammierung6 werden, speziell für diesen Fall gibt es den Forward-Algorithmus, der das

6Das Verfahren der dynamischen Programmierung besteht darin, zuerst die optimalen Lösungen derkleinsten Teilprobleme zu berechnen, und diese dann geeignet zu einer Lösung eines nächstgröße-ren Teilproblems zusammenzusetzen, und so weiter. Es gilt hier, bei der Lösung kostspielige Rekur-sionen durch Wiederverwendung schon berechneter Zwischenlösungen zu vermeiden. Einmal berech-nete Teilergebnisse werden in einer Tabelle gespeichert, um später auf sie zurückgreifen zu können.[http://de.wikipedia.org/wiki/Dynamische_Programmierung]

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 119: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

exakte Ergebnis mit linearem Aufwand (linear in T ) liefert. Insgesamt beträgt der Rechen-aufwand des Forward-Algorithmus T N2 Multiplikationen. Wenn beispielsweise der Rechen-aufwand für N = 5 Zustände und T = 100 Zeitpunkte für die direkte Summe entsprechendGleichung (7.27) etwa 1072 Multiplikationen beträgt, liegt er für den Forward-Algorithmusmit 3000 Multiplikationen durchaus im akzeptablen Bereich.

7.7.2. Forward-Algorithmus

Der „Forward-Algorithmus“ berechnet in jedem Zeitschritt t partielle Wahrscheinlichkeitenαt(i). Diese geben an, mit welcher Wahrscheinlichkeit die Beobachtungen o1 bis ot auftretenund das Modell außerdem zur Zeit t im Zustand i endet. Kurz gefasst, sind also die partiellenWahrscheinlichkeiten αt(i) definiert durch

αt(i)de f= P(o1 . . . ot, xt = i|λ). (7.28)

Aus diesen partiellen Wahrscheinlichkeiten für die Zeit t kann in einer Iteration die partielleWahrscheinlichkeit für den nächsten Zeitschritt t + 1 berechnet werden, so dass Rechnungennicht unnötig mehrfach ausgeführt werden. Dazu müssen, wie die Abbildung 7.9 zeigt, fol-gende Operationen ausgeführt werden:

Initialisierung α1(i) = πxi · bxi(o1)

Iteration Für alle t ≤ T

Update αt(i) = (∑N

j=1 αt−1( j)a j,i) · bxi(ot)

Terminierung P(o1 . . . oT ) =∑N

i=1 αT (i)

7.7.2.1. Skalierungsproblem

Bei der Berechnung des Forward-Algorithmus werden die benötigten Wahrscheinlichkeitenschnell sehr klein. Schon im gezeigten Beispiel, in dem weder das HMM noch die Dimen-sion der Beobachtungsvektoren besonders groß war, sind die Wahrscheinlichkeiten in denPromille-Bereich geraten, bei realistischen oder tatsächlichen HMMs kommt man schnell inden Bereich, der auch auf 32bit-Rechnern in der Fließkommadarstellung nicht mehr darstell-bar ist. Deswegen müssen die berechneten Werte umskaliert werden, wofür es prinzipiell zweiAnsätze gibt:

• Lineare Skalierung und

• Logarithmierte Rechnung.

Bei der linearen Skalierung werden zu jedem Zeitschritt t die partiellen Wahrscheinlichkeitenαt(i) aller Zustände i mit der gleichen Zahl multipliziert, um in einen vernünftigen Zahlenbe-reich zu kommen. Das sieht also folgendermaßen aus:

αt( j) =αt( j)

∑Ni=1 αt(i)

. (7.29)

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 120: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

so

re

sn

t =1o(t)= 0°

t =21°

Abbildung 7.9: Dieses Lattice-Diagramm zeigt, welche Berechnungen in einem Schritt desForward-Algorithmus nötig sind. Dieser berechnet nach dem Prinzip der dy-namischen Programmierung die partiellen Wahrscheinlichkeiten αt(i) aller Zu-stände i zum Zeitpunkt t aus den partiellen Wahrscheinlichkeiten αt−1 desvergangenen Zeitpunktes. Dafür mus zu jedem Zeitpunkt für jeden Zustandi des HMM bestimmt werden, wie groß die Wahrscheinlichkeit ist, dass dasModell aus einem beliebigen anderen Zustand in den betrachteten Zustandi übergeht und dann dort die Beobachtung ot macht. Hier wird die Initiali-sierung und der erste Update-Schritt für das HMM aus Abbildung 7.4 ge-zeigt, wenn die beobachtete Sequenz von Temperaturen [o1, o2] = [0, 1]lautet. Die Formel für den einzigen hier benötigten Update-Schritt heißt:α2(i) = (

∑Nj=1 α1( j)a j,i) · bxi(o2).

Statt diese Rechnung zu jedem Zeitpunkt durchzuführen, kann man sie natürlich alternativauch nur nach Bedarf anwenden.

Bei der alternativen Lösung des Skalierungsproblems, der Logarithmierung, rechnet mannicht mit den Wahrscheinlichkeiten αt(i) = P(o1, . . . ot, xt(i)|λ) sondern mit ihren Logarithmenlogαt(i) = log P(o1, . . . ot, xt(i)|λ). Mit dem Logarithmieren der Wahrscheinlichkeiten handeltman sich allerdings auch noch ein weiteres Problem ein: Im Forward-Algorithmus benötigtman in jedem Zeitschritt die Summe über die Wahrscheinlichkeiten

∑Ni=1 αt(i)ai, j. Diese sind

allerdings nicht ohne weiteres zu berechnen, da man nicht die Wahrscheinlichkeiten selbst,sondern nur ihre Logarithmen kennt. Die erste Lösung, die einem einfallen könnte, nämlichdie „ent-logarithmierung“ zum Zweck der Summenbildung, ist auch nicht durchführbar, dadie „ent-logarithmierten“ Zahlen ja zu klein wären, um sie darzustellen.

So braucht man also eine Möglichkeit, den Logarithmus log(a + b), zu berechnen, wobeinur log(a) und log(b) aber nicht a oder b bekannt sind. Glücklicherweise haben schon andere

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 121: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

über dieses Problem nachgedacht, gelöst wird es folgendermaßen:

log(a + b) = log

(a

(1 +

b

a

))(7.30)

= log(a) + log

(1 +

b

a

)(7.31)

= log(a) + log(1 + elog b−log a

). (7.32)

Diese letzte Formel (7.32) heißt auch „Kingsbury-Rayner-Formel“.

7.7.2.2. Anwendungen

So ist man also in der Lage, mit dynamischer Programmierung halbwegs effizient die Wahr-scheinlichkeiten P(o1, . . . oT |λ) einer Beobachtung bei bekanntem HMM mit den Parameternλ zu berechnen. Verwendet wird diese Möglichkeit besonders dann wenn man

• einen Einzelworterkenner realisieren möchte, in dem man ja durch Vergleich aller Wort-wahrscheinlichkeiten P(λWort1 |o),P(λWort2 |o), . . . P(λWortk |o) das wahrscheinlichste Wortals erkannt auswählen kann, oder

• wenn man HMMs trainieren möchte, wobei man dann neben dem Forward-Algorithmusauch noch eine Methode braucht, in der Zeit rückwärts zu rechnen, den analogen Back-ward-Algorithmus, der im Abschnitt zum HMM-Training genauer beschrieben wird.

7.7.3. Lösung 2: Berechnung des besten Pfades

7.7.3.1. Viterbi-Algorithmus

Das Problem der Wahrscheinlichkeitsberechnung, also der Bestimmung von P(o|λ), ist damitgelöst. Das zweite wichtige Problem, das mit und für HMMs gelöst werden sollte, ist die Suchenach der wahrscheinlichsten Sequenz von Zuständen, gegeben eine Beobachtungsfolge, also

x∗ = arg maxx

P(x, |o, λ) = arg maxx

P(x, o|λ).

Wie man in Abbildung 7.10 sieht, besteht zwischen beiden Problemen eine strukturelle Ähn-lichkeit; während allerdings für Problem 1 die Summe über alle möglichen Pfade durch denZustandsraum gesucht wird, ist bei Problem 2 nur die Wahrscheinlichkeit des besten Pfadesvon Interesse. Deswegen kann man den Suchalgorithmus für den besten Pfad, den Viterbi-Algorithmus, aus dem Vorwärts-Algorithmus gewinnen, indem man statt einer Summenbil-dung eine Maximumsbildung über die partiellen Pfadwahrscheinlichkeiten vornimmt.

Mit dieser Definition der partiellen Wahrscheinlichkeit,

φt(i) = maxx

P(o1, . . . ot, xt = i|λ), (7.33)

kann man anfangen, den Viterbi-Algorithmus zu formulieren. Man braucht nun aber nochzusätzlich eine Möglichkeit, sich den bisher besten Pfad zu merken. Das macht man in der

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 122: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Variablen Ψt(i), in der immer der beste, direkte Vorgängerknoten des Knotens i zum Zeitpunktt steht. Alles zusammengenommen, sieht der Viterbi-Algorithmus wie folgt aus:

Initialisierung

φ1(i) = α1(i) = πxi · bxi(o1)

Ψ1(i) = 0

Iteration Für alle t ≤ T

Update

φt( j) =(maxi=1...N

φt−1(i)ai, j

)· bx j(ot)

Ψt( j) = arg maxi=1...N

φt−1(i)ai, j

Terminierung

P∗(o1 . . . oT |λ) = maxi=1...N

φT (i)

x∗T = arg maxi=1...N

φT (i)

Backtracking

x∗t−1 = Ψt(x∗(t)).

Übrigens steht hier P∗(o1 . . . oT |λ) für die Wahrscheinlichkeit der wahrscheinlichsten Sequenz.

Diese gesamte Berechnung wird in Abbildung 7.11 an einem kurzen Beispiel gezeigt. Indiesem Beispiel ist dann der beste Zustand zum Zeitpunkt T = 3 gerade x∗(T ) = 3 und diebeste Zustandssequenz kann man durch Backtracking ermitteln:

x∗(T − 1) = x∗(2) = Ψ3(x∗(3)) = Ψ3(3) = 3

x∗(1) = Ψ2(x∗(2)) = Ψ2(3) = 2

x∗(0) = Ψ1(x∗(1)) = Ψ1(2) = 0.

Sie lautet also x∗ = [0, 2, 3, 3].

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 123: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

α1(sn)

α1(so)

α1(re)

α1(i) = πi · bi(o1)

α2(sn) =(∑

i=sn,so,rn α1(i) · ai,sn

)· bsn(o2)

Φ2(sn) = maxi=sn,so,rn(α1(i) · ai,sn

) · bsn(o2)

Φt+1(i) = max j=sn,so,rn(Φt( j) · a j,i

)· bi(ot+1)

Abbildung 7.10: Die partiellen Wahrscheinlichkeiten des Viterbi-Algorithmus werden als φt(i)bezeichnet. Sie geben die Wahrscheinlichkeit an, dass auf dem besten Pfadzum Zeitpunkt t der Zustand i erreicht wird und dabei die Beobachtungen o1

bis ot gemacht werden.

3

3

Φ1(i) Ψ1(i) Φ2(i) Ψ2(i) Φ3(i) Ψ3(i)

0

0

0

2

2

2

1

1

3

14 ·

18 =

132

14 ·

13 =

112

12 · 0 = 0

112 ·

14 ·

14

112 ·

14 ·

14

00

112 ·

14 ·

14

112 ·

14 ·

14

12

14

14

Abbildung 7.11: Beispiel für den Viterbi-Algorithmus, bei dem im Wetter-HMM (s. Seite 111)die beste Zustandssequenz für die Beobachtungsfolge o = 0, 1, 2 gesuchtwird.

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 124: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.7.3.2. Logarithmierte Rechnung

Auch den Viterbi-Algorithmus kann man mit logarithmierten Wahrscheinlichkeiten arbeitenlassen. Das ist noch unproblematischer als der logarithmierte Forward-Algorithmus, da keineSummen auftreten und man auch das HMM gleich mit logarithmierten initialen Wahrschein-lichkeiten, Übergangsmatrizen und Ausgabewahrscheinlichkeiten speichern kann. Damit läuftder logarithmierte Viterbi-Algorithmus wie folgt ab:

Initialisierung

φ1(i) = log πxi + log bxi(o1)

Ψ1(i) = 0

Iteration Für alle t ≤ T

Update

φt( j) = maxi=1...N

(φt−1(i) + log ai, j) + log bx j(ot)

Ψt( j) = arg maxi=1...N

(φt−1(i) + log ai, j)

Terminierung

log P∗(o1 . . . oT |λ) = maxi=1...N

φT (i)

x∗T = arg maxi=1...N

φT (i)

Backtracking

x∗t−1 = Ψt(x∗t ).

7.7.3.3. Einzelworterkennung mit dem Viterbi-Algorithmus

Um den Viterbi-Algorithmus in einem Einzelworterkenner einzusetzen, trainiert man einzelneWortmodelle, rechnet nach erfolgter Beobachtung die Wahrscheinlichkeiten des aufgenomme-nen Signals für alle Wortmodelle aus und gibt dann nach Anwendung des Satzes von Bayesdas wahrscheinlichste Wort (gegeben die Beobachtung) aus.

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 125: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

•Wortmodelle als Links-Rechts-Modelle trainieren

⇒ HMMs one λone

two λtwo

• Für alle Wortmodelle

S (t)o1 · · · oT

p∗ (o|λ1) . . . p∗ (o|λk)

∀λi

ExtractionFeatures

Viterbi

HMMs

• w∗ = arg maxw

p∗ (w|o)

= arg max

w

p∗ (o|w) p (w)

p (o)

p (w): Wortwahrscheinlichkeiten

w∗: gilt als erkannt

Abbildung 7.12: Strukturdiagramm und prinzipieller Ablauf der Einzelworterkennung mitHilfe des Viterbi-Algorithmus.

7.7.3.4. Verbundworterkennung mit dem Viterbi-Algorithmus

Für einen Verbundworterkenner erzeugt und trainiert man ein Verbundwortmodell, in demeinzelne Wortmodelle durch sogenannte „nichtemittierende Zustände“ verbunden werden kön-nen. Für die Verwendung nicht emittierender Zustände muss der Viterbi-Algorithmus etwasangepasst werden, so dass er in Zeiten, in denen nichtemittierende Zustände auftreten, je-weils zur Erklärung der aktuellen Beobachtung einen weiteren, emittierenden, Zustand sucht.Schleifen von nicht emittierenden Zuständen führen zu Endlosschleifen in der Pfadsuche undsind deswegen unzulässig.

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 126: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1 2 3 4 5

1 2 3 4 5

1 2 3 4 5

.....

1

„one“

„two“

„three“ 1

non-emitting

state

1 3 5

„silence“

non-emitting

state

Abbildung 7.13: Verbundwortmodell.

7.8. LITERATURHINWEISE

[Alspach1972] Alspach D. und Sorenson H. „Nonlinear Bayesian Estimation usingGaussian Sum Approximations,“ in IEEE Transactions on AutomaticControl, Vol. AC-17, No. 4, August 1972.

[Deller1987] Deller J., Proakis J. und Hansen J. „Discrete-Time Processing of SpeechSignals,“ Prentice Hall, New Jersey, 1987.

[HTK2002] Young, S. et al. „HTK-Book,“http:\\htk.eng.cam.ac.uk\prot_docs\htk_book.shtml, Cambridge, 2002.

[Rabiner1989] Rabiner L. „A tutorial on Hidden Markov Models and selected Applica-tions in Speech Recognition,“ Proceedings of the IEEE, Vol. 77, No. 2,1989.

Vorlesung 10 Einführung in die automatische Spracherkennung

Page 127: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Beweis zum Forward-Algorithmus

Der Forward-Algorithmus soll die Wahrscheinlichkeit einer Beobachtungssequenz berechnen,wenn das Modell mit allen Parametern λ bekannt ist. Gesucht wird also P(o1 . . . oT |λ), und zuzeigen ist hier, dass der Forward-Algorithmus genau dieses Ergebnis liefet.

Dafür benötigt werden die partiellen Wahrscheinlichkeiten αt(i). Die sind definiert durch

αt(i)de f= P(o1 . . . ot, xt = i|λ). (7.34)

Darauf aufbauend arbeitet der Forward-Algortihmus wie folgt.

Initialisierung α1(i) = πi · bi(o1)

Iteration Für alle t ≤ T

Update αt(i) = (∑N

j=1 αt−1( j)a j,i) · bi(ot)

Terminierung P(o1 . . . oT ) =∑N

i=1 αT (i)

Zu zeigen sind dann drei Dinge:

• Die Initialisierungsvorschrift muss α1(i)=P(o1, xt = i|λ) liefern.

• Der Update muss korrekt sein, das heißt, wenn αt(i)=P(o1, . . . ot, xt = i|λ) bekannt ist,muss nach einem Update-Schritt als Ergebnis αt+1(i)=P(o1, . . . ot+1, xt+1 = i|λ) vorliegen.

• Die Terminierungsvorschrift muss das gewünschte Gesamtergebnis, P(o1 . . . oT |λ), lie-fern.

7.8.1. Kettenregel und Marginalisierung

Beide werden für alle folgenden Beweise benötigt.Die Kettenregel lautet

P(A, B) = P(A) · P(B|A). (7.35)

Zusätzliches Vorwissen darf immer einbezogen werden, deswegen kann die Kettenregelauch geschrieben werden als

P(A, B|C) = P(A|C) · P(B|A,C). (7.36)

Bei der Marginalisierung wird der Satz von der totalen Wahrscheinlichkeit verwendet, also

P(A) =∑

∀bi∈B

P(A|bi) · P(bi) (7.37)

=∑

∀bi∈B

P(A, bi). (7.38)

Hier muss die Menge der bi eine Partitionierung des Ereignisraums in disjunkte Ereignissedarstellen.

Herleitung Forward-Algorithmus Einführung in die automatische Spracherkennung

Page 128: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.8.2. Initialisierung

Die Initialisierungsvorschrift α1(i) = πi · bi(o1) liefert wie gewünscht P(o1, xt = i|λ), denn

P(o1, x1 = i|λ) = P(x1 = i|λ) · P(o1|x1 = i, λ) = πi · bi(o1).

7.8.3. Update

Es ist zu zeigen, dass ein Update-Schritt als Ergebnis αt+1(i)=P(o1, . . . ot+1, xt+1 = i|λ) liefert,wenn bisher αt( j)=P(o1, . . . ot, xt = j|λ) bekannt ist. Um das zu zeigen, wird das gewünschteErgebnis αt(i) = (

∑Nj=1 αt−1( j)a j,i) · bi(ot) sukzessive umformuliert, bis sich genau die Update-

Vorschrift ergibt:

P(o1, . . . ot+1, xt+1 = i|λ) = P(o1, . . . ot, xt+1 = i|λ) · P(ot+1|o1, . . . ot, xt+1 = i, λ)

= P(o1, . . . ot, xt+1 = i|λ) · P(ot+1|xt+1 = i, λ).

Aus dem Satz von der totalen Wahrscheinlichkeit folgt durch Summierung über alle möglichenN Zustände für den Zeitpunkt t

P(o1, . . . ot+1, xt+1 = i|λ) =

N∑

j=1

P(o1, . . . ot, xt = j, xt+1 = i|λ) P(ot+1|xt+1 = i, λ)

=

N∑

j=1

P(o1, . . . ot, xt = j|λ) · P(xt+1 = i|o1, . . . ot, xt = j, λ)

P(ot+1|xt+1 = i, λ)

=

N∑

j=1

αt( j) · P(xt+1 = i|xt = j, λ)

P(ot+1|xt+1 = i, λ)

=

N∑

j=1

αt( j) · a j,i

bi(ot+1).

Das entspricht genau der Update-Vorschrift, so dass die Iterationen des Forward-Algorithmusebenfalls das gewünschte Ergebnis liefern.

7.8.4. Terminierung

Gesucht ist P(o1 . . . oT |λ), der Forward-Algorithmus lieferte bisher αT (i) = P(o1, . . . oT , xT =

i|λ) Aus dem Satz von der totalen Wahrscheinlichkeit folgt

P(o1 . . . oT |λ) =N∑

i=1

P(o1 . . . oT , xT = i|λ) =N∑

i=1

αT (i),

also genau die Terminierungsregel des Forward-Algorithmus. Damit ist gezeigt, dass alleSchritte des Algorithmus zusammen das gewünschte Ergebnis liefern, und dass

∑NxT=1 αT (xT ) =

P(o1 . . . oT |λ) ist.

Herleitung Forward-Algorithmus Einführung in die automatische Spracherkennung

Page 129: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.9. TRAINING VON HMMS FÜR DIE SPRACHERKENNUNG

7.9.1. Lösung 3: Berechnung der optimalen HMM-Parameter

Wie es in Abschnitt 7.5.3.3 beschrieben ist, besteht das dritte wichtige Problem bei der Ver-wendung von HMMs im Lernen von den dazugehörigen Parametern λ.

Dazu ist es üblich, eine Maximum-Likelihood-Strategie zu verfolgen, man wählt also dieParameter oft so, dass die Likelihood der Beobachtungen (der Trainingsdaten), gegeben dieModellparameter, maximiert wird.7 Man sucht also die Lösung zum Optimierungsproblem

λ = arg maxλ

P(o1, o2, . . . , oT |λ), (7.39)

um die Modellparameter λ zu schätzen.Genauer gesagt, sind es folgende Parameter, die bestimmt werden müssen:

• Die initialen Wahrscheinlichkeiten πi,

• alle Ausgangsverteilungsdichten b j(o) und

• die Übergangsmatrix A.

7.9.2. Bestimmung der initialen Wahrscheinlichkeiten

Am einfachsten ist die Wahl der initialen Wahrscheinlichkeiten, denn diese werden durchdie Struktur des Modells vorgegeben. Bei einem einzelnen Links-Rechts-Modell würde zumBeispiel nur ein einziger Knoten, nämlich der linkeste, eine initiale Wahrscheinlichkeit , 0erhalten und genauso würde auch in einem HMM mit einem Glue State8 der Vektor π amAnfang genau eine 1 und ansonsten Nullen enthalten. Diese Fälle sind in den Abbildungen7.14 und 7.15 zu sehen.

21 3 4

Einzelworterkenner:

Links-Rechts-Modell

=[1 0 0 0 ]

Abbildung 7.14: Initiale Wahrscheinlichkeiten für einzelne Wortmodelle sind jeweils 1 für denersten Zustand eines Wortes.

In einem Verbundwortmodell ohne konfluente Zustände sind alle diejenigen Zuständen alsinitiale Zustände zulässig (und besitzen damit eine initiale Wahrscheinlichkeit > 0), die genau

7Eine interessante Alternative besteht darin, die Parameter so einzustellen, dass die Anzahl der Klassifikati-onsfehler auf den Trainingsdaten minimiert wird. Dieses sogenannte Minimum Classification Error Training(MCE-Training) führt im Allgemeinen zu besseren Erkennungsraten, ist allerdings sowohl konzeptuell alsauch vom Rechenaufwand schwieriger umzusetzen.

8Glue States werden auf deutsch auch gelegentlich konfluente Zustände genannt.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 130: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Verbundworterkenner

mit Glue StateGlue

State

32 4 5

76 8 9

1

=[1 0 0 0 0 0 0 0 0]

Wortmodell 1

Wortmodell 2

Abbildung 7.15: Bei Verbundwortmodellen mit Glue States beginnt die Berechnung immer imGlue State am Wortanfang.

am Anfang eines Wortmodells liegen. Die zugeordneten Wahrscheinlichkeiten für diese erstenZustände aller Worte, wi1, können dann die jeweiligen Wortwahrscheinlichkeiten P(wi) sein,wie Abbildung 7.16 zeigt.

Verbundworterkenner

ohne Glue State

w12w11 w13 w14

w22w21 w23 w24

w21 = P(w2)

Wortmodell 1

Wortmodell 2

w11

wij = 0 j 1

w11 = P(w1)

w21

Abbildung 7.16: In Verbundwortmodellen ohne konfluente Zustände kommt jeder Wortanfangauch als Anfangszustand in Frage.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 131: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.9.3. Bestimmung der Parameter A und b

Die Werte der Übergangsmatrix A und der Wahrscheinlichkeitsverteilungen bi(o) sind schwie-riger zu bestimmen, so dass ein iteratives Vorgehen nötig wird. Dazu müssen zuerst initialeParameterwerte gefunden werden, die dann in mehreren Durchgängen sukzessive verfeinertwerden können. Dieser Ablauf ist in Abbildung 7.17 gezeigt.

Initialisierung der Modellparameter

Reestimation der Parameter

Konvergenztest

konvergiert

nich

t kon

verg

iert

Abbildung 7.17: Vorgehensweise zum Training der Modellparameter A und b.

7.9.3.1. Erste Phase: Initialisierung

Die Initialisierung eines HMM ist nicht ganz einfach - um Parameter zu bestimmen, müssteman nämlich eigentlich schon ein initialisiertes HMM haben. Um dieses Huhn-Ei-Problemzu lösen, kann man auf verschiedene Weisen an ein initialisiertes HMM gelangen. Dafür istes sinnvoll, zuerst eine HMM-Struktur festzulegen, und dann für dieses HMM die Trainings-daten in Segmente aufzuteilen, für die man jeweils weiß, zu welchem Zustand des HMM siegehören. Das kann man

• von Hand machen, was mühselig ist aber die besten Ergebnisse liefert,

• von einem bestehenden Spracherkenner passender Struktur durchführen lassen, was na-türlich voraussetzt, dass man einen solchen hat oder

• man kann die Daten in ganze Worte zerlegen, die man dann in mehrere gleichlange Seg-mente aufteilt, wobei man genauso viele Segmente verwendet, wie das HMM Zuständebesitzt.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 132: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Diese drei Vorgehensweisen illustriert Abbildung 7.18

2.7 2.75 2.8 2.85 2.9 2.95 3 3.05 3.14

-0.4

-0.2

0

0.2

0.4

0.6

/ /i:/s/ / k / /s/

Varianten: Handlabelnmit Spracherkenner gleicher Struktur labelngleichmäßig segmentieren

2.7 2.75 2.8 2.85 2.9 2.95 3 3.05 3.14

-0.4

-0.2

0

0.2

0.4

0.6

/ /i:/s/ / k / /s/

Abbildung 7.18: Mögliche Vorgehensweisen für eine initiale Zuordnung von Sprachsegmen-ten zu HMM-Zuständen.

7.9.3.2. Initiale Schätzung der Ausgangsverteilungen

Wenn man weiß, welches Zeit-Frame der Trainingsdaten zu welchem Zustand des HMM ge-hört, kann man aus diesen Daten für jeden Zustand die Ausgangsverteilung schätzen. Wennzum Beispiel die Zuordnung zwischen Daten und Zuständen so ist, wie in Abbildung 7.19 ge-zeigt, kann man alle Parameter von b schätzen. Dazu muss man allerdings zwischen diskreten

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 133: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

und kontinuierlichen Beobachtungen unterscheiden. Im Fall von diskreten Beobachtungen,

to(t)

x(t) Re So Sn Re

1-1023432

87654321

Abbildung 7.19: Beispiel für eine initiale Zuordnung zwischen Daten und HMM-Zuständen.

bei denen o einen von k möglichen Werten v1 . . . vk annimmt, schätzt man im Zustand i dieWahrscheinlichkeit des n’ten Symbols vn über dessen relative Häufigkeit in den Trainingsda-ten. Abstrakt heißt das

bi(vn) =Anzahl d. Beobachtungen vn in Zustand i

Anzahl d. Frames in Zustand i(7.40)

und für das konkrete Beispiel und den Zusand Regen und die Temperatur 1 erhält man so

bRe(1) =

1

4. (7.41)

Für Gauß’sche Modelle kann man bei gegebener Zuordnung zwischen Beobachtungen undZuständen die Maximum Likelihood-Schätzung für Gaußverteilungen einsetzen und entspre-chend rechnen

µi =

∑t:x(t)=i ot∑t:x(t)=i 1

(7.42)

und

Σi =

∑t:x(t)=i (ot − µi)(ot − µi)T

∑t:x(t)=i 1

. (7.43)

Die Summe∑

t:x(t)=i 1 in (7.42) und (7.43) ist übrigens die Anzahl von Trainingsframes ni, diein der initialen Segmentierung dem Zustand i zugeordnet worden sind.

7.9.3.3. Initiale Schätzung der Übergangswahrscheinlichkeiten

Auch die Übergangsmatrix bestimmt man aus den segmentierten Trainingsdaten. Dazu zähltman die Zustandsübergänge, die in den Trainingsdaten vorkommen, und schätzt die Wahr-scheinlichkeiten daraus. Wenn beispielsweise in den segmentierten Daten 1000 Übergängeaus dem Zustand „x“ erfolgen, davon 17 in den Zustand „y“, schätzt man die Übergangs-wahrscheinlichkeit axy auf den Wert 17

1000 = 1.7%. Allgemeiner sieht es folgendermaßen aus:

ai j =Anzahl d. Uebergaenge aus Zustand i in Zustand j

Anzahl d. Uebergaenge aus Zustand i(7.44)

und für das konkrete Beispiel und den Zustand Regen erhält man so

aRe,Re =2

3. (7.45)

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 134: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

7.9.3.4. Zusammenfassung der Initialen Parameterschätzung

Benötigt: Initiale Segmentierung x(t) ∀ 1 ≤ t ≤ T

Dann gilt: µi =

∑t:x(t)=i ot

ni=

∑t:x(t)=i ot∑t:x(t)=i 1

ni: Anzahl von Frames, in denen der Zustand i vorkommt

Σi =

∑t:x(t)=i (ot − µi)(ot − µi)T

∑t:x(t)=i 1

ai j =

∑t:x(t)=i&x(t+1)= j 1∑

t:x(t)=i,t<T 1

sind die Maximum-Likelihood-Schätzer für µ, Σ and a.

Tabelle 7.1: Aus gelabelten Featurevektoren können mit den hier gezeigten Schätzgleichun-gen initiale HMM-Parameter bestimmt werden. Die Schätzungen ergeben sich indiesem Fall als Maximum-Likelihood-Schätzer aus den empirischen Mittelwertenund empirischen Varianzen der Beobachtungen.

7.9.4. Verbesserung der Parameterschätzung durch Viterbi-Reestimation

Bei dem sogenannten Viterbi-Training wird aus einer initialen Segmentierung die Initialisie-rung der HMM-Parameter vorgenommmen. Mit diesem ersten HMM läßt man den Viterbi-Algorithmus laufen, der die beste (bzw. wahrscheinlichste) Zustandssequenz findet. Diese Se-quenz betrachtet man als neue Segmentierung der Daten und schätzt damit neue Parameter,wobei man genauso vorgeht, wie auch schon mit der Zeit-Zustandszuordnung aus der initialenSegmentierung, nämlich entsprechend Abbildung 7.1. Der ganze Vorgang wird iteriert, bis dievom Viterbi-Algorithmus geschätzte Wahrscheinlichkeit der Beobachtungen P∗ pro Iterationnicht mehr genügend verbessert wird. Die gesamte Vorgehensweise zeigt Abbildung 7.20 imÜberblick.

7.9.5. Verbesserung der Parameterschätzung durch Baum-Welch-Reestimation

Während die Viterbi-Reestimation eine feste Zuordnung von Frames und Zuständen vor-nimmt, läßt der Baum-Welch-Algorithmus unscharfe Frame-State-Zuordnungen zu, das heißt,dass ein Frame zu zum Beispiel 50% für das Training des einen und zu 50% für das Trainingeines anderen Zustandes verwendet werden kann. Wie wichtig ein Frame t für das Trainingeines einzelnen Zustandes i sein soll, wird danach festgelegt, mit welcher Wahrscheinlich-keit das t-te Frame zum i-ten Zustand gehört, das heißt also, mit welcher WahrscheinlichkeitP(x(t) = i) sich das HMM zu diesem Zeitpunkt t in diesem Zustand i befindet. Und überall,wo im Viterbi-Algorithmus eine harte Zuordnung benötigt wurde (also überall dort, wo in den

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 135: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

InitialeSegmentierung

Parameter-Schätzung, a

Viterbi-Algorithmus

im Erkenner

sowieso vorhanden

Parameter-Schätzung, a

x*(t)

identisch

P*(o| neu)-P*(o| )>

neu

x(t)

Abbildung 7.20: Ablauf des Viterbi-Trainings. Der Viterbi-Algorithmus selbst (oder eine an-dere Suchstrategie, die die Zuordnung zwischen Zuständen und Zeitpunktenvornimmt) und die Berechnung von P∗ sind ohnehin in einem Erkenner vor-handen, deswegen ist diese Trainingsvariante recht aufwandsarm.

Reestimationsgleichungen eine 1 für jedes t : x(t) = i stand), wird nun stattdessen die ge-nauere Wahrscheinlichkeitsinformation P(x(t) = i) verwendet. Und weil die so oft vorkommt,

bekommt sie einen neuen Namen: P(x(t) = i)de f= γt(i).

Genauso wird für die Schätzung der Übergangswahrscheinlichkeiten ai j auch eine Wahr-scheinlichkeit benötigt dafür, dass der Zustand sich vom Zeitpunkt t auf t + 1 genau aus dem

Zustand i in den Zustand j ändert - diese Wahrscheinlichkeit heißt P(x(t) = i, x(t + 1) = j)de f=

ξt(i, j). Das alles im Überblick zeigt Abbildung 7.2

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 136: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Reestimationsgleichungen

µi =

∑t:x(t)=i ot

ni=

∑t:x(t)=i ot∑t:x(t)=i 1

∑Tt=1 p (x(t) = i) ot∑T

t=1 p (x(t) = i)

ni: Anzahl von Frames, in denender Zustand i vorkommt

Σi =

∑t:x(t)=i (ot − µi)(ot − µi)T

∑t:x(t)=i 1

∑Tt=1 p (x(t) = i) (ot − µi)(ot − µi)T

∑Tt=1 p (x(t) = i)

ai j =

∑t:x(t)=i&x(t+1)= j 1∑

t:x(t)=i,t<T 1

∑T−1t=1 p (x(t) = i, x(t + 1) = j)

∑T−1t=1 p (x(t) = i)

sind die Maximum-Likelihood-Schätzerfür µ, Σ and a.

Tabelle 7.2: Die Neuschätzung der Parameter erfolgt beim Baum-Welch-Algorithmus mit ei-ner weichen Zuordnung von Frames zu Zuständen, gewichtet jeweils mit derWahrscheinlichkeit, dass das betrachtete Frame zu dem jeweils neu zu schätzen-den Zustand i gehört.

In Abbildung 7.3 sind noch einmal die Reestimationsgleichungen nach Baum-Welch auf-gelistet; das sind die selben Gleichungen wie in Abbildung 7.2, allerdings unter Verwendungvon zwei neuen Abkürzungen: γt(i) := p (x(t) = i) und ξt(i, j) := p (x(t) = i, x(t + 1) = j).

Reestimationsgleichungen

µi =

∑Tt=1 γt(i)ot∑T

t=1 γt(i)

Σi =

∑Tt=1 γt(i)(ot − µi)(ot − µi)T

∑Tt=1 γt(i)

ai j =

∑T−1t=1 ξt(i, j)

∑T−1t=1 γt(i)

Tabelle 7.3: Reestimationsgleichungen, die selben wie oben, unter Verwendung derLikelihood-Werte γt(i) und ξt(i, j).

Es fehlen also nun zur Reestimation nur die beiden Likelihood-Werte

γt(i) = P(x(t) = i|λ, o

)(7.46)

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 137: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

undξt(i, j) = P

(x(t) = i, x(t + 1) = j|λ, o

). (7.47)

Um die berechnen zu können, benötigt man einerseits die Vorwärtswahrscheinlichkeiten

α = P(o1, o2 . . . ot, x(t) = i|λ) (7.48)

(die in der zweiten HMM-Vorlesung behandelt wurden und mit dem Vorwärtsalgorithmus be-stimmt werden) und andererseits die (noch zu definierenden) Rückwärtswahrscheinlichkeitenβ. Diese geben bei bekanntem Zustand x(t) die Wahrscheinlichkeit an, dass alle folgendenBeobachtungen auftreten werden, also:

βt(i) = P(ot+1, ot+2 . . . oT |x(t) = i, λ). (7.49)

Die Rückwärtswahrscheinlichkeiten β werden mit einem Algorithmus der dynamischen Pro-grammierung berechnet, dessen Struktur der des Vorwärtsalgorithmus entspricht und der imAnhang genauer dargestellt ist.

Wenn dann sowohl die Vorwärts- als auch die Rückwärtswahrscheinlichkeiten bekannt sind,kann mit Hilfe des Satzes von Bayes die Likelihood γt(i) (für alle Zustände i und Zeiten t)berechnet werden:

γt(i) = P(x(t) = i|λ, o)

Bayes=

P(x(t) = i, o|λ)P(o|λ)

. (7.50)

Der Nenner ist relativ unproblematisch, denn P(o|λ) kann man schon mit Hilfe des Vorwärtsal-gorithmus bestimmen, wie es in Abschnitt 7.7.2 beschrieben ist. Für den Zähler muss man mitder Produktregel 9 weiterrechnen. So kann der Zähler aus Gleichung (7.50) folgendermaßengeschrieben werden:

P(x(t) = i, o|λ) = P(ot+1, . . . oT︸ ︷︷ ︸A

o1, . . . ot︸ ︷︷ ︸B

, x(t) = i︸ ︷︷ ︸C

|λ) (7.51)

Mit Bayes gilt also

P(x(t) = i, o|λ) = P(ot+1, . . . oT︸ ︷︷ ︸A

| o1, . . . ot︸ ︷︷ ︸B

, x(t) = i︸ ︷︷ ︸C

, λ) · P(o1, . . . ot︸ ︷︷ ︸B

, x(t) = i︸ ︷︷ ︸C

|λ). (7.52)

Der erste Term entspricht genau den neu definierten Rückwärtswahrscheinlichkeiten aus Glei-chung (7.49):

P(ot+1, . . . oT︸ ︷︷ ︸A

| o1, . . . ot︸ ︷︷ ︸B

, x(t) = i︸ ︷︷ ︸C

, λ) = βt(i) (7.53)

und der zweite Term entspricht den bereits besser bekannten Vorwärtswahrscheinlichkeiten:

P(o1, . . . ot︸ ︷︷ ︸B

, x(t) = i︸ ︷︷ ︸C

|λ) = αt(i). (7.54)

9Die Produktregel P(A, B) = P(A)P(B|A) kann um beliebiges Vorwissen erweitert werden, es gilt also z.B. auchP(A, B|C) = P(A|C)P(B|A,C).

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 138: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

So ist insgesamt der Zähler aus Gleichung (7.50) mit

P(x(t) = i, o|λ) = αt(i) · βt(i) (7.55)

relativ leicht zu bestimmen. Der Nenner aus Gleichung (7.50) ist auch nicht problematisch,denn wie in Abschnitt 7.7.2 beschrieben, ist die Wahrscheinlichkeit P(o|λ) gleich der Summeüber die Vorwärtswahrscheinlichkeiten, also

P(o|λ) =N∑

j=1

αT ( j). (7.56)

So kann man schließlich aus Gleichung (7.50) die Wahrscheinlichkeiten γt(i) erhalten:

P(x(t) = i|λ, o) =P(x(t) = i, o|λ)

P(o|λ)

=αt(i) · βt(i)∑N

j=1 αT ( j). (7.57)

Damit sind die γt(i) bestimmt. Die noch fehlenden Likelihoods der Zustandsübergängeξt(i, j) können auf die gleiche Art aus

P(x(t) = i, x(t + 1) = j|o1 . . . oT , λ) =P(x(t) = i, x(t + 1) = j, o1 . . . oT |λ)

P(o1 . . . oT |λ)(7.58)

hergeleitet werden. Intuitiv gesprochen setzt sich die im Zähler benötigte Wahrscheinlichkeit,dass ein Übergang von i zur Zeit t nach j zum Zeitpunkt t + 1 erfolgt und dass gleichzeitig dieBeobachtungen o1 bis oT erfolgen, zusammen aus

1. der Wahrscheinlichkeit, dass die Beobachtungen o1 bis ot auftreten und der Zustand zurZeit t = i ist (also der Vorwärtswahrscheinlichkeit αt(i)),

2. der Wahrscheinlichkeit, dass dann ein Übergang in den Zustand j erfolgt (also ai j)

3. der Wahrscheinlichkeit, dass im Zustand j die Beobachtung o(t+1) auftritt, also b j(ot+1),und schließlich

4. der Wahrscheinlichkeit, dass vom Zustand j zur Zeit t + 1 ausgehend alle folgendenBeobachtungen (ot+2 . . . oT ) auftreten (also der Rückwärtswahrscheinlichkeit βt+1( j)).

Nach einer ähnlichen Rechnung wie oben erhält man entsprechend die Wahrscheinlichkeitenξt(i, j) aus den Vorwärts- und Rückwärtswahrscheinlichkeiten:

ξt(i, j) =αt(t)ai jb j(ot+1)βt+1( j)

P(o|λ). (7.59)

So hat man alle Wahrscheinlichkeiten zusammen, die man für die Berechnung der Baum-Welch-Reestimationsgleichungen entsprechend Abbildung 7.3 benötigt.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 139: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

So kann man also aus einem initialisierten HMM mit Hilfe der Reestimationsgleichun-gen seine Parameterschätzung schrittweise verbessern. Dazu werden die Neuschätzung derAufenthaltswahrscheinlichkeiten γ und ξ und die Parameterneuschätzungen entsprechend denGleichungen in Abbildung 7.2 so lange iteriert, bis die Verbesserung des Modells pro Ite-rationsschritt unter einen vorher festgelegten Grenzwert sinkt. Die Güte eines Modells wirdnormalerweise gemessen als P(o|λ). Den Gesamtablauf zeigt Abbildung 7.21. Für den Baum-

InitialeSegmentierung

Parameter-Schätzung, a

Berechne

t(i), t(i)

für alle i,j,t

Schätze mit (1),(2),(3), a

x*(t)

P*(o| neu)-P*(o| )>

neu

x(t)

n

j

wie beim

Viterbi-Training

Abbildung 7.21: Gesamter Ablauf des Baum-Welch-Algorithmus.

Welch-Algorithmus ist Konvergenz zu einem lokalen, aber nicht zum globalen, Optimum ga-rantiert. Deswegen ist eine gute initiale Schätzung von sehr großer Bedeutung für die letzt-endlich erreichbare Güte des Modells.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 140: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Anhang - Vorwärtsalgorithmus

Die Herleitung des Vorwärtsalgorithmus beruht auf der Definition der partiellen Wahrschein-lichkeiten αt(i). Diese lautet:

αt(i) = P(o1 . . . ot, x(t) = i|λ). (7.60)

Der Vorwärtsalgorithmus selbst lautet

Initialisierung α1(i) = πxi · bxi(o1)

Iteration Für alle t ≤ T

Update αt(i) = (∑N

j=1 αt−1( j)a j,i) · bxi(ot)

Terminierung P(o1 . . . oT ) =∑N

i=1 αT (i)

Zu zeigen ist die Korrektheit der Terminierungsgleichung

P(o1 . . . oT ) =N∑

i=1

αT (i). (7.61)

Dazu geht man in mehreren Schritten vor.Zuerst kann die Korrektheit der Initialisierung gezeigt werden. Zu zeigen ist dazu

α1(i) = P(o1, x1 = i|λ) = πxi · bxi(o1). (7.62)

Dafür kann man schreiben

P(o1, x1 = i|λ) = P(x1 = i|λ)P(o1|x1 = i, λ) = πxi · bxi(o1). (7.63)

wobei der letzte Ausdruck aus der Definition des HMM folgt.Anschließend zeigt man, dass die Update-Gleichungen die Eigenschaftαt(i) = P(o1 . . . ot, x(t) = i|λ) beibehalten, wenn man einen Zeitschritt zu t + 1 weitergeht.Gesucht ist alsoP(o1 . . . ot, ot+1, x(t + 1) = i|λ). Der Einfachheit halber wird „gegeben λ“ im Folgenden weg-gelassen, ist aber implizit ab jetzt in jeder Wahrscheinlichkeit dabei. Dann ist

αt+1(i) = P(o1 . . . ot, ot+1, xt+1 = i) = P(o1 . . . ot, xt+1 = i)︸ ︷︷ ︸1

·P(ot+1|o1 . . . ot, xt+1 = i)︸ ︷︷ ︸2

. (7.64)

Wegen P(A) =∑ΩB

P(A, B) gilt für Term 1:

P(o1 . . . ot, xt+1 = i) =∑

∀xt

P(o1 . . . ot, xt, xt+1 = i), (7.65)

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 141: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

wobei xt die Rolle von B im Satz der totalen Wahrscheinlichkeit einnimmt. Das kann manfolgendermaßen vereinfachen:

P(o1 . . . ot, xt+1 = i) =N∑

j=1

P(o1 . . . ot, xt = j)P(xt+1 = i|o1 . . . ot, xt = j) (7.66)

=

N∑

j=1

αt( j)P(xt+1 = i|xt = j) (7.67)

=

N∑

j=1

αt( j)a j,i. (7.68)

Der Term 2 aus Gleichung (7.64) kann auch vereinfacht werden wenn man wieder beachtet,dass sich die Wahrscheinlichkeit einer Beobachtung ohne Berücksichtigung der Vergangenheitnur aus dem aktuellen Zustand ergibt. 10 Es ist

P(ot+1|o1 . . . ot, xt+1 = i) = P(ot+1|xt+1 = i) = bi(ot+1). (7.69)

Diese beiden Terme können in (7.64) eingesetzt werden, so kommt man zu

P(o1 . . . ot, ot+1, xt+1 = i) =

N∑

j=1

αt( j)a j,i

· bi(ot+1), (7.70)

was zu zeigen war.Schließlich bleibt zu zeigen, dass die Terminierungsberechnung zu dem korrekten Ergebnis

führt, dass also (7.61) gilt. Dazu kann man wegen des Satzes von der totalen Wahrscheinlich-keit rechnen

P(o1 . . . oT ) =N∑

i=1

P(o1 . . . oT , x(t) = i) =N∑

i=1

αT (i). (7.71)

So ist zu erkennen, dass der Vorwärtsalgorithmus zum Schluß die Wahrscheinlichkeit der Be-obachtungssequenz gegeben das Modell, P(o1, . . . oT |λ), berechnet, wie es sein sollte.

10genau wie die Wahrscheinlichkeit von xt+1 nur vom Zustand zur Zeit t abhängt, so dass oben P(xt+1 =

i|o1 . . . ot, xt) = P(xt+1 = i|xt) gerechnet werden konnte.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 142: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Anhang - Rückwärtsalgorithmus

Initialisierung: βT ( j) = 1

Rekursion: Gesucht βt−1( j) = 1 für t = T − 1 . . . 1

1

2

3

βT (1)

βT (2)

βT (3)

βT−1(i) ai1

T − 1 T

βT−1(i) = ai1b1(oT ) + ai2b2(oT ) + ai3b3(oT )

βt−1(i) = ai1b1(ot)βt(1) + . . .

βt−1(i) =∑N

j=1 ai jb j(ot)βt( j)

Tabelle 7.4: Der Rückwärtsalgorithmus berechnet mittels dynamischer Programmierung dieWahrscheinlichkeiten βt(i) = P(ot+1, ot+2 . . . oT |x(t) = i, λ).

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 143: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Anhang - Reestimationsgleichungen für mehrere Sequenzen

Nur für Neugierige stehen in Abbildung 7.5 noch einmal die Reestimationsgleichungen nachBaum-Welch, diesmal aber für die Schätzung mit mehreren Trainingsfiles f = 1 . . . F (wasdefinitiv den Normalfall darstellt).

Zusatzinfo:Reestimationsgleichungen für das Training mit mehrere Files f = 1 . . . Fder Länge T1 . . . TF:

µi =

∑Ff=1

∑T f

t=1 γ f ,t(i)o f ,t

∑Ff=1

∑T f

t=1 γ f ,t(i)

Σi =

∑Ff=1

∑T f

t=1 γ f ,t(i)(o f ,t − µi)(o f ,t − µi)T

∑Ff=1

∑T f

t=1 γ f ,t(i)

ai j =

∑Ff=1

∑T f

t=1 ξ f ,t(i, j)∑F

f=1

∑T f

t=1 γ f ,t(i)

wobei o f ,t die t’te Beobachtung im f ’ten File ist und γ f ,t bzw. ξ f ,t für jedes File f separatberechnet werden.

Tabelle 7.5: Reestimationsgleichungen für mehrere Beobachtungssequenzen.

Vorlesung 11 Einführung in die automatische Spracherkennung

Page 144: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

8 Gesamtstruktur von

Spracherkennern

Die bisher betrachtete Vorgehensweise zur Spracherkennung kann in zwei Klassen geteilt wer-den. Zum einen können reine Einzelworte erkannt werden, wie in Abbildung 8.1 noch einmalgezeigt wird, zum anderen ist die Erkennung von fließend gesprochener Sprache möglich, wasweiter unten ausführlicher dargestellt wird.

FeatureExtraction

HMM-Struktur+Parameter

Viterbi-Algorithmus

HMMs

Parameter

Training

P*(w1)...P*(wn)Sprachsignal

s(t)Features

o( )Entscheidung

wi = arg max P*(wi)

Abbildung 8.1: Einzelworterkennung mit Hidden Markov Modellen.

Auf einer etwas abstrakteren Ebene kann der Ablauf der Einzelworterkennung auch ent-sprechend Bild 8.2 dargestellt werden.

Auch die Verbundworterkennung ist auf diesen beiden Abstraktionsebenen darstellbar. Ab-bildung 8.3 gibt noch einmal den Überblick über die vorgestellte Methode zur Verbundwor-terkennung, was in Abbildung 8.4 wieder um eine Stufe allgemeiner dargestellt wird.

144

Page 145: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

FeatureExtraction

Modell-Struktur+Parameter

Distanz-bestimmung

Wortmodelle

Parameter

Training

D1...DnSprachsignals(t)

Featureso( )

Entscheidungwi = arg min Di

Abbildung 8.2: Einzelworterkennung mit Hilfe allgemeiner Mustererkennungsverfahren.

FeatureExtraction

HMM-Struktur+Parameter

HMMs

Parameter

Training

W1...WnSprachsignals(t)

Featureso( )

Viterbisuche nachoptimalem Pfad

durch Verbund-HMM

KonstruktionVerbund-HMM

Wort- undSprachmodell

Abbildung 8.3: Verbundworterkennung mit Hilfe von Hidden Markov Modellen.

Um ein Sprachsignal zu erkennen, muss dieses also zunächst in einen geeigneten Merk-malsraum transformiert, und anschließend in diesem Merkmalsraum mit Modellen verglichenwerden. Dabei sind die Modelle nicht auf Hidden Markov Modelle beschränkt, auch wenn

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 146: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

FeatureExtraction

Modellstruktur+Parameter

Modelle für Sprachabschnitte

Parameter

Training

W1...WnSprachsignals(t)

Featureso( )

suche optimalenPfad durch

Verbundmodell

KonstruktionVerbundmodell

Wort- undSprachmodell

Abbildung 8.4: Verbundworterkennung mit Hilfe allgemeiner Sprachmodelle.

diese zur Zeit die weitaus häufigste Variante darstellen. Alternativen bestehen aber auch in

• Templates, wie sie beim Dynamic Time Warping verwendet werden,

• Neuronalen Modellen, oder Hybridmodellen (aus Neuronalen und HMM-Anteilen) und

• allgemeineren Bayes’schen Netzen (auch als Graphical Models bezeichnet), die wegenihrer flexiblen Struktur zur Zeit stark weiterentwickelt werden, bisher aber an einemsehr großen Rechenaufwand leiden.

Egal aber welche Form die Modelle genau haben, in jedem Fall steht man neben der Wahlder Modellstruktur noch vor zwei weiteren Designentscheidungen. Zum einen muss festge-legt werden, welche Einheiten der Sprache modelliert werden sollen, zum anderen, welcheSatzstrukturen zulässig sind, und wie man diese beschreiben möchte. Diese beiden Bereichewerden in den folgenden Abschnitten 8.1 und 8.2 kurz vorgestellt.

8.1. PHONETISCHE SPRACHMODELLIERUNG

Die Struktur eines HMM-basierten Einzelworterkenners zeigt Abbildung 8.5 noch einmal ge-nauer. Wie zu erkennen ist, ist man hier also nicht darauf beschränkt, pro Wort ein HMM zutrainieren. Dies wäre insbesondere dann sehr unpraktisch, wenn es auch möglich sein soll,Worte zu erkennen, für die keine Trainingsdaten vorliegen, und das ist der weitaus häufigere

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 147: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

FeatureExtraction

Modell-Struktur+Parameter

PatternMatching

Konstruktion derWort-HMMs

Parameter

Training derSubwort-HMMs

Sprachsignals(t)

Featureso( )

phonetischesWörterbuch

P(w1)...P(wn)

Entscheidungwi = arg max P(wi)

Abbildung 8.5: Einzelworterkennung mit Hilfe von Hidden Markov Modellen.

Fall. Stattdessen besteht meistens eine Trainingsdatenbasis aus einer Vielzahl phonetisch viel-fältiger Worte, von denen die meisten recht selten vorkommen, und unter denen sich sehr vieleWorte überhaupt nicht befinden.

Auch unter anderen Gesichtspunkten ist die Modellierung ganzer Worte nicht optimal:

• Selbst wenn unbegrenzte Ressourcen zur Verfügung stünden, wäre die Menge des be-nötigten Trainingsmaterials bei der Ganzwortmodellierung proportional zu dem Wort-schatz des Erkenners. Besonders bei sprecherabhängigen Modellen müsste man die Ge-duld des Nutzers in der Anlernphase deutlich überstrapazieren.

• Ganzwortmodelle machen es ungleich schwieriger, das Vokabular an neue Gegebenhei-ten anzupassen, da dann immer ein neues Training erforderlich wäre.

• Daten, die mehrfach genutzt werden könnten, werden nur einmal verwendet, wenn se-parate Wortmodelle für ähnliche Worte oder Worte mit dem gleichen Wortstamm undverschiedenen Endungen gelernt werden.

• Auch für nur leicht unterschiedliche Aussprachevarianten des selben Wortes müssenneue Wortmodelle gelernt werden, was zu einer sehr großen Menge an Modellen undeinem entsprechend oft sinnlos großen Speicheraufwand führen würde.

Deswegen ist es oft sinnvoll, HMMs zu trainieren, die einzelne Untereinheiten der Sprachemodellieren, und diese dann anhand eines phonetischen Wörterbuchs zu Gesamtwort-HMMszusammenzusetzen.

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 148: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

Als phonetische Einheit bietet sich zunächst das Phonem selbst an, die kleinste bedeutungs-tragende Einheit der Sprache. Für eine solche phonembasierte Erkennung würde dann ent-sprechend Abbildung 8.5 ein HMM pro Phonem der benötigten Sprache trainiert werden, undanschließend würden für jedes Wort das erkannt werden soll Gesamtwort-HMMs konstruiert,wie das Abbildung 8.6 zeigt.

Trainierte Phonem-HMMs Wörterbuch

...

FINAL f ay n l

FINAL'S f ay n l z

FINALE f ih n aa l iy

FINALE'S f ih n aa l iy z

FINALED f ay n l d

FINALED f ih n aa l iy d

FINALES f ih n aa l ih z

FINALIS f ay n ax l ih s

FINALISATION f ay n ax l ay z ey sh ax n

FINALISATIONS f ay n ax l ay z ey sh ax n z

FINALISED f ay n ax l ih s t

FINALISES f ay n ax l ih s ih z

FINALISING f ay n ax l ih s ih ng

FINALISM f ay n ax l ih z ax m

...

....

....

/f/

1-a44,f

/ay/

1-a44,ay

/n/

1-a44,n

/l/

1-a44,l

/l/

1-a44,l

/n/

1-a44,n

/ay/

1-a44,ay

/f/

1-a44,f

Final

Abbildung 8.6: Konstruktion von Wort-HMMs aus Subwort-HMMs mit Hilfe einesWörterbuches.

Aber während Phoneme insofern günstig erscheinen, als es nur relativ wenige von ihnengibt1, haben sie den großen Nachteil, sich je nach akustischen Kontext sehr stark zu verändern.2

Alternativen zu Phonemmodellen sind vor allem

• Diphone (Modelle für zwei Phoneme, die vom Zentrum des initialen bis zum Zentrumdes zweiten Phonems reichen)

1Die meisten Sprachen haben zwischen 10 und 80 Phoneme, zum Beispiel gibt es etwa 50 in der englischenund japanischen Sprache und ca. 35 im deutschen, wenn die Dialekte unberücksichtigt bleiben.

2Beispielsweise klingt eben das Phonem /x/ je nach dem vorausgehenden Vokal sehr unterschiedlich, zu erken-nen zum Beispiel in den Worten „Dach“ und „dich“.

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 149: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• Triphone (Modelle für Phoneme, bei denen der linke und rechte akustische Kontextgleich ist)

• Halbsilben und

• Silben.

Allgemein gilt, dass eine feinere phonetische Modellierung mehr Trainingsmaterial erfor-derlich macht, aber auch zu einer besseren Erkennungsleistung führen kann, wenn genügendTrainingsmaterial vorhanden ist. So ist bei Anwendungen mit kleinem, festem Vokabular oftdie Wortmodellierung die beste Wahl, während sich in Erkennern mit mittleren und großenVokabularien der Flexibilität wegen kleine, phonetisch orientierte Einheiten wie das Triphondurchgesetzt haben.

8.2. GRAMMATIKALISCHE SPRACHMODELLIERUNG

Wenn nicht nur einzelne Worte sondern ganze Sätze erkannt werden sollen, ist es notwendig,auch die gesamte zulässige Satzstruktur zu beschreiben. Einfach ist das für klar begrenzteAufgaben, wie die Erkennung fließend gesprochener Ziffernketten, bei die Grammatik sehrleicht zu beschreiben ist. Hier ist ein Verbund-HMM, wie das in Abbildung 8.7 gezeigte,leicht zu konstruieren.

Im Allgemeinen ist allerdings die zu beschreibende Grammatik umfangreicher, und es gibtzwei prinzipielle Vorgehensweisen, diese zu spezifizieren.

8.2.1. Generative Sprachmodelle

Bei den generativen Sprachmodellen werden alle zulässigen Satzstrukturen explizit in Formvon sogenannten formalen Grammatiken beschrieben. Diese lassen sich durch sogenannteProduktionsregeln spezifizieren, die ihrerseits aus Terminalsymbolen und Nichtterminalsym-bolen bestehen können.

Alle zulässigen Sätze lassen sich mit Hilfe der Produktionsregeln aus einem einzigen aus-gezeichneten Startsymbol S erzeugen. Die Produktionsregeln könnten dann zum Beispiel soaussehen wie folgt, wobei Terminalsymbole in Kleinbuchstaben und Nichtterminalsymbolein Großbuchstaben geschrieben sind. Alternativen werden dabei durch senkrechte Striche ge-kennzeichnet und das leere Wort wird oft durch ǫ symbolisiert.

• S → SUBJECT VERB OBJECT

• SUBJECT→ she | a burglar | our dog

• VERB→ ate | hid | stole | brought | slept

• OBJECT→ the cake | my time | the portfolio | ǫ

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 150: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

1 32

4 5

6 87

„w“ „ “ „n“

„t“ „u:“

„r“ „i:“„ “

0

1/3

1/3

1/39

1

= „Glue State“, besitzt keine Beobachtungswahrscheinlichkeit

Abbildung 8.7: Verbundwort-HMM für die Worte „One“, „Two“ und „Three“. Entsprechenddieses Modells dürfen die drei Worte in beliebig langen Ziffernketten ohneZwischenpause aufeinander folgen.

Mit dieser Grammatik könnte man also Sätze wie „Our dog ate the cake“, „She slept“ undauch viel Sinnloses erzeugen.

Als weiteres Beispiel sind auch die TI-Digits leicht zu spezifizieren, diese bestehen ausZiffernketten von bis zu sieben Ziffern und sähen beispielsweise folgendermaßen aus:

• S → N | N N | N N N | N N N N | N N N N N | N N N N N N | N N N N N N N

• N→ one | two | three | four

• N→ five | six | seven | eight

• N→ nine | oh | zero

Schön an solchen generativen Grammatiken ist, dass sie eine recht überschaubare Strukturfür mögliche Sätze liefern, die dann bei der Erkennung zum Beispiel in der Erzeugung vonden jeweils passenden Verbund-HMMs berücksichtigt werden kann.

Wenn nun Dialogsysteme spezifiziert werden müssen, kann je nach Kontext die Grammatikumgeschaltet werden. So kann beispielsweise bei der automatischen Buchung von Zugreisen

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 151: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

zuerst eine Grammatik für die Angabe des Zielortes, dann eine für die Klärung der Uhrzeitund zum Schluss eine für die Zahlungsabwicklung verwendet werden.

8.2.2. Probabilistische Sprachmodelle

Probabilistische Sprachmodelle beschreiben, mit welcher Wahrscheinlichkeit eine Wortkettein der gegebenen Sprache entstehen kann. Dazu kann man ganz allgemein die Wahrschein-lichkeit einer Wortkette aus N Worten W = W(1) . . .W(N) zerlegen in

P(W

)= P (W(1)) · P (W(2)|W(1)) · P (W(3)|W(2),W(1)) . . . · P (W(N)|W(1), . . .W(N − 1)) .

Natürlich ist es unrealistisch, statistische Modelle zu entwickeln für die Wahrscheinlichkeitenbeliebig langer Wortketten. Wenn beispielsweise ein Vokabular von 10000 Worten angestrebtist, wären es für 10 Worte lange Ketten schon 1000010 = 1040 verschiedene Wortketten, derenrelative Häufigkeiten man in einer Trainingsphase lernen müsste. Daher werden nur Model-le für die statistische Häufigkeitsverteilung kürzerer Wortketten gelernt. Drei Varianten sindbesonders häufig anzutreffen:

• Unigram-Modelle

• Bigram-Modelle und

• Trigrammodelle.

Bei Unigrammodellen modelliert man nur die Häufigkeit einzelner Worte, man ersetzt alsoden exakten Ausdruck 8.1 durch

P(W

)≈ P (W(1)) · P (W(2)) · P (W(3)) . . . · P (W(N)) (8.1)

Die Tatsache, dass die TIDigits maximal 7 Worte lang sind, läßt sich hiermit also nichtbeschreiben, dafür wird die Grammatik sehr leicht zu spezifizieren, denn alles was nötig ist, istdie Wortwahrscheinlichkeit für jedes Wort W1 . . .W11 aus dem Wortschatz. Die dazugehörigeUnigram-Grammatik wäre also:

P(W) =N∏

n=1

P(W(n))

und man wählt wegen der Gleichverteilung der Ziffern P(Wi) =111 . Wenn entsprechend dieses

Sprachmodells ein Verbund-HMM konstruiert wird, erhält man genau das Modell, das schonin Abbildung 8.7 gezeigt wurde, nur erweitert auf alle 11 Ziffern der TI-Digits.

Im Gegensatz zu den Unigrammen wird bei den Bigrammen und den Trigrammen auch dieunmittelbare Vergangenheit berücksichtigt, deswegen benötigt ein Bigram-Modell die Wahr-scheinlichkeiten aller Wortpaare und ein Trigram-Modell braucht alle Tripel-Wahrscheinlich-keiten P(W(n)|W(n − 1),W(n − 2)).

Damit kann dann beispielsweise für Bigramme die Gleichung 8.1 durch

P(W

)≈ P (W(1)| < s >)·P (W(2)|W(1))·P (W(3)|W(2)) . . .·P (W(N)|W(N − 1)) P (< \s > |W(N))

vereinfacht werden, wobei < s > und < \s > als Symbole für Satzanfang und Satzende stehen,und vorne und hinten an den Wortstring W angehangen werden.

Vorlesung 12 Einführung in die automatische Spracherkennung

Page 152: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

9 Ausblick auf weitere Themen

Die Struktur, die in den letzten Veranstaltungen für die Erkennung von Sprachsignalen vorge-stellt wurde, ist bereits oben in Abbildung 8.1 zu sehen. Verbesserungen dieser Grundstruktursind auf viele Arten möglich. Je nach Anwendung benötigt man effizientere Suchstrategien,optimierten Speicherplatzbedarf und Rechenaufwand oder robustere Erkennungsergebnisse.

9.1. EFFIZIENTE SUCHSTRATEGIEN

Um die Suche effizienter zu gestalten, kann man

• Mit Sprachmodellen wie oben beschrieben die mögliche Abfolge von Worten einschrän-ken,

• die Anzahl von Pfaden, die der Viterbi-Algorithmus sucht, einschränken, zum Beispielindem man alle Pfade kappt, deren Wahrscheinlichkeit unter einen bestimmten Wertgesunken ist (Pruning) oder

• statt des Viterbi-Algorithmus andere Suchverfahren, z.B. Token Passing oder andereVerfahren in Anlehnung an den A∗-Algorithmus, einsetzen.

9.2. RECHENZEIT- UND SPEICHERPLATZÜBERLEGUNGEN

Um gleichzeitig Rechenzeit und Speicherplatz zu sparen, ist Vektorquantisierung geeignet.Diese muss keine Auswertungen von Gaußfunktionen sondern stattdessen nur Tabellen-Look-ups durchführen. Alternativ oder zusätzlich ist es oft interessant, mit Hilfe einer PCA oder derlinearen Diskriminanzanalyse (LDA) die Dimension der Features nach der Feature Extractionzu reduzieren.

9.3. ROBUSTE SPRACHERKENNUNG

Für Ergebnisse, die auch gegenüber Störgeräuschen und Nachhall robust sind, gibt es grund-sätzlich gesprochen fünf Ansätze, die auch in Abbildung 9.1 gezeigt sind:

• Man kann eine Vorverarbeitung einsetzen, die beispielsweise aus einem Beamformer,einer Störsignalunterdrückung oder ICA bestehen kann,

• man kann aus der Vorverarbeitung auch Informationen über den Grad der Sicherheitoder Unsicherheit bestimmter Features gewinnen, die dann zur sogenannten MissingFeature Erkennung verwendet werden kann

152

Page 153: GRUNDLAGEN DER AUTOMATISCHEN … · • Behindertenunterstützung und -kommunikation: Diktiersysteme und Sprachbedienung können für motorisch eingeschränkte Menschen sicher das

• man kann besonders robuste Features zur Erkennung benutzen. Dazu haben sich in denletzten Jahren besonders gehörorientierte Feature-Extraction-Stufen als nützlich erwie-sen und die zusätzliche Einbeziehung von visuellen Merkmalen ist ein aktuelles For-schungsthema.

• Das Training kann mit möglichst vielen, unterschiedlich gestörten Sprachdaten erfolgen(Multi-Condition-Training)

• und es ist möglich, die Erkennungsmodelle zur Laufzeit zu adaptieren, wobei es be-sonders nützlich ist, wenn dann auch „ge-labelte“ Adaptionsdaten vorhanden sind, beidenen bekannt ist, welche Worte gesprochen wurden.

RobusteFeature

Extraction

HMM-Struktur+Parameter

RobustesPattern

Matching

HMMs

Parameter

Multi-ConditionTraining

W1...WnSprach-signal

s(t)

Featureso( )

Vorver-arbeitung

Referenz-transkription

Adaption

Zusatzinfo:Information über Unsicherheit der extrahierten Features

Abbildung 9.1: Strategien zur robusten Spracherkennung.

Vorlesung 12 Einführung in die automatische Spracherkennung