01 intro artikulation - technische fakultätbwrede/asr/01_intro_artikulation.pdf · Überblick 1....
TRANSCRIPT
Spracherkennung
2. Sitzung16. Oktober 2008
Überblick 1. Sitzung
• Organisatorisches– Übungen und Scheinkriterien– Termine– Sprechstunde und Webseite
• Inhaltlicher Überblick
Allgemeines
• Übungen– Bislang: NN– Vorschlag: Block am Semesterende– Terminvorschlag: Februar 2009
• Scheinkriterien– Anwesenheit– Vorbereitung– Prüfung
Leistungspunkte
• 1 Leistungspunkt = 30 Stunden
• Vorlesung 3 SWS (*15 Wochen) = 1.5 LP• wöchentliche Vorbereitung 3SWS = 1.5 LP• Übungen 1 SWS = 0.5 LP• Prüfung: 60 Stunden = 2.0 LP
Summe = 5.5 LP
Termine
29. Jan26. Jan29 + 30
5. Feb2. Feb31 + 32
22. Jan19. Jan27 + 28
15. Jan12. Jan25 + 26
8. Jan5. Jan23 + 24
25. Dez - fällt aus22. Dez21 +22
18. Dez15. Dez19 + 20
11. Dez8. Dez17 + 18
4. Dez1. Dez15 + 16
27. Nov24. Nov13 + 14
20. Nov17. Nov11 + 12
13. Nov10. Nov9 + 10
6. Nov3. Nov7 + 8
30. Okt27. Okt5 + 6
23. Okt20. Okt3 + 4
16. Okt13. Okt1 + 2
Donnerstag, 12-14h, S2-137Montag, 14-16h, E1-148Sitzung
Sonstiges
• Sprechstunde:• Zeit: nach Vereinbarung• Büro: Q2 - 127• Tel: 2953• email: bwrede@techfak• Webseite
http://aipc1.techfak.uni-bielefeld.de/~bwrede/ASR/– Folien– Paper– Skript (von Prof. Dr. Gernot A. Fink, Uni Dortmund)
Inhaltlicher Überblick
Inhaltlicher Überblick
Teil 1:• Einführung• Sprachproduktion• Akustische Grundlagen• Sprachwahrnehmung
Inhaltlicher Überblick
Teil 2:5. Diskretisierung / Digitalisierung6. Merkmalsberechnung (Kurzzeitanalyse)7. Spracherkennung mit einfachem
Mustervergleich (DTW)
Inhaltlicher Überblick
Fortsetzung Teil 2:8. Hidden Markov Modelle9. Sprachmodellierung10. Angewandte Spracherkennung
1. Teil
1. Einführung
1.1 Was ist Spracherkennung?
Text-produktion
Artiku-lation
Merkmals-extraktion
De-kodierung
LinguistischeQuelle
Akustischer Kanal Sprach-erkennung
w X
P(w) P(X|w) argmax P(w|X)
1.1 Was ist Spracherkennung?
Text-produktion
Artiku-lation
Merkmals-extraktion
De-kodierung
w X
2. Sprach-produktion
3. Akustik 4. Sprach-wahrnehmung
5. Diskretisierung6. Merkmalsberechnung
7. DTW8. HMMs9. Sprachmodellierung
1.1 Was ist Spracherkennung?
Traditionell:
„ ...die korrekte textuelle Darstellung des Gesprochenen...rekonstruieren“
[Schukat-Talamazzini, 1995]
Korrekte textuelle Darstellungguten Tag Herr Schenk guten Tag Frau Schrade wie geht es Ihnen ja Danke sehr gutjetzt haben wir ja Hamburg gut hinter uns gebracht jetzt m"ussen wir ja nach Potsdamnach Potsdam ach ja die $O $P $K $S ja genau sagen wir ach wir m"ussen ja schonwieder f"unf Tage weg wie w"are es denn bei Ihnen in der zweiten Maiwoche zweiteMaiwoche nein tut mir leid da mu"s ich in Rothenburg sein in Rothenburg ja dann ochsehen wir mal Juni erste Woche bin ich in Freiburg und die zweite Woche im Junizweite Juniwoche die ist frei aber ich h"atte auch noch nein die zweite Juniwoche istdas einzigste das ist das einzigste ja dann w"urden wir das doch gleich ausmachen jaoder ich h"atte noch den April wie w"are es mit der letzten Aprilwoche letzteAprilwoche Sie meinen da vom neunundzwanzigsten ab nein ich meine denzweiundzwanzigsten ah ja oh nein da mu"s ich nach Koblenz da bin ich zwei Tage inKoblenz das geht leider nicht na gut dann Juni
SprecherzuordnungA guten Tag Herr SchenkB guten Tag Frau Schrade wie geht es IhnenA ja Danke sehr gut jetzt haben wir ja Hamburg gut hinter uns gebracht jetzt m"ussen wir ja nach
PotsdamB nach Potsdam ach ja die $O $P $K $SA ja genau sagen wir ach wir m"ussen ja schon wieder f"unf Tage weg wie w"are es denn bei Ihnen in
der zweiten MaiwocheB zweite Maiwoche nein tut mir leid da mu"s ich in Rothenburg seinA in RothenburgB jaA dann och sehen wir mal Juni erste Woche bin ich in Freiburg und die zweite Woche im JuniB zweite Juniwoche die ist frei aber ich h"atte auch noch nein die zweite Juniwoche ist das einzigsteA das ist das einzigste ja dann w"urden wir das doch gleich ausmachenB ja oder ich h"atte noch den April wie w"are es mit der letzten AprilwocheA letzte Aprilwoche Sie meinen da vom neunundzwanzigsten abB nein ich meine den zweiundzwanzigstenA ah ja oh nein da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nichtB na gut dann Juni
Sinneinheiten durch ProsodieA guten Tag Herr Schenk!B guten Tag Frau Schrade! wie geht es Ihnen?A ja Danke, sehr gut. jetzt haben wir ja Hamburg gut hinter uns gebracht. jetzt m"ussen wir ja nach
Potsdam.B nach Potsdam? ach ja die $O $P $K $S.A ja genau. sagen wir - ach wir m"ussen ja schon wieder f"unf Tage weg! wie w"are es denn bei Ihnen
in der zweiten Maiwoche?B zweite Maiwoche? nein tut mir leid, da mu"s ich in Rothenburg sein!A in Rothenburg ?B ja.A dann - och - sehen wir mal - Juni erste Woche bin ich in Freiburg und die zweite Woche im Juni /B zweite Juniwoche die ist frei! aber ich h"atte auch noch / nein die zweite Juniwoche ist das einzigste!A das ist das einzigste? ja dann w"urden wir das doch gleich ausmachen!B ja oder ich h"atte noch den April! wie w"are es mit der letzten Aprilwoche ?A letzte Aprilwoche? Sie meinen da vom neunundzwanzigsten ab ?B nein ich meine den zweiundzwanzigsten!A ah ja. oh nein! da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nicht !B na gut dann Juni .
Evaluative Aspekte durch ProsodieA guten Tag Herr Schenk!B guten Tag Frau Schrade! wie geht es Ihnen?A ja Danke, sehr gut. jetzt haben wir ja Hamburg gut hinter uns gebracht. jetzt m"ussen wir ja nach
Potsdam.B nach Potsdam? ach ja die $O $P $K $S.A ja genau. sagen wir - ach wir m"ussen ja schon wieder f"unf Tage weg! wie w"are es denn bei Ihnen
in der zweiten Maiwoche?B zweite Maiwoche? nein tut mir leid, da mu"s ich in Rothenburg sein!A in Rothenburg ?B ja.A dann - och - sehen wir mal - Juni erste Woche bin ich in Freiburg und die zweite Woche im Juni /B zweite Juniwoche die ist frei! aber ich h"atte auch noch / nein die zweite Juniwoche ist das einzigste!A das ist das einzigste? ja dann w"urden wir das doch gleich ausmachen!B ja oder ich h"atte noch den April! wie w"are es mit der letzten Aprilwoche ?A letzte Aprilwoche? Sie meinen da vom neunundzwanzigsten ab ?B nein ich meine den zweiundzwanzigsten!A ah ja. oh nein! da mu"s ich nach Koblenz da bin ich zwei Tage in Koblenz das geht leider nicht !B na gut dann Juni .
1.1 Was ist Spracherkennung?
Zusätzliche neue Ansätze „Rich Transcription“:• Sprecherzuordnung• Sinneinheiten (Punkt, Komma) durch
prosodische Merkmale• Evaluative Aspekte (Emotionen) durch
prosodische Merkmale• ...
1.2 Warum ist Spracherkennungschwierig?
• Uni-modal• Sprache ist kontinuierlich, Abbildung ist diskret
– Einzelworterkennung– Isolierte Wörter– Erkennung kontinuierlicher Sprache
• Variabilität– Akustisch (Mikrofon, Situation...)– Lautlich (Betonung, Kontext, Semantik...)– Zwischen SprecherInnen (Sprechstil [Tempo,
Lautstärke, Emotion...], Dialekt, Idiolekt, Geschlecht,Alter...)
1.2 Warum ist Spracherkennungschwierig?
Beispiel
1.2 Warum ist Spracherkennungschwierig?
• Ambiguität– Homophonie (Rad oder Rat?)– Wortgrenzen: „It isn‘t easy...
• to wreck a nice beach“• to recognize speech“
• Komplexität– Hohe Datenrate des abgetasteten Signals
• 16.000 Werte / Sekunde• 120-150 Wörter / Minute• Ca. 100.000 verschiedene Wörter
1.3 Was geht heute schon mitSpracherkennung?
• Kommandosysteme– Radiowecker– Namenswahl im Handy– Nicht-sicherheitsrelevante Funktionen im Auto
(Navigation, Telefon, Klimaanlage...)• Diktiersystem
– Für spezielle Berufsgruppen (Ärzte, Juristen..)– Für kooperative Normalverbraucher
1.3 Was geht schon?
• Audio-/Video-Datenbanksuche/-indizierung (z.B.von Rundfunksendungen)
• Schulung– Fremdsprachenerwerb– Bei Sprechstörungen
• Dialogsysteme (oft telefonisch)– „ja“-“nein“, Ziffern, Menüführung– Auskunftssysteme (Kino, Fahrplan)– Buchungssysteme / Telefonbanking
• Militärische Varianten
1.3 Maschinelle vs menschlicheErkennungsleistung
40 - 67%4%2.000(unbegrenzt)
SpontaneTelefon-
gespräche
Switchboard
6.6%0.4%65.000(unbegrenzt)
GeleseneSätze
NorthAmerican
Business News
7.2%0.9%5.000(unbegrenzt)
GeleseneSätze
Wall StreetJournal
3.6%0.1%1.000GeleseneSätze
ResourceManagement
5%1.6%26GelesenesAlphabet
Buchstaben
FehlerrateMaschine
FehlerrateMensch
VokabularBeschrei-bung
Korpus
[Lippmann 1997]
2 Sprachproduktion
Überblick
2.1 Vokaltrakt2.2 Source-Filter Modell2.3 Phonetische Beschreibung2.4 Was ist ein Laut?
2.1 Vokaltrakt
[Clark & Yallop, 1991]
2.1 Funktionales Modell desVokaltrakts
[Clark & Yallop, 1991]
2.2 Source-Filter Modell
Quelle: Stimmbänderfundamentale Anregungstimmhaft - stimmlos
Filter: VokaltraktUmformung desAnregungssignals Sprach-
signal
2.3 Phonetische Beschreibung:Konsonanten
• Phonation: stimmhaft - stimmlosSpezialfall Glottisverschluß [?]:
ver[?]eisen - verreisen
Hinweis: phonetische Symbole nach SAMPA (basierend auf IPA)
• Artikulationsort (s. Vokaltrakt)• Artikulationsart
– Nasalierung: nasal - oral– Öffnungsgrad:
Verschluss - Friktionsenge - friktionslose Enge– Engebildung: zentral - lateral
2.3 Lautsystem des Deutschen:Konsonanten
% - rTrill
% - N% - n% - mNasal
% - j% - lApproximant
Rx - %c - %S - Zs - zf - vFrikativ
?k - gt - dp - bPlosiv
GlottalUvularLabio-velar
VelarPalatal(Lamino)
Palatal(Apico)
Post-alveolar
Alveo-lar
DentalLabio-dental
Bi-labial
2.3 Phonetische Beschreibung:Vokale
• artikulierender Zungenteil– vorne - mitte - hinten
• Zungenhöhe– geschlossen - halboffen - offen
• Lippenrundung– gerundet - ungerundet
• Dauer– kurz - lang
Beispiel: Vokalproduktion
2.2 Lautsystem des Deutschen:Vokale
i y
a:
e 2
E
a
@
6
u
oO9
I Y U
hintenvorne
tief / offen
hoch /geschlossen
2.3 Was ist ein Laut?Phonem• Definition: Ein Phonem ist die kleinste
bedeutungsunterscheidende Einheit
• Ermittlung von Phonemen überMinimalpaarbildung:
train - twain [trEIn] - [twEIn]
• Phoneme sind sprachabhängig
• Phoneme werden realisiert durch Allophone
2.3 Was ist ein Laut?Allophon
• Definition: Sounds which count as alternative ways of sayinga phoneme [Clark & Yallop 1995:125]
• Allophone befinden sich in komplementärer Distribution:c nach [ E I Y e i y ]x nach [ a a: O U o u ]
• normalerweise unterscheiden sich Allophone jedoch nur durchKoartikulation:
k: in Kuh ist gerundetk: in Katze ist nicht gerundet