präsentation von: ghamdan atef. motivation datensammlung vorgeschichte radio oranje collection...
TRANSCRIPT
Präsentation von:Ghamdan Atef
Motivation• Datensammlung• Vorgeschichte
Radio Oranje Collection Projekt Experimente
• Erstellung von Transkriptionen• Akustische Modelle• Segment-Länge
Ergebnisse Fazit Live Demonstration Zukünftige Arbeit
2
Problem: • Beschränkung der Zugänglichkeit von
historischen Audio-Ansammlungen
Folge: • Erschwerte Suche nach bestimmten Inhalten in
historischen Reden
Lösung:• Digitalisierung der Tonaufnahmen• Erstellung eines Zeitstempel-Index• Einführung von Such-Technologien
3Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Radio Oranje Collection: Sammlung von im Radio ausgestrahlten Reden, die Königin Wilhelmina (1880-1962) während des Zweiten Weltkriegs an das niederländische Volk richtete.
4Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Unzugänglichkeit von Audio-Sammlungen des kulturellen Erbes (z. B. Radio Oranje Collection) durch:
I. Speicherung auf analoge DatenträgerVerschlechterung der Aufnahmequalität
II. Verwendung veralteter Wiedergabe-GeräteSchwierigkeit zu einer schnellen und einfachen Zugriff
auf bestimmten Inhalten
Frühere Digitalisierungs-Projekte:• EU IST PrestoSpace• Dutch Beelden Voor De Toekomst
5Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Digitalisierung der Bewahrten Aufnahmen und deren Original-Transkriptionen
Bedarf einer schriftlichen Transkription für die Stichwortsuche: Eine Reihe von Stichwörtern z. B. aus einer
Redeepisode Generierung von automatischen Zeitstempel-
Transkriptionen
6Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Spracherkennung: (was wird gesagt?)• Transkriptionen durch vollautomatische
Spracherkennung• Suboptimal wegen schlechter Tonqualität
Alignment: (wo wird etwas gesagt?)• Modell: Verwendung einer bereits vollständig
transkribierten Sammlung• Daten: Angleichung (Alignment) der
phonetischen Darstellung des Gesprochenen mit der des Modells.
Drei Experimente zur Auswertung von Alignments zwischen Text und Rede
7Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Verwendung derselben Modelle für Alignment und Spracherkennung:
• geschlechtsunabhängig• sprecherunabhängig
Verwendete Modelle / Nachrichtensendungen:
• triphone (kontextabhängige)• monophone (kontextunabhängig)
Ergebnis: neue sprecherabhängige Modelle Generierung und Evaluierung der letzten
akustischen Wilhelmina Modelle
8Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Bei gegebenem Ton das „passende“ akustischen Modell-Segment finden
Pruning-Verfahren
Ankerpunkte: Verknüpfung Tonband und Transkription an zwei gleichen Positionen
Mehr Ankerpunkte: Alignment wird leichter Pruning-Verfahren wird weniger angewendet
Einfluss der Segment-Länge auf die Qualität des Alignment
9Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Indirekte Text-Rede-Alignment über phonemischer Darstellung des Textes
• Orthographische Transkription in phon. Darstellung• Phonem auf dem Tonband Sequenz von ak. Modellen
Konverter:• Background-Wörterbuch• Regelbasiertes System• Entsprechende Schreibweise und Aussprache
Einfluss der Konvertierung aufs Alignment:• Vollautomatische Konvertierung• Konvertierung mit Referenztext• Manuelle phonetische Konvertierung
10Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
11
Ak. Modelle aus monophonen Sendungen um 60% besser als solche aus triphone Sendungen
Datenspezifische Modelle sind besser als gewöhnliche Nachrichtensendungen
Für jedes der drei ak. Modelle wird die Datenmenge im Hinblick auf die entsp. Divergenz von der Referenztranskription gezeigt.
Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
12
Gleichgültigkeit der Länge der Segmente beim Wilhelmina-Modell
Bei längeren Segmenten aus triphoner N-Sendungen war die benötigte Zeit länger (Reduzierung des Pruning-Verfahren)
Alignment Performance als Funktion von Segmentlängen für triphone Nachrichtensendungen Models und die Sprecher-spezifischen Wilhelmina Models.
Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
13
Modelle aus monophonen Nachrichten-Sendungen
Niedriger Einfluss veralteter Schreibweise auf Alignment-Performance
Schreib-weise
Veränderte Phone (%)
Divergenz- Mittelwert (ms)
Original 0 55
Modern 1 56
Manuelle Konv.
5 54
Die Auswirkung von der Grafem-zu-Phonem Konvertierungsmethode auf die Alignment Performance.
Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Alignment-Performance ist adäquat für Indezierungsarbeiten
Monophone Modelle ergeben bessere Alignment-Performance als triphone Modelle
Mit dem richtigen Modell ist die Länge der Segmente relativ belanglos
Bei Abweichung des Tonbands vom Modell wurde mehr Zeit beansprucht für ein akzeptables Alignment
Graphem-zu-Phomen hat keinen Einfluss aufs Lokalisieren von Wortgrenzen
14Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
15Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
16Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Fortschritt in der Digitalisierung von historischen Texten, Bildern und Pamphleten• Automatische Verlinkung zwischen Dokumenten• Anzeige verwandter Dokumente in einer Präsentation
Verknüpfung der Inhalte von Medien über die semantische Darstellung jedes Medientyps:• Direkt• Über ein Lexikon• Über eine Ontologie
Keine automatische Verlinkung von Radio Oranje Aufnahmen und den entsprechenden Bilder Manuelle Erstellung der Semantische Darstellung von
Reden
17Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
http://hmi.ewi.utwente.nl/choral/radiooranje.html
18Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Bessere Erforschung der semantischen Übereinstimmung der gesprochenen Worte mit dem Thema.
Reduktion der Stichwörter auf ein kontrolliertes Vokabular
Verwendung eines Lexikon- oder Ontology-Systems (z. B. „Wordnet“)
Einsatz von Expertenwissen bei bestimmten geschichtlichen Ereignissen
19Motivation
Projekt Ergebnisse
Fazit
Demo
Zukünftige Arbeit
Radio Oranje: Enhanced Access to a Historical Spoken Word CollectionLaurens van der Werff, Willemijn Heeren, Roeland Ordelman & Franciska de JongUniversity of Twente
http://hmi.ewi.utwente.nl/choral/radiooranje.html
20
Vielen Dank für die Aufmerksamkeit!
Fragen?
21