Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας
DESCRIPTION
Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ. http://cvsp.cs.ntua.gr. Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας. Γιώργος Παπανδρέου. Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/1.jpg)
Συνδυασμένη Οπτική-Ακουστική Ανάλυση
Ομιλίας
Γιώργος Παπανδρέου
Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος
Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ.
http://cvsp.cs.ntua.gr
Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό
![Page 2: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/2.jpg)
Ομάδα CVSP -- ΕΜΠ Μέλη
Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες + 2-5 Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες
Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών
Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων
Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα)
Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας
Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα: http://cvsp.cs.ntua.gr
![Page 3: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/3.jpg)
Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald)
Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: Θόρυβος/Παρεμβολές
ΉχοςΕικόνα
![Page 4: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/4.jpg)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Ανάκτηση γεωμετρίας φωνητικής οδού Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής
Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης
Φωνητική επιστήμη/φωνολογία
Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης
Ακουστική
Εικόνα
Γεωμετρία φωνητικής
οδού
![Page 5: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/5.jpg)
Ομιλία: Πολύπλευρο φαινόμενο
οπτικ
ή προ
βολή
ακουστική προβολή
![Page 6: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/6.jpg)
Από ακουστικές σε αρθρωτικές αναπαραστάσεις Ομιλία ως ακουστικό σήμα
Ακουστική αναπαράσταση
Ομιλία ως οπτικό-ακουστικό σήμα Αρθρωτική αναπαράσταση
Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng)
Φωνολογικές θεωρίες: Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)
![Page 7: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/7.jpg)
Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)
![Page 8: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/8.jpg)
Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία
G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “Adaptive Multimodal Fusion by Uncertainty Compensation with Application
to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009
![Page 9: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/9.jpg)
Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Κύρια σημεία:
Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή
Σύμμειξη οπτικής και ακουστικής πληροφορίας
Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού
ΉχοςΕικόνα
![Page 10: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/10.jpg)
Εξαγωγή Οπτικής Πληροφορίας
Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το
διάβασμα των χειλιών
Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ)
Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους
Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ
Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών
μέσο διάνυσμα
1ο ιδιο-διάνυσμα
2ο ιδιο-διάνυσμα
υφή
σχή
μα
![Page 11: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/11.jpg)
Εξαγωγή Οπτικής Πληροφορίας
Μηχανισμός για μείωση της επίδρασης της ταυτότητας του
ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών
Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα
Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο
![Page 12: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/12.jpg)
Σύστημα πραγματικού χρόνου για οπτική-
ακουστική αναγν. ομιλίας
Image Acquisition
Firewire color camera, 640x480
@25 fps
Face detectorAdaboost-based, @5 fps
HMM-based backend
Face tracking & feature extraction
Real-time AAM fitting algorithms
(Re)initialization
System Overview
GPU-accelerated processing
OpenGL implementation Transcription
![Page 13: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/13.jpg)
Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική;
Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία
Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο
Σημαντικές εφαρμογές (π.χ. βιομετρικά συστήματα)
Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία
![Page 14: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/14.jpg)
Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες Πολυαισθητηριακή περίπτωση
Ήχος, εικόνα, αφή, ...
Διαφορετικές όψεις εντός της ίδιας αίσθησηςΟπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση
Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards)Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.)
Διαφορετικά επίπεδα σύμμειξηςΠρώιμη/ενδιάμεση/όψιμη σύμμειξη
Maragos et al., “Cross-Modal Integration”, Springer 2008
![Page 15: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/15.jpg)
Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας
Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά
αναγνώρισης με πεπερασμένη μόνο ακρίβεια”
Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο
φιλτράρισμα: Φίλτρα Wiener και Kalman
Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών
επιδρά στις μεθόδους ταξινόμησης;
![Page 16: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/16.jpg)
Αβεβαιότητα Μέτρησης Χαρακτηριστικών Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές
‘άπειρης’ ακρίβειας Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με
το σφάλμα στη μέτρησή τους:
SNR= 20dB SNR= 5dB
![Page 17: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/17.jpg)
Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης
C
X
C
X
Y
Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο
Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά
Και τα δύο
κρυφά!
πρότερη
Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών (Gaussian
Mixture Model - GMM) S ανεξάρτητες ροές
ύστερη κατανομή καθαρών
κατανομή θορύβου
κρυφές φανερές
ανεξ. υπό συνθήκη:
![Page 18: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/18.jpg)
,
1: , , , , , , , ,11
| ( ) ; ,s cMS
s s c m s s c m e s s c m e sms
p c y p c N y
GMM Ταξινόμηση με Γκαουσιανό Θόρυβο Μέτρησης
C
X
C
X
Y
χαρακτηριστικά αλλοιωμένα από θόρυβο
συμβατική άποψη
Μοντέλο θορύβου Γκάους: , ,| ; ,s s s s e s e sp y x N y x
1: , , ,1| ( ) ; ,
S
s s c s s c s cp c x p c N x
![Page 19: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/19.jpg)
GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης
Δύο 1-Δ ροές (y1 και y2), 2 τάξεις
![Page 20: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/20.jpg)
Σχέση με Σύμμειξη Στάθμισης Ροής
Πιθανότητα με Αντιστάθμιση Αβεβαιότητας:
Βάρη Ροής:1: 1
( | ) ( ) ( | )S
s sswb c y p c p y c
1: , , ,1| ( ) ; ,
S
s s s c s c e sp c y p c N y
11: , , ,1
| ( ) ; ,S
s s s c s c s cb c y p c N y w ,
,,
1 1 e ss c
s c
w
Ενεργό Βάρος Ροής:
PoG Ταυτότητα:
1; , ; ,w
N x N x w
![Page 21: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/21.jpg)
EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά
( , ) [log ( ,{ } | ) | , ]Q ΄ p X C X ΄
C
X
C
X
Y
Η προσέγγισή μας
Συμβατική άποψη
Κρυφή
Φανερή
Κρυφή
Φανερή
Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια
( , ) [log ( ,{ , } | ) | , ]Q ΄ p Y X C Y ΄
![Page 22: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/22.jpg)
Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα
Η Προσέγγισή μας
Συμβατική Άποψη
Κρυφές
Φανερές
Κρυφές
Φανερές
Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) και α-β (εκπαίδευση)
Προσαρμογή στο χρόνο (επίπεδο frame)
C1
X1
C2
X2
C3
X3
C4
X4
C1
X1
Y1
C2
X2
Y2
C3
X3
Y3
C4
X4
Y4
![Page 23: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/23.jpg)
Ακουστικά Χαρακτηριστικά και Αβεβαιότητα Mel Frequency Cepstral Coefficients (MFCCs):
Pre-emphasis STFT | . | Mel-scale log( . ) DCT
Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN)
Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS)
Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας
X noisy = f (X ;N )
( , )noisy cleanX f X NMFCC καθαρής φωνής
MFCC θορύβου
Deng, Droppo, Acero, IEEE Tr. SAP, 2005
ˆcleanX X E Αβεβαιότητα
![Page 24: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/24.jpg)
Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας
Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, …
Τεχνικές για συγχρονισμό στο επίπεδο του σήματος
ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης
C1
X1
C2
X2
C3
X3
Υ1 Υ2 Υ3
Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού
Multistream-ΗΜΜ με απόλυτο συγχρονισμό
ανά κατάσταση
![Page 25: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/25.jpg)
Ποσοτική αξιολόγηση στη βάση CUAVE
![Page 26: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/26.jpg)
Αναγν. Ομιλίας από Ήχο και Εικόνα: ΠειράματαΧρήση της βάσης CUAVE:
36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος)
5 ακολουθίες από 10 συνεχόμενα ψηφία ανά ομιλητή
Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10)
Σύνολο ελέγχου: 300 ψηφία (6x5x10)
Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων
Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο
Προσθήκη θορύβου τύπου “babble” - βάση NOISEX
Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας)
Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)
![Page 27: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/27.jpg)
Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα
AV A
![Page 28: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/28.jpg)
Αναγνώριση μόνο από ήχο ή εικόνα
Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών
χαρακτηριστικών ΕΜΟ
![Page 29: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/29.jpg)
Συνδυασμένη οπτική/ακουστική αναγνώριση
Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία
AV-W-UC vs. A-UC
28.7 %
![Page 30: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/30.jpg)
Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας
Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W
Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %
![Page 31: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/31.jpg)
Μοντελοποίηση συγχρονισμού με Product-HMM
Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με
Product-HMM vs. Multistream-HMM
1.2 %
![Page 32: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/32.jpg)
Αναγνώριση Ομιλίας από Ήχο και Εικόνα
Σύνοψη:
Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή
Σύμμειξη οπτικής και ακουστικής πληροφορίας
Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού
ΉχοςΕικόνα
Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)
![Page 33: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/33.jpg)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
A. Katsamanis, G. Papandreou, and P. Maragos, “Face Active Appearance Modeling and Speech Acoustic Information to Recover
Articulation”, IEEE Trans. ASLP, 2009
![Page 34: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/34.jpg)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Ακουστική
Εικόνα
Γεωμετρία φωνητικής
οδού
Κύρια σημεία:
Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα
Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)
Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας
Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά
![Page 35: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/35.jpg)
Συλλέχθηκε από CSTR, Univ. Edinburgh Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1
γυναίκα), 460 προτάσεις TIMIT ο καθένας Μετρήσεις άρθρωσης (2-Δ συντεταγμένες
9 ηλεκτροδίων ΕΜΑ) Βίντεο με το πρόσωπο της ομιλήτριας 30 λεπτά αξιοποιήσιμων δεδομένων Πρώτη εργασία που αξιοποιεί το βίντεο
Βάση με μετρήσεις άρθρωσης MOCHA
![Page 36: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/36.jpg)
Μετρήσεις στο πρόσωπο με ΕΜΟ
![Page 37: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/37.jpg)
37
phoneme
Οπτική-Ακουστική Αντιστροφή Ομιλίας
![Page 38: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/38.jpg)
Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσηςΠαρατηρήσεις y, παράμετροι άρθρωσης x
Μοντέλο:
prior
μέτρηση
Γραμμική εκτίμηση άρθρωσης:
Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998
![Page 39: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/39.jpg)
Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA
Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση:
Εκτίμηση από λίγα δεδομένα: απεικ. μειωμένης τάξης
Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA)
Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας
![Page 40: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/40.jpg)
Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης
40
![Page 41: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/41.jpg)
Hiroya & Honda, IEEE TSAP 2004
Viterbi
Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο
Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ
Τμηματικά Γραμμικό Μοντέλο
![Page 42: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/42.jpg)
Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας
Πρόβλεψη δεδομένης της κρυφής κατάστασης:
Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια:
Συγχρονισμένα HMM / MS-HMM: Κοινή κρυφή μεταβλητή
Ασύγχρονο (όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/
κανάλι. Καταστάσεις που αντιστοιχούν σε:Visemes (οπτικό κανάλι)
Φωνήματα (ακουστικό κανάλι)
![Page 43: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/43.jpg)
Αξιολόγηση Επίδοσης Αντιστροφής Πειράματα στη βάση MOCHA
Ποσοτικά κριτήρια
Ποιοτική αξιολόγηση
![Page 44: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/44.jpg)
Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία
![Page 45: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/45.jpg)
Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)
![Page 46: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/46.jpg)
Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)
![Page 47: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/47.jpg)
Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή
![Page 48: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/48.jpg)
Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα
![Page 49: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/49.jpg)
Παράδειγμα Αντιστροφής
![Page 50: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/50.jpg)
Katsamanis et al. EUSIPCO 200851
Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο
![Page 51: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/51.jpg)
Audiovisual Speech
Inversion
Audiovisual Speech
Inversion
Articulatory Parameter Extraction
Articulatory Parameter Extraction
Articulatory Speech
Synthesis
Articulatory Speech
Synthesis
Articulatory Model
Training
Articulatory Model
Training
Προοπτική / Συνεχιζόμενη έρευνα στο CVSP Χρήση Αντιστροφής για Σύνθεση Φωνής με Αεροακουστικά
Μοντέλα (Ν. Κατσαμάνης)
Αξιοποίηση πολυτροπικών δεδομένων: X-rays, υπέρηχοι
(Τ. Ρούσσος και Ν. Κατσαμάνης)
![Page 52: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/52.jpg)
Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού
Ακουστική
Εικόνα
Γεωμετρία φωνητικής
οδούΣύνοψη:
Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα
Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία)
Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας
Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικάΧρηματοδότηση: Ευρωπαϊκό έργο ASPI (FET) & ΠΕΝΕΔ (ΓΓΕΤ)
![Page 53: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/53.jpg)
οπτικ
ή προ
βολή
ακουστική προβολή
![Page 54: Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας](https://reader036.vdocuments.mx/reader036/viewer/2022062322/56814fca550346895dbd8884/html5/thumbnails/54.jpg)
οπτικ
ή προ
βολή
ακουστική προβολή
Περαιτέρω πληροφορίες: http://cvsp.cs.ntua.gr
Ευχαριστώ!