multimédia...a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 preacc. fenêtre codage vecteurs acoustiques...
TRANSCRIPT
Plan du cours
1. Introduction au multimédia et à la parole
2. Acquisition
3. Codage
4. Reconnaissance
L’avènement du « tout numérique » • Montée en puissance progressive du « tout numérique »
Informatique
Télécommunications Médias et industries de la communication
Etape 1 : l’informatique • La machine à différences de Babbage (1791) • Les ordinateurs à lampes (1950) • Les microprocesseurs (1980)
Un outil dont l’utilisation se propage à un nombre croissant d’utilisateurs
Etape 2 : les télécommunications • L’évolution de l’informatique catalyse les télécommunications • Les lignes téléphoniques ne supportent que le signal analogique
TELEMATIQUE = TELEcommunications + inforMATIQUE
• Numérisation des lignes téléphoniques : Modulation par impulsion et codage (MIC) ou PCM (Pulse Code Modulation) • Cable, fibre optique, liaison hertzienne, satellite
1ère cohabitation données/son : utilisation d’un convertisseur ou MODulateur/DEModulateur : Le MODEM
Etape 3 : la communication
• Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur
• Le numérique est une opportunité pour les industries de la communication : - informatisation des procédés et techniques de travail, - élargissement des supports (compression de l’information = plus de place
aux médias) • Mais également une menace : les frontières des différents secteurs s’estompent.
• Le développement de la communication est directement le fruit d’innovations
L’écrit Le son L’image
manuscrits livre
presse radio disque dessin et peinture
cinéma photographie
télévision
Imprimerie Gutemberg
Phonographe Cros
Liaison hertzienne Hertz
Tube cathodique Edison, Senlecq
Du « tout numérique » au multimédia
• MULTIMEDIA : élaboration de documents comprenant de MULTiples MEDIAS
De nouveaux types de produits et services émergent peu à peu
Nouveaux modes de représentation du réel
• Synthèse, simulations, réalité virtuelle
Enrichissement et redimensionnement
de l’information
Encyclopédie : texte + image
+ commentaire oral + séquence vidéo
Synthèse : jeux vidéo
Presse électronique
Interactivité et navigation
Cours magistral Dialogue conversation
Sens multiples : texte et hypertexte
Enchaînement linéaire des idées
Assemblage d’explorations possibles autour d’une idée
Support technologique de l’émergence du multimédia
• L’acquisition et la numérisation permettent la création des objets multimédia
• Compression et codage réduisent la quantité de données de façon réversible et non réversible
• L’objet multimédia peut être stocké sur un support ou utilisé comme un service
• Le service multimédia nécessite des structures de transmission adaptées à des flux importants de données numériques
Création distribution Numérisation Codage compression
Stockage infrastructure
Émergence du multimédia
Commercialisation
produits services
Numérisation du son • Le son est une information complexe car dynamique • Analogique, à variations continues, on peut représenter le son comme un flux
d’ondes • Étendue du spectre auditif : de 20Hz à 20kHz • Bande passante du téléphone : entre 300Hz et 3400Hz • Bande passante du disque CD : jusqu’à 20kHz
Conversion AN-NA • Étape difficile : sensibilité au bruit et perturbations, coût élevé • Instabilités temporelles : le jitter
• du 16 au 24 bits : fiabilité limitée dans les bits de poids faibles
• Repliement du spectre ou aliasing
Tops théoriques
Tops échantillons
-60dB
0dB
16 bits = 65536 niveaux (96dB) ~ 14 bits réels 24bits = 16777216 niveaux (144dB) ~ 21.22 bits réels
• Dynamique limitée : problème de la saturation des signaux numériques
Production de la parole
Trois grandes étapes
La souflerie
Le voisement
La gestuelle articulatoire poumons
Cordes vocales
Conduit vocal et
fosses nasales
Les sons de la parole
Mécanismes de production
Vibration des cordes vocales
Turbulences de l’air dans le conduit vocal
Relâchement d’une occlusion dans le conduit vocal
Source de voisement
Sources de bruit
Caractéristiques acoustiques de la parole
Description phonétique
Établir des distinctions entre les unités de signification
Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots
[k] dans « qui » == [k] dans « cou »
Articulations différentes
même phonème en français
phonèmes différents en hongrois
Les phonèmes ne tiennent compte que des caractéristiques acoustiques pertinentes
pour les distinctions de signification
Les 36 phonèmes français
Classification en traits distinctifs Les phonèmes et les traits distinctifs sont des éléments abstraits
Liés aux éléments de signification. Ils ne spécifient pas Complètement le signal acoustique
nasalité
Degré d’ouverture Du conduit vocal Position de la constriction principale
Du conduit vocal
Protrusion des lèvres (arrondissement)
voisement Mode d’articulation
Position de la constriction principale (lieu d’articulation)
voyelles
consonnes
- orales - nasales
- antérieures - postérieures
- arrondies - non arrondies
- voisées - non voisées - occlusif
- nasal - fricatif - glissant - liquide
- labiales - dentales - vélo-palatales
Analyse acoustique descriptive L’analyse fréquentielle
Équivalence des représentations Temps et fréquences
Exemple : le « la 440 Hz »
Applications en parole
Reconnaissance de la parole Transmission
de la parole
Reconnaissance du locuteur
- IHM - Parole continue - Mots isolés - Locuteur
(Vérification) (identification)
- Téléphonie filaire - GSM, GPRS, UMTS - Transmissions audiovisuelles - Stockage, restitution de message vocaux
- IHM - Synthèse à partir du texte
(lecture automatique de messages écrits) (questionnement de bases de données) (alarmes dans les centres de surveillance) (aide aux handicapés) (etc.)
Pré-traitement pour la reconnaissance
Preacc. fenêtrage Codage Vecteurs acoustiques
Segmentation Découpage en trames signal
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-1
-0.5
0
0.5
1
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-1
-0.5
0
0.5
1
1.25 1.3 1.35 1.4 1.45 1.5 1.55
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0 50 100 150 200 250 300-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Élimination du bruit
Découpage en trames
acquisition
Détection parole / bruit
Variance court terme du mot parenthèse
Variance du signal à comparer avec la variance du bruit
Segmentation phonétique
1.25 1.3 1.35 1.4 1.45 1.5 1.55
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Découpage du signal en trames entrelacées
Occurrences Du même phonème
Phonème
Décision sur plusieurs trames
0 50 100 150 200 250 300-1
0
1
0 50 100 150 200 250 3000
20
40
0 50 100 150 200 250 300-0.2
0
0.2
0 50 100 150 200 250 3000
2
4
0 50 100 150 200 250 300-0.2
0
0.2
0 50 100 150 200 250 3000
1
2
trame
spectre
Pré-accentuation
Fenêtrage (Hamming)
0 50 100 150 200 250 300-0.1
-0.05
0
0.05
0.1
0.15
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12
Preacc. fenêtre Codage Vecteurs acoustiques
signal
Codages MFCC LPC FFT …
Codage LPC
a) Conduit vocal b) Modèle acoustique à
réflexion c) Modélisation par
lignes électriques
Modèle du conduit vocal
Reconnaissance niveaux de complexité
• Dépendance du locuteur
• Mots isolés ou parole continue
• Taille du vocabulaire
• Conditions d’acquisition
Variabilité inter et intra-locuteur
Détection et reconnaissance de mots clés
Le degré de confusion augmente avec la taille
Dégradation rapide des performances
Robustesse des reconnaisseurs de parole
• Bruits d’environnement • Bruits corrélés au signal de parole (ex :reverb.)
• Microphones, prise de son • Bande passante fréquentielle limitée • Élocution inhabituelle
Etapes de la reconnaissance
Acquisition des vecteurs acoustiques
Classification des vecteurs
Alignement temporel
Analyse syntaxique, sémantique, pragmatique
Hypothèses locales
Score global au niveau de la phrase
Contraintes vocabulaire, grammaire, sens
Acquisition et Codage
Méthodes de reconnaissance
• Statistiques
• Directes
• Connexionnistes
• Structurelles
Décision Bayésienne Chaînes de Markov cachées (HMM)
K-ppv et Distances Fonctions discriminantes
Modélisation Discrimination
Programmation dynamique (DTW)
Décision par les plus proches voisins
Aucune hypothèse sur la forme des classes ou sur celle de leurs séparatrices
Simple à mettre en oeuvre
Statistiquement efficace
Temps de calcul prohibitifs
Problème de la métrique
Méthodes structurelles : DTW
Classification phonétique
Étape intermédiaire (classification locale)
Etape entachée d’erreurs (variabilité spectrale importante)
Contraintes de niveau supérieur Nécessaires pour réduire les erreurs
Reconnaissance de mots
Reconnaissance de mots
Comparaison de séquences de vecteurs acoustiques
5000 6000 7000 8000 9000 10000 11000 12000 13000 14000-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Séquence de 59 trames 59 vecteurs acoustiques
« sept »
Reconnaissance de mots (suite)
1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
« un »
Séquence de 25 trames 25 vecteurs acoustiques
Séquences de longueurs différentes
Distance entre chaînes : la distance d’édition
• On note S(u,v) la substitution de u par v • X.$ = $.x = x pour tout mot x • Insertion = substitution de $ (S($,u)) • Suppression = substitution par $ (S(u,$)) • Matrice des coûts : C(u,v) : C(u,u) = 0 et C(u,v) > 0
La matrice des coûts permet de palier aux problèmes de mauvaise Segmentation si la différence de coût est faible pour une erreur donnée
Distance d’édition : algorithme
Calcul par récurrence d’une fonction D(i,j) : les distances cumulées
X = a1a2a3…an Y = b1b2b3…bm
X(i) = a1a2a3…ai Y(j) = b1b2b3…bj
X(0) = y(0) = $ D(n,m) = d(x,y) D(0,0) = d($,$) = 0
D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)
$ a a b c c b d e e a b b d $ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 a 1 0 1 2 3 4 5 6 7 8 9 10 11 12 b 2 1 1 1 2 3 4 5 6 7 8 9 10 11 c 3 2 2 2 1 2 3 4 5 6 7 8 9 10 b 4 3 3 2 2 2 2 3 4 5 6 7 8 9 d 5 4 4 3 3 3 3 2 3 4 5 6 7 8 e 6 5 5 4 4 4 4 3 2 3 4 5 6 7 e 7 6 6 5 5 5 5 4 3 2 3 4 5 6 b 8 7 7 6 6 6 5 5 4 3 3 3 4 5 d 9 8 8 7 7 7 6 5 5 4 4 4 4 4 a 10 9 8 8 8 8 7 6 6 5 4 5 5 5
Distance d’édition : exemple x = aabccbdeeabbd y=abcbdeebda Les coûts non nuls sont tous égaux à 1
Distance = 5
$ a a b a c $ 0 0.5 1 1.5 2 2.5 a 0.5 0 0.5 1 1.5 2 b 1 0.5 1 0.5 1 1.5 d 1.5 1 1.5 1 1.5 2
x = aabac y=abd
Distance d’édition : autre exemple
Coûts d’insertion/suppression : 0.5,
Coûts de substitution si symboles différents : 1, sinon 0
Distance = 2
Distance d’édition : les limites de cette métrique
• Limitation aux substitutions d’ordre 1 • Non prise en compte de paramètres numériques
On ne dispose que de l’alphabet des symboles pour représenter la réalité des formes
Distance d’édition avec attributs numériques :
Distance de Bellman :
D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)
D(i-1,j) + d(ai,bj) D(i,j) = min D(i,j-1) + d(ai,bj) D(i-1,j-1) + 2d(ai,bj)
C(ai,$) = || ai || C($,bj) = || bj || C(ai,bj) = || bj – ai ||
Exemple : d(ai,bj) = || bj – ai ||
Algorithme DTW (Dynamic Time Warping)
D(i-2,j-1) + 2d(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) + d(i,j) D(i-1,j-2) + 2d(i,j-1)
D(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) D(i-1,j-2)
D(i-1,j) D(i,j) = d(i,j) + min D(i,j-1) + d(i,j) D(i-1,j-1) 1
1 2
1
1
2
2 2
1 1 1
i-2
i-1
i j j-1 j-2
j j-1 j-2
j j-1 j-2
i-2
i-1
i
i-2
i-1
i
Bellman
Itakura
Distances locales
Distance euclidienne
Distance de Mahalanobis (Euclidienne pondérée : toutes les classes ont même matrice de covariance)
Distance d’Itakura (vecteurs LPC)
Le choix de la distance influence fortement la classification
Ex (problème des distances cumulées dans le temps): Bé, Cé, Dé, Gué, Té, Vé
Vers des métriques perceptives
Distances associées aux normes Ln
n = 1 (simple à évaluer)
n = 2 (euclidienne : la plus utilisée)
n = infini (tchebichef)
Problème des distances cumulées dans le temps
Distance de Mahalanobis
Prise en compte des densités de probabilité
Estimation des densités de probabilité
Méthode paramétrique : hypothèse gaussienne
Grand nombre d’exemples nécessaire pour l’estimation des moyennes et variances
d(a,b) = (b-a) Γ-1 (b-a)T
dM dE
mx my
Distance d’Itakura
Coefficients d’autocorrélation Du signal à reconnaître
Coefficients du filtre modélisant le signal à reconnaître
Coefficients du filtre modélisant le signal de référence
Distance d’Itakura (suite)
a = 1/A Erreur de prédiction
Signal de parole
A Signal de parole
Bruit blanc ou Peigne de Dirac
a = 1/A
b = 1/B
Signal de parole à reconnaître
Xb Erreurs de prédiction
DTW : contraintes
Longueur du mot de référence
Longueur du kème mot testé
Contraintes locales : prédécesseurs limités garantissant un chemin strictement gauche-droite
Contraintes globales : réduction de l’espace de recherche
Contraintes de monotonicité du chemin : Début en (1,1), fin en (N,J(k))
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x 104
-1
0
1
1
2
3
4
5
6
7
8
Modèles
1 2 3 4 5 6 7 80
20
40
1 2 3 4 5 6 7 80
10
20
1 2 3 4 5 6 7 80
20
40
1 2 3 4 5 6 7 80
10
20
1 2 3 4 5 6 7 80
50
1 2 3 4 5 6 7 80
20
40
1 2 3 4 5 6 7 80
10
20
1 2 3 4 5 6 7 80
20
40
1
2
3
6
4
5
7
8
Les 8 modèles
Les 8 tests
Classification phonétique
Par discrimination Par modélisation
Trames codées
Réseau
phonème
Trames codées
Erreurs de prédiction
C4
C3
C2
C1
e2
e1
e3
e4
Réseaux prédictifs
Erreurs de prédiction
C4
C3
C2
C1
e2
e1
e3
e4 Trames codées
classes
Réseaux prédictifs
• But de l’apprentissage : déterminer les paramètres des prédicteurs pour minimiser l’erreur de prédiction
• Approche par modélisation : chaque réseau modélise un
phonème, un groupe de phonèmes ou un mot • Reconnaissance : comparaison des traits acoustiques avec
Chacun des modèles par calcul de l’erreur de prédiction