multimédia...a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 preacc. fenêtre codage vecteurs acoustiques...

Multimédia Licence LIOVIS

Parole Modélisation & reconnaissance

Plan du cours

1.  Introduction au multimédia et à la parole

2.  Acquisition

3.  Codage

4.  Reconnaissance

L’avènement du « tout numérique » •  Montée en puissance progressive du « tout numérique »

Informatique

Télécommunications Médias et industries de la communication

Etape 1 : l’informatique •  La machine à différences de Babbage (1791) •  Les ordinateurs à lampes (1950) •  Les microprocesseurs (1980)

Un outil dont l’utilisation se propage à un nombre croissant d’utilisateurs

Etape 2 : les télécommunications •  L’évolution de l’informatique catalyse les télécommunications •  Les lignes téléphoniques ne supportent que le signal analogique

TELEMATIQUE = TELEcommunications + inforMATIQUE

•  Numérisation des lignes téléphoniques : Modulation par impulsion et codage (MIC) ou PCM (Pulse Code Modulation) •  Cable, fibre optique, liaison hertzienne, satellite

1ère cohabitation données/son : utilisation d’un convertisseur ou MODulateur/DEModulateur : Le MODEM

Etape 3 : la communication

•  Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur

•  Le numérique est une opportunité pour les industries de la communication : - informatisation des procédés et techniques de travail, - élargissement des supports (compression de l’information = plus de place

aux médias) •  Mais également une menace : les frontières des différents secteurs s’estompent.

•  Le développement de la communication est directement le fruit d’innovations

L’écrit Le son L’image

manuscrits livre

presse radio disque dessin et peinture

cinéma photographie

télévision

Imprimerie Gutemberg

Phonographe Cros

Liaison hertzienne Hertz

Tube cathodique Edison, Senlecq

Du « tout numérique » au multimédia

•  MULTIMEDIA : élaboration de documents comprenant de MULTiples MEDIAS

De nouveaux types de produits et services émergent peu à peu

Nouveaux modes de représentation du réel

•  Synthèse, simulations, réalité virtuelle

Enrichissement et redimensionnement

de l’information

Encyclopédie : texte + image

+ commentaire oral + séquence vidéo

Synthèse : jeux vidéo

Presse électronique

Interactivité et navigation

Cours magistral Dialogue conversation

Sens multiples : texte et hypertexte

Enchaînement linéaire des idées

Assemblage d’explorations possibles autour d’une idée

Support technologique de l’émergence du multimédia

•  L’acquisition et la numérisation permettent la création des objets multimédia

•  Compression et codage réduisent la quantité de données de façon réversible et non réversible

•  L’objet multimédia peut être stocké sur un support ou utilisé comme un service

•  Le service multimédia nécessite des structures de transmission adaptées à des flux importants de données numériques

Création distribution Numérisation Codage compression

Stockage infrastructure

Émergence du multimédia

Commercialisation

produits services

Numérisation du son •  Le son est une information complexe car dynamique •  Analogique, à variations continues, on peut représenter le son comme un flux

d’ondes •  Étendue du spectre auditif : de 20Hz à 20kHz •  Bande passante du téléphone : entre 300Hz et 3400Hz •  Bande passante du disque CD : jusqu’à 20kHz

Conversion AN-NA •  Étape difficile : sensibilité au bruit et perturbations, coût élevé •  Instabilités temporelles : le jitter

•  du 16 au 24 bits : fiabilité limitée dans les bits de poids faibles

•  Repliement du spectre ou aliasing

Tops théoriques

Tops échantillons

-60dB

0dB

16 bits = 65536 niveaux (96dB) ~ 14 bits réels 24bits = 16777216 niveaux (144dB) ~ 21.22 bits réels

•  Dynamique limitée : problème de la saturation des signaux numériques

Multimédia

La parole

Mécanisme de la phonation

Production de la parole

Trois grandes étapes

La souflerie

Le voisement

La gestuelle articulatoire poumons

Cordes vocales

Conduit vocal et

fosses nasales

Les sons de la parole

Mécanismes de production

Vibration des cordes vocales

Turbulences de l’air dans le conduit vocal

Relâchement d’une occlusion dans le conduit vocal

Source de voisement

Sources de bruit

Caractéristiques acoustiques de la parole

Description phonétique

Établir des distinctions entre les unités de signification

Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots

[k] dans « qui » == [k] dans « cou »

Articulations différentes

même phonème en français

phonèmes différents en hongrois

Les phonèmes ne tiennent compte que des caractéristiques acoustiques pertinentes

pour les distinctions de signification

Les 36 phonèmes français

Classification en traits distinctifs Les phonèmes et les traits distinctifs sont des éléments abstraits

Liés aux éléments de signification. Ils ne spécifient pas Complètement le signal acoustique

nasalité

Degré d’ouverture Du conduit vocal Position de la constriction principale

Du conduit vocal

Protrusion des lèvres (arrondissement)

voisement Mode d’articulation

Position de la constriction principale (lieu d’articulation)

voyelles

consonnes

-  orales -  nasales

-  antérieures -  postérieures

- arrondies - non arrondies

-  voisées - non voisées - occlusif

- nasal - fricatif - glissant - liquide

- labiales - dentales - vélo-palatales

Audition

Analyse acoustique descriptive L’analyse fréquentielle

Équivalence des représentations Temps et fréquences

Exemple : le « la 440 Hz »

Signal de la parole

« She had your dark suit in greasy Wash water all year »

temps

temps

« Suit »

Spectre

« Suit »

Représentation spectrographique

Applications en parole

Reconnaissance de la parole Transmission

de la parole

Reconnaissance du locuteur

- IHM - Parole continue - Mots isolés - Locuteur

(Vérification) (identification)

- Téléphonie filaire - GSM, GPRS, UMTS - Transmissions audiovisuelles - Stockage, restitution de message vocaux

- IHM - Synthèse à partir du texte

(lecture automatique de messages écrits) (questionnement de bases de données) (alarmes dans les centres de surveillance) (aide aux handicapés) (etc.)

Pré-traitement pour la reconnaissance

Preacc. fenêtrage Codage Vecteurs acoustiques

Segmentation Découpage en trames signal

0 0.5 1 1.5 2 2.5 3 3.5

x 104

-1

-0.5

0

0.5

1

0 0.5 1 1.5 2 2.5 3 3.5

x 104

-1

-0.5

0

0.5

1

1.25 1.3 1.35 1.4 1.45 1.5 1.55

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0 50 100 150 200 250 300-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Élimination du bruit

Découpage en trames

acquisition

Détection parole / bruit

Variance court terme du mot parenthèse

Variance du signal à comparer avec la variance du bruit

Segmentation phonétique

1.25 1.3 1.35 1.4 1.45 1.5 1.55

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Découpage du signal en trames entrelacées

Occurrences Du même phonème

Phonème

Décision sur plusieurs trames

0 50 100 150 200 250 300-1

0

1

0 50 100 150 200 250 3000

20

40

0 50 100 150 200 250 300-0.2

0

0.2

0 50 100 150 200 250 3000

2

4

0 50 100 150 200 250 300-0.2

0

0.2

0 50 100 150 200 250 3000

1

2

trame

spectre

Pré-accentuation

Fenêtrage (Hamming)

0 50 100 150 200 250 300-0.1

-0.05

0

0.05

0.1

0.15

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12

Preacc. fenêtre Codage Vecteurs acoustiques

signal

Codages MFCC LPC FFT …

Codage LPC

a)  Conduit vocal b)  Modèle acoustique à

réflexion c)  Modélisation par

lignes électriques

Modèle du conduit vocal

Modélisation linéaire (LPC)

Coefficients LPC

Reconnaissance niveaux de complexité

•  Dépendance du locuteur

•  Mots isolés ou parole continue

•  Taille du vocabulaire

•  Conditions d’acquisition

Variabilité inter et intra-locuteur

Détection et reconnaissance de mots clés

Le degré de confusion augmente avec la taille

Dégradation rapide des performances

Robustesse des reconnaisseurs de parole

•  Bruits d’environnement •  Bruits corrélés au signal de parole (ex :reverb.)

•  Microphones, prise de son •  Bande passante fréquentielle limitée •  Élocution inhabituelle

Etapes de la reconnaissance

Acquisition des vecteurs acoustiques

Classification des vecteurs

Alignement temporel

Analyse syntaxique, sémantique, pragmatique

Hypothèses locales

Score global au niveau de la phrase

Contraintes vocabulaire, grammaire, sens

Acquisition et Codage

Méthodes de reconnaissance

•  Statistiques

•  Directes

•  Connexionnistes

•  Structurelles

Décision Bayésienne Chaînes de Markov cachées (HMM)

K-ppv et Distances Fonctions discriminantes

Modélisation Discrimination

Programmation dynamique (DTW)

Décision par les plus proches voisins

Aucune hypothèse sur la forme des classes ou sur celle de leurs séparatrices

Simple à mettre en oeuvre

Statistiquement efficace

Temps de calcul prohibitifs

Problème de la métrique

Méthodes structurelles : DTW

Classification phonétique

Étape intermédiaire (classification locale)

Etape entachée d’erreurs (variabilité spectrale importante)

Contraintes de niveau supérieur Nécessaires pour réduire les erreurs

Reconnaissance de mots

Reconnaissance de mots

Comparaison de séquences de vecteurs acoustiques

5000 6000 7000 8000 9000 10000 11000 12000 13000 14000-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Séquence de 59 trames 59 vecteurs acoustiques

« sept »

Reconnaissance de mots (suite)

1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6

x 104

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

« un »

Séquence de 25 trames 25 vecteurs acoustiques

Séquences de longueurs différentes

Distance entre chaînes : la distance d’édition

•  On note S(u,v) la substitution de u par v •  X.$ = $.x = x pour tout mot x •  Insertion = substitution de $ (S($,u)) •  Suppression = substitution par $ (S(u,$)) •  Matrice des coûts : C(u,v) : C(u,u) = 0 et C(u,v) > 0

La matrice des coûts permet de palier aux problèmes de mauvaise Segmentation si la différence de coût est faible pour une erreur donnée

Distance d’édition : algorithme

Calcul par récurrence d’une fonction D(i,j) : les distances cumulées

X = a1a2a3…an Y = b1b2b3…bm

X(i) = a1a2a3…ai Y(j) = b1b2b3…bj

X(0) = y(0) = $ D(n,m) = d(x,y) D(0,0) = d($,$) = 0

D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)

$ a a b c c b d e e a b b d $ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 a 1 0 1 2 3 4 5 6 7 8 9 10 11 12 b 2 1 1 1 2 3 4 5 6 7 8 9 10 11 c 3 2 2 2 1 2 3 4 5 6 7 8 9 10 b 4 3 3 2 2 2 2 3 4 5 6 7 8 9 d 5 4 4 3 3 3 3 2 3 4 5 6 7 8 e 6 5 5 4 4 4 4 3 2 3 4 5 6 7 e 7 6 6 5 5 5 5 4 3 2 3 4 5 6 b 8 7 7 6 6 6 5 5 4 3 3 3 4 5 d 9 8 8 7 7 7 6 5 5 4 4 4 4 4 a 10 9 8 8 8 8 7 6 6 5 4 5 5 5

Distance d’édition : exemple x = aabccbdeeabbd y=abcbdeebda Les coûts non nuls sont tous égaux à 1

Distance = 5

$ a a b a c $ 0 0.5 1 1.5 2 2.5 a 0.5 0 0.5 1 1.5 2 b 1 0.5 1 0.5 1 1.5 d 1.5 1 1.5 1 1.5 2

x = aabac y=abd

Distance d’édition : autre exemple

Coûts d’insertion/suppression : 0.5,

Coûts de substitution si symboles différents : 1, sinon 0

Distance = 2

Distance d’édition : les limites de cette métrique

• Limitation aux substitutions d’ordre 1 • Non prise en compte de paramètres numériques

On ne dispose que de l’alphabet des symboles pour représenter la réalité des formes

Distance d’édition avec attributs numériques :

Distance de Bellman :

D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)

D(i-1,j) + d(ai,bj) D(i,j) = min D(i,j-1) + d(ai,bj) D(i-1,j-1) + 2d(ai,bj)

C(ai,$) = || ai || C($,bj) = || bj || C(ai,bj) = || bj – ai ||

Exemple : d(ai,bj) = || bj – ai ||

Algorithme DTW (Dynamic Time Warping)

D(i-2,j-1) + 2d(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) + d(i,j) D(i-1,j-2) + 2d(i,j-1)

D(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) D(i-1,j-2)

D(i-1,j) D(i,j) = d(i,j) + min D(i,j-1) + d(i,j) D(i-1,j-1) 1

1 2

1

1

2

2 2

1 1 1

i-2

i-1

i j j-1 j-2

j j-1 j-2

j j-1 j-2

i-2

i-1

i

i-2

i-1

i

Bellman

Itakura

Distances locales

Distance euclidienne

Distance de Mahalanobis (Euclidienne pondérée : toutes les classes ont même matrice de covariance)

Distance d’Itakura (vecteurs LPC)

Le choix de la distance influence fortement la classification

Ex (problème des distances cumulées dans le temps): Bé, Cé, Dé, Gué, Té, Vé

Vers des métriques perceptives

Distances associées aux normes Ln

n = 1 (simple à évaluer)

n = 2 (euclidienne : la plus utilisée)

n = infini (tchebichef)

Problème des distances cumulées dans le temps

Distance de Mahalanobis

Prise en compte des densités de probabilité

Estimation des densités de probabilité

Méthode paramétrique : hypothèse gaussienne

Grand nombre d’exemples nécessaire pour l’estimation des moyennes et variances

d(a,b) = (b-a) Γ-1 (b-a)T

dM dE

mx my

Distance d’Itakura

Coefficients d’autocorrélation Du signal à reconnaître

Coefficients du filtre modélisant le signal à reconnaître

Coefficients du filtre modélisant le signal de référence

Distance d’Itakura (suite)

a = 1/A Erreur de prédiction

Signal de parole

A Signal de parole

Bruit blanc ou Peigne de Dirac

a = 1/A

b = 1/B

Signal de parole à reconnaître

Xb Erreurs de prédiction

Filtre inverse

DTW : contraintes

Longueur du mot de référence

Longueur du kème mot testé

Contraintes locales : prédécesseurs limités garantissant un chemin strictement gauche-droite

Contraintes globales : réduction de l’espace de recherche

Contraintes de monotonicité du chemin : Début en (1,1), fin en (N,J(k))

0 0.5 1 1.5 2 2.5 3 3.5

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

x 104

-1

0

1

1

2

3

4

5

6

7

8

Modèles

1 2 3 4 5 6 7 80

20

40

1 2 3 4 5 6 7 80

10

20

1 2 3 4 5 6 7 80

20

40

1 2 3 4 5 6 7 80

10

20

1 2 3 4 5 6 7 80

50

1 2 3 4 5 6 7 80

20

40

1 2 3 4 5 6 7 80

10

20

1 2 3 4 5 6 7 80

20

40

1

2

3

6

4

5

7

8

Les 8 modèles

Les 8 tests

Méthodes connexionnistes

Réseaux prédictifs

Réseaux MLP

Réseaux à poids partagés (TDNN)

Classification phonétique

Par discrimination Par modélisation

Trames codées

Réseau

phonème

Trames codées

Erreurs de prédiction

C4

C3

C2

C1

e2

e1

e3

e4


Erreurs de prédiction

C4

C3

C2

C1

e2

e1

e3

e4 Trames codées

classes


•  But de l’apprentissage : déterminer les paramètres des prédicteurs pour minimiser l’erreur de prédiction

•  Approche par modélisation : chaque réseau modélise un

phonème, un groupe de phonèmes ou un mot •  Reconnaissance : comparaison des traits acoustiques avec

Chacun des modèles par calcul de l’erreur de prédiction

MLP

Trames précédentes Trames suivantes

Trames acoustiques

Trames prédites

Matrice de distorsions

Performances en vérification du locuteur

multimédia...a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 preacc. fenêtre codage vecteurs acoustiques...

Documents