master 2 recherche aic & seti - limsi · représentations du signal audio exemple sur un signal...
TRANSCRIPT
Master 2 Recherche AIC & SETI Reconnaissance et interaction vocale
Quelques bases de traitement du signal
G. Richard
« Licence de droits d'usage"
http://formation.enst.fr/licences/pedago_sans.html
G. Richard 2
Le « traitement du Signal » dans la
reconnaissance vocale
Modèles acoustiques
signal de parole
Analyse Décodage
Modèles linguistiques
séquence de mots reconnue
G. Richard 3
Le « traitement du Signal » dans la
reconnaissance vocale
Modèles acoustiques
signal de parole
Analyse Décodage
Modèles linguistiques
séquence de mots reconnue
Capture du son
•Localisation de la source sonore
•Débruitage, déréverbération
•Séparation de sources
G. Richard 4
Le « traitement du Signal » dans la
reconnaissance vocale
Modèles acoustiques
signal de parole
Analyse Décodage
Modèles linguistiques
séquence de mots reconnue
Capture du son
•Localisation de la source sonore
•Débruitage, déréverbération
•Séparation de sources
Paramétrisation
•MFCC, LPCC,..
•DNN,…
G. Richard 5
Contenu
Objectif du cours:
• Présenter quelques bases du traitement du signal
Contenu
• Représentation de Fourier
• Échantillonnage
• Transformée en Z
• Transformée de Fourier Discrète
• Filtrage
• La représentation cepstrale
G. Richard 6
Représentation des signaux
Qu’est-ce qu’un signal ?
Signal déterministe:
Signal aléatoire
G. Richard 7
Représentation de Fourier
Séries de Fourier
Tout signal périodique x(t) de période T peut être
décomposé sous la forme d’une série de Fourier :
G. Richard 8
Formule de Parseval
Soit x(t) et y(t) deux signaux périodiques de période T
Soit Alors
(Exercice)
G. Richard 9
Formule de Parseval
Soit x(t) et y(t) deux signaux périodiques de période T
Soit Alors
En faisant n=0, on obtient
En faisant x(t) = y(t) on obtient
Interprétation: La puissance d’un signal est égale à la somme des puissances élémentaires de chacune de ses composantes.
Composante = signal « sinusoidal »
G. Richard 10
Représentation de Fourier (temps continu)
Soit x(t) appartenant à , la transformée de
Fourier existe et appartient à
G. Richard 11
Propriétés
Parseval
Spectre (ou densité spectrale d’énergie):
Exercice
Important ?
G. Richard 12
Exemple: Spectre de quel signal ?
G. Richard 13
Exemple: Spectre d’un segment de /i/
G. Richard
Représentation du signal
Soit un signal x(t) à valeurs continues dans le temps:
Soit x(nT) le signal échantillonné à des valeurs discrêtes t=nT
x(t)
t
x(n)=x(nT)
t
T
G. Richard 15
Échantillonnage: Formule de Poisson
Interprétation: Echantillonnage périodisation du spectre
G. Richard 16
Reconstruction
2 situations:
-B +B
1/T 2/T
1/T 2/T
G. Richard 17
Échantillonnage d’un signal à bande
illimitée
Nécessité de filtrer le signal analogique pour obtenir
un signal à bande limitée avant échantillonnage
G. Richard 18
Transformée en Z / TFTD
La transformée en Z d’un signal x(n) est donnée par:
avec
La Transformée de Fourier à Temps Discrêt (TFTD) est donnée
par:
est périodique de période 1
G. Richard 19
Quelques résultats
Le domaine de convergence Dc est une couronne circulaire
Si x(n) est de durée finie Dc est le plan tout entier
Causalité: si x(n) est nul à gauche (x(n)= 0 pour n<0) on a
• Exemple:
Re(z)
Im(z)
R2
R1
Dc
Converge pour
G. Richard 20
Quelques propriétés
Linéarité
Symétrie hermitienne
Convolution
Décalage fréquentiel
Décalage temporel (retard)
G. Richard 21
Transformée de Fourier Discrète (TFD)
Par définition, la TFTD est une fonction périodique de période 1.
En pratique, nous prenons N échantillons, et on discrétise
l’intervalle de fréquences [0-1] en L valeurs telles que:
On obtient:
La TFD est alors définie par les formules directe et inverse:
G. Richard 22
Relation TZ <-> TFD
Cela correspond à un échantillonnage de la transformée en z en
N points régulièrement espacés autour du cercle unité
Re(z)
Im(z)
N/2
G. Richard 23
Représentation temps-fréquence
Transformée de Fourier discrête
xn |Xk| Spectrogramme
G. Richard 24
Paramétrisation: paramètres spectraux
Paramétrisation spectrale: analyse d’un signal audio (d’après Laroche)
G. Richard
Description du signal de parole
Importance de la taille de la fenêtre d’analyse
Bande étroite Large bande
Spectrogrammes sur une voyelle /a/ avec un pitch montant
G. Richard
Spectrogramme des voyelles / a e i o u/
G. Richard 27
Représentations du signal audio
Exemple sur un signal audio: note Do (262 Hz) jouée
par un piano et un violon.
Signal temporel
Spectrogramme
D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of
Signal Processing, oct. 2011
G. Richard 28
Représentations du signal audio
Exploitation de propriétés perceptives: Echelles
fréquentielles non linéaires
• Transformée à « Q » constant
• Transformée temps- log(fréquence)
D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of
Signal Processing, oct. 2011
G. Richard 29
Notions de Filtrage
Système linéaire invariant dans le temps
Filtre est caractérisé par sa réponse impulsionnelle h(n) et sa fonction de transfert H(z)
H x(n) y(n)
Entrée =Excitation Sortie
La convolution permet de caractériser la transformation
entrée/sortie réalisée par un filtre linéaire invariant.
G. Richard 30
Notions de Filtrage (2)
Equation récurrente entrée/sortie (pour un filtre RIF)
Par transformée en Z:
Réponse en fréquence
Module Phase
G. Richard 31
Modèle source-filtre
enveloppe spectrale, source
Modèle de
Source
Modèle du
résonateur
Source Filtre
f0
f0
f0 xn yn
G. Richard 32
Echelle Mel
Correspond à une approximation de la sensation
psychologique de hauteur d’un son (Tonie)
Existence de formules analytiques:
Exemples:
• Gamme mel Gamme Hertz
32
G. Richard 33
Filtre en échelle Mel
Filtrage Mel (d’après Rabiner93)
Energie dans chaque bande
Sj SN S1
33
G. Richard 34
Représentation cepstrale
Intérêt
• Modèle source filtre de la parole
Modèle source filtre dans le domaine spectral
Cepstre (réél): somme de 2 termes
34
G. Richard 35
Représentation cepstrale (d’après Furui2001)
Exemples:
• de Spectres à court
terme (gauche)
• et de cepstre c()
(droite)
est homogène à un
temps et est appelé
quéfrence
35
G. Richard 36
Représentation cepstrale
Séparation de la contribution du conduit vocal et de
la source par liftrage
36
G. Richard 37
Représentation cepstrale
Contribution de la source
Contribution du conduit vocal
(hypothèse: filtre causal, stable, minimum de phase)
37
G. Richard 38
Représentation cepstrale
Contribution du conduit vocal
Développement en série
38
G. Richard 39
Représentation cepstrale
Exemples de liftres (d’après Calliope89)
Gaël RICHARD – SI340 – Parole - Paramétrisation 39
G. Richard 40
Paramétrisation MFCC
« Mel-Frequency Cepstral Coefficients »
40
G. Richard 41
Paramétrisation MFCC
Calcul des coefficients MFCC
Une implémentation classique:
• 13 Coefficients (sans C0)
• Filtres Mels espaces de 150 Mel (largeur de bandes
300 Mels)
• Utilisation des dérivées premières et secondes
• Soit des vecteurs de 39 paramètres acoustiques
41
G. Richard 42
Lissage cepstral
Estimation de l’enveloppe par le cepstre:
• Calcul du cepstre réel Cn, puis lifrage basses quéfrences
• Reconstruction de l’enveloppe spectrale d’amplitude E =FFT(Cn)
Gaël RICHARD – SI340 – Parole - Paramétrisation 42
G. Richard 43
Quels paramètres aujourd’hui pour la
reconnaissance avec DNN
MFCC toujours possible mais souvent remplacé par :
- Spectrogramme
- Mel-spectrogramme (plusieurs fenêtres successives autour de la
fenêtre courante comme entrée du DNN): le plus courant
- Des « bancs de filtres perceptifs »
- Un réseau spécifique pour des features discriminants
- … voir le signal de parole brut (mais pas encore aussi
performant)
G. Richard 44
Quels paramètres aujourd’hui pour la
reconnaissance avec DNN/CNN
• Exemple pour la détection de mots clés [Sainath15]
• Autre exemple avec des Réseaux Convolutionnels (CNN)
(Mel spectrogram)
[Sainath15]: T. Sainath, C. Parada, « Convolutional Neural Networks for Small-footprint Keyword
Spotting, in Proc. Of Interspeech 2015,
G. Richard 45
Un autre exemple pour la reconnaissance
du locuteur [Snyder17]
Chaque « embedding » peut
constituer des paramètres
(« features ») utilisés dans un
autre système de
classification
(MFCC)
[Snyder17]: D. Snyder & al. ,”Deep Neural Network Embeddings for Text-Independent Speaker Verification”, in
Proc. Of Interspeech 2017.
G. Richard 46
Compléments
Pour en savoir plus sur le traitement du signal:
• G. Blanchet, M. Charbit, « Signaux et images sous
Matlab », Ed. Hermès, 2001
• (existe en anglais chez ISTE, 2006)
G. Richard 47
Compléments
Quelques transparents supplémentaires pour le
théorème d’échantillonnage
G. Richard 48
Système linéaire invariant dans le temps
Soit x(t) un signal à énergie finie:
G. Richard 49
Échantillonnage
Soit x(n) la version échantillonnée de xa(t) :
Peut-on reconstruire xa(t) à partir de x(n) ?
En prenant la Transformée de Fourier
où
G. Richard 50
Échantillonnage (2)
Or est périodique:
Et est donc développable en série de Fourier
avec
G. Richard 51
Échantillonnage (3)
Or
Posons t=nT
posons
G. Richard 52
Reconstruction (2)
Sans perte d’information possible uniquement si
En choisissant
Formule de reconstruction
-B +B
G. Richard 53
Reconstruction pratique
Bloqueur d’ordre zéro