master 2 recherche aic & seti - limsi · représentations du signal audio exemple sur un signal...

Master 2 Recherche AIC & SETI Reconnaissance et interaction vocale

Quelques bases de traitement du signal

G. Richard

« Licence de droits d'usage"

http://formation.enst.fr/licences/pedago_sans.html

G. Richard 2

Le « traitement du Signal » dans la

reconnaissance vocale

Modèles acoustiques

signal de parole

Analyse Décodage

Modèles linguistiques

séquence de mots reconnue

G. Richard 3




signal de parole

Analyse Décodage



Capture du son

•Localisation de la source sonore

•Débruitage, déréverbération

•Séparation de sources

G. Richard 4




signal de parole

Analyse Décodage



Capture du son

•Localisation de la source sonore

•Débruitage, déréverbération

•Séparation de sources

Paramétrisation

•MFCC, LPCC,..

•DNN,…

G. Richard 5

Contenu

Objectif du cours:

• Présenter quelques bases du traitement du signal

Contenu

• Représentation de Fourier

• Échantillonnage

• Transformée en Z

• Transformée de Fourier Discrète

• Filtrage

• La représentation cepstrale

G. Richard 6

Représentation des signaux

Qu’est-ce qu’un signal ?

Signal déterministe:

Signal aléatoire

G. Richard 7

Représentation de Fourier

Séries de Fourier

Tout signal périodique x(t) de période T peut être

décomposé sous la forme d’une série de Fourier :

G. Richard 8

Formule de Parseval

Soit x(t) et y(t) deux signaux périodiques de période T

Soit Alors

(Exercice)

G. Richard 9

Formule de Parseval

Soit x(t) et y(t) deux signaux périodiques de période T

Soit Alors

En faisant n=0, on obtient

En faisant x(t) = y(t) on obtient

Interprétation: La puissance d’un signal est égale à la somme des puissances élémentaires de chacune de ses composantes.

Composante = signal « sinusoidal »

G. Richard 10

Représentation de Fourier (temps continu)

Soit x(t) appartenant à , la transformée de

Fourier existe et appartient à

G. Richard 11

Propriétés

Parseval

Spectre (ou densité spectrale d’énergie):

Exercice

Important ?

G. Richard 12

Exemple: Spectre de quel signal ?

G. Richard 13

Exemple: Spectre d’un segment de /i/

G. Richard

Représentation du signal

Soit un signal x(t) à valeurs continues dans le temps:

Soit x(nT) le signal échantillonné à des valeurs discrêtes t=nT

x(t)

t

x(n)=x(nT)

t

T

G. Richard 15

Échantillonnage: Formule de Poisson

Interprétation: Echantillonnage périodisation du spectre

G. Richard 16

Reconstruction

2 situations:

-B +B

1/T 2/T

1/T 2/T

G. Richard 17

Échantillonnage d’un signal à bande

illimitée

Nécessité de filtrer le signal analogique pour obtenir

un signal à bande limitée avant échantillonnage

G. Richard 18

Transformée en Z / TFTD

La transformée en Z d’un signal x(n) est donnée par:

avec

La Transformée de Fourier à Temps Discrêt (TFTD) est donnée

par:

est périodique de période 1

G. Richard 19

Quelques résultats

Le domaine de convergence Dc est une couronne circulaire

Si x(n) est de durée finie Dc est le plan tout entier

Causalité: si x(n) est nul à gauche (x(n)= 0 pour n<0) on a

• Exemple:

Re(z)

Im(z)

R2

R1

Dc

Converge pour

G. Richard 20

Quelques propriétés

Linéarité

Symétrie hermitienne

Convolution

Décalage fréquentiel

Décalage temporel (retard)

G. Richard 21

Transformée de Fourier Discrète (TFD)

Par définition, la TFTD est une fonction périodique de période 1.

En pratique, nous prenons N échantillons, et on discrétise

l’intervalle de fréquences [0-1] en L valeurs telles que:

On obtient:

La TFD est alors définie par les formules directe et inverse:

G. Richard 22

Relation TZ <-> TFD

Cela correspond à un échantillonnage de la transformée en z en

N points régulièrement espacés autour du cercle unité

Re(z)

Im(z)

N/2

G. Richard 23

Représentation temps-fréquence

Transformée de Fourier discrête

xn |Xk| Spectrogramme

G. Richard 24

Paramétrisation: paramètres spectraux

Paramétrisation spectrale: analyse d’un signal audio (d’après Laroche)

G. Richard

Description du signal de parole

Importance de la taille de la fenêtre d’analyse

Bande étroite Large bande

Spectrogrammes sur une voyelle /a/ avec un pitch montant

G. Richard

Spectrogramme des voyelles / a e i o u/

G. Richard 27

Représentations du signal audio

Exemple sur un signal audio: note Do (262 Hz) jouée

par un piano et un violon.

Signal temporel

Spectrogramme

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

G. Richard 28

Représentations du signal audio

Exploitation de propriétés perceptives: Echelles

fréquentielles non linéaires

• Transformée à « Q » constant

• Transformée temps- log(fréquence)

D’après M. Mueller & al. « Signal Processing for Music Analysis, IEEE Trans. On Selected topics of

Signal Processing, oct. 2011

G. Richard 29

Notions de Filtrage

Système linéaire invariant dans le temps

Filtre est caractérisé par sa réponse impulsionnelle h(n) et sa fonction de transfert H(z)

H x(n) y(n)

Entrée =Excitation Sortie

La convolution permet de caractériser la transformation

entrée/sortie réalisée par un filtre linéaire invariant.

G. Richard 30

Notions de Filtrage (2)

Equation récurrente entrée/sortie (pour un filtre RIF)

Par transformée en Z:

Réponse en fréquence

Module Phase

G. Richard 31

Modèle source-filtre

enveloppe spectrale, source

Modèle de

Source

Modèle du

résonateur

Source Filtre

f0

f0

f0 xn yn

G. Richard 32

Echelle Mel

Correspond à une approximation de la sensation

psychologique de hauteur d’un son (Tonie)

Existence de formules analytiques:

Exemples:

• Gamme mel Gamme Hertz

32

G. Richard 33

Filtre en échelle Mel

Filtrage Mel (d’après Rabiner93)

Energie dans chaque bande

Sj SN S1

33

G. Richard 34

Représentation cepstrale

Intérêt

• Modèle source filtre de la parole

Modèle source filtre dans le domaine spectral

Cepstre (réél): somme de 2 termes

34

G. Richard 35

Représentation cepstrale (d’après Furui2001)

Exemples:

• de Spectres à court

terme (gauche)

• et de cepstre c()

(droite)

est homogène à un

temps et est appelé

quéfrence

35

G. Richard 36


Séparation de la contribution du conduit vocal et de

la source par liftrage

36

G. Richard 37


Contribution de la source

Contribution du conduit vocal

(hypothèse: filtre causal, stable, minimum de phase)

37

G. Richard 38


Contribution du conduit vocal

Développement en série

38

G. Richard 39


Exemples de liftres (d’après Calliope89)

Gaël RICHARD – SI340 – Parole - Paramétrisation 39

G. Richard 40

Paramétrisation MFCC

« Mel-Frequency Cepstral Coefficients »

40

G. Richard 41

Paramétrisation MFCC

Calcul des coefficients MFCC

Une implémentation classique:

• 13 Coefficients (sans C0)

• Filtres Mels espaces de 150 Mel (largeur de bandes

300 Mels)

• Utilisation des dérivées premières et secondes

• Soit des vecteurs de 39 paramètres acoustiques

41

G. Richard 42

Lissage cepstral

Estimation de l’enveloppe par le cepstre:

• Calcul du cepstre réel Cn, puis lifrage basses quéfrences

• Reconstruction de l’enveloppe spectrale d’amplitude E =FFT(Cn)

Gaël RICHARD – SI340 – Parole - Paramétrisation 42

G. Richard 43

Quels paramètres aujourd’hui pour la

reconnaissance avec DNN

MFCC toujours possible mais souvent remplacé par :

- Spectrogramme

- Mel-spectrogramme (plusieurs fenêtres successives autour de la

fenêtre courante comme entrée du DNN): le plus courant

- Des « bancs de filtres perceptifs »

- Un réseau spécifique pour des features discriminants

- … voir le signal de parole brut (mais pas encore aussi

performant)

G. Richard 44

Quels paramètres aujourd’hui pour la

reconnaissance avec DNN/CNN

• Exemple pour la détection de mots clés [Sainath15]

• Autre exemple avec des Réseaux Convolutionnels (CNN)

(Mel spectrogram)

[Sainath15]: T. Sainath, C. Parada, « Convolutional Neural Networks for Small-footprint Keyword

Spotting, in Proc. Of Interspeech 2015,

G. Richard 45

Un autre exemple pour la reconnaissance

du locuteur [Snyder17]

Chaque « embedding » peut

constituer des paramètres

(« features ») utilisés dans un

autre système de

classification

(MFCC)

[Snyder17]: D. Snyder & al. ,”Deep Neural Network Embeddings for Text-Independent Speaker Verification”, in

Proc. Of Interspeech 2017.

G. Richard 46

Compléments

Pour en savoir plus sur le traitement du signal:

• G. Blanchet, M. Charbit, « Signaux et images sous

Matlab », Ed. Hermès, 2001

• (existe en anglais chez ISTE, 2006)

G. Richard 47

Compléments

Quelques transparents supplémentaires pour le

théorème d’échantillonnage

G. Richard 48

Système linéaire invariant dans le temps

Soit x(t) un signal à énergie finie:

G. Richard 49

Échantillonnage

Soit x(n) la version échantillonnée de xa(t) :

Peut-on reconstruire xa(t) à partir de x(n) ?

En prenant la Transformée de Fourier

où

G. Richard 50

Échantillonnage (2)

Or est périodique:

Et est donc développable en série de Fourier

avec

G. Richard 51

Échantillonnage (3)

Or

Posons t=nT

posons

G. Richard 52

Reconstruction (2)

Sans perte d’information possible uniquement si

En choisissant

Formule de reconstruction

-B +B

G. Richard 53

Reconstruction pratique

Bloqueur d’ordre zéro

master 2 recherche aic & seti - limsi · représentations du signal audio exemple sur un signal...

Documents