acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière dijana...

Acquisition automatique de « morphèmes acoustiques » pour

la compréhension langagière

Dijana PETROVSKA-DELACRETAZ travail en commun avec

Allen Gorin, Giuseppe Riccardi et Jerry Wright

[email protected]://www.tsi.enst.fr/~petrovsk

Conférence à l’ENST, le 17 mai 2001

2

Introduction et motivation

Progrès des sciences de l’information, mais interface homme-machine est toujours peu conviviale

téléphone - touches DTMF trop utilisées www - suites de clicks interminables

Parole est un moyen de communication familier ::moyen privilégié pour le dialogue homme-machine

Notre objectif ::dialoguer en langage spontané avec des machines

3

Méthodes actuelles =>=> besoin des corpus de parole annotés manuellement et spécifiques pour chaque tâche

Objectif =>=> développer des méthodes d’apprentissage automatique du vocabulaire, de la grammaire et de la sémantique à partir de corpus de parole sans transcriptions

Tâche difficile =>=> commencer avec un reconnaisseur phonétique

Evaluation =>=> unités apprises automatiquement, utilisés pour la classification d’appels téléphoniques dans la tâche « How May I Help You ?», développée à AT&T

4

Plan

1 Etat de l’art2 Base de données et pre-traitement3 Acquisition automatique de « morphèmes acoustiques » et leur caractérisation4 Détection de ces morphèmes 5 Evaluation expérimentale =>=> classification de requêtes téléphoniques6 Conclusions7 Perspectives

5

1 Etat de l’art

Olivier (1968 ) : acquisition automatique de mots et de la grammaire à partir du texte

Gorin, Levinson et Sankar (1994) : acquisition des unités lexicales à partir d’un flux de mots isolés

Deligne et Bimbot - 1997;Llyod-Thomas, Parris, Wright -1998 et Chollet, Cernocky, Constantinescu, Deligne, Bimbot -1999 acquisition automatique de séquences d’unités de longueur variable dans de la parole continue

Notre objectif: exploiter la parole et sa signification pour la compréhension du langage sans transcriptions

6

2. Base de données utilisée

Corpus « How may I help you ?» (HMIHY) : transactions téléphoniques classées par type d’appel;appels + actions associées(7462 apprentissage et 1000 test)

Reconnaisseur phonétique indépendant de la tâche :

Modèle de langage phono-tactique de Switchboard 1 (Automate Stochastique de multigrammes, max 6) Taux de reconnaissance, sur les données de test de HMIHY

44% de phones reconnus correctement dans le meilleur chemin 68% dans le treillis phonétique

ASR-phone-train et ASR-phone-test

7

Comme référence :

utilisation des transcriptions des appels en mots => transcr-word-train et -test

Evaluer nos algorithmes dans le cas idéal (reconnaisseur de phones parfait) : remplacer chaque mot transcrit par sa prononciation la plus probable, sans les silences ;

« calling card » = « K ao l ih ng K aa r D » => transcr-phone-train et –test

8

2.1 Caractérisation des données ASR-phone

9

3. Morphèmes acoustiques - définitions

Morphème acoustique f = forme acoustique associée à une action = séquence f de phones pi : f = p1 p2 … pn ;

Mesure de son utilité pour la reconnaissance est évaluée par la mesure de l’information mutuelle de ses composants : MI(f) MI (p1 p2 … pn-1 ; Pn)

Mesure de sa pertinence pour l’action associée, évaluée par le maximum de la distribution à posteriori, avec C =15 types d’appel de HMIHY:

fcPfP iCCi

maxmax

10

3.2 Morphèmes : schéma d’acquisition

Algorithme itératif

Seuil de sélection

Algorithme de regroupement

11

3.3 MI des séquences pré-sélectionnées

12

3.4 Pmax des séquences pré-sélectionnées

13

3.4 Séquences pertinentes

Séquences pré-sélectionnées: seuil sur Pmax >= 0.6 Exemples de séquences pertinentes, associées à collect :

Séquence Pmax Séquence pertinente

f1 0.81 K ax l eh K T

f2 0.91 K ax l eh K T K ao l

f3 0.91 bos K ax l eh K T K ao l

f4 0.97 K ax l eh K T K ao l eos

f5 0.87 K l ay K K

f6 0.92 K l ay K K ao l D

f7 0.91 P l ey s ih K l ay K

f8 0.94 P l ey s ih K l ay K K ao l

14

3.5 On arrive au « Morphème acoustique »

En utilisant une mesure de distorsion segmentale et semantique On les représente par des automates à états finis Exemple d’un morphème acoustique f (associé a collect) :

l Kay ao lK ao

aa

m

K

K

K

T

eh

eh

D

ax

15

4. Détection des morphèmes acoustiques

Classification des appels, basée sur la détection des morphèmes acoustiques

Meilleur chemin de la reco de phonèmes : 42% des appels, aucun morphème trouvé

=> classification impossible de ces appels => résultats non satisfaisants

=> les treillis du reconnaisseur phonétique

16

4.1 Détections dans les treillis de phonèmes

Treillis:

représentation des distributions d’hypothèses de reconnaissance alternatives (automates à états finis)

utilisés sous forme de : treillis complets ou treillis élagués, seuil r : ri =< r avec ri = pi / p1, et pi = prob. du chemin i

17

4.2 Exemple de treillis d’une élocution

Elocution = « collect call « Treillis élague correspondant :

l Kah laoK

l

D

axao

r

T

eh

K

18

4.3 Les treillis améliorent la détection

Expérience Pourcentage d’appels

sans détection

meilleur chemin 42 %

treillis élagué 12 %

treillis complet 6 %

19

4.4 Morphèmes acoustiques détectés

20

4.5 Statistiques d’un Morphème Acoustique Fc

Sa pertinence sur l’ensemble d’apprentissage P a(c | Fc) = 0.89

W = suite de mots correspondant à Fc dans transr-word-test

P (Fc )= proba. d’apparition du morphème dans ASR-phone-test

P (W) = proba. d’apparition de W , calculée dans transr-word-test

expérience r P (Fc) P(W)

meilleur chemin

1 0.03 0.07

treillis élagué 0.05

0.04 -

treillis complet

0.00

0.08-

21

4.6 Détections et pertinence de Fc

Expérience r P ( Fc | c) P ( c | Fc )

meilleur chemin 1.00 0.15 0.93

treillis élagué 0.05 0.20 0.90

treillis complet 0.00 0.31 0.71

P ( Fc | c) = proba de Fc étant donne l’appel ;

P ( c | Fc ) = pertinence effective sur l’ensemble de test ;

22

4.7 Comparaison avec les données transcrites

Expérience r P ( Fc | W) P ( c | )

meilleur chemin 1.00 0. 38 0.001

treillis élagué 0.05 0.53 0.004

treillis complet 0.00 0.66 0.035

P ( Fc | W) = proba de « détection correcte » de Fc ;

P ( Fc | ) = proba de « fausse détection » de Fc ;W

W

23

5. Evaluation expérimentale avec la classification d’appels téléphoniques

Utilité des morphèmes acoustiques évaluée pour la classification d’appels de la tâche « How may I help you ? »

Classifficateur actuel utilise seulement les meilleurs chemins Modification simple :

si détection dans meilleur chemin => OK sinon chercher dans le treillis jusqu’à la découverte d’une détection

considérer seulement ce chemin

si aucune détection => classer l’appel dans la classe poubelle « OTHER »

24

6. Résultats de la classification d’appels

25

6.2 Comparaison avec résultats de 1996

26

6. Conclusions

Nous avons cherché à « apprendre à comprendre » à partir d’une base de données sans transcriptions

Comment : par l’acquisition automatique de « morphèmes acoustiques »

Utilité évalué expérimentalement sur la tâche de classification d’appels téléphoniques HMIHY,

en cherchant dans les treillis, on réduit le taux de faux rejet de 59%, accompagné d’une réduction d’appels classés correctement de 5%

On atteint un point opérationnel de 86% classifications correctes, avec 50% de faux rejet

27

7. Perspectives

Optimiser l’algorithme d’acquisition des séquences pré-sélectionnées

Phase de test : exploiter des détections multiples dans les treillis

Utiliser des détections « floues »

Utiliser les treillis dans la phase d’apprentissage

acquisition automatique de « morphèmes acoustiques » pour la compréhension langagière dijana...

Documents

et p i

train et test page

parole et

mots et

machines page

regroupement page

perspectives page

d ax page