jep 2012 wrkshp

33
Analyse des performances de modèles de langage sub-lexicale pour des langues peu-dotées à morphologie riche Hadrien Gelas 1,2 , Solomon Teferra Abate 2 , Laurent Besacier 2 , François Pellegrino 1 1 Laboratoire DDL, CNRS - Université de Lyon, France 2 LIG, CNRS - Université Joseph Fourier Grenoble, France

Upload: tihtow

Post on 26-May-2015

428 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Jep 2012 wrkshp

Analyse des performances de

modèles de langage sub-lexicale

pour des langues peu-dotées à

morphologie riche

Hadrien Gelas1,2, Solomon Teferra Abate2, Laurent Besacier2, François Pellegrino1

1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France

Page 2: Jep 2012 wrkshp

1 2 3

Introduction

Segmentation

des données

textuelles

Résultats

Page 3: Jep 2012 wrkshp

Introduction

1

Page 4: Jep 2012 wrkshp

333

Amharique Langue Sémitique

Page 5: Jep 2012 wrkshp

333

Swahili Langue Bantu

Page 6: Jep 2012 wrkshp

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Reconnaissance Automatique de la

Parole (RAP)

Page 7: Jep 2012 wrkshp

J  

"r l

r l

AMH : 20h de parole lue

SWH : 2h30 de parole lue

+ 10h de broadcast news

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Page 8: Jep 2012 wrkshp

J  

"r l

r l

65k mots les plus fréquents

pour les 2 langues

Ressources en RAP

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Page 9: Jep 2012 wrkshp

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

AMH : 2.3M de mots

SWH : 28M de mots

Page 10: Jep 2012 wrkshp

Amharique et swahili

Morphologie riche

Page 11: Jep 2012 wrkshp

Morphologie Riche en swahili

English They will not tell you

Page 12: Jep 2012 wrkshp

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Page 13: Jep 2012 wrkshp

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Segm. ha-wa-ta-ku-ambi-e-ni

Gloss NEG-SM2-FUT-OM2-tell-FIN-PL

Page 14: Jep 2012 wrkshp

Morphologie Riche et RAP [Creutz et al., 2007]

Page 15: Jep 2012 wrkshp

Morphologie Riche et RAP

Faible couverture lexicale OOV% élevé  

3   Segmentation des mots en sous-unités !

Page 16: Jep 2012 wrkshp

Segmentation des données

2

3 approches et

3 étiquetages

Page 17: Jep 2012 wrkshp

Approche #1

Approche non-supervisée

(Morfessor), guidée par les

données.

liste de mots liste de morphes 3  

Page 18: Jep 2012 wrkshp

Approche #2

Approche supervisée, nécessite un

corpus d’apprentissage

manuellement segmenté.

liste de mots liste de morphèmes

3  

Page 19: Jep 2012 wrkshp

Approche #3

Découpage en syllabe à partir de

règles suivant les contraintes

phonologiques et structurelles des

langues respectives

liste de mots liste de syllabes

3  

Page 20: Jep 2012 wrkshp

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

On apprend des modèles de

langage à partir des corpus

segmentés en sous-unités

Page 21: Jep 2012 wrkshp

J  

"r l

r l

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Nécessite de reconstruire les

sorties au niveau mot !

Page 22: Jep 2012 wrkshp

Etiquetage #1

_AFX : Une frontière (MB) est a joutée

à la gauche (ou droite) de la

segmentation laissant la « racine »

isolé.

ki tabu kiMB tabu kitabu 3   3  

Page 23: Jep 2012 wrkshp

Etiquetage #2

_ALL : Une frontière (MB) est a joutée

de chaque côté de la segmentation.

Distinguant ainsi chaque racine par

sa position (ROOT, MBROOT, ROOTMB, MBROOTMB)

ki tabu kiMB MBtabu kitabu 3   3  

Page 24: Jep 2012 wrkshp

Etiquetage #3

_POS : Pour les syllabes, nous avons

a joutés à la syllabe la position de la

syllabe dans le mot.

ki ta bu 1ki 2ta 3bu kitabu 3   3  

Page 25: Jep 2012 wrkshp

Résultats (WER)

"r l

r l

Sorties texte J  3

Dictionnaire

prononciation Modèles

acoustiques

Modèles

de langage

Page 26: Jep 2012 wrkshp

Résultats swahili (WER)

Page 27: Jep 2012 wrkshp

Résultats amharique (WER)

Page 28: Jep 2012 wrkshp

Résultats (OOV %)

Page 29: Jep 2012 wrkshp

Conclusion

RAP : langues à morphologie riche

Mots Sous-unités = Amélioration du WER% = Amélioration du OOV%

Si segmentation appropriée !

3  

Page 30: Jep 2012 wrkshp

Récapitulatif Influence sur performances = 3 paramètres

#1 : Longueur couverte par n-gram si suffisante…

#2 : Couverture lexicale si suffisante…

#3 : Précision des contextes

Page 32: Jep 2012 wrkshp

19.17

12.46

10.28 11.36

1.61

Word-65k Word-200k Word-400k Morf-65k Morf-200k

Résultats swahili (TYPE OOV %)

Page 33: Jep 2012 wrkshp

Comparaison – swahili approches et étiquetages