annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · annotations...
TRANSCRIPT
![Page 1: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/1.jpg)
Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants
japonaisdeFLEettraitementautomatique :perspectivesdidactiques
WorkInProgress…
SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae
Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).
IPFC2018– ParisMSH– 26-27novembre2018
![Page 2: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/2.jpg)
Plan
1)Lecorpus:objectifsetenjeux
2)Desannotationsminimalesàune
descriptionautomatisée
3)Perspectivesd’analyses
4)Perspectivesdidactiques
![Page 3: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/3.jpg)
1)Lecorpus:objectifsetenjeux
CLIJAF:Corpuslongitudinalinterphonologiqued’apprenantsjaponaisdefrançais (Detey,2011-2019)
Japanese SocietyforthePromotionofScience(JSPS)
Collaborateurs:Y.Kawaguchi(TUFS),M.Kondo(Waseda),H.Akihiro (TUFS),K.Sugiyama (SeinanGakuin),K.Kawashima (Fukuoka)
![Page 4: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/4.jpg)
1)Lecorpus:objectifsetenjeux
Volet1:– longitudinal(4sessionssur2ans)– apprenantsdébutants(A1.1-B1)– focussurlaprononciation– perception&production– parolenon-spontanée(partie1duprotocoleIPFC)
![Page 5: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/5.jpg)
1)Lecorpus:objectifsetenjeux
Volet2:– parolespontanée (partie2duprotocoleIPFC)– apprenantsdeniveauintermédiaire (- B2+)– extensionauxautresniveaux:lexique,syntaxe…
Question:Quellesdivergences(« erreurs »)persistantesàl’oral ?
Interfaceprononciation/lexique/grammairecf.difficultésdetranscription&codage:naturedela« divergence »
Finalité: didactiqueaiderlesapprenantsàrésoudrelesdivergencespersistantes
![Page 6: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/6.jpg)
1)Lecorpus:objectifsetenjeuxLecorpus:
Analysephonético-phonologique:ExploitationdeCLIJAF1&2(mots,texte,conversations)
Pourcetteprésentation:FocussurCLIJAF2– parolespontanée(conversations)
![Page 7: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/7.jpg)
1)Lecorpus:objectifsetenjeux
CLIJAF2:parolespontanée- Locuteurs:39(31F&8H)- Conversationsguidées:46- Conversationslibres:67- Durée:environ26h- Format:son+transcriptionorthographiquealignés
(Transcriber)
Sous-corpusWaseda+TUFSdanslaBDD- Nbremots:167172- Durée:18h33- Nbreannotations:56137
![Page 8: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/8.jpg)
Analysemultiniveauxd’uncorpusoral:énorme chantier…méthodologie, outils,RH…coûteux…+lesdéfisdutraitementd’uneL2!(e.g.FLLOC,Myles&Mitchell, http://www.flloc.soton.ac.uk/)
Approche didactique:- annotationsminimales: repérage desdivergencesdesurface- pointdevue del’enseignant deFLE:“divergences”et“modèles”
Méthodologie:- Transcriptionorthographique- Conventions adhoc(GARS,IPFC…)- Transcriber (simple,gratuit,testé)
2)Desannotationsminimales àunedescriptionautomatisée
![Page 9: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/9.jpg)
2)Desannotationsminimales àunedescriptionautomatisée
Annotationsmanuellesminimalesdesdivergences:
1) [v]_ou[c]ou[v/c]__modificationvocaliqueouconsonantiquesimpleoumultiple (sansprécision)
2) [e]_..._[xxx]:formesinacceptablestranscritestellesquellespuisformejugéesouhaitableparletranscripteur:[e]_à_[en]Allemagne, je[e]_vas_[vais]
3) [ac]_[]:formesinacceptablesauto-corrigées(dernier énoncé):jesuisallé[ac]_àAllemagneeuhjesuisalléenAllemagne_[]
![Page 10: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/10.jpg)
Exemple de séquence
![Page 11: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/11.jpg)
Traitement automatisépourunedescriptionàviséedidactique:PartenariatavecArchean Labs (L.Fontan&M.LeCoz)
- Unserveur destockageetdetraitement- Unedescriptionquantitativeducorpus- Unconcordanciertexte-son (didactique&recherche)- Uneinterfaced’évaluationpédagogique
2)Desannotationsminimales àunedescriptionautomatisée
![Page 12: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/12.jpg)
2)Desannotationsminimalesàunedescription automatisée:Fonctionnalités Recherche
![Page 13: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/13.jpg)
2)Desannotationsminimalesàunedescription automatiséeStatistiquesGlobales
![Page 14: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/14.jpg)
2)Desannotationsminimalesàunedescription automatiséeProfilsd’apprenants
![Page 15: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/15.jpg)
3)Perspectivesd’analyse
Caractéristiques:- Parapprenant:nbre&typed'erreurs- Inter-apprenants:erreursrécurrentes,parniveaux,partypedeconversation
- Longitudinales:2sessions
![Page 16: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/16.jpg)
3)Perspectivesd’analyse
Pourcentage d’erreurs en fonction du niveau de l’apprenant
![Page 17: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/17.jpg)
3)Perspectivesd’analyse
Evolution longitudinale du pourcentage d’erreurs
![Page 18: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/18.jpg)
3)Perspectivesd’analyse
Répartition des erreurs entre prononciation et autre pour 10 apprenants B2
Prononciation Autre
![Page 19: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/19.jpg)
Auniveauphonético-phonologique:apprentissagesemi-superviséavecThomasPellegrini (IRIT,Toulouse),ANRJeuneChercheurLUDAU(Lightly-supervisedandUnsupervisedDiscoveryofAudioUnitsusingDeepLearning):à positionetnaturedeladivergencesegmentale
3)Perspectivesd’analyse
![Page 20: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/20.jpg)
3)Perspectivesd’analyse
Approche:• Rechercheàpartirdelacibleversdesdivergences(correction)• Recherched’un itemdivergentetrécupérationducontexte• Recherched’une catégoriePDD(encours)
Intérêt:1) Adéquation lexicogrammaticale vs.Adéquation phonétique :
récupérationdusignalsonoreencontexteànaturedeladivergence:« du »/« du »
2) Doubleentrée: productionvsciblepossible
![Page 21: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/21.jpg)
4)PerspectivesdidactiquesDes« divergences »:générationd’activitésdidactiques:- Phonético-phonologiques- Lexicales- Morpho-syntaxiques- Discursives
ConnexionsavecCAPT-L2etLexpro- Profilphonologiquedesapprenants- Profillexicaldesapprenants
Enprojet:- Profilgrammaticaldesapprenants- Dimensiondiscursiveetsociolinguistique
à Personnalisationducontenudidactiqueselonleprofil
![Page 22: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/22.jpg)
Conclusion
Apportparrapportàunconcordancierstandard:- Évaluationdel’oral- Rapportentreformesproduitesetformesattendues(doubleentréederecherche)
Défis:1) Transcriptionorthographique:manuelle?2) Annotationminimale:manuelle?3) Multiplicitédesmodèles:degréd’acceptabilité?
Nécessitédecodagemultiple
Objectifultime:unsystèmedecorrectionautomatiquedelaparoleL2
à Besoindesystème(s)deréférence:- phonologiederéférence (CAPT-L2)- lexiquederéférence (Lexpro)- grammairederéférence (cf.correcteursgrammaticaux– maisdel’oral!)
![Page 23: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/23.jpg)
Remerciements
• Japanese SocietyforthePromotionofScience• Archean Technologies• Lesétudiantsducorpus• LaboratoirePraxiling UMR5267U.Montpellier3
![Page 24: Annotations minimales multi-niveaux d’un corpus de parole … · 2018-12-02 · Annotations minimales multi-niveaux d’un corpus de parole spontanée d’apprenants japonais de](https://reader030.vdocuments.mx/reader030/viewer/2022040303/5e91e545c7893a1d907a3f17/html5/thumbnails/24.jpg)
Annotationsminimalesmulti-niveauxd’uncorpusdeparolespontanéed’apprenants
japonaisdeFLEettraitementautomatique :perspectivesdidactiques
WorkInProgress…
SylvainDetey (U.Waseda,Japon),MaximeLeCoz(ArcheanTechnologies,France),LionelFontan(Archean Technologies,France),CorentinBarcat (TUFS,Japon),Yuji Kawaguchi(TUFS,Japon),Hisae
Akihiro (TUFS,Japon),Kaori Sugiyama (Seinan Gakuin U.,Japon)&NoriKondo(NUFS,Japon).
IPFC2018– ParisMSH– 26-27novembre2018