![Page 1: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/1.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Le traitement automatique des langues peudotees
Le cas de l’occitan
Marianne Vergez-Couret - Assaf Urieli
UE TAL - Master 2
CLLE-ERSS - UMR 5263Universite de Toulouse
and
Joliciel InformatiqueFoix, France
20 octobre 2014
Vergez-Couret - Urieli CLLE-ERSS TalOc 1 / 59
![Page 2: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/2.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Table of contents
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
2 BaTelOc
3 Langues peu dotees dans RESTAURE
4 Nos travauxOCRAnalyse morphosyntaxique
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 2 / 59
![Page 3: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/3.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan
1. Occitan
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
Vergez-Couret - Urieli CLLE-ERSS TalOc 3 / 59
![Page 4: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/4.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Contexte
Table of Contents
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
2 BaTelOc
3 Langues peu dotees dans RESTAURE
4 Nos travauxOCRAnalyse morphosyntaxique
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 4 / 59
![Page 5: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/5.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Contexte
Situation
Situation et contexte politique
• Langue romane• Organisee en dialectes• Couvrant 8 regions administratives• Pas de statut officiel en France
(Extrait de Diga-me, diag-li, Vent Terral, Enegas)
Vergez-Couret - Urieli CLLE-ERSS TalOc 5 / 59
![Page 6: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/6.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Contexte
Contexte sociolinguistique
Contexte sociolinguistique
• Nombre de locuteurs : environ 500 000 sur une populationgenerale de 15 millions (3%)
• Enquete en Midi-Pyrenees : Natifs ou Bilingues : 4% ;Niveau intermediaire : 14% ; Locuteurs passifs : 32%
• Enseignement
• Presence dans les medias (presse, web, radio, tele)
• Reseaux associatifs
Vergez-Couret - Urieli CLLE-ERSS TalOc 6 / 59
![Page 7: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/7.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Contexte
Developpement numerique de l’occitan
Developpement numerique de l’occitan
• Principaux acteurs (Formation Diagnostic numericoccitan)
• Lo congres permanent de la lenga occitana (dictionnaire enligne, conjugueur, corpus interrogeable via unconcordancier)
• CIRDOC (Occitanica, mediatheque numerique occitane)• Les medias (presse, radio, tele)
• Besoins• OCR (reconnaissance d’ecriture (manuscrit et tapuscrit))• Traduction automatique• Synthese vocale
Vergez-Couret - Urieli CLLE-ERSS TalOc 7 / 59
![Page 8: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/8.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Traitement automatique des langues peu dotees
Table of Contents
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
2 BaTelOc
3 Langues peu dotees dans RESTAURE
4 Nos travauxOCRAnalyse morphosyntaxique
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 8 / 59
![Page 9: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/9.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Traitement automatique des langues peu dotees
Un veritable defi pour le TAL
• Faible rentabilite financiere de l’informatisation qui necompense pas les coups de developpement considerables(humains et financiers)
• Systemes robustes pour gerer le manque de ressources etla variation
... et pour l’occitan
• Assurer la collecte des donnees, utiliser des formatsnormalises pour diffusion, perennite, reutilisabilite
• Crucial pour la sauvegarde, la transmission etl’enseignement de l’occitan
• Enrichir les recherches en sciences humaines et sociales(linguistique, sociologie, litterature, histoire)
Vergez-Couret - Urieli CLLE-ERSS TalOc 9 / 59
![Page 10: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/10.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Particularites de l’occitan
Table of Contents
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
2 BaTelOc
3 Langues peu dotees dans RESTAURE
4 Nos travauxOCRAnalyse morphosyntaxique
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 10 / 59
![Page 11: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/11.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Particularites de l’occitan
Langue ecrite
• 1000 ans de litterature
• Pas de standardisation pour la langue dans son ensemblemais emergence de formes plus ou moins standardiseespour chaque dialecte
• Plusieurs systemes graphiques :• Moyen-Age : graphie des troubadours• 19eme siecle : graphies inspirees de la graphie francaise• 20eme siecle : graphie classique
Vergez-Couret - Urieli CLLE-ERSS TalOc 11 / 59
![Page 12: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/12.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Particularites de l’occitan
Langue romane
Langue romaneFrancais Italiano Castillano Portugues Catala Occitan
(Lengadocian)
mouche mosca mosca mosca mosca moscaamie amica amiga amiga amiga amigaamour amore amor amor amor amorchevre capra cabra cabra cabra cabrachateau castello castillo castelo castell casteltable tavolo mesa mesa taula taula
Vergez-Couret - Urieli CLLE-ERSS TalOc 12 / 59
![Page 13: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/13.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Particularites de l’occitan
Varietes dialectales
Varietes dialectalesLengadocian Auvernhat Gascon Lemosin Provencau Vivaroaupenc
mosca moscha mosca moscha mosca moissaamiga amia amiga amiga mia amiaamor amor amor amor amor amorcabra chabra craba chabra cabra chabracastel chastel casteth chasteu casteu chasteutaula tala/taula taula taula taula taulanuech/nueit neut/nueit neit/nueit nuech nuech nuech/nuoch /nueit/neit
/net
Vergez-Couret - Urieli CLLE-ERSS TalOc 13 / 59
![Page 14: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/14.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Occitan Particularites de l’occitan
Variantes graphiques
Variantes graphiquesgniu, gnoch, gnue, ne, nech, nei, neit, net, neyt, net, neyt, neit,net, neu, neuit, neut, ney, neyt, nie, niech, nieu, nio, nioch, niu,niue, niuech, niuit, noeyt, not, nou, noueit, nue, nuech, nue,nuech, nueit, nuet, nueyt, nuyt
Vergez-Couret - Urieli CLLE-ERSS TalOc 14 / 59
![Page 15: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/15.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
2. BaTelOc
2 BaTelOc
Vergez-Couret - Urieli CLLE-ERSS TalOc 15 / 59
![Page 16: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/16.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc (dirige par Myriam Bras)
Motivations
• Besoin de ressources pour travailler sur l’occitan
• Se constituer son propre corpus
• Construire une base textuelle pour l’occitan
Vergez-Couret - Urieli CLLE-ERSS TalOc 16 / 59
![Page 17: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/17.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc
Objectifs
• Etape 1• Rassembler des oeuvres ecrites de differents genres, des
epoques modernes et contemporaines• Accueillant toute la variation (dialectale et graphique)
possible
• Etape 2• Creation d’outils pour la selection des corpus et
l’exploration des textes (concordancier)
• Etape 3• Enrichir d’annotations linguistiques
Vergez-Couret - Urieli CLLE-ERSS TalOc 17 / 59
![Page 18: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/18.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc
Objectifs
• Etape 1• Rassembler des oeuvres ecrites de differents genres, des
epoques modernes et contemporaines• Accueillant toute la variation (dialectale et graphique)
possible
• Etape 2• Creation d’outils pour la selection des corpus et
l’exploration des textes (concordancier)
• Etape 3• Enrichir d’annotations linguistiques
Vergez-Couret - Urieli CLLE-ERSS TalOc 17 / 59
![Page 19: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/19.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc
Objectifs
• Etape 1• Rassembler des oeuvres ecrites de differents genres, des
epoques modernes et contemporaines• Accueillant toute la variation (dialectale et graphique)
possible
• Etape 2• Creation d’outils pour la selection des corpus et
l’exploration des textes (concordancier)
• Etape 3• Enrichir d’annotations linguistiques
Vergez-Couret - Urieli CLLE-ERSS TalOc 17 / 59
![Page 20: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/20.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc
Strategies pour la constitution de la base
• Commencer par les textes deja numerises, puis remonterdans le temps (scan et OCR)
• Codage XML (reutilisabilite)
• Batir des partenariats avec le milieu occitan (editeurs,bibliotheques virtuelles...)
Vergez-Couret - Urieli CLLE-ERSS TalOc 18 / 59
![Page 21: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/21.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc
Presentation
• Petite base (environ 60 textes, 2 millions de mots)
• Genres : roman, conte, poesie, essai, memoires
• Outils pour construire un corpus de travail
• Concordancier
• Sortie prevue printemps 2015
Vergez-Couret - Urieli CLLE-ERSS TalOc 19 / 59
![Page 22: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/22.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
BaTelOc
BaTelOc
Strategies pour l’enrichissement avec des annotationslinguistiques
• Commencer par l’analyse morphosyntaxique
• Annotation d’un sous-ensemble de la base (coherent d’unpoint de vue dialectal)
• Etape 1 : Avec des outils existants (cf. Apertium)
• Etape 2 : Avec une plateforme generique d’entraınementpar apprentissage supervise
Vergez-Couret - Urieli CLLE-ERSS TalOc 20 / 59
![Page 23: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/23.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Langues peu dotees dans RESTAURE
3. Langues peu dotees dans RESTAURE
3 Langues peu dotees dans RESTAURE
Vergez-Couret - Urieli CLLE-ERSS TalOc 21 / 59
![Page 24: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/24.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Langues peu dotees dans RESTAURE
Strategie globale
• Travailler avec les autres langues peu dotees
• RESTAURE : Ressources informatisees et TraitementAUtomatique des langues REgionales de France
• Alsacien, Occitan, Picard
• Mutualiser les outils
• Mutualiser les experiences
Vergez-Couret - Urieli CLLE-ERSS TalOc 22 / 59
![Page 25: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/25.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Langues peu dotees dans RESTAURE
Objectifs
Objectifs
• Acquisition et normalisation de ressources (corpus,lexiques, dictionnaires).
• Ressources representant un ensemble de varietes le pluslarge possible (genre, dialecte, graphie)
• Scan de textes imprimes et ocerisation• Encoder les ressources en suivant les formats standards
• Developpement d’outils de TAL• OCR,• Segmentation des textes en phrases et en mots,• Analyse morphosyntaxique,• Lemmatisation et normalisation,• Reconnaissance des entites nommees• Desambiguısation du sens des mots pour la traduction.
Vergez-Couret - Urieli CLLE-ERSS TalOc 23 / 59
![Page 26: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/26.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Langues peu dotees dans RESTAURE
Methodes
Methodes
• Adapter les outils des langues proches
• Adapter les ressources des langues proches
• Meme chose pour les dialectes
Vergez-Couret - Urieli CLLE-ERSS TalOc 24 / 59
![Page 27: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/27.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Langues peu dotees dans RESTAURE
Nos travaux
• En utilisant des methodes par apprentissage supervise
• Laboratoire experimental pour les langues peu dotees
• Ou mettre l’effort ? (constitution et gestion des ressources)
Vergez-Couret - Urieli CLLE-ERSS TalOc 25 / 59
![Page 28: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/28.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux
4. Nos travaux
4 Nos travauxOCRAnalyse morphosyntaxique
Vergez-Couret - Urieli CLLE-ERSS TalOc 26 / 59
![Page 29: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/29.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Table of Contents
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
2 BaTelOc
3 Langues peu dotees dans RESTAURE
4 Nos travauxOCRAnalyse morphosyntaxique
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 27 / 59
![Page 30: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/30.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Principes
OCR - Principes
• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli
• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb
• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes
et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)
Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59
![Page 31: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/31.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Principes
OCR - Principes
• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli
• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb
• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes
et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)
Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59
![Page 32: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/32.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Principes
OCR - Principes
• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli
• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb
• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes
et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)
Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59
![Page 33: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/33.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Principes
OCR - Principes
• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli
• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb
• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes
et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)
Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59
![Page 34: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/34.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Principes
OCR - Principes
• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli
• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb
• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes
et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)
Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59
![Page 35: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/35.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Principes
OCR - Principes
• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli
• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb
• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes
et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)
Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59
![Page 36: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/36.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Annotation OCR
Annotation OCR avec JochreWeb
Vergez-Couret - Urieli CLLE-ERSS TalOc 29 / 59
![Page 37: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/37.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 1 - Segmentation
Analyse OCR Etape 1 - Segmentation
Vergez-Couret - Urieli CLLE-ERSS TalOc 30 / 59
![Page 38: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/38.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 2 - Reconnaissance des lettres
Analyse OCR Etape 2 - Reconnaissance des lettres
• Apprentissage automatique supervise
• Annotation du corpus d’apprentissage sur JochreWeb
• Entraınement d’un modele statistique par langue
• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une
grille)• Descripteurs specialises (pour distinguer deux lettres
proches)
Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59
![Page 39: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/39.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 2 - Reconnaissance des lettres
Analyse OCR Etape 2 - Reconnaissance des lettres
• Apprentissage automatique supervise
• Annotation du corpus d’apprentissage sur JochreWeb
• Entraınement d’un modele statistique par langue
• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une
grille)• Descripteurs specialises (pour distinguer deux lettres
proches)
Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59
![Page 40: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/40.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 2 - Reconnaissance des lettres
Analyse OCR Etape 2 - Reconnaissance des lettres
• Apprentissage automatique supervise
• Annotation du corpus d’apprentissage sur JochreWeb
• Entraınement d’un modele statistique par langue
• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une
grille)• Descripteurs specialises (pour distinguer deux lettres
proches)
Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59
![Page 41: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/41.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 2 - Reconnaissance des lettres
Analyse OCR Etape 2 - Reconnaissance des lettres
• Apprentissage automatique supervise
• Annotation du corpus d’apprentissage sur JochreWeb
• Entraınement d’un modele statistique par langue
• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une
grille)• Descripteurs specialises (pour distinguer deux lettres
proches)
Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59
![Page 42: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/42.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 2 - Reconnaissance des lettres
Analyse OCR Etape 2 - Reconnaissance des lettres
• Apprentissage automatique supervise
• Annotation du corpus d’apprentissage sur JochreWeb
• Entraınement d’un modele statistique par langue
• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une
grille)• Descripteurs specialises (pour distinguer deux lettres
proches)
Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59
![Page 43: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/43.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 2 - Reconnaissance des lettres
Analyse OCR Etape 2 - Reconnaissance des lettres
• Apprentissage automatique supervise
• Annotation du corpus d’apprentissage sur JochreWeb
• Entraınement d’un modele statistique par langue
• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une
grille)• Descripteurs specialises (pour distinguer deux lettres
proches)
Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59
![Page 44: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/44.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 3 - Correction (Reranking)
Analyse OCR Etape 3 - Correction (Reranking)
• Recherche par faisceau : les n analyses les plus probables
• Utilisation du lexique pour � reranking �
• Possibilite de prendre en compte la frequence
Vergez-Couret - Urieli CLLE-ERSS TalOc 32 / 59
![Page 45: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/45.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 3 - Correction (Reranking)
Analyse OCR Etape 3 - Correction (Reranking)
• Recherche par faisceau : les n analyses les plus probables
• Utilisation du lexique pour � reranking �
• Possibilite de prendre en compte la frequence
Vergez-Couret - Urieli CLLE-ERSS TalOc 32 / 59
![Page 46: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/46.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
Analyse OCR Etape 3 - Correction (Reranking)
Analyse OCR Etape 3 - Correction (Reranking)
• Recherche par faisceau : les n analyses les plus probables
• Utilisation du lexique pour � reranking �
• Possibilite de prendre en compte la frequence
Vergez-Couret - Urieli CLLE-ERSS TalOc 32 / 59
![Page 47: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/47.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - parametres re-ranking
OCR - parametres re-ranking
• Largeur de faisceau : 1, 2, 5, 10, 20
• Coefficient de reduction pour mots inconnus : 0,75
• Prise en compte de la frequence ? Non
Vergez-Couret - Urieli CLLE-ERSS TalOc 33 / 59
![Page 48: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/48.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - parametres re-ranking
OCR - parametres re-ranking
• Largeur de faisceau : 1, 2, 5, 10, 20
• Coefficient de reduction pour mots inconnus : 0,75
• Prise en compte de la frequence ? Non
Vergez-Couret - Urieli CLLE-ERSS TalOc 33 / 59
![Page 49: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/49.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - parametres re-ranking
OCR - parametres re-ranking
• Largeur de faisceau : 1, 2, 5, 10, 20
• Coefficient de reduction pour mots inconnus : 0,75
• Prise en compte de la frequence ? Non
Vergez-Couret - Urieli CLLE-ERSS TalOc 33 / 59
![Page 50: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/50.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Preparation des corpus d’entraınement
OCR - Preparation des corpus d’entraınementCorpus OccitanAnnotateurs Marianne Vergez-CouretNombre de livres numerises 10Annees d’edition 1960-2000Lieu d’edition FranceNombre de pages 80Nombre de mots 20 400Nombre de lettres 85 500
Correction des erreurs humaines d’annotation apres unepremiere analyse automatique du corpus
Vergez-Couret - Urieli CLLE-ERSS TalOc 34 / 59
![Page 51: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/51.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Preparation des corpus d’entraınement
OCR - Preparation des corpus d’entraınementCorpus OccitanAnnotateurs Marianne Vergez-CouretNombre de livres numerises 10Annees d’edition 1960-2000Lieu d’edition FranceNombre de pages 80Nombre de mots 20 400Nombre de lettres 85 500
Correction des erreurs humaines d’annotation apres unepremiere analyse automatique du corpus
Vergez-Couret - Urieli CLLE-ERSS TalOc 34 / 59
![Page 52: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/52.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Ressources lexicales pour l’occitan
OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?
• Textes BaTelOc → lexiques de flechies
• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales
• Nombre d’entree : 54 500• Generation des formes flechies : 84 400
Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59
![Page 53: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/53.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Ressources lexicales pour l’occitan
OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?
• Textes BaTelOc → lexiques de flechies
• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales
• Nombre d’entree : 54 500• Generation des formes flechies : 84 400
Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59
![Page 54: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/54.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Ressources lexicales pour l’occitan
OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?
• Textes BaTelOc → lexiques de flechies
• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales
• Nombre d’entree : 54 500• Generation des formes flechies : 84 400
Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59
![Page 55: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/55.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Ressources lexicales pour l’occitan
OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?
• Textes BaTelOc → lexiques de flechies
• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales
• Nombre d’entree : 54 500• Generation des formes flechies : 84 400
Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59
![Page 56: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/56.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Ressources lexicales pour l’occitan
OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?
• Textes BaTelOc → lexiques de flechies
• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales
• Nombre d’entree : 54 500• Generation des formes flechies : 84 400
Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59
![Page 57: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/57.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Fusion des lexiques
OCR - Fusion des lexiques
• Lex Global (150 700)• Lex Lengadocian (135 300)
• Lex Rouquette (17 100)• Lex Laux (84 800)• Lex Molin (9 600)
• Lex Gascon (28 900)• Lex Blader (5 300)
Vergez-Couret - Urieli CLLE-ERSS TalOc 36 / 59
![Page 58: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/58.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Resultats
OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon
Mots Lettres Mots Lettres Mots Lettres
Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71
Pour le corpus global :
• Apport systematique des lexiques
• Meilleure strategie : Lex Global
• Gain de 19% (mots) et 16% (lettres)
Vergez-Couret - Urieli CLLE-ERSS TalOc 37 / 59
![Page 59: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/59.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Resultats
OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon
Mots Lettres Mots Lettres Mots Lettres
Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71
Pour le corpus global :
• Apport systematique des lexiques
• Meilleure strategie : Lex Global
• Gain de 19% (mots) et 16% (lettres)
Vergez-Couret - Urieli CLLE-ERSS TalOc 37 / 59
![Page 60: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/60.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Resultats
OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon
Mots Lettres Mots Lettres Mots Lettres
Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71
Pour le sous-corpus lengadocian :
• Meilleure strategie : Lexique du lengadocian
• Gain de 25,5% (mots) et 21,6% (lettres)
• Lexique du gascon = gain de 6%
Vergez-Couret - Urieli CLLE-ERSS TalOc 38 / 59
![Page 61: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/61.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Resultats
OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon
Mots Lettres Mots Lettres Mots Lettres
Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71
Pour le sous-corpus lengadocian :
• Meilleure strategie : Lexique du lengadocian
• Gain de 25,5% (mots) et 21,6% (lettres)
• Lexique du gascon = gain de 6%
Vergez-Couret - Urieli CLLE-ERSS TalOc 38 / 59
![Page 62: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/62.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Resultats
OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon
Mots Lettres Mots Lettres Mots Lettres
Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71
Pour le sous-corpus gascon :
• Meilleure strategie : Lexique du gascon
• Gain de 15,2% (mots) et 14,2% (lettres)
• Lexique du lengadocian = gain de 12%
Vergez-Couret - Urieli CLLE-ERSS TalOc 39 / 59
![Page 63: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/63.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Resultats
OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon
Mots Lettres Mots Lettres Mots Lettres
Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71
Pour le sous-corpus gascon :
• Meilleure strategie : Lexique du gascon
• Gain de 15,2% (mots) et 14,2% (lettres)
• Lexique du lengadocian = gain de 12%
Vergez-Couret - Urieli CLLE-ERSS TalOc 39 / 59
![Page 64: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/64.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Conclusion et perspectives
OCR - Conclusion et perspectives
• Role des lexiques dans la tache d’ocerisation• Apport des lexiques par dialectes (occitan)
• Effort lexical• Difficultes intrinseques a reconnaıtre les mots inconnus• Analyse et typologie des mots inconnus• Pour viser l’effort lexical le plus utile• Quelle est notre marge d’amelioration ?
• Pour le reste, effort d’ingenierie (segmentation, traitsspecialises)
• Apprentissage d’un modele par police ? (italique, . . . )
Vergez-Couret - Urieli CLLE-ERSS TalOc 40 / 59
![Page 65: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/65.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Conclusion et perspectives
OCR - Conclusion et perspectives
• Role des lexiques dans la tache d’ocerisation• Apport des lexiques par dialectes (occitan)
• Effort lexical• Difficultes intrinseques a reconnaıtre les mots inconnus• Analyse et typologie des mots inconnus• Pour viser l’effort lexical le plus utile• Quelle est notre marge d’amelioration ?
• Pour le reste, effort d’ingenierie (segmentation, traitsspecialises)
• Apprentissage d’un modele par police ? (italique, . . . )
Vergez-Couret - Urieli CLLE-ERSS TalOc 40 / 59
![Page 66: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/66.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux OCR
OCR - Conclusion et perspectives
OCR - Conclusion et perspectives
• Role des lexiques dans la tache d’ocerisation• Apport des lexiques par dialectes (occitan)
• Effort lexical• Difficultes intrinseques a reconnaıtre les mots inconnus• Analyse et typologie des mots inconnus• Pour viser l’effort lexical le plus utile• Quelle est notre marge d’amelioration ?
• Pour le reste, effort d’ingenierie (segmentation, traitsspecialises)
• Apprentissage d’un modele par police ? (italique, . . . )
Vergez-Couret - Urieli CLLE-ERSS TalOc 40 / 59
![Page 67: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/67.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Table of Contents
1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan
2 BaTelOc
3 Langues peu dotees dans RESTAURE
4 Nos travauxOCRAnalyse morphosyntaxique
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 41 / 59
![Page 68: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/68.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Lengadocian and Gascon dialects
Pos-tagging : Lengadocian and Gascon dialects
• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba
• Examples of syntactic variations :• Enonciative particles
• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”
• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”
• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”
• Additional intra-dialectal and spelling variations
Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59
![Page 69: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/69.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Lengadocian and Gascon dialects
Pos-tagging : Lengadocian and Gascon dialects
• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba
• Examples of syntactic variations :• Enonciative particles
• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”
• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”
• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”
• Additional intra-dialectal and spelling variations
Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59
![Page 70: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/70.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Lengadocian and Gascon dialects
Pos-tagging : Lengadocian and Gascon dialects
• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba
• Examples of syntactic variations :• Enonciative particles
• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”
• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”
• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”
• Additional intra-dialectal and spelling variations
Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59
![Page 71: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/71.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Lengadocian and Gascon dialects
Pos-tagging : Lengadocian and Gascon dialects
• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba
• Examples of syntactic variations :• Enonciative particles
• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”
• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”
• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”
• Additional intra-dialectal and spelling variations
Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59
![Page 72: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/72.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Lengadocian and Gascon dialects
Pos-tagging : Lengadocian and Gascon dialects
• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba
• Examples of syntactic variations :• Enonciative particles
• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”
• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”
• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”
• Additional intra-dialectal and spelling variations
Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59
![Page 73: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/73.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Software
Pos-tagging : Software• Talismane (Urieli, 2013)
• Supervised machine learning approach• Linear start-to-end pos-tagging• Open source• http ://redac.univ-tlse2.fr/talismane.html• ≈ 97% accuracy on English and French
• Lexicon usage :• As features, to help the statistical model• As rules, to override the statistical model
• Machine learning :• Linear SVM• Parameters : ε = 0.1, C = 0.5
Vergez-Couret - Urieli CLLE-ERSS TalOc 43 / 59
![Page 74: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/74.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Software
Pos-tagging : Software• Talismane (Urieli, 2013)
• Supervised machine learning approach• Linear start-to-end pos-tagging• Open source• http ://redac.univ-tlse2.fr/talismane.html• ≈ 97% accuracy on English and French
• Lexicon usage :• As features, to help the statistical model• As rules, to override the statistical model
• Machine learning :• Linear SVM• Parameters : ε = 0.1, C = 0.5
Vergez-Couret - Urieli CLLE-ERSS TalOc 43 / 59
![Page 75: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/75.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Software
Pos-tagging : Software• Talismane (Urieli, 2013)
• Supervised machine learning approach• Linear start-to-end pos-tagging• Open source• http ://redac.univ-tlse2.fr/talismane.html• ≈ 97% accuracy on English and French
• Lexicon usage :• As features, to help the statistical model• As rules, to override the statistical model
• Machine learning :• Linear SVM• Parameters : ε = 0.1, C = 0.5
Vergez-Couret - Urieli CLLE-ERSS TalOc 43 / 59
![Page 76: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/76.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 77: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/77.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 78: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/78.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 79: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/79.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 80: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/80.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 81: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/81.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 82: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/82.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 83: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/83.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Features
Features
• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,
+2
Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59
![Page 84: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/84.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 85: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/85.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 86: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/86.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 87: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/87.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 88: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/88.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 89: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/89.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 90: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/90.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Rules
Rules
• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)
• Three rules :
1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions
2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).
3 Automatically assign Card and Pct respectively tonumbers and punctuation.
Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59
![Page 91: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/91.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Resources
Resources
• For Talismane to function properly, various resources arerequired :
• A training corpus from which the statistical model islearned : Lengadocian Training Corpus
• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon
• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon
• All rely on a tagset specifically designed for Occitan.
Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59
![Page 92: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/92.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Resources
Resources
• For Talismane to function properly, various resources arerequired :
• A training corpus from which the statistical model islearned : Lengadocian Training Corpus
• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon
• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon
• All rely on a tagset specifically designed for Occitan.
Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59
![Page 93: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/93.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Resources
Resources
• For Talismane to function properly, various resources arerequired :
• A training corpus from which the statistical model islearned : Lengadocian Training Corpus
• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon
• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon
• All rely on a tagset specifically designed for Occitan.
Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59
![Page 94: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/94.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Resources
Resources
• For Talismane to function properly, various resources arerequired :
• A training corpus from which the statistical model islearned : Lengadocian Training Corpus
• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon
• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon
• All rely on a tagset specifically designed for Occitan.
Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59
![Page 95: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/95.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Resources
Resources
• For Talismane to function properly, various resources arerequired :
• A training corpus from which the statistical model islearned : Lengadocian Training Corpus
• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon
• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon
• All rely on a tagset specifically designed for Occitan.
Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59
![Page 96: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/96.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Tagset
Tagset
Tag Description Lexicon sizeA Adjective 29,638Adv Adverb 751Cc Coordinating conjunction 8Cs Subordinating conjunction 150Det Article 127Card Cardinal number 42Cli Clitic 72CliRef Reflexive pronoun 17Inj Interjection 7Nc Common noun 25,817Np Proper noun 4,603Pct Punctuation 15Pe Enunciative particle (Gascon only) 0Pp Present participle 4,530Pr Preposition 521Prel Relative pronoun 37Pro Pronoun 81Ps Past participle 17,963PrepDet Amalgamated preposition and article 499Vc Conjugated verb 135,731Vi Infinitive verb 4,643Z Consonant for phonetic liaison 3Total 225,386
Vergez-Couret - Urieli CLLE-ERSS TalOc 47 / 59
![Page 97: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/97.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus
Training Corpus
• Lengadocian Dialect - Rouergue Varieties from E la bartafloriguet by Enric Molin
• 2500 tokens (lemma + pos-tags)
Index Token Lemma Pos-tag Morphology1 Li li Cli P3-m-sg2 semblava semblar Vc Imi-P3-sg3 que que Cs4 sos son D Poss-P3-m-pl5 pes pe Nc m-pl6 tocavan tocar Vc Imi-P3-pl7 pas pas Adv8 terra terra Nc f-sg9 . . Pct
Vergez-Couret - Urieli CLLE-ERSS TalOc 48 / 59
![Page 98: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/98.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus
Training Corpus
• Lengadocian Dialect - Rouergue Varieties from E la bartafloriguet by Enric Molin
• 2500 tokens (lemma + pos-tags)
Index Token Lemma Pos-tag Morphology1 Li li Cli P3-m-sg2 semblava semblar Vc Imi-P3-sg3 que que Cs4 sos son D Poss-P3-m-pl5 pes pe Nc m-pl6 tocavan tocar Vc Imi-P3-pl7 pas pas Adv8 terra terra Nc f-sg9 . . Pct
Vergez-Couret - Urieli CLLE-ERSS TalOc 48 / 59
![Page 99: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/99.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus
Training Corpus
• Lengadocian Dialect - Rouergue Varieties from E la bartafloriguet by Enric Molin
• 2500 tokens (lemma + pos-tags)
Index Token Lemma Pos-tag Morphology1 Li li Cli P3-m-sg2 semblava semblar Vc Imi-P3-sg3 que que Cs4 sos son D Poss-P3-m-pl5 pes pe Nc m-pl6 tocavan tocar Vc Imi-P3-pl7 pas pas Adv8 terra terra Nc f-sg9 . . Pct
Vergez-Couret - Urieli CLLE-ERSS TalOc 48 / 59
![Page 100: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/100.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Evaluation Corpora
Evaluation Corpora
• Lengadocian Dialect - Rouergue Varieties from Loscrocants de Roergue by Ferran Deleris700 tokens (lemma + pos-tag)
• Lengadocian Dialect - Lot Varieties from Dels caminsbartassiers by Marceu Esquieu460 tokens (lemma + pos-tag)
• Gascon Dialect from Hont Blanc by Jan Loıs Lavit460 tokens (lemma + pos-tag)
Vergez-Couret - Urieli CLLE-ERSS TalOc 49 / 59
![Page 101: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/101.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Evaluation Corpora
Evaluation Corpora
• Lengadocian Dialect - Rouergue Varieties from Loscrocants de Roergue by Ferran Deleris700 tokens (lemma + pos-tag)
• Lengadocian Dialect - Lot Varieties from Dels caminsbartassiers by Marceu Esquieu460 tokens (lemma + pos-tag)
• Gascon Dialect from Hont Blanc by Jan Loıs Lavit460 tokens (lemma + pos-tag)
Vergez-Couret - Urieli CLLE-ERSS TalOc 49 / 59
![Page 102: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/102.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Evaluation Corpora
Evaluation Corpora
• Lengadocian Dialect - Rouergue Varieties from Loscrocants de Roergue by Ferran Deleris700 tokens (lemma + pos-tag)
• Lengadocian Dialect - Lot Varieties from Dels caminsbartassiers by Marceu Esquieu460 tokens (lemma + pos-tag)
• Gascon Dialect from Hont Blanc by Jan Loıs Lavit460 tokens (lemma + pos-tag)
Vergez-Couret - Urieli CLLE-ERSS TalOc 49 / 59
![Page 103: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/103.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Corpus comparison
Corpus comparison
Corpus Training Rouergue Lot GasconSize 2501 701 467 469
Size (without punct.) 2078 591 388 399% unknown in training 46.4% 49.0% 56.4%% unknown in lexicon 0.1% 16.6% 19.9% 40.1%
Open class tokens 1111 324 201 203% unknown in training 76.2% 82.6% 87.7%% unknown in lexicon 0.2% 29.0% 37.3% 59.1%Closed class tokens 967 267 187 196% unknown in training 10.2% 12.8% 24.0%% unknown in lexicon 0.0% 1.5% 1.1% 20.4%
Table: Training and evaluation corpora
Vergez-Couret - Urieli CLLE-ERSS TalOc 50 / 59
![Page 104: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/104.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 105: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/105.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 106: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/106.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 107: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/107.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 108: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/108.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 109: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/109.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 110: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/110.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Experiments
ExperimentsQuestions for experiments :
• Which is the best strategy for each evaluation corpus ?
• Is it always useful to apply closed-class rules ?
• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?
• To what extent can a lexicon for one dialect be applied toanother dialect ?
• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?
• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59
![Page 111: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/111.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Overall Results
Overall Results
Rouergue Lot Gascon
60
80
100
73.75
69.38
58.64
80.17
81.37
63.11
80.88
81.37
63.54
85.88
88.01
66.1
87.02
89.08
67.16
Acc
ura
cy
empty closed closed+rules full full+rules
Figure: Pos-tagging lexicon/rules comparison : accuracy by corpus
Vergez-Couret - Urieli CLLE-ERSS TalOc 52 / 59
![Page 112: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/112.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Closed Class Rules
Closed Class Rules
• When adding closed class rules :• Rouergue : 85.88% to 87.02%• Lot : 88.01% to 89.08%• Gascon : 66.10% to 67.16%
• Always helpful, even for a corpus (Gascon) with 20%unknown closed class tokens
Vergez-Couret - Urieli CLLE-ERSS TalOc 53 / 59
![Page 113: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/113.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Closed Class Rules
Closed Class Rules
• When adding closed class rules :• Rouergue : 85.88% to 87.02%• Lot : 88.01% to 89.08%• Gascon : 66.10% to 67.16%
• Always helpful, even for a corpus (Gascon) with 20%unknown closed class tokens
Vergez-Couret - Urieli CLLE-ERSS TalOc 53 / 59
![Page 114: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/114.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Closed Class Rules
Closed Class Rules
• When adding closed class rules :• Rouergue : 85.88% to 87.02%• Lot : 88.01% to 89.08%• Gascon : 66.10% to 67.16%
• Always helpful, even for a corpus (Gascon) with 20%unknown closed class tokens
Vergez-Couret - Urieli CLLE-ERSS TalOc 53 / 59
![Page 115: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/115.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Lexicons
Lexicons
• Gain : no lexicon → closed-class lexicon• Rouergue : 7.13%• Lot : 11.99%• Gascon : 4.90%
• Gain : closed-class lexicon → full lexicon• Rouergue : 6.14%• Lot : 7.71%• Gascon : 3.62%
• Mean gain for unknown words (mostly through n-grams) :half lexicon → full lexicon
• Rouergue : 8.54%• Lot : 17.96%
Vergez-Couret - Urieli CLLE-ERSS TalOc 54 / 59
![Page 116: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/116.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Lexicons
Lexicons
• Gain : no lexicon → closed-class lexicon• Rouergue : 7.13%• Lot : 11.99%• Gascon : 4.90%
• Gain : closed-class lexicon → full lexicon• Rouergue : 6.14%• Lot : 7.71%• Gascon : 3.62%
• Mean gain for unknown words (mostly through n-grams) :half lexicon → full lexicon
• Rouergue : 8.54%• Lot : 17.96%
Vergez-Couret - Urieli CLLE-ERSS TalOc 54 / 59
![Page 117: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/117.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Lexicons
Lexicons
• Gain : no lexicon → closed-class lexicon• Rouergue : 7.13%• Lot : 11.99%• Gascon : 4.90%
• Gain : closed-class lexicon → full lexicon• Rouergue : 6.14%• Lot : 7.71%• Gascon : 3.62%
• Mean gain for unknown words (mostly through n-grams) :half lexicon → full lexicon
• Rouergue : 8.54%• Lot : 17.96%
Vergez-Couret - Urieli CLLE-ERSS TalOc 54 / 59
![Page 118: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/118.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 119: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/119.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 120: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/120.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 121: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/121.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 122: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/122.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 123: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/123.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 124: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/124.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 125: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/125.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 126: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/126.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 127: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/127.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Other Dialects
Other Dialects
• Gascon : new part-of-speech, the enunciative particle (Pe)
• Most common for “que”, only possibility for “be”
• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after
conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false
negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%
• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training
corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training
corpus ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59
![Page 128: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/128.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus vs. Lexicon
Training Corpus vs. Lexicon
• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?
• Experiment : Create 2 lexicon halves, 2 training corpushalves.
• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%
• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%
• But : can always annotate more data, finding more lexicalitems more difficult
Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59
![Page 129: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/129.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus vs. Lexicon
Training Corpus vs. Lexicon
• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?
• Experiment : Create 2 lexicon halves, 2 training corpushalves.
• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%
• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%
• But : can always annotate more data, finding more lexicalitems more difficult
Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59
![Page 130: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/130.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus vs. Lexicon
Training Corpus vs. Lexicon
• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?
• Experiment : Create 2 lexicon halves, 2 training corpushalves.
• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%
• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%
• But : can always annotate more data, finding more lexicalitems more difficult
Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59
![Page 131: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/131.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus vs. Lexicon
Training Corpus vs. Lexicon
• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?
• Experiment : Create 2 lexicon halves, 2 training corpushalves.
• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%
• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%
• But : can always annotate more data, finding more lexicalitems more difficult
Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59
![Page 132: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/132.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Training Corpus vs. Lexicon
Training Corpus vs. Lexicon
• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?
• Experiment : Create 2 lexicon halves, 2 training corpushalves.
• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%
• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%
• But : can always annotate more data, finding more lexicalitems more difficult
Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59
![Page 133: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/133.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Conclusion and perspectives
Pos-tagging : Conclusion and perspectives
• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable
• It is better to construct a larger lexicon than to annotatemore training material
• Functioning pos-tagger + annotation guide
• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?
• Semi-supervised cross-language methods (Catalan) : moregains ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59
![Page 134: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/134.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Conclusion and perspectives
Pos-tagging : Conclusion and perspectives
• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable
• It is better to construct a larger lexicon than to annotatemore training material
• Functioning pos-tagger + annotation guide
• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?
• Semi-supervised cross-language methods (Catalan) : moregains ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59
![Page 135: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/135.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Conclusion and perspectives
Pos-tagging : Conclusion and perspectives
• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable
• It is better to construct a larger lexicon than to annotatemore training material
• Functioning pos-tagger + annotation guide
• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?
• Semi-supervised cross-language methods (Catalan) : moregains ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59
![Page 136: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/136.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Conclusion and perspectives
Pos-tagging : Conclusion and perspectives
• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable
• It is better to construct a larger lexicon than to annotatemore training material
• Functioning pos-tagger + annotation guide
• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?
• Semi-supervised cross-language methods (Catalan) : moregains ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59
![Page 137: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/137.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Nos travaux Analyse morphosyntaxique
Pos-tagging : Conclusion and perspectives
Pos-tagging : Conclusion and perspectives
• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable
• It is better to construct a larger lexicon than to annotatemore training material
• Functioning pos-tagger + annotation guide
• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?
• Semi-supervised cross-language methods (Catalan) : moregains ?
Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59
![Page 138: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/138.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Conclusions et perspectives
5. Conclusions et perspectives
5 Conclusions et perspectives
Vergez-Couret - Urieli CLLE-ERSS TalOc 58 / 59
![Page 139: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan](https://reader035.vdocuments.mx/reader035/viewer/2022081620/6117e0d0ec2a7038c254a469/html5/thumbnails/139.jpg)
TalOc
Occitan
Contexte
Traitementautomatiquedes langues peudotees
Particularites del’occitan
BaTelOc
Langues peudotees dansRESTAURE
Nos travaux
OCR
Analyse mor-phosyntaxique
Conclusionsetperspectives
Conclusions et perspectives
• Methodes et resultats encourageants pour demarrerRESTAURE
• Perfectionner les outils (OCR)
• Aller plus loin en exploitant les ressources des languesproches
• Aller plus loin dans la gestion des dialectes et cie (pourcreer des systemes robustes)
• Trouver des methodes pour adapter les ressourcesdisponibles aux differentes variantes
Vergez-Couret - Urieli CLLE-ERSS TalOc 59 / 59