Les normes de fréquences lexicales et infra-lexicales ... ?· Les normes de fréquences lexicales et…

Download Les normes de fréquences lexicales et infra-lexicales ... ?· Les normes de fréquences lexicales et…

Post on 13-Sep-2018

212 views

Category:

Documents

0 download

TRANSCRIPT

- 1 -Les normes de frquences lexicales et infra-lexicales chezl'enfant.Bernard LtINRP-Lyon 2EMC/DDL (CNRS 5596)5 avenue Pierre Mends France69676 - BRON cedex1- Les normes de frquences lexicales : la base ManulexManulex (pour Lexique des Manuels) a t dveloppe pour mettre la disposition des chercheursun outil actualis rendant compte du lexique crit adress l'enfant. En effet, en France, leschercheurs sur le dveloppement du langage se servent de bases extraites de corpus d'crits adresss l'adulte comme Brulex (Content et al., 1990) ou Lexique (New et al., 2001, 2004). Le problme estque ces bases ne donnent pas une indication prcise sur les mots que l'enfant est susceptible derencontrer en lisant. Or, les tudes actuelles sur le dveloppement du langage (en particulier lesmodles connexionnistes) accordent une place prpondrante ce qui est appel "l'exposition l'crit". Selon ces modles, on peut rendre compte du dveloppement du systme lexical d'un enfantpar sa capacit extraire implicitement des rgularits statistiques de son environnement langagier.Avoir des mesures de frquence de mots bases sur un corpus d'crits adresss l'enfant, c'est avoiren quelque sorte une mesure indirecte de ces rgularits.Manulex (Lt, 2003, 2004 ; Lt, Sprenger-Charolles et Col, 2004) a t construite partir de 54manuels scolaires de lecture. Quatre sous-corpus ont t dfinis : CP, CE1, CE2-CM2, et CP-CM2(1,9 millions de mots au total). Chaque corpus a t trait par Cordial Analyseur pour effectuer untiquetage morpho-syntaxique des mots. Nous avons travaill ensuite la construction desfrquences de deux lexiques : un lexique des formes orthographiques (48 886 entres) et un lexiquedes lemmes (23 812 entres). Pour calculer les frquences, nous nous sommes appuys sur "TheAmerican Heritage Word Frequency Book" de Carroll et al. (1971) qui est la rfrence, en langueAnglaise, pour les normes de frquences chez l'enfant. Pour les quatre niveaux et les deux lexiques,nous avons calcul 3 indices : F : la frquence brute releve dans le corpus en question ; D : unindice de dispersion du mot dans les manuels ; et U : la frquence par million pondre par D . Lefait de pondrer la frquence par D permet d'obtenir une mesure plus fiable et donc d'approcher lafrquence "relle" dans un corpus de taille infinie.Manulex est librement tlchargeable l'adresse http://unpc.univ-lyon2.fr/~lete/manulex/index.htm etinterrogeable sur le site de Lexique l'adresse http://www.lexique.org/moteur/2- Les normes de frquences infra-lexicales : la base Manulex-infraManulex-infra (Peereman, Lt, Sprenger-Charolles, soumis) fournit plusieurs normes statistiquesdcrivant le systme d'criture du franais auquel est confront l'enfant du CP au CM2 dans sesmanuels scolaires. Nous avons en particulier dvelopp une mtrique de la consistance des relationsgrapho-phonologiques et phono-graphiques chaque niveau d'ge pour tous les mots du lexique desformes orthographiques de Manulex. La consistance de chaque mot est mesure sur une chelle de 1 100 chaque niveau car celle-ci peut varier en fonction du lexique adress l'enfant une tapeparticulire de son apprentissage. En plus de la consistance, les frquences positionnelles desbigrammes, trigrammes et syllabes sont fournies.- 2 -Pour calculer l'indice de consistance et les frquences des associations, un mot comme main se voitd'abord affect de sa squence d'associations graphmes phonmes : [m-m.ain-5]. Puis lesfrquences de chaque association prcdemment calcules sur l'ensemble des mots de la base sontassocies au dbut, au milieu (moyenne des frquences) et la fin du mot considr. Pour main ,l'association [ain-5] en fin de mot a une frquence de 2199 par million au CP. Pour calculer lesindices positionnels de consistance, toutes les associations possibles sont d'abord rfrences dansles deux sens possibles (graphme phonme et phonme graphme). On calcule ensuite laprobabilit d'apparition d'une association particulire rapporte l'ensemble des cas possibles(multiplie par 100). Pour main, l'association finale phonme graphme [5-ain] a un indice de17.64. Cela signifie que, sur 100 apparitions de la relation [5-ain] en fin de mot, le phonme /5/s'crit "ain" dans 17.64% des cas (en fin de mot et dans le corpus CP, il s'crit "in" dans 37.57% descas, "en" dans 41.32% des cas, ). L'association phonme graphme [m-m] de dbut de mot aun indice de 100 ce qui veut dire que, sur 100 apparitions de la relation [m-m] en dbut de mot, lephonme /m/ s'crit toujours "m". Le mot main se verra affecter d'un indice moyen de consistancephonme graphme de 58.82. Considrons maintenant la consistance dans le sensgraphme phonme (lecture voix haute). Les indices sont de 100 tant en dbut de mot ("m" selit toujours /m/ en dbut de mot) qu'en fin de mot ("ain" se lit toujours /5/ en fin de mot). Le motmain a ainsi un indice moyen de consistance graphme phonme de 100. Le mot main est doncdeux fois plus difficile crire qu' prononcer.La discriminabilit de chaque mot chaque niveau est galement value grce au calcul duvoisinage orthographique, des homophones, des homographes et du point d'unicit orthographique.Manulex-infra n'a pas d'quivalent dans les autres langues.Manulex-infra est librement tlchargeable l'adresse http://leadserv.u-bourgogne.fr/ (lien prciser).3- Un exemple d'utilisation des normes de frquence pour estimer lesrpertoires lexicaux des enfants de 6 11 ans1Un vocabulaire de base a t extrait de Manulex en slectionnant toutes les entres communes auxtrois niveaux (Lt, 2003 ; 2004). De plus, nous avons pris un critre de dispersion suprieur .25signifiant que chaque mot a t trouv dans 3/4 des manuels chaque niveau. Le vocabulaire extraitcomporte 3 215 lemmes qui couvrent prs de 95% des formes orthographiques releves au CP, 91%de celles du CE1 et 83% de celles du cycle 3. Autrement dit, un enfant de CE1 connaissant ces motsest capable de lire prs de 90% de l'crit de son niveau.Nous avons ensuite compar trois sources de donnes pour estimer le rpertoire lexical des enfants :a) Ehrlich, Bramaud du Boucheron et Florin (1978) : les auteurs ont propos des lves deCE1 au CM2 une tche de jugement de mots (450 par lve) sur une chelle en 5 points (jeconnais trs bien, , je ne connais pas). La mesure du rpertoire correspond au nombre demots jugs "connus" "trs bien connus" rapports au nombre total de mots de l'chantillon(13 500). Il s'agit donc d'une estimation.b) chelle d'Orthographe Lexicale (EOLE) de Pothier et Pothier (2003) : les auteurs ont faitorthographier 11 694 mots des lves de CP au CM2 (50 mots par lve). Le nombre demots correctement orthographis par 75% des lves sert de mesure du rpertoire.c) Manulex : Lt et al. (2003) : nous avons estim le nombre moyen de mots susceptiblesd'tre rencontrs par les lves dans leur manuel respectif aux trois niveaux considrs. Lenombre moyen de lemmes en rception de l'crit fournit la mesure du rpertoire lexical enrception d'crit. 1 Cette partie synthtise la 3me partie de Lt (2004) (cf. document PDF fourni).- 3 -Les donnes indiquent qu'en rception d'crit, les enfants sont confronts en moyenne dans leurmanuel un stock de 2 000 mots au CP, 3 000 au CE1 et 5 000 au cycle 3. Au niveauorthographique, les 3/4 des enfants orthographient correctement 300 mots au CP, 1 000 au CE1,2 000 au CE2, 3 500 au CM1 et 5 000 au CM2. Les donnes en jugement de connaissancesurestiment certainement le stock lexical puisqu'elles donnent prs de 5 500 mots connus ds le CE1et prs de 9 500 au CM2. Cela est donc suprieur ce qui peut tre rencontr dans un manuel delecture chaque niveau.En rsum, la taille du vocabulaire d'un enfant la fin du cycle 3 (11 ans) est de l'ordre de 5 000mots (lemmes). L'enseignement du vocabulaire n'est donc pas une tche insurmontable l'cole.Ceci dit, connatre 5 000 mots ne suffit pas tre lecteur. Les crits adultes comportentapproximativement prs de 60 000 lemmes (cf. Lexique, New et al., 2001, 2004). Pour que l'enfantenrichisse sa base de vocabulaire, il doit donc lire normment tant donn que la probabilit derencontrer ces mots est faible : ce sont principalement des mots rares pour lesquels plusieurs"rencontres" sont ncessaires afin de garder une trace en mmoire lexicale.RfrencesCarroll, J. B., Davies, P., & Richman, B. (Eds.) (1971). The American Heritage Word-FrequencyBook. Boston, MA: Houghton Mifflin.Ehrlich, S., Bramaud du Boucheron, G., & Florin, A. (1978). Le dveloppement des connaissanceslexicales lcole primaire. Paris : PUF.Lt, B. (2003). Building the mental lexicon by exposure to print: A corpus-based analysis ofFrench reading books. In P. Bonin (Ed.), Mental lexicon. "Some words to talk about words"(pp. 187-214). Hauppauge, NY : Nova Science Publisher.Lt, B. (2004). MANULEX : Le lexique des manuels scolaires de lecture. Implications pourl'estimation du vocabulaire des enfants de 6 11 ans. In E. Calaque & J. David (Eds.),Didactique du lexique : Contextes, dmarches, supports (pp. 241-257). Bruxelles : De Boeck.Lt, B., Sprenger-Charolles, L., & Col, P. (2004). MANULEX : A grade-level lexical databasefrom French elementary-school readers. Behavior Research Methods, Instruments, &Computers, 36, 156-166.New, B., Pallier, C., Brysbaert, M., & Ferrand, L. (2004). Lexique 2: A New French LexicalDatabase. Behavior Research Methods, Instruments, & Computers, 36, 516-524.New, B., Pallier, C., Ferrand, L., & Matos, R. (2001). Une base de donnes lexicales du franaiscontemporain sur Internet: LEXIQUE. L'Anne Psychologique, 101, 447-462.Peereman, R., Lt, B., & Sprenger-Charolles, L. (soumis). Manulex-Infra: Grade-level statisticsupon grapheme-phoneme associations from child-directed written material.. BehaviorResearch Methods.Pothier, B, & Pothier, P. (2003). EOLE : chelle d'acquisition en orthographe lexicale (du CP auCM2). Paris : Retz.

Recommended

View more >