sõnajärjevigade automaatse tuvastamise probleeme

21
Sõnajärjevigade automaatse tuvastamise probleeme Erika Matsak, IV sügisseminar 2009

Upload: zared

Post on 06-Feb-2016

78 views

Category:

Documents


0 download

DESCRIPTION

Sõnajärjevigade automaatse tuvastamise probleeme. Erika Matsak , IV sügisseminar 2009. Sissejuhatus. Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Sõnajärjevigade automaatse tuvastamise probleeme

Sõnajärjevigade automaatse tuvastamise probleeme

Erika Matsak, IV sügisseminar 2009

Page 2: Sõnajärjevigade automaatse tuvastamise probleeme

Sissejuhatus

• Ettekanne on pühendatud õigete ja valede sõnajärjereeglite tuvastamisvõimalustele eesti õppijakeeles ning sellega seotud probleemidele.

• Töö on seotud riikliku programmi Eesti Keele Keeletehnoloogiline tugi (2006-2010) projektiga VAKO - Eesti vahekeele korpuse keeletarkvara ja keeletehnoloogilise ressursi arendamine (2008-2010).

• Uurimistulemusteni on jõutud tänu koostööle Helena Metslangi ning Vahur Rebasega

Page 3: Sõnajärjevigade automaatse tuvastamise probleeme

Sissejuhatus

Sõnajärg ja lause teatestruktuur 246 80

Tekstiloome 97 20

Ülearune sõna lauses 81 53

Interpunktuatsioonivead 79 67

Tähendusvarjundi viga 66

Mitteafiksaalne 43

Häälduspärane kirjaviis 42

Lauseliikmete ärajätmine 39

Kokku 5000 sõna, 365 lauset

Page 4: Sõnajärjevigade automaatse tuvastamise probleeme

EstCGParser 1.0a

Unixi-põhise kitsendustegrammatika morfosüntaktiline analüüs

Page 5: Sõnajärjevigade automaatse tuvastamise probleeme

Morfosüntaktilised probleemid

• Morfosüntaktiline tagasiside liiga detailne• Vaid osa märgenditest esitavad sõnajärje jaoks

olulist infot• Sõnajärje jaoks olulised märgendid esinevad

sõnajärje jaoks ebaoluliste märgendite vahel• Mõned ebaolulised märgendid on lubatud

oluliste märgendite vahel, mõned mitte

Page 6: Sõnajärjevigade automaatse tuvastamise probleeme

Lähenemisviis reeglite otsimiseks

• On moodustatud hulgad:– Sõnajärje määramiseks oluliste märgenditega– Mitteoluliste märgenditega– Mitteolulistega sõnadega (semantiline hulk, eelkõige

sõnad, mis ei ole verbilaiendi peasõnaks, või mis lausealguselisena sõnajärge ei mõjuta)

• On piiratud vaadeldud lausete hulka– Välja on jäetud laused nagu küsilaused, umbisikulise

tegumoega laused jne• Sõnajärge vaadeldakse kas osalause või lihtlause piires

Page 7: Sõnajärjevigade automaatse tuvastamise probleeme

Väljajätmiseks Lubatud välja jätta VajalikudMärgendid Loomuliku keele sõnaloetelud Märgendid

Täiendid ja muud Määrsõnad ADJ-fraasi või ADVL-fraasi laiendliikmed

@<AD adverb järeltäiendina ainult siiski päris @OBJ objekt@<AN adjektiiv

järeltäiendinaarvatavasti tõenäoliselt üsna @SUBJ subjekt

@<INF_N infinitiiv järeltäiendina

eks vaat väga @PRD predikatiiv

@<NN nimisõna järeltäiendina

ent veel hästi @+FMV predikaat

@<P eessõnafraasi põhi hoopis võib-olla täielikult @+FCV Liitvormis predikaadi või liitpredikaadi finiitne osa (olema liitaegades jm)

@<PN kaassõna järeltäiendina

jah kuigi mõneti @-FMV infiniitne predikaat

@<Q kvantori järellaiend ju arvates kõige @ADVL adverbiaal@<VN partitsiip

järeltäiendinajuba eelkõige igati all allatiiv

@AD> adverb eestäiendina just igatahes nii ad adessiiv@AN> adjektiiv

eestäiendinaka ilmselt peamiselt _S_ + kom nimisõna komitatiivis

@INF_N> infinitiiv eestäiendina

kas ilmtingimata enam @NEG verbi eitus

@NN> nimisõna eestäiendina

küll kahjuks liiga ps1 verb ainsuse ja mitmuse 1. isiku vormis

@P> tagasõnafraasi põhi küllap kasvõi tõsiselt ps3 sg verb ainsuse 3. isiku vormis@PN> kaassõna

eestäiendinalas kindlasti indic pres indikatiivi preesens

@J sidend loomulikult niisiis indic impf indikatiivi imperfektno samuti imper imperatiivometi seega ad adessiivpealegi tõepoolest _Z_ com,

_Z_ Fst_Z_Exc

koma, punkt, hüüumärk

siis vist

Page 8: Sõnajärjevigade automaatse tuvastamise probleeme

Lähenemisviis reeglite otsimiseks

• Õigete lausete analüüs õigete mallide eraldamiseks– Ilukirjandustekstid (Tartu Ülikooli eesti

kirjakeelekorpus)• Valede lausete analüüs valede mallide

eraldamiseks– EVKK korpuse tekstid, märgendatud vealiigiga 7.1

(sõnajärg ja lause teatestruktuur)

Page 9: Sõnajärjevigade automaatse tuvastamise probleeme

Reeglite otsimine • Uuritakse lauset,

lausesiselt vaadeldakse sõnu – Kontrollitakse, kas

analüüsitav sõna kuulub sõnajärjes ebaolukliste sõnade hulka

– kui nende seas sõna ei leita, otsitakse väljajäetavate märgendite hulgast

– seejärel kontrollitakse vajalike märgendite hulka

Ebaolulised sõnad

Ebaolulised märgendid

Olulised märgendid

Sõna_______________Morfosüntaktiline analüüs

Page 10: Sõnajärjevigade automaatse tuvastamise probleeme

Reeglite otsimine

• Iga sõnajärje jaoks oluline märgend kirjutatakse välja• Analüüs katkestatakse siis, kui uuritav sõna ja selle

märgend ei kuulunud eespool nimetatud hulkadesse (nt CLB on osalausepiiri märgend)

• Tulemuseks on järjestatud oluliste märgendite jada• Reeglite otsingu ettevalmistuse käigus läbiti mitmeid

iteratsioone – oluliste ja ebaoluliste märgendite väljaselgitamiseks ning

sõnade (semantilise) hulga täiendamiseks

Page 11: Sõnajärjevigade automaatse tuvastamise probleeme

Vealeidja prototüübi loomisest• Eesti keele morfosüntaktilist analüüsi saab

teostada EVKK Linuxi-põhises veebikeskonnas– tänu Kaili Müürisepale, kes lõi Linuxi jaoks

analüsaatori uue versiooni • Uute tehniliste lahenduste tõttu (erisümbolite töötlus) tuli

meil arvesse võtta mõningaid muutusi märgendites• Vahur Rebase teostatud EVKK tarkvaraarenduses

on kasutatud programmeerimiskeelt phython– Sõnajärjereeglite kontrollimiseks on korpusse

programmeeritud uued moodulid• Võimaldab kasutada analüsaatorit korpuskeskkonnas

(EVKKs)

Page 12: Sõnajärjevigade automaatse tuvastamise probleeme

Vealeidja prototüübi loomisest

• Prototüüp ei oma esialgu graafilist kasutajaliidest.

• Sisesendtekst paigutatakse faili, käivitatakse käsurealt ning vastu saadakse tekstifail

• Analüüsi lõpus annab programm statistilised andmed reeglite kasutussageduse kohta

Page 13: Sõnajärjevigade automaatse tuvastamise probleeme

Vealeidja prototüübi loomisest: näide

Page 14: Sõnajärjevigade automaatse tuvastamise probleeme

Vealeidja reeglistiku katvus kirjakeeles (681 lauset TÜ ilukirjanduskorpusest)

Page 15: Sõnajärjevigade automaatse tuvastamise probleeme

Vealeidja rakendus õppijakeele korpuses

• Detailsed tulemused on esitatud Eesti Rakenduslingvistika Ühingu aastaraamatusse konkureerivas artiklis

• Mõned väljavõtted:– Kasutati 242 sõnajärjereeglit, mis olid leitud

ilukirjandustekstide analüüsi alusel – Õppijakeele korpusest võeti juhumeetodil välja valim,

mis koosnes 4743 lausest– Populaarsemate reeglite osas olid nii kattuvusi kui

erinevusi

Page 16: Sõnajärjevigade automaatse tuvastamise probleeme

Vealeidja rakendamine EVKK-s

• Nii õppijakeele kui ilukirjanduskeele valimis on kõige sagedamini kasutatav reegel ['@SUBJ', '@FMV', '@ADVL'], mille osakaal on 13% (564 lauset).

• Teisel kohal on reegel ['@SUBJ', '@FMV', '@PRD'] osakaaluga 7% (324, Aga arvutite kasutamine on ka ohtlik), mida ilukirjanduskeeles oli 2%.

• Kolmandal kohal on reegel ['@ADVL', '@FMV', '@ADVL'] (5%, 238 lauset).

Page 17: Sõnajärjevigade automaatse tuvastamise probleeme

Õppijate eelistused sõnajärjereeglite kasutamisel

Page 18: Sõnajärjevigade automaatse tuvastamise probleeme

Valede reeglite otsing märgendatud tekstides

• Kui lauses oli esinenud märgend 7.1, siis analüüsiti selle märgendiga seotud osalause

• Valesid reegleid otsitakse sama põhimõtte alusel kui õigeid

• Suureks probleemiks on – muude vigade esinemine lauses (nt hääldupärane

kirjaviis, paronüümia, vale käändevormi kasutamine, sisestamisvead jne)

– analüsaatori mittesuutlikkus valesti kirjutatud sõnu analüüsida • ideaalis vajame teksti, kus esineks üks vealiik - sõnajärg ja

lause teatestruktuur

Page 19: Sõnajärjevigade automaatse tuvastamise probleeme

Valede reeglite otsing märgendatud tekstides

• Valede sõnajärjereeglite mustrid on suhteliselt väikse korduvusega, paljud on ühekordses kasutuses

• Mõned kooslused andsid õigete reeglite mustreid, kuna – kirjavea tõttu osutus sõna analüüs valeks – sõnavormile vastav analüüs andis ühestamata

vastuse

Page 20: Sõnajärjevigade automaatse tuvastamise probleeme

Valede reeglite otsing märgendatud tekstides

• Sagedasemad vead on seotud predikaadi vale positsiooniga:– @ADVL @SUBJ @FMV (nt Kõigi muinasaja jooksul

inimesed arvasid , et edu ja õnne sõltuvad surnute austamisest) 2%• @ADVL @SUBJ @FMV @OBJ 1%• @ADVL @SUBJ @FMV @PRD 1%

– @SUBJ @ADVL @FMV 1,3%

Page 21: Sõnajärjevigade automaatse tuvastamise probleeme

Kokkuvõte

• Sõnajärje uurimiseks on kasutatud eesti keele süntaksianalüsaatorit koos ühestajaga, mis võimaldab lauseid formaliseerida morfosüntaktiliste märgendite abil.

• Vigase sõnajärje automaatset tuvastamist on alustatud õigetest sõnajärjereeglitest.

• Vigase sõnajärje tuvastamiseks on EVKKs loodud eraldi moodul, mis võimaldab analüüsida õppijakeelt, s.h eesti õppijakeele sõnajärge.