valdkond: süntaktiliselt märgendatud korpuste loomine ja kasutamine
DESCRIPTION
Valdkond: Süntaktiliselt märgendatud korpuste loomine ja kasutamine. Heli Uibo Keeletehnoloogia lektor J. Liivi 2-339 [email protected] http://math.ut.ee/~heli_u. Süntaktiliselt märgendatud korpused – milleks?. Keeletehnoloogi töövahend: - PowerPoint PPT PresentationTRANSCRIPT
Valdkond: Süntaktiliselt märgendatud korpuste
loomine ja kasutamine
Heli UiboKeeletehnoloogia lektor
J. Liivi [email protected]
http://math.ut.ee/~heli_u
Süntaktiliselt märgendatud korpused – milleks?
• Keeletehnoloogi töövahend:– Grammatikapõhiste meetodite puhul –
süntaksianalüsaatori testimiseks– Statistiliste meetodite puhul – nii
süntaksianalüsaatori “ehitamiseks” kui testimiseks
• Lingvisti töövahend: võimaldab kontrollida süntaksiteooriate kehtivust praktikas, teha päringuid lausestruktuuride kohta jne.
Mida tähendab süntaktiline märgendamine?
1. Fraasistruktuuri märgendamine
Mida tähendab süntaktiline märgendamine? (2)
2. Sõltuvusstruktuuri märgendamine (Dům, který je drahý, si nekoupíme.)
Mida tähendab süntaktiline märgendamine? (3)
Pindsüntaktiline märgendamine (määratud iga sõna süntaktiline funktsioon lauses)
Eesti keele süntaktiliselt märgendatud korpused
• Pindsüntaktiliselt analüüsitud korpus EstCGC
• Puude pank (treebank) Arborest
• Puude pank eesti keele morfoloogia ja süntaksi õpetamiseks
• Sofie paralleelpuudepank
Lause pindsüntaktiliselt märgendatud korpusest<s>
Mitmekesisus mitme_kesi=sus+0 //_S_ com sg nom #cap // **CLB
@SUBJon ole+0 //_V_ main indic pres ps3 sg ps af #FinV #Intr //
@+FMVelu elu+0 //_S_ com sg gen // @NN>vaieldamatu vaieldamatu+0 //_A_ pos sg nom // @AN>omapära oma_pära+0 //_S_ com sg nom // @PRD$. . //_Z_ Fst // </s>
Eesti keele puude pank Arborest
• Koostöö dr. Eckhard Bick’iga, University of Southern Denmark
• Märgendussüsteem: VISL (http://beta.visl.sdu.dk) • Märgendatud nii süntaktilised funktsioonid (S =
subject, P = predicate, O = object, A = adverbial,STA = statement, QUE = question, etc.) kui vormid (fraasistruktuur) (np, vp, pp, advp, adjp, fcl = finite clause, par = paratagma, etc.)
Arborest
• Automaatselt genereeritud EstCGC-st (2500 lauset) reeglitega, mis tuletavad pindsüntaktilisest märgendusest puustruktuuri
• 149 lauset käsitsi parandatud• Reeglid genereerisid 1/3 lausete struktuurid
korrektselt • Reegleid täiendatakse
Veebileht http://corp.hum.sdu.dk/arborest.html
Näitelause eesti keele puude pangast Arborest
Sofie paralleelpuudepank• Alustatud projekti Nordic Treebank
Network raames
• Materjal – esimesed kaks peatükki Jostein Gaarder‘i romaanist "Sofie maailm"
• Keeled: rootsi, saksa, norra, taani, islandi, fääri, eesti
• Sofie Paralleelpuudepanga veebileht:
http://omilia.uio.no/sofie
(user: ntn, password: opera)
Sofie Parallel Treebank
Sophie's father was the captain of a big oil tanker, and was away for most of the year.
Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid
Projekt VISL (Visual Interactive Syntax Learning) Lõuna-Taani Ülikoolis
• üle 20 keele; eesti keelega alustati 2004. a.• kõikide keelte jaoks loodud ühtses formaadis
süntaktiliselt märgendatud korpused ehk puude pangad
• veebileht: http://beta.visl.sdu.dk/visl
Eesti keele morfoloogia ja süntaksi interaktiivsed õpiprogrammid (2)
Eesti keele õpetamisotstarbeline puude pank: http://beta.visl.sdu.dk/visl/et– 100 lauset tekstina ja visualiseeritavad
süntaksipuuna– õppemängud:
• sõnaliikide tundmine (“Shooting gallery", „Labyrinth“, “Wordfall”)
• fraaside määramine• lause moodustajate süntaktiliste
funktsioonide määramine (“Space rescue”)
Võimalikud uurimisteemad• Korpuse EstCGC märgenduse korrektsuse ja
ühtluse automaatne kontrollimine• Sofie paralleelpuudepanga uurimine:
– erinevate keelte süntaktiliste struktuuride võrdlemine– automaatne fraaside joondamine
• Veebipõhised süntaksimängud: – tutvustamine koolides ja tagasiside kogumine– õpetamisotstarbelise puude panga suurendamine
• Katsetused masintõlke alal: näidetepõhine (EBMT = example-based machine translation) ja statistiline (SMT)
Fraaside joondamine paralleelpuudepangas
Süntaksjuhitav statistiline masintõlge
• SMT tööriist GenPar: http://www.clsp.jhu.edu/ws2005/groups/statistical/GenPar.html
• Vahend joondatud puustruktuuride visualiseerimiseks http://www.clsp.jhu.edu/ws2005/groups/statistical/mtv.html