automatska morfoloŠka anotacija u svetlu specifiČnosti bks
DESCRIPTION
AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala Laboratorija za akustiku i govorne tehnologije. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta - PowerPoint PPT PresentationTRANSCRIPT
GRAZ 2007
AUTOMATSKA MORFOLOŠKA ANOTACIJA U SVETLU SPECIFIČNOSTI BKS
Milan SečujskiFakultet tehničkih nauka, Novi SadKatedra za telekomunikacije i obradu signalaLaboratorija za akustiku i govorne tehnologije
GRAZ 2007
Jezičke tehnologije
Automatsko prevođenje tekstaAutomatsko rezimiranje tekstaAutomatsko nalaženje informacije u tekstuOptičko prepoznavanje pisanog tekstaAutomatsko vođenje dijaloga
Sinteza govora na osnovu tekstaPrepoznavanje govora
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
DANAS JE LEPO VREMEDA NAS JE LEPO VREMEDANAS JELE PO VREMEDA NAS JELE PO VREME
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
Ovaj kurs trajaće mesec dana.Mesec je blistao na nebu.
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
Kupili su francuski sir i konjak.
Dali su joj da pojede bananu jer je bila gladna.Dali su joj da pojede bananu jer je bila prezrela.
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
Jeli primio platu?
GRAZ 2007
Problemi jezičkih tehnologija
Segmentacija pisanog tekstaSegmentacija govoraRešavanje dvosmislenosti u pogledu značenja
rečiRešavanje sintaksnih dvosmislenostiPrevazilaženje nesavršenosti ulaznih podatakaUzimanje u obzir konteksta i namere govornika
Možeš li mi dodati so?
Koliko ste automobila prodali u februaru?
Pod je klizav.Pod je klizav!
GRAZ 2007
Može li računar da razmišlja kao čovek?
GRAZ 2007
Model prirodnog jezika
Opisati prirodni jezik na matematički način, razumljiv računaru Kako bi ta pravila trebalo da izgledaju? Kako se može doći do tih pravila? Opisati jezik nije isto što i naučiti koristiti ga!
Ovim problemom bavi se računarska lingvistika
GRAZ 2007
Statistička obrada prirodnog jezika
Podoblast veštačke inteligencije i lingvistikePotrebna je vrlo velika količina tekstualnog (ili
govornog) materijala za analizu Rečnici Tezaurusi Tekstualni korpusi
Potrebni su algoritmi za stohastičku analizu Deterministički algoritmi, pogotovo kod dužih
rečenica, vrlo često ne daju jedinstveno rešenje.
GRAZ 2007
Statistička obrada prirodnog jezika
Podoblast veštačke inteligencije i lingvistikePotrebna je vrlo velika količina tekstualnog (ili
govornog) materijala za analizu Rečnici Tezaurusi Tekstualni korpusi
Potrebni su algoritmi za stohastičku analizu Deterministički algoritmi, pogotovo kod dužih
rečenica, vrlo često ne daju jedinstveno rešenje.
TIME FLIES LIKE AN ARROW
GRAZ 2007
Rečnik
Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od straneračunara
LC Star
AlfaNum
GRAZ 2007
Rad na rečniku
GRAZ 2007
Korpus
Anotiran ili neanotiran U tekstu se reči javljaju u svim svojim pojavnim
oblicima
Kako razrešiti dvosmislenost? Na osnovu učestanosti vrste reči / vrednosti morf. kategorija Na osnovu učestanosti reči Na osnovu konteksta
KNJIGANc nom.sg.f.
KNJÎGANc gen.pl.f.
`̀
Pored svoje izdavačke delatnosti, Narodna knjiga počinje sa distribucijom stručne literature na engle-skom jeziku iz različitih oblasti.
?
GRAZ 2007
KorpusKorpus srpskog jezika (CSL)
GRAZ 2007
KorpusAlfaNumMULTEXT East
GRAZ 2007
Morfološka anotacija korpusa
Ručno ili automatski U oba slučaja podložno greškama
Morfološki deskriptori (tagovi) Šta će se obeležavati – stvar je dogovora Od toga šta će se obeležavati zavisi:
tačnost anotacije – ručne ili automatske upotrebljivost dobijenog korpusa
• Npr. ako je urađena lematizacija, dobijeni korpus može biti koristan u leksikografiji
GRAZ 2007
Tačnost automatske anotacije
Podatak koji uvek treba uzeti sa rezervom Treba reći koliko ima različitih tagova u usvojenom
sistemu i šta se tačno obeležava Treba reći pod kakvim uslovima je vršeno merenje
Tip teksta korišćenog za obuku Tip teksta korišćenog za testiranje
Postoje algoritmi koji rade i sa neanotiranim korpusom
GRAZ 2007
Zavisnost problema od jezika
Problem je u velikoj meri zavisan od jezikaPrimer: engleski i BKS
Engleski – siromašna morfologija, jednostavan sistem tagova
BKS – bogata morfologija, vrlo velik broj različitih tagova (preko 1000)
U engleskom jeziku informacija o službi u rečenici u mnogo većoj meri je sadržana u redu reči
GRAZ 2007
Zavisnost problema od jezika
Veća tačnost automatskih metoda za engleski Između većeg broja tagova lakše je pogrešiti Potreban je daleko veći obim materijala za obuku
automatskog algoritma za anotaciju na BKS da bi materijal bio statistički reprezentativan!
Problem retkih podataka
GRAZ 2007
Algoritmi za automatsku morfološku anotaciju
Algoritmi zasnovani na pravilima Ekspertski sistemi Transformaciona anotacija
Algoritmi zasnovani na statističkom modelu jezika Skriveni Markovljevi modeli
GRAZ 2007
Ekspertski sistemi
Najstariji pristup I faza: određivanje potencijalnih tagova rečnikom II faza: primena ručno pisanih pravilaKarlsson (1995), Voutilainen (1999)
Princip je u upotrebi u AlfaNum sistemu za sintezu govora na srpskom/hrvatskom jeziku 88% tačnosti morfološke anotacije 97.5% tačnosti akcentuacije
GRAZ 2007
AlfaNum sistem za morfološku anotaciju
VELIKA GOMILA KNJIGA ...
VELIKAADJ nom.sg.f.
`̀
VELIKAADJ voc.sg.f.
`̀
VELIKAADJ nom.pl.n.
`̀
VELIKAADJ acc.pl.n.
`̀
VELIKAADJ voc.pl.n.
`̀
. . .
GOMILANc nom.sg.f.
`
GOMILANc gen.pl.f.
`GOMILAVtr/ref pres.3p.sg.
`̀
. . .
KNJIGANc nom.sg.f.
KNJÎGANc gen.pl.f.
`̀
. . .
Primer: VELIKA GOMILA KNJIGA STOJI NA STOLU.
GRAZ 2007
AlfaNum sistem za morfološku anotaciju
ADJ nom.sg.f.["00] / Nc nom.sg.f.[\00]ADJ nom.sg.f.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ nom.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ acc.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ nom.pl.n.["00] / Nc nom.sg.f.[\00]ADJ acc.pl.n.["00] / Nc nom.sg.f.[\00]ADJ nom.pl.n.["00] / Nc gen.pl.f.["00]ADJ nom.sg.f.["00] / Nc gen.pl.f.["00]ADJ acc.pl.n.["00] / Nc gen.pl.f.["00]ADJ voc.sg.f.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ voc.pl.n.["00] / Vtr/ref pres.3p.sg.[0\0]ADJ voc.sg.f.["00] / Nc nom.sg.f.[\00]
ADJ voc.pl.n.["00] / Nc nom.sg.f.[\00]ADJ voc.sg.f.["00] / Nc gen.pl.f.["00]ADJ voc.pl.n.["00] / Nc gen.pl.f.["00]
126654322100
-2
-2-4-4
VELIKAADJ nom.sg.f.
`̀
VELIKAADJ voc.sg.f.
`̀
VELIKAADJ nom.pl.n.
`̀
VELIKAADJ acc.pl.n.
`̀
VELIKAADJ voc.pl.n.
`̀
GOMILANc nom.sg.f.
`
GOMILANc gen.pl.f.
`GOMILAVtr/ref pres.3p.sg.
KNJIGANc nom.sg.f.
KNJÎGANc gen.pl.f.
`̀
`̀
odbacuje se
Algoritam se izvršava u vremenu proporcionalnom dužini rečenice
Algoritam brzo daje parcijalne rezultate
GRAZ 2007
AlfaNum sistem za morfološku anotaciju
Izbor pravila Na osnovu statistika pojedinih vrsta reči Na osnovu gramatičkih pravila nađenih u
raspoloživoj literaturi Na osnovu empirijskih zaključaka koji se tiču
konkretnih reči
GRAZ 2007
AlfaNum sistem za morfološku anotaciju
Obrasci pravila Dodela n poena parcijalnoj hipotezi h = (w1, w2,... wl)
ako wl ima tag ti
ako wl ima tag ti a wl-1 ima tag tj ako wl ima tag ti, wl-1 ima tag tj, a wl-2 ima tag tk
ako wl ima tag ti, wl-1 ima tag tj, a vrednost morfološke kategorije c sadržane u tagu ti je ista (nije ista) kao vrednost odgovarajuće morfološke kategorije sadržane u tagu tj
GRAZ 2007
Mogućnost poluautomatske anotacije
Na opisani način može se izgraditi (skoro) 100% tačno anotiran korpus I faza: automatska morfološka anotacija II faza: ručno ispravljanje grešaka
Prednosti: Brzina i efikasnost Dobija se procena tačnosti algoritma Analiza grešaka → pravci daljeg usavršavanja
GRAZ 2007
Izgradnja korpusa
GRAZ 2007
Trenutno stanje na AlfaNum projektu
Realizovan akcenatski rečnik Preko 80.000 odrednica Preko 3.000.000 izvedenih oblika reči
Realizovan sistem za automatsku morfološku anotaciju 88% tačnosti
Realizovan (skoro) 100% tačno anotiran korpus rečenica na srpskom jeziku 100.000 reči mešovit sadržaj
GRAZ 2007
Poređenje sa MULTEXT East projektom
Realizovan ručno anotiran korpus rečenica na raznim istočnoevropskim jezicima uključujući i srpski 100.000 reči (George Orwell: „1984.“)
Nema odgovarajućeg rečnika Za srpski jezik postoji rečnik koji sadrži samo izvedene oblike
reči koje se javljaju u tekstu Nemoguća je potpuno objektivna evaluacija
algoritama za automatsku morfološku anotaciju Dobili bi se bolji rezultati nego što stvarno jesu
GRAZ 2007
Poređenje sa MULTEXT East projektom
Delimična kompatibilnost MULTEXT East posmatra kontekst širi od reči:
...no nedovoljno brzo da bi sprečio jednu spiralu oštre prašine da uđe zajedno s njim.
<w lemma="biti" ana="Vmca3s-an-n---p">bi</w>
Hodnik je zaudarao na kuvani kupus i stare otirače.
<w lemma="jesam" ana="Va-p3s-an-y---p">je</w>
KONDICIONAL AORIST
? PREZENT
GRAZ 2007
Šta možemo kada imamo korpus?
Možemo razvijati algoritme za još tačniju automatsku morfološku anotaciju Transformaciona anotacija Skriveni Markovljevi modeli Eksponencijalni morfološki anotatori Metode maksimizacije unakrsne entropije
GRAZ 2007
Transformaciona morfološka anotacija
Automatsko učenje na sopstvenim greškama Obuka
I faza: određivanje najverovatnijeg taga II faza: identifikacija pravila koja bi smanjila broj grešaka
GRAZ 2007
Transformaciona morfološka anotacija
Automatsko učenje na sopstvenim greškama Obuka
I faza: određivanje najverovatnijeg taga II faza: identifikacija pravila koja bi smanjila broj grešaka
Anotacija Primena naučenih pravila na novom tekstu
GRAZ 2007
Transformaciona morfološka anotacija
Problem visoko inflektivnih jezika Prevelik skup tagova Potrebna ogromna količina materijala za
reprezentativnu obukuKorak ka rešenju
Uvođenje generalnih pravila
GRAZ 2007
Skriveni Markovljevi modeli
Primer: estimacija mesta preseka (5) između eksona (E) i introna (I) kod DNA
MESTO PRESEKA
GRAZ 2007
Skriveni Markovljevi modeli
Obuka Ispitivanje verovatnoća da se posle određenog taga
(ili niza tagova) nađe neki drugiAnotacija
Određivanje najverovatnijeg niza tagovaVELIKA
ADJ nom.sg.f.`̀
VELIKAADJ voc.sg.f.
`̀
VELIKAADJ nom.pl.n.
`̀
VELIKAADJ acc.pl.n.
`̀
VELIKAADJ voc.pl.n.
`̀
GOMILANc nom.sg.f.
`
GOMILANc gen.pl.f.
`GOMILAVtr/ref pres.3p.sg.
KNJIGANc nom.sg.f.
KNJÎGANc gen.pl.f.
`̀
`̀
P (ADJ nom.sg.f → Nc nom.sg.f.) = 0.33P (ADJ nom.sg.f → Nc gen.pl.f.) = 0.02P (ADJ nom.sg.f → Vtr/ref pres.3p.sg.) = 0.05P (ADJ voc.sg.f → Nc nom.sg.f.) = 0.01P (ADJ voc.sg.f → Nc gen.pl.f.) = 0.02 . . .
GRAZ 2007
Skriveni Markovljevi modeli
Red Markovljevih modela Zavisno od toga da li posmatramo zavisnost samo
od prethodne reči ili od nekoliko prethodnih reči Sa porastom reda drastično raste potrebna količina
materijala za obukuProblemi vezani za inflektivne jezike
Svi problemi koji se javljaju i kod ostalih jezika daleko su izraženiji kod visoko inflektivnih
GRAZ 2007
Šta još možemo kada imamo korpus?
Analiza različitih upotreba iste rečiAnaliza učestanosti pojedinih rečiAnaliza fraza, idioma i kolokacija
Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka.
GRAZ 2007
Šta još možemo kada imamo korpus?
Analiza različitih upotreba iste rečiAnaliza učestanosti pojedinih rečiAnaliza fraza, idioma i kolokacija
Krušaka: Pita od krušaka u karamelu, slatkiš od krušaka, stare sorte jabuka, krušaka, Tržište ranim kvalitetnim sortama krušaka, Nakon pranja i sušenja krušaka, fero-hloroza krušaka, desert od krušaka, sastaviti polovine krušaka, 1kg krušaka, Rakija od krušaka, salata od jabuka i krušaka, odlična zaštita jabuka i krušaka, dvije sorte krušaka na istom stablu, umjesto krušaka može i jabuke, površina plantažnih voćnjaka krušaka, Najopasnija bolest jabuka i krušaka.
Internet kao korpus: izuzetno velik neanotiran besplatan pun grešaka
GRAZ 2007
Zaključak
Ovde se radi o matematičkom problemuZavisnost od jezika
Neki algoritmi su pogodniji za neke porodice jezika Neke porodice jezika su pogodnije za automatsku
morfološku anotacijuOvo su za sada najreprezentativniji rezultati
istraživanja za BKS
GRAZ 2007
Hvala na pažnji!
44