arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. tänapäeva...
TRANSCRIPT
Keeletehnoloogia
Kursus „Sissejuhatus informaatikasse“
Heili Orav
Tartus, 29. oktoober 2014
Juttu tuleb sellest:
• mis on keeletehnoloogia
• milline on keeletehnoloogia praktiline väljund, selle rakendused
• kuidas seda tehakse
• kes teeb
• miks peaks keeletehnoloogiaga tegelema
2
3
4
teooria teooria rakendus
LINGVISTIKA
inimkeel
ARVUTILINGVISTIKA → KEELETEHNOLOOGIA
inimkeele arvutitöötlus inimkeele arvutitöötluse
(computational linguistics) meetodid ja vahendid
(language technology;
natural language processing (NLP))
INFORMAATIKA
infotöötlus arvutis5
6
Eesmärgid keelelise info säilitamine ja automaatne otsimine
(loomuliku keele tekste sisaldavad andmebaasid)
suhtlus arvutiga loomulikus keeles (ekspertsüsteemidega,
andmebaasidega)
kõnetuvastus ja -süntees
masintõlge
tehisintellekt
Mees jäi sõjas kuulirahe alla.
Mees on surnud.7
Keeletehnoloogia ülim eesmärk:
Ehitada süsteem, mis simuleerib inimkeele
mõistmist (natural language understanding)
• sisend: inimkeelne lausung
• väljund: vastused küsimustele nagu
Kes tegi (või teeb) mida kellele, millal, kus ja
miks?
• Kõik keeletehnoloogia rakendused eeldavad
mingil tasandil loomuliku keele
automaatanalüüsi ja/või sünteesi8
Loomuliku keele mõistmiseks vajalikud teadmised:
•Foneetiline ja fonoloogiline teadmus (kuidas sõnad on seotud häälikutega, mis neid
realiseerivad). Oluline kõnepõhistes süsteemides.
•Morfoloogiline (kuidas sõnad on konstrueeritud väiksematest tähendusühikutest, nn.
morfeemidest: raamatu+te+le)
•Süntaktiline (kuidas moodustada sõnadest korrektne lause, millist rolli mängib iga sõna,
millised fraasid on milliste osad)
•Semantiline (mida sõnad tähendavad ja kuidas need tähendused kombineeruvad lause
tähenduseks) - kontekstist sõltumatu tähendus
•Pragmaatiline (kuidas lauseid kasutatakse erinevates situatsioonides ja kuidas see kasutus
mõjutab lause interpretatsiooni)
•Diskursuse teadmus (kuidas vahetult eelnevad laused mõjutavad järgmise lause
interpreteerimist)
•Maailmateadmus (üldine teadmus maailma struktuuri kohta, mida keelekasutajad peavad
arvestama nt. suhtlemisel, sh. see, mida iga keelekasutaja peab teadma teiste kasutajate
arvamuste ja eesmärkide kohta)9
Keeletöötluse arhitektuurhttp://www.meta-net.eu/whitepapers/e-book/estonian.pdf
10
Keeletehnoloogia lühikese ajaloo jooksul on juba
loodud küllalt palju tarkvara eesti keele jaoks
(osa neist mitmes variandis).
Näiteks kui eesmärk on masintõlge, on vaja
eelnevalt teha:
Morfoloogilist analüüsi
Süntaktilist analüüsi
Semantilist analüüsi
Võib-olla ka pragmaatilist analüüsi (nt ametlik
keelekasutus) 11
Keeleline kontroll http://www.meta-net.eu/whitepapers/e-book/estonian.pdf
12
13
Korpus on keeleainese kogumik, mida kasutatakse
uurimistöös materjalina vastandina autori enda intuitsioonil
põhinevatele üldistustele.
Korpus on elektrooniline keele (teksti või kõne) kogum, mille
alusel saab:
analüüsida keelt, et tema omadusi kindlaks teha;
treenida mingit arvutiprogrammi, et kohandada teda tööks
tekstidega teatud piiritletud olukorras;
empiiriliselt kontrollida keele kohta käivat teooriat;
testida keeletehnoloogilist võtet või rakendust, et selgitada,
kuidas ta töötab praktikas. 14
Korpused – mis meil on:
• Eesti kirjakeele korpus
• Meditsiinikeele korpus
• Inglise-eesti ja eesti-inglise paralleelkorpus
• Vana kirjakeele korpus
• Eesti murrete korpus
• Suulise keele korpus
• Uue meedia korpus
jpm 15
Kas smoothie või smuuti? Või hoopis
mahedik?
Kas creme brulee või brüleekreem?
Šoppama, ostlema või poodlema?
Sponsor vs toetaja – kas on tähenduslik
erinevus?
Kuidas kasutatakse sõna ’tõusetuma’?
Mis tekstiliiki see kuulub? Mida
tähendab?
16
1600-Myller02__144. lk
12 Iumall antkut meile oma Armu , et meÿe se~+ +sarn
se suhre <suur ADJ G, Sg eesti> hee <hea ADJ G,
Sg eesti> tegkomeße tunnexime , ninck lebbÿ <läbi abi
l ADP eesti> v¨che <üks PRON G, Sg eesti>
kindla vßu <usk S G,Sg eesti> wasto wottame , ninck
meÿe omax tehme , et meÿe kaas lebbÿ Ihm <Jeesus
S_NIMI eesti> Chrm <Kristus S_NIMI eesti> meddi Iß
anda sest Pattust , Surmast , ►
Kurratist , Pörgku+ +hauwast ninck igkeweßest nuchtl
ußest ollemeerra+ +peestetuth , ninck se~ wasta Iumal
a Lapsex ninck Perrux olleme techtut . 17
ARVUTIVERSIOON (ingl machine
readable dictionary, MRD)
LEKSIKAALNE ANDMEBAAS
(ingl lexical database ~ machine tractable
dictionary, LDB ~ MTD)
LEKSIKAALNE TEADMUSBAAS (ingl
lexical knowledge base, LKB)18
Eesti Wordneti taust
• wordnet’ide „ema“ – Princetoni WordNet
• maailmas üle 60 erineva keele wordneti
• 1998-1999 osalesime EuroWordNet-2
projektis koos inglise, hollandi, itaalia,
hispaania, saksa, prantsuse, tšehhi keele
wordnet’idega
19
Ühte mõistet väljendavad sünonüümsed sõnad (ja sõnaühendid) moodustavad sünohulga.
Näiteks:
nimisõnaline mõiste: naine, abikaasa, abielunaine;
tegusõnaline: minema, sujuma, edenema, jooksma, laabuma;
omadussõnaline: mõistlik, ratsionaalne, otstarbekas, tõhus, põhjendatud;
määrsõnaline: sageli, sagedasti, tihti
Mõistetevahelised semantilised suhted
Seotud inglise keelega (ILI, InterLingualIndex)
20
Semantilised suhted WN-s
Erinevad sõnaliigiti
Nimisõnadel:hierarhilised suhtedosa-terviku suhted
Verbidel:hierarhilised suhted
rollisuhtedpõhjussuhted
Omadussõnadel:antonüümiaseisundisuhe
21
Taksonoomilised erinevused:
Loom soome ja taani keeles
Finnish Danish
22
Mis sellest kasu on?
• semantilistel suhetel põhinev arvutitesaurus
on abiks:
– intelligentsete otsisüsteemide loomisel,
mis oleksid võimelised otsima
• mõistete järgi
• kõigis keeltes, millel on wordnet
– elektrooniliste tõlkija abivahendite
loomisel
– muude sõnastike tegemisel23
Kirjaliku keele töötluse etapid
Morfo-
loogia
(sõna)
Süntaks
(lause)
Semantika
(lause
tähendus)
Analüüs e. tuvastus
Süntees e. genereerimine
Pragmaatika
(lause
kontekst)
Keelemudelite universaalsus?
Inglise keele jaoks palju asju tehtud. Kas saame kõike sedakasutada ka eesti keele jaoks?
Keeletöötlusalgoritmid ei saa olla päris universaalsed, sestkeeled on erinevad.
Nt eesti keeles on rikas morfoloogia (käändsõnadel 14käänet, pöördsõnadel ca 70 erinevat grammatilist vormi)
Käändeid kasutatakse kaassõnade asemel või paralleelseltnendega:
läks metsa = läks *metsa sisse (went to the forest)
laual = laua peal (on the table)
isaga = koos isaga (with father)
25
Paljudes keeltes on kasutusel tuletuslik morfoloogia ja selle
äratundmine võimaldab vähendada sõnastike mahtu.
Näiteks inglise keeles -ing lõpp tegusõnal muudab sõna
kesksõnaks. Kui võtta põhivormi leidmise operatsiooniks lihtsalt -
ing lõpu eraldamise, siis see töötaks sõnade puhul nagu trying
või testing, aga sõna having puhul annaks tulemuseks hav.
Lisaks analüüsiks selline reegel valesti sõna bring, andes
tulemuseks br.
Näiteks inglise keeles on võimalik prefiksite non- ja un-
äratundmine või siis määrsõnade tuletamine omadussõnadest -ly
suffiksite abil. Aga siingi on probleeme - näiteks -er suffiks
võimaldab inglise keeles tihti tegusõnast tuletada inimese
tegijanime (dance - dancer, drive - driver), kuid näiteks sõna
computer ei tähenda arvutavat inimest, vaid arvutit. 26
Morfoloogilise analüüsi tulemusena:
1. Võime saada teada, millistest formatiividest e. morfeemidest
e. klotsidest sõna on moodustatud; mis järjekorras
morfeeme liidetakse ja millised on seejuures piirangud.
Antud näite puhul: juur e. tüvi + mitmuse tunnus +
käändelõpp
2. Mis liiki informatsiooni sõnavorm sisaldab (mis liiki infot
üldse võib sisaldada; mis liiki infot antud konkreetses
keeles). Antud juhul sõnaliik, arv, kääne; aga mitte omanik
(nagu ungari keeles) ega sugu (nagu paljudes indo-euroopa
keeltes)
Eestikeelne näide: lennukites ->
1. lennuki+te+s
2. lennuk; nimisõna, mitmuse seesütlev 27
Eesti k. morf analüüs töötab nii, et sõnesid
analüüsitakse paremalt vasakule, st kasutades
lõppude ja liidete mahalõikamist ning tüve(de)
kontrollimist leksikonist, milles on 38000 sõna
tüved (67 000 tükki).
Oletaja – kuni 3% sõnad, mille analüüsimiseks ei ole
sõnastikust abi: pärisnimed, võõrsõnad, lühendid
jms
28
Keelemudelite universaalsus? (2)
Eestikeelses tekstis on keskmiselt 45% homograafe –sõnavorme, millel on mitu erinevat võimalikku semantilist ja/või grammatilist tähendust.
Näited: sai,viis,tee,või,tuli
→ morfoloogilise ühestamise vajadus
29
Morf ühestamine seisneb morf.
analüüsitud lause igale sõnale tema
võimalike morf.märgendite hulgast õige
valimises.
Nt: mees
mees+0 //_S_ sg n, //
mesi+s //_S_ sg in, //
jooksime
jooks+ime //_V_ sime, //
joo+ksime //_V_ ksime, //
Eesti keeles sõna morfoloogiline analüüs sõltub LAUSE
kontekstist! 30
31
Mitmesused
• maailma -OMAST - juhtivad majandusriigid
• maailma -OSAST - juhtivad majandusriigid
• maailma -SISSE - juhtivad majandusriigid
• surnud – OMADUSSÕNA - mees
• surnud – TEGUSÕNA - mees
Keelemudelite universaalsus? (3)
Eesti keeles vaba sõnajärg: kõik järgmised laused on grammatiliselt korrektsed:
Mart läheb täna õhtul teatrisse.
Täna õhtul läheb Mart teatrisse.
Täna õhtul Mart läheb teatrisse.
Täna õhtul läheb teatrisse Mart.
Teatrisse läheb täna õhtul Mart.
Teatrisse läheb Mart täna õhtul.
Teatrisse Mart läheb täna õhtul.
→ Eesti keele süntaksianalüsaator ei saa eriti toetuda sõnade järjekorrale lauses.
32
Mida tähendab süntaktiline
märgendamine?
http://lepo.it.da.ut.ee/~kaili/Syntax/puudepank.html
33
Struktuurilised
mitmetitõlgendatavused
kurjad koerad ja kassid
kurjad koerad ja kassid
34
Süntaksianalüüsil põhinev
keeletarkvara
• Grammatikakorrektor (grammar check)
• Automaatne sisukokkuvõtete tegija (automatic
summarization)
• Küsimus-vastus-süsteemid (question answering =
QA)
• Infootsijad (information retrieval = IR) ja info
ekstraheerijad (information extraction = IE)
• Masintõlkesüsteemid (machine translation = MT)
Masintõlge – milleks?
• otsimiseks, arusaamiseks
• tõlkevaeva kergendamiseks (nt saate
algversiooni, mida natuke on vaja toimetada)
• mitmekeelsuse puhul, nt otsides ‘lasteaiad
Tartus’ leitakse ka leheküljed, kus esineb
‘kindergarten in Tartu’
36
Masintõlge
• Reeglipõhine (systran, promt, gramtrans.com):
morfoloogiline analüüs -> süntaktiline analüüs -
> interlingua (vahevorm, mille abil viiakse
teadmus üle teisele keelele) -> süntaktiline
süntees -> morfoloogiline süntees
• Statistiline (google, bing) - programm õpib
tõlkima kasutades etteantud paralleelkorpusi ja
statistilisi meetodeid, väga mahukad mudelid,
vajab suuri korpusi treenimiseks, tõlke kvaliteet
sõltub korpuste kvaliteedist37
Masintõlkesüsteemid:
• http://translate.google.com
• http://www.bing.com/translator
• http://masintolge.ut.ee
• http://www.tilde.ee/tolketooriist
38
Dialoogisüsteem on agentide omavaheline suhtlus, kus
agentideks võivad olla nii inimene kui arvuti.
Arvuti puhul tuleb tavaliselt arvestada tema küllaltki piiratud
suhtlemisvõimega.
Eestikeelsed dialoogsüsteemid
Kinoagent ja Hambahaldjas (Margus Treumuth):
http://www.dialoogid.ee/
39
40
Kõnetehnoloogia
http://phon.ioc.ee/dokuwiki/
• Kõnetuvastus on tehnoloogia, mille abil leitakse automaatselt sõnad
ja laused, mis kõige paremini vastavad sisendiks olevale inimkõnele.
Võimalikud rakendused: dikteerimine või tuvastatud sõnade põhjal
käskluste edastamine seadmetele, kõne semantiline analüüs
automaatses dialoogisüsteemis.
• Kõnetuvastusteadus on interdistsiplinaarne valdkond,
kus kasutatakse meetodeid arvutiteadusest, signaalitöötlusest,
matemaatikast, foneetikast ja lingvistikast. Tänapäeva
kõnetuvastusmootorite südameks on statistilised mudelid, mille
parameetrid „treenitakse“ suurte kõne- ja tekstikogumite põhjal
ning kasutatavad algoritmid on keelest sõltumatud. 41
42
http://www.postimees.ee/607184/telefon-paneb-eestikeelse-jutu-ule-
ootuste-hasti-kirja
Üks väheseid saadaolevaid keeletehnoloogia rakendusi
mobiiltelefonis on TTÜ küberneetika instituudi lahenduste põhjal
valminud programm nimega Diktofon Android-tarkvaraga
telefonidele.
Selle rakenduse võib igaüks tasuta Android Marketist alla laadida
ja katsetada.
Kõnetehnoloogia 2
Kõnesüntesaatori eesmärk: teisendada eestikeelne kirjalik
tekst suuliseks kõneks.
http://heli.eki.ee/
Kaasajal on kõnesüntees muutumas virtuaalse reaalsuse üheks
osaks, olles virtuaalne partner dialoogsüsteemis, uudiste,
raamatute ja subtiitrite ettelugeja, keeleõpetaja, infovahendaja
nägemispuudega inimestele jpm.
Praegusel hetkel on eriti aktuaalsed järgmised rakendused:
digiraamatute genereerimine, et uued raamatud oleksid
kättesaadavad heliraamatuna samaaegselt trükis ilmuvatega ja
subtiitrite ettelugemine digitelevisioonivõrgus, koostöös Eesti
Rahvusringhäälingu ning Eesti Pimedate Liiduga. 43
44
Audiovisuaalne kõnesüntees:
Audiovisuaalse kõnesünteesi puhul lisatakse
heliväljundile ka animeeritud inimnäo või
pea kujutis
Visuaalne esitus aitab kaasa kõnest aru
saamisele, eriti kui seda segavad müra või
kuulmispuue
45
46
Kõnelejatuvastus
inimkõne => kes rääkis?
•Millistes akustilistes tunnustes väljendub kõneleja isikupära?
•Tunnuste kõnelejasisesed ja kõnelejate vahelised piirid
Rakendusnäide: kohtufoneetika
Kõnelejatuvastus: kõneleja identifitseerimine või eristamine, kõneleja
isiku kirjeldamine (sugu, vanus, häälekvaliteet, keel, murdetaust,
sotsiaalne päritolu, …)
Salvestuse sisu analüüs: salvestuses osalevate isikute arvu ja nende poolt
kõneldu kirjalik fikseerimine
Tausthelide analüüs: sündmuse koha ja aja määramine
47
Kõne ja teksti emotsionaalsus
• Emotsioonidetektor hindab sõnavara põhjal,
kas tekst on positiivne, negatiivne, neutraalne
või vastuoluline, ehk teiste sõnadega,
KUIDAS TEKST VÕIKS LUGEJALE
MÕJUDA.
Emotsioonidetektor
http://peeter.eki.ee:5000/valence/
Emotsioonidetektor annab hinnangu lõigule
selle järgi, millise emotsiooniga sõnad on
ülekaalus. 48
Arvutilingvistika ja keeletehnoloogiaEestis
TÜ keeletehnoloogia uurimisrühmhttp://www.cs.ut.ee/~koit/KT/TÜ arvutilingvistika uurimisrühm www.cl.ut.eeTTÜ foneetika ja kõnetehnoloogia labor (kõnetuvastus)http://www.phon.ioc.eeEesti Keele Instituudi keeleteaduse ja –tehnoloogiaosakond www.eki.eeRiiklik programm ‘Eesti keeletehnoloogia’www.keeletehnoloogia.ee
49
• KeeleWeb – www.keeleveeb.ee
Eesti keele käsiraamat!; Sõnastikud (sh ÕS, EKSS); Eesti keele tarkvara; Tõlkesõnastikud; Võõrkeelsed sõnastikud; Kasulikud viited. Tasuta!
• Keelevara – www.keelevara.ee
Nt: Sõnastikud, Eesti elanike nimed 1900-2004 - Osaliselt tasuline!
Filosoft – www.filosoft.ee
• poolitaja - esimesi eesti keele spetsiifilisi rakendusi
• speller
• morfoloogiline analüsaator50
51