arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. tänapäeva...

51
Keeletehnoloogia Kursus „Sissejuhatus informaatikasse“ Heili Orav [email protected] Tartus, 29. oktoober 2014

Upload: others

Post on 21-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keeletehnoloogia

Kursus „Sissejuhatus informaatikasse“

Heili Orav

[email protected]

Tartus, 29. oktoober 2014

Page 2: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Juttu tuleb sellest:

• mis on keeletehnoloogia

• milline on keeletehnoloogia praktiline väljund, selle rakendused

• kuidas seda tehakse

• kes teeb

• miks peaks keeletehnoloogiaga tegelema

2

Page 3: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

3

Page 4: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

4

Page 5: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

teooria teooria rakendus

LINGVISTIKA

inimkeel

ARVUTILINGVISTIKA → KEELETEHNOLOOGIA

inimkeele arvutitöötlus inimkeele arvutitöötluse

(computational linguistics) meetodid ja vahendid

(language technology;

natural language processing (NLP))

INFORMAATIKA

infotöötlus arvutis5

Page 6: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

6

Page 7: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Eesmärgid keelelise info säilitamine ja automaatne otsimine

(loomuliku keele tekste sisaldavad andmebaasid)

suhtlus arvutiga loomulikus keeles (ekspertsüsteemidega,

andmebaasidega)

kõnetuvastus ja -süntees

masintõlge

tehisintellekt

Mees jäi sõjas kuulirahe alla.

Mees on surnud.7

Page 8: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keeletehnoloogia ülim eesmärk:

Ehitada süsteem, mis simuleerib inimkeele

mõistmist (natural language understanding)

• sisend: inimkeelne lausung

• väljund: vastused küsimustele nagu

Kes tegi (või teeb) mida kellele, millal, kus ja

miks?

• Kõik keeletehnoloogia rakendused eeldavad

mingil tasandil loomuliku keele

automaatanalüüsi ja/või sünteesi8

Page 9: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Loomuliku keele mõistmiseks vajalikud teadmised:

•Foneetiline ja fonoloogiline teadmus (kuidas sõnad on seotud häälikutega, mis neid

realiseerivad). Oluline kõnepõhistes süsteemides.

•Morfoloogiline (kuidas sõnad on konstrueeritud väiksematest tähendusühikutest, nn.

morfeemidest: raamatu+te+le)

•Süntaktiline (kuidas moodustada sõnadest korrektne lause, millist rolli mängib iga sõna,

millised fraasid on milliste osad)

•Semantiline (mida sõnad tähendavad ja kuidas need tähendused kombineeruvad lause

tähenduseks) - kontekstist sõltumatu tähendus

•Pragmaatiline (kuidas lauseid kasutatakse erinevates situatsioonides ja kuidas see kasutus

mõjutab lause interpretatsiooni)

•Diskursuse teadmus (kuidas vahetult eelnevad laused mõjutavad järgmise lause

interpreteerimist)

•Maailmateadmus (üldine teadmus maailma struktuuri kohta, mida keelekasutajad peavad

arvestama nt. suhtlemisel, sh. see, mida iga keelekasutaja peab teadma teiste kasutajate

arvamuste ja eesmärkide kohta)9

Page 10: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keeletöötluse arhitektuurhttp://www.meta-net.eu/whitepapers/e-book/estonian.pdf

10

Page 11: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keeletehnoloogia lühikese ajaloo jooksul on juba

loodud küllalt palju tarkvara eesti keele jaoks

(osa neist mitmes variandis).

Näiteks kui eesmärk on masintõlge, on vaja

eelnevalt teha:

Morfoloogilist analüüsi

Süntaktilist analüüsi

Semantilist analüüsi

Võib-olla ka pragmaatilist analüüsi (nt ametlik

keelekasutus) 11

Page 12: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keeleline kontroll http://www.meta-net.eu/whitepapers/e-book/estonian.pdf

12

Page 13: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

13

Page 14: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Korpus on keeleainese kogumik, mida kasutatakse

uurimistöös materjalina vastandina autori enda intuitsioonil

põhinevatele üldistustele.

Korpus on elektrooniline keele (teksti või kõne) kogum, mille

alusel saab:

analüüsida keelt, et tema omadusi kindlaks teha;

treenida mingit arvutiprogrammi, et kohandada teda tööks

tekstidega teatud piiritletud olukorras;

empiiriliselt kontrollida keele kohta käivat teooriat;

testida keeletehnoloogilist võtet või rakendust, et selgitada,

kuidas ta töötab praktikas. 14

Page 15: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Korpused – mis meil on:

• Eesti kirjakeele korpus

• Meditsiinikeele korpus

• Inglise-eesti ja eesti-inglise paralleelkorpus

• Vana kirjakeele korpus

• Eesti murrete korpus

• Suulise keele korpus

• Uue meedia korpus

jpm 15

Page 16: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Kas smoothie või smuuti? Või hoopis

mahedik?

Kas creme brulee või brüleekreem?

Šoppama, ostlema või poodlema?

Sponsor vs toetaja – kas on tähenduslik

erinevus?

Kuidas kasutatakse sõna ’tõusetuma’?

Mis tekstiliiki see kuulub? Mida

tähendab?

16

Page 17: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

1600-Myller02__144. lk

12 Iumall antkut meile oma Armu , et meÿe se~+ +sarn

se suhre <suur ADJ G, Sg eesti> hee <hea ADJ G,

Sg eesti> tegkomeße tunnexime , ninck lebbÿ <läbi abi

l ADP eesti> v¨che <üks PRON G, Sg eesti>

kindla vßu <usk S G,Sg eesti> wasto wottame , ninck

meÿe omax tehme , et meÿe kaas lebbÿ Ihm <Jeesus

S_NIMI eesti> Chrm <Kristus S_NIMI eesti> meddi Iß

anda sest Pattust , Surmast , ►

Kurratist , Pörgku+ +hauwast ninck igkeweßest nuchtl

ußest ollemeerra+ +peestetuth , ninck se~ wasta Iumal

a Lapsex ninck Perrux olleme techtut . 17

Page 18: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

ARVUTIVERSIOON (ingl machine

readable dictionary, MRD)

LEKSIKAALNE ANDMEBAAS

(ingl lexical database ~ machine tractable

dictionary, LDB ~ MTD)

LEKSIKAALNE TEADMUSBAAS (ingl

lexical knowledge base, LKB)18

Page 19: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Eesti Wordneti taust

• wordnet’ide „ema“ – Princetoni WordNet

• maailmas üle 60 erineva keele wordneti

• 1998-1999 osalesime EuroWordNet-2

projektis koos inglise, hollandi, itaalia,

hispaania, saksa, prantsuse, tšehhi keele

wordnet’idega

19

Page 20: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Ühte mõistet väljendavad sünonüümsed sõnad (ja sõnaühendid) moodustavad sünohulga.

Näiteks:

nimisõnaline mõiste: naine, abikaasa, abielunaine;

tegusõnaline: minema, sujuma, edenema, jooksma, laabuma;

omadussõnaline: mõistlik, ratsionaalne, otstarbekas, tõhus, põhjendatud;

määrsõnaline: sageli, sagedasti, tihti

Mõistetevahelised semantilised suhted

Seotud inglise keelega (ILI, InterLingualIndex)

20

Page 21: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Semantilised suhted WN-s

Erinevad sõnaliigiti

Nimisõnadel:hierarhilised suhtedosa-terviku suhted

Verbidel:hierarhilised suhted

rollisuhtedpõhjussuhted

Omadussõnadel:antonüümiaseisundisuhe

21

Page 22: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Taksonoomilised erinevused:

Loom soome ja taani keeles

Finnish Danish

22

Page 23: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Mis sellest kasu on?

• semantilistel suhetel põhinev arvutitesaurus

on abiks:

– intelligentsete otsisüsteemide loomisel,

mis oleksid võimelised otsima

• mõistete järgi

• kõigis keeltes, millel on wordnet

– elektrooniliste tõlkija abivahendite

loomisel

– muude sõnastike tegemisel23

Page 24: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Kirjaliku keele töötluse etapid

Morfo-

loogia

(sõna)

Süntaks

(lause)

Semantika

(lause

tähendus)

Analüüs e. tuvastus

Süntees e. genereerimine

Pragmaatika

(lause

kontekst)

Page 25: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keelemudelite universaalsus?

Inglise keele jaoks palju asju tehtud. Kas saame kõike sedakasutada ka eesti keele jaoks?

Keeletöötlusalgoritmid ei saa olla päris universaalsed, sestkeeled on erinevad.

Nt eesti keeles on rikas morfoloogia (käändsõnadel 14käänet, pöördsõnadel ca 70 erinevat grammatilist vormi)

Käändeid kasutatakse kaassõnade asemel või paralleelseltnendega:

läks metsa = läks *metsa sisse (went to the forest)

laual = laua peal (on the table)

isaga = koos isaga (with father)

25

Page 26: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Paljudes keeltes on kasutusel tuletuslik morfoloogia ja selle

äratundmine võimaldab vähendada sõnastike mahtu.

Näiteks inglise keeles -ing lõpp tegusõnal muudab sõna

kesksõnaks. Kui võtta põhivormi leidmise operatsiooniks lihtsalt -

ing lõpu eraldamise, siis see töötaks sõnade puhul nagu trying

või testing, aga sõna having puhul annaks tulemuseks hav.

Lisaks analüüsiks selline reegel valesti sõna bring, andes

tulemuseks br.

Näiteks inglise keeles on võimalik prefiksite non- ja un-

äratundmine või siis määrsõnade tuletamine omadussõnadest -ly

suffiksite abil. Aga siingi on probleeme - näiteks -er suffiks

võimaldab inglise keeles tihti tegusõnast tuletada inimese

tegijanime (dance - dancer, drive - driver), kuid näiteks sõna

computer ei tähenda arvutavat inimest, vaid arvutit. 26

Page 27: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Morfoloogilise analüüsi tulemusena:

1. Võime saada teada, millistest formatiividest e. morfeemidest

e. klotsidest sõna on moodustatud; mis järjekorras

morfeeme liidetakse ja millised on seejuures piirangud.

Antud näite puhul: juur e. tüvi + mitmuse tunnus +

käändelõpp

2. Mis liiki informatsiooni sõnavorm sisaldab (mis liiki infot

üldse võib sisaldada; mis liiki infot antud konkreetses

keeles). Antud juhul sõnaliik, arv, kääne; aga mitte omanik

(nagu ungari keeles) ega sugu (nagu paljudes indo-euroopa

keeltes)

Eestikeelne näide: lennukites ->

1. lennuki+te+s

2. lennuk; nimisõna, mitmuse seesütlev 27

Page 28: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Eesti k. morf analüüs töötab nii, et sõnesid

analüüsitakse paremalt vasakule, st kasutades

lõppude ja liidete mahalõikamist ning tüve(de)

kontrollimist leksikonist, milles on 38000 sõna

tüved (67 000 tükki).

Oletaja – kuni 3% sõnad, mille analüüsimiseks ei ole

sõnastikust abi: pärisnimed, võõrsõnad, lühendid

jms

28

Page 29: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keelemudelite universaalsus? (2)

Eestikeelses tekstis on keskmiselt 45% homograafe –sõnavorme, millel on mitu erinevat võimalikku semantilist ja/või grammatilist tähendust.

Näited: sai,viis,tee,või,tuli

→ morfoloogilise ühestamise vajadus

29

Page 30: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Morf ühestamine seisneb morf.

analüüsitud lause igale sõnale tema

võimalike morf.märgendite hulgast õige

valimises.

Nt: mees

mees+0 //_S_ sg n, //

mesi+s //_S_ sg in, //

jooksime

jooks+ime //_V_ sime, //

joo+ksime //_V_ ksime, //

Eesti keeles sõna morfoloogiline analüüs sõltub LAUSE

kontekstist! 30

Page 31: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

31

Mitmesused

• maailma -OMAST - juhtivad majandusriigid

• maailma -OSAST - juhtivad majandusriigid

• maailma -SISSE - juhtivad majandusriigid

• surnud – OMADUSSÕNA - mees

• surnud – TEGUSÕNA - mees

Page 32: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Keelemudelite universaalsus? (3)

Eesti keeles vaba sõnajärg: kõik järgmised laused on grammatiliselt korrektsed:

Mart läheb täna õhtul teatrisse.

Täna õhtul läheb Mart teatrisse.

Täna õhtul Mart läheb teatrisse.

Täna õhtul läheb teatrisse Mart.

Teatrisse läheb täna õhtul Mart.

Teatrisse läheb Mart täna õhtul.

Teatrisse Mart läheb täna õhtul.

→ Eesti keele süntaksianalüsaator ei saa eriti toetuda sõnade järjekorrale lauses.

32

Page 33: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Mida tähendab süntaktiline

märgendamine?

http://lepo.it.da.ut.ee/~kaili/Syntax/puudepank.html

33

Page 34: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Struktuurilised

mitmetitõlgendatavused

kurjad koerad ja kassid

kurjad koerad ja kassid

34

Page 35: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Süntaksianalüüsil põhinev

keeletarkvara

• Grammatikakorrektor (grammar check)

• Automaatne sisukokkuvõtete tegija (automatic

summarization)

• Küsimus-vastus-süsteemid (question answering =

QA)

• Infootsijad (information retrieval = IR) ja info

ekstraheerijad (information extraction = IE)

• Masintõlkesüsteemid (machine translation = MT)

Page 36: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Masintõlge – milleks?

• otsimiseks, arusaamiseks

• tõlkevaeva kergendamiseks (nt saate

algversiooni, mida natuke on vaja toimetada)

• mitmekeelsuse puhul, nt otsides ‘lasteaiad

Tartus’ leitakse ka leheküljed, kus esineb

‘kindergarten in Tartu’

36

Page 37: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Masintõlge

• Reeglipõhine (systran, promt, gramtrans.com):

morfoloogiline analüüs -> süntaktiline analüüs -

> interlingua (vahevorm, mille abil viiakse

teadmus üle teisele keelele) -> süntaktiline

süntees -> morfoloogiline süntees

• Statistiline (google, bing) - programm õpib

tõlkima kasutades etteantud paralleelkorpusi ja

statistilisi meetodeid, väga mahukad mudelid,

vajab suuri korpusi treenimiseks, tõlke kvaliteet

sõltub korpuste kvaliteedist37

Page 38: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Masintõlkesüsteemid:

• http://translate.google.com

• http://www.bing.com/translator

• http://masintolge.ut.ee

• http://www.tilde.ee/tolketooriist

38

Page 39: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Dialoogisüsteem on agentide omavaheline suhtlus, kus

agentideks võivad olla nii inimene kui arvuti.

Arvuti puhul tuleb tavaliselt arvestada tema küllaltki piiratud

suhtlemisvõimega.

Eestikeelsed dialoogsüsteemid

Kinoagent ja Hambahaldjas (Margus Treumuth):

http://www.dialoogid.ee/

39

Page 40: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

40

Page 41: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Kõnetehnoloogia

http://phon.ioc.ee/dokuwiki/

• Kõnetuvastus on tehnoloogia, mille abil leitakse automaatselt sõnad

ja laused, mis kõige paremini vastavad sisendiks olevale inimkõnele.

Võimalikud rakendused: dikteerimine või tuvastatud sõnade põhjal

käskluste edastamine seadmetele, kõne semantiline analüüs

automaatses dialoogisüsteemis.

• Kõnetuvastusteadus on interdistsiplinaarne valdkond,

kus kasutatakse meetodeid arvutiteadusest, signaalitöötlusest,

matemaatikast, foneetikast ja lingvistikast. Tänapäeva

kõnetuvastusmootorite südameks on statistilised mudelid, mille

parameetrid „treenitakse“ suurte kõne- ja tekstikogumite põhjal

ning kasutatavad algoritmid on keelest sõltumatud. 41

Page 42: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

42

http://www.postimees.ee/607184/telefon-paneb-eestikeelse-jutu-ule-

ootuste-hasti-kirja

Üks väheseid saadaolevaid keeletehnoloogia rakendusi

mobiiltelefonis on TTÜ küberneetika instituudi lahenduste põhjal

valminud programm nimega Diktofon Android-tarkvaraga

telefonidele.

Selle rakenduse võib igaüks tasuta Android Marketist alla laadida

ja katsetada.

Page 43: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Kõnetehnoloogia 2

Kõnesüntesaatori eesmärk: teisendada eestikeelne kirjalik

tekst suuliseks kõneks.

http://heli.eki.ee/

Kaasajal on kõnesüntees muutumas virtuaalse reaalsuse üheks

osaks, olles virtuaalne partner dialoogsüsteemis, uudiste,

raamatute ja subtiitrite ettelugeja, keeleõpetaja, infovahendaja

nägemispuudega inimestele jpm.

Praegusel hetkel on eriti aktuaalsed järgmised rakendused:

digiraamatute genereerimine, et uued raamatud oleksid

kättesaadavad heliraamatuna samaaegselt trükis ilmuvatega ja

subtiitrite ettelugemine digitelevisioonivõrgus, koostöös Eesti

Rahvusringhäälingu ning Eesti Pimedate Liiduga. 43

Page 44: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

44

Page 45: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Audiovisuaalne kõnesüntees:

Audiovisuaalse kõnesünteesi puhul lisatakse

heliväljundile ka animeeritud inimnäo või

pea kujutis

Visuaalne esitus aitab kaasa kõnest aru

saamisele, eriti kui seda segavad müra või

kuulmispuue

45

Page 46: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

46

Kõnelejatuvastus

inimkõne => kes rääkis?

•Millistes akustilistes tunnustes väljendub kõneleja isikupära?

•Tunnuste kõnelejasisesed ja kõnelejate vahelised piirid

Rakendusnäide: kohtufoneetika

Kõnelejatuvastus: kõneleja identifitseerimine või eristamine, kõneleja

isiku kirjeldamine (sugu, vanus, häälekvaliteet, keel, murdetaust,

sotsiaalne päritolu, …)

Salvestuse sisu analüüs: salvestuses osalevate isikute arvu ja nende poolt

kõneldu kirjalik fikseerimine

Tausthelide analüüs: sündmuse koha ja aja määramine

Page 47: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

47

Page 48: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Kõne ja teksti emotsionaalsus

• Emotsioonidetektor hindab sõnavara põhjal,

kas tekst on positiivne, negatiivne, neutraalne

või vastuoluline, ehk teiste sõnadega,

KUIDAS TEKST VÕIKS LUGEJALE

MÕJUDA.

Emotsioonidetektor

http://peeter.eki.ee:5000/valence/

Emotsioonidetektor annab hinnangu lõigule

selle järgi, millise emotsiooniga sõnad on

ülekaalus. 48

Page 49: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

Arvutilingvistika ja keeletehnoloogiaEestis

TÜ keeletehnoloogia uurimisrühmhttp://www.cs.ut.ee/~koit/KT/TÜ arvutilingvistika uurimisrühm www.cl.ut.eeTTÜ foneetika ja kõnetehnoloogia labor (kõnetuvastus)http://www.phon.ioc.eeEesti Keele Instituudi keeleteaduse ja –tehnoloogiaosakond www.eki.eeRiiklik programm ‘Eesti keeletehnoloogia’www.keeletehnoloogia.ee

49

Page 50: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

• KeeleWeb – www.keeleveeb.ee

Eesti keele käsiraamat!; Sõnastikud (sh ÕS, EKSS); Eesti keele tarkvara; Tõlkesõnastikud; Võõrkeelsed sõnastikud; Kasulikud viited. Tasuta!

• Keelevara – www.keelevara.ee

Nt: Sõnastikud, Eesti elanike nimed 1900-2004 - Osaliselt tasuline!

Filosoft – www.filosoft.ee

• poolitaja - esimesi eesti keele spetsiifilisi rakendusi

• speller

• morfoloogiline analüsaator50

Page 51: Arvutilingvistikast ja keeletehnoloogiast...matemaatikast, foneetikast ja lingvistikast. Tänapäeva kõnetuvastusmootorite südameks on statistilised mudelid, mille parameetrid „treenitakse“

51