sissejuhatus arvutuslingvistikasse loengu konspekt

29
Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis) SISSEJUHATUS ARVUTILINGVISTIKASSE 1. Sissejuhatus 1. Arvutuslingvistika mõiste Arvutuslingvistika on interdistsiplinaarne teadusala lingvistika ja arvutiteaduse vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite väljatöötamine ja arvutitel realiseerimine. 2. Arvutuslingvistika komponendid, nende ülesanded Arvutuslingvistika komponendid: teoreetiline ja rakenduslik; analüüs ja genereerimine (süntees). Teoreetilise arvutuslingvistika ülesandeks on teooriate püstitamine ja kontrollimine inimese keeleliste võimete kohta. Rakenduslik arvutuslingvistika ülesandeks on tarkvara (arvutiprogrammide) koostamine keele (teksti ja kõne) automaattöötluseks. 3. Arvutuslingvistika arengulugu I Masintõlge (MT) [1950ndad] 1949 Warren Weaver "Translation" 1954 1. MT eksperiment Georgetowni ülikoolis USA-s: arvuti IBM tõlkis 200- sõnalise teksti vene keelest inglise keelde 1966 ALPAC (Loomulike keelte automaattöötluse konsultatiivkomitee USA rahvusliku TA juures) aruanne: pessimism MT võimalikkuse suhtes II N. Chomsky generatiivsed grammatikad [1960ndad] 1956 "Three models for the description of language" 1957 "Syntactic structures" Transformatsioonigrammatika Regulaarsed üritused: COLING alates 1965 Organisatsioonid: ACL 1968 III Küsimus-vastussüsteemid [1970ndad] 1972: T. Winograd SHRDLU (modelleeris roboti kätt "kuubikute maailmas", suhtlus inglise keeles); W. Woods LUNAR (Kuu kivimiproovide identifitseerimine, suhtlus inglise keeles) Tihe seos tehisintellektiga! Ekspertsüsteemid DENDRAL 1965, MYCIN 1976 Andmebaasid (liidesega loomulikus keeles); infootsisüsteemid IV Unifikatsioonigrammatikad [1980ndad] FUG (Functional Unification Grammar) M. Kay 1979 1

Upload: rein-raudjaerv

Post on 12-Nov-2014

383 views

Category:

Documents


14 download

DESCRIPTION

MTAT.06.012 Sissejuhatus arvutuslingvistikasseLoengumaterjalide konspekt eksamiks kordamiseks (05/06), mittetäielik(Allar Tammik, Rein Raudjärv)

TRANSCRIPT

Page 1: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

SISSEJUHATUS ARVUTILINGVISTIKASSE

1. Sissejuhatus

1. Arvutuslingvistika mõiste

Arvutuslingvistika on interdistsiplinaarne teadusala lingvistika ja arvutiteaduse vahepeal, mille eesmärgiks on keele automaattöötluseks vajalike keele kirjeldus-, analüüsi- ja sünteesimeetodite väljatöötamine ja arvutitel realiseerimine.

2. Arvutuslingvistika komponendid, nende ülesanded

Arvutuslingvistika komponendid: teoreetiline ja rakenduslik; analüüs ja genereerimine (süntees).Teoreetilise arvutuslingvistika ülesandeks on teooriate püstitamine ja kontrollimine inimese keeleliste võimete kohta.Rakenduslik arvutuslingvistika ülesandeks on tarkvara (arvutiprogrammide) koostamine keele (teksti ja kõne) automaattöötluseks.

3. Arvutuslingvistika arengulugu

I Masintõlge (MT) [1950ndad]1949 Warren Weaver "Translation" 1954 1. MT eksperiment Georgetowni ülikoolis USA-s: arvuti IBM tõlkis 200-sõnalise teksti vene keelest inglise keelde1966 ALPAC (Loomulike keelte automaattöötluse konsultatiivkomitee USA rahvusliku TA juures) aruanne: pessimism MT võimalikkuse suhtesII N. Chomsky generatiivsed grammatikad [1960ndad]1956 "Three models for the description of language"1957 "Syntactic structures"TransformatsioonigrammatikaRegulaarsed üritused: COLING alates 1965 Organisatsioonid: ACL 1968III Küsimus-vastussüsteemid [1970ndad]1972: T. Winograd SHRDLU (modelleeris roboti kätt "kuubikute maailmas", suhtlus inglise keeles); W. Woods LUNAR (Kuu kivimiproovide identifitseerimine, suhtlus inglise keeles)Tihe seos tehisintellektiga!Ekspertsüsteemid DENDRAL 1965, MYCIN 1976Andmebaasid (liidesega loomulikus keeles); infootsisüsteemidIV Unifikatsioonigrammatikad [1980ndad]FUG (Functional Unification Grammar) M. Kay 1979 GPSG (Generalized Phrase Structure Grammar) - G. Gazdar 1970ndate II pool; G. Gazdar & E. Klein & G. Pullum& I. Sag 1985LFG (Lexical Functional Grammar) - R. Kaplan & J. Bresnan 1982HPSG (Head driven Phrase Structure Grammar) <= GPSG, LFG C. Pollard 1984; C. Pollard & I. Sag 1987Unifikatsioonigrammatikates kasutatakse lingvistiliste teadmiste esitamiseks nn. tunnuste struktuure (sõna iseloomustatakse grammatiliste tunnuste komplektiga), millele rakendatakse unifitseerimist (2 struktuuri asendatakse 3-nda, üldisema struktuuriga; sellest ka nimetus). Eesmärk: väike hulk (väga keerulisi) reegleid.AL kui eriala hakati õpetama ülikoolides.V Keeletehnoloogia (language technology) [1990ndad] - meetodite ja vahendite kompleks keele töötlemiseks tänapäeva elektrooniliste vahenditega.

1

Page 2: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Ka teoreetiline AL ei tule toime arvutiteta (keerulised formalismid).

4. Keeletehnoloogia mõiste

Keeletehnoloogia on meetodite ja vahendite kompleks keele töötlemiseks tänapäeva elektrooniliste vahenditega.Keeletehnoloogia on keelealaste teadmiste rakendamine arvutisüsteemide loomiseks, mis võimaldavad analüüsida, tuvastada, mõista ja sünteesida inimkeelt kõigis tema vormides.

5. Keele analüüsi ja sünteesi (genereerimise) tasemed. Sisend ja väljund igal tasemel

Keele analüüs/genereeriminelause analüüs/genereerimineteksti (diskursuse ja dialoogi) analüüs/genereerimineLause analüüs/genereerimineFonoloogiline [heli häälikute järjend]Morfoloogiline [häälikute järjend sõnade järjend]Süntaktiline [sõnade järjend sõnade rollid lauses]Semantiline [sõnade järjend koos rollidega terviklik tähendus]

2

Page 3: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

2. Arvutifonoloogia

13. Arvutifonoloogia põhiküsimused

Kõnetuvastus – põhiprobleemiks junktuur e üleminek ühest sõnast teiseks.Kõnetuvastaja sisendiks on häälelainete järjend. Nendest tehakse nn spektraalne esitus, nt tükeldatakse sisend ja koostatakse iga sellise tüki tunnuste vektor. Saadud vektorite abil määratakse foneetilised tõenäosused (nn vaatlustõenäosused). Seejärel toimub dekodeerimine (kasutades nt Viterbi algoritmi või intellektitehnikast tuntud otsingualgoritmi A*). Väljundil saadakse sõnade järjend - tekst.Paljud pideva kõne tuvastamise süsteemid kasutavad erinevaid teadmisi, et muuta hüpotees konkreetseks sõnaks, mis konteksti sobib. Nii teeb ka inimene loomulikus suhtluses. Ainus vahe on selles, et inimene kasutab kõrgema tasandi teadmisi ainult siis, kui info on segane (nt pole hästi kuulda), arvutisüsteemid kasutavad selliseid teadmisi kogu aeg:

1. Foneemide jaoks tehakse kõnesignaali parameetriline analüüs, et püstitada hüpotees: testitakse sagedusi, amplituude, muutumist ajas ja nende sobivust konteksti.

2. Lisatakse süntaktilised teadmised. Need reeglid pole nii spetsiifilised kui fonoloogilised: nt täita lünk lauses The very old ... spoke softly. Sellesse lausesse sobib süntaktiliselt palju erinevaid sõnu ja semantiline analüüs peab kindlaks tegema, et sobiv sõna tähistab inimest.

Kõnesüntees - Suuri edusamme on kõnesünteesis tehtud tänu häälikuprosoodiale (süstemaatilised muutused kõne intensiivsuses, kõrguses ja kestuses).Kõige olulisem prosoodiline vahend on rõhk. Rõhulised vokaalid on veidi pikema kestusega ja veidi kõrgemad kui rõhuta vokaalid. Teine oluline nähtus rõhu kõrval on kõrguse muutumine. Arvuti kannab ette sõnu ja fraase väiksest sõnastikust. Sellisel puhul saab kasutada šabloone või

fonoloogilist transkriptsiooni, mõlemal puhul on vaja digitaalne heli muuta tagasi analoogseks (nt elektroonilise ostsillaatori e võnkegeneraatori abil).

Rakendused, mis nõuavad tekst-kõne sünteesi: arvuti muudab teksti loomulikuks, arusaadavaks kõneks. Süsteemi on lisatud ka piiramatu sõnastik, kust saab iga sõna jaoks šablooni või fonoloogilise transkriptsiooni. Seejärel ühendatakse sõnad lauseteks.

Üks tekst-kõne-sünteesi meetod on nn konkatenatiivne süntees, kus lausung moodustatakse kui difoonide (kahe hääliku järjend) konkatenatsioon, mida seejärel silutakse. Kindla keele difoonide leidmiseks on vaja salvestada suures mahus kõnenäiteid.

3

Page 4: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

3. Arvutigrammatika

6. Generatiivse grammatika mõiste. Näide

Generatiivne grammatika on grammatika, mis esitab keele rangelt defineeritavate reeglite süsteemina, mis genereerib ja seletab kõiki antud keele grammatilised (õiged) laused.Näide: Generatiivne grammatika G = (T, N, P, S)

T = {väike, Mari, laulab, hästi} eesti keele sõna(vormi)dN = {S, VP, NP, N, V, Adj, Adv} grammatiliste kategooriate nimetused

Lause genereerimine ehk süntees:S => NP VP => N V => Mari V => Mari laulab

P = {S -> NP VP, NP -> Adj NP, NP ->N, VP -> VP Adv, VP -> V N -> Mari, V -> laulab, Adj -> väike, Adv -> hästi }

7. Chomsky hierarhia (grammatikate tüübid sõltuvalt produktsioonide kujust)

Generatiivsed grammatikad moodustavad nn. Chomsky hierarhia. * piiramata e. 0-tüüpi, * kontekstisidusad e. 1. tüüpi, * kontekstivabad e. 2. tüüpi, * regulaarsed e. 3. tüüpi.Regulaarsed grammatikadVasak-lineaarsed: reeglid kujul A Bt, A tja parem-lineaarsed: A tB, A t (A,B kuuluvad sõnastikku N, t kuulub sõnastikku T).Loomulikud keeled (kui lausete hulgad) ei ole kirjeldatavad regulaarsete grammatikatega.Kontekstivabad grammatikad (KVG): reeglid kujul A x, kus A kuulub sõnastikku N, x kuulub hulka V*.Kontekstisidusad grammatikad (KTG): reeglid kujulx y, kus x,y kuuluvad hulka V+ ja y pikkus ei ole väiksem kui x pikkus. (Või xAz xyz, kus A on mitteterminaal hulgast N, x,z kuuluvad hulka V*, y kuulub hulka V+; x_z on kontekst.)Enamus 1950/60-ndatel aastatel realiseeritud generatiivsetest grammatikatest olid KVG-d.

8. Lause genereerimine kontekstivabas grammatikas. Näide

Kontekstivabas grammatikas reeglid kujul A x, kus A kuulub sõnastikku N, x kuulub sõnastikku V*.S NP VPNP Jüri; MariVP V ObjV Sööb; JoobObj Vett; Leiba

Grammatika on esitatud Backus-Nauri valemite abil.<lause> ::= <subjekt> <verbifraas><subjekt> ::= Jüri | Mari<verbifraas> ::= <verb> <objekt><verb> ::= sööb | joob<objekt> ::= vett | leibaS rollis <lause>.Näiteks: "Mari sööb leiba"

9. Regulaaravaldise mõiste. Operatsioonid regulaaravaldistega. Näited

Regulaaravaldis on erilises keeles üleskirjutatud valem, mis kirjeldab teatava sõnede klassi; kontrolleeskiri, mida rakendatakse mingile sõnele. Iga sõna jaoks saadakse vastus, kas sõne vastas

4

Page 5: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

avaldisele või mitte. Regulaaravaldise otsing eeldab malli (pattern), mida me soovime otsida, ja tekstikorpust, kus otsing teostatakse. Regulaaravaldise otsing väljastab korpusest kõik mallile vastavad sõned. Nõnda võib suhteliselt kerge vaevaga korjata lausest välja näiteks numbrid, konkreetsed sõnad, konkreetsed tähed jne. Regulaaravaldisi kasutatakse Interneti otsingumootorites, tekstitöötlusprogrammides (nt MS Word, Word Perfect) ja mitmetes UNIXi utiliitides (sed, grep). Lisaks praktilisele kasutusele on regulaaravaldised ka tähtsad teoreetiliseks vahendiks arvuti- ja keeleteaduses.Põhioperatsioonid regulaaravaldistes. Näited. sümbolite konkatenatsioon – järjest kirjutamine sümbolite disjunktsioon „[]“, „|“ ja „.“ „[abc]“ - kas a või b või c „koer|kass“ - kas koer või kass „.“ - suvaline üks sümbol ka.s - kaas, kaes, kaks jne loendurid „*“, „+“ ja „{n,m}“ „*“ - vahetult eelneva sümboli või avaldise 0 või enam sisaldumist „a*“ - 0 või enam sümbolit a „[ab]*“ - 0 või enam sümbolit a või sümbolit b „+“ - vahetult eelneva sümboli või avaldise 1 või enam sisaldumist „{n}“ - vahetult eelneva sümboli või avaldise n sisaldumist „{n,m}“ - vahetult eelneva sümboli või avaldise n kuni m sisaldumist „{n,}“ - vahetult eelneva sümboli või avaldise vähemalt n sisaldumist ankrud „^“ ja „$“ „[^Ss]“ - ei S ega s „^“ - rea algus „$“ - rea lõpp „^See Jaan$“ - leiab rea See Jaan „\b“ - sõnapiir „\base\b“ - ase (mitte aga tasemed) „\B“ - sõnapiiri puudumine eelnevus „(„ ja „)“ „lau(l|d)“ - laud või laul (lau eelneb kas l-le või d-le)

„\*“ - tärn (literaalse sümbolina)„\.“ - punkt (literaalse sümbolina)„\?“ - küsimärk (literaalse sümbolina)„\n“ - uus rida„\t“ - tabel

Operaatorite rakendamise järjekord: (); loendurid; järjendid ja ankrud; disjunktsioon.

10. Lõpliku automaadi mõiste

Lõplik (seisundi/oleku)automaat on abstraktne masin, mis saab sisendiks sõne, loeb sellest sõnest vasakult paremale ühe sümboli korraga, peatub pärast viimase sümboli lugemist ning kas aktsepteerib sisendi või lükkab selle tagasi. Lõpliku automaadi arvutusi juhib programm. Arvutamine algab nn. lähteseisundist, peale selle on seisundite hulgas välja eraldunud ka lõplik hulk lõppseisundeid. Kui automaat saavutab ühe lõppseisunditest, siis on sisendsõne aktsepteeritav, vastasel juhul mitte. Lõpliku automaadi võib esitada olekudiagrammina – märgendatud graafina, kus tippudele vastavad olekud,

5

Page 6: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

kaartele aga üleminekud ühest olekust teise. Kaarte märgendiks on sümbol, mille automaat loeb sisendsõnest seda kaart läbides.Determineeritud lõpliku automaadi puhul on algolek ja see, mis olekus olles mis sisendtähe korral millisesse olekusse liikuda tuleb, üheselt määratud. St. Determineeritud automaadi puhul ei teki ei alguses ega töö keskel mingeid alternatiive ega jää automaadi töö seisma, kuna sisend lõppes. Determineeritud automaadi töö lõpeb sisendsõne lõppedes ja sõne aktsepteeritakse, kui töö lõppedes asutakse ühes lõppolekuist. Mittedetermineeritud lõplik automaat on identne determineeritud lõpliku automaadiga, erinevus on vaid selles, et mittedetermineeritud automaadis on üleminekufunktsiooni asemel relatsioon. Keelt nimetatakse lõpliku automaadi keeleks, kui leidub mingi lõplik automaat, mis teda aktsepteerib.

11. Lõpliku muunduri mõiste

Lõplik muundur on lõplik automaat, mis tuvastab kahe sõne vahelise relatsiooni – loeb ühe sõne ja genereerib teise.Lõplik muundur ei tegele morfoloogilise analüüsiga – automaadi abil ei saa teada, millise sõnavormiga sisendi näol tegemist on. Et seda teada saada, tuuakse sisse kahetasandilise morfoloogia mõiste. Need kaks tasandit on leksikaalne, millel eristatakse erinevaid morfeeme, millest sõna koosneb, ning pindtasand, millega tähistatakse sõna lõplikku kirjapilti. Pindtasandi tähejärgnevused tõlgitakse teatud reeglite abil leksikaalsel tasandil morfeemide ja tunnuste järgnevusteks.

12. Lõplike automaatide ja lõplike muundurite kasutamine arvutimorfoloogias

Morfoloogiline analüüs on sõna koostisosadeks olevate morfeemide leidmine ja määramine.Morfotaktika (määravad ära sõnavormi sisemise struktuuri: millised üksused millises järjestuses ja mis tingimustel võivad ühes sõnavormis koos esineda) reeglite esiletoomiseks.Keele õigekirjareeglid.Lõplik muundur täidab järgmisi funktsioone:

1. tunneb ära, kas sõna on antud keeles olemas.2. genereerib sõnede paare.3. tõlgib ühe sõne teiseks sõneks4. suhestab sõnekomplektid ja määrab ära erinevate sõnekomplektide omavahelised seosed

Lõplikke automaate saab kasutada mitmete inglise keele morfotaktika reeglite esiletoomiseks.

Lõplikud muundurid kujutavad endast lõplike automaatide laiendusi, mis on võimelised genereerima väljundeid tähtede ja metasümbolite näol.

Kahetasandiline morfoloogia on lõplike muundurite rakendus sõnade morfoloogiliseks analüüsimiseks.

Muundurite sisuks võivad olla ka keele ortograafiareeglid (õigekirjareeglid). On olemas automaate, mille abil on võimalik valmistada muundur igast lihtsamast

ümberkirjutusreeglist. Sõnavara ning ortograafiareeglid on võimalik kokku viia ühte automaati erinevate

muundurite ühendamise läbi.

14. Lause süntaktiline analüüs kontekstivaba grammatikaga: tipust alla analüüs (algoritm) ja alt üles analüüs (põhimõte)

Süntaksianalüüs kontekstivaba grammatikaga: kuna KVG on deklaratiivne formalism, siis ta ei määra, kuidas täpselt tuleb leida analüüsitava lause süntaksipuu. Selleks kasutatakse erinevaid strateegiaid: 1) tipust alla analüüs, 2) alt üles analüüs.Üks tuntumatest analüüsialgoritmidest on Early algoritm.

6

Page 7: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

tipust alla meetod alustab lähtesümbolist S ja püüab produktsioonide rakendamise teel analüüsitavat lauset genereerida. Kui see õnnestub, siis on ühtlasi leitud ka lause süntaktiline struktuur.

alt üles meetod lähtub analüüsitava lause sõnadest ja rakendab produktsioone ümberpööratud kujul - kui reduktsioone (s.t. otsides analüüsitavas lauses produktsioonide paremaid pooli ja asendades neid produktsioonide vasakute pooltega), püüdes "taandada" analüüsitava lause lähtesümboliks S.

Tipust alla analüüsSisend: lause, väljund - süntaktiline struktuur.Lihtne tipust alla analüsaator kasutab sümbolite nimestikku - siiani rakendatud operatsioonide resultaati (pärast reegli S -> NP VP rakendamist on sümbolite nimestik (NP VP); seejärel reeglit NP -> ART N rakendades saadakse sümbolite nimestikuks (ART N VP) jne.). Kui on genereeritud terminaalne järjend, siis võrdleb seda analüüsitava lausega: ühtelangemise korral on analüüs tehtud.Parem analüsaator võrdleb sisendit igal sammul. Eraldi reeglite asemel, mis näitavad iga sõna süntaktilist kategooriat, kasutab leksikoni (cried: V; dogs: N, V; the: ART jne.). Analüsaatori seisund on nüüd defineeritud kui paar: sümbolite nimestik + järjekorranumber, mis näitab jooksvat positsiooni lauses: 1 The 2 dogs 3 cried 4 korral näiteks ((N VP) 2).

Et analüsaator leiaks lause süntaktilise struktuuri, peab ta süstemaatiliselt vaatama läbi kõik võimalikud uued seisundid. Üks lihtne tehnika selleks on tagasipöördumine: selle asemel et genereerida järjekordsest seisundist lähtudes üksainus uus seisund, genereeritakse kõik võimalikud. Üks neist võetakse järgmiseks seisundiks, ülejäänud aga jäetakse meelde (nn. tagavaraseisundid). Kui jõutakse ummikusse, võetakse järgmiseks seisundiks üks tagavaraseisunditest. jooksev seisund võimaluste nimestik - sisaldab seisundid, millest saab analüüsi jätkataTipust alla analüüsi algoritmLähteseisund ((S) 1), tagavaraseisundeid ei ole. Võimaluste nimestik koosneb ainult lähteseisundist. 1. Vali jooksev seisund, võttes selleks esimese seisundi võimaluste nimestikust, ja anna talle nimi C.

Kui võimaluste nimestik on tühi, siis ebaedukas lõpp (analüüs pole võimalik). 2. Kui C sisaldab tühja sümbolite nimestiku ja vaadeldav positsioon on lause lõpus, siis edukas lõpp. 3. Vastupidisel juhul genereeri järgmised võimalikud seisundid:

1. kui nimestiku C esimene sümbol on leksikaalne sümbol (N, V jms.) ja lause järgmine sõna võib kuuluda sellesse leksikaalsesse klassi, siis moodusta uus seisund, kustutades esimese sümboli nimestikust C ja muutes vaadeldavat positsiooni, ning lisa uus seisund võimaluste nimestikku;

2. vastupidisel juhul (kui C esimene sümbol on mitteterminaal) genereeri uued seisundid grammatika iga sellise reegli jaoks, mille kohaselt saab ümber kirjutada selle mitteterminaali, ja lisa kõik genereeritud seisundid võimaluste nimestikku.

4. Mine 1.Alt üles analüüsil on põhioperatsiooniks (terminaalsete või mitteterminaalsete) sõnade järjendi valimine ja kontroll, kas see on mõne produktsiooni paremaks pooleks. Kui on, siis asendatakse see järjend produktsiooni vasaku poolega (s.o. reduktsioon).Alt üles analüsaatori võib nagu tipust alla analüsaatorigi esitada otsinguprotsessina. Seisund koosneb sümbolite nimestikust, lähteseisundiks on analüüsitav lause kui sõnade järjend. Järgmised seisundid konstrueeritakse asendades sõna tema võimalike leksikaalsete kategooriatega (N, V jms.); asendades iga sümbolite järjendi, mis ühtib mingi produktsiooni parema poolega, selle

produktsiooni vasaku poolega (s.o. reduktsioon).

15. Süntaksianalüüs kui otsing

Süntaksianalüüsi võib käsitleda kui otsingut, mis on tuntud intellektitehnikas.

7

Page 8: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

OtsinguprotseduurKoosta võimaluste nimestik, mis koosneb algul ainult analüüsi lähteseisundist. Korda järgmisi samme, kuni eduka või ebaeduka lõpuni:

1. Vali esimene seisund võimaluste nimestikust (ja eemalda ta nimestikust).2. Genereeri kõikvõimalikud sellele seisundile järgnevad seisundid.3. Lisa kõik genereeritud seisundid võimaluste nimestikku.

Süvitsiotsingul (depth-first) on võimaluste nimestikuks magasin (stack). S. t. otsingu 1. sammul võetakse nimestikust esimene element ja 3. sammul paigutatakse iga uus seisund nimestiku algusesse (last-in-first-out, LIFO). See on tagasipöörduv analüsaator (mis proovib ühtainsat derivatsiooni korraga ja pöördub tagasi alternatiivse analüüsi juurde, kui eelmine analüüs jõuab ummikusse).Laiutiotsingul (breadth-first) on võimaluste nimestikuks järjekord (queue). S. t. otsingu 3. sammul lisatakse iga uus seisund nimestiku lõppu (first-in-first-out, FIFO). See on paralleelne analüsaator (mis püüab leida kõiki võimalikke derivatsioone paralleelselt).Paljudes siiani konstrueeritud analüsaatorites kasutatakse süvitsiotsingut, sest nii on tagavaraseisundite arv minimaalne ja mäluvajadus väiksem.

16. Vahetu domineerimise – lineaarse eelnevuse (ID/LP) grammatika

17. Puuadjunktsioonigrammatika (tree adjoining grammar)

Erinevalt siiani vaadeldud grammatikatest ei genereeri puuühendamisgrammatika lauseid sümbolistringide ümberkirjutamise teel, vaid alustab lõpliku hulga lähtepuudega, mida saab laiendada, sisestades vastava(te)sse positsiooni(desse) ühe nn. abipuu lõplikust hulgast.G=(I,A), kus I - lähtepuude lõplik hulk ja A - abipuude lõplik hulk. Lähtepuudeks on puud, mille juureks on lähtesümbol ja kõik lehed on terminaalsed. Abipuude lehed on samuti terminaalsed, välja arvatud üks mitteterminaal, mis ühtib juurega. G poolt genereeritud puude hulk saadakse suvalisest lähtepuust, paigutades sellesse (võib-olla 0 korda) puid hulgast A. Keel L(G) - terminaalstringide hulk G poolt genereeritud puudes.Iga KVG jaoks on rangelt ekvivalentne puuühendamisgrammatika (mis genereerib täpselt samad stringid samade puustruktuuridega). On aga puuühendamisgrammatikaid, mille jaoks ei leidu rangelt ekvivalentset KVG-d.Puuühendamisgrammatikatega genereeritavad keeled on nõrgalt ekvivalentsed piiratud klassi indekseeritud keeltega (mis genereeritakse selliste IG-te (indekseeritud grammatikad) poolt, kus reeglitel on piirang indeksjärjendite pärimise ja nendega manipuleerimise suhtes: reegli paremal poolel võib olla ainult üks mitteterminaalne alluv). See piirang teeb nad vähe huvitavaks loomulike keelte korral, kuna sidesõnade konstruktsioonid nõuavad mitme alluvaga indeksijärjendite pärimist.

18. Tunnuste struktuuri (tunnuste süsteemi) mõiste. Näited

Konstituent – sõnade rühm, mis funktsioneerib ühe üksusena ja asub mingis hierarhilises struktuuris. Konstituendiks võib olla fraas lauses, aga ka lause tekstis.

Tunnuste struktuurid ja laiendatud grammatikadInglise keeles "a men" pole korrektne. Nõutav on ühildumine arvus.Mitut liiki ühildumisi: subjekti-verbi, asesõnade sugu, tingimused fraasi pea ja tema komplementide vormi vahel jne.

Käsitlemaks selliseid fenomene, laiendatakse grammatikaformalismi, lubades konstituentidel omada tunnuseid. Näiteks võime defineerida tunnuse number, mille väärtus on kas sing või plural, ja kirjutada KVG (kontekstivaba grammatika) reegliNP ART N parajasti siis, kui (artikli arv) NUMBER1 ühildub (nimisõna arvuga) NUMBER2

8

Page 9: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

See reegel on samaväärne kahe KVG reegliga:NP-sing ART-sing N-singNP-plural ART-plural N-pluralTunnuste struktuur – kujutus, mis seab tunnustele vastavusse väärtused. Näiteks tunnuste struktuur konstituendi ART1 jaoks (kasutab tunnuseid CAT, ROOT ja NUMBER):ART1: (CAT ARTROOT aNUMBER sing)Lühemalt:ART1: (ART ROOT a NUMBER sing)Laiendatud grammatikas esitatakse reeglid tunnuste struktuuride terminites, nt.(NP NUMBER ?n) -> (ART NUMBER ?n) (N NUMBER ?n)See reegel ütleb, et konstituent NP võib sisaldada kaks alamkonstituenti, esimene on ART ja teine N, ning tunnus NUMBER kõigis kolmes konstituendis on sama väärtusega.Kui tunnus on kitsendatud selle nõudega, et tema väärtus ülemusel peab tingimata olema võrdne tema väärtusega alluvatel, siis sellist tunnust nimetatakse peatunnuseks. Näiteks kõigis VP reeglites on VFORM ja AGR väärtused verbifraasil VP ja verbil V samad.

19. Üldistatud tunnuste struktuuri mõiste. Graafiline esitus (näide)

20. Unifikatsioonigrammatika mõiste (sisu, reeglite kuju). Näide

Unifikatsioonigrammatika on süsteem, mis üldistab tunnuste struktuuri ja esitab grammatikat kui kitsenduste hulka tunnuste struktuuride vahel.Unifikatsioonigrammatika võtmemõiste on laiendamise suhe kahe tunnuste struktuuri vahel: tunnuste struktuur F1 laiendab tunnuste struktuuri F2 (ehk: F1 on spetsiifilisem kui F2), kui F1 iga tunnuse väärtus on esindatud struktuuris F2.Näiteks tunnuste struktuur

F1 = (CAT VROOT cry)

laiendab tunnuste struktuuri F2 = (CAT V), sest struktuuris F2 on CAT väärtus V (nagu vaja) ja tunnus ROOT on piiramata.

21. Lause analüüs/genereerimine unifikatsioonigrammatikas

22. Keel ja keerukus

Igas loomulius keeles on lauseid, mis oma keerukuse tõttu on raskesti mõistetavad. Selliste lausete uurimine on oluline valdkond keeletöötluses. Keerukusel on tähtis roll otsustamaks, millist konkreetset formaalset mehhanismi millisel puhul rakendada. Formaalseid mehhanisme (nagu lõplikud olekuautomaadid, Markovi mudelid, muundurid, fonoloogilise ümberkirjutuse reeglid ja kontekstivabad grammatikad) võib iseloomustada nende genereeriva jõu seisukohalt või vastavalt kirjeldatava nähtuse keerukusele.Lisaks loomuliku keele ja formaalsete mudelite keerukuse uurimisele tegeleb keerukuse analüüs ka küsimusega: mis on see, mis muudab üksikkonstruktsioonid ja -laused raskestimõistetavaks. Nagu ülaltoodud näidetest selgub, on teatud pesistatud /üksteise sisse astetatud/ ehk keskme/sse/-sisestatud laused inimestele rasked töödelda. Viimase probleemi lahendamisel on oluline osa inimese grammatilise analüüsi (võime) mõistmisel.

Grammatikaid saab iseloomustada GENERATIIVSE JÕU kaudu. Üks grammatika on teisest generatiivselt võimsam ehk KEERUKAM, kui ta suudab määratleda keele, mida teine ei suuda.

9

Page 10: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

CHOMSKY HIERARHIA on grammatikate generatiivsel jõul baseeruv hierarhia. See sisaldab Turingi e 0-tüüpi, KONTEKSTISIDUSAID, KONTEKSTIVABU ja REGULAARSEID grammatikaid.

PUMPAMISLEMMAT võib kasutada tõestamaks, et antud keel EI OLE regulaarne. Inglise keel ei ole regulaarne; just neid lauseid, mis temast teevad ebaregulaarse keele, on inimestel raske grammatiliselt analüüsida. Hoolimata aastakümneid kestnud katsetest tõestada vastupidist, tundub inglise keel siiski olevat kontekstivaba. Šveitsi saksa keele süntaks ja bambara keele morfoloogia seevastu näivad olevat isegi mitte kontekstivabad, vaid nõuavad kontekstisidusat grammatikat.

KESKME/SSE/-SISESTATUD laused on inimestele rasked grammatiliselt analüüsida. Paljud teooriad on üksmeelel, et see tuleneb inimanalüsaatori mälu piiratusest.

23. Statistiliste meetodite kasutamine mitmesuse lahendamisel

Igal analüüsietapil - morfoloogilisel, süntaktilisel, semantilisel - võib esineda mitmesus. Mitmesuse lahendamine e ühestamine: sõnaliikide määramine teksti analüüsil: olgu antud lause mitmetitõlgendatavate sõnadega, tuleb määrata iga sõna jaoks kõige tõenäosem leksikaalne kategooria. Olgu lihtsuse mõttes sõnad ainult kas nimisõnad või verbid.10 – flies (6 Verb, 4 Nimisõna), sõnadekorpus 12 730 sõna.PROB(flies) ~10/12730 = 0,0008 ja PROB(flies&N) ~ 4/12730 = 0,0003; PROB(flies&V) ~ 6/12730 = 0,0005 ningPROB(V|flies) = PROB(V&flies)/PROB(flies) = 0,0005/0,0008=0,625.Algoritm, mis alati otsustaks, et flies=V, oleks korrektne 62,5 % juhtudest. Selline meetod pole muidugi hea, kuid on siiski parem kui algoritm, mis alati määraks flies=N. Saamaks paremat meetodit, peaksime vaatama pikemat konteksti kui lause.Tõenäosuste määramine. Hõredad andmed: 1 miljon sõna, kuid erinevaid on üksnes 49 000. Iga sõna peaks esinema keskmiselt 20 korda - aga üle 40 000 sõnadest esinevad 5 korda või veelgi vähem.Kui meil juba on olemas tõenäosuste hulk ja mingiks rakenduseks algoritm, siis võib hinnata, kui hea on uus algoritm võrreldes vana algoritmiga. Üldine meetod selleks: jagada korpus 2 ossa: treeninghulk ja testhulk. Tüüpiliselt sisaldab testhulk 10-20 % andmetest. Treeninghulka kasutatakse tõenäosuste määramiseks ja algoritm käivitatakse seejärel testhulgal, et näha, kui hästi ta tuleb toime uute andmetega.Sõnaliikide märgendamine. Soovides automaatselt määrata tekstis iga sõna leksikaalne kategooria (N, V jne.) tuleb valida tõlgendus, mis esineb treeninghulgal kõige sagedamini.Üldine meetod: kasutada lause lokaalset konteksti. Näiteks flies on 60 % juhtudel V, aga kui eelnev sõna on "the", siis on tõenäolisem, et ta on nimisõna.Leksikaalsete tõenäosuste leidmine. Kui meil on kättesaadav suur korpus, kus laused on analüüsitud, siis saame analüüsialgoritmides kasutada statistilisi meetodeid. See võimaldab valida mitmesuse korral kõige tõenäolisema tõlgenduse.Olgu tarvis leida leksikaalsete üksuste ja n-grammide tõenäosused. Kui palju andmeid on vaja, et hinnangud oleksid korrektsed? Praktikas sõltub andmete hulk kasutatavate n-grammide hulgast. Näiteks tüüpilises märgendite hulgas on 40 erinevat leksikaalset kategooriat. Et koguda statistikuid unigrammil (lihtne sõnade hulk igas kategoorias), on vaja ainult 40 statistikut, iga kategooria jaoks üks. Bigrammide jaoks on vaja 40 * 40 =1600 statistikut, iga paari jaoks üks; trigrammide jaoks 40 * 40 * 40 = 64 000, 4-grammide jaoks 2 560 000. Kui korpuses on 1 miljon sõna, siis 4-grammanalüüsi puhul on enamus kategooriaid tühjad. 3-grammide jaoks on igas kategoorias keskmiselt 15 näidet.Tõenäosuslik kontekstivaba grammatika. On välja töötatud algoritmid, mis püüavad esimesena analüüsida kõige tõenäosemaid konstituente. See on nn. parim-enne analüüs.Teine ala, kus statistilised meetodid on kasulikud, on tundmatute sõnade mõistatamine analüüsil.

10

Page 11: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

24. Tõenäosuslik kontekstivaba grammatika

11

Page 12: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

4. Arvutisemantika

25. Tähenduse esitamise keeled

Loomulike keelte semantika esitamiseks on vaja defineerida lihtsa semantikaga formaalne keel, määrates kujutuse loomulikust keelest sellesse formaalsesse keelde. Selline formaalne keel peab olema ühene ja lihtsate interpreteerimis- ja tuletusreeglitega.Kui me koostame loomuliku keele automaattöötlussüsteemi, siis pole esmatähtis määrata, kas laused on tõesed või väärad. Tavaliselt on hoopis vaja, et süsteem teeks midagi vastuseks sisendile – otsiks andmeid, liigutaks roboti kätt jne. Üldiselt tähendab see sisendil oleva loomuliku keele (teksti/kõne) tõlkimist andmebaasi otsisüsteemi, roboti käsusüsteemi vms. formaalsesse keelde.Lauseloogika e lausearvutus (propositional logic) – lihtsaim sümboolne loogika. Tõeväärtused {tõene, väär}. Võimaldab teha tuletusi.Valemi (formula) definitsioon (induktiivne): 1. Väide (proposition) on valem. 2. Kui on valem, siis on valem. ( eitus) 3. Kui ja on valemid, siis ( ), ( ) ja ( ) on valemid. (vastavalt ja konjunktsioon, disjunktsioon, implikatsioon) 4. Valemid on need ja ainult need, mida saab genereerida reeglitega 1-3.Predikaatloogika e predikaatarvutus (predicate logic)Predikaatloogikas esinevad:

termid (term) ja predikaadid (predicate) loogilised operatsioonid , , V, kvantorid (quantifier): olemasolu (existential) ja üldisuse (universal) kvantor

Term – kas konstant või muutuja. Vabad (free, unbound) ja seotud (bound) muutujad.

Kui on -kohaline predikaat ja on termid, siis on aatom e atomaarne valem e elementaarvalem (atom). Valemi definitsioon:

1. Aatom on valem.2. Kui ja on valemid, siis , ( ), ( ) ja ( ) on valemid.3. Kui on valem ja vaba muutuja selles, siis ja on valemid.4. Valemid on need ja ainult need, mida saab genereerida reeglitega 1-3.

Mõisted, mida ei saa esitada predikaatloogikas: modaalsus, aeg ja arvamus (modality, tense, belief) presupositsioon (presupposition) - eeldus, et eksisteerib teatav objekt hägusus (fuzziness) – nt. vähe, palju, enamus

Semantiline võrk (semantic net) – semantilise struktuuri graafiline esitusSemantiline võrk on graaf, milles esinevad sõlmed ja märgendatud kaared.Näide: Tartu Ülikooli eesti keele tesaurus e eesti wordnetJaotatud (partitioned) semantiline võrk (Hendrix 1978). Lisatakse mõiste "ruum" (space).

26. Lause tähenduse esitamine 1. järku predikaatarvutuse valemina. Näited

Esimene samm – kehtestada vastavus sisendi süntaktiliste konstruktsioonide ja väljundi semantiliste konstruktsioonide vahel. Intuitiivselt võiks oodata, et laused kujutuvad valemiteks ja nimisõnafraasid termideks.

12

Page 13: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

<S> ::= <subjekt> <verb> <objekt>* <laiend>*<subjekt> ::= <NP> | <S><objekt> ::= <NP> | <S><NP> ::= [ <DET> ] <nimisõna> <laiend>*<DET> ::= <artikkel> | <kvantifikaator><laiend> ::= <S>Siin a* tähistab a esinemist 0 või enam korda, <nimisõna>, <verb>, <artikkel> ja <kvantifikaator> on terminaalsed sümbolid.Näited:

Mari kohtas Peetrit.kohtas(Mari, Peeter)

Iga õpetaja armastab Peetrit( t õpetajad) armastab(t,Peeter) ( t õpetajad) ( u {Peeter}) armastab(t,u)

Iga õpetaja Tapal armastab Peetrit( t {v õpetajad | asukoht(v, Tapa)}) armastab(t,Peeter)

NP tõlkimine: 3 juhtu nimisõna on koopia nimisõnast, mis on juba seotud muutujaga välises kontekstis (laiendis);

tõlkeks on see seotud muutuja nimisõna on nimi n (mis üheselt identifitseerib indiviidi); tõlkeks on (u - varem kasutamata

muutuja) ( u {n}) teiste NP-de korral toimub tõlkimine 2 staadiumis:

o valida veel kasutamata muutuja v ja siduda see nimisõnaga: {v B | R}o valida veel kasutamata muutuja u, valida kvantor q ja nimisõna arv järgmiselt:

üldisuskvantor, kui sõnad on         each, every, all [the], the + plural noun;olemasolukvantor, kui sõnad on         a, some, any;definiitne kvantor, kui the + nimisõna ainsuses.

Kui determinaatorit ei esine, siis kasutada olemasolukvantorit. Üldiselt: (q u G) Kvantorite järjestus e. kvantori skoop, mõjupiirkond (scope). Kõik poisid loevad raamatut.

27. Probleemid lause semantilisel analüüsil

Semantilised kitsendused1. Kitsenduste olemus Riie on tumesinine. *Pimedus on tumesinine. Kaabuga mees *Kaabuga tänav

Tähendusega lauses ei tohi olla vastuolusid (*Ta jõi punast värvitut vedelikku.) Tähendusega tekst peab rahuldama ka teksti sidususe (koherentsuse) kitsendusi (*Mari küpsetas

kooke, aga Jüri küpsetas kooke.)2. Allkeeled Ilmateadete, haiguslugude keel, tehniliste seadmete kasutusjuhendite keel, erialaartiklite keel jms. 3. Kitsenduste esitamine

13

Page 14: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Iga predikaadi iga argumendi jaoks tuleb määrata, missugused antud piirkonna objektid võivad esineda vastava argumendina – predikaadi piirkond (domain)4. Kitsenduste kontrollimine

Kitsendusi võib kontrollida loogilisel vormil või kitsendused lülitada otse grammatikasse.

28. Probleemid seotud teksti analüüsil

Diskursus (discourse) - mitmelauseline seotud tekst: monoloog või dialoog.Maailmateadmuse esitamine – Teksti tähendus on midagi enamat kui üksiklausete tähenduste summa. Kui tähenduse esitamiseks kasutatav loogiline formalism on valitud, siis võib lihtsalt kodeerida kogu maailmateadmuse (kõigi maailma kohta käivate teadmiste hulga) selles formalismis - saame nn aksioomide hulga. Teksti analüüsimisel tuleb kõik üksiklaused tõlkida samasse formalismi (s.t. teha eraldi iga lause analüüs, alustades morfoloogilisest ja lõpetades semantilisega). Seejärel võiks kasutada näiteks mõnda üldotstarbelist automaatset teoreemide tõestajat, et teha tekstist loogilisi järeldusi (muuhulgas näiteks välistada mõningaid semantilisi tõlgendusi, mis on maailmateadmusega vastuolus).

Probleemid: Kuidas koguda kõiki vajalikke teadmisi maailma kohta? (Näiteks proovige üles kirjutada kõik,

mida teate toiduainete ostmisest.) Kuidas teoreemitõestaja peab valima (kõikvõimalike hulgast) aksioomid, mida antud

konkreetsel juhul kasutada? Missuguseid järeldusi (kõikvõimalike hulgast) ta peaks tegema?Mõned võimalused maailmateadmuse organiseerimiseks:

Faktide grupeerimine teema järgi. Kui tekstis on mainitud teatavat teemat, siis aktiviseeritakse selle teema kohta käivad aksioomid.

Freimid (frame) - tüüpkirjeldused. Näiteks "kauplus", "toidukauplus", "toidukauplus Tartus Oa t. 35". Freimide hierarhia. Slotid freimis.

Skript – stereotüüpne situatsioon Plaan - tegevuste hulk, mis on seotud võrdsuse eeldustega ja põhjuslikkuse suhetega ning mis

täidesaatmise korral saavutab mingi eesmärgi Eesmärk – olek, mida agent soovib teha tõeseks, või tegevus, mida agent soovib teha.

Maailmateadmuse kasutamine: sidususe  tuvastamine – Diskursuse mõistmiseks tuleb määrata, kuidas iga lause on seotud teistega ja diskursuse kui tervikuga. Sidususe eeldus juhib interpreteerimise protsessi.Sobitamine ootustega – Eelnevad laused genereerivad ootuste hulga järgnevas lauses kirjeldatavate sündmuste kohta.Diskursuse struktuur. Diskursuse segment - diskursuse vahemik, milles laused käsitlevad üht ja sama teemat. Segmendi sees kehtivad järgmised tingimused: lauseid iseloomustab fikseeritud aeg ja koht, rääkijate ja kuulajate fikseeritud hulk ning taustaeelduste fikseeritud hulk.

29. Konversatsiooniagent dialoogis: partneri dialoogiaktide automaatne tuvastamine, dialoogi juhtimine

Huvitav arvutuslingvistika jaoks: teoreetiliselt: kuidas määrata rääkija/kirjutaja eesmärke loomuliku keele väidete konstrueerimisel

ning nende väidete mõju teistele (kuulajatele/lugejatele) pragmaatika; praktiliselt: paljud olemasolevad ja ehitatavad loomuliku keele süsteemid eeldavad inimese

suhtlemist arvutiga (KVS, robotid jne.). Sellise süsteemi efektiivsus on seda suurem, mida paremini me mõistame ja modelleerime oma arvutiprogrammides neid tehnikaid, mida inimesed kasutavad omavahelises suhtlemises.

14

Page 15: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Intellektitehnikas (Artificial Intelligence) kasutatakse spetsiaalset tehnikat – planeerimist, analüüsimaks ratsionaalsete agentide tegevusi või panemaks arvutit tegutsema kui ratsionaalset agenti. Ülesanne defineeritakse, andes ette:

maailma (ainevaldkonna) lähteseisundi, eesmärgi, mida on vaja saavutada, tegevuste hulga, mida saab rakendada, kusjuures iga tegevuse puhul näidatakse tema mõju

maailmale (kuidas ta muudab jooksvat seisundit).Plaan – tegevuste järjend lähteseisundist eesmärgi saavutamiseks.Kõneaktide teooria töötasid välja keelefilosoofid (J. Austin 1962, J. Searle 1969, 1975). Kõneaktide formaalse, plaanipõhise teooria töötasid välja C. R. Perrault, J. F. Allen, P. R. Cohen 1979 jt. Mõningaid selle teooria planeerimismehhanisme rakendati dialoogsüsteemis, mis modelleeris raudtee infoagendi tegevust. Formalism on keeruline: väljendatakse arvamusi, arvamusi arvamuste kohta jne. Idee: rääkija tõenäoliste eesmärkide tuvastamine.Lause ütlemine on teatav kommunikatiivne akt, mille mõjuks on kuulaja arvamuse muutmine.Kas järgmine rong väljub kell 4? – Otsene plaanipõhine vastus Ei. Kooperatiivne vastus Ei, kell 5.Süsteem peab koostama plaani, kus oleks side ilmutatud eesmärgist tegeliku eesmärgini.

15

Page 16: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

5. Teksti genereerimine

30. Teksti genereerimine

Keele genereerimine on arvutilingvistikas kaua aega olnud teisejärguline.Analüüsi ülesanne on tõlkida loomulikust keelest tähenduse esitamise keelde (näiteks predikaatarvutus). Sünteesi ülesanne on pöördülesanne: tõlkimine tähenduse esitamise keelest loomulikku keelde.Teksti genereerimisel on põhiprobleemideks teksti planeerimine, lausete planeerimine ja plaani teisendamine grammatiliselt korrektseks tekstiks.Tasemed:1. Paljudes loomuliku keele süsteemides kasutatakse lihtsaimat lähenemisviisi: süsteem väljastab valmis lauseid (veateated, hoiatused).2. Järgmine tase on šabloonide kasutamine, kui teadet tuleb produtseerida korduvalt, kuid väikeste muudatustega.3. Täiuslikumad süsteemid kasutavad tunnustel põhinevat lähenemist, kus väljund ehitatakse üles lihtsatest tunnustest struktuuri moodustamise teel.

Lause süntees 1. Loogiliselt vormilt süvastruktuurileAnalüüsil 2 ülesannet: 1) sõnade kujutamine predikaatideks ja hulkade nimedeks ja 2) täpselt piiritletud loogiliste kvantorite koostamine. Analüüsil võib kasutada algoritmi: üks funktsioon analüüsib nimisõnafraase ja moodustab piiritletud kvantoreid, teine analüüsib lausestruktuure ja moodustab predikaate kvantoritega seotud argumentidega. Samasuguse, kuid pööratud struktuuri võib üle võtta sünteesiks.Noomenifraaside moodustamine ja lausestruktuuride moodustamine (asesõnade kasutamine, aja, tegumoe jms valik)2. Süvastruktuurilt lausele

Teksti sünteesTeksti organisatsioon

info lineaarse järjestuse määramine fraaside ühendamine lauseks ja lausete ühendamine paragrahvideks (lõikudeks)

16

Page 17: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

6. Arvutilingvistika suunad

31. Ratsionalism ja empirism keele automaattöötluses

Ratsionalism: tunnetuse aluseks on mõtlemine (on olemas kaasasündinud ideed)Empirism: teadmised kujunevad maailmast saadud kogemusest (laps alustab “puhta lehena”)Ratsionalism keele automaattöötluses: keelestruktuurid on kaasa sündinud reeglipõhine keeletöötlus (s.t keelereeglid tuleb arvutile ette anda)Empirism keele automaattöötluses: keelestruktuurid on kogemusest õpitavad korpused ja keeleandmete statistiline töötlus, masinõpe (s.t arvuti ise tuletab keelemudeli korpuse põhjal), keeleandmete konnektsionistlik töötlus (nt tehisnärvivõrgud)Reeglipõhiste keelemudelite eelised

arusaadavad kirjeldava/genereeriva jõu mõttes ja praktilistes rakendustes suudavad efektiivsemalt kui empiirilised mudelid käsitleda kaugsõltuvusi (nt aluse ja öeldise

ühildumine) on “läbinähtavad”, s.t lingvistilised faktid on mudeli struktuuris ja koostisosades selgelt

väljendatud on pööratavad, s.t rakendatavad nii analüüsiks kui ka sünteesiks (genereerimiseks)

Reeglipõhiste keelemudelite puudused haprad praktilistes rakendustes, tundlikud sisendi väikestegi kõrvalekallete suhtes väljatöötamiseks vaja häid eksperte, kuna sellised mudelid ei suuda näidetest õppida muuta raske

Statistiliste keelemudelite eelised Käsitlevad efektiivselt tüüpilist keelekasutust, kui neid on treenitud korpustel Ületavad reeglipõhiseid mudeleid selliste lingvistiliste nähtuste modelleerimisel, mille kohta

pole selget arusaama, nt kõne Efektiivsus sõltub oluliselt treeningandmete mahust: mida rohkem andmeid, seda parem

Statistiliste keelemudelite puudused Täitmisomadused sõltuvad erinevate klasside arvust: mida rohkem klasse, seda raskem nii

treenimine kui juba treenitud süsteemi töö Treenimiseks vajalike korpuste kogumine ja märgendamine on töömahukas ja veaohtlik

Konnektsionistlike keelemudelite eelised “Iseorganiseeruvad”: suudavad treeningandmetest üldistusi teha ka siis, kui neid pole

“juhendatud”, mida õppida Veatolerantsed, sest teadmus on esitatud hajutatult

Konnektsionistlike keelemudelite puudused Kui süsteem on treenitud, siis on ta valmis ega õpi enam (kui õppis valesti, siis käitubki valesti) Süsteemi võib “üle treenida” – siis ta ei suuda enam üldistada ja on võimeline töötlema vaid

treeningandmeidKoostöö: Valida meetod sõltuvalt rakendusest. Kasutada tüüpilise käsitlemiseks empiirilisi meetodeid, aga ebatüüpilist käsitleda reeglitega. Hübriidsüsteemid.Uus teooria: vaja paradigma vahetust algoritmides ja tehnoloogias – unifitseeritud teooriat, mis ühendaks erinevad inimaju funktsioneerimise uurimise ja modelleerimisega seotud teadusharud (keeleteadus, psühholoogia, tehisintellekt, informaatika jne) kognitiivne informaatika.

17

Page 18: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

7. Arvutilingvistika Eestis

32. Kõnetehnoloogia Eestis: kõnetuvastus, kõnesüntees, kõnelejatuvastus

KõnetuvastusPiiratud sõnavara:

väike sõnastik (< 1000 sõna) suur sõnastik (< 10000 sõna) sõnakaupa hääldus spontaanne kõne (dialoogsüsteem)

Piiramata sõnavara (> 10000 sõna): sõnakaupa hääldus (nimede, aadresside tuvastus) sidus kõne (dikteerimissüsteem) spontaanne kõne

Kõnetuvastuse skeem

KÕNESIGNAAL

AKUSTILINE ANALÜÜS

SEGMENTEERIMINE JAKLASSIFITSEERIMINE

SÜNTAKTILINE JASEMANTILINE ANALÜÜS

HÄÄLIKU-MUDELID

SÕNASTIK

KEELE MUDELID(SÜNTAKTILINESEMANTILINE)

TUVASTATUD LAUSE

KOMMUNIKATSIOONIREEGLID

SÕNADE TUVASTUS

PRAGMAATILINEANALÜÜS

Mustrituvastus – arvutuslikud meetodid, mis võimaldavad automaatselt minna üle ühelt esitusvormilt teisele (füüsilised objektid, signaalid, helilaine, spekter, kepster, sümbolesitus, foneemid, sõnad, laused, ...). Lihtne ülesanne inimesele. Eriliselt raske realiseerida arvutis. Põhiprobleem on variatiivsus – sama nähtuse erinevad realisatsioonid väljenduvad füüsiliselt mõõdetavates tunnustes erinevalt.Eestikeelse kõnetuvastuse andmebaas (SpeechDat) (Foneetika ja kõnetehnoloogia labor,TTÜ Küberneetika Instituut) – telefonisalvestuste andmebaasi loomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks. Kestus 24 kuud. Kõnelejaid min 1000 (500 meest, 500 naist). Tekstikorpus: isoleeritud numbrid, numbrijadad, naturaalarvud, rahaühikud ja -summad, tähthaaval hääldatud sõnad ja nimed, kuupäevad, kellaajad, jah/ei küsimused, koha- ja isikunimed, IT-terminid ja laused, foneetiliselt rikkad sõnad ja laused.

18

Page 19: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Kõnesüntees

Kõnesünteesi meetodidArtikulatoorne süntees – baseerub kõneproduktisooni füsioloogilisel mudelil ja kõnetraktis hääle tekkimise füüsikalisel kirjeldusel; modelleeritakse erinevate artikulatsiooniorganite kinemaatikat. Pakub teoreetilist huvi kõneproduktsiooni uurimisel. Praktilisteks rakendusteks sobimatu.Formantsüntees – baseerub kõnesignaali akustilis-foneetilisel kirjeldusel, kasutab allikas-filter mudelit Kompilatiivne süntees – baseerub naturaalkõnest väljalõigatud signaalilõikude (difoonide, trifoonide, silpide, jm.) sobival ühendamisel.Eesti keele tekst-kõne süntees: Eestikeelne kõnesüntesaator. Sisend: ortograafiline tekst. Väljund: eestikeelne kõne.Kõnesünteesi võimalikud rakendused: Eesti Mobiiltelefon kavandab teenust, milles kõnesünteesi kasutatakse elektronposti ettelugemiseks mobiiltelefoni teel. Kõnesünteesi kasutajad ka puudega inimesed.

33. Eesti keele arvutimorfoloogia

Eestis tegeleb arvutimorfoloogiaga Tartu ülikooli arvutilingvistika uurimisrühm, OÜ Filosoft ja Eesti Keele Instituut.Morfoloogiline analüsaator on programm, mis sõna vormist lähtudes määrab selle sõna struktuuri (nt. tüvi, järelliide, lõpp), sõnaliigi ja käände või pöörde.Eesti keele morfoloogilised analüsaatorid:

ESTMORF (Filosoft), kasutab leksikoni, aluseks eesti keele spelleritele (MS Office jt) Reeglipõhine mudel (EKI), kasutab reegleid + erandite leksikoni Kahetasandiline mudel (TÜ, Heli Uibo), kasutab lõplikku muundurit

34. Eesti keele arvutisüntaks

Eesti keele süntaksianalüsaator (TÜ, Kaili Müürisep) põhineb kitsenduste grammatikal (Fred Karlsson)Süntaktiliselt märgendatud eesti keele tekstikorpused:

kitsenduste grammatika pindsüntaktiliselt (alus, öeldis, ...) märgendatud korpus - planeeritav maht 2010. aastaks 500 tuhat sõna

Foneemid +

prosoodiline info

Grafeem-foneem

teisendusreeglid

Tekst

Sõnastikud

Prosoodia juhtimine: põhitoon, kestus,

amplituud

Prosoodiareeglid

Spektri genereerimin

e

Kõnesegmentide etalonid

Süntesaator,

kõnetrakti mudel

Kõne-signa

al

19

Page 20: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

süvasüntaktiliselt (lisaks seosed lauseliikmete vahel) märgendatud korpus ehk eesti keele puude pank – planeeritav maht 2010. aastaks 10 000 lauset

35. Eesti keele arvutisemantika

Tesaurus on liik mõistelist sõnaraamatut. See kujutab endast sõnakogu, kus sõnad (väljendid) on organiseeritud mitte tähestikuliselt, vaid sisuseoseid (semantilisi seoseid) pidi. Arvutiversioonis tähendab see seda, et tesaurus eksisteerib andmebaasina, kus sisaldub info nii märksõnade tähenduste kui nendevaheliste seoste kohta.Eesti üldkeele tesaurus (TEKsaurus) on alates 1998. aastast Tartu Ülikooli arvutilingvistika uurimisrühma poolt koostatud tesaurus. Koos viidetega ingliskeelsele WordNetile moodustab see eesti wordnet'i (EstWN) ja on üks kaheksast EuroWordNet-2 projekti tulemusena saadud ja ELRA kaudu levitatavast wordnet-tüüpi tesaurusest. Eesti wordneti tegemisel on järgitud Princetoni WordNeti ja EuroWordNeti põhimõtteid.TEKsauruse elementaarosake on sünonüümirida e sünohulk (ingl. synonym set, synset), mille moodustavad ühte mõistet (concept, meaning) väljendavad sünonüümsed (sama tähendusega) sõnad ja sõnaühendid. Termin sünohulk on loodud sellepärast, et erinevalt sünonüümisõnastiku sünonüümireast võib sünohulk olla ka üheliikmeline. Kui sünonüümisõnastiku eesmärgiks on kõigi võimalike keeles leiduvate sünonüümide esitamine, siis TEKsauruse eesmärgiks on mõistete esitamine, ka siis, kui selle väljendamiseks keeles leidub ainult üks leksikaalne üksus.Eesti üldkeele tesaurus sisaldab hetkel ca 11 000 sünohulka. Sünohulgad koosnevad põhiliselt nimisõnadest (66%) ja tegusõnadest (27%), kuid vähesel hulgal esineb ka omadussõnu ja pärisnimesid. Paljude, aga mitte kõigi sünohulkade juurde kuulub(vad) sõnatähenduse seletus(ed), samuti on enamus sünohulki varustatud EuroWordNeti keeltevaheliste indeksiga, milleks on Princetoni WordNet ver. 1.5 (ingliskeelsed) sõnatähendused.Rakenduse näide: sõnatähenduste ühestamine tekstis.

36. Eesti kirjakeele korpused

Eesti kirjakeele korpusi haldab Tartu Ülikooli arvutilingvistika uurimisrühm.Eesti Kirjakeele Korpus 1890-1990 koosneb umbes paarist miljonist sõnast. Eraldi alamkorpused on 1990ndate, 1980ndate (baaskorpus), 1970ndate, 1960ndate, 1950ndate, 1930ndate, 1910ndate, 1900ndate ja 1890ndate korpus.Eesti keele segakorpuse eesmärk on pakkuda arvutilingvistidele senisest suuremat eesti kirjakeele korpust – kuni mitmesajast miljonist sõnast koosnevat korpust. Korpuses on ainult terviktekstid, mitte tekstikatked, millest suures osas koosneb Eesti Kirjakeele Korpus 1890-1990. Kogutakse ainult kirjalikku keelt. Hetkel on korpuses juba üle poole saja miljoni sõna. Segakorpuse alamosad on Riigikogu stenogrammid, Eesti ja Euroopa seadused, «Postimees», «Eesti Ekspress», «Horisont», «Kroonika», «Eesti Arst».Lisaks on avalikult saadaval järgmised korpused:

Morfoloogiliselt ühestatud korpus Ühestatud sõnatähendustega korpus Süntaktiliselt ühestatud korpus Tasakaalus korpus (võrdses koguses ilukirjanduse, ajakirjanduse ja teaduse keele tekstid) Inglise-eesti ja eesti-inglise paralleelkorpus Vana kirjakeele korpus

37. Eesti suulise keele korpus ja andmebaasid

Eesti kõnekeele korpust haldab Tartu ülikooli suulise kõne uurimisrühm, mis tegutseb TÜ üldkeeleteaduse õppetooli juures alates 1997. aastast. Rühm tegeleb eesti suulise kõne lindistamise,

20

Page 21: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

litereerimise ja uurimisega. Üheks eesmärgiks on koostada suulise kõne korpus, mis oleks piisavalt mahukas ning sisaldaks erinevat tüüpi suulisi tekste.Suuliste tekstide kirjapanekul kasutatakse Jeffersoni transkriptsiooni. Samuti kuulub iga teksti juurde taustakirjeldus, mis sisaldab tähtsamaid andmeid lindistussituatsiooni ja kõnelejate kohta.Korpus koosneb hetkel umbes 800 000 sõnast.Eestikeelse kõnetuvastuse andmebaasi (SpeechDat) haldab Tallinna Tehnikaülikooli foneetika ja kõnetehnoloogia labor. Antud andmebaasi eesmärk on suuremahulise telefonisalvestuste andmebaasi loomine kõne- ja kõnelejatuvastuse uuringuteks ning süsteemide treenimiseks-testimiseks. Projekti kestus 24 kuud. Kõnelejaid min 1000 (500 meest, 500 naist).

38. Eesti keele arendamise strateegia (2004-2010) põhiseisukohad

eesti keel on Eesti ainus riigikeel, eesti keel on Eesti identiteedi kandja, eesti keel on stabiilse keelekeskkonna kujundaja Eestis.

21

Page 22: Sissejuhatus arvutuslingvistikasse loengu konspekt

Kordamine eksamiks aines sissejuhatus arvutilingvistikasse (2005/2006 õa sügis)

Viited

Eesti keele arendamise strateegia 2004-2010, http://www.eki.ee/keelenoukogu/ Eesti Keeletehnoloogia Sihtprogramm, http://www.eki.ee/keeletehnoloogia/ OÜ Filosoft, http://www.filosoft.ee/ Keelevara, http://www.keelevara.ee/ Keeleveeb, http://keeleveeb.edu.ee/ Tallinna Tehnikaülikooli Foneetika ja Kõnetehnoloogia Labor, http://www.phon.ioc.ee/ Tartu Ülikooli aine sissejuhatus arvutilingvistikasse, http://www.cs.ut.ee/~koit/SAL/ Tartu Ülikooli Arvutilingvistika uurimisrühm, http://www.cl.ut.ee/

22