martynas sabaliauskas „integruotų lietuvių kalbos ir raštijos išteklių informacinė...
TRANSCRIPT
Integruotų lietuvių kalbos ir raštijos išteklių informacinė sistema
Martynas Sabaliauskas
Panevėžys 2015 09 18
Projektas
• Integruotų lietuvių kalbos ir raštijos išteklių, produktų ir paslaugų interneto svetainės sukūrimas (Raštija.lt)
• 1 Etapas 2012.10.01-2015.03.31• 2 Etapas 2015.03.31-2015.07.31• Projekto biudžetas 321 732,69 €Projektą vykdo: • Vilniaus universitetas (Matematikos ir informatikos institutas)Pagal• Įgyvendinamą Ekonomikos augimo veiksmų programos
prioriteto „Informacinė visuomenė visiems“ įgyvendinimo priemonės Nr. VP2-3.1-IVPK-12-K „Lietuvių kalba informacinėje visuomenėje“ pirmąją veiklų grupę
Projekto paskirtis
• Projekto „Integruotų lietuvių kalbos ir raštijos išteklių, produktų ir paslaugų interneto svetainės sukūrimas“ paskirtis – internetinės svetainės www.raštija.lt sukūrimas, kurioje būtų sudaryta galimybė visuomenei viešai ir nemokamai naudotis esamais ir kuriamais naujais lietuvių kalbos ir raštijos ištekliais, produktais ir paslaugomis (LKPIPP).
• Svetainė yra priemonės Nr. VP2-3.1-IVPK-12-K „Lietuvių kalba informacinėje” visų vykdomų projektų veiklos rezultatų pateikimo viešojoje erdvėje įrankis.
Viešinami projektai
Projekto tikslas
• Projekto tikslas – sukurti modernų LKRIPP integravimo internete sprendimą, viešu ir nemokamu LKRIPP naudojimu sumažinti skaitmeninę atskirtį ir skatinti informacinės visuomenės procesus.
• Projekto tikslinės grupės – gyventojai, išteklių ir paslaugų kūrėjai, verslas, viešojo administravimo institucijos.
Informacinė sistema (1)
• Projekto metu sukurta valstybinė „Integruotų lietuvių kalbos ir raštijos išteklių“ informacinė sistema (Raštija IS).
Informacinė sistema (2)
Raštija IS tikslas - informacinių technologijų priemonėmis kaupti ir teikti lietuvių kalbos ir raštijos išteklius.Raštija IS uždaviniai:
o kaupti lietuvių kalbos ir raštijos išteklius;o viešinti lietuvių kalbos ir raštijos išteklius;o teikti priemones, reikalingas naujų viešųjų saityno
paslaugų kūrimui.Raštijos pagrindinės funkcijos:
o teikti lietuvių kalbos ir raštijos išteklius bei jų turinį;o automatiškai ar pusiau automatiškai surinkti ir apdoroti
duomenis iš įvairių lietuvių kalbos ir raštijos šaltinių;o atlikti paprastą ir semantinę paiešką turimuose lietuvių
kalbos ir raštijos ištekliuose.
Raštijos projekte buvo numatyta
• Parengti pradinę medžiagą ontologijų sukūrimui,
• Išrinkti lingvistinių išteklių formatą (OWL, XTM, LTM, TEI, LMF,...),
• Sukurti ontologijų kūrimo, derinimo, integravimo ir testavimo instrumentiką,
• Semantiškai struktūrizuoti Raštijos IS išteklius bei suvesti į ontologiją,
• Realizuoti semantinę paiešką.
Raštija IS funkcinė sistema
Ontologijų kūrimo ir redagavimo įrankis
Indeksavimo ir paieškos komponentas
Lietuvių kalbos išteklių administravimo komponentas
Paieškos paslaugų sąsaja
Duomenų saugykla
Portalo posistemė
Automatinio duomenų surinkimo komponentas
Naudotojų administravimo komponentas
Informacijos teikimo komponentas
Turin
io v
aldy
mo
kom
pone
ntas
Saityno paslaugų posistemė
Duomenų teikimo sąsaja
Kas yra ontologija?
Ontologija - tai tam tikros srities sąvokų visumos specifikavimas išreikštu pavidalu.„explicit specification of a conceptualization“, T.R.Gruber 1993 m.
Ontologija specifikuoja nagrinėjamos srities• Konceptus, esybių (daiktų bei reiškinių) tipus,• Konceptų hierarchijas, esybių tarpusavio sąryšius,
priklausomybes,• Aksiomas, taisykles, dėsningumus ir t.t.
Kitos sąvokos
• Semantinė paieška – intelektuali paieška ontologijoje apdorojant užklausas (t.y., automatiškai apibendrinant užklausas, surandant artimiausius dalinius atitikmenis).
• Lingvistiniai ištekliai: žodynai, leksinės duomenų bazės, tekstynai, garsynai, įrašų bazės ir kt.
LMF formatas
LMF (angl. Lexical Markup Framework) yra ISO standartas natūraliam kalbos apdorojimui (sintaksė, fonetika, morfologija).Pagrindinė LMF paskirtis - žodynų strūkturavimas.
Natūralus kalbos apdorojimas (angl. Natural language processing) - tai kompiuterių mokslo, dirbtinio intelekto ir kompiuterinės lingvistikos sritis, kurioje nagrinėjamas kompiuterio ir žmogaus kalbos sąveikos laukas.
OWL semantinė žymėjimo kalba
• OWL (angl. Web Ontology Language) yra semantinė žymėjimo kalba naudojama ontologijų platinimui ir dalinimuisi tinkle.
• OWL kalba sukurta su tikslu ne tik informacijai sisteminti, t.y. ją apibrėžti per ryšius, klases, atributus, tačiau ir papildyti informaciją naujais sąryšiais, išskirti naujas klases, išsaugant vartotojo užklausas. Tokiu principu, formuojant naujas jungtis tarp klasių, informacijos paieška adaptuojama vartotojui pagal jo poreikius. Taip veikia populiariausios paieškos sistemos.
• OWL semantinę žymėjimo kalbą galima taikyti žodynų struktūrai aprašyti: pagal semantinę paiešką atvaizduojami tam tikromis prasmėmis susiję terminai su paieškos rezultatais.
Ontologijų kūrimo aplinka Protege
• Stanfordo universitete JAVA kalbos pagrindu sukurta priemonė, skirta žinių įgijimui.
• Laisvai platinama, plačiai naudojama, lengvai išplečiama (iki 150 000 freimų), suderinama su OKBC, eksportuoja HTML, XML, Turtle, RDF schemomis, JDBC ir DAML+OIL formatais.
• http://protege.stanford.edu.
Ontologijų kūrimo aplinka Protege
LMF ir OWL sąlytis
Užduotis: rasti reikiamą digrafo pografį.
Terminų laukų siejimas su LMF formatu
Terminų banko laukai
Raštija.lt laukai
Terminyno laukai
Standartizacijos departamento
terminaiURI Laukas Pastaba
terminas terminas terminas terminas LexicalResource/Lexicon/LexicalEntry/Lemma writtenform standartinis lmf
statusas statusasstatusas
(tinkamumo kategorija)
statusas (tinkamumo kategorija) LexicalResource/Lexicon/LexicalEntry/Sense/SubjectField status
LMF pagal "Global Atlas" projektą [13]
sritis sritis sritis sritis LexicalResource/Lexicon/LexicalEntry/Lemma scope pasiūlytastaksono rangas LexicalResource/Lexicon/LexicalEntry/WordForm taxon_rank pasiūlytas
apibrėžtis apibrėžtis apibrėžtis apibrėžtis LexicalResource/Lexicon/LexicalEntry/Sense/Definition gloss standartinis lmfpastaba pastaba pastaba pastaba LexicalResource/Lexicon/LexicalEntry/Lemma comment pasiūlytas
kalbos dalis LexicalResource/Lexicon/LexicalEntry partOfSpeech standartinis lmf
giminė giminė LexicalResource/Lexicon/LexicalEntry/WordForm grammaticalGender standartinis lmf
skaičius skaičius LexicalResource/Lexicon/LexicalEntry/WordForm grammaticalNumber standartinis lmf
linksniuotė LexicalResource/Lexicon/LexicalEntry/WordForm declension pasiūlytasformulė formulė formulė LexicalResource/Lexicon/LexicalEntry/Lemma formula pasiūlytaskirčiuotė kirčiuotė LexicalResource/Lexicon/LexicalEntry/WordForm accentuation pasiūlytas
santrumpa(-os) santrumpa(-os) LexicalResource/Lexicon/LexicalEntry/Lemma abbreviation pasiūlytas
trumpoji forma LexicalResource/Lexicon/LexicalEntry/Lemma short_form pasiūlytaskilmė kilmė LexicalResource/Lexicon/LexicalEntry/Lemma origin pasiūlytas
pavyzdys(-iai) LexicalResource/Lexicon/LexicalEntry/Lemma example standartinis lmfnuoroda nuoroda nuoroda LexicalResource/Lexicon/LexicalEntry/Lemma reference pasiūlytas
atitikmenys atitikmenys atitikmenys atitikmenys LexicalResource/Lexicon/LexicalEntry/Sense/Equivalent writtenForm standartinis lmf
ryšiai LexicalResource/Lexicon/LexicalEntry/Sense/SenseRelation type standartinis lmfšaltinis šaltinis šaltinis šaltinis LexicalResource writtenform pasiūlytas
paveikslėlis LexicalResource/Lexicon/LexicalEntry/Lemma imageLMF pagal "LIRICS" projektą
garsas LexicalResource/Lexicon/LexicalEntry/Lemma soundLMF pagal "LIRICS" projektą
kalbos žymuo LexicalResource/Lexicon language standartinis lmfatitikmens
šalies žymuoatitikmens
šalies žymuoatitikmens šalies
žymuo LexicalResource/Lexicon/LexicalEntry/Sense/Equivalent language standartinis lmf
termino variantai
termino variantai LexicalResource/Lexicon/LexicalEntry/Lemma term_variation pasiūlytas
kirčiuotas terminas kirčiuotas terminas LexicalResource/Lexicon/LexicalEntry/Lemma accented_term pasiūlytas
LMF/OWL ontologijos kūrimas
Ontologijų konstravimo automatizavimas
1. Parinkus kurį nors žodyną, naudojant Protege programą, įkelti jo kelis jam priklausančius terminus į LMF/OWL ontologiją.
2. Sugeneruotą failą atsidaryti su tekstiniu redaktoriumi bei pagal jo struktūrą realizuoti įrankį, kuris automatiškai sugeneruotų viso žodyno ontologiją pagal pradinius struktūrizuotus duomenis.
3. Patikrinimui, ar informaciją galima atkurti, realizuoti SPARQL užklausas, kurios įdiegus Apache Jena grąžintų informaciją atgal į lenteles.
Žodynų ontologijų generavimo įrankis (1)
XLS -> LMF/OWL įrankyje naudojamų laukų sąrašas
Žodynų ontologijų generavimo įrankis (2)
Rezultato fragmentas:
Žodynų ontologijų generavimo įrankis (3)
Rezultatas Protege programoje:
Ontologijų atvaizdavimas raštija.lt svetainėje
Paieškos rezultatai Daugiau informacijos Hiperteksto naudojimas
Raštija IS išoriniai duomenų srautai
LIEPA IS
Lokalizavimo šaltiniai
Kiti duomenų tiekėjai
Ištekliai (1)
Terminynas.lt žodynai (15):o Astronomijos enciklopedinis žodynas (1984 m.)o Botanikos terminų žodynas (1965 m.)o Chemijos terminų aiškinamasis žodynas (1997 m.)o Civilinės aviacijos terminų žodynas (1996 m.)o Fizikos terminų žodynas (1979 m.)o Geologijos ir fizinės geografijos terminų žodynas (1956 m.)o Informacijos terminų žodynas (1993 m.)o Lietuvių–anglų–rusų–vokiečių kalbų informatikos terminų žodynas (1997 m.)o Matematikos terminų žodynas (1994 m.)o Medicinos terminų žodynas (1980 m.)o Psichologijos žodynas (1993 m.)o Radioelektronikos terminų žodynas (2000 m.)o Rusų–lietuvių kalbų meteorologijos terminų žodynas (1975 m.)o Rusų–lietuvių kalbų politechnikos žodynas (1984 m.)o Šiuolaikinių kompiuterių programų ir tinklų žodynas (2003 m.)
Kiti žodynai:o Žinių technologijų (ir saityno technologijų) terminų žodynėlis (2012 m.)
Ištekliai (2)
Projekto „Visuomenei aktualios programinės įrangos lokalizavimas, programoms reikalingų priemonių sukūrimas“ (Lokalizavimas) sukurti žodynai:
o Aiškinamasis norminis kompiuterijos žodynaso Enciklopedinis kompiuterijos žodynaso Anglų-lietuvių kalbų kompiuterijos žodynaso Dažnai pasikartojančių kompiuterijos frazių žodynaso Kompiuterių vartotojų teminis žodynėlis
Ištekliai (3)
Lietuvių kalbos instituto informacinės sistemos ištekliai:
o Dabartinės lietuvių kalbos žodynaso Latvių–lietuvių žodynaso Lietuvių–latvių žodynaso Lenkų–lietuvių žodynaso Lietuvių–lenkų žodynaso Liaudies tikėjimų kartotekao Lietuvių–vokiečių žodynaso Vokiečių–lietuvių žodynaso Mįslių kartotekao Pagrindinė kartotekao Pokario partizanų dainų kartotekao Sinonimų žodynas
Raštija.lt vartotojams siūlo
• Ieškok - nuo šiol galėsi naudotis detalia ir semantine paieška tarp daugelio skaitmeninių lietuvių kalbos išteklių vienoje vietoje!o Paprasta, detali ir semantinė paieška svetainėjeo Mobili aplikacija, skirta paieškai naudojanti išmaniuosius įrenginius
• Bendrauk - Raštija.lt tau leis ne tik domėtis Lietuvos kultūriniu paveldu, bet ir bendrauti su kitais bendraminčiais svetainės naudotojais!
• Kurk - jei esi žodyno kūrėjas ar autorius, tau sudaryta unikali galimybė kurti ir Raštija.lt talpinti savo žodynus bei atlikti šių skaitmeninių lietuvių kalbos ir raštijos išteklių koregavimą, pildymą ir viešinimą. Visiems sudaryta galimybė kurti savo įvairiausius išvestinius produktus ar paslaugas, naudojantis Raštija.lt!
Ieškok
• Paieška tarp 33 žodynų• Paieška naudojantis mobilia
aplikacija• Paieška naudojanti
mašina-mašina sąsaja
Ieškok (2)
• Paprasta paieška:o Loginiai operatoriai AND, OR, NOT;o Operatoriai:
• * – paieškos žodyje praleidžiamos kelios raidės,• ? – paieškos žodyje praleidžiama viena raidė,• ~ – ieškoma paieškos žodžiui panašūs atitikmenys,• „“ – kai ieškoma konkrečios atributų reikšmės.
• Detali paieška leidžia tikslinti pagal:o išteklių,o autorius,o kalbą,o leidėją,o metus,o ontologiją,
Bendrauk
• Forumaso Diskusijos įvairiomis temomis
• Asmeninė erdvėo Susirašinėjimas su kitais Raštija IS vartotojaiso Komentavimas esančių ištekliųo Bendravimas su išteklių kūrėjais
• Kviečiame prisijungti prie Raštija socialiniuose tinkluose:o Facebook,o Google+,o Twitter.
Kurk
• Žodynų kūrėjams siūloma galimybė:o talpinti ir redaguoti savo žodynus Raštijos IS;o Viešinti ir leisti kitiems naudotis savo veikloje;o Tobulinti, atsižvelgiant į svetainės naudotojų atsiliepimus.
• Įmonėms siūloma:o Kurti išvestinius produktus naudojantis Raštija IS semantinio
komponento mašina-mašina sąsaja.
Paieškos rezultatų palyginimas
Paieškos rezultatai Terminų banko svetainėje:
Paieškos rezultatai raštija.lt svetainėje:
Ačiū už dėmesį.
Panevėžys 2015 09 18