asiasanastoista ontologioihin? ysa-yso-näkökulma

32
Asiasanastoista ontologioihin? YSA-YSO-näkökulma Eeva Kärki Kansalliskirjasto 31.5.2011

Upload: zurina

Post on 29-Jan-2016

39 views

Category:

Documents


0 download

DESCRIPTION

Asiasanastoista ontologioihin? YSA-YSO-näkökulma. Eeva Kärki Kansalliskirjasto 31.5.2011. Agenda. YSA YSO YSA – YSO: eroja Selvitettävää Mitä FinnONTOn jälkeen? Osoitteita Ontologiat (demo…). Tesaurukset ja ontologiat. molemmat ovat käsitejärjestelmän kuvauksia - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Asiasanastoista ontologioihin?YSA-YSO-näkökulma

Eeva KärkiKansalliskirjasto

31.5.2011

Page 2: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Agenda• YSA• YSO• YSA – YSO: eroja • Selvitettävää• Mitä FinnONTOn jälkeen?• Osoitteita• Ontologiat (demo…)

Page 3: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Tesaurukset ja ontologiat

• molemmat ovat käsitejärjestelmän kuvauksia• myös perinteisiä tesaurusmuotoisia asiasanastoja kutsutaan joskus

ontologioiksi, lisäksi ontologioiksi on ryhdytty nimittämään RDA:ta, FRBR:ää (-> sekoittavaa)

• asiasanastot, tesaurukset = ihmisen (ja koneen, jos on URI) tulkittavissa olevia

• ontologiat = koneen (ja ihmisen?) tulkittavissa olevia

– esityksessä keskityn sanasto-ontologioihin , lähinnä YSOon (en siis käsittele Kulttuurisampoa, TerveSuomi yms. ontologiota)

Page 4: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA eli Yleinen suomalainen asiasanasto (1)

• n. 29 000 asiasanaa (näistä n. 5000 maantieteellistä nimeä)• kaikki tiedonalat

– ongelmallisia aloja: fysiikka, kemia, matematiikka, tekniset alat (tietotekniikka erityisesti), taloustieteet, kasvatustieteet…

• epätasaisuutta:– toisilta aloilta (erityisesti ns. ”pehmeät tieteet”) melko spesifejäkin termejä,

joiltakin aloilta vain yleistason termejä ( erityisesti fysiikka, kemia, matematiikka)

• ei henkilön- eikä yhteisönnimiä• ylläpito: Kansalliskirjasto (1 htv)• ”tekninen” ylläpito: Fennica-tietokanta (Voyager)

– jos/kun auktoriteettitietokanta toteutuu, ylläpito siirtyy Aleph-ympäristöön

Page 5: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA (2)Ylläpito

sanaehdotukset, muutokset ([email protected])

Fennicanindeksoijat

yleiset ja tieteell. kirjastotBTJ Kirjastopalveluarkistot, museot

erikoissanastotmedia”tavalliset käyttäjät”

Page 6: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

• 3-4 kertaa vuodessa, osallistujia 12-15 henkeä– Fennican sisällönkuvailijat– Allärsin edustaja– BTJ Kirjastopalvelu– Helka-tietokannan edustaja– Eduskunnan kirjaston asiasanaston edustaja– Agriforestin (Maa- ja metsätaloussanasto) edustaja– Helsingin kaupunginkirjaston edustaja

YSA (3)Sanastopalaveri

Page 7: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA (4)

• YSA-palaverissa käsitellään n. 1000 termiä vuosittain , joista hyväksytään n. puolet (400-500)

• uudet sanat ja muutokset ilmoitetaan sähköpostilistoilla parin päivän sisällä kokouksesta

• päivitys Fennica-tietokantaan, sanojen väliset suhteet tehdään tässä vaiheessa• myös palaverissa ”hylätyt termit” päivitetään Fennica-tietokantaan

termiehdotuksina (eivät näy VESAssa/ONKIssa), näihin ei tehdä tesaurus-suhteita

• VESAssa/ONKIssa n. parin viikon kuluttua kokouksesta (riippuen työtilanteesta…)

• Huom! ns. vapaan indeksoinnin termejä (näihin kuuluvat myös paikannimet) ei käsitellä palaverissa eikä ilmoiteta listoilla (näitäkin tulee n. 500 per vuosi)

• YSA karttuu siis n. 1000 uudella termillä vuodessa

Page 8: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSO eli Yleinen suomalainen ontologia(1)

• FinnOnto-osaprojekti (Tekes) 2004-31.3.2012

• YSOn kehikko luotu FinnONTOssa, mukana ei ollut kirjastoihmisiä

• YSO perustuu YSAn termeihin – jäljessä YSAsta, tällä hetkellä puuttuvat kaikki v. 2011 otetut uudet YSAn termit

eli n. 300– YSAn maantieteelliset nimet eivät ole mukana YSOssa

• YSAn termien ontologisoinnin YSOksi tekivät/tekevät FinnONTOn työntekijät– v. 2006 KK:sta oli mukana kaksi henkilöä puolen vuoden ajan, Mirja

Anttila ja Eeva-Liisa Leppänen

• YSOssa tällä hetkellä n. 22 000 termiä (YSAssa n. 29 000 termiä)

Page 9: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSO (2)

• kieli: suomi

• ruotsinkieliset vastineet– poimittu Allärsistä– ontologian nimi ALLSO (ONKI-palvelussa YSO/ALLSO)

• englanninkieliset vastineet – poimittu Helsingin kaupunginkirjaston luokituskaavion englanninkielisen

version hakemistosta– vastineissa virheitä, koska luokituskaavion hakemiston käännöstyössä termejä

ei ole tarkistettu erikoisalojen sanastoista/sanakirjoista

Page 10: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSO (3)

• YSOa käytetään myös rakenteellisena mallina ja liittymäkohtana erikoisalojen ontologioihin, kuten

– AFO (Agriforestista tehty ontologia)– VALO (Valokuva-alan ontologia)– MAO (Museoalan ontologia)

• Osoite: http://www.yso.fi/onki3/fi/overview/yso

Page 11: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA Tesaurus-rakenne

• KÄYTÄ = viittaus ohjaustermistä asiasanaan (VESA = asiasanaa xxx ei käytetä)

• KT = korvaa termit• LT = laajemmat termit• ST = suppeammat termit• RT = rinnakkaistermit• Huomautus• Lähde• Ryhmäkoodi ( VESA = kuuluu ryhmiin)• Kaikki termisuhteet ovat aina vastavuoroisia

Page 13: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

muuttuva pysyvä abstrakti

prosessi

tapahtuma toiminto

ajanjakso

fyysinen objekti ilmiö henkiset

tuotoksetjärjestelmä

ominaisuus

paikka

YSOn kehikko (Lähde: Katri Seppälä)

”asia”

fyysinenkokonaisuus

Page 14: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSOn kehikkoabstraktimuuttuva

prosessittapahtumattoiminta

pysyväajanjaksofyysinen kokonaisuusfyysinen objektihenkiset tuotoksetilmiötjärjestelmätominaisuudetpaikka

Page 15: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Pysyväajanjaksofyysinen kokonaisuusfyysinen objekti

aine konkreettinen eloton objekti

….lavasteetleikkikalut

legotleikkikalut käyttöympäristön mukaan

leijat, lennokit, liidokit, vesilelutleikkikalut materiaalin mukaan

kiiltokuvat, pehmolelut, puulelut, tinasotilaatnuket

nukkekodit ….

letkutliikennemerkit…..

Page 16: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSOn kehikko

ST-suhteet• geneeriset suhteet (laji – alalaji)

– voimalat - lämmitysvoimalat

• partitiiviset suhteet (kokonaisuus – osa)– kasvinosat – juuri, kukka jne.– esitetään eri tavalla kuin geneeriset ST-suhteet– näitä ei ole vielä tehty YSOon (eli ovat nyt tavallisia ST-suhteita)

Page 17: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA – YSO (1)

Sanojen väliset suhteet YSAssa• YSAssa asiasanan ympärille rakennetaan tesaurus-suhteet

aikaisemmin YSAssa oleviin asiasanoihin– kaikki YSAssa esiintyvät sanat ovat ”todellisia” asiasanoja– monilla sanoilla ei ole hierarkkisia suhteita, vain assosiatiivisia

suhteita (RT-suhde)– joillakin sanoilla ei ole mitään suhteita – käsitejärjestelmäkokonaisuudet melko pieniä

Page 18: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA – YSO (2)

Sanojen väliset suhteet YSOssa• YSOssa on valmis kehikko, johon kukin sana yritetään sijoittaa

mahdollisimman loogisesti– ontologissa paljon hierarkian vaatimia ns. ”aputasosanoja”, jotka eivät

ole asiasanoja (käyttäjä ei voi erottaa ”todellisista asiasanoista”) – käsitekehikko monimutkainen ja tarkka– kaikilla sanoilla/termeillä on joku hierarkkinen suhde – pitkiä hierarkioita – monet käsitteet vaikea sijoittaa kehikkoon loogisesti (ongelmana

varsinkin ns. ”pehmeät tieteet” ja abstrakit käsitteet) -> kokonaisuus on jo nyt epäjohdonmukainen, koska eri ihmiset laittavat toisiaan vastaavia käsitteitä eri paikkoihin (esim. avioero, asumusero)

Page 19: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA – YSO (3)

Sanojen monimerkityksisyys YSAssa ja YSOssa• YSAssa

– osaan sanoista liitetty lisämääre, esim.• kurkku – vihannekset• kurkku – ruumiinosat

– osaan sanoista liitetty selitys ja laitettu ryhmään 00 (esim. kaanonit)

• YSOssa pyritty ottamaan esille mahdollisimman paljon monimerkityksisyyttä– kuinka ”syvälle” polysemiaan kannattaa mennä?

• kaanonit (koko)• kaanonit (kooste)• kaanonit (ohjeet)• kaanonit (sävellykset)• kaanonit (uskonnolliset tuotokset)

• YSOssa osa termeistä esitetty myös eri ”funktioissa” (esim. lapset)• YSOssa ns. kooste-sanoja (termiä voi käyttää useilla aloilla/funktioissa)

Page 20: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA – YSO (4)

Maantieteelliset nimet YSAssa ja YSOssa

• YSAssa mukana n. 5000 paikannimeä (myös luonnonmaantieteellisiä nimiä, kyliä ja kaupunginosien nimiä, koti- ja ulkomaisia paikannimiä)

• YSOssa ei maantieteellisiä nimiä, maantieteelliset nimet paikkaontologioissa – SUO, SAPO; sisältävät vain suomalaisia paikannimiä– SAPOssa (Suomen ajallinen paikkaontologia) ei ole mukana kyliä eikä

kaupunginosia

Page 21: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

YSA – YSO (5)

Alanmukaiset ryhmät• YSAssa voidaan selata alanmukaisia ryhmiä• YSOssa ei voida selata alanmukaisia ryhmiä (ainakaan vielä)

Vapaa indeksointi• YSAssa ohjeet vapaan indeksoinnin sanaryhmien yhteydessä• YSOssa asia ratkaisematta

Page 22: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Selvitettävää: kysymyksiä (1)

• Miksi pitäisi siirtyä asiasanoista ontologioihin?

• Mitä todellista lisäarvoa ontologiat tuovat sisällönkuvailuun ja tiedonhakuun? Kustannus-hyötyanalyysi!– otettava huomioon, että jo pelkästään YSOn ylläpito vaatii enemmän

resursseja kuin YSAn– ontologioilla indeksointi on todennäköisesti hitaampaa kuin perinteisillä

asiasanastoilla (huom. asiasanojen eri funktiot)– tiedonhaun ongelmat

• Ontologiat luotu lähinnä koneymmärrettäväksi, soveltuvatko ne ihmisen tulkittaviksi?

Page 23: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Selvitettävää: kysymyksiä (2)

• Ovatko ontologiat sisällöltään niin valmiita, että niitä voidaan ryhtyä käyttämään?

• Maantieteelliset nimet: – SUO ja SAPO (paikannimiontologiat) sisältävät vain suomalaisia

paikannimiä, entä ulkomaiset paikannimet (ja niiden suomennokset)?– SAPOssa ei ole mukana kyliä eikä kaupunginosia– ei ole olemassa sellaista paikannimiontologiaa, jossa olisi mukana

ulkomaisten paikannimien suomalaiset vastineet (huom. YSAssa on jonkun verran mukana myös ulkomaisten paikannimien suomalaisia nimiä)

Page 24: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Selvitettävää: kysymyksiä (3)• Miten käytetään niitä asiasanoja, jotka eivät ole missään ontologioissa?

– esim. vapaan indeksoinnin sanat, numeeriset ajanmääreet: ratkaisematta

• Koska asiasanaa ei voi käyttää muussa kuin ontologian esittämässä yhteydessä (sanojen merkitys sidottu tiukasti ko. sanan paikkaan /hierarkiaan ontologiassa, ontologia on siis jäykempi kuin asiasanasto), miten menetellään, jos ko. sanaa tarvitaankin ihan muissa yhteyksissä?

– > aina on otettava yhteys ontologian ylläpitäjään -> hidastaa sisällönkuvailutyötä ja vaatii ylläpidolta resursseja

• Onko kaikki kirjastotietokannoissa käytettävät asiasanastot ontologisoitava?– resurssit? Sisällöllinen ja tekninen ylläpito?

• Entä ulkomaisten asiasanastojen ja ontologioiden käyttö?

Page 25: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Selvitettävää: kysymyksiä (4)• Jos ontologioita ryhdytään käyttämään asiasanoituksessa, pystytäänkö

aikaisemmat indeksoinnissa käytetyt asiasanat kytkemään ontologian yhteyteen? Ongelmia, esim.– ontologiassa sanoja eri merkityksissä, kuten

• lapset (ikään liittyvä rooli)• lapset (kooste)• lapset (perheenjäsenet)• lapset (sosioekonomiseen ryhmään liittyvä rooli)• - > mihin näistä nyt jo tietokannoissa olevat asiasanat ”lapset” kytketään?

Koosteeseenko, mutta mitä hyötyä silloin on ontologiasta?

– ontologiassa asiasana tietyssä merkityksessä (tietyssä paikassa kehikossa, hierarkiassa). Tietokannassa on samaa asiasanaa voitu käyttää aivan eri yhteydessä kuin mitä ontologia tarjoaa

- > tietokannassa olevaa asiasanaa ei voida kytkeä ontologiassa olevaan sanaan

Page 26: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Selvitettävää: kysymyksiä (5)

• Onko teknisiä valmiuksia ryhtyä käyttämään ontologioita sisällönkuvailussa ja tiedonhaussa?

– ONKI-palvelun asiasanastoilla/ontologioilla on URI:t , jotka mahdollistavat poiminnan ja tiedonhaussa linkityksen ko. asiasanastoihin/ontologioihin

– URI = Uniform Resource Identifier (merkkijono, jolla kerrotaan tietyn tiedon paikka (URL) tai yksikäsitteinen nimi (URN))

– poiminta onnistuu leijukkeen (widget) avulla suoraan järjestelmiin, joissa on toimivat Web Services –rajapinnat (esim. yliopisto- ja korkeakoulukirjastojen järjestelmässä Voyagerissa rajapintaa ei ole)

– miten käy ketjutusten?

Page 27: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Kansallinen ontologiakirjasto ONKI (1)

• http://onki.fi/fi/browser/ (linkki uuteen käyttöliittymään myös VESAssa)

• ONKI-palvelu, ONKI-selain, ONKI-palvelin

• FinnONTO-projekti – Semanttisen laskennan tutkimusryhmä (SeCO)

• ONKI-palvelusta tällä hetkellä koekäytössä jo kolmas versio, ONKI-palvelussa aina silloin tällöin bugeja – koska ONKIn toiminta on epäluotettavaa, VESA-käyttöliittymä tulee olemaan

käytettävissä vielä v. 2011– palaute käyttöliittymästä

[email protected]• http://www.yso.fi/onki3/fi/overview/ysa (linkki ONKI-palvelun sivulta)

Page 28: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Kansallinen ontologiakirjasto ONKI (2)

• KK:n sanastoilla ei ole enää yhteistä ”sateenvarjoa” (VESAa), vaan kukin VESAn sanasto on ”itsenäisenä” sanastonaan ONKI-palvelussa– mukana URI-tunnukset (koneluettavuus)

• YSA ja Allärs ovat saatavilla myös raakadatana (avoimen datan periaate) kun tähän saakka niiden termit ovat olleet haettavissa vain yksitellen– ONKI-palvelimella ladattava XML-tiedosto, Creative Commons Attribution lisenssin

puitteissa sitä voi kuka tahansa käyttää

Page 29: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Kansallinen ontologiakirjasto ONKI (3)

• 62 sanastoa/asiasanastoa/ontologiaa– asiasanastoja: YSA, Allärs, MUSA, CILLA, Kaunokki, MESA (Merenkulun

asiasanasto), Valtioneuvoston asiasanasto jne.– sanasto-ontologioita mm.: KOKO, YSO/ALLSO, MUSO, AFO, KAUNO, MAO, TAO,

VALO

• YSA, Allärs: ajantasaisia (päivittyvät joka yö, huom. VESA päivittyy kerran viikossa) – epäselvää, kuinka ajantasaisia ONKI-palvelun muut asiasanastot ja ontologiat

ovat…– YSO: puuttuu n. 300 YSAn asiasanaa (tänä vuonna YSAan otetut) + kaikki

paikannimet

Page 30: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Mitä FinnONTOn jälkeen (1)?

• ONKI-palvelinympäristön ylläpito?– mikä taho tulee vastaamaan teknisestä ylläpidosta?

• Ryhtyvätkö kirjastot käyttämään ontologioita sisällönkuvailun ja tiedonhaun apuvälineenä?– kuka tekee päätökset? Tehdäänkö ennen päätöstä kustannus-

hyötyanalyysi?

Page 31: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Mitä FinnONTOn jälkeen (2)?• Jos kirjastot ryhtyvät käyttämään ontologioita, niin

huomattava mm., että– YSO/Allso

• YSO/Allson ylläpito vie enemmän resursseja kuin YSA/Allärsin ylläpito (ontologian kehikon monimutkaisuus ja tarkkuus, sanojen monimerkityksisyys)

• englanninkielisen version ylläpito

– ontologioiden koordinointi– erikoisontologiat

• esim. mikä taho ryhtyy tekemään esim. ontologiaa, jossa ovat ulkomaiset paikannimet suomalaisine vastineineen

• konsortiomalli (ONKI-konsortio)?– > vaatii ylläpito-organisaatioilta (ja varsinkin koordinoivalta

organisaatiolta) melko paljon resursseja

Page 32: Asiasanastoista ontologioihin? YSA-YSO-näkökulma

Osoitteita

• http://vesa.kansalliskirjasto.fi/ (pääsee sekä uuteen että vanhaan käyttöliittymään)

• http://onki.fi/fi/browser/(ONKI-palvelu)• http://demo.seco.tkk.fi/onkipaikka/ (SUO = Suomalainen paikkaontologia)• http://www.yso.fi/onki3/fi/overview/sapo (SAPO = Suomen ajallinen

paikkaontologia)• http://www.yso.fi/onki3/fi/overview/koko (KOKO-ontologia)• http://www.yso.fi/?l=fi• http://www.yso.fi/lusto-demo.html (Kantapuu-museotietokanta,

hakudemo)• http://wordnet.princeton.edu/ (WordNet)• http://www.yso.fi/onkiwebservice/?o=ysa&l=fi (Web Service -rajapinta)