spletne zbirke

42
Spletne zbirke Trendi v znanstvenem informiranju, gradnja spletnih zbirk, avtomatsko indeksiranje, Boolov in ne-Boolov iskalni model, uporabnost spletnih zbirk za znanstveno informiranje, povezovanje podatkov v spletnih zbirkah.

Upload: pegeen

Post on 29-Jan-2016

60 views

Category:

Documents


2 download

DESCRIPTION

Spletne zbirke. Trendi v znanstvenem informiranju, gradnja spletnih zbirk, avtomatsko indeksiranje, Boolov in ne-Boolov iskalni model, uporabnost spletnih zbirk za znanstveno informiranje, povezovanje podatkov v spletnih zbirkah. Kam gre znanstveno informiranje. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Spletne zbirke

Spletne zbirke

Trendi v znanstvenem informiranju,gradnja spletnih zbirk,

avtomatsko indeksiranje, Boolov in ne-Boolov iskalni model,

uporabnost spletnih zbirk za znanstveno informiranje, povezovanje podatkov v spletnih zbirkah.

Page 2: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 2

Kam gre znanstveno informiranje... Za današnjo pamet bi bil idealen informacijski sistem

tak, ki bi zadostil večini današnjih informacijskih potreb. Edino takega si znamo danes predstavljati.

Morda nima veliko skupnega z informacijskimi sistemi, kakršne bomo uporabljali čez 10 let.

Predvidevamo pa lahko: še vedno bo težišče na zbiranju in ponudbi dokumentov, pestrejši bo nabor tipov dokumentov v sistemu, informacijski sistem bo imel večje sposobnosti analize in

združevanja podatkov – od uporabnikov bo prevzel del pretvarjanja podatkov v informacije,

Page 3: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 3

Kam gre znanstveno informiranje... Predvidevamo lahko (nadaljevanje):

še bolj bo nepomembna lokacija in format dokumentov ali podatkov,

infrastruktura za organiziranje in dostop do informacij bo še vedno splet, ki svojo vlogo odlično opravlja,

splet se bo spreminjal iz mreže strežnikov, na katerih so nameščeni podatki in dokumenti v porazdeljeno zbirko podatkov in dokumentov (Semantični splet),

nadaljevala se bo rast količine prosto dostopnih podatkov in dokumentov.

Končni cilj – prost dostop do vseh objavljenih strokovnih informacij – ni nemogoč.

Page 4: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 4

Splet kot infrastruktura Obstajata vidni in globoki (nevidni) splet. V vidni splet sodijo vse spletne strani, ki so vključene v spletno

hipertekstno mrežo – vsak spletni dokument, na katerega kaže vsaj en spletni dokument, na katerega kaže vsaj en spletni dokument…

Svetovni splet, kot si ga je zamislil avtor Tim Berners-Lee, je vidni splet.

Veliki spletni iskalniki, kakršen je Google, do neke mere obvladujejo vidni splet in samo vidni splet.

Vidni splet so vse spletne strani, do katerih je mogoče priti s klikanjem, neglede na naravo klikajočega: lahko je človek ali program.

Page 5: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 5

Splet kot infrastruktura Globoki splet je vse ostalo – podatki, do katerih ne

moremo priti na avtomatski (programski) način: podatki so nameščeni na privatnih omrežjih, intranetih, ki

so programsko ali strojno ločena od interneta, podatki so dostopni s pomočjo obrazcev, ki jih avtomat ne

zna izpolniti, podatki so na spletiščih ali v zbirkah, zaščitenih z gesli, dokumenti kot celota ne obstajajo, ampak se, na z geslom

zaščiten ukaz, sestavijo iz sestavin v podatkovnih zbirkah – taka je večina člankov v e-revijah,

spletne strani, za katere obstaja standardna prepoved indeksiranja v zbirkah spletnih iskalnikov.

Page 6: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 6

Splet kot infrastruktura Niso vse informacije, nameščene v globokem spletu,

vredne uporabe v znanosti, vendar večina informacij, ki so vredne uporabe v znanosti, je

nameščenih v globokem spletu. V globokem spletu je večina bibliografskih zbirk in zbirk

e-revij, velik del osebnih in institucijskih shramb dokumentov.

Nekateri avtorji ali zbirke, ki sodijo v gibanje za odprt dostop (Open Source), se trudijo svoje podatke ali dokumente prestaviti iz globokega v vidni splet.

Page 7: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 7

Splet kot infrastruktura

Globoki splet je neprimerno večji od vidnega – ocene se gibljejo od 1 : 9 do 1 : n * 1000.

Bibliografska zbirka Medline (PubMed) je izjema: po naravi sodi v globoki splet, vendar ponuja lastna spletna orodja (e-Utils), ki omogočajo

avtomatsko pretakanje zapisov v poljubno aplikacijo.

Bibliografski zapisi iz Medline so najdljivi celo z Googlom, seveda pa je z Googlom nemogoče izvajati res kvalitetna iskanja po bibliografskih zbirkah.

Page 8: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 8

Spletni iskalniki: gradnja zbirk Zbirke spletnih iskalnikov nastajajo z avtomatskim odkrivanjem

in obdelovanjem (indeksiranjem) dokumentov. Nekateri iskalniki shranjujejo le podatke o dokumentih, drugi

(npr. Google) pa tudi same dokumente.

pridobivanje dokumentov

preoblikovanje besedila v

indeksne izraze

gradnja indeksov

E-pošta, spletne strani, blogi, novice v forumih…

shramba dokumentov

Page 9: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 9

Spletni iskalniki: gradnja zbirkAvtonomni programski agenti, znani tudi kot spletni roboti, zbirajo informacije o dokumentih v vidnem spletu.

obzorje

nabor semen

Page 10: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 10

Spletni iskalniki: gradnja zbirk

Spletni roboti Spletni roboti avtomatsko odkrivajo dokumente tako,

da sledijo spletnim kazalcem. Vsak dokument avtomatsko indeksirajo. Za uporabnost iskalnika je pomembna velikost prostora

dokumentov, ki ga pokriva, ter frekvenca obnavljanja podatkov.

Splet je ogromen in stalno (skoraj) eksponentno raste. Spletni roboti niti teoretično ne morejo obdelati vseh

spletnih dokumentov.

Page 11: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 11

Spletni iskalniki: gradnja zbirk Robot začne delo s t. i. “naborom semen”, zbirko

URL-jev, ki jih najprej uporabi za priklic novih dokumentov.

Novi kazalci, ki jih najde v teh dokumentih, se dodajo k njegovemu “obzorju”.

Spletni robot mora ponovno obiskovati strani, ki jih je že obiskal in njihove podatke vključil v zbirko.

Page 12: Spletne zbirke

12

Avtomatsko indeksiranje Običajno, “intelektualno” indeksiranje je drago

in zamudno, Potrebujemo redko pasmo človeka z

vsaj površnim znanjem stroke, iz katere so dokumenti,

dobrim poznavanjem informacijskih orodij in postopkov.

Avtomatsko indeksiranje: opisovanje vsebine z avtomatskimi postopki, brez človeške intervencije.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 13: Spletne zbirke

13

Avtomatsko indeksiranje

Vsebino dokumenta predstavlja sam dokument. Avtomatski postopki iz njega izberejo ključne

besede. Najuspešnejše so t.i. statistične metode

avtomatskega indeksiranja. Del metod je odvisnih od jezika dokumenta.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 14: Spletne zbirke

14

Avtomatsko indeksiranje

Običajni postopki avtomatskega indeksiranja: blokiranje: izpuščanje besed brez vsebine (vezniki,

predlogi, prislovi, zaimki…), krnjenje: poenotenje različnih oblik neke besede na

skupni krn, vrednotenje besednih krnov: računanje količine

informacije (povedne moči) v njih.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 15: Spletne zbirke

15

Avtomatsko indeksiranje

Krnjenje – uspešen in neuspešen primer:

besedne oblike: zdravilo, zdravila, zdravilomkrn: zdravil

vendar

besedne oblike: jetra, jeter, jetrom, jetrnikrn: jet (prekratek)

jetr (ne vključuje vseh oblik)

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 16: Spletne zbirke

16

Avtomatsko indeksiranje

Vrednotenje količine informacije v besedah: beseda, ki zastopa pomembno vsebino dokumenta,

običajno nosi veliko količino informacije (veliko povedno moč),

za računanje količine informacije v besedi je pomembna frekvenca besede v dokumentu in v zbirki dokumentov,

načeloma ima veliko informacije v nekem dokumentu beseda, ki

je v tem dokumentu pogosta in se pojavlja v majhnem številu dokumentov v zbirki.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 17: Spletne zbirke

17

Iskalni modeli

Boolov iskalni model: prevladuje pri bibliografskih zbirkah, pri iskanju razdeli zbirko na enostavni množici

relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov.

Ne-Boolovi iskalni modeli: razumejo relevantnost kot zvezno lastnost -

dokumenti so lahko bolj ali manj relevantni.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 18: Spletne zbirke

18

Iskanje – Boolov modelIskan

je – Boolov model

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 19: Spletne zbirke

19

Boolov iskalni model

Operatorji IN, ALI, NE (AND, OR, NOT), iskalna zahteva

diabetes IN insulinpoišče le zapise, ki vsebujejo oba deskriptorja;

iskalna zahtevadiabetes tip 1 ALI diabetes tip 2poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 20: Spletne zbirke

20

Boolov iskalni model

iskalna zahtevadiabetes NE insulinpoišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 21: Spletne zbirke

21

Boolov iskalni model

Kritike Boolovega iskalnega modela:

z iskalno zahtevod1 IN d2 IN d3 IN d4bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 22: Spletne zbirke

22

Boolov iskalni model

Kritike Boolovega iskalnega modela:

z iskalno zahtevod1 ALI d2 ALI d3 ALI d4bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 23: Spletne zbirke

23

Ne-Boolovi iskalni modeli

Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov.

Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom.

Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu.

Pri računanju podobnosti se upoštevajo tudi povedne moči skupnih besed (krnov).

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 24: Spletne zbirke

24

Ne-Boolovi iskalni modeli

Če je relevantnost zvezna lastnost, potem je mogoče:

iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti,

iskalec pregleduje rangirane dokumente dokler še najde zanimive.

Tako delujejo spletni iskalniki, npr. Google.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 25: Spletne zbirke

25

Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu

D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico… D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu…

skupni krni povedne moči relevantnost

D1 anatom 2 prsn 2 koš 3 skupaj: 7

D2 anatom 5 prsn 8 koš 10 splet 3 slik 3 skupaj: 29

Dr. Jure Dimec. Podatkovne zbirke v medicini.

ne-Boolovi iskalni modeli: izmišljen primer rangiranja

Page 26: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 26

Uporabnost spletnih iskalnikov: Scirus Scirus je eden redkih spletnih iskalnikov,

namenjenih resni rabi. Pri gradnji zbirk se poskuša omejevati na

strokovne vire. Do neke mere mu uspeva prebiti mejo globokega

spleta. Informacije o dokumentih zbira z roboti, na enak

način, kot splošni spletni iskalniki. Razlika je v „naboru semen”, začetnih strani s

kazalci, ki izvirajo med drugim iz ScienceDirect, Medline, BioMed Central in US Patent Office.

Page 27: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 27

Uporabnost spletnih iskalnikov: Scirus Velikost zbirk:

Google neugotovljivo velik, najmanj desetine milijard dokumentov,

Medline ~20 milionov bibliografskih zapisov, Scirus: 350 milijonov dokumentov.

Scirus omogoča sestavljanje iskalnih zahtev podobno, kot iskalniki pri biliografskih zbirkah:

raba logičnih operatorjev in oklepajev, omejevanje glede starosti, tipov in formatov dokumentov, omejevanje glede virov dokumentov in strokovnih področij, iskanje po poljih: au:, ti:, ke: (keywords), url:, jo (journal)...

Page 28: Spletne zbirke

28

Scirus: enostavno iskanje Iskalna zahteva

H1N1 AND vaccination AND ("side effects" OR "adverse effects")

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 29: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 29

Scirus: omejevanje iskalne zahteve

Page 30: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 30

Scirus: rezultati iskanja

Page 31: Spletne zbirke

31

Google Scholar Google je razširil svojo ponudbo še na zbirko člankov iz

znanstvenih revij. Polno besedilo člankov je avtomatsko indeksirano,

reference so razvrščene po relevantnosti in dodana mreža citiranosti.

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 32: Spletne zbirke

32

Kazalcina doku-mente,ki citirajota doku-ment.

Google Scholar

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Page 33: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 33

Kako sodobne zbirke povezujejo podatke...

Primera: Znanstvena revija Science, Medline (PubMed).

Page 34: Spletne zbirke

34

Google Scholar

Dr. Jure Dimec. Podatkovne zbirke v medicini.

Polno besedilo

Seznam kazalcev načlanke, ki citirajota članek.

Dodatni načini iskanja sorodnevsebine.

Zanimiva funkcija!

Page 35: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 35

Povezovanje podatkov: Medline Medline avtomatsko odkriva in povezuje

vsebinsko sorodne, vendar oblikovno in po izvoru zelo različne “koščke” informacij: bibliografski opis iskanega dokumenta, različne načine dostopa do polnega dokumenta, kemijske in farmakološke informacije o substancah,

omenjenih v iskanem dokumentu, informacije, namenjene pacientom, o pojavih, opisanih v

iskanem dokumentu, dodatne informacije, namenjene zdravnikom, o pojavih,

opisanih v iskanem dokumentu…

Page 36: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 36

Medline: dodatne informacije, povezane z iskanim dokumentom.

Page 37: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 37

Medline: dodatne informacije, povezane z iskanim dokumentom.

Page 38: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 38

Medline: dodatne informacije, povezane z iskanim dokumentom.

Page 39: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 39

Medline: dodatne informacije, povezane z iskanim dokumentom.

Page 40: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 40

Medline: dodatne informacije, povezane z iskanim dokumentom.

Page 41: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 41

Medline: dodatne informacije, povezane z iskanim dokumentom.

Page 42: Spletne zbirke

Dr. Jure Dimec. Podatkovne zbirke v medicini. 42

Medline: dodatne informacije, povezane z iskanim dokumentom.