vyhledávání v prostředí internetu
DESCRIPTION
Barbora Poláková ; Martin Kozel. Vyhledávání v prostředí internetu. Osnova přednášky. Co se děje? změny v přístupu a práci s informacemi Co s tím ? Struktura informací na webu – teorie a praxe Jak na to ? Strategie vyhledávání a postupy. Informace. - PowerPoint PPT PresentationTRANSCRIPT
Barbora Poláková ; Martin Kozel
Osnova přednášky Co se děje?
změny v přístupu a práci s informacemi Co s tím ?
Struktura informací na webu – teorie a praxe Jak na to ?
Strategie vyhledávání a postupy
Informace Komunikovatelný popis jevu, jehož přijetím
dochází ke změnám v informačním systému. Odstraněná ENTROPIE
Vyšší míra uspořádanosti Čím více neurčitosti odstraní tím větší má
informace hodnotu. (Shannon,1948)
○ popsatelná○ kontextově nezávislá○ organizovatelná
informační zdroj/pramen
Informační společnost je taková společnost, ve které je věnována pozornost
informační činnosti natolik, že dojde ke snížení zájmu o zemědělskou a průmyslovou výrobu (Vlasák, 2000)
Marc Uri Porat (1976). Information economy : definition and measurement
70.léta – postindustriální společnost ○ průmysl ----- > služby
80.léta – informační společnost propojení počítačového průmyslu s ostatními průmyslovými
odvětvími rozvoj informační a počítačové GRAMOTNOSTI INFORMAČNÍ SEKTOR – profese tvorby, sběru, zpracovávání,
uchovávání, zpětného vyhledávání a dalšího šíření informací (Vlasák, 2000)
Informační exploze Informace = Moc = Peníze !!!
Prudký rozvoj informačních technologií a jejich dostupnost
KVANTITATIVNÍ nárůst informací a informačních zdrojůRedundance ; relevance ; pertinenceMrtvá data – long tail effect
Informační smog (Shenk 1997) lidstvo se nevyvíjí dost rychle aby
zvládalo množství informací
Exformace - informace existující za hranicemi našeho vědomí (Gore, 1994)
Zahlcení snížení citlivosti k obsahu - mozková
kapacita je stále stejná (Černohlávková, 2006)
Znalostní společnost nadstavba informační společnosti
založená na kolaboraci a interakci mezi uživateli
Web 2.0 - Tim Bernards-Lee (2000) Znalost
kontextově závislá ; pragmatický obraz informace reprezentovaný intelektuálním kapitálem jednotlivce (Bukh, 2001)
Terminologické vyjasnění Základní abstraktní pojmy :
INFORMACEZNALOSTI
Základní konkrétní pojmy : Informační / elektronický zdroj digitální / informační objekt / entita
Publikační procesy
Publikační proces informačního zdroje - původní
Nakladatelství, časopisy, databáze, databázová centra
Publikační proces informačního zdroje – nyní
Web 2.0 – sociální sítě, wiki, blog
Hodnocení +
AktuálnostRychlost Kooperace
-Kontrola kvality, relevance Korektura Odborný dohled Distribuce a popis jsou na autorovi –
NEDOHLEDATELNOST
KDE TO VŠECHNO MŮŽEME NAJÍT ?
World Wide Web Viditelný / povrchový web
informační entity volně přístupné a snadno dostupné pomocí vyhledávacích strojů
Neviditelný / hluboký webneviditelný pro běžné vyhledavače
○ databáze, adresáře, rejstříky, dokumenty v nepodporovaných formátech, licencované stránky
○ 500x větší než povrchový web
Web povrchový a hluboký (Bergman,2001)
Obsahové rozvrstvení hlubokého webu (Bergman, 2001)
CO TAM MŮŽEME NAJÍT ?
Digitální objekt (DO) základní entita
Hledisko původu: digitalizované informační zdroje
○ E-book ; postprinty born digital
○ Webové stránky, fóra, komunity, blogy, wiki
Hledisko typů DO MIME - Multipurpose Internet Mail Extension
Specifikuje charakter obsahu oficiálně komunikovaných DO na internetu
Typy: ○ Text ○ Obraz ○ Video ○ Zvuk○ Software○ Trojrozměrné digitální objekty
Digitální objekt Hlavička /Metadata
Obsah
Podpis
Metadata – Velká a mocná „Data o datech“
Strukturované informace, které popisují, osvětlují, lokalizují a usnadňují vyhledávání a využívání informačního zdroje. (Guidlines for Digitalization, 2007)
Popis DO Předobraz metadatového popisu je v
popisu tradičních zdrojů. strojem čitelný X stroji srozumitelný
Dvě úrovně popisu:
věcná – obsah, anotace, abstrakt, klíčová slova, kódy systematického třídění …
popisná –popis dokumentu podle formálních znaků ; autor, název, vydavatel, rok vyd. …
Tradiční bbg. Záznam - MARC 21
Dublin Core Metadata Initiative -DCMI Dublin Core
Soubor 15 metadatových kvalifikovatelných prvků
Původně popis zdrojů na WWW ; současně popis jakéhokoli objektu
Garant popisu - autor user-friendly
Dublin Core Czech DCMI homepage
Prvky DC
Identifikátory URL
Adresa DO; určuje pozici DO v prostředí webu
URN Znakový řetězec nebo číslo, které
jednoznačně identifikuje dokumentTrvalé, nepřenosné
Generátory metadat XML soubory
Metadata - DC
TAK JSME TO HEZKY POPSALI … A JAK TO NAJDEM?
Vyhledávací nástroje
„HLAVORUČNÍ“ Předmětové katalogy - directories-
Seznam katalog, Yahoo katalog
třídění a organizace DO podle předem dané taxonomie nebo předmětové klasifikace Nejpodobnější tradičním knihovnám Lidský faktor Malé pokrytí, úplnost taxonomie
Vyhledávací nástroje
AUTOMATICKÉ Vyhledavače - search engine
Altavista Metavyhledavače
víc indexů najednouOpen Text
Sekvenční analýza Automatická INDEXACE digitálních objektů za
pomoci speciálního softwaruRobot ; crawler ; spiders ; bot Index – reprezentace fondu úplných textů - metadata
Vyhledavač – obecné schéma
Vyhledavač Prostředí webu
(Poláková, 2009)
Google Schéma (Brin & Page, 2000)
Uživatelské rozhraní – 1/2Textové
Textový vyhledávací dotaz
Textová reprezentace výsledku Index – zkrácená informace o příslušném
zdroji odkaz na fulltext
Question answering2/2
Uživatelské rozhraní – 1/3Clustry
Vektorová logika –Vážení podobnosti dokumentů s dotazy –
relevance
Informační prostor – soubor prvku a vztahů mezi nimi udržovaných informačním systémem (Ingwersen 1996)
Clustry 2/3v informačním prostoru
(Traykovski &Sosisk, 2007)
Clusty.com 3/3
Uživatelské rozhraní – 1/3
Vizuální
Carrot2
2/3
Searchme 3/3
CO, KDE, a JAK
Základní princip
CO? KDE? JAK?
Co chci najít? Informační potřeba
to co vím mi nestačí Požadavek
konkretizovaná představa o informační potřebě Dotaz
Kladu přímo zdroji, ve kterém hledámVe vyhledávačích obecně:
navigační, informační, transakční (např. co, kdy, kde atd.)
Informační potřeba V 80-90 letech se rozvíjí věda nazvaná
„informační chování uživatele“ Posun v přístupu
computer-centred => user-centred Tři základní přístupy
KognitivníSociální Sociokognitivní (nejvíc in, kombinace
individualismu s kontextualitou prostředí)
KDE Typ zdroje
Primární zdrojeSekundární zdrojeTerciální zdroje
Vyhledavače, katalogy, databáze, encyklopedie
Globální / lokální charakter, Gatekeeping
JAK Vychytávky
Boolean logika (AND, OR, NOT )Proximitní operátory (NEAR,
WITHIN, SAME, „…“)Lematizace (skloňování, ?, * atd.)
Typy vyhledáváníFulltextovéFaktografické Atd.
Rešeršní strategie
JAK ANALYTICKÉ VYHLEDÁVÁNÍ
Systematická strategiePříprava, promýšlení problému,
předdotazy
PROHLÍŽENÍ (browsing)Intuitivní vyhledávání
ZPĚTNÁ VAZBA
REŠERŠNÍ STRATEGIE Základní kameny Rostoucí perla Osekávání
Literatura GORE, Albert. Země na misce vah. 1.vyd. Praha: Argo, 1994, ISBN 80-
85794-21-7. str.186. ČERNOHLÁVKOVÁ, Kateřina. Informační hygiena. Brno : Masarykova
Univerzita, 2006. SHENK, David. Data Smog : Surviving the Information Glut. 1 st ed. San
Francisco : Harper Edge,1997. 250 s. ISBN 0060187018. ARMS, W. Key Concepts in the Architecture of the Digital Library. D-Lib
Magazine [online]. July 1995 [cit. 2007-10-22]. Dostupný z WWW: < http://www.dlib.org/dlib/July95/07arms.html>. ISSN 1082-9873.
Brin S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford University [online] 2000 [cit. 2010-03-22]. Dostupný z WWW: http://infolab.stanford.edu/~backrub/google.html
SKLENÁK (2000). Data informace znalosti BUKH, P.N. Larsen H.T., Mouritsen J. (2001) Constructing intellectual capital
statements. Scandinavian Journal of managemennt roč. 17, s. 87-108
Literatura VLASÁK, R. (2000). Informační povolání a informační společnost PILECKÁ, Věra Kognitivní aspekty vyhledávání. Dostupný z WWW:
<http://www.ikaros.cz/node/3592>. Pilecká, Věra (2010) Kognitivní přístupy k vyhledávání informací. Praha :
Univerzita Karlova. Mírková, Miluše (2009) Bibliografická a rešeršní činnost. Dostupný z WWW:
http://home.czu.cz/~mirkova/ Portál pro podporu informační gramotnosti – www.inforgram.cz