pretrazivanje interneta 2011

28
upravljanje digitalnim informacijama Dijana Machala, prof., dipl. knjiž. Nacionalna i sveučilišna knjižnica u Zagrebu [email protected]

Upload: dijana-machala

Post on 17-Jun-2015

39.567 views

Category:

Education


2 download

DESCRIPTION

Prezentacija vezano uz radionicu Pretraživanja informacija na Internetu

TRANSCRIPT

Page 1: Pretrazivanje Interneta 2011

Pretraživanje i upravljanje digitalnim

informacijamaDijana Machala, prof., dipl. knjiž.

Nacionalna i sveučilišna knjižnica u [email protected]

Page 2: Pretrazivanje Interneta 2011

Internet Internet

sustav globalnih nezavisnih međusobno povezanih računalnih umreženja koja komuniciraju pomoću TCP/IP protokola

osmišljen 1969. u okviru istraživačkog programa američkog Ministarstva obrane (ARPANet)

informacijsko središte (hub) gdje ljudi provode većinu svog vremena učeći, igrajući se i komunicirajući globalno jedni s drugima

platforma društvenog medija, Ray Oldenburg – “third places” medij jedan-na-jedan, jedan-na-više, više-na-više, u realnom vremenu i

sinkroniziran platforma za poslovanje, druženje, objavljivanje, političko djelovanje, učenje i sl. ISOC – Internet Society – svjetska organizacija koja se brine o smjernicama

razvoja Interneta 3WC – konzorcij koji se brine za standardizaciju internetskog medija

Page 3: Pretrazivanje Interneta 2011

Barras, Colin. Unknown internet 3: How big is the net? New Scientist, 1 May 2009. URL: http://www.newscientist.com/article/mg20227062.200-unknown-internet-3-how-big-is-the-net.html

Page 4: Pretrazivanje Interneta 2011

Internet Internetski servisi

World Wide Web - koristi HTTP za prijenos web stranica napisanih u HTML-u - to je noviji servis, ali i najbrže rastući

razgovor ili čavrljanje (chat) - koji može biti komunikacija glasom ili pismena komunikacija - primjeri su IRC, ICQ i u zadnje vrijeme sve popularniji Skype

elektronička pošta - koristi POP, SMTP i druge protokole, jedna od prvih usluga na Internetu (1971. Ray Tomlinson osmislio je program koji šalje mail poruke preko mreže; 1976. kraljica Elizabeta II poslala je prvi mail; 73% zaposlenika provede više od sat vremena na mail komunikaciju)

prijenos datoteka - uz standardni FTP danas se sve više koristi peer to peer protokoli

Usenet - mreža namijenjena razmjeni poruka u interesnim grupama

Page 5: Pretrazivanje Interneta 2011

Površinski web Internetski sadržaj:

Površinski web – surface web Dubinski web – deep web, invisible web,

hidden web, darkweb, underweb

Površinski web čini dio ukupnog sadržaja globalne mreže kojeg su dohvatili roboti u svom indeksiranju web prostora.

Sadržaj dohvatljiv tražilicama, odnosno paukovima, robotima, crawlerima, botima …

Nevidljivi web 500 puta je veći od površinskog weba

Page 6: Pretrazivanje Interneta 2011

Nevidljivi web Većinu sadržaja nevidljivog weba čini:

sadržaj baza podataka dinamičke stranice koje se kreiraju na upit stranice koje su označene da ne budu

indeksirane sadržaj koji ne sadrži link niti na jednu drugu

stranicu privatni web sadržaj koji zahtijeva autentifikaciju

(intranet, extranet i druge računalne mreže) sadržaj u formatima različitim od HTML-a ili

teksta (multimedija, JavaScript, video i sl.) dokumente izvan http protokola (gopher, telnet,

ftp) dinamički sadržaj (novosti, avio letovi i sl.) postovi, komentari, FB komunikacija, društvno

označivanje

Pretražuje se pomoću vertikalnog pretraživanja, internetskih imenika, ‘dvorazinskog’ pretraživanja

Page 7: Pretrazivanje Interneta 2011

Internetske adrese URI, URL, URN

definiran standardom RFC 3986/2009 služi za određivanje lokacije i metode pristupa objektima na Internetu. Sastoji

se od naziva protokola koji određuje kako će se pristupiti objektu te mrežnog mjesta zajedno s mogućim upitima i identifikacijskim dijelovima adrese

namjena mu je da upućuje tražilice na određeno mrežno mjesto ili digitalni objekt

Oznaka adrese statičkih, predefiniranih stranica – .html, .pdf, .doc, .rtf, .ps … Primjer: http://www.w3.org/

Dinamički URL obično sadrži sljedeće znakove - ?, &, %, +, =, $, cgi-bin, .cgi Dinamički URL se generira nakon upita na bazu podataka Odnosi se na dinamički i aktivni sadržaj web-a (.asp, .jsp, .php, .cfm) Primjer: http://www.nsk.hr/home.aspx?id=24

PURL – persistent uniform resource locator URL koji se koristi za preusmjerenje adrese tražene mrežne stranice koristi izvorni kod HTTP-a (eror 404, 303) razvio OCLC 1995. godine nedostatak - prevelika ovisnost o DNS serveru

Page 8: Pretrazivanje Interneta 2011

Internetske adrese DOI

DOI – digital object identifier – alfanumerički naziv za jedinstvenu identifikaciju digitalnog sadržaja, kao što je knjiga, članak i sl.

DOI se uparuje s URL adresom unutar središnjeg imenika, te se objavljuje umjesto URL-a

DOI je trajan, dok se adresa dokumenta može mijenjati DOI se dodjeljuje izdavačima i može se koristiti u različitim sustavima i bazama

podataka

Primjer: Green, T (2009), “We Need Publishing Standards for Datasets and Data Tables”, OECD Publishing White Paper, OECD Publishing. doi: 10.1787/603233448430 http://dx.doi.org/10.1787/603233448430

Permalink Permalink – URL ili adresa koja upućuje na

određeni post na blogu ili forumu nakon što je arhivirana

Upotrebljava se u wiki alatu za različite verzije dokumenta

TrackBack protokol – link kojim ćemo se referirati na sadržaj blogova

Primjer: http://en.wikipedia.org/w/index.php?title=Library_of_Alexandria&oldid=435746862

Page 9: Pretrazivanje Interneta 2011

Internetske adrese Wallace Koehler, An Analysis of Web Page and Web Site Constancy and

Permanence, 50 J. AM. SOC. INFO. SCIENCE & TECH. 161, 172 (1999). Poluživot mrežnog mjesta iznosi 2.9 godina Poluživot mrežne stranice iznosi 1.9 godina (statički web)

Adresa mrežnog sadržaja: oznaka vjerodostojnosti i autoriteta na razini sadržaja oznaka trajnosti, pristupačnosti i stabilnosti na razini nosioca sadržaja

Struktura internetske adrese:

[oznaka protokola]://[adrese poslužitelja].[oznaka domene]:[port] http, https

https://www.amazon.com/gp/cart/view.html/ref=lh_co?ie=UTF8&proceedToCheckout.x=129jutarnji.hr

ftp gopher telnet

Primjer: telnet pristup zbirki Bodleiane - http://www.lib.ox.ac.uk/olis telnet://library.ox.ac.uk:23

Page 10: Pretrazivanje Interneta 2011

Internetske adrese Kastomizirana URL adresa:

http://retweet.cc/ http://tiny.cc/ https://bitly.com/

https://bitly.com/kZ5D6t+

‘Mrtvi’ link

Alexa.com – wayback machine

Internetske domene Internet Corporation for Assigned Names and Numbers (ICANN) generičke domene: .com, .gov, .org, .edu, .net geografske: .hr, .si, .ca, .rs, .me, .is, .to, .ly Od 2012 proširenje domena sukladno IPv6

Funkcija whois URL http://www.alexa.com/siteinfo

Page 11: Pretrazivanje Interneta 2011

Semantički web Meta elementi (meta tag) - semantički podaci o web stranici

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><title>Knjižnice grada Zagreba - Naslovna</title><meta name="keywords" content="Knjižnice grada Zagreba, kgz, knjižnica, Zagreb, Knjiznice grada Zagreba, katalog, OPAC" /><meta name="description" content="Knjižnica grada Zagreba su mreža narodnih knjižnica u Gradu Zagrebu. Stranice donose sve informacije o ustanovi, lokacijama i uvjetima korištenja knjižnica, građi, radnom vremenu, novostima i događanjima" /><meta name="copyright" content="KGZ 2010" /><meta name="author" content="Globaldizajn" /> <!--meta name="email" content="[email protected]" /<meta name="Distribution" content="Global" /><meta name="Rating" content="General" /><meta name="Robots" content="INDEX,FOLLOW" /><meta http-equiv="content-language" content="hr, en" /><meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

Mirkopodaci dogovoreni set mirkopodataka za opisivanje mrežnog sadržaja podražavaju Google, Bing schema.org

Page 12: Pretrazivanje Interneta 2011

http://technolog.msnbc.msn.com/_news/2011/06/16/6874191-what-happens-on-the-internet-every-60-seconds#blog_archives

Page 13: Pretrazivanje Interneta 2011

NetizensProsječan korisnik Interneta:- ima od 18 do 45 godina- društvene medije koriste osobe od 33-38 godina, od čega je 56% žena- 2/3 svih korisnika Interneta koristi društveni softver- višeg obrazovnog statusa- godišnjih primanja većih od 70.000 $-živi u gradskom i prigradskom središtu- 9.9% minuta provedenih na webu povede na Facebooku- 9.6% minuta provedenih na webu provede na Google stanicama (YouTube, Google, Gmail)

Pew Internethttp://www.youtube.com/watch?v=WjTZ7SlgyT4

comScorehttp://www.comscore.com/

http://internetstatstoday.com/?feed=rss

Page 14: Pretrazivanje Interneta 2011

Digitalni identitet- Važnost upravljanja digitalnim identitetom – digitalni otisak

- 75% korisnika društvenih medija redovito provjerava svoj digitalni identitet

MyOpenIDhttp://myopenid.com

Page 15: Pretrazivanje Interneta 2011

Tražilice Pretražujemo da bismo:

obnovili, ponovno pronašli informacije koje znamo da su na Internetu (recovery/discovery)

otkrili nove mrežne informacije i usluge (serendipity)

Pretraživanje: Horizontalno pretraživanje – široko pretraživanje raspoloživih izvora Vertikalno pretraživanje – unutar određenog područja, određenih vrsta

dokumenata i sl. Semantičko pretraživanje (semantic search) Društveno pretraživanje (social search), real-time search

Tražilice namijenjene pretraživanju internetskog sadržaja sastoje se od algoritma za indeksiranje sadržaja, baze podataka, sučelja za

pretraživanje i baze korisnika

AltaVista kreator Louis Monier, 15. prosinca 1995. – na dan javnog pokretanja indeksirala

je 16 milijuna dokumenata prvi pretraživač koji je nudio višejezično pretraživanje (Babel Fish)

Roy Tennant (2003) – „Only librarians like to search, everyone else likes to find“

Page 16: Pretrazivanje Interneta 2011

Google Google

Stanford University – Larry Page, Sergey Brin Larry Page inspiriran znanstvenom komunikacijom, citatnim analizama,

bibliometrijom doktorska teza o BackRub – sistem web citata PageRank – algoritam rangiranja mrežnog sadržaja temeljen na procjeni linkova

koje upućuju na određenu stranicu

Sergey Brin. Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine – najcitiraniji članak iz područja pretraživanja Interneta

povećanjem Interneta njihov algoritam daje sve bolje rezultate, jer će imati veći suodnos ukupnog broja linkova s linkovima na pojedinu stranicu (milijun sa 100 nula)

2002. – AdWords (pay-per-click) 2003. – Blogger, Picasa 2004. – Google Print – Google Books (Google Five - Harvard, Michigan University

Library, New York Public library, Oxford library and Stanford library), Google Scholar, Google Lab, Google News, Gmail

2005. – AdSense 2006. - YouTube

Page 17: Pretrazivanje Interneta 2011

Google

Razvoj Google-ove tražilice: 2007. – universal search, Zeitgeist 2010. – instant preview, realtime search, social search, google profiles 2011. – mobile search, voice search, image search, instant page, Google +1,

related search

Google SERP 2011 Dobro su rangirane stranice koje:

Brzina učitavanja stranica (prilagođena grafika) Poveznice na twitter, quora, friendfeed Poveznice na renomirane stranice Google +1 brendirano ime @ime Upotreba Alt tag-a za opis slika, video zapisa bez klasičnih domena (com, org), već .ly, .me, .is

Page 18: Pretrazivanje Interneta 2011

Google Postavke pretraživanja:

Jezik sučelja Jezik pretraživanja Lokacija Filtriranje Prikaz rezultata Google instant/autocomplete

Jednostavno pretraživanjeTips & Tricks:?GoogleGuide making searching even easierhttp://www.googleguide.com/advanced_operators_reference_print.html

OSNOVNA SINTAKSA PRETRAŽIVANJA Upotreba Booleovih operatora AND (+), OR (|), NOT (-) Pretraživanje po poljima (Field Seach) Kraćenje pojmova *, ?, ! Limitiranje pretraživanja Oblikovanje ključnih riječi: stop words, velika i mala slova i dr. Ograničenje upita na 32 ključne riječi

Page 19: Pretrazivanje Interneta 2011

Google Napredno pretraživanje

* - zamjena bilo kojeg pojma npr. how to * cake site:, filetype:, link: define info:, id:, related: (all)inanchor:, (all)intext:, (all)intitle:, (all)inurl: realtime search: #mashup search by image – sort by subject/relevance advanced book search create e-mail alert

Page 20: Pretrazivanje Interneta 2011

Ostale tražilice Ask.com

My Q&A Ask community

Bing Microsoftova tražilica Social search – related blogs, related tweets

Hakia omogućava semantičko pretraživanje

Blekko / slashtag intergrira u SERP likeani sadržaj FB prijatelja

Page 21: Pretrazivanje Interneta 2011

Tražilice znanstvenih informacija Scirus

„for scientific information only“ – najbolja tražilica znanstvenih informacija najobuhvatniji referentni izvor znanstvenih informacija dostupan na mreži.

Pokriva više od 450 milijuna znanstvenih radova. Pretraživač indeksira znanstvene časopise, mrežne stranice znanstvenika, radne materijale, pre-print radove, patente i institucijske repozitorije.

Google Scholar je pretraživač znanstvenih informacija (disertacija, recenziranih znanstvenih

članaka, patenata i sl.) čija je prednost u tome što istovremeno pretražuje i komercijalne baze podataka znanstvenih informacija. Nedostatak Google Scholara je u tome što većinom pokriva članke i znanstvene radove engleskog govornog područja, te mu je naglasak na prirodnim i tehničkim a manje na društveno-humanističkim znanostima. Posjeduje funkciju citatnog indeksa!

Intute zbog financijskih razloga prekida djelovanje

OAIster Integriran u WorldCat.org Sadrži linkove na cjelovite dokumente, disertacije, mrežne stranice, slike, video

zapise

Page 22: Pretrazivanje Interneta 2011

Metatražilice Istovremeno prosljeđuju upit na nekoliko tražilica, sortiraju

rezultate i izbacuju duplikate. Skraćuju vrijeme pretraživanja.

Search.com – pretražuje Google, Blekko, Bing, DMOZ

Allplus - pretražuje tražilice Google, Yahoo, Bing i Ask.com, web stranice, novosti, slike, video zapise i blogove. Rezultati se uspoređuju i rangiraju na korisniku intuitivan način.

Page 23: Pretrazivanje Interneta 2011

Imenici Yahoo

Jerry Yang i David Filo 1993 – Yang objavljuje svoju mrežnu stranicu Akebono (po imenu

sumoborca) i iz te stranice će 1994. godine razviti Jerry and David's Guide to World Wild Web

1995 – Yahoo – Yet Another Hierarchical Officious Oracle imenik temelje na ljudskoj komponenti uvode sistem oglasa, zadržavaju mladenački izgled, humor te postaju

portal prate clikstreams kao odraz potreba korisnika i iznalaze nove sadržaje:

Yahoo Finance, Yahooligans i sl. dmoz

od 1998 godine jedan od najvećih i najobuhvatnijih internetskih imenika koje uređuju stručnjaci. DMOZ je imao više od 70 000 urednika, a danas ih je aktivno oko 6 000.

„republic of web“ „definitive catalog of the web“ „internet brain“

Page 24: Pretrazivanje Interneta 2011

Twitter Twitter

http://search.twitter.com/ LoC arhivira kompletan Twitter

Sintaksa pretraživanja: #haiku - sadrži hashtag "haiku"

from:alexiskold – poslao "alexiskold"to:techcrunch – poslano "techcrunch"@mashable – tweet koji se odnosi na osobu "mashable""happy hour" near:"san francisco“ – sadrži točnu frazu "happy hour" i poslano je blizu "san francisco“ superhero since:2011-06-24 – sadrži pojam "superhero" i poslano je od "2011-06-24" (year-month-day). movie -scary :) sadrži pojam "movie", ali ne "scary", i ima pozitivan stavflight :( - sadrži pojam “flight" s negativnim stavom traffic ? - sadrži pojam "traffic" i pita pitanje

Page 25: Pretrazivanje Interneta 2011

Facebook Facebook

socialsearching.info

social-searcher.com – open facebook search

Bing planira integraciju pretraživanja FB postova

Page 26: Pretrazivanje Interneta 2011

Društveno označivanje Del.icio.us – delicious.com CiteULike – citeulike.com Stumbleupon – www.stumbleupon.com

iCyte – http://www.icyte.com/users/home Diigo – www.diigo.com

Page 27: Pretrazivanje Interneta 2011

Praćenje informacija RSS (Really Simple Syndication)

je dio XML-a (Extensible Markup Language) jezika, čiji su sadržaji čitljivi pomoću posebnog softvera zvanog agregator ili čitač (eng. Reeder/Aggregator). Agregatori prenose RSS kanale koji sadrže novosti sa mrežnih stranica koje prate. Korisnici RSS kanala ne moraju fizički odlaziti i posjećivati mrežne stranice, već novi sadržaj dolazi izravno njima.

Klikom na ikonicu za RSS kanal odabire se stranica s koje se žele primati novosti, nakon čega čitač prati i na jednom mjestu objavljuje sve informacije objavljene na toj stranici.

RSS kanale koristimo u svrhu: praćenja određenog područja praćenja novosti s neke mrežne stranice uključivanje informacija sa stanica s vijestima izravno na vlastite stranice praćenje sadržaja stručnih časopisa (TOC – table of contents) i sl.

Page 28: Pretrazivanje Interneta 2011

Početne stranice - mashups IGoogle – www.google.com/ig Protopage – www.protpage.com Squidoo – www.squidoo.com Rollyo – www.rollyo.com/ Google Custom Search Engine - http://www.google.com/cse/

+ Organizacija sadržaja prema osobnim potrebama Integracija različitih servisa na jednom mjestu Velika mogućnost personalizacije Sadržaj se može dijeliti, omogućuje kolaboraciju

- Nalaze se pod nazorom trećih osoba Stalne beta verizije Nije osigurana stalnost aplikacije Ne podržavaju jednako sve aplikacije