pretrazivanje interneta 2011
Post on 17-Jun-2015
39.567 Views
Preview:
DESCRIPTION
TRANSCRIPT
Pretraživanje i upravljanje digitalnim
informacijamaDijana Machala, prof., dipl. knjiž.
Nacionalna i sveučilišna knjižnica u Zagrebudmachala@nsk.hr
Internet Internet
sustav globalnih nezavisnih međusobno povezanih računalnih umreženja koja komuniciraju pomoću TCP/IP protokola
osmišljen 1969. u okviru istraživačkog programa američkog Ministarstva obrane (ARPANet)
informacijsko središte (hub) gdje ljudi provode većinu svog vremena učeći, igrajući se i komunicirajući globalno jedni s drugima
platforma društvenog medija, Ray Oldenburg – “third places” medij jedan-na-jedan, jedan-na-više, više-na-više, u realnom vremenu i
sinkroniziran platforma za poslovanje, druženje, objavljivanje, političko djelovanje, učenje i sl. ISOC – Internet Society – svjetska organizacija koja se brine o smjernicama
razvoja Interneta 3WC – konzorcij koji se brine za standardizaciju internetskog medija
Barras, Colin. Unknown internet 3: How big is the net? New Scientist, 1 May 2009. URL: http://www.newscientist.com/article/mg20227062.200-unknown-internet-3-how-big-is-the-net.html
Internet Internetski servisi
World Wide Web - koristi HTTP za prijenos web stranica napisanih u HTML-u - to je noviji servis, ali i najbrže rastući
razgovor ili čavrljanje (chat) - koji može biti komunikacija glasom ili pismena komunikacija - primjeri su IRC, ICQ i u zadnje vrijeme sve popularniji Skype
elektronička pošta - koristi POP, SMTP i druge protokole, jedna od prvih usluga na Internetu (1971. Ray Tomlinson osmislio je program koji šalje mail poruke preko mreže; 1976. kraljica Elizabeta II poslala je prvi mail; 73% zaposlenika provede više od sat vremena na mail komunikaciju)
prijenos datoteka - uz standardni FTP danas se sve više koristi peer to peer protokoli
Usenet - mreža namijenjena razmjeni poruka u interesnim grupama
Površinski web Internetski sadržaj:
Površinski web – surface web Dubinski web – deep web, invisible web,
hidden web, darkweb, underweb
Površinski web čini dio ukupnog sadržaja globalne mreže kojeg su dohvatili roboti u svom indeksiranju web prostora.
Sadržaj dohvatljiv tražilicama, odnosno paukovima, robotima, crawlerima, botima …
Nevidljivi web 500 puta je veći od površinskog weba
Nevidljivi web Većinu sadržaja nevidljivog weba čini:
sadržaj baza podataka dinamičke stranice koje se kreiraju na upit stranice koje su označene da ne budu
indeksirane sadržaj koji ne sadrži link niti na jednu drugu
stranicu privatni web sadržaj koji zahtijeva autentifikaciju
(intranet, extranet i druge računalne mreže) sadržaj u formatima različitim od HTML-a ili
teksta (multimedija, JavaScript, video i sl.) dokumente izvan http protokola (gopher, telnet,
ftp) dinamički sadržaj (novosti, avio letovi i sl.) postovi, komentari, FB komunikacija, društvno
označivanje
Pretražuje se pomoću vertikalnog pretraživanja, internetskih imenika, ‘dvorazinskog’ pretraživanja
Internetske adrese URI, URL, URN
definiran standardom RFC 3986/2009 služi za određivanje lokacije i metode pristupa objektima na Internetu. Sastoji
se od naziva protokola koji određuje kako će se pristupiti objektu te mrežnog mjesta zajedno s mogućim upitima i identifikacijskim dijelovima adrese
namjena mu je da upućuje tražilice na određeno mrežno mjesto ili digitalni objekt
Oznaka adrese statičkih, predefiniranih stranica – .html, .pdf, .doc, .rtf, .ps … Primjer: http://www.w3.org/
Dinamički URL obično sadrži sljedeće znakove - ?, &, %, +, =, $, cgi-bin, .cgi Dinamički URL se generira nakon upita na bazu podataka Odnosi se na dinamički i aktivni sadržaj web-a (.asp, .jsp, .php, .cfm) Primjer: http://www.nsk.hr/home.aspx?id=24
PURL – persistent uniform resource locator URL koji se koristi za preusmjerenje adrese tražene mrežne stranice koristi izvorni kod HTTP-a (eror 404, 303) razvio OCLC 1995. godine nedostatak - prevelika ovisnost o DNS serveru
Internetske adrese DOI
DOI – digital object identifier – alfanumerički naziv za jedinstvenu identifikaciju digitalnog sadržaja, kao što je knjiga, članak i sl.
DOI se uparuje s URL adresom unutar središnjeg imenika, te se objavljuje umjesto URL-a
DOI je trajan, dok se adresa dokumenta može mijenjati DOI se dodjeljuje izdavačima i može se koristiti u različitim sustavima i bazama
podataka
Primjer: Green, T (2009), “We Need Publishing Standards for Datasets and Data Tables”, OECD Publishing White Paper, OECD Publishing. doi: 10.1787/603233448430 http://dx.doi.org/10.1787/603233448430
Permalink Permalink – URL ili adresa koja upućuje na
određeni post na blogu ili forumu nakon što je arhivirana
Upotrebljava se u wiki alatu za različite verzije dokumenta
TrackBack protokol – link kojim ćemo se referirati na sadržaj blogova
Primjer: http://en.wikipedia.org/w/index.php?title=Library_of_Alexandria&oldid=435746862
Internetske adrese Wallace Koehler, An Analysis of Web Page and Web Site Constancy and
Permanence, 50 J. AM. SOC. INFO. SCIENCE & TECH. 161, 172 (1999). Poluživot mrežnog mjesta iznosi 2.9 godina Poluživot mrežne stranice iznosi 1.9 godina (statički web)
Adresa mrežnog sadržaja: oznaka vjerodostojnosti i autoriteta na razini sadržaja oznaka trajnosti, pristupačnosti i stabilnosti na razini nosioca sadržaja
Struktura internetske adrese:
[oznaka protokola]://[adrese poslužitelja].[oznaka domene]:[port] http, https
https://www.amazon.com/gp/cart/view.html/ref=lh_co?ie=UTF8&proceedToCheckout.x=129jutarnji.hr
ftp gopher telnet
Primjer: telnet pristup zbirki Bodleiane - http://www.lib.ox.ac.uk/olis telnet://library.ox.ac.uk:23
Internetske adrese Kastomizirana URL adresa:
http://retweet.cc/ http://tiny.cc/ https://bitly.com/
https://bitly.com/kZ5D6t+
‘Mrtvi’ link
Alexa.com – wayback machine
Internetske domene Internet Corporation for Assigned Names and Numbers (ICANN) generičke domene: .com, .gov, .org, .edu, .net geografske: .hr, .si, .ca, .rs, .me, .is, .to, .ly Od 2012 proširenje domena sukladno IPv6
Funkcija whois URL http://www.alexa.com/siteinfo
Semantički web Meta elementi (meta tag) - semantički podaci o web stranici
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><title>Knjižnice grada Zagreba - Naslovna</title><meta name="keywords" content="Knjižnice grada Zagreba, kgz, knjižnica, Zagreb, Knjiznice grada Zagreba, katalog, OPAC" /><meta name="description" content="Knjižnica grada Zagreba su mreža narodnih knjižnica u Gradu Zagrebu. Stranice donose sve informacije o ustanovi, lokacijama i uvjetima korištenja knjižnica, građi, radnom vremenu, novostima i događanjima" /><meta name="copyright" content="KGZ 2010" /><meta name="author" content="Globaldizajn" /> <!--meta name="email" content="kgz@kgz.hr" /<meta name="Distribution" content="Global" /><meta name="Rating" content="General" /><meta name="Robots" content="INDEX,FOLLOW" /><meta http-equiv="content-language" content="hr, en" /><meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Mirkopodaci dogovoreni set mirkopodataka za opisivanje mrežnog sadržaja podražavaju Google, Bing schema.org
http://technolog.msnbc.msn.com/_news/2011/06/16/6874191-what-happens-on-the-internet-every-60-seconds#blog_archives
NetizensProsječan korisnik Interneta:- ima od 18 do 45 godina- društvene medije koriste osobe od 33-38 godina, od čega je 56% žena- 2/3 svih korisnika Interneta koristi društveni softver- višeg obrazovnog statusa- godišnjih primanja većih od 70.000 $-živi u gradskom i prigradskom središtu- 9.9% minuta provedenih na webu povede na Facebooku- 9.6% minuta provedenih na webu provede na Google stanicama (YouTube, Google, Gmail)
Pew Internethttp://www.youtube.com/watch?v=WjTZ7SlgyT4
comScorehttp://www.comscore.com/
http://internetstatstoday.com/?feed=rss
Digitalni identitet- Važnost upravljanja digitalnim identitetom – digitalni otisak
- 75% korisnika društvenih medija redovito provjerava svoj digitalni identitet
MyOpenIDhttp://myopenid.com
Tražilice Pretražujemo da bismo:
obnovili, ponovno pronašli informacije koje znamo da su na Internetu (recovery/discovery)
otkrili nove mrežne informacije i usluge (serendipity)
Pretraživanje: Horizontalno pretraživanje – široko pretraživanje raspoloživih izvora Vertikalno pretraživanje – unutar određenog područja, određenih vrsta
dokumenata i sl. Semantičko pretraživanje (semantic search) Društveno pretraživanje (social search), real-time search
Tražilice namijenjene pretraživanju internetskog sadržaja sastoje se od algoritma za indeksiranje sadržaja, baze podataka, sučelja za
pretraživanje i baze korisnika
AltaVista kreator Louis Monier, 15. prosinca 1995. – na dan javnog pokretanja indeksirala
je 16 milijuna dokumenata prvi pretraživač koji je nudio višejezično pretraživanje (Babel Fish)
Roy Tennant (2003) – „Only librarians like to search, everyone else likes to find“
Google Google
Stanford University – Larry Page, Sergey Brin Larry Page inspiriran znanstvenom komunikacijom, citatnim analizama,
bibliometrijom doktorska teza o BackRub – sistem web citata PageRank – algoritam rangiranja mrežnog sadržaja temeljen na procjeni linkova
koje upućuju na određenu stranicu
Sergey Brin. Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine – najcitiraniji članak iz područja pretraživanja Interneta
povećanjem Interneta njihov algoritam daje sve bolje rezultate, jer će imati veći suodnos ukupnog broja linkova s linkovima na pojedinu stranicu (milijun sa 100 nula)
2002. – AdWords (pay-per-click) 2003. – Blogger, Picasa 2004. – Google Print – Google Books (Google Five - Harvard, Michigan University
Library, New York Public library, Oxford library and Stanford library), Google Scholar, Google Lab, Google News, Gmail
2005. – AdSense 2006. - YouTube
Razvoj Google-ove tražilice: 2007. – universal search, Zeitgeist 2010. – instant preview, realtime search, social search, google profiles 2011. – mobile search, voice search, image search, instant page, Google +1,
related search
Google SERP 2011 Dobro su rangirane stranice koje:
Brzina učitavanja stranica (prilagođena grafika) Poveznice na twitter, quora, friendfeed Poveznice na renomirane stranice Google +1 brendirano ime @ime Upotreba Alt tag-a za opis slika, video zapisa bez klasičnih domena (com, org), već .ly, .me, .is
Google Postavke pretraživanja:
Jezik sučelja Jezik pretraživanja Lokacija Filtriranje Prikaz rezultata Google instant/autocomplete
Jednostavno pretraživanjeTips & Tricks:?GoogleGuide making searching even easierhttp://www.googleguide.com/advanced_operators_reference_print.html
OSNOVNA SINTAKSA PRETRAŽIVANJA Upotreba Booleovih operatora AND (+), OR (|), NOT (-) Pretraživanje po poljima (Field Seach) Kraćenje pojmova *, ?, ! Limitiranje pretraživanja Oblikovanje ključnih riječi: stop words, velika i mala slova i dr. Ograničenje upita na 32 ključne riječi
Google Napredno pretraživanje
* - zamjena bilo kojeg pojma npr. how to * cake site:, filetype:, link: define info:, id:, related: (all)inanchor:, (all)intext:, (all)intitle:, (all)inurl: realtime search: #mashup search by image – sort by subject/relevance advanced book search create e-mail alert
Ostale tražilice Ask.com
My Q&A Ask community
Bing Microsoftova tražilica Social search – related blogs, related tweets
Hakia omogućava semantičko pretraživanje
Blekko / slashtag intergrira u SERP likeani sadržaj FB prijatelja
Tražilice znanstvenih informacija Scirus
„for scientific information only“ – najbolja tražilica znanstvenih informacija najobuhvatniji referentni izvor znanstvenih informacija dostupan na mreži.
Pokriva više od 450 milijuna znanstvenih radova. Pretraživač indeksira znanstvene časopise, mrežne stranice znanstvenika, radne materijale, pre-print radove, patente i institucijske repozitorije.
Google Scholar je pretraživač znanstvenih informacija (disertacija, recenziranih znanstvenih
članaka, patenata i sl.) čija je prednost u tome što istovremeno pretražuje i komercijalne baze podataka znanstvenih informacija. Nedostatak Google Scholara je u tome što većinom pokriva članke i znanstvene radove engleskog govornog područja, te mu je naglasak na prirodnim i tehničkim a manje na društveno-humanističkim znanostima. Posjeduje funkciju citatnog indeksa!
Intute zbog financijskih razloga prekida djelovanje
OAIster Integriran u WorldCat.org Sadrži linkove na cjelovite dokumente, disertacije, mrežne stranice, slike, video
zapise
Metatražilice Istovremeno prosljeđuju upit na nekoliko tražilica, sortiraju
rezultate i izbacuju duplikate. Skraćuju vrijeme pretraživanja.
Search.com – pretražuje Google, Blekko, Bing, DMOZ
Allplus - pretražuje tražilice Google, Yahoo, Bing i Ask.com, web stranice, novosti, slike, video zapise i blogove. Rezultati se uspoređuju i rangiraju na korisniku intuitivan način.
Imenici Yahoo
Jerry Yang i David Filo 1993 – Yang objavljuje svoju mrežnu stranicu Akebono (po imenu
sumoborca) i iz te stranice će 1994. godine razviti Jerry and David's Guide to World Wild Web
1995 – Yahoo – Yet Another Hierarchical Officious Oracle imenik temelje na ljudskoj komponenti uvode sistem oglasa, zadržavaju mladenački izgled, humor te postaju
portal prate clikstreams kao odraz potreba korisnika i iznalaze nove sadržaje:
Yahoo Finance, Yahooligans i sl. dmoz
od 1998 godine jedan od najvećih i najobuhvatnijih internetskih imenika koje uređuju stručnjaci. DMOZ je imao više od 70 000 urednika, a danas ih je aktivno oko 6 000.
„republic of web“ „definitive catalog of the web“ „internet brain“
Twitter Twitter
http://search.twitter.com/ LoC arhivira kompletan Twitter
Sintaksa pretraživanja: #haiku - sadrži hashtag "haiku"
from:alexiskold – poslao "alexiskold"to:techcrunch – poslano "techcrunch"@mashable – tweet koji se odnosi na osobu "mashable""happy hour" near:"san francisco“ – sadrži točnu frazu "happy hour" i poslano je blizu "san francisco“ superhero since:2011-06-24 – sadrži pojam "superhero" i poslano je od "2011-06-24" (year-month-day). movie -scary :) sadrži pojam "movie", ali ne "scary", i ima pozitivan stavflight :( - sadrži pojam “flight" s negativnim stavom traffic ? - sadrži pojam "traffic" i pita pitanje
Facebook Facebook
socialsearching.info
social-searcher.com – open facebook search
Bing planira integraciju pretraživanja FB postova
Društveno označivanje Del.icio.us – delicious.com CiteULike – citeulike.com Stumbleupon – www.stumbleupon.com
iCyte – http://www.icyte.com/users/home Diigo – www.diigo.com
Praćenje informacija RSS (Really Simple Syndication)
je dio XML-a (Extensible Markup Language) jezika, čiji su sadržaji čitljivi pomoću posebnog softvera zvanog agregator ili čitač (eng. Reeder/Aggregator). Agregatori prenose RSS kanale koji sadrže novosti sa mrežnih stranica koje prate. Korisnici RSS kanala ne moraju fizički odlaziti i posjećivati mrežne stranice, već novi sadržaj dolazi izravno njima.
Klikom na ikonicu za RSS kanal odabire se stranica s koje se žele primati novosti, nakon čega čitač prati i na jednom mjestu objavljuje sve informacije objavljene na toj stranici.
RSS kanale koristimo u svrhu: praćenja određenog područja praćenja novosti s neke mrežne stranice uključivanje informacija sa stanica s vijestima izravno na vlastite stranice praćenje sadržaja stručnih časopisa (TOC – table of contents) i sl.
Početne stranice - mashups IGoogle – www.google.com/ig Protopage – www.protpage.com Squidoo – www.squidoo.com Rollyo – www.rollyo.com/ Google Custom Search Engine - http://www.google.com/cse/
+ Organizacija sadržaja prema osobnim potrebama Integracija različitih servisa na jednom mjestu Velika mogućnost personalizacije Sadržaj se može dijeliti, omogućuje kolaboraciju
- Nalaze se pod nazorom trećih osoba Stalne beta verizije Nije osigurana stalnost aplikacije Ne podržavaju jednako sve aplikacije
top related