cliw 2014—2015 (6/12): căutarea resurselor web
TRANSCRIPT
![Page 1: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/1.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Dezvoltarea aplicațiilor Webla nivel de client
(re)găsirea resurselor Web
de la motoare de căutare și SEO la date structurate
![Page 2: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/2.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
“A well-defined problem is half solved.”
Michael Osborne
![Page 3: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/3.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum prezentăm conținutulaltor clienți – diferiți de cei umani?
![Page 4: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/4.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Am putea recurge la extragerea automatăa datelor expuse pe Web?
![Page 5: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/5.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Roboți
programe ce traversează automat Web-ul,cu scopul de a extrage date
spiders, crawlers, Web bots
![Page 6: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/6.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Roboți
programe ce traversează automat Web-ul,cu scopul de a extrage date
robot Web navigator Web
![Page 7: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/7.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Roboți
pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite
acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de
legăturile existente în cadrul reprezentării
![Page 8: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/8.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Roboți
pornind de la un URI, realizează o conexiune HTTPla un server Web, pentru a întreprinde anumite
acțiuni privitoare la reprezentarea unei resurse și,recursiv, din toate documentele desemnate de
legăturile existente în cadrul reprezentării
acțiuni: extragere, copiere, sumarizare,agregare de conținut, monitorizare etc.
![Page 9: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/9.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: pericole
Operarea în foc rapid (rapid-fire)
trafic de rețea
supraîncărcarea serverelor Webdenial of service
![Page 10: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/10.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: pericole
Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare
![Page 11: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/11.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: pericole
Actualizarea cu întârziere a bazelor de dateale motoarelor de căutare
necesitatea specificării timpului de revizitare a situluide către robotul Web
<meta name="Revisit-After" content="30 Days" />
![Page 12: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/12.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: pericole
Exploatarea (ne)controlată de către utilizatori
atacuri „brute”
![Page 13: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/13.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: pericole
Intrarea în „găurile negre”
![Page 14: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/14.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: pericole
Accesarea unor date nerelevante
![Page 15: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/15.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
uzual, va fi folosit câmpul User-Agent
din antetul unei cereri HTTP
![Page 16: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/16.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
19539 de roboți Web – statistica din 2013Alexa (7004), Bing/MSN (100), Facebook (60),
Googlebot (6085), Twitter (84) + neidentificați (374730) conform www.botsvsbrowsers.com
search engines51%
scrapers8%
hacking tools7%
spammers1%
others33%
![Page 17: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/17.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
roboți personali(e.g., motoare experimentale, software de oglindire)
BackRub (pre-Google)wget – http://www.gnu.org/software/wget/
etc.
![Page 18: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/18.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
roboți ai motoarelor de căutare majore
Baiduspider – www.baidu.com/search/spider.html
bingbot – www.bing.com/bingbot.htm
Googlebot – www.google.com/bot.html
Slurp – http://help.yahoo.com/help/us/ysearch/slurp
YandexBot – yandex.com/bots
![Page 19: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/19.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
roboți: identificare
Fiecare robot Web trebuie să se identifice(nume, domeniu, creator,...)
roboți specializați(e.g., validarea codului HTML, scurtarea lungimii
URL-urilor, scanare de vulnerabilități, statistici,…)
exemplificări: citeseerxbot,Page2RSS, extensii Nagios, W3C Validator
![Page 20: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/20.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
173.199.116.75 - - [11/Dec/2012:00:46:02 +0200] "GET /~web/2012/ HTTP/1.1" 404 193 "-" "Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)"
180.76.5.101 - - [11/Dec/2012:06:50:09 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
98.137.206.250 - - [11/Dec/2012:11:08:25 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
207.46.199.167 - - [11/Dec/2012:11:08:26 +0200] "GET ....jpg HTTP/1.1" 200 3394 "-" "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"
66.249.75.44 - - [11/Dec/2012:11:12:26 +0200] "GET ….png HTTP/1.1" 304 - "-" "Googlebot-Image/1.0"
178.154.174.252 - - [11/Dec/2012:11:22:05 +0200] "GET … HTTP/1.1" 301 206 "-""Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)“
66.249.75.22 - - [11/Dec/2012:11:30:47 +0200] "GET /~seminar/… HTTP/1.1" 200 683 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.44 - - [11/Dec/2012:11:29:51 +0200] "GET … HTTP/1.1" 200 1104 "-" "Mozilla/5.0 (iPhone; U; en-us) … Mobile/8B117 (compatible; Googlebot-Mobile/2.1)"
65.55.24.244 - - [11/Dec/2012:11:31:46 +0200] "GET /mw/index.php HTTP/1.1" 200 4408 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)“
78.46.238.220 - - [11/Dec/2012:11:33:32 +0200] "GET /~cyp/test HTTP/1.1" 200 6 "-""check_http/v1.4.15 (nagios-plugins 1.4.15)"
128.30.52.70 - - [11/Dec/2012:12:02:14 +0200] "GET /~busaco/ HTTP/1.1" 200 1784 "-" "W3C_Validator/1.3"
cereri HTTP efectuate de diverși roboți Web(menționate în fișierul de jurnalizare Apache)
![Page 21: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/21.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum putem „instrui” roboții Websă nu viziteze anumite zone ale sitului?
![Page 22: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/22.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Orice robot trebuie să respectestandardul de excludere
![Page 23: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/23.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Orice robot trebuie să respectestandardul de excludere
fișierul robots.txt
detalii la http://www.robotstxt.org/robotstxt.html
![Page 24: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/24.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Orice robot trebuie să respectestandardul de excludere
fișierul robots.txt
# /robots.txt pentru http://www.info.uaic.ro User-agent: * # toți roboții Crawl-delay: 20 # 20 sec. între cereriDisallow: /tmp/ # date temporareDisallow: /xwiki/bin/xmlrpc/ # director privat
![Page 25: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/25.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Orice robot trebuie să respectestandardul de excludere
fișierul robots.txt
de studiat câteva exemple reale:http://www.amazon.com/robots.txt
http://facebook.com/robots.txt
http://www.google.com/robots.txt
![Page 26: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/26.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Orice robot trebuie să respectestandardul de excludere
evitarea indexării conținutului:
<meta name="robots" content="noindex, nofollow" />
![Page 27: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/27.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Ce activități realizează un motor de căutare?
![Page 28: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/28.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Scop:localizarea resurselor existente pe Web
![Page 29: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/29.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Tipuri de căutări – maniera tradițională:
pe bază de indecși (crawling & indexing)
Lycos – 1994AltaVista – 1995
![Page 30: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/30.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Tipuri de căutări – maniera tradițională:
pe baza ierarhiilor de termeni(servicii de tip catalog – topic directory, taxonomii)
Yahoo! – Yet Another Hierarchical Officious Oracle1994
![Page 31: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/31.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Tipuri de căutări – maniera tradițională:
hibrideindecși + taxonomiiportal Web
Excite – 1994
![Page 32: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/32.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Tipuri de căutări – maniera tradițională:
pe baza legăturilor hipertext(hyperlink analysis)
Google – 1996
![Page 33: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/33.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Tipuri de căutări – maniera modernă:
pe baza datelor structurate(determinare și extragere de meta-date & concepte)
Microsoft Satori Entity Engine (bazat pe Trinity)http://research.microsoft.com/en-us/projects/trinity/
Google Knowledge Graph (utilizează Freebase, Wikipedia)www.google.com/insidesearch/features/search/knowledge.html
![Page 34: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/34.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Un motor de căutare trebuie să satisfacănevoia de informații a utilizatorului
(user information-seeking)
![Page 35: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/35.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Localizarea & indexarea resurselor se pot realiza:
automat – via roboți Webmanual – recurgând la experți umani
hibrid
![Page 36: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/36.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Localizarea & indexarea resurselor
strategii:data/relation mining
topic distillationmeta-data search
social search…
![Page 37: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/37.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Caracteristici ale unui motor de căutare ideal
scop
căutarea oricărei resurse existente
![Page 38: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/38.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Caracteristici ale unui motor de căutare ideal
viteză
rezultatele să fie disponibile imediat
direcție de interes major: real-time Web search
![Page 39: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/39.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Caracteristici ale unui motor de căutare ideal
disponibilitate
actualizarea permanentă(orice modificare să fie indexată „instantaneu”)
![Page 40: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/40.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Caracteristici ale unui motor de căutare ideal
recall
găsirea tuturor resurselor relevantepentru o cerere dată
![Page 41: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/41.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Caracteristici ale unui motor de căutare ideal
precizie
rezultatul conține doar documente relevante
![Page 42: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/42.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Caracteristici ale unui motor de căutare ideal
ranking
cele mai relevante documentesunt plasate primele
![Page 43: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/43.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Care sunt principalele componenteale unui motor de căutare?
![Page 44: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/44.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Robot Webextrage informații
Index (catalog)stochează – în mod persistent – (meta)date
despre resursele existente pe Web
Mecanism de evaluare (ranking)pe baza cererii utilizatorului, oferă răspunsuri
![Page 45: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/45.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Diferențele dintre motoarele de căutare actualesunt date de fiecare componentă în parte
![Page 46: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/46.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
structura generică a unui motor de căutare(Chakrabarti, 2003)
![Page 47: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/47.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Activitatea generală a unui robot (crawler) simplu:
F = mulțimea de URL-uri de start (frontiera)cât-timp F este nevidăextrage un URL u din Fpreia pagina (resursa Web) p cu adresa udacă p este relevantăstochează p în indexpentru-fiecare legătură v din p
dacă v nu este în index și v nu aparține lui Fși v ar putea fi vizitată
adaugă v la F
![Page 48: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/48.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Bazată pe învățare
data mining
(de exemplu, reinforcement learning)
detalii la master
![Page 49: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/49.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Conținutul ce trebuie indexat nu e doar textual
hiper-informația:INFORMATION = HYPERINFO + TEXTINFO
dependența de legături
ordonarea legăturilor(alegerea unor criterii vizând importanța)
![Page 50: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/50.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Robotul/motorul de căutare decide momentulrevizitării resursei care urmează a fi reindexată
sau doar verificată
![Page 51: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/51.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Aspect de interes:
rezoluția adreselor Web(nume de domeniiadrese IP)
DNS caching, pre-fetching & resolution
![Page 52: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/52.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Aspect de interes:
realizarea cererilor concurente
![Page 53: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/53.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Aspect de interes:
extragerea legăturilor
e.g., normalizarea URI-urilor:www.InfoIasi.Ro:80www.info.uaic.ro
![Page 54: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/54.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Aspect de interes:
eliminarea adreselor deja vizitate
evitarea „găurilor negre”
![Page 55: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/55.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Aspect de interes:
monitorizarea accesărilor
load monitoring & managing(evitarea supra-solicitării serverelor Web)
![Page 56: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/56.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: căutarea
Aspect de interes:
strategii de revizitare/reîmprospătarea conținutului resurselor Web
![Page 57: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/57.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii
![Page 58: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/58.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
optimizarea regăsirii
modele non-relaționale de stocare – „mișcarea” NoSQL
printre primele abordări: BigTable (Chang et al., 2006)http://labs.google.com/papers/bigtable.html
![Page 59: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/59.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: indexarea
Necesitatea folosirii sistemelor de baze de date depozit distribuit de stocare (eventual, în cloud)
arhivarea datelor indexate
e.g., recurgerea la algoritmul de compresie bzip2(cazul Google)
![Page 60: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/60.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum se realizează indexarea?
![Page 61: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/61.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: indexarea
Utilizarea nu doar a datelor propriu-zise(conținutului textual), ci și a meta-datelor
e.g., limbă, cuvinte-cheie, autor, format,data ultimei actualizări,…
![Page 62: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/62.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: indexarea
Indexare bazată pe cuvinte-cheierelevanță, plasament, meta-date,...
versus
indexare semantică – bazată pe concepteAtom/RSS, social tagging,
microformate, microdate HTML5, Web semantic (RDF, RDFa),...
![Page 63: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/63.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: indexarea
O importanță mare o au: maniera de structurare a informației și„relația” unei pagini cu altele înrudite
![Page 64: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/64.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
![Page 65: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/65.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
unele motoare de căutare acceptăfolosirea unor operatori specifici
![Page 66: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/66.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Cererile sunt formulate via o interfață Web
exemplificare: o parte dintre operatorii Google
"expresie" ~termen –termen
numar1 .. numar2 related: URL cache: URL
intitle: termen(i) intext: termen(i) inurl: termen(i)
link: URL site: domeniu info: domeniu
define: termen filetype: extensie unit1 in unit2
detalii la www.googleguide.com/advanced_operators_reference.html
![Page 67: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/67.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
digital camera $700 .. 1400
~book
Apache logo filetype: png
intitle: design –intitle: web
"burse de merit" site: uaic.ro inurl: edit
![Page 68: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/68.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Interogările din prisma utilizatorului:
grad mare de subiectivitate
e.g., “miserable failure”
![Page 69: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/69.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Interogările din prisma utilizatorului:
depind de contextul social/cultural
exemple:“pants” în UK versus US
“madonna and child”
![Page 70: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/70.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Interogările din prisma utilizatorului:
dependente de scop
informațional (listă, locație, sfat)
navigațional
vizând accesarea resurselor(download, amuzament, interactivitate,…)
![Page 71: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/71.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Remarci:
utilizatorii obișnuiți nu înțeleg limbajul logic – „booleana”
exemplu:“hotels located in Bucharest and Iasi”
![Page 72: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/72.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Remarci:
interogările uzual sunt scurte (media: 2,6 cuvinte),dar focalizate – e.g., 25% pe business (conform Yahoo!)
vezi și http://labs.yahoo.com/publication/?area=web-mining-search
![Page 73: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/73.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Remarci:
apar confuzii:URI vs. text,
lipsa spațiilor,vocabular
etc.
![Page 74: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/74.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Remarci:
implicit, termenii de căutare trebuie să se regăseascăidentic în cadrul conținutului unui document Web
e.g., căutând “children”, nu vom obține neapărat și paginile care includ “kids”
motoare: interogarea
![Page 75: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/75.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Interogări formulate în limbaj natural:
eliminarea ambiguităților (dezambiguizarea)
filtrarea cuvintelor nerelevante
expandarea interogării: sinonime, forme derivate,…
![Page 76: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/76.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Evaluarea cererii – schema generală:1. Analizarea interogării (tokenizing)2. Căutarea în indecșii termenilor3. Scanarea documentelor4. Evaluarea relevanței paginilor5. Eliminarea duplicatelor & sortarea6. Afișarea primelor N documente relevante
(URI + alte informații)
![Page 77: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/77.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Conținutul fiecărui document extraseste analizat și divizat în token-uri
![Page 78: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/78.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Unele construcții se ignoră/constrâng
e.g., “the”, “is”/“are”/“were” → “be”, “running” → “run”
procesare de bază a conținutului textual
![Page 79: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/79.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Fiecărui token i se reține și poziția aparițieiîn document
poziția poate fi folosităla determinarea relevanței termenului
![Page 80: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/80.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe clasificare umană
resurse clasificate de oameni
![Page 81: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/81.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe informații privitoarela utilizarea unei resurse
timpul de vizită, periodicitatea vizitei,frecvența actualizării resursei, importanța relativă etc.
![Page 82: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/82.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Criterii vizând calculul relevanței:
ranking bazat pe conectivitate
analiza relațiilor (legăturilor hipertext) cu alte pagini
eventual, în funcție de reputațiee.g., importanța domeniului Internet
(sunt luați în calcul factori ca vechimea, localizarea,…)
![Page 83: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/83.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Calculul relevanței:
tehnici privind IR (Information Retrieval)
cautări bazate pe similaritate – similarity search
cautări bazate pe învățare automată (machine learning)
clasificarea conținutului hipermedia
social network analysis – bibliometrie, prestigiu,…
![Page 84: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/84.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Page Rank (Google)
evaluarea relevanței pe baza contextului de apariție
![Page 85: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/85.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Page Rank (Google)
exploatarea relațiilor dintre diferite pagini Web
![Page 86: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/86.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Page Rank (Google)
recurgerea la tehnici adaptive, euristice
![Page 87: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/87.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Page Rank (Google)
determinarea corelației dintre relevanța calculatăautomat de sistem și cea precizată (in)direct
de către utilizator
![Page 88: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/88.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Page Rank (Google)(Larry Page & Sergey Brin, 1996 – doctorat la Stanford)
se baza inițial pe structura hipertext
o legătură de la pagina A la B reprezintăun vot dat paginii B de către A
cu cât un sit este mai important,cu atât page rank-ul asociat lui e mai mare
![Page 89: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/89.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Alternative la Page Rank:
TrustRank (Friesen, 2007)
folosește domenii Web de încredere selectate de oameni
![Page 90: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/90.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Alternative la Page Rank:
TrustRank (Friesen, 2007)
cu cât un sit e mai aproape (în termeni de legături Web)de siturile evaluate și considerate de încredere
de către oameni, cu atât va avea o importanță mai mare
vizează un sit (domeniu), nu o pagină Web
![Page 91: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/91.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
motoare: interogarea
Alternative la Page Rank:
utilizarea tehnologiilor Web-ului semantic
se iau în considerație concepte (cunoștințe), nu cuvinte
![Page 92: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/92.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Evifolosirea
inferențelorpentru
a răspunde la întrebările
utilizatorului
![Page 93: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/93.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
perioadă de timp strategie
înainte de 2000conținut – indexarea textului(titlu, anteturi, URL, descriere via <meta>)
2000—2010conținutautoritate (via legături)
2010—prezent
conținutautoritatepersonalizare (social media +informații personale)
2012—prezent
conținutautoritatepersonalizareconcepte (date-structurate + Web of data)
adaptare după (K. Bodnar & J. Hopkins, 2011)
![Page 94: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/94.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
generale Bing, DuckDuckGo, Google, Yahoo!, Volunia,…
regionaleBaidu (China), Daum (Coreea), Goo (Japonia),
Guruji (India), Rambler (Rusia) etc.
meta-căutare Dogpile, Excite, Mamma, Yippy
enterprise search Apache Solr, ElasticSearch, OpenSearchServer,…
răspunsuri(answer-based)
umane: Stack Overflow, Yahoo! Answers, Quora
automate: AskMeNow, Evi, Wolfram Alpha
news search BingNews, Daylife, Topix, Yahoo! News,…
hărți (maps) Nokia HERE, OpenStreetMap, WikiMapia etc.
cod-sursă Google Code Search, Koders, Krugle
căutare pe baza P2P FAROO, Seeks, YaCy
desktop search DocFetcher, Recoll, Tropes Zoom
pentru dezvoltatori: Apache Lucene, Apache Nutch, mnoGoSearch, Namazu, Xapian,…
![Page 95: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/95.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
2056 de API-uri (7 noiembrie 2014)privind căutarea resurselor Web:
http://www.programmableweb.com/category/search
![Page 96: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/96.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motoarele tind să „recompenseze” siturile:
de mari dimensiuni
cu viață lungă
specializate, de „nișă”
aparținând unor autorități de încredere
motoare: interogarea
![Page 97: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/97.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
SERP (Search Engine Result Page)
specifică maniera de redare a rezultateloroferite de motorul de căutare
motoare: afișarea rezultatelor
![Page 98: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/98.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
SERP (Search Engine Result Page)
se includ recomandări pe baza:preferințelor utilizatorului
istoricului căutărilorURL-urilor partajate via rețele sociale
meta-datelor (rich snippets)adnotărilor realizate de utilizatorilocației geografice (local search)
motoare: afișarea rezultatelor
![Page 99: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/99.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
“At any one time you rank #1 or #8 or #40based on who is searching, where they search,
and what is happening.”
K. Bodnar & J. Hopkins, 2011
![Page 100: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/100.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum putem proiectamijloacele de căutare internă?
![Page 101: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/101.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motor de căutare internă (la nivel de sit)
oferirea de sugestii utilizatorului
e.g., spelling suggestions,sinonime (car automobile, truck,…)
![Page 102: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/102.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motor de căutare internă (la nivel de sit)
sugestii de soluții
de exemplu, răspunsuri la cele mai frecvente întrebări
![Page 103: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/103.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motor de căutare internă (la nivel de sit)
îmbunătățirea interacțiunii – utilizabilitatea
integrarea în designul general al sitului
tactici: oferirea unui următor pas de realizat(mai ales când nu există rezultate),
sugestii privind căutarea, exemple, rafinarea cererii etc.
![Page 104: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/104.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
![Page 105: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/105.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motor de căutare internă (la nivel de sit)
în pagina de redare a rezultatelor, va fi afișată șiinterogarea inițială, cu posibilitatea modificării ei
oferirea a cel puțin N rezultate/pagină +indicarea numărului total de pagini de rezultate
sau încărcarea progresivă a următoarelor rezultate
![Page 106: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/106.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motor de căutare internă (la nivel de sit)
calitatea rezultatelor oferite e dependentăși de modul de structurare a datelor
fiecare rezultat să includă informații utilefolosirea unui vocabular înțeles de către vizitator,
utilizarea unor tehnici de vizualizare intuitivă,facilitarea filtrării & sortării datelor etc.
![Page 107: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/107.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
![Page 108: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/108.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Motor de căutare internă (la nivel de sit)
utilizatorul să aibă libertatea de a efectuaoricând o nouă interogare
evitarea „fundăturilor” – oferirea de ajutor, sugestii,…
![Page 109: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/109.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum trebuie scris codul HTMLpentru a obține o relevanță bună a conținutului?
![Page 110: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/110.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
SEO – Search Engine Optimization
suită de strategii de redactare a codului HTMLîn vederea obținerii unei relevanțe ridicate
a conținutului, astfel încât pagina/situl să fieregăsite în urma unei căutări specifice efectuate
cu un instrument de căutare
![Page 111: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/111.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea codului-sursă a documentelor Web
Structurarea conținutului
Structurarea legăturilor cu alte pagini
![Page 112: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/112.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea codului-sursă – SEO la nivel de pagină
documentul trebuie să fie bine-formatat
![Page 113: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/113.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea codului-sursă – SEO la nivel de pagină
includerea de meta-date:în antet – elementul <meta />
conținut textual alternativ pentru imagini(<img alt="..." />), multimedia, legături (<a title="...">),
tabele (<table summary="...">) etc.
atașarea de meta-date externe via elementul <link />
![Page 114: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/114.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea codului-sursă – SEO la nivel de pagină
a nu se folosi:cadre (frame-uri)
sauelemente învechite sau proprietare
(e.g., <blink> ori <marquee>)
![Page 115: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/115.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea codului-sursă – SEO la nivel de pagină
conținutul primează (“content is king”)
alegerea judicioasă a cuvintelor-cheie în <meta>
criterii: relevanță, densitate, internaționalizare
o importanță majoră o are titlul paginii
![Page 116: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/116.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea codului-sursă – SEO la nivel de pagină
situl trebuie actualizat periodic, frecvent
un criteriu important: timpul de încărcare
despre performanțaaplicațiilor Web
într-un curs viitor
![Page 117: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/117.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea conținutului
codul trebuie structurat conform semnificației logicePOSH (Plain Old Semantic HTML)
![Page 118: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/118.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea conținutului
conținutul relavant trebuie plasat ierarhicvia <h1>, <h2>,...
pentru HTML5, de utilizat noile elementevizând structura: <article>, <header>, <footer>, <nav> etc.
layout bazat pe CSS și nu pe marcaje tabelare
![Page 119: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/119.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea conținutului
conținuturile multimedia binaretrebuie să aibă alternative textuale
anumite date pot fi „ascunse” de roboți via robots.txt
![Page 120: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/120.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea conținutului
numele fișierelor (imagini, stiluri,…) contează
human friendly URLs
![Page 121: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/121.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea legăturilor – SEO la nivel de sit
obligatoriu, de inclus legături spre alte pagini(ale sitului ori ale altor situri)
![Page 122: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/122.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea legăturilor – SEO la nivel de sit
dorim legături spre/de la situri importanteavând conținut similar cu situl nostru
tehnici clasice (considerate „demodate”):interschimb de link-uri – banner-e, blogroll-uri,
marketing bazat pe context
![Page 123: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/123.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea legăturilor – SEO la nivel de sit
dorim legături spre/de la situri importanteavând conținut similar cu situl nostru
recurgerea la aplicații Web sociale
SMO (Social Media Optimization)
![Page 124: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/124.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea legăturilor – SEO la nivel de sit
de verificat și menținut structura hipertext!
![Page 125: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/125.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Structurarea legăturilor – SEO la nivel de sit
a se evita spam-ul
e.g., legături încrucișate între pagini similareale aceluiași sit Web ori ale unei colecții de situri
motoarele detectează & penalizează spam-ul!http://searchenginewatch.com/topic/web_spam_detection
![Page 126: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/126.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Utilizarea elementului <meta>
descrierea paginii – description
cuvintele-cheie – keywords
controlul roboților Web – robots
alte informații de interes:tipul conținutului, relația cu alte pagini,…
seo: strategii
![Page 127: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/127.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Paginile de „acoperire” (page cloaking)
scop: oferirea de conținut diferit,în funcție de un anumit criteriu
(aici, conținut special pentru roboții de căutare)
seo: strategii
![Page 128: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/128.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
black-hat page cloakingtehnică penalizată de Google: http://youtu.be/QHtnfOgp65Q
seo: strategii
![Page 129: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/129.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
„Estetica” URL-urilor
distincția dintre conținutul static și cel dinamic(componenta query_string de la finalul unui URL)
detectarea simbolurilor “?” și “&” doc.php?var=sda4312&var2=643f545342
seo: strategii
![Page 130: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/130.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
„Estetica” URL-urilor
indexarea conținutului dinamic poate fi limitatăori poate fi realizată mult mai lent
numele variabilelor transmise via GET trebuie să aibă o anumită semnificație
seo: strategii
![Page 131: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/131.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
„Estetica” URL-urilor
evitarea numerelor de sesiune (SID) din URL
uzual, roboții ignoră cookie-urile
seo: strategii
![Page 132: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/132.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
„Estetica” URL-urilor
evitarea numerelor de sesiune (SID) din URL
la nivel de server Web, se poate activa rescriereaURL-urilor – e.g., utilizarea mod_rewrite la Apache
la nivel de server de aplicații, inhibarea transferuluiSID-ului prin URL (PHP: php_flag sesssion.use_trans_sid off)
seo: strategii
![Page 133: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/133.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
„Estetica” URL-urilor
„mascarea” URL-urilor oferind conținut dinamic
exemplificare:www.penguin.info/species/tux.html – pare static
www.penguin.info/species.php?type=tux – în realitate
seo: strategii
![Page 134: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/134.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Rezultatul returnat clientului
de evitat paginile de eroare – e.g., 404
orice pagină de eroare poate fi convertităîntr-o resursă folositoare omului/robotului
exemple: harta sitului, legături relevante,…
seo: strategii
![Page 135: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/135.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Rezultatul returnat clientului
se folosesc facilitățile oferite de serverul Webpentru specificarea de pagini proprii de eroare
e.g., directiva ErrorDocument la Apache
seo: strategii
![Page 136: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/136.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Navigarea bazată pe interacțiunea cu utilizatorul
legături spre alte resurserealizate exclusiv via Javascript, Flash sau Silverlight
<p>informații despre burse <a href="javascript:sari(1);">aici</a></p>
de evitat
greșit!
![Page 137: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/137.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Oferirea de conținut via documenteadoptând formate de date nestandardizate
de evitat
![Page 138: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/138.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Titluri identice pentru toate paginile unui sit
de evitat
![Page 139: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/139.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Pagini de eroare care sunt oferite de servervia codul de stare HTTP 200 Ok
de evitat
![Page 140: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/140.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Redirecționări incorecte și/sau abuzive
de evitat
![Page 141: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/141.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Ignorarea utilizatorilor cu nevoi speciale
web accessibility
http://webaim.org/
de evitat
![Page 142: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/142.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Abuzul de transferuri asincrone prin Ajax
de evitat
![Page 143: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/143.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Crearea documentului sitemap.xml
pentru a-l expedia la Google Sitemaps
complementar fișierului robots.txt
furnizează structura hipertext a unui sit Web
formate acceptate: text obișnuit, XML, RSS, Atom
detalii la http://sitemaps.org/
seo: instrumente
![Page 144: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/144.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Strategii generale:Google Webmaster Central
http://www.google.com/webmasters/
Studierea accesului (specificării/alegerii unor metrici):Google Analytics, NetTracker, Urchin, WebTrends,…
Rafinarea cuvintelor-cheie:KeywordDiscovery, WordTracker, Google Suggest
Optimizări: Google Optimizer, YSlow Smush.it
seo: instrumente – exemple
![Page 145: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/145.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Imposibilitatea accesării unor date transmise„în fundal” pe parcursul interacțiunii Web
motoarele de căutare nu pot indexa conținutul primit(asincron) de la server – e.g., prin Ajax
traficul „subteran” nu poate fi accesat în mod normal
roboții Web clasici nu pot interpreta programe JavaScript
seo vs. ajax
![Page 146: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/146.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Imposibilitatea accesării unor date transmise„în fundal” pe parcursul interacțiunii Web
soluție posibilă:propunerea “Making Ajax crawlable” (Google, 2009)
disponibilă începând cu 2012
https://developers.google.com/webmasters/ajax-crawling/
seo vs. ajax
![Page 147: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/147.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Resurse de interes
http://www.seomoz.org/resources
http://searchenginewatch.com/
http://www.slideshare.net/randfish/presentations
http://videolectures.net/Top/Computer_Science/Search_Engines
![Page 148: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/148.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Invisible Web (Deep Web)
acea parte a spațiului World Wide Webcare nu este detectată de motoarele de căutare saude alte tipuri de aplicații de regăsire a resurselor
disponibile pe Web
![Page 149: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/149.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum am putea descrie conținutul resurselor Webastfel încât să poată fi procesat „inteligent”?
![Page 150: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/150.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Idee:specificarea unor meta-date (date privind datele)
direct în cadrul documentelor HTML
![Page 151: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/151.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Idee:specificarea unor meta-date (date privind datele)
direct în cadrul documentelor HTML
microformatescheme de microdate HTML5
RDFa
la master
![Page 152: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/152.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate(Tantek Çelik & Kevin Marks, 2004)
www.microformats.org
![Page 153: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/153.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate
utilizarea de marcaje (X)HTML pentru a desemnasemantica și/sau structura conținutului
“curentul” POSH (Plain Old Semantic HTML)
![Page 154: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/154.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate
reutilizarea unor vocabulare de termeni,disponibile liber și standardizate
![Page 155: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/155.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate
reutilizarea unor vocabulare de termeni,disponibile liber și standardizate
realizarea de adnotări semantice direct în HTMLși alte limbaje similare
prelucrare mai facilă a reprezentărilor resurselor
![Page 156: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/156.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
marcaje HTML (<div>, <span>)pentru specificarea datelor &structurii lor
„clase” CSS pentru prezentareși asocierea de descrieriale meta-datelor
structurareapaginilor Web:
precizareaînțelesului
(semanticii)conținutului
![Page 157: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/157.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate
elementare – desemnează o caracteristică unică+
compuse – specifică mai multe proprietățicare modelează un aspect de interes
– e.g., un concept (entitate): persoană, eveniment,…
![Page 158: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/158.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
rel-tag
asociază unei legături hipertext un termen (tag)– cuvânt-cheie ori subiect – ales liber de autor
(tagging content)
![Page 159: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/159.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
rel-tag
<p>Tutorial despre <a href="http://www.slideshare.net/tag/web"
rel="tag">www</a>.</p>
<p>Expertiză: <a href="http://en.wikipedia.com/wiki/Unix"
rel="tag" class="skill">UNIX</a>.</p>
<a href="http://flickr.com/photos/tags/Penguin" rel="tag">
<img src="tux.jpg" alt="Foto cu un pinguin" /></a>
![Page 160: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/160.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
XFN (XHTML Friend Network)
relații între „prieteni”: colaboratori, rude, cunoscuți,…
<a href="http://www.infoiasi.ro/~dlucanu/"
rel="met, colleague, co-worker, neighbor">
Dorel Lucanu</a>
![Page 161: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/161.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
recurgerea la XFN în cadrul sistemului WordPress
![Page 162: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/162.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
hCalendar
desemnează evenimente & orare
vezi formatul iCalendar – RFC 2445
![Page 163: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/163.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
hCalendar
<div class="vevent">
<a class="url" href="http://designjamiasi2014.eventbrite.com/
<abbr class="dtstart" title="20141031">October 31</abbr> --
<abbr class="dtend" title="20141101">November 01, 2014</abbr>
<span class="summary">Design Jam Iasi #3</span> la
<span class="location">FII, UAIC Iasi</span></a>
<div class="description">Un atelier de lucru vizând designul Web</div>
</div>
![Page 164: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/164.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
hCard
informații de contact despre persoane, organizații etc.
în conformitate cu formatul vCard – RFC 2426
![Page 165: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/165.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
specificarea informațiilor despre o persoană via hCard
![Page 166: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/166.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
hResume
modelează informații despre un CV
folosit în conjuncție cu hCard și hCalendar
![Page 167: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/167.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
hReview
desemnează opinii emise despre „ceva” – o entitate(produs, locație, eveniment, persoană,…)
![Page 168: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/168.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
<div class="hreview">
<!-- resursa recenzată -->
<h1 class="item">Recenzie despre <a class="fn url" title="Situl FII"
href="http://www.info.uaic.ro/">situl Web al FII</a></h1>
<p> <!-- 'punctajul' obținut (5 din 5), sumarul & data recenziei -->
<abbr class="rating stars" title="5">* * * * *</abbr>
<span class="summary title">Modern</span>,
<abbr class="dtreviewed"
title="2010-05-18T22:45:00">18 mai</abbr>
</p>
<!-- autorul recenziei marcat prin hCard -->
<p class="reviewer">Autor al recenziei: <span class="vcard">
<a class="url fn n" href="http://www.purl.org/net/busaco"
title="Spre situl Web al lui Sabin Buraga">
<span class="given-name">Sabin</span>
<span class="family-name">Buraga</span></a></span></p>
<div class="description"> <!-- detalii despre recenzie --> </div>
</div>
![Page 169: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/169.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
![Page 170: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/170.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate 2
simplifică maniera de specificare (2012)
http://microformats.org/wiki/microformats2
![Page 171: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/171.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate 2
vocabularele sunt definite pe baza unor prefixe
h- includerea unui microformatp- specificarea unei proprietăți simpleu- desemnarea unui URLdt- definirea de valori privind data & timpule- specificarea de proprietăți compuse
![Page 172: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/172.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
<div class="h-card vcard">
<img src="/content/content_about-experts/brendaneich.jpg"
alt="Brendan Eich">
<h5><a href="http://brendaneich.com/"
class="p-name fn u-url url">Brendan Eich</a></h5>
<p class="p-note note">
Created JavaScript, co-founded the mozilla.org project…</p>
<span class="p-category category">Technology</span>
</div>
exemplu de utilizare a microformatului hCard(în ambele versiuni)
![Page 173: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/173.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformate 2
vocabulare predefinite – unele în stadiu de ciornă:
h-adr h-card h-entry h-event
h-geo h-item h-product h-recipe
h-resume h-review h-review-aggregate
![Page 174: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/174.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
<!-- specificarea unui eveniment via microformate versiunea 2 -->
<section class="h-event">
<a class="p-name u-url" href="http://designjamiasi2014.eventbrite.com/">
Design Jam Iasi #3</a>
de la <time class="dt-start">2014-10-31</time>
până la <time class="dt-end">2014-11-01</time>, fiind organizat la
<span class="p-location h-card">
<a class="p-name p-org u-url" href="http://www.info.uaic.ro/">
Facultatea de Informatică</a>,
<span class="p-street-address">Strada Berthelot, 16</span>,
<span class="p-locality">Iași</span>,
<abbr class="p-region" title="Iași">IS</abbr>
</span>
</section>
![Page 175: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/175.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
microformate: utilizări
GoogleIntel
MicrosoftSix Apart
Yahoo!XWiki
și multe altele
detalii la http://microformats.org/wiki/implementors
![Page 176: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/176.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
microformate: utilizări
detectarea și exportul de microformate cu extensia Operator pentru Firefox
![Page 177: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/177.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microdata HTML 5
alternativă la microformate
specificație W3C – Working Draft (octombrie 2013)
www.w3.org/TR/microdata/
![Page 178: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/178.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microdata HTML 5
posibilitatea de a specifica perechi de proprietăți(nume, valoare) „scufundate” în HTML
![Page 179: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/179.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
![Page 180: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/180.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
creare via atributul itemscope
specificarea unei proprietăți prin atributul itemprop
referire cu ajutorul atributului itemref
![Page 181: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/181.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microdata HTML 5
grupurile de perechi de proprietăți nume—valoare sunt denumite items
asocierea unui tip de date se face cu atributul itemtype
pentru identificarea unui item se folosește itemid
![Page 182: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/182.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microdata HTML 5
ca tipuri de date se pot folosi microformatele
![Page 183: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/183.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
<section itemscope itemtype="http://microformats.org/profile/hcard"><h1 itemprop="fn">
<span itemprop="n" itemscope> <span itemprop="given-name">Tuxy</span> <span itemprop="family-name">Pinguinescu</span>
</span> </h1><img itemprop="photo" alt="Portretul lui Tux" src="tux.jpg"><p itemprop="org" itemscope>
<span itemprop="organization-name">Linux</span></p><h2>Detalii & contact:</h2>
<ul><li><a itemprop="url" href="http://en.wikipedia.org/wiki/Tux">
Wikipedia</a></li><li itemprop="email"><a href="mailto:[email protected]">
tux AT penguin.org</a></li></ul><address><span itemprop="adr" itemscope>
<span itemprop="street-address">Penguins Blv., 33</span> <span itemprop="locality">Penguin City</span>, <span itemprop="postal-code">740033</span> </span> </address>
</section>
![Page 184: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/184.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Există o serie de modele de date(exprimate via microformate sau microdate)
ce pot fi indexate și folositede actualele motoare de căutare?
![Page 185: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/185.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
schema.org
colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare
Bing, Google, Yahoo!, Yandex
![Page 186: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/186.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
schema.org
colecție de vocabulare (scheme de date)– e.g., Book, Event, LocalBusiness, Movie, Offer, Person,
Place, Recipe, Review, TVSeries,… – recunoscute șiindexate de roboții principalelor motoare de căutare
Bing, Google, Yahoo!, Yandex
modeleconceptuale
![Page 187: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/187.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
a se studia și http://www.w3.org/wiki/WebSchemas
![Page 188: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/188.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
tipurile primare de date definite de schema.org
![Page 189: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/189.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
diverse proprietăți ce relaționează Integer cu alte concepte
![Page 190: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/190.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Thing – schema cea mai generală, incluzând conceptualizăriAction
BroadcastService
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Class
Property
modelare de cunoștințe
(via o ontologie)
![Page 191: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/191.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Person – modelează conceptul „persoană”http://schema.org/Person
![Page 192: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/192.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
schema.org
relațiile dintre entități sunt precizate via proprietăți
![Page 193: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/193.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
<body itemscope itemtype="http://schema.org/WebPage"><header>
<h1 itemprop="name"><a href="index.html" title="…">Dezvoltarea aplicațiilor Web</a>
</h1><p class="slogan" itemprop="description">prezentările aferente cursului</p>
</header><article>
<!-- conținut propriu-zis --></article><footer>
<h6><span itemscope itemtype="http://schema.org/Person">
<a href="http://www.purl.org/net/busaco" title="…" itemprop="url" accesskey="S"><span itemprop="name">Sabin Buraga</span>
</a></span>
</h6></footer>
</body>
specificarea faptului că Sabin Buraga este o persoană
recurgerea la elemente structurale și scheme de microdate HTML5
![Page 194: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/194.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
<!-- microformate (utilizarea microformatului hCard) --><div class="vcard">
<p>Nume: <span class="fn">Sabin Buraga</span></p><p>Titlu academic: <span class="title">Dr.</span></p>
</div>
<!-- microdate HTML5 --><div itemscope itemtype="http://schema.org/Person">
<p>Nume: <span itemprop="name">Sabin Buraga</span></p><p>Titlu academic: <span itemprop="title">Dr.</span></p>
</div>
microformate↔microdateadaptare după Marco Lisci & Luisa Scarlata (2011)
![Page 195: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/195.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Alte resurse de interes,inclusiv instrumente de validare și conversie,
sunt oferite de situl Webhttp://getschema.org/
![Page 196: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/196.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Microformatele și microdatele HTML5sunt indexate de motoarele de căutare
Bing – http://tinyurl.com/b9mx2f2
Google rich snippets – http://tinyurl.com/3c6naq7
Yahoo! BOSS (Build your Own Search Service)http://developer.yahoo.com/search/boss/
![Page 197: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/197.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
extragerea/verificarea de date structurate via Structured Data Testing Tool
http://www.google.com/webmasters/tools/richsnippets
![Page 198: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/198.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
extragere & export de microformate, microdate HTML5 și RDFa cu extensia POSHex – Tiberiu Pasat (2013)
http://students.info.uaic.ro/~constantin.pasat/wad/
![Page 199: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/199.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
Cum ar putea fi detectate și penalizatesiturile Web care „trișează” în ceea ce privește
tehnicile SEO, eventual recurgând lamicroformate/microdate HTML5?
discuție (pentru acasă)
![Page 200: CLIW 2014—2015 (6/12): Căutarea resurselor Web](https://reader033.vdocuments.mx/reader033/viewer/2022052317/55d75e47bb61eb09308b456b/html5/thumbnails/200.jpg)
Dr.
Sab
in B
ura
ga
www.purl.org/net/busa
co
episodul viitor: limbajul JavaScript