vyhľadávanie a usporiadanie

Post on 15-Mar-2016

40 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Vyhľadávanie a usporiadanie. Predn áška z predmetu Vyhľadávanie informácií 19 .1 1 .20 12 FIIT STUBA Bratislava. Usporiadanie. - PowerPoint PPT Presentation

TRANSCRIPT

Vyhľadávanie a usporiadanie

Prednáška z predmetu Vyhľadávanie informácií19.11.2012 FIIT STUBA

Bratislava

Usporiadanie

• Usporiadanie dokumentov podľa relevantnosti je dôležitou funkciou vo všetkých vyhľadávacích systémoch. Väčšina vyhľadávačov sa snaží vrátiť čo najviac relevantných dokumentov, teda zvyšuje pokrytie (recall) na úkor presnosti (precesion), čo zvyšuje potrebu usporiadať dokumenty podľa relevantnosti.

Usporiadanie• Tu sa využívajú rôzne algoritmy väčšinou

založené na mierach podobnosti dokumentov k dopytu. Tieto podobnosti sa odvíjajú od počtu výskytov kľúčových slov (termov), ich výskytu v nadpisoch dokumentov a podobne. Ďalšou metrikou na usporiadanie sú aj algoritmy založené na vyhodnocovaní odkazov medzi dokumentmi ako napríklad PageRank algoritmus. Dokumenty je možné zoraďovať aj na základe daľších sémantických prístupov ako napríklad Top-K (Gurský, 2005).

Usporiadanie

• Ak máme viacero spôsobov na utriedenie zoznamu, môžeme ich vzájomne skombinovať váhovaním

Usporiadanie vo vyhľadávači Google

1. Nájde všetky webové stránky obsahujúce dané kľúčové slovo (slová).

2. Vyhodnotí stránky na základe faktorov nachádzajúcich sa na stránke, ako napríklad, či sa dané slovo nachádza v názve stránky, akým štýlom je písané, ako často sa slovo (slová) nachádzajú v hlavnej časti dokumentu, a pod.

3. Vyhodnotí text vo vnútri odkazu (<a href>), samotný odkaz a vyhodnotí váhu textu. (napríklad <a href www.nazovdomeny.com>Nazovdomeny</a> má väčšiu váhu ako <a href www.nazovdomeny.com>Návrat</a>)

4. Pridá výsledok algoritmu PageRank, ktorého hodnotu budeme nazývať „page rank“ – táto operácia je multiplikácia a nie sčítanie

Podobnosť dokumentov na základe metrík a korelácií

• Euklidovská vzdialenosť: • L-metrika (Manhattan): • Snp metrika: • Sokalova metrika: • Kosínusová korelácia:• Štvorec euklidovskej

vzdialenosti:

2

1, n

i j k kksim d d w v

1, n

i j k kksim d d w v

, maxi j k k ksim d d w v

2

1,n

k kki j

w vsim d d

n

, i ji j

ji

d dsim d d

d d

2

1

,n

k kk

i jsim d wd v

Algoritmus PageRank• Teória:

– Ak stránka A ukazuje na stránku B tak asi je stránka B dôležitá

– Ak na stránku ukazujú dôležité stránky, tak aj odkazy tejto stránky na iné stránky sa stávajú dôležitými

– Toolbar - www.toolbar.google.com• Logaritmus pri základe 10

• Google projekt Stanfordu – 26 miliónov stránok – 518 miliónov liniek, 147GB dát – PR na obyčajnom pécečku pár hodín

Algoritmus PageRank• Modelovanie aktivity náhodného

používateľa webu sa dá reprezentovať ako orientovaný graf prepojení vychádzajúcich a vchádzajúcich na webové stránky.

Algoritmus PageRank• Page rank stránky A je

kde, je tzv. tlmiaxi faktor„damping factor“ najčastejšie nastavenýna 0,85 viď (Page, 1998b), je stránka ktorá ukazuje na stránku A, je PageRank tejto stránky a   je počet prepojení odchádzajúcich zo stránky .

1

1n

i

i i

PR TPR A d d

C T

0 1d

iPR T iC T

iT

iT

Algoritmus PageRank• Tento algoritmus opakujeme dovtedy kým

nezačne konvergovať. PR všetkých stránok vlastne tvorí rozdelenie pravdepodobnosti a teda suma všetkých PR stránok je 1.

• Aby sme dostali toto rozdelenie pravdepodobnosti musíme ešte vypočítané PR predeliť (znormalizovať) sumou všetkých PR.

• Inicializačné hodnoty môžeme nastaviť na čokoľvek (zmení sa len počet iterácií – existujú teórie ako to nastaviť, aby sme vykonali, čo najmenej iterácií?)

Algoritmus PageRank• Vypočítajme page rank jednotlivých stánok

z obrázku ak damping factor a prvotné page ranky stránok sú nasledovné .

0,85d

0 0 0 01 2 3 4 1PR PR PR PR

1 1

1 1

1 11 0,15 0,85 0,575 2 0,15 0,85 12 11 13 0,15 0,85 1 4 0,15 0,85 0,5751 2

PR PR

PR PR

2 2

2 2

1 0,5751 0,15 0,85 0,575 2 0,15 0,85 0,638752 11 13 0,15 0,85 1 4 0,15 0,85 0,5751 2

PR PR

PR PR

Algoritmus PageRank• A doiterujeme 88 iterácií k výsledku:

• A po normalizácií (predelenie sumou PR, dostávame rozdelenie pravdepodobnosti):

1 0,387 2 0,4793 0,557 4 0,387

PR PRPR PR

1 0,21 2 0,263 0,31 4 0,21

PR PRPR PR

Algoritmus PageRank – zrýchlenie výpočtu

• Hyperlinkovou maticou H rozumieme štvorcovú maticu kde n

je počet webových stránok a jednotlivé riadky a stĺpce predstavujú

linky ktoré vystupujú resp. vstupujú do webových stránok. Prvky

matice sú definované ako , ak existuje prepojenie so stránky

i na stránku j a celkový počet liniek vychádzajúcich so stránky i je .

Ak takéto prepojenie neexistuje potom . predstavuje

pravdepodobnosť toho že, náhodný používateľ sa vyberie so

stránky i na stránku j .

n n

1ij

i

hl

il

0ijh ijh

Hyperlinková matica k príkladu

• Hyperlinková matica z príkladu by vyzerala nasledovne:

0 1 0 00 0 1 01 10 02 20 0 0 0

Algoritmus PageRank – zrýchlenie výpočtu

• kde, je stĺpcový vektor i+1 iterácie page rank webových stránok, je i-ta iterácia page rank hodnôt webových stránok, d je damping faktor, je stĺpcový vektor pozostávajúci so samých 1 a je transponovaná matica k matici H.

1 1 1 Ti iPR T d dH PR T

1iPR T

iPR T

1

TH

Maticový zápis výpočtu PR k príkladu

• Pomocou maticového počtu by výpočet PR v príklade vyzeral nasledovne:

1

1

1

1

10 0 01 1 1 0,57522 1 1 0 0 0 1 1

0,15 0,853 1 0 1 0 0 1 14 1 1 1 0,5750 0 0

2

PRPRPRPR

Dangling nodes• Ak sa pozrieme na vrchol 4 v grafe na našom

obrázku vidíme že, z tohto vrcholu sa používateľ nemá kam dostať (žiadne prepojenie z neho nevychádza) a takéto vrcholy (web stránky) sa nazývajú „dangling nodes“. Takýmito vrcholmi sú napríklad prepojenia na pdf, doc a iné dokumenty, ktoré vlastne najviac vplývajú (obsahovo) na hodnotenie webových stránok. Je veľmi problematické určiť váhu takýchto webových stránok, je ich veľmi veľa a do značnej miery ovplyvňujú predstavenú hyperlinkovú maticu.

Dangling node fix

• „Dangling node fix“ je možné urobiť nasledujúcim spôsobom: Predpokladajme že používateľ sa rozhodne z vrcholu ktorý už nikam neukazuje ísť do všetkých n vrcholov s určitou pravdepodobnosťou.

Dangling node fix – nová hyperlinková matica

• Definujeme novú hyperlinkovú maticu . H je pôvodná hyperlinková matica a  je stĺpcoví vektor s prvkami ak ináč

• a  je riadkový vektor kde platí že .

• Hodnoty vektora w určujú pravdepodobnosť navštívenia ľubovoľného vrcholu v grafe z dangling nodu pričom, najčastejšie sa používa rovnomerné rozdelenie pravdepodobnosti .

S H rw 1 2, ,..., nr r r r

1ir 0il

0ir 1 2, ,..., nw w w w

11n

iiw

1 1 1, ,...,wn n n

Nová hyperlinková matica k príkladu

• Upravená hyperlinková matica k príkladu – dangle node fix

0 1 0 00 1 0 0 0 0 0 1 00 0 1 0 0 1 1 1 1 1 11 1 0 00 4 4 4 40 0 2 22 21 1 1 1 10 0 0 0

4 4 4 4

S

Perzonalizačný vektor

• Ďalším problémom s ktorým sa musíme vysporiadať pri výpočte page rank je pravdepodobnosť že používateľ prestane sledovať sieť prepojení a odskočí na úplne inú webovú stránku. Naša matica S sa niečím takýmto nezaoberá a preto, ju musíme upraviť nasledovným spôsobom.

Google matica

• Pre Google maticu , kde je vyššie spomínaný damping faktor, je stĺpcový vektor a je tzv. perzonalizačný riadkový vektor pre ktorý platí .

1 1G dS d v 0 1d

1 1,1,...,1

1 2, ,..., nv v v v

11n

iiv

Google matica

• Brin a Page vo svojich prácach (Page, 1998ab) počas vyvíjania PageRank algoritmu ukázali že, damping faktor je vhodné nastaviť na ( predstavuje pravdepodobnosť že používateľ prestane sledovať sieť prepojení a odskočí na úplne inú stránku) a personalizačný vektor, ktorý hovorí o prioritách používateľa rozdeliť rovnomerne . V praxi sa najčastejšie používa damping faktor.

0,85d 1 d

1 1 1, ,...,vn n n

0,85;0,99d

Problém damping factora a perzonalizačného vektora

• V neďalekej minulosti existovali tzv. „link farms“ – farmy na vyrábanie vysokého PR tzv. „link spamming“.

• Prakticky dookola ukazovali na seba a umelo zvyšovali PR a ten potom predávali

• Google dnes nezverejnuje damping factor a perzonalizačný vektor

• Riešenie - V roku 2004 však vymysleli Gyöngyi, Garcia-Molina, a Pederson tzv. TrustRank algoritmus - Combating Web spam with TrustRank, Proceedings of the 30th International Conference on Very Large Databases

Page rank výpočet pomocou google matice

• Page rank webových stránok , kde G je Google matica, je riadkový vektor i tej iterácie page ranku webových stránok,

• je i-ta iterácia page ranku webových stránok.

1i iPR T PR T G

1iPR T

iPR T

Príklad pomocou Google matice

• Perzonalizačný faktor nastavíme rovnomerne 0

1 1 1 14 4 4 4

PR T v

3 71 3 30 1 0 0 80 80 80 80

1 3 3 71 30 0 1 01 1 1 1 1 80 80 80 801 10,85 0,150 0 1 37 3 3 374 4 4 42 2

80 80 80 801 1 1 1 11 1 1 14 4 4 44 4 4 4

G

Príklad pomocou Google matice

• 1 iterácia:

• Po 88 iteráciách dostaneme – priamo rozdelenie pravdepodobnosti:

• Porovnanie – ak by sme vynásobili 4x čo je vlastne počet všetkých stránok?????

1 1 1 163 97 97 631 2 3 4

320 320 320 320PR PR PR PR

1 0,21 2 0,263 0,31 4 0,21

PR PRPR PR

1 0,387 2 0,4793 0,557 4 0,387

PR PRPR PR

1 0,855 2 1,0583 1,231 4 0,855

PR PRPR PR

HITS• Authority (stránka obsahujúca dôležitú, spoľahlivú informáciu vzhľadom na

dopyt), Hub (stránky, ktoré na túto stránku ukazujú) – je vidieť, že medzi týmito dvomi „štatistikami“ existuje silná závislosť: dobrý „hub“ ukazuje na veľa dobrých „authorities“ a na dobrú „authority“ ukazuje veľa dobrých „hubs“ – Google má len authorities

• ai označuje authority hodnotu dokumentu i

• hi označuje hub hodnotu dokumentu ii x

x

a h

i yy

h a

Pseudokód HITS• G := graf webových dokumentov • for each dokument i z grafu G do // inicializácia hub a

authority hodnôt – druhý spôsob 1/|G|• ai := 1 • hi := 1 • repeat from 1 to N do • for each dokument i z grafu G do • ai := 0 • for each dokument x odkazujúci sa na dokument i do • ai += hx

• for each dokument i z grafu G do • hi = 0 • for each dokument y, na ktorý sa odkazuje dokument i do • hi += ay // hubs sú rátané z iterácie predtým• for each dokument i z grafu G do //normalizácia• ai = ai/ca • hi = hi/ch 2

1i

i G a

ac

2

1i

i G h

hc

Príklad pomocou HITS

1.Iterácia

2.Iterácia

1 2 3 4 1 2 3 4 1a a a a h h h h

1 2 3 4 1 2 3 41; 1, 2, 0a a a a h h h h 2, 6a bc c

1 2 3 4 1 2 3 41 6 6; , , 02 6 3

a a a a h h h h

1 2 3 4 1 2 3 46 6 6 1, , ; , 1, 0

3 6 3 2a a a a h h h h

5 3,3 2a bc c

1 2 3 4 1 2 3 42 1 2 6 6, , ; , , 05 10 5 6 3

a a a a h h h h

Príklad pomocou HITS

• A doiterujeme 40 iterácií k výsledku:

1 2 3 4

1 2 3 4

2 2; 0;2 2

0; 1; 0

a a a a

h h h h

HITS a matice• Definícia Maticou prepojení L rozumieme štvorcovú

maticu nxn kde n je počet webových stránok a jednotlivé riadky a stĺpce predstavujú linky ktoré vystupujú resp. vstupujú do webových stránok. Prvky matice sú definované ako lij=1, ak existuje prepojenie so stránky i na stránku j. Ak takéto prepojenie neexistuje potom lij=0. Pre k-tu iteráciu „authority“ vektora platí: a obdobne pre k-tu iteráciu „hub“ vektora platí:Po úpravách dostávame:Maticu označujeme ako „hub“ maticu a zapisujeme:a maticu označujeme ako authority maticu a zapisujeme:

𝑎𝑘ሺ𝑖ሻ= 𝐿𝑇ℎ𝑘−1ሺ𝑖ሻ ℎ𝑘ሺ𝑖ሻ= 𝐿𝑎𝑘ሺ𝑖ሻ 𝑎𝑘ሺ𝑖ሻ= 𝐿𝑇𝐿𝑎𝑘−1ሺ𝑖ሻ a ℎ𝑘ሺ𝑖ሻ= 𝐿𝐿𝑇ℎ𝑘−1ሺ𝑖ሻ 𝐿𝑇𝐿 𝐻= 𝐿𝑇𝐿 𝐿𝐿𝑇 𝐴= 𝐿𝐿𝑇

HITS a matice

Dôsledok: Celý problém hľadania vektorov authority a hub jednotlivých webových stránok je vlastne hľadaním vlastnej hodnoty a vlastného/charakteristického vektora matíc A a H, teda 𝜆𝑎𝑘ሬሬሬሬԦ= 𝐻𝑎𝑘−1ሬሬሬሬሬሬሬሬሬԦ a 𝜆ℎ𝑘ሬሬሬሬԦ= 𝐴ℎ𝑘−1ሬሬሬሬሬሬሬሬሬԦ, kde 𝜆 je najväčsia vlastná hodnota matíc H a A a 𝑎Ԧ a ℎሬԦ, sú vektory hub a authority, pričom platí, že tieto vektory sú vlastné/charakteristické vektory matíc A a H. Na inicializačných hodnotách vektorov 𝑎Ԧ a ℎሬԦ nezáleží, jediné čo sa zmení je počet iterácii. Na to aby sme dosiahli priamo rozdelenie pravdepodobností pre hub a authority jednotlivých webových stránok, je výhodnejšie po každej iterácii normalizovať hodnoty vektorov 𝑎Ԧ a ℎሬԦ hodnotami σ 𝑎𝑖𝑛𝑖=1 ,σ ℎ𝑖𝑛𝑖=1 (oproti normalizácii najväčšou vlastnou hodnotou matíc A a H), pričom počiatočné hodnoty vektorov je vhodné nastaviť na: 𝑎0ሺ𝑖ሻ=ℎ0ሺ𝑖ሻ= 1𝑛 (hodnoty vektorov a a h tvoria priamo rozdelenie pravdepodobnosti).

HITS zhrnutie• algoritmus HITS je dopytovo orientovaný, výpočet hub a authority je

závislý na vyhľadávaných výrazoch,• výpočty hub a authority sú vykonávané v čase vyhľadávania a nie

indexovania ako je tomu v prípade algoritmu PageRank, čo má veľký vplyv na spracovanie dopytu

• algoritmus HITS nie je veľmi používanými vyhľadávacími strojmi, až na niekoľko výnimiek, napr. Teoma (http://www.teoma.com/) je založená na algoritme HITS a používaná vyhľadávačom Ask.com(http://search.ask.com/ algoritmus je označovaný ako ExpertRank),

• počíta 2 hodnoty: hub a authority narozdiel, od algoritmu PageRank,• výpočet je vykonávaný na malej podmonožine vrátených dokumentov

(označovanej ako root/base set a vrcholoch, na ktoré root set ukazuje, resp. vrcholov, ktoré ukazujú na root/base set) a nie na celom grafe ako je to v prípade algoritmu PageRank.

Algoritmus OPIC• OPIC (On-Line Page Importance

Computation)• výpočet relevantnosti stránky je „online“,

avšak nie v čase dopytu ako to je v prípade algoritmu HITS, ale v čase crawlovania s tým, že stránky s vyššou relevanciou sú uprednostňované pri crawlovaní

OPIC

• cash – táto premenná určuje momentálnu relevantnosť stránky, presnejšie sumu získanej cash hodnoty od posledného stiahnutia stránky (ak máme n uzlov cash jednotlivých uzlov nastavíme na 1/n),

• credit/history – predstavuje sumu získanej cash od spustenia algoritmu až po posledné stiahnutie stránky.

Definícia Majme dva vektory: 𝐶ሾ1…𝑛ሿ a 𝐻ሾ1…𝑛ሿ kde, C predstavuje vektor premennej cash a H predstavuje vektor premennej history. Dôležitosť/relevantnosť stránky i potom vyjadruje nasledujúci vzťah: 𝑃𝑅ሺ𝑖ሻ= 𝐻ሺ𝑖ሻ+𝐶ሺ𝑖ሻσ 𝐶ሺ𝑘ሻ𝑛𝑘=1 +σ 𝐻ሺ𝑘ሻ𝑛𝑘=1 . Pričom

počiatočné hodnoty sú nastavené: 𝐶ሺ𝑖ሻ= 1𝑛 a 𝐻ሺ𝑖ሻ= 0.

OPIC

Pseudokód na výpočet relevantonsti stránky podľa algoritmu OPIC: G := graf webových dokumentov for each dokument i z grafu G do { 𝐶ሺ𝑖ሻ= 1𝑛 𝐻ሺ𝑖ሻ= 0 } //Suma všetkých 𝑍= 𝐻ሺ𝑖ሻ 𝑍= 0 do forever {

//každý vrchol v grafe G je vybraný „nekonečne veľa krát“ for each dokument i z grafu G do { 𝐻ሺ𝑖ሻ += 𝐶ሺ𝑖ሻ

// 𝑜𝑢𝑡ሾ𝑖ሿ vyjadruje počet liniek vychádzajúcich z dokumentu i for each child j z dokumentu i do 𝐶ሺ𝑗ሻ += 𝐶ሺ𝑖ሻ𝑜𝑢𝑡ሾ𝑖ሿ 𝑍 += 𝐶ሺ𝑖ሻ 𝐶ሺ𝑖ሻ= 0

} }

OPIC

Dôsledok: Tento algoritmus, tak ako predchádzajúce algoritmy je iteratívny a dá sa dokázať (dôkaz je v Abiteboul et al., 2003), že konverguje k určitému vektoru relevantnosti/dôležitosti stránok, ktorý v j-tom kroku pre stránku i je definovaný nasledovne: 𝑃𝑅𝑗ሺ𝑖ሻ= 𝐻𝑗ሺ𝑖ሻ+𝐶𝑗ሺ𝑖ሻσ 𝐶𝑗ሺ𝑘ሻ𝑛𝑘=1 +σ 𝐻𝑗ሺ𝑖ሻ𝑛𝑘=1 . Keďže 𝐶0ሺ𝑖ሻ= 1𝑛, a pretože množstvo

„cash“ sa nemení v ľubovoľnom kroku j algoritmu OPIC platí, že: σ 𝐶𝑗ሺ𝑘ሻ𝑛𝑘=1 = 1. Z tohto sa dá vzťah pre relevntnosť/dôležitosť stránky v j-tom kroku prepísat: 𝑃𝑅𝑗ሺ𝑖ሻ=𝐻𝑗ሺ𝑖ሻ+𝐶𝑗ሺ𝑖ሻ𝑍+1 .

Virtuálne stránky

Porovnanie OPIC, HITS a PageRank

• Výhody algoritmu OPIC oproti HITS a PageRank algoritmom:– vyžaduje menšie množstvo ukladacieho priestoru (iba v prípade, že

nepotrebujeme indexovanie – neukladá maticu prepojení),– vyžaduje menej procesorového výkonu, ako aj prístupov na disk a do pamäte,– plne integrovateľný s crawlovacím procesom,– vie sa zamerať na sťahovanie „najrelevantnejších“ stránok.

• Nevýhody algoritmu OPIC oproti HITS a PageRank algoritmom:– neukladá maticu prepojení (tá je pri vyhľadávaní a indexovaní potrebná),– konverguje pomalšie ako ostatné algoritmy (ak čita dookola tie isté stránky),– pri súčasnom rozsahu webu čelí problémom s podtečením (malé hodnoty

relevancie, ktoré nie je možné reprezentovať),– prečo by sme neuložili, čo sme stiahli?

Stochastic Approach for Link-Structure Analysis (SALSA)

• Vychádza z algoritmu HITSDefinícia Bipartitný neorientovaný graf G skladajúci sa z authority a hub prepojení, je definovaný nasledovne: Ak existuje prepojenie so stránky i na stránku j, potom stránku i zaradíme do množiny „hub“ 𝑉ሺℎሻ a stránku j do množiny authority 𝑉ሺ𝑎ሻ pričom ich spojíme hranou.

11

23

4

7

8

9

10

11

12

4

5

6

7

8

10

11

12

“hubs” “authorities”

SALSADefinícia Prvky matice H definujeme nasledovne: ℎ𝑖𝑗 = σ 1𝑑𝑒𝑔ሺ𝑖ℎሻ 1𝑑𝑒𝑔ሺ𝑘𝑎ሻሼ𝑘|ሾ𝑖ℎ,𝑘𝑎ሿሾ𝑗ℎ,𝑘𝑎ሿ∈𝐺ሽ , kde 𝑑𝑒𝑔ሺ𝑥ሻ je počet prepojení vychádzajúci, resp. vchádzajíci do vrcholu x. Podobne prvky matice A definujeme nasledovne: 𝑎𝑖𝑗 = σ 1𝑑𝑒𝑔ሺ𝑖𝑎ሻ 1𝑑𝑒𝑔ሺ𝑘ℎሻሼ𝑘|ሾ𝑘ℎ,𝑖𝑎ሿሾ𝑘ℎ,𝑗𝑎ሿ∈𝐺ሽ .

Definícia Majme maticu prepojení L a jej váhované verzie 𝐿𝑅 a 𝐿𝑆 . Váhovanými verziami 𝐿𝑅 a 𝐿𝑆 matice L rozumieme také matice, ktoré majú v každom nenulovom riadku, resp. stĺpci všetky prvky vydelené sumou riadku, resp. stĺpca.

Následne môžeme pomocou týchto matíc definovať pravdepodobnostné matíce H a A.

Definícia Hub matica H je definovaná ako: 𝐻= 𝐿𝑅∙𝐿𝑆𝑇 bez nulových riadkov a stĺpcov. Authority matica A definovaná nasledovne: 𝐴= 𝐿𝑆𝑇∙𝐿𝑅, bez nulových riadkov a stĺpcov.

Pomocou týchto matíc môžeme definovať výpočet „authority“ a „hub“ vektorov pre jednotlivé stránky z grafu G podobne ako v prípade výpočtu PageRanku pomocou Google matice v definícii (odkaz).

Definícia Authority webových stránkov 𝑎𝑖+1ሬሬሬሬሬሬሬሬԦ= 𝑎𝑖ሬሬሬԦ∙𝐴, kde A je authority matica a 𝑎𝑖+1ሬሬሬሬሬሬሬሬԦ je riadkový vektor i+1 iterácie authority webových stránok, 𝑎𝑖ሬሬሬԦ je i-ta iterácia authority webových stránok. Podobne aj pre hub webových stránok platí: ℎ𝑖+1ሬሬሬሬሬሬሬሬԦ= ℎ𝑖ሬሬሬԦ∙𝐻, kde H je hub matica a Google matica, ℎ𝑖+1ሬሬሬሬሬሬሬሬԦ je riadkový vektor i+1 iterácie hub webových stránok, ℎ𝑖ሬሬሬԦ je i-ta iterácia hub webových stránok.

Výhody algoritmu SALSA oproti algoritmu HITS

• s TKC efektom sa dokáže lepšie vysporiadať,• HITS v podstate závisí iba od množiny „hub“ avšak, algoritmus

SALSA od oboch množín „authority“ aj „hub“,• lepšie filtruje webový spam ako HITS, ale nie tak dobre ako

PageRank.

top related