1 metodi di ranking probabilistici. 2 ir probabilistico il modello probabilistico: il principio di...

64
1 Metodi di ranking probabilistici

Upload: michelina-martinelli

Post on 01-May-2015

224 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

1

Metodi di ranking probabilistici

Page 2: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

2

IR probabilistico

Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

Metodi di ranking: Binary Independence Model Bayesian networks

L’idea chiave è di classificare i documenti in L’idea chiave è di classificare i documenti in ordine di probabilità di rilevanza rispetto ordine di probabilità di rilevanza rispetto all’informazione richiesta:all’informazione richiesta:

P(rilevante|documentoi, query)

Page 3: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

3

Probability Ranking Principle

•Sia d un documento della collezione. •Sia R la rilevanza di un documento rispetto ad una (specifica) query (R=1) e sia NR la non-rilevanza (R=0).

p(R | d,q)p(d | R,q)p(R | q)

p(d | q)

p(NR | d,q)p(d | NR,q)p(NR | q)

p(d | q)

p(d|R,q), p(d|NR,q) - probabilità che, se si trova un documento rilevante (non-rilevante), questo sia d.

Si vuole stimare p(R|d,q) - la probablità che d sia rilevante, data la query q.

p(R|q),p(NR|q) - prob. a prioridi recuperare undocumento (non) rilevante

p(R | d,q) p(NR | d,q)1

Page 4: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

4

Probability Ranking Principle (PRP)

Bayes’ Optimal Decision Rule d è rilevante iff p(R|d,q) > p(NR|

d,q)Osservate che, modellando il processo di retrieval intermini probabilistici, l’occorrenza di una query, la rilevanza o non rilevanza di un documento, l’occorrenza di un termine in un documento sono tutti eventi aleatori

Page 5: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

5

Probability Ranking Principle Come si calcolano le probabilità condizionate?

Si usano “stimatori” Il modello più semplice è il Binary Independence Retrieval

(BIR) Assunzioni

La “Rilevanza” di ogni documento è indipendente dalla rilevanza degli altri documenti.

Usare un modello di rilevanza Booleano:

Osservare un insieme iniziale di risultati può aiutare l’utente a raffinare la sua query

R={0,1}

Page 6: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

6

Strategia di Retrieval probabilistico

Si stima quanto i singoli termini contribuiscano alla rilevanza

Es

Si combinano queste stime per assegnare una stima all’intero documento

Si ordinano i documenti per probabilità decrescente

)()...,/(

)()...()()(

21

121

jnjjj

n

iin

xPxxxxPassumendo

xPxxxPxPdP

)/()/()/( RxPRxPRdP i

Page 7: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

7

In generale per i modelli probabilistici:

Si modella un problema in termini probabilistici (es: la rilevanza di un documento rispetto ad una query è stimata dalla P(R|d,q))

Poiché in generale è difficile stimare una certo modello probabilistico (stimare??), si effettuano una serie di passaggi (ad es. invertire variabile aleatoria condizionante e condizionata con Bayes) e semplificazioni (ad es. assumere l’indipendenza statistica di certe variabili) al fine di rappresentare il modello probabilistico iniziale in termini di probabilità più facili da stimare su un campione.

Page 8: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

8

Binary Independence Model

“Binary” = Boolean: i documenti d vengono rappresentati mediante un vettore booleano iff wi è contenuto in dj.

“Indipendenza”: i termini occorrono nei documenti indipendentemente l’uno dall’altro

Questo è implicitamente assunto anche nel modello vettoriale, ma in un modello probabilistico si tratta di una assunzione esplicita.

),,( 1 nxxx

1ix

Page 9: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

9

Binary Independence Model

di q

R

Obiettivo: stimare P(R/q,di)

Rank(di)=f(P(R/q,di))

documento query

La freccia indica la dipendenza

statistica:l’evento

aleatorio Rdipende dall’

evento q

Page 10: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

10

Binary Independence Model

Query: vettore booleano Data una query q,

1. Per ogni documento d calcola p(R|q,d).

2. Sostituisci con il calcolo di p(R|q,x) dove x è il vettore booleano che rappresenta d

3. Si utilizza la regola di Bayes ed il concetto di “odd”:

)|(),|()|(

)|(),|()|(

),|(

),|(),|(

qxpqNRxpqNRp

qxpqRxpqRp

xqNRp

xqRpxqRO

I documenti vengono ordinati (ranking) sulla base del valore di O

Page 11: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

11

Binary Independence Model

• Si usa l’assunzione di Indipendenza :

n

i i

i

qNRxp

qRxp

qNRxp

qRxp

1 ),|(

),|(

),|(

),|(

),|(

),|(

)|(

)|(

),|(

),|(),|(

qNRxp

qRxp

qNRp

qRp

xqNRp

xqRpxqRO

Costante per ogni query

Va stimato

n

i i

iqNRxp

qRxpqROxqRO

1 ),|(

),|()|(),|(

•Dunque :

Page 12: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

12

Binary Independence Model: effetto dell’inversione delle probabilità

n

i i

iqNRxp

qRxpqROxqRO

1 ),|(

),|()|(),|(

R

q d

xnx1 x2 xi

Page 13: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

13

Binary Independence Model

n

i i

i

qNRxp

qRxpqROdqRO

1 ),|(

),|()|(),|(

• Ma xi (componente del vettore binario associata a wi) è o 0 o 1:

01 ),|0(

),|0(

),|1(

),|1()|(),|(

ii x i

i

x i

i

qNRxp

qRxp

qNRxp

qRxpqROdqRO

• Sia );,|1( qRxpp ii );,|1( qNRxpr ii

• Si assume, per tutti i termini che non occorrono nella query:

ii rp allora...

NOTA:pi: xi=1, R=1ri: xi=1, R=0

(1-pi): xi=0, R=1(1-ri): xi=0, R=0

Page 14: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

14

Esempio

V{information retrieval paper rank set web}

Q: information retrieval paperD: information retrieval web

Page 15: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

15

Binary Independence Model

11

0?

101

1

1

)1(

)1()|(

)1(1

1)|(),|(

iq i

i

iqix ii

ii

iqix

iqix i

i

iqix i

i

r

p

pr

rpqRO

r

p

r

pqROxqRO

Q= 1 1 1 0 0 0D= 1 1 0 0 0 1

V{information retrieval paper rank set web}

Q: information retrieval paperD: information retrieval web

Page 16: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

16

Esempio

Q= 1 1 1 0 0 0D= 1 1 0 0 0 1

p1r1

p2r2

(1 p3)(1 r3)

(1 p4)(1 r4)

(1 p5)(1 r5)

p6r6

p1

r1

p2

r2

(1 p3)

(1 r3)

p1r1

p2r2

(1 p3)(1 r3)

(1 r1)(1 p1)

(1 p1)(1 r1)

(1 r2)(1 p2)

(1 p2)(1 r2)

p1

r1

(1 r1)

(1 p1)

p2

r2

(1 r2)

(1 p2)

(1 p1)

(1 r1)

(1 p2)

(1 r2)

(1 p3)

(1 r3)

qi=1,xi=1 qi=1

pi

rixiqi1

(1 pi)

(1 ri)qi1,xi0

(1 pi)(1 ri)

(1 pi)(1 ri)qi1,xi1

Page 17: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

17

Binary Independence Model

Costante perogni query

Questa è la sola quantità cheva stimata per il ranking

11 1

1

)1(

)1()|(),|(

iii q i

i

qx ii

ii

r

p

pr

rpqROxqRO

• Retrieval Status Value:

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

Page 18: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

18

Binary Independence Model

• Tutto si riduce a stimare RSV.

11 )1(

)1(log

)1(

)1(log

iiii qx ii

ii

qx ii

ii

pr

rp

pr

rpRSV

1

;ii qx

icRSV)1(

)1(log

ii

iii pr

rpc

Come calcoliamo i ci dai dati a disposizione ?

I documenti sono ordinati secondo il RSV. Questo dipende dall’intersezione fra parole della query e parole del documento (il set xi=qi=1) ma anche dai valori di pi e ri

Page 19: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

19

Binary Independence Model

Stimare i coefficienti RSV• Per ogni termine i della query osserva la tabella dei documenti rilevanti e non : Documenti

Rilevanti Non-Rilevanti Totale

Xi=1 s n-s n

Xi=0 S-s N-n-S+s N-n

Totale S N-S N

S

spi )(

)(

SN

snri

)()(

)(log),,,(

sSnNsn

sSssSnNKci

• Stime: Per ora, assumiamonon esistano terminiche non compaiono mai.

Page 20: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

20

Binary Independence Model

Ma come si può riempire la tabella di rilevanza per ciascun termine della collezione?

Data una collezione di N documenti, posso calcolare n (il numero di documenti con Xi=1) e dunque N-n (quelli con Xi=0), ma come si stima il valore S (numero di documenti complessivamente rilevanti per la query)??

Page 21: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

21

Stima di ri (P(xi=1/NR,q))

Posso approssimare N-S con N (se N>>S N-S N) . Allora, ri (prob. di un documento non rilevante data una query) è stimata da: n/N , e:

log (1– ri)/ri ≈ log (N– ni)/ ni ≈ log N/ ni = IDF! pi (probabilità di occorrenza di wi in documenti rilevanti,

data la query) si può stimare in vari modi: Facendo selezionare all’utente alcuni documenti rilevanti di

esempio Con una costante, dipendente solo dal valore idf dei termini (i

termini più comuni nella collezione hanno probabilità più bassa di rilevanza)

Proporzionale all’occorrenza dei termini nella collezione ( i termini più frequenti in assoluto sono i più rilevanti. In generale si usa il log della frequenza)

)1(

)1(log

ii

iii pr

rpc

+ comuni + frequenti

Page 22: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

22

Stima iterativa di pi (P(xi=1/R,q))

1. Assumi pi costante per tutti i termini wi della query pi = 0.5 per ogni termine presente nella query

2. Ordina i documenti della collezione sulla base dei ci (formula RSV) calcolati per tutti i termini della query, e mostra all’utente i primi |V | : Nota: se pi = 0.5 e ri ni/N allora ciIDF!

3. Si cerca di migliorare le stime di pi e ri, nel seguente modo: Si utilizza la distribuzione dei termini wi nei documenti di V.

Sia Vi il set di documenti in V che contiene wi 1. pi = |Vi| / |V|

1. Si assume che quelli non in V non siano rilevanti: ri = (ni– |Vi|) / (N – |V|)

n Torna allo step 2. e continua fino alla convergenza

pi si approssima con la distribuzione dei termini della query nei documenti recuperati

Page 23: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

23

Aggiustamenti della stima

pi Vi

ni

NV 1

,ri ni Vi

ni

NN V 1

Per piccoli valori di V e Vi (ex. Rispettivamente 0 e 1) si usano degli aggiustamenti, per evitare che pi e ri (o i loro complementi) vadano a zero, portando a zero num o denom dell’argomento del logaritmo :

Una formula più semplice utilizza 1/2 al posto di ni/N

Page 24: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

24

Esempio

D1 D2 D3 D4 D5 D6 D7 Qw1 1 1 1 1 1w2 1 1w3 1 1 1w4 1 1 1 1 1w5 1 1 1 1 1 1 1w6 1 1 1w7 1 1 1w8 1w9 1w10 1 1w11 1 1w12 1 1 1 1 1

Page 25: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

25

Step 1

STEP 1 ri=ni/N pi ciw3 0,29 0,50 0,54406804w4 0,57 0,50 0,24303805w5 0,71 0,50 0,14612804

pi = 0.5 , ri ni/N ciIDF!|V|=2

RSV (Di) c iwi(Di,Qi)

D1 D2 D3 D4 D5 D6 D7RSV 0,6902 0 0,389166 0,933234 0,146128 0,389166 0,38916608

Page 26: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

26

STEP 2

pi Vi

ni

NV 1

,ri ni Vi

ni

NN V 1

V=2 N=7 ni= occorrenze di wi nella collezioneVi=occorrenze di wi in V

STEP 2 ri pi ri pi ci (no log) logw3 0,29/6 2,29/3 0,048 0,76 3,16 0,49968708w4 3,57/6 1,57/3 0,59 0,52 1,46 0,16435286w5 4,71/6 2,71/3 0,78 0,93 3,7 0,56820172

)1(

)1(log

ii

iii pr

rpc

D1 D2 D3 D4 D5 D6 D71,067889 0 0,732555 1,2322417 0,5682017 0,732555 0,732555

RSV

Page 27: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

27

Probabilistic Relevance Feedback

1. Come prima, assegna un valore costante ai pi ed estrai un primo set V di documenti.

2. Interagisci con l’utente e chiedi di selezionare alcuni documenti rilevanti e non rilevanti in V (in tal modo ottengo un subset di V’ documenti dei quali conosco S e V’-S)

3. Stima nuovamente pi e ri sulla base di questi documenti Oppure combina questa informazione con la precedente,

aumentando o diminuendo le precedenti stime

4. Ripeti, generando una successione di approssimazioni.

||

|| )1()2(

V

pVp ii

i

Page 28: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

28

Conclusioni sul BIM

E’ possibile ottenere delle stime di rilevanza. Tuttavia è necessario fare delle assunzioni

restrittive: Indipendenza dei termini I termini non presenti nella query non

determinano il risultato Si usa una rappresentazione booleana dei

documenti e delle query

Alcune di queste assunzioni possono essere rimosse

Page 29: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

29

Riferimenti su BIM

http://nlp.stanford.edu/IR-book/html/htmledition/probabilistic-approaches-to-relevance-feedback-1.html

Page 30: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

30

Rimuovere l’assunzione di indipendenza dei termini

In generale i termini non occorrono indipendentemente

Ma la stima delle dipendenze può essere molto complessa

van Rijsbergen (1979) propose un semplice modello di dipendenza

Ogni termine dipende da uno più termini

Page 31: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

31

Reti Bayesiane per IR

Cosa è una Bayesian network? Un grafo aciclico diretto DAG Nodi:

Eventi, variabili aleatorie, o variabili Possono assumere valori Per semplicità, nel modell BN-IR, tali valori

si assumono booleani Archi:

Modellano una dipendenza diretta fra nodi

Page 32: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

32

Bayesian Networks

a b

c

a,b,c - nodi

p(c|ab) per ogni valore di a,b,c

p(a)

p(b)

• Le reti Bayesiane modellano la dipendenza fra eventi

•Inference in Bayesian Nets:•note le probabilità a priori per le radici del grafoe le probabilità condizionate (archi) si può calcolare la probabilità a priori di ogni evento condizionato.• Se sono noti i valori di verità di alcuni nodi (ad esempio, l’osservazione dell’evento b e di a) si possono ricalcolare le probabilità dei nodi

Dipendenza condizionale

P(c) P(c /a)P(a) P(c /b)P(b)

Page 33: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

33

Bayesian Networks

LINK MATRIX (matrice dei collegamenti)

a b

c

p(a)

p(b)

c/ab 00 01 10 11

1

0

P(c=1/a=1,=1)

Page 34: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

34

Esempio giocattolo

Depressione(g)

Esame(f)

Consegna progetto(d)

Notte insonne

(n)

Cioccolata e panna(t)

7.02.01.001.0

3.08.09.099.0

g

g

dfdffdfd

6.0

4.0

dd7.0

3.0

f

f

9.001.0

1.099.0

t

t

gg

7.01.0

3.09.0

n

n

ff

P(g / f ,d)LINK MATRIX

Page 35: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

35

Assunzioni di Indipendenza

• Assunzione di indipendenza: P(t|g,f,d)=P(t|g)

• Probabilità congiunte: P(f d n g t) =P(f) P(d) P(n|f) P(g|f d) P(t|g)

Depressione(g)

Esame(f)

Consegna progetto(d)

Notte insonne

(n)

Cioccolata e panna(t)

Page 36: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

36

Chained inference

Evidenza - si parte dal valore di alcuni nodi (ad es. radice) Inferenza

Si calcola la “credenza” o belief (rappresentata eventualmente da probabilità) degli altri nodi

Probabilità condizionata all’evidenza rappresentata dai nodi “conosciuti”

Due tipi di inferenza: Diagnostica (dall’evento alla causa) o Predittiva (date le possibili cause, stimare la prob. di osservare l’evento causato)

Complessità computazionale Per una generica rete (grafo ciclico) : NP-hard

Le reti ad albero sono più facilmente trattabili Alcuni autori propongono metodi approssimati (ad esempio

basati su programmazione dinamica)

Page 37: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

37

Esempio giocattolo

Depressione(g)

Esame(f)

Consegna progetto(d)

Notte insonne

(n)

Cioccolata e panna(t)

fd fd fd fd

g 0.99 0.9 0.8 0.3

g 0.01 0.1 0.2 0.7

6.0

4.0

dd7.0

3.0

f

f

9.001.0

1.099.0

t

t

gg

7.01.0

3.09.0

n

n

ff

verofalso

P(t)=0,99x0,9+0,1x0,1

vera

Page 38: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

38

Modello bayesiano per IR

Obiettivo Data una richiesta di informazione da parte di un

utente (evidenza) stima la probabilità che un documento soddisfi la richiesta (inferenza)

Modello di Retrieval Modella i documenti come una rete (document

network) Modella il bisogno informativo come una query

network

Page 39: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

39

Belief Network Model: un modello di ranking basato su Reti Bayesiane

Definizioni:K={k1, k2, ...,kt} spazio di campionamento (o spazio

dei concetti)u K un subset di K (un concetto)

ki un termine indice (concetto elementare)

k=(k1, k2, ...,kn) nt un vettore associato ad ogni concetto u tale che gi(k)=1 ki u (pesi unitari)

ki una variabile aleatoria binaria (cioè ki0,1 ) associata al termine indice ki , t.c. ki = 1 gi(k)=1 ki u

Page 40: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

40

Belief Network Model

Definizioni (2): un documento dj e una query q sono rappresentati come concetti in

K, composti dai termini indice contenuti in dj e q. Sia dunque c un concetto generico in K (documento o query) P(c)=uP(c|u) P(u) è una distribuzione di probabilità P su K P(c) è il definito come il grado di copertura dello spazio K mediante c Questa copertura è stimata confrontando ogni concetto in K (“ u”)

con c, e sommando i contributi, pesati con le probabilità dei singoli concetti u.

Si assume inizialmente equiprobabilità delle sottostringhe u in K (se ho t termini, ciascuno dei quali può essere presente o assente in u, ci sono 2t possibili modi di formare concetti u), cioè: P(u)=(1/2)t

Page 41: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

41

Belief Network Model

Topologia della rete

lato query

lato documento

q

kik2k1

dj dnd1

kt kuk u

cq

cd1cdn

Page 42: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

42

Q Information retrieval probability

informationfinding

probabilityretrieval calculus

informationretrieval calculus

informationretrieval journal

information calculus retrieval probability journal finding

d1 d2 d3 d4

Page 43: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

43

Belief Network Model

Il ranking di un documento dj rispetto ad una query q è interpretato come una relazione di corrispondenza fra concetti, e riflette il grado di grado di copertura che il concetto dcopertura che il concetto djj fornisce al concetto q. fornisce al concetto q.

Documenti e query sono trattati nello stesso modo, cioè sono entrambi concetti nello spazio K. Assunzione:

P(dj|q) viene considerato come il rank del documento dj rispetto alla query q.

http://portal.acm.org/citation.cfm?id=243272 (Ribeiro and Munz, 1996: “A belief network model for IR”)

Page 44: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

44

Belief Network Model

Ranking di dj

P(dj|q) = P(dj q) / P(q)

= P(dj q)

= u P(dj q | u) P(u)

~ u P(dj / u) P(q / u) P(u)

~ k P(dj / k) P(q / k) P(k)

Questo fattore compare in tutti iP(dj/q) dunque può essere trascurato

Assumendo q edj condizionalmenteindipendenti rispettoa u , come si evincedal grafo delledipendenze nella rete

Ogni vettore k definisce un concetto u

q

kik2k1

dj dnd1

kt ku

Page 45: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

45

Belief Network Model

Dunque: P(dj|q) ~ k P(dj | k) P(q | k) P(k)Occorre specificare le probabilità condizionate P(dj | k) e P(q | k) . Differenti strategie per modellare P(dj | k) e

P(q | k) portano a diversi modelli di ranking.Ad esempio, assumiamo un vocabolario di 3 parole:

Information,retrieval, extraction (I,R,E) I concetti possibili sono: (I,R,E), (I,R,-), (I,-,E), (-,R,E),

(-,-,E),(-,R,-),(I,-,-),(-,-,-)

P(d i /k1,k2 ,k3) P(d i ,k1,k2 ,k3)

P(k1 /k2 ,k3)P(k2 /k3)P(k3)

stimabile

Per k concetti, o(k!) stime

Page 46: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

46

A belief network model for IR

Sussumendo un modello vettoriale (Ribeiro and Muntz) per i pesi e l’indipendenza dei termini: Definisci il vettore ki come segue:

ki = k | ((gi(k)=1) (ji gj(k)=0))

Il vettore ki si riferisce ad uno stato del vettore k in cui solo il nodo ki è attivo (g(ki)=1) e tutti gli altri non lo sono. Questo riflette la strategia di ranking tf-idf, che somma individualmente il contributo di ogni keyword. Quindi, si considera il contributo di ogni termine ki singolarmente.

Page 47: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

47

Belief Network Model

P(dj|q) ~ k P(dj | k) P(q | k) P(k)

Per il modello vettoriale:

Definisci (wi,q / |q|) se (k = ki ) (gi(q)=1)

P(q | k) =

0 se (k ki ) (gi(q)=0)

P(¬q | k) = 1 - P(q | k)

(wi,q / |q|) una versione normalizzata del peso del termine indice ki nella query q

q (wi,q )2

i1

t

peso tf-idf di ki in qki compare in q

Page 48: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

48

Belief Network Model

Per il modello vettoriale

Definisci

(wi,j / |dj|) se (k = ki ) (gi(dj)=1)

P(dj | k) =

0 se (k ki ) (gi(dj)=0)

P(¬ dj | k) = 1 - P(dj | k)

(wi,j / |dj|) una versione normalizzata del peso del termine indice ki nel documento d,j

d j (wi, j )2

i1

t

Page 49: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

49

Belief Network Model

Mettendo tutto assieme.. P(dj|q) ~ k P(dj | k) P(q | k) P(k)=

(1

q

1

d j

wkq wkj t 1

k1,,t ) cossin(q,d j )

Riformulazione probabilistica del modello vettoriale!!

Page 50: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

50

Vantaggi del Belief Network model

Per calcolare il rank di un documento, considera solo gli stati della rete in cui i nodi attivi sono quelli che compaiono nella query, quindi il costo è lineare nel numero dei documenti della collezione

E’ una variante moderna dei metodi di ragionamento probabilistico, che consente una combinazione di distinte sorgenti di evidenza. I modelli più avanzati consentono di incorporare nel modello evidenze derivate da sessioni precedenti, e feedback dell’utente.

Page 51: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

51

Bayesian Network Retrieval Model

Si può rimuovere l’ipotesi di indipendenza: Si rappresentano le principali (più probabili)

relazioni di dipendenza statistica fra i termini della collezione.

Term subnetwork Polytree

Ci sono algoritmi efficenti per l’analisi di polytrees.

Page 52: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

52

Bayesian Network Retrieval Model

k1

k2

k3

k4

k5

k6

Sottorete dei termini

D1 D2 D3 D4

Sottorete dei

documenti

queryTermini “radice” (indipendenti)

Page 53: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

53

Bayesian Network Retrieval Model

Distribuzioni di probabilità:

Distribuzioni “marginali” (dei nodi-termine radice):

p(ki ) 1

V, p(ki ) 1 p(ki )

(|V|=t dimensione del vocabolario)

Page 54: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

54

Bayesian Network Retrieval Model

pa (k) tutti gli n nodi da cui k dipende

condizionalmente (es p(rank/(information,retrieval,search,index))

))(,())(()(

))(,())](|([

iiii

iiii kpakfreqkpafreqkfreq

kpakfreqkpakpE

p(ki | pa(ki )) 1 p(ki | pa(ki ))

Distribuzioni condizionali (basate sul coefficiente di Jaccard) per i termini dipendenti:

J (A,B) A B

A B

A B

A B A BE(p)=valore atteso di p

Page 55: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

55

Bayesian Network Retrieval Model

Un sistema più semplice (“Two Layers” ):-Si considera solo un sottoinsieme di termini “condizionanti”

-L’analisi della rete è più veloce

Page 56: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

56

Two Layers Bayesian Networks (Xu et al. 2009)

Si modella la dipendenza fra termini in funzione della “word similarity”

Ogni concetto ki vieneduplicato (ki’)

p(ki / p(ki )) sim(kik j p(ki )

,k j )

La dipendenza è stimata in funzione della similarità

Page 57: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

57

Dipendenza=f(similarità)

Page 58: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

58

Stima di P(dj/u)

Page 59: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

59

Stima delle dipendenze

BOLLEGALA, D.,MATSUO, Y., AND ISHIZUKA,M. 2007. Measuring semantic similarity between wordsusing web search engines. In WWW’07: Proceedings of the 16th International Conference onWorldWide Web. ACM, New York, 757–766.

Google Set: http://labs.google.com/sets

Word Similarity measures:

Page 60: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

60

Page 61: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

61

Page 62: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

62

Per Riassumere

Q=k1 k2

U’=k1k2

k1k2 kj k2 kj kj kt

U=k1k2kj

Page 63: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

63

Esempio

Q=k1 k2

U’=k1k2

k1k2 kj k2 kj kj kt

U=k1k2kj

P(d1/U) wk1k1wk2w2wkjkj

| d1 || u |

P(d 2 /U) wk2w2wkjkj

| d 2 || u |

P(dN /U) wkjkj

| dN || u |

p(k1' k2' /k1k2kj) 1

2(P(k'1 /k1,k2)P(k2' /k2,kj))

Page 64: 1 Metodi di ranking probabilistici. 2 IR probabilistico Il modello probabilistico: Il principio di pesatura probabilistico, o probability ranking principle

64

Conclusioni

I modelli probabilistici rappresentano il problema del retrieval mediante probabilità condizionate (es. P(R/q,d)).

Alcuni modelli consento di “rilassare” l’ipotesi di indipendenza fra termini

Occorre stimare le probabilità condizionate fra termini (in genere bigrammi o trigrammi P(ti/tj) o P(ti/tj,tk)

Fra i metodi per determinare correlazioni fra termini c’è il Latent Semantic Indexing, che è un metodo algebrico per stimare la similarità fra documenti, e fra documenti e query (next lesson!)