diversità per recommender systems

Diversity in Recommender Systems

Paolo TomeoTwitter: @PaoTomeoFacebook: PTomeo

Information overload

@mkapor

Information Retrieval vs Information Filtering

Information Retrieval vs Information Filtering

U. Hanani, B. Shapira, P. Shoval. “Information Filtering: Overview of Issues, Research and Systems”. User Modeling and User-Adapted Interaction, 11(3): 203-259, 2001

IR IF

Representation of information needs

Queries User profiles

Goal Selecting relevant items (docs) that match a query

Filtering out the many irrelevant data items in accord with a user's profile

Type of use Ad-hoc use Repetitive use

Type of users One-time users Long-term users

Index Items User profiles

Database Relatively static Dynamic

Recommender SystemsInformation filtering personalizzato


selezione di item fra una miriade di possibilità, in base a interessi e necessità degli utenti


selezione di item fra una miriade di possibilità, in base a interessi e necessità degli utenti

suggeriscono interazioni con nuovi item analizzando le passate interazioni

Recommender Systems

Affrontano efficacemente l'information overload

Forniscono valore aggiunto per utenti, imprese e relazioni fra loro

Recommender Systems

La progettazione richiede conoscenze di varie discipline

statistics, machine learning,human-computer interaction,

social network analysis,psychology

http://www.slideshare.net/blueace/how-to-build-a-recommender-system-presentation


Data

URM: user-rating matrix

Data



14

Suggerisce item apprezzati da altri utenti che hanno preferenze simili

Output

Generalmente una lista di Top-N

suggerimenti: N item considerati più

accurati

http://www.youtube.com/feed/recommended

http://www.youtube.com/feed/recommended

15

Steps

Input:RatingOutput: Recommendation

1 – Training2 – Prediction3 – Ranking

(4 – Re-Ranking)

16

Prediction

Stima della rilevanza di un item per un utente

f: U×I [0,1]→

17

Suggerisce all'utente item simili a quelli che ha apprezzato in passato

Approaches

Collaborative filtering

Content Based filtering

Hybrid approaches

18


Content based filtering

19


Content based filtering

Punti di forza

indipendenza dell'utente

indipendenza dal numero utenti e dalla popolarità degli item

trasparenza (è possibile fornire spiegazioni)

Limiti

sensibilità a informazioni superficiali o incomplete

over-specialization

cold-start

20

Content representation

Se il contenuto è rappresentato da una descrizione testuale, è necessaria una strutturazione tramite tecniche NLP

TokenizzazioneEliminazione Stop Words

StemmingAssegnazione di un peso ai token (tf-idf)

21


Collaborative filtering

22


Collaborative filteringPunti di forza

suggerimenti diversificati per categorie di itemindipendenza dal contenuto (che può non esistere)

molto accurati secondo valutazioni empiriche

LimitiDipendenza dal numero di utentiCold-start per nuovi item e utenti

Sparsità matrice user-item

23

Neighborhood-based CFRS

Sono memorizzati gli item/utenti più simili (detti Neighbors) per ognuno di essi

Riduzione di complessità temporale e occupazione di memoria

24

User-based Collaborative filtering

1- Similarità calcolata fra utenti

2 – Stima rating considerando le similarità

B. Sarwar, G. Karypis, J. Konstan, J. Riedl , “Item-Based Collaborative Filtering Recommendation Algorithms”, Proceedings of the 10th international conference on World Wide Web, pp. 285-295, 2001.

25

Item-based Collaborative filtering

1- Similarità calcolata fra item

2 – Stima rating considerando le similarità

B. Sarwar, G. Karypis, J. Konstan, J. Riedl , “Item-Based Collaborative Filtering Recommendation Algorithms”, Proceedings of the 10th international conference on World Wide Web, pp. 285-295, 2001.

26

Altre categorie di RS

Social Context-aware

Personality-basedKnowledge-based

Geographic

27

Qualità dei suggerimenti

•Valutare l'accuratezza è necessario, ma non basta!

•

•Alcune sfide aperte:•Serendipità, Diversità, Novità

28

Valutare le perfomance

Sperimentazione in vitro

Sperimentazioni con utenti

Solitamente si susseguono: molti algoritmi sono confrontati e ottimizzati in vitro, i migliori sono

valutati con utenti

29

Sperimentazione in vitro

1- scegliere un dataset (Es. Movieles)

2 - Partizionare i rating di ogni utente(Es. Hold-out, Cross Validation)

3 – Per ogni (o qualche) utente nel dataset il RS è addestrato sull'intero dataset esclusi i

rating dell'utente considerato4 – I suggerimenti del RS sono confrontati con

i rating di test dell'utente

30

Valutare l'accuratezza

Indica il grado di corrispondenza dei suggerimenti ad interessi e necessità degli utenti

Metriche di erroreMetriche di classificazione

31

Metriche di errore

32

Metriche di classificazione

33

Diversity

Individual Div Aggregate Div

Definition diversity of recommendation sets for a givenindividual user

diversity ofrecommendations across all users

Resolve Over-specialization problem

Rich-get-richer phenomenon

Benefit User-experience Sales

34

Trade-off accuratezza-diversity

Soluzioni?

Diversificare con minime perdite di accuratezza

Applicare meccanismi di bilanciamento parametrizzato

35

G. Adomavicius, Y. Kwon , “Improving Aggregate Recommendation Diversity Using Ranking-Based Techniques”, IEEE Transactions on Knowledge and Data

Engineering, vol. 24. no. 5, pp. 896 - 911, 2012

36

Individual Diversification

NP-difficileNon considera accuratezza

37

Euristiche!

GreedyInterchange

NeighborhoodClustering

M. Drosou and E. Pitoura, "Comparing diversity heuristics", Technical Report, Computer Science Department, University of Ioannina, 2009

38

M. Drosou and E. Pitoura, "Comparing diversity heuristics", Technical Report, Computer Science Department, University of Ioannina, 2009

39

MMR – Maximal Marginal Relevance

Considera sia l'accuratezza che la distanza.È piuttosto efficiente ed efficace.

Un limite è l'assunzione di indipendenza fra

rilevanza e diversità

40

Valutare individual diversity

41

Aggregate Diversification

Euristiche di re-rankingG. Adomavicius, Y. Kwon , “Improving Aggregate Recommendation Diversity Using

Ranking-Based Techniques”, IEEE Transactions on Knowledge and Data Engineering, vol. 24. no. 5, pp. 896 - 911, 2012

Euristiche basate sulla teoria dei grafiG. Adomavicius, Y. Kwon , “Maximizing Aggregate Recommendation Diversity: A

Graph-Theoretic Approach ”, Proceedings of Workshop on Novelty and Diversity in Recommender Systems, Chicago, Illinois, USA, pp. 3-10, 2011

42

Valutare aggregate diversity

Coverage = percentuale di item suggeriti almeno una volta

diversità per recommender systems

Technology