diversità per recommender systems
DESCRIPTION
Breve introduzione ai Recommender Systems e al problema della diversità dei suggerimenti, con utili riferimenti bibliografici. Slide usate durante il talk http://www.eventbrite.it/e/biglietti-club-degli-sviluppatori-puglia-recommender-systems-9384077027?aff=eorgTRANSCRIPT
Diversity in Recommender Systems
Paolo TomeoTwitter: @PaoTomeoFacebook: PTomeo
Information overload
@mkapor
Information Retrieval vs Information Filtering
Information Retrieval vs Information Filtering
U. Hanani, B. Shapira, P. Shoval. “Information Filtering: Overview of Issues, Research and Systems”. User Modeling and User-Adapted Interaction, 11(3): 203-259, 2001
IR IF
Representation of information needs
Queries User profiles
Goal Selecting relevant items (docs) that match a query
Filtering out the many irrelevant data items in accord with a user's profile
Type of use Ad-hoc use Repetitive use
Type of users One-time users Long-term users
Index Items User profiles
Database Relatively static Dynamic
Recommender SystemsInformation filtering personalizzato
Recommender SystemsInformation filtering personalizzato
selezione di item fra una miriade di possibilità, in base a interessi e necessità degli utenti
Recommender SystemsInformation filtering personalizzato
selezione di item fra una miriade di possibilità, in base a interessi e necessità degli utenti
suggeriscono interazioni con nuovi item analizzando le passate interazioni
Recommender Systems
Affrontano efficacemente l'information overload
Forniscono valore aggiunto per utenti, imprese e relazioni fra loro
Recommender Systems
La progettazione richiede conoscenze di varie discipline
statistics, machine learning,human-computer interaction,
social network analysis,psychology
Recommender Systems
La progettazione richiede conoscenze di varie discipline
statistics, machine learning,human-computer interaction,
social network analysis,psychology
http://www.slideshare.net/blueace/how-to-build-a-recommender-system-presentation
Data
URM: user-rating matrix
Data
http://www.slideshare.net/blueace/how-to-build-a-recommender-system-presentation
14
Suggerisce item apprezzati da altri utenti che hanno preferenze simili
Output
Generalmente una lista di Top-N
suggerimenti: N item considerati più
accurati
http://www.youtube.com/feed/recommended
15
Steps
Input:RatingOutput: Recommendation
1 – Training2 – Prediction3 – Ranking
(4 – Re-Ranking)
16
Prediction
Stima della rilevanza di un item per un utente
f: U×I [0,1]→
17
Suggerisce all'utente item simili a quelli che ha apprezzato in passato
Approaches
Collaborative filtering
Content Based filtering
Hybrid approaches
18
Suggerisce item apprezzati da altri utenti che hanno preferenze simili
Content based filtering
19
Suggerisce item apprezzati da altri utenti che hanno preferenze simili
Content based filtering
Punti di forza
indipendenza dell'utente
indipendenza dal numero utenti e dalla popolarità degli item
trasparenza (è possibile fornire spiegazioni)
Limiti
sensibilità a informazioni superficiali o incomplete
over-specialization
cold-start
20
Content representation
Se il contenuto è rappresentato da una descrizione testuale, è necessaria una strutturazione tramite tecniche NLP
TokenizzazioneEliminazione Stop Words
StemmingAssegnazione di un peso ai token (tf-idf)
21
Suggerisce item apprezzati da altri utenti che hanno preferenze simili
Collaborative filtering
22
Suggerisce item apprezzati da altri utenti che hanno preferenze simili
Collaborative filteringPunti di forza
suggerimenti diversificati per categorie di itemindipendenza dal contenuto (che può non esistere)
molto accurati secondo valutazioni empiriche
LimitiDipendenza dal numero di utentiCold-start per nuovi item e utenti
Sparsità matrice user-item
23
Neighborhood-based CFRS
Sono memorizzati gli item/utenti più simili (detti Neighbors) per ognuno di essi
Riduzione di complessità temporale e occupazione di memoria
24
User-based Collaborative filtering
1- Similarità calcolata fra utenti
2 – Stima rating considerando le similarità
B. Sarwar, G. Karypis, J. Konstan, J. Riedl , “Item-Based Collaborative Filtering Recommendation Algorithms”, Proceedings of the 10th international conference on World Wide Web, pp. 285-295, 2001.
25
Item-based Collaborative filtering
1- Similarità calcolata fra item
2 – Stima rating considerando le similarità
B. Sarwar, G. Karypis, J. Konstan, J. Riedl , “Item-Based Collaborative Filtering Recommendation Algorithms”, Proceedings of the 10th international conference on World Wide Web, pp. 285-295, 2001.
26
Altre categorie di RS
Social Context-aware
Personality-basedKnowledge-based
Geographic
27
Qualità dei suggerimenti
•Valutare l'accuratezza è necessario, ma non basta!
•
•Alcune sfide aperte:•Serendipità, Diversità, Novità
28
Valutare le perfomance
Sperimentazione in vitro
Sperimentazioni con utenti
Solitamente si susseguono: molti algoritmi sono confrontati e ottimizzati in vitro, i migliori sono
valutati con utenti
29
Sperimentazione in vitro
1- scegliere un dataset (Es. Movieles)
2 - Partizionare i rating di ogni utente(Es. Hold-out, Cross Validation)
3 – Per ogni (o qualche) utente nel dataset il RS è addestrato sull'intero dataset esclusi i
rating dell'utente considerato4 – I suggerimenti del RS sono confrontati con
i rating di test dell'utente
30
Valutare l'accuratezza
Indica il grado di corrispondenza dei suggerimenti ad interessi e necessità degli utenti
Metriche di erroreMetriche di classificazione
31
Metriche di errore
32
Metriche di classificazione
33
Diversity
Individual Div Aggregate Div
Definition diversity of recommendation sets for a givenindividual user
diversity ofrecommendations across all users
Resolve Over-specialization problem
Rich-get-richer phenomenon
Benefit User-experience Sales
34
Trade-off accuratezza-diversity
Soluzioni?
Diversificare con minime perdite di accuratezza
Applicare meccanismi di bilanciamento parametrizzato
35
G. Adomavicius, Y. Kwon , “Improving Aggregate Recommendation Diversity Using Ranking-Based Techniques”, IEEE Transactions on Knowledge and Data
Engineering, vol. 24. no. 5, pp. 896 - 911, 2012
36
Individual Diversification
NP-difficileNon considera accuratezza
37
Euristiche!
GreedyInterchange
NeighborhoodClustering
M. Drosou and E. Pitoura, "Comparing diversity heuristics", Technical Report, Computer Science Department, University of Ioannina, 2009
38
M. Drosou and E. Pitoura, "Comparing diversity heuristics", Technical Report, Computer Science Department, University of Ioannina, 2009
39
MMR – Maximal Marginal Relevance
Considera sia l'accuratezza che la distanza.È piuttosto efficiente ed efficace.
Un limite è l'assunzione di indipendenza fra
rilevanza e diversità
40
Valutare individual diversity
41
Aggregate Diversification
Euristiche di re-rankingG. Adomavicius, Y. Kwon , “Improving Aggregate Recommendation Diversity Using
Ranking-Based Techniques”, IEEE Transactions on Knowledge and Data Engineering, vol. 24. no. 5, pp. 896 - 911, 2012
Euristiche basate sulla teoria dei grafiG. Adomavicius, Y. Kwon , “Maximizing Aggregate Recommendation Diversity: A
Graph-Theoretic Approach ”, Proceedings of Workshop on Novelty and Diversity in Recommender Systems, Chicago, Illinois, USA, pp. 3-10, 2011
42
Valutare aggregate diversity
Coverage = percentuale di item suggeriti almeno una volta