seminario ibm - 17 set 09
DESCRIPTION
Presentazione effettuata in IBM per introdurre gli ultimi sviluppi del gruppoTRANSCRIPT
![Page 1: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/1.jpg)
STaR: a Social Tag Recommender
@ECML/PKDD Discovery Challenge 2009 Bled (Slovenia) - Settembre 09
Cataldo Musto
mercoledì 16 settembre 2009
![Page 2: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/2.jpg)
ECML/PKDD Discovery Challenge 2009
• Discovery Challenge
• Competizione collaterale alla conferenza
• L’edizione 2009 ha messo a confronto 16 partecipanti sul tema della Tag Recommendation
• Dominio: www.bibsonomy.org
• Raccomandazione di tag per bookmark e BibTeX pubblicati sulla piattaforma
mercoledì 16 settembre 2009
![Page 3: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/3.jpg)
Social Tagging• Nel contesto del Web 2.0 si sta assistendo a una
sempre maggiore diffusione dei sistemi di Tagging Collaborativo
• es) Flickr (www.flickr.com) , Delicious (http://del.icio.us) , Bibsonomy (www.bibsonomy.org) , ecc.
• Un utente fruisce di una risorsa (testuale o multimediale) e la annota con dei termini ritenuti adatti a descriverne il contenuto sulla base del proprio modello mentale
• Questa attività di annotazione collaborativa permette di associare un insieme di tag liberamente definito dagli utenti a ciascuna risorsa fruibile sulla piattaforma. Questo insieme di tag è detto folksonomia
mercoledì 16 settembre 2009
![Page 4: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/4.jpg)
Tag Cloud
mercoledì 16 settembre 2009
![Page 5: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/5.jpg)
Folksonomie
• Una folksonomia è un modello di rappresentazione delle informazioni costruito liberamente dagli utenti in modo collaborativo
• Vantaggi: Curva di apprendimento molto rapida, gli utenti possono immediatamente modellare gli oggetti utilizzando il proprio lessico, facilità di ritrovamento dell’informazione
• Svantaggi: La rappresentazione delle informazioni nelle folksonomie avviene in maniera puramente sintattica
• Problemi di sinonimia, polisemia e rappresentazione su differenti livelli di astrazione
• es) Oggetti annotati con il tag “Apple” o “Rinascimento”
mercoledì 16 settembre 2009
![Page 6: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/6.jpg)
Tag Recommender
• Componente che si occupa di filtrare lo spazio dei tag suggerendo all’utente quelli più adatti a modellare una certa risorsa
• Vantaggi: Condivisione del lessico, velocizzazione della tag convergence, riduzione dei problemi di sinonimia, polisemia, ecc.
• Modello di raccomandazione:
• Analisi del comportamento dell’utente
• Analisi del comportamento della comunità
• Analisi del contenutomercoledì 16 settembre 2009
![Page 7: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/7.jpg)
STaR: a Social Tag Recommender
• Concetti chiave
• Risorse “simili” possono essere modellate con tag simili
• I tag precedentemente usati dall’utente per modellare una certa classe di risorse devono essere valorizzati nei meccanismi di raccomandazione
mercoledì 16 settembre 2009
![Page 8: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/8.jpg)
STaR: a Social Tag Recommender
• Modello di raccomandazione
• Preprocessing
• Indicizzazione di contenuti precedentemente taggati
• Filtraggio
• Ritrovamento di contenuti “simili” a quello da taggare
• Estrazione delle folksonomie sulle risorse simili
• Fusione delle folksonomie e pesatura dei tag
• Ordinamento e filtraggio dei tag candidati
mercoledì 16 settembre 2009
![Page 9: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/9.jpg)
Architettura
mercoledì 16 settembre 2009
![Page 10: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/10.jpg)
Preprocessing• Indexer
• basato su Apache Lucene
• costruisce un indice personale per ciascun utente e un indice della comunità
• Query Processor
• si prende carico della risorsa da taggare
• processa la risorsa estraendo i metadati testuali necessari (titolo della pagina, descrizione, ecc.)
• estrae le informazioni sull’utente (linguaggio, tag usati più frequentemente, ecc.)
• inoltra una query sull’indice dell’utente (se riconosciuto) e della comunità
mercoledì 16 settembre 2009
![Page 11: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/11.jpg)
• Sostituzione della funzione di similarità di Lucene con una implementazione Java della BM25
• Interpretazione “probabilistica” del modello di pesatura TF/IDF
Scenario, step 1
mercoledì 16 settembre 2009
![Page 12: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/12.jpg)
Architettura
mercoledì 16 settembre 2009
![Page 13: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/13.jpg)
Filtering• Tag Extractor
• estrae le folksonomie per ciascuna delle risorse simili restituite dall’Indice Personale e dall’Indice Sociale
• fonde le folksonomie assegnando a ciascun tag uno score
• direttamente proporzionale al numero di occorrenze e alla similarità della risorsa sorgente
• pesato a seconda che il tag provenga dalla componente personale o sociale
• Filter
• filtra i tag che non raggiungono uno score sufficiente e restituisce le raccomandazioni
mercoledì 16 settembre 2009
![Page 14: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/14.jpg)
Scenario, step 2
mercoledì 16 settembre 2009
![Page 15: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/15.jpg)
Discovery Challenge• Test Set
• sorgente: www.bibsonomy.org
• 17.000 bookmark, 26.000 BibTeX, 1.600 utenti
• 48 ore per produrre i risultati
• Metriche di riferimento: Precision, Recall, F1-Measure
• calcolate sui primi cinque tag
• 16 diversi partecipanti
• 13 nazioni
mercoledì 16 settembre 2009
![Page 16: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/16.jpg)
Risultati
http://www.kde.cs.uni-kassel.de/ws/dc09/results/mercoledì 16 settembre 2009
![Page 17: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/17.jpg)
Conclusioni• Lo sviluppo di STaR è nato per scopi puramente didattici
• Confronto con gli altri partecipanti della Challenge
• Viaggio in Slovenia :)
• La validità del primo prototipo permette di delineare degli sviluppi futuri
• Il prototipo manca di una componente di estrazione automatica di tag a partire dal contenuto.
• Applicazioni di STaR
• Miglioramento nell’efficacia della classificazione/browsing di documenti testuali
• Estrazione più efficace di ontologie a partire da folksonomie costruite collaborativamente
• Migliore accuratezza in componenti di personalizzazione tag-based
• Un tag recommender permette di annotare gli oggetti con tag più precisi. Questo produce profili più efficaci che portano a raccomandazioni migliori
mercoledì 16 settembre 2009
![Page 18: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/18.jpg)
Recommender System e Personalizzazione
Sviluppi futuri
Cataldo Musto
mercoledì 16 settembre 2009
![Page 19: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/19.jpg)
Sviluppi futuri
• Miglioramento dei modelli di filtraggio
• Utilizzo di Linked Data
• Analisi dei Social Media per la personalizzazione
• Interoperabilità di Profili Utente
mercoledì 16 settembre 2009
![Page 20: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/20.jpg)
Miglioramento dei modelli di filtraggio
• I migliori risultati ottenuti dalla BM25 rispetto alla classica misura di similarità di Lucene invitano a riflettere
• Molti modelli, compresa la classica TF/IDF, portano a semplificazioni eccessive nei meccanismi di rappresentazione dei documenti
• Recentemente hanno trovato spazio modelli alternativi più efficaci, di tipo probabilistico o orientati a far emergere la caratterizzazione semantica latente dei documenti
• es) ESA (Explicit Semantic Analysis) , LSI/pLSI (Probabilistic Latent Semantic Indexing), LDA (Latent Dirichlet Allocation), Semantic Vectors (legata ai principi della meccanica quantistica)
• L’utilizzo di queste tecniche in ambito di Information Filtering è senza dubbio da investigare
mercoledì 16 settembre 2009
![Page 21: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/21.jpg)
Utilizzo di Linked Data
• Termine coniato da Tim Berners-Lee
• Denota dati rilasciati dagli utenti e modellati seguendo RDF o degli specifici microformati
• Garantisce interoperabilità e reasoning tra dati
• L’esempio più importante è DBPedia
• Un piccolo passo verso il Semantic Web
mercoledì 16 settembre 2009
![Page 22: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/22.jpg)
Linked Data
mercoledì 16 settembre 2009
![Page 23: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/23.jpg)
Linked Data e Recommender Systems• Gli approcci più comuni alla raccomandazione sono legati
a interpretazioni di tipo probabilistico/frequentista
• es) Quante più volte un certo termine appare in elementi graditi, tanto più è probabile che siano graditi altri elementi simili a questo
• Problemi tipici: ridotta serendipità nelle raccomandazioni
• L’integrazione di Linked Data potrebbe attivare dei meccanismi di reasoning più raffinati per arricchire il profilo con termini con termini correlati o classi più astratte
mercoledì 16 settembre 2009
![Page 24: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/24.jpg)
Analisi dei Social Media
• L’elicitazione delle preferenze dell’utente è uno degli aspetti più delicati legati alla personalizzazione e filtraggio
• L’utente spesso è poco motivato ad espletare procedure di addestramento (es. votare un insieme di film)
• I meccanismi di elicitazione impliciti (es. osservazione del comportamento, analisi dei click, ecc.) spesso ci forniscono dati troppo rumorosi
• La continua crescita dei Social Media fornisce uno spunto per ovviare a queste problematiche
mercoledì 16 settembre 2009
![Page 25: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/25.jpg)
Analisi dei Social Media (2)
mercoledì 16 settembre 2009
![Page 26: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/26.jpg)
Analisi dei Social Media (3)
mercoledì 16 settembre 2009
![Page 27: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/27.jpg)
Analisi dei Social Media (4)
• I dati disponibili su queste piattaforme rappresentano un buon compromesso
• Sono dati reali, perchè prodotti liberamente dagli utenti
• Forniscono informazioni esplicite sulle preferenze
• Acquisire e processare questi dati può portare a miglioramenti nella costruzione dei profili e nella generazione di raccomandazioni valide
mercoledì 16 settembre 2009
![Page 28: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/28.jpg)
Interoperabilità tra profili utente
• I modelli attuali di raccomandazione non sono ancora così efficaci da permettere la costruzione di un recommender “universale”
• Le informazioni acquisite in uno specifico dominio, però, possono anche essere riutilizzate in altri ambiti
• es) L’acquisto di un Trolley potrebbe suggerire l’utilità di proporre all’utente un viaggio
• es) Una buona recensione di un libro sulla fotografia potrebbe suggerire di proporre all’utente degli accessori
• Cross-Domain Personalization
mercoledì 16 settembre 2009
![Page 29: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/29.jpg)
Cross-Domain Personalization
• Alcune tendenze recenti sottolineano l’utilità di investire in questo ambito (es. OpenID)
• L’obiettivo a lungo termine è quello di creare un’unica “identità” per utente in cui integrare tutte le informazioni
• In contesti di filtragigo e personalizzazione, questi scopi possono essere raggiunti in più modi
• Costruzione di profili analoghi
• Utilizzo di Standard per la Profilazione
mercoledì 16 settembre 2009
![Page 30: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/30.jpg)
APML (www.apml.org)
• APML (www.apml.org)
• Attention Profiling Markup Language
• Linguaggio di modellazione XML-based
• Orientato alla costruzione di “profili di attenzione”
• Racchiude dati “impliciti” ed “espliciti” sulle attività degli utenti in Rete
• Molto utile per scopi di filtraggio e personalizzazione
mercoledì 16 settembre 2009
![Page 32: Seminario IBM - 17 set 09](https://reader034.vdocuments.mx/reader034/viewer/2022051412/54b777c34a795921738b4674/html5/thumbnails/32.jpg)
fine
mercoledì 16 settembre 2009