exploring social annotations for information retrieval
DESCRIPTION
David COLL Université de Genève 19 novembre 2008. Exploring Social Annotations for Information Retrieval. Présentation. Recherche faites en 2006, Article présenté en 2008 lors de l’ International World Wide Web Conference , Beijing. Durant la session sur les réseaux sociaux. - PowerPoint PPT PresentationTRANSCRIPT
David COLL
Université de Genève19 novembre 2008
Présentation Recherche faites en 2006, Article présenté en 2008 lors de
l’International World Wide Web Conference, Beijing.Durant la session sur les réseaux sociaux.
Par un collectif de recherche : ZHOU Ding : chercheur pour le compte de
Facebooket al. : chercheurs dans les universités de
Pennsylvania et de Georgia, US.
Exposé de l’articleExploring / social annotations / for / information retrieval
L’objet est de quantifier les méthodes employées pour la recherche d’information (ie. Google, search input dédié, etc.)
L’article se veut exploratoire : Tests des méthodes dominantes
Word-level language model probability Topic-level language model probability (LDA, Latent Dirichlet Allocation, EM-RI)
○ Qui sont aussi les prémisses de la recherche dites sémantique Propose d’étendre les modèles dominants à l’aide des annotations
sociales Issue de la folksonomy
Débouche sur :Proposition d’une méthodologie pour inclure les annotations sociales
Modèles employés (1)
Certains concepts fondamentaux sous-tendent la méthodologie présentée :
Les modèles de langageLemmes associés à une page/site/user et
composant son lexique de façon heuristique et probabiliste
Forme des matrices probabilistesDifférents niveaux (de complexité)…Topic vs word-level – probabilité associée et
lambda/valeur attribuée
Modèles employés (2) Pour la construction des modèles de
langage, usage des modèles :Topic/Sujet = word-centric modelUser/utilisateur = word & topic-centric model
Approche classique de la recherche d’information Modèle de langage word-level d’un
document vs requête Documents avec score de probabilité le
plus élevé sortent en premier (parfois appelé pertinence/relevance)
Approche sémantique – usage & création de topic Un algorithme
beaucoup plus complexe
Usage de chaîne de Markov (probabilité) pour former des groupes de termes depuis un échantillon de documents.
Approche sémantique – usage des topics/sujets
Différents usages des topics Un document appartient plus ou moins à une
série de topics selon son contenu1. Selon l’appartenance d’un document, il a une
probabilité de contenir les termes du topic : Méthode EM-IR (article paru en 2006)Donc, une requête contenant un terme d’un topic
donnera un score à un document même s’il ne contient pas ce terme.
2. Chaque document à une probabilité d’appartenir à un topic P(t|doc). Selon la requête, qui a des termes dans un topic t,
on donne un score au document en fonction de sa probabilité P(t|doc).
Variations de l’importance du topic On calcule le score d’un document selon
2 valeurs : Word-level et Topic-level
P(Word-level) + P(Topic-level) * λ1= score
Ajout au modèle (1)
Utilisation des annotations sociales Quel niveaux/valeur :
Une annotation = un mot supplémentaire dans le modèle de langage ?
Une annotation = un topic supplémentaire dans le modèle de langage du document ?
Ajout au modèle (2) Utilisation de l’expertise des utilisateurs
Chaque user n’a pas les mêmes intérêts, donc n’est pas forcément apte à noter certains champs (topic)
Chaque user annote une quantité particulière de document, dans certains champs
Permet de postuler une expertise, un niveau de confiance, différent à chaque utilisateur.
Cette expertise fera varier la valeur associé au tag.
Seul le cas d’une annotation élevée au rang de topic à été testé.
Méthodologie
Afin de créer les différents modèles de langage des documents et des topics
84 961 URL accumulés depuis Mai 1995,
dont 34 530 encore valides, 9070 utilisateurs différents, 62 007 annotations différentes.
Outils employés
Delicious et son fameux système d’annotations sociales
Expérience 5 mots sélectionnés au hasard dans la banque
de données générée. Recherche faites en utilisant les différentes
approches de création de modèle de langage. 10 résultats par recherche. Test inter-juge où chaque juge donne une
note de 0 à 3 ( 0 = pauvre, 3 = parfait) selon la qualité du document proposé en fonction de la requête.
Score moyen selon les jugements standardisé sur une échelle de 0 à 10
Résultats 1. Word-level LM on content (W-QD)
2. EM-based information retrieval (EM-IR)
3. Word-level LM on content and annotations (W-QDA)
4. Word-level LM + LDA on content and annotations (WT-LDA)
5. Word-level LM + Topic-level LM (WT-QDA)
6. Word-level LM + Topic-level LM on document and users (WT-QDAU)
7. Word-level LM + Topic-level LM on document, and users with differentiation (WT-QDAU+)
Résultats Word-level LM on content (W-QD) < EM-based information retrieval (EM-IR) < Word-level LM on content and annotations (W-
QDA) < Word-level LM + LDA on content and
annotations (WT-LDA) < Word-level LM + Topic-level LM (WT-QDA) < Word-level LM + Topic-level LM on document
and users (WT-QDAU) < Word-level LM + Topic-level LM on document,
and users with differentiation (WT-QDAU+)
Conclusion sur les résultats Ceux qui sont intéressants et porteurs
de sens:L’utilisation d’un topic-level dans la
recherche d’information améliore énormément la qualité du résultat○ Jusqu’à un certain point, lambda 0.2 est le top
(dans ce modèle)L’intégration de l’expertise des utilisateurs-
tageurs améliore la qualité du résultat
Discussion sur ces résultats De la folksonomy ? Ok, mais est-ce que c'est vraiment utile ?
Réponse : Oui, la réponse est ici (tableau) Universelle ou socialement restreinte à un groupe ? Dans quelle mesure peut-on
l'utiliser de manière plus universelle ? La question demeure car cela demande la création de matrices extrêmement complexe et
d’algorithmes « perpétuels », donc difficile de savoir comment l’optimiser pour un web entier.
On ne peut annoter socialement tous les sites/pages…… Quelles méthodes employer pour rechercher des informations pertinentes ?
Éternelle question Que propose cette recherche ?
Déjà, que la recherche d’information selon des aspects sémantique est plus adaptée que la recherche d’info basé sur un modèle de langage uniquement heuristique.
Que l’intégration des annotations sociales dans les algorithmes des moteurs de recherche est favorable à l’amélioration de la qualité des recherches d’informations.
Maintenant, je vous laisse réfléchir aux moyens que cela exige de mettre en place pour utiliser ces compétences utilisateurs……
Pour rajouter une couche…Ce que je n’ai pas bien saisi La distinction qui est faite entre latent et
observé (observed) dans le cas des « users or sources of the tags and documents »
Rapport avec le nombre minimal de
topics nécessaires à une requête
Merci de votre attention