exploring social annotations for information retrieval

David COLL

Université de Genève19 novembre 2008

Présentation Recherche faites en 2006, Article présenté en 2008 lors de

l’International World Wide Web Conference, Beijing.Durant la session sur les réseaux sociaux.

Par un collectif de recherche : ZHOU Ding : chercheur pour le compte de

Facebooket al. : chercheurs dans les universités de

Pennsylvania et de Georgia, US.

Exposé de l’articleExploring / social annotations / for / information retrieval

L’objet est de quantifier les méthodes employées pour la recherche d’information (ie. Google, search input dédié, etc.)

L’article se veut exploratoire : Tests des méthodes dominantes

Word-level language model probability Topic-level language model probability (LDA, Latent Dirichlet Allocation, EM-RI)

○ Qui sont aussi les prémisses de la recherche dites sémantique Propose d’étendre les modèles dominants à l’aide des annotations

sociales Issue de la folksonomy

Débouche sur :Proposition d’une méthodologie pour inclure les annotations sociales

Modèles employés (1)

Certains concepts fondamentaux sous-tendent la méthodologie présentée :

Les modèles de langageLemmes associés à une page/site/user et

composant son lexique de façon heuristique et probabiliste

Forme des matrices probabilistesDifférents niveaux (de complexité)…Topic vs word-level – probabilité associée et

lambda/valeur attribuée

Modèles employés (2) Pour la construction des modèles de

langage, usage des modèles :Topic/Sujet = word-centric modelUser/utilisateur = word & topic-centric model

Approche classique de la recherche d’information Modèle de langage word-level d’un

document vs requête Documents avec score de probabilité le

plus élevé sortent en premier (parfois appelé pertinence/relevance)

Approche sémantique – usage & création de topic Un algorithme

beaucoup plus complexe

Usage de chaîne de Markov (probabilité) pour former des groupes de termes depuis un échantillon de documents.

Approche sémantique – usage des topics/sujets

Différents usages des topics Un document appartient plus ou moins à une

série de topics selon son contenu1. Selon l’appartenance d’un document, il a une

probabilité de contenir les termes du topic : Méthode EM-IR (article paru en 2006)Donc, une requête contenant un terme d’un topic

donnera un score à un document même s’il ne contient pas ce terme.

2. Chaque document à une probabilité d’appartenir à un topic P(t|doc). Selon la requête, qui a des termes dans un topic t,

on donne un score au document en fonction de sa probabilité P(t|doc).

Variations de l’importance du topic On calcule le score d’un document selon

2 valeurs : Word-level et Topic-level

P(Word-level) + P(Topic-level) * λ1= score

Ajout au modèle (1)

Utilisation des annotations sociales Quel niveaux/valeur :

Une annotation = un mot supplémentaire dans le modèle de langage ?

Une annotation = un topic supplémentaire dans le modèle de langage du document ?

Ajout au modèle (2) Utilisation de l’expertise des utilisateurs

Chaque user n’a pas les mêmes intérêts, donc n’est pas forcément apte à noter certains champs (topic)

Chaque user annote une quantité particulière de document, dans certains champs

Permet de postuler une expertise, un niveau de confiance, différent à chaque utilisateur.

Cette expertise fera varier la valeur associé au tag.

Seul le cas d’une annotation élevée au rang de topic à été testé.

Méthodologie

Afin de créer les différents modèles de langage des documents et des topics

84 961 URL accumulés depuis Mai 1995,

dont 34 530 encore valides, 9070 utilisateurs différents, 62 007 annotations différentes.

Outils employés

Delicious et son fameux système d’annotations sociales

Expérience 5 mots sélectionnés au hasard dans la banque

de données générée. Recherche faites en utilisant les différentes

approches de création de modèle de langage. 10 résultats par recherche. Test inter-juge où chaque juge donne une

note de 0 à 3 ( 0 = pauvre, 3 = parfait) selon la qualité du document proposé en fonction de la requête.

Score moyen selon les jugements standardisé sur une échelle de 0 à 10

Résultats 1. Word-level LM on content (W-QD)

2. EM-based information retrieval (EM-IR)

3. Word-level LM on content and annotations (W-QDA)

4. Word-level LM + LDA on content and annotations (WT-LDA)

5. Word-level LM + Topic-level LM (WT-QDA)

6. Word-level LM + Topic-level LM on document and users (WT-QDAU)

7. Word-level LM + Topic-level LM on document, and users with differentiation (WT-QDAU+)

Résultats Word-level LM on content (W-QD) < EM-based information retrieval (EM-IR) < Word-level LM on content and annotations (W-

QDA) < Word-level LM + LDA on content and

annotations (WT-LDA) < Word-level LM + Topic-level LM (WT-QDA) < Word-level LM + Topic-level LM on document

and users (WT-QDAU) < Word-level LM + Topic-level LM on document,

and users with differentiation (WT-QDAU+)

Conclusion sur les résultats Ceux qui sont intéressants et porteurs

de sens:L’utilisation d’un topic-level dans la

recherche d’information améliore énormément la qualité du résultat○ Jusqu’à un certain point, lambda 0.2 est le top

(dans ce modèle)L’intégration de l’expertise des utilisateurs-

tageurs améliore la qualité du résultat

Discussion sur ces résultats De la folksonomy ? Ok, mais est-ce que c'est vraiment utile ?

Réponse : Oui, la réponse est ici (tableau) Universelle ou socialement restreinte à un groupe ? Dans quelle mesure peut-on

l'utiliser de manière plus universelle ? La question demeure car cela demande la création de matrices extrêmement complexe et

d’algorithmes « perpétuels », donc difficile de savoir comment l’optimiser pour un web entier.

On ne peut annoter socialement tous les sites/pages…… Quelles méthodes employer pour rechercher des informations pertinentes ?

Éternelle question Que propose cette recherche ?

Déjà, que la recherche d’information selon des aspects sémantique est plus adaptée que la recherche d’info basé sur un modèle de langage uniquement heuristique.

Que l’intégration des annotations sociales dans les algorithmes des moteurs de recherche est favorable à l’amélioration de la qualité des recherches d’informations.

Maintenant, je vous laisse réfléchir aux moyens que cela exige de mettre en place pour utiliser ces compétences utilisateurs……

Pour rajouter une couche…Ce que je n’ai pas bien saisi La distinction qui est faite entre latent et

observé (observed) dans le cas des « users or sources of the tags and documents »

Rapport avec le nombre minimal de

topics nécessaires à une requête

Merci de votre attention