dicen tagging mars2010

Approche collaborative et assistée à l'enrichissement des folksonomies:

entre ergonomie et algorithmie

DICEN – Séminaire tagging & folksonomies – 26 mars 2010

Freddy Limpens, Edelweiss, INRIA [email protected]

Edelweiss

http://www.inria.fr/sophia

Objectifs

→ Ancrage dans un contexte d’usage

→ Synergie entre automatisme et contribution des utilisateurs

1. problématique

limites des folksonomies

Variation d'écriture des tags:

newyork = new_york

ademe = ADEME

musique = music

Ambiguité des tags:

RDF =? Ressource Description Framework

RDF =? Rwanda Defense Force

RDF =? Reality Distortion Field

Manque de liens sémantiques entre les tags:

Une ontologie = une vue sur le monde

Limites des ontologies:

→ coût d 'acquisition

→ intégrer toute l'expertise de la communauté

→ goulet d'étranglement à la formalisation

Scenario Ademe

→ ingénieurs experts : distribués

→ gestion documentaire : centralisée

Comment structurer folksonomie contrôlée en capturant un maximum de l’expertise ?

Scenario Ademe

Comment tirer partie de l’activité ?

→ documentalistes : structuration concertée d’une liste d’autorité

→ Ingé-experts : navigation dans la base documentaire

2. Notre approche

Exploiter :

→ dynamique et simplicité du social tagging

→ traitements automatiques sur les tags

→ expertises des utilisateurs

En proposant:

→ modèle supportant les divergences

→ cycle de vie s’appuyant sur une analyse des usages

→ interfaces ergonomiques pour faciliter la contribution

car pollutionskos:related

2.A Supporter les divergences


John

agrees



John

agrees

Paul

disagrees


2.B Cycle de vie de la folksonomie structurée

3. Combiner traitements auto& contributions des utilisateurs

→ Tags comme « candidats-concepts »

→ lien tag-ressource de type « is about »

Hypothèses et modèle de tagging

→ Evaluation des distances d’éditions*

→ Variations orthographique: pollution <-> pollutions

→ Hyponymes : pollution <-> pollution des sols

→ Termes associés : pollution <-> détection de polluants

*http://sourceforge.net/projects/simmetrics/

3.A analyse des labels de tags

3.A analyse des labels de tags

→ Jeu de test Ademe

→ 1 ensemble / type de relation

→2 types de métriques simples + combinées

Cas

Détecter related

→ MongeElkan_Soundex→ seuil 0.8 / rappel > 0.5

Cas

Distinguer spelling variant

→ Jaro-Winkler→ seuil > 0.9

Cas

Distinguer hyponymes

→ MongeElkan-QGram → différence entre d(t1,t2) et d(t2,t1) > 0.39

Cas

Méthode heuristique

→ confirme intuitions→ Nécessité d’autres méthodes

3.B analyse de la structure des folksonomies

→ Calcul de la similarité entre tags (Mika, 2005; Cattuto et al., 2008)

→ Différents contextes d’associationsressourcesutilisateurs taggings


tag1 tag2 tag3

tag1 freq cooc cooc

tag2 cooc freq cooc

tag3 cooc cooc freq

tagstags


Tag "Most related" tags

environnement développement_durable, énergie

environment france, green, ecology, sustainable, energy

déchets administration, EEDD, renouvelable

développementdurable ecologie , EEDD, france, climat ,imported

(données delicious.com)


Calcul automatiques

3.C Contribution des utilisateurs

Interface d’édition(SRTags Editor)


3.D Détection de conflits et vue consensuelle

3.E Combinaison des points de vue

Point de vue « consensuel » du ReferentUser

→ Sans conflits

→Utilisé par documentalistes pour maintenir un thésaurus


Points de vue individuels:

→ Coexistent même si divergents

→ Aide à former un point de vue consensuel


Règles de priorité pour une navigation cohérente:

4.Utilisateur courant5.ReferentUser6.ConflictSolver7.Autre utilisateur8.Automate

4. Conclusion

Nos contributions :

→ Système socio-technique ancré dans les usages

→ Modèle supportant les points de vue divergents (SRTag)

→ Complémentarité des traitements automatiques (labels + structure)

→ Combinaison des traitements auto + contribution des utilisateurs

→ Coexistence des points de vue + élaboration d’un point de vue consensuel

Travaux en cours et futurs

→ Amorçage : intégration ressources terminologiques (docs, ontologies, thesaurus, etc.)

→ Services "sémantiques« pour l’exploitation des données de tagging et de structuration sémantiques

→ ISICIL : Evaluation & Tests Ademe & Orange Labs

fin.

[email protected]

dicen tagging mars2010

Documents