dicen tagging mars2010
TRANSCRIPT
Approche collaborative et assistée à l'enrichissement des folksonomies:
entre ergonomie et algorithmie
DICEN – Séminaire tagging & folksonomies – 26 mars 2010
Freddy Limpens, Edelweiss, INRIA [email protected]
Edelweiss
Objectifs
→ Ancrage dans un contexte d’usage
→ Synergie entre automatisme et contribution des utilisateurs
1. problématique
limites des folksonomies
Variation d'écriture des tags:
newyork = new_york
ademe = ADEME
musique = music
Ambiguité des tags:
RDF =? Ressource Description Framework
RDF =? Rwanda Defense Force
RDF =? Reality Distortion Field
Manque de liens sémantiques entre les tags:
Une ontologie = une vue sur le monde
Limites des ontologies:
→ coût d 'acquisition
→ intégrer toute l'expertise de la communauté
→ goulet d'étranglement à la formalisation
Scenario Ademe
→ ingénieurs experts : distribués
→ gestion documentaire : centralisée
Comment structurer folksonomie contrôlée en capturant un maximum de l’expertise ?
Scenario Ademe
Comment tirer partie de l’activité ?
→ documentalistes : structuration concertée d’une liste d’autorité
→ Ingé-experts : navigation dans la base documentaire
2. Notre approche
Exploiter :
→ dynamique et simplicité du social tagging
→ traitements automatiques sur les tags
→ expertises des utilisateurs
En proposant:
→ modèle supportant les divergences
→ cycle de vie s’appuyant sur une analyse des usages
→ interfaces ergonomiques pour faciliter la contribution
car pollutionskos:related
2.A Supporter les divergences
car pollutionskos:related
John
agrees
2.A Supporter les divergences
car pollutionskos:related
John
agrees
Paul
disagrees
2.A Supporter les divergences
2.A Supporter les divergences
2.A Supporter les divergences
2.A Supporter les divergences
2.B Cycle de vie de la folksonomie structurée
3. Combiner traitements auto& contributions des utilisateurs
→ Tags comme « candidats-concepts »
→ lien tag-ressource de type « is about »
Hypothèses et modèle de tagging
→ Evaluation des distances d’éditions*
→ Variations orthographique: pollution <-> pollutions
→ Hyponymes : pollution <-> pollution des sols
→ Termes associés : pollution <-> détection de polluants
*http://sourceforge.net/projects/simmetrics/
3.A analyse des labels de tags
3.A analyse des labels de tags
→ Jeu de test Ademe
→ 1 ensemble / type de relation
→2 types de métriques simples + combinées
Cas
Détecter related
→ MongeElkan_Soundex→ seuil 0.8 / rappel > 0.5
Cas
Distinguer spelling variant
→ Jaro-Winkler→ seuil > 0.9
Cas
Distinguer hyponymes
→ MongeElkan-QGram → différence entre d(t1,t2) et d(t2,t1) > 0.39
Cas
Méthode heuristique
→ confirme intuitions→ Nécessité d’autres méthodes
3.B analyse de la structure des folksonomies
→ Calcul de la similarité entre tags (Mika, 2005; Cattuto et al., 2008)
→ Différents contextes d’associationsressourcesutilisateurs taggings
3.B analyse de la structure des folksonomies
tag1 tag2 tag3
tag1 freq cooc cooc
tag2 cooc freq cooc
tag3 cooc cooc freq
tagstags
3.B analyse de la structure des folksonomies
Tag "Most related" tags
environnement développement_durable, énergie
environment france, green, ecology, sustainable, energy
déchets administration, EEDD, renouvelable
développementdurable ecologie , EEDD, france, climat ,imported
(données delicious.com)
3.B analyse de la structure des folksonomies
Calcul automatiques
3.C Contribution des utilisateurs
Interface d’édition(SRTags Editor)
3.C Contribution des utilisateurs
3.C Contribution des utilisateurs
3.C Contribution des utilisateurs
3.D Détection de conflits et vue consensuelle
3.D Détection de conflits et vue consensuelle
3.D Détection de conflits et vue consensuelle
3.E Combinaison des points de vue
Point de vue « consensuel » du ReferentUser
→ Sans conflits
→Utilisé par documentalistes pour maintenir un thésaurus
3.E Combinaison des points de vue
Points de vue individuels:
→ Coexistent même si divergents
→ Aide à former un point de vue consensuel
3.E Combinaison des points de vue
Règles de priorité pour une navigation cohérente:
4.Utilisateur courant5.ReferentUser6.ConflictSolver7.Autre utilisateur8.Automate
4. Conclusion
Nos contributions :
→ Système socio-technique ancré dans les usages
→ Modèle supportant les points de vue divergents (SRTag)
→ Complémentarité des traitements automatiques (labels + structure)
→ Combinaison des traitements auto + contribution des utilisateurs
→ Coexistence des points de vue + élaboration d’un point de vue consensuel
Travaux en cours et futurs
→ Amorçage : intégration ressources terminologiques (docs, ontologies, thesaurus, etc.)
→ Services "sémantiques« pour l’exploitation des données de tagging et de structuration sémantiques
→ ISICIL : Evaluation & Tests Ademe & Orange Labs
fin.