oe abes mai2008
DESCRIPTION
Folksonomies et indexation sociale : le monde comme catalogue. Intervention aux journées ABES. 21 Mai 2008TRANSCRIPT
Indexation sociale et folksonomies : le monde comme catalogue.
.Olivier ERTZSCHEID.
Maître de conférences en sciences de l’information
Université de Nantes / IUT La Roche sur Yon
http://www.affordance.info
Journées ABES. Montpellier. 20 et 21 Mai 2008
Le Pitch
• A l'heure du web 2.0, les technologies d'indexation sociale prennent de plus en plus de place dans le repérage, le classement, la hiérarchisation et l'accès à l'information et aux documents.
• Les pratiques professionnelles se dissolvent dans les usages amateurs.
• Quelles sont les frontières et les enjeux de cette nouvelle bibliothéconomie de masse pour la société de la connaissance ?
2
Demandez le programme
Chapitre 1er : Définitions & ExemplesChapitre 2nd : Folksonomistes : qui sont-ils ?Chapitre 3ième : Pourquoi ça marche ?Chapitre 4ème : Quelles pratiques ?Chapitre 5ème : Quel avenir ?Chapitre 6ème : Le monde comme pan-catalogue.
L’indexation sociale ou « Folksonomie »
Définitions & Exemples
« Ce n’est pas sale ! »
5
Définition
• « Folksonomies désignent – un processus de classification collaborative– par des mots-clés librement choisis– Ou le résultat de cette classification. » (Wikipédia)
6
≠ thesaurus
• « vocabulaire normalisé sur la base de termes génériques et de termes spécifiques à un domaine »
7
≠ ontologie
• « ensemble structuré de concepts. (…) • organisés dans un graphe (…) • relations sémantiques et de composition ou d'héritage. »
8
Folksonomie ≠ thesaurus ≠ ontologie
• « Folksonomies désignent – un processus de classification collaborative– par des mots-clés librement choisis– Ou le résultat de cette classification. »
• Vocabulaire non-normalisé, • non-structuré, • non-spécifique à un domaine, • sans relations sémantiques ou hiérarchiques.
9
Le petit folksonomiste illustré
Source : Agnès de Saxcé BBF 2007 - Paris, t. 52, n° 4. Compte-rendu du colloque évaluation et validation de l’information.
10
5 étapes d’indexation Web
<META>Communauté
de pratique
WebSémantique
FOLKSONOMIESCommunauté
D’usage
DUBLIN-COREOAI-PMH
Communauté Métier / Ressources
ONTOLOGIES Communauté compétences
(Outils + métier)
?
?
Standardisation
Linguistiquede corpus
GOOGLEPageRank
« Indexeurs sans le savoir »
11
12
13
Dél.icie.uses folksonomies
14
FolsonomiSTES
Martiens ? Visionnaires ?
Gourous ? Une secte ?
Indexeurs du troisième type ?
? Pour ou contre ?
Qui indexe ?
Usagers,Consommateurs,
Producteurs, Auteurs,Novices,Experts.
Textes
Docs de travail
Articles scientifiques
Billets de blogs
Photos
Vidéos
A moi
Aux autres
A la volée En surface
En profondeur (deep tagging) En connaissance de cause
Au hasardPour moi (tags privés)
Pour les autres (tags publics)
Organiser, Partager, Chercher, RetrouverAssocier,
« Participer »
Quoi ?
Pourquoi ? Comment ? 16
Digital Natives / Digital immigrantsLa loi de (rupert) Murdoch
• Sites pratiquant/proposant l’indexation sociale/communautaire sont – Majoritairement créés
par de jeunes entrepreneurs (start-up)
– Majoritairement utilisés par un public « jeune »
– Majoritairement rachetés par des « digital immigrants »
17
? Avantages = Inconvénients ?
• Indexation humaine, à la volée, instantanée, cumulative, simple, rapide, gratuite
• Intérêt d’un filtrage collaboratif• gain de temps, gain d’échelle, économie d’expertise (masse critique des indexeurs)
… • Couverture documentaire totale (documents, livres, photos, couriels, cartes
géographiques …)• Conforme aux usages (onebox, oneword)
• Trop simple, trop peu d’expertise, trop d’hétérogénéité • Confusion entretenue entre pertinence (autorité) et popularité
(photos les plus vues les plus tagguées et réciproquement)• polysémie, synonymie, lemmatisation, orthographe, langue,
redondance, univers de référence (« peinture » et/ou « louvre », etc.)
• = Méta-bruit
18
? Avantages = Inconvénients ?
• « Folksonomist are confusing cataloging structure with personal opinions (…). These are not the same thing and they need to be separated. »
• Non. Ils se servent (à dessein) de leurs opinions personnels comme d’une structure d’indexation.
• Sur le processus de classification : oui, sont plus floues, plus polysémiques, plus imprécises.
• Mais sur les objets ? – Qui va se lancer dans une entreprise de classification
aristotélicienne des photos de vacances de 100 000 personnes sur FlickR ?
– Doit-on décider qu’elles sont inclassables ??
19
Pourquoi ça marche ??
« Si l'on tague "A la recherche du temps perdu", dans son édition de 1947 en 15 volumes (disponible en téléchargement ici), on trouve 442 occurrences du prénom "Odette" sur les quelques 5000 pages de l'ouvrage. Et pourtant Proust ne l'a pas appelé "A la recherche d'Odette ». (à noter qu'on ne trouve que 24 "madeleine"). Comme quoi les tags c'est de la merde. Et les taguers des branleurs. »
Commentaire d’un billet publié sur Embruns.net (blog de Laurent Gloaguen)
Une image vaut 1000
mots (clés ?)
Graphic by Elliancet in Search Engine Land.
21
Les raisons du succès
1. Temporalité réunifiée entre interface et indexation2. La fonction symbolique plutôt que la vocation analytique.3. Sagesse des foules4. Auto-régulation5. Faible coût cognitif6. (enfin une) Indexation orientée-tâche
1 2 3 4 5 6
22
Les raisons du succès (1/5) : Une temporalité (ré?)unifiée entre interface et indexation
• Temps consultation ≈ temps de l’accès ≈ temps de l’indexation• Micro-temporalités successives, parfois simultanées, jamais contraintes,
sans préalables.
• Langages documentaires & formels (Thésaurus & ontologies) pour l’accès à l’information :
– Interfaces asynchrones.– Nbre textes > nbre d’indexeur = temporalité interfaçage longue– Acculturation difficile
• Folksonomies – Interface synchrone. Le temps de l’indexation est le même que celui de l’accès et du
repérage.– Nbre documents < = nbre d’indexeurs = temporalité interfaçage courte (simultanée)– Acculturation a priori.
23
Les raisons du succès (2/5) : La fonction symbolique plutôt que la vocation analytique.
• Vocation analytique des langages documentaires & formels : – classer physiquement et/ou conceptuellement selon la nature de
l’objet– Univers de référence « construit » par l’indexeur, l’expert et l’état des
connaissances au moment de l’indexation– Approche « objective », logique ou logiciste
• Fonction symbolique Folksonomies : – Repérer sémantiquement pour accéder et/ou représenter l’objet.– Univers de référence induit par l’objet lui-même et le rapport
objet/indexeur (affordance)– Approche « subjective », empirique, « essai et erreur »
24
Les raisons du succès (3/5) : la sagesse des foules
• « (…) N'importe qui peut déposer n'importe quel tag sur n'importe quelle photo. Mais - et c'est la clé - Flickr offre un retour sur les tags les plus utilisés et les plus populaires, et les gens souhaitant attirer l'attention sur leurs photos (...) apprennent rapidement à utiliser ce lexique si celui-ci fait sens. Cela rend le système étonnamment stable. Del.icio.us fait la même chose. Le succès de Google pour rendre les recherches plus pertinentes reposait sur la puissance de cette sagesse populaire (PageRank)... » Adam Bosworth, VP ingénierie chez Google.
• Postule l’existence pour tout élément donné (texte, image, document) d’une série de mots et termes composant le plus petit lexique commun (concensus) permettant de décrire l'objet ou le document.
25
Les raisons du succès (4/5) : un faible coût cognitif
• Marquage élimine la phase de décision (choix de la bonne catégorie)
• Dissipe la phase de paralysie d’analyse (choix du mot-clé)• Permet l’ancrage en contexte socio-cognitif immédiat.
– Google image labeller : http://images.google.com/imagelabeler/
• Hiérarchie centrée document VS anarchie centrée utilisateur MAIS …• Confirmation de l’axiomatique du memex :
– « human mind doesn’t work that way »– « association »
26
Les raisons du succès (5/5) : Auto-régulation ?
• Golder Scott A. & Huberman Bernardo A., « The Structure of Collaborative Tagging Systems », Information Dynamics Lab, HP Labs , 2005.
• Méthodologie– Site Del.icio.us sur une période donnée (5 jours)– Corpus :
• Les plus populaires (212 URL présents dans 19422 signets)• Échantillon aléatoire de 229 usagers ayant partagé durant
période test + tous leurs signets y compris hors-période (68 668 signets)
27
Les lois folksonomiques
• Loi de caractérisation– 7 types de tags : Thématiques (orientés sujet) / Nature de
l’objet (article, blog, livre) / Propriétaire (auteur du signet) / adjectifs de caractérisation (drôle, stupide, horreur) / auto-référence (messignets, monnom …) / orientés tâche (à lire, recherche d‘emploi)
• Loi de partage– Plus on possède (= partage), plus on taggue (avec fortes
variations selon individus)• Loi de Feedback positif
– Motifs stables dans la proportion et le choix des tags.– Plus une ressource est partagée, plus le nombre de tags la
décrivant se stabilise ainsi que leur nature.
28
Folksonomies & Pratiques
Librarything : la communauté comme indexeur
Site communautaire à vocation bibliothéconomique : www.librarything.comFévrier 2006: 1.5 millions de références => Juin 2006: 3.2 millions => Nov 2006: 6.2 millions => Juin 2007 : 14 millions => Mai 2008 : 26 Millions
Le meilleur des deux mondes ?
• Indexation « standard » : – notice au format MARC, – indexation DEWEY, – LC « subjects headings »,
• Indexation sociale : – tags associés, – fiches de lecture et revues de la
communauté, – système de recommandation
31
Modèle collaboratif, auto-régul, ouvert en lecture et en écriture, « Amazon-ifié », « OPAC-ifié »
Les musées … aussi !
• Metropolitan Museum of Art indique que :– "sur 30 oeuvres d'art indexées par les
usagers, plus de 80% des tags ne figuraient pas dans le vocabulaire documentaire utilisé par le musée."
• Outil collaboratif de tagging à destination des musées– http://www.steve.museum/
« Nécessité fait loi. »
32
Les musées … aussi !
• Musée McCord de Montréal.
• Usagers créent et ajoutent : – des tags pour annoter
les fonds existants, – des commentaires, – des images
personnelles,– Peuvent visionner
l'ensemble des "circuits publics".
« Nécessité fait loi. »
33
Les bases de données scientifiques … aussi !!
hubmed.org 34
Le catalogue … aussi !! http://orlabs.oclc.org/Identities
35
Le moteurs … aussi !!!
• Plusieurs « écoles »– Moteurs dédiés (technorati.com)– Fonctionnalité intégrée (MyYahoo)– Illusion folksonomique (cloud.clusty.com)
36
Les communautés scientifiques : aussi !!!
• Postgenomic.com, CiteUlike (Repérage de signets IST) …• Folksonomies présentes partout : accès, repérage, commentaire.37
Et les bibliothèques ? Aussi !• Bibliothèque & Catalogue http://tags.library.upenn.edu/• Intégration dans SIGB (open source ou propriétaires) : Étagères virtuelles de PMB
Rapport Calhoun pour la LoC (Mars 2006)Déclencheur pour le monde des bibliothèques
www.loc.gov/catdir/calhoun-report-final.pdf
38
Et les bibliothèques ? Aussi !!
• Library of Congress sur FlickR :– http://flickr.com/photos/library_of_congress/
• Boston Public Library sur FlickR : – http://flickr.com/photos/boston_public_library/
• Pourquoi ?– « Pour partager ces collections photographiques avec ceux qui
ne visitent pas notre site– Pour mieux comprendre en quoi l'indexation sociale pour nous
apporter des idées d'amélioration de nos services et de nos fonds
– Pour accroître notre expérience et notre implication dans des communautés web partageant des centres d'intérêts communs avec les collections de bibliothèques. »
• Source : http://www.loc.gov/rr/print/flickr_pilot_faq.html
• RÉSULTAT ??
39
Résultat …
• 392,000 views on the photostream• 650,000 views of photos• Adding in set and collection page views, there were
about 1.1 million total views on our account• All 3,100+ photos have been viewed• 420 of the photos have comments• 1,200 of the photos have been favorited
40
En une nuit !!http://www.loc.gov/blog/?p=237
http://flickr.com/photos/library_of_congress/alltags/
41
42
C’est déjà demain
Où comment
« concilier l’inconciliable » ?
43
Intérêt « fusionnel »
• Exporter …• Vers un site collaboratif
communautaire (del.icio.us)
• Des (méta)données documentaires (HubMed)
• Fertilisation croisée• Ouverture des
catalogues http://hublog.hubmed.org/
44
L’hybridation comme modèle ?
• Amazon : Amapedia • « Collaborative structured tagging »• Tags factuels
– TagFactuel : valeur1, Valeur2, Valeur3 ...
• Tags catégoriels– Relation « is a »– Relation « like … »– Relation « partage des attributs
essentiels »
45
Vers des modèles hybrides
• FlickR (& bientôt) Del.icio.us : « Machine Tags »
• Nom : attribut = valeur.
• flickr:user=straup• flora:tree=coniferous• medium:paint=oil• geo:cartier="plateau mont royal"• geo:neighbourhood=geo:cartier
46
Quel avenir ?
Penser une bibliothéconomie « à l’échelle » des transformations en
cours, et « en mouvement ».
Une bibliothéconomie de masse.
47
Quels mouvements ?
Tectonique documentaire :
Cinq continents réunifiés
48
Dérive des continents documentaires : le monde comme Pan-catalogue
1995
2005
2015 ?
Web public
Web privéWeb personnel
(Desktop)Web intime
(Mail)
Web public Web privé
Web personnel(Desktop)
Web intime(Mail)
Web extime(blogs)
Web public Web privé
Web personnel(Desktop)
Web intime(Mail)
Web extime(blogs)
? Pourquoi ?
indexénon-indexé
49
Quelle échelle ?
Celle des nouvelles cultures, des nouvelles pratiques, des nouveaux
besoins des natifs digitaux
50
Bouillon de cultures
• Culture du fragment : Homogénéisation des savoirs• Culture de l’accès : Économie de l’attention• Culture du service, de la proximité, du « service de proximité »
• Librairie, bibliothèque, pizzéria « près de chez vous » : « caRtalogue »
• Culture de « l’économie »– d’expertise (sagesse des foules)– de temps (immédiateté)– d’argent (culture du gratuit)
• Culture de l’ouverture : Open Access, Open Archives, Open Office, Open Data …
• Culture de la synchronicité1. Accès, repérage, recherche, certification, indexation,
navigation, partage
51
Réflexion sur « l’offre » documentaireDoit intégrer cette économie de la demande
Quelles transformations ?
Celle des pratiques
52
Confusion des pratiques ?
chercher communiquer Tagger / indexerorganisers’orienter partager
talk
earth
printorkut
API’s
Web/documenet public
Web/document`privé
Web personnel(Desktop)
Web intime(Mail)
Web extime(blogs)
53
Mathématiques bibliothéconomiques
• Années 90 : industrialisation de l’indexation (moteurs de recherche)
• Années 2000 : marchandisation de l’indexation (liens sponsorisés)
• Aujourd’hui : « indexabilité » de l’actuelle masse documentaire :
– Totale : nos mails, nos documents de travail, nos « recherches », nos amis, nos préférences sexuelles, politiques, religieuses …
– En temps réel : à la volée
– Transparente : visible par tous (surtout par les moteurs) et de partout (interopérabilité)
• Bibliothéconomie de masse = industrialisation + marchandisation + indexabilité
• Horizon de l’indexation :
– Question n’est plus celle de l’autorité (qui a autorité pour indexer)
– ni même de l’expertise (qui a compétence pour indexer)
– mais celle de l’usage (qui a besoin d’indexer)
• IL EST URGENT DE SE SAISIR DE CES OUTILS !
54
Il y a urgence. ? Sinon ?
Modèle marchand de la bib.
55
Autarcithécaires
Bibliothèques ?
Conclusion …
• «It is neither Pandora’s box not panacea. Social tagging highlights the interstices of authorship, intertextuality, and context in indexing, and asks us to fill in the gaps. It is a catalyst for improvement and innovation in indexing. » – Joseph T. Tennis. Social tagging and the next stpe for
indexing. 17th SIG/CR Classification Research Workshop, Novembre 4, 2006.
• La communauté comme indexeur a son rôle à jouer.• Pour aller vers un juste milieu entre folksonomie
débridée et rigidité taxonomique
56
… M
eRci …
? QuEsTioNs ?
? QuEsTioNs ?
57