optimisez votre recherche d’information 13/03/2009 et ... · ‐186,7 millionsde sites web dans...
TRANSCRIPT
13/03/2009
1
Optimisez votre recherche d’information
et votre veille sur Internet
« Se faire battre est excusable, se faire surprendre est impardonnable »
N léNapoléon
Un service de démonstrations et de diffusion des usages TIC dans l’entreprise
L’Échangeur Bordeaux AquitaineAccélérer l’intégration des TIC dans les PME
usages TIC dans l entreprise
Un observatoire sur l’économie numérique en Aquitaine
Le référent régional « Passeport Numérique »
Le distributeur local des certificats de signature électronique Chambersign
Un service de visio‐conférence
13/03/2009
2
Internet une source incontournable
En décembre 2008, Internet comptait :
‐ 186,7 millions de sites Web dans le monde75 millions de noms de domaine correspondent à des sites actifs‐ 75 millions de noms de domaine correspondent à des sites actifs.
‐ La taille du Web mondial a été multipliée par 2,5 depuis décembre 2005.‐ En 2002, on comptait déjà 25 milliards de documents, 7,5 millions de nouvelles pages par jour, 150 terabytes d ’information , 690 milliards de pages dans l’ensemble des sites intranet.
‐ Google est le moteur de recherche le plus utilisé (87,5 % du trafic)‐77% des internautes affirment ainsi avoir recherché des informations pratiques au cours de 30 derniers jours, et 74% des informations en rapport avec l'actualité. La recherche d'informations liées à l'actualité est d'ailleurs en forte progression depuis 2 ans (+23 points) Ipsos 2008‐1,4 millions de recherches chaque minute dans le monde, soit un peu plus de 2 milliards de recherche
Netcraft 12/2008
chaque jour. (Comscore, 2007)‐ Été 2008, Google déclare que leurs machines qui crawlent le Web ont détecté mille milliards d’URL(1 trillon)
Une histoire vécue en images…
Votre supérieur vous donne … Un projet urgent
Vous avez besoin d’information
Vous avez besoin d’information pertinente
Source : http://www.enterprisesocialsearch.com/
13/03/2009
3
Où allez‐vous la trouver ?
Vous pouvez chercher sur le Web Aurez‐vous de la chance ?
Plus probablement, vous tomberez sur une montagne d’information…
Mais sera‐t‐elle pertinente ?
13/03/2009
4
Le Web ne connaît pas votre univers, votre projet, votre travail…
• Mondialisation des marchés• Concurrence accrue et internationale
Contexte
Constats
• Concurrence accrue et internationale• Augmentation exponentielle des sources d’information
Trop d’information tue l’informationBesoin d ’une meilleure réactivité pour une meilleure compétitivité
Conséquences
Besoin d une meilleure réactivité pour une meilleure compétitivitéBesoin d ’une méthodologie définie (identifier les sources, les
analyser, les diffuser)
13/03/2009
5
• La recherche d’information est une activité intellectuelle qui, pour donner des résultats intéressants, demande du temps.
Recherche / Veille
• Après avoir investi temps et énergie pour réaliser une bonne recherche documentaire, il est logique de vouloir être informé des nouvelles parutions pertinentes.
• La veille informationnelle est l’ensemble des stratégies mises en place pour rester informé, en y consacrant le moins d’effort possible en utilisant des processus de signalement automatisés.
• Avant : Il fallait penser à reprendre périodiquement ses recherches pour demeurer au courant des nouvelles parutions dans un domaine d’intérêt
Recherche / Veille
parutions dans un domaine d’intérêt.
• Aujourd’hui : Des évolutions technologiques permettent l’automatisation de plusieurs de ces opérations.
Deux méthodes sont possibles :
PULL : l’utilisateur va chercher les informationsPUSH : le service envoie l'information à l’utilisateur
13/03/2009
6
• Caractéristiques de l’information
• Les outils de recherche Web (pull)
Sommaire
• Annuaires• Moteurs • Meta‐moteurs
• Les outils de veille Web (push)• La newsletter• Les forums• Les communautés• Le Blog ou Weblog
L fil RSS• Les fils RSS• Les agrégateurs de contenu• les aspirateurs et agents intelligents
• Conclusion
Trois types d'information
•L'information blanche : ‐ Publique et accessible ne fait l'objet d'aucune sécurisation particulière
Aller chercher l'information
Publique et accessible, ne fait l objet d aucune sécurisation particulière ‐ Recherche "classique" dans les outils grands publics
•L'information griseNe fait pas l'objet de publicité, mais on peut la trouver de manière indirecte ou détournée ‐ Information sensible d'accès légalTechniques avancées de recherche et de traitement de l'information, groupe de discussion, liste de diffusion
•L'information noireFait l'objet d'une haute sécurisation ‐ Relève de l'espionnage industriel.
Il y a aussi la désinformation. En fait, pour le néophyte, sur Internet, il est quasiment impossible de bien distinguer le bon du mauvais.
13/03/2009
7
Fiabilité à vérifier
Un accès en consultation et en diffusion,
‐ il est parfois difficile de mesurer la pertinence et la crédibilité des informations.
Des risques de désinformation volontaire
‐ pratiquée par certains sites envers les technologies concurrentes
Des sites dont l'information n'est pas actualisée‐ des liens hypertextes non valides.‐ des pages datant parfois de plusieurs années
Le Processus de recherche d’information
Identifier le sujetIdentifier le sujet
Comment être efficace ?
Les mots clésLes mots clés
Les outilsLes outils
Identifier le sujetIdentifier le sujet
Préciser la recherchePréciser la recherche
Chercher et traiter Chercher et traiter l’informationl’information Les outilsLes outils
Identifier les pistes Identifier les pistes de recherchede recherche
l informationl information
13/03/2009
8
Les outils :deux approches de l’information
La recherche La recherche llll
La veille La veille é ié i
Annuaires
Moteurs de recherche
Lettres d’information
ponctuelleponctuelle stratégiquestratégique
Forums, Mailing list
Portails d’information Agrégateurs RSS
Agents intelligentsForums, Weblogs
Les principa o tils de recherche s r le eb
La recherche d’information
Les principaux outils de recherche sur le web
RSS
13/03/2009
9
Les annuaires
Yahoo : 150 000 sites français indexés
voilà : 70 000 it f i i d é
La recherche d’information (push)
voilà : 70 000 sites français indexésX annuaires et répertoires spécialisés (Viticulture, BTP, entreprises …)
Ils s’appuient sur une expertise humaine
Ils permettent de retrouver des sites
Ils ne sont pas exhaustifsIls ne sont pas exhaustifs
Ils s’utilisent pour une recherche sur un thème large
Constat« Googlelisation » de l’Internet87 % des internautes utilisent Google en recherche simple
Les MoteursTendance générale
Danger Google localise seulement 8 Milliards de pages ‐ sur 25 Milliards de pages visibles‐ sur 730 Milliards de pages invisibles
13/03/2009
10
Les Moteurs Sortir de la Googlelisation
- Utiliser plusieurs moteurs de recherche en parallèleExalead, Alltheweb, Altavista, Go, Google, Hotbot, Infotiger, Lycos, Reacteur, Teoma, Wisenut, Ujiko, Seekport etc.
- Utiliser la recherche avancée de moteurs
ExaleadExalead UjikoUjiko ZoomInfoZoomInfoSpockSpock123 people123 people
Maîtriser les meilleurs moteurs de recherche
Objectifs :• Détecter seulement les premières informations pertinentes
En résumé
p p
• Obtenir peu de réponses mais les « bonnes » réponses
Penser à • Lancer en parallèle plusieurs moteurs de recherche
• Utiliser les opérateurs booléens (les +), les guillemets, la troncature (*)
• Faire attention :aux accent, aux minuscules et aux majuscules, à l’ordreFaire attention :aux accent, aux minuscules et aux majuscules, à l ordredes mots
« Vous avez essayé. Vous avec échoué.Tant pis. Essayez de nouveau. Échouez encore. Échouez mieux. » Samuel Beckett
13/03/2009
11
A retenir : chaque moteur a...
Sa propre logique de parcours du réseau et de visites des sites
Les moteurs de recherche
Sa propre logique de parcours du réseau et de visites des sites
Des critères spécifiques d’indexation
Des critères d’interrogation plus ou moins puissants
Des critères d’affichage et de tris des réponses
Avantages : Recherche précise par mots clés et expressions, 1 clic pour
trouver une page
Limites : description précise des mots clés (unicité vectorielle) Volume d’information (8 milliards de pages)
• Une partie du web est non accessible aux moteurs parce que :
Les meilleurs moteurs n'indexent que 3 à 10% du web.
Le Web Invisible
moteurs parce que :
‐ les documents sont trop volumineux pour être entièrement indexés‐ des pages sont protégées par l'auteur
(balise qui stoppe le robot)‐ le format des documents n'est pas reconnu
par les moteurs (formulaires, réseaux…)‐les pages sont protégées par un identifiantles pages sont protégées par un identifiant
ou mot de passe
http://dadi.enssib.fr/ Wayback machine http://www.deeppeep.org
13/03/2009
12
Recherche par meta-index Les meta-moteurs
Vecteur i
I t t
Mot iVecteur i
Meta-moteurs*
Internaute
MoteursInternet
* : Elimine les références doubles
Ils interrogent en une fois différents outils de recherche pour fournir la réponse la plus exhaustive à une question. (liste de
Recherche par meta-index Les meta-moteurs
Les méta‐moteurs moteurs classiques
MetacrawlerCopernic
réponses issus de plusieurs moteurs)
Les méta‐moteurs moteurs « graphiques »
Kartoo
13/03/2009
13
Avantages
Recherche par meta-index Les meta-moteurs
Recherche sur plusieurs moteurs en même tempsVision rapide des résultats par moteurÉlimination des références doublesÉlimination des publicités
LimitesProfondeur des recherches (500 maxi/moteur)
Pause...
13/03/2009
14
L ill i t t
La veille sur internet (Push)
La veille sur internet
L’usager n’effectue plus de recherche et son rôle consiste
maintenant à évaluer l’information récupérée
• S’abonner• Elle est périodique
Les lettres d’information
La newsletter
• Elle est périodique• Elle fournit un titre et un résumé d’une information• On la reçoit sur sa messagerie (mail, téléphone portable, assistant personnel…)
newsletter Vitisphère
l tt Ci b tnewsletter Cimbat
13/03/2009
15
Ce sont des groupes de discussion organisés par thèmes.
Les forums
Le Web « informel » - Newsgroups
Ce so t des g oupes de d scuss o o ga sés pa t è es
Via un navigateur, l’utilisateur peut consulter des messages postés par d’autres utilisateurs, y répondre ou poster lui‐même de nouveaux messages.
Exemple :http://www.abondance.com
Annuaire :http://www.forumlinker.com/
Les communautés ou réseaux sociaux
Le Web « informel »
Communauté d'individus ou d'organisations en relationdirecte ou indirecte, rassemblée en fonction de centresd'intérêts communs.
LinkedIn, Viadeo, Facebook, Ecobiz
Exemple :http://bordeaux-ecobiz.biz
13/03/2009
16
Un mini site web dynamique très simple et interactif.
Se présente comme une succession de billets empilés ( titre+paragraphes)
Le Web « informel » Weblogs
Les blogs
Se présente comme une succession de billets empilés ( titre+paragraphes) Chaque fois qu’un article est publié, il apparaît automatiquement au sommet de la page. Les billets sont rangés dans des répertoires chronologiques et peuvent être associés à des catégories thématiques.
Il existe des blogs sur tout type de sujets, initialement destinés à un usage personnel, ils sont désormais très présents dans les milieux professionnels.
Exemple : http://www.demainlaveille.fr/
Exemple : Wine marketing
Exemple : BTP Perception
France60 % des chefs d’entreprises considèrent les blogs comme un élément clef de la constitution de l'opinion sur un produit, un service ou une entreprise.
Le Web « informel » Weblogs
p p , p21 % lisent au moins une fois par semaine des parutions dans des blogs relatifs à leur activité.
L ’Atelier BNP, 2007
13/03/2009
17
Les fils RSS
Ce sont des fichiers dynamiques qui synthétisent les dernières mises à jour d’un site web.
En s’abonnant au fil RSS d’un site, on reçoit les liens vers les nouveaux documents publiés sur ce site sans avoir besoin de le visiter.On parle alors de contenus syndiqués et plus généralement de syndication de contenus.Donc un fil RSS est un canal pour s'informer vite et bien sur des sujets spécifiques.
Exemple :Exemple :http://echangeurba.wordpress.comHttp://vitisphere.com
Les agrégateurs de contenu … pour une revue de presse personnalisée
Ce sont des sites qui permettent de visualiser dans une fenêtre unique un ensemble d'informations en provenance de différentes sources.un ensemble d informations en provenance de différentes sources.
Les agrégateurs en ligne ont l'avantage d'être accessibles de n'importe quel poste informatique.
Ces agrégateurs permettent aussi, la création de dossiers thématiques affinant ainsi le regroupement des fils comme on peut le faire avec les signets des sites Internet.
Exemple : NETVIBES
Flux RSS par métiers
13/03/2009
18
13/03/2009
19
Un fil RSS est un fichier texte au format XML contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information
Avantages‐ Informations accessibles de n'importe quel poste informatique
P t l t dé té t é l d l’i f ti
Les agrégateurs de contenu
‐ Permet une lecture déconnectée ou en temps réel de l’information‐ Mise en évidence des derniers articles et centralisation des sources.‐ La technique RSS rend impossible la diffusion de Spam.‐ On ne communique aucune donnée personnelle : anonymat.
Inconvénients‐ Un trop grand nombre de fils est impossible à traiter pour un humain.‐ Dans la pratique, dans la mesure où tous les sites Internet n'offrent p q ,pas ce service de syndication, il convient de suivre en sus les autres systèmes de veille ‐ Certains fils RSS ne donnent qu’une partie du contenu avec lien.
13/03/2009
20
La e-réputation
Des pistes pour contrôler l'e‐réputation de son entreprise
Google alertes Technorati
Des outils spécifiques
Ils peuvent :
Les agents intelligents
• envoyer la requête à plusieurs agents d’information et organiser les réponses.
• utiliser des outils statistiques ou linguistiques pour analyser l’information.
• aspirer des sites Web
• faire une veille spécialisée sur certains thèmes, en prévenant des éventuels changements...
13/03/2009
21
13/03/2009
22
13/03/2009
23
Fils RSS ou Agents intelligents
Quelque soit l’outil :
Soyez sélectifs, car à vouloir trop couvrir de sources, on finit par être inondé et on passe son temps à trier les résultats !
En conclusionMéthode de veille manuelle
Elaboration et mise en œuvre des méthodes :
1 Utiliser les recherches thématiques (annuaires)1 Utiliser les recherches thématiques (annuaires)Détecter les premiers sites classés par catégorie,Consulter les sites et déterminer les mots clés du domaine (fr/us),Construire ses profils de recherche (équations ou expressions)
2 Utiliser les moteurs de recherche Consulter en parallèle plusieurs moteurs,
3 Traiter les résultats3 Traiter les résultatsApprécier la fiabilité des sourcesSauvegarder le fichier,Sauvegarder le lien,Imprimer.
13/03/2009
24
Merci pour votre écouteet au plaisir de vous revoir
Bibliographie et sources ayant servi à cette présentation
- Le blog Demain La veille : www.demainlaveille.fr- Le blog ITLigencia : www.itligentia.com- Les fils RSS en documentation et veille : Université de Lyon- JP LARDY - RSS et blogosphère : Urfist Info- Le site ADBS (association des professionnels de l'information et de la
documentation) : www.adbs.fr
-Animation sur le process de recherche : http://www.enterprisesocialsearch.comI hi Pé él J li
Certains de ces slides et des images utilisées peuvent avoir été adaptés de présentations disponibles sur Internet, notamment sur le site Slideshare. Nous vous prions de nous excuser par avance si d’aventure leurs auteurs ne figuraient pas sur cette présentation à seul usage des entreprises participant à nos ateliers..
- Iconographie « pause » : Pénélope Jolicoeur