cours 1 les moteurs de recherche - unige.ch · • comment faire une recherche sur le web? pour en...
TRANSCRIPT
1
Cours 1Les moteurs de recherche
2
Introduction
Internet renferme des réponses à la plupart de vos questions.
Un des problèmes est cependant de savoir comment trouver ces réponses dans la masse d'informations disponibles (20 millions de sites en 2000; 320 millions de pages en 1998; 2,5 milliards de pages en 2000).
Le but de ce premier module sera de vous montrer comment utiliser un moteur de recherche pour trouver l'information pertinente.
3
Table de matière
• Définition des moteurs de recherche et ses différentes fonctions.
• Les trois moteurs principaux
• Classification des moteurs
• Comment faire une recherche sur le web?
Pour en savoir plus sur les moteurs de recherche
• http://www.searchenginewatch.com/
• http://www.multimania.com/soshg/unmoteur.htm
4
Moteur de recherche
Logiciel capable d'identifier les pages correspondant à vos critères de recherche, par exemple toutes les pages qui traiteraient de la traduction automatique.
Double fonction :
• d'enregistrement (ou d'input) : caractérisation du contenu des documents (ou indexation) ;
• d'exploitation (ou d'output) : recherche et fourniture des documents pertinents suivant leur pertinence
5
Fonction d'enregistrement (ou d'indexation)
Avec les centaines de pages stockées partout dans le monde, comment le moteur parvient-il à localiser une information ? Le moteur de recherche utilise généralement un robot (araignée)
• qui va se promener sur les différentes pages,• trouve de quoi parle le document• et crée un index qui fait le lien entre les informations
contenues dans la page et la page elle-même :
Clinton page x, y, z, ...
Fonction d'expoitation
Etant donné un critère de recherche, retrouver dans l'index toutes les pages pertinentes qui y correspondent.
6
Indexation automatique
Différentes manières de caractériser le contenu d'un document, mais la plupart des systèmes vont utiliser la méthode d'indexation par mots simples
= caractérisation d'un texte par tous les mots du texte ou uniquement ceux qui ont une signification propre (les noms, verbes, adjectifs vs (prépositions), articles, conjonctions, etc.).
7
Méthode (simplifiée)
• Construire un anti-dictionnaire de mots-vides ;
• Ecarter tous les mots vides du texte à indexer ;
• Extraire tous les autres mots du texte, dans la langue ou sous la forme où ils se trouvent et les ajouter ds l'index.
8
Indexation automatique par mots
Page 1
La cour de justice européenne a annulé, pour vice de forme, la directive communautaire interdisant l'usage des hormones dans l´élevage bovin
→ cour/justice/européenne/annulé/pour/vice/forme/directive/communautaire/interdisant/usage/hormones/dans/élevage/bovin
Index
cour page 1
justice page 1 etc.
9
Indexation automatique par mots
Avantages
• Mise en oeuvre très simple sur le plan informatique
• Efficace par rapport à l'homme
Désavantages
• Bruit : ensemble de documents non pertinents trouvés par le système
• Silence : ensemble documents pertinents non trouvés par le système
10
Exemple de bruit et de silence
banque → banque
\→ banques, établissement bancaire, établissement financier, etc.
→ banque de sang, banque réfrigérante, etc.
11
Indexation automatique par mots
Pourquoi ce silence important ?
a Le mot présente des variations orthographiques et flexionnelles : égrenage/égrainage, hélico/hélicoptères, chameau/chamelles.
b Au niveau sémantique, plusieurs mots peuvent avoir la même signification (synonymie ou quasi-synonymie) : globule rouge = érytholène = hématies.
12
Indexation automatique par mots
Pourquoi ce bruit important ?
a un mot peut avoir plusieurs sens (polysémie/homonymie) : avocat (humain ou fruit), bureau (table ou local);
b Le mot graphique ne correspond pas toujours à l'unité de sens, notamment s'il s'agit d'un nom composé : chemin de fer;
c Dans la phrase, les mots entretiennent entre eux des liens syntagmatiques : erreur de mesure vs mesure de l'erreur; table pour teinture vs teinture pour table; etc.
13
Indexation automatique par mots
Comment parer aux désavantages de l'indexation par mots ?
• En aval du système documentaire : par une complexification du langage d'interrogation utilisé par l'utilisateur lors de la recherche. C'est à l'utilisateur de bien poser la question lors de la recherche.
• En amont du système : par une indexation plus adéquate du texte. C'est aux robots de mieux représenter le texte.
Mais la plupart des moteurs de recherche génériques sur Internet vont opter pour la première solution !
14
Quelques chiffres sur les index
Différents critères pour juger de la qualité de l'index:
• Taille des index
Les robots n'indexent qu'une partie du web.
On constate aussi que si la taille du web augmente chaque jour (175.000 pages approximativement), celle des index reste stable (8% à 34 % du web selon les moteurs). Cela signifie que les moteurs deviennent plus sélectifs (fraîcheur de l'information, fréquence des visites, etc.)
• Fraîcheur des index
Les moteurs renouvellent leur base tous les mois environ.
15
• Proportion du contenu textuel indexé
Aucun robot n'indexe complètement le site visité:
• Certains utilisent des critères structurels (X niveaux sous la page d'accueil; titre des documents uniquement);
• d'autres plus aléatoires (une partie du texte).
• 10 à 20 % des pages sont pris en considération.
Par exemple, Lycos indexe les titres (<head>), les liens hypertextes, les 20 premières lignes du document et les 100 mots les plus fréquents.
16
Exercices
• Prenons le texte suivant :
De nombreuses femmes au Moyen-Orient sont aujourd'hui obligées
• Puis-je retrouver ce texte avec les critères suivants :
- femme
- orient
- Orient
- Oriental
17
- de
- hui
- obligees
• Texte :
Présentation de l'objet sélectionné : porte-manteau d'époque ...
• Si je demande les documents qui traitent de portemanteau, vais-je obtenir le texte qui précède ?
• Et le suivant :
Présentation de l'objet sélectionné : porte manteau, ...