cours 1 les moteurs de recherche - unige.ch · • comment faire une recherche sur le web? pour en...

5

Click here to load reader

Upload: volien

Post on 16-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cours 1 Les moteurs de recherche - unige.ch · • Comment faire une recherche sur le web? Pour en savoir plus sur les moteurs de recherche • • 4 Moteur de recherche ... Mais

1

Cours 1Les moteurs de recherche

2

Introduction

Internet renferme des réponses à la plupart de vos questions.

Un des problèmes est cependant de savoir comment trouver ces réponses dans la masse d'informations disponibles (20 millions de sites en 2000; 320 millions de pages en 1998; 2,5 milliards de pages en 2000).

Le but de ce premier module sera de vous montrer comment utiliser un moteur de recherche pour trouver l'information pertinente.

3

Table de matière

• Définition des moteurs de recherche et ses différentes fonctions.

• Les trois moteurs principaux

• Classification des moteurs

• Comment faire une recherche sur le web?

Pour en savoir plus sur les moteurs de recherche

• http://www.searchenginewatch.com/

• http://www.multimania.com/soshg/unmoteur.htm

4

Moteur de recherche

Logiciel capable d'identifier les pages correspondant à vos critères de recherche, par exemple toutes les pages qui traiteraient de la traduction automatique.

Double fonction :

• d'enregistrement (ou d'input) : caractérisation du contenu des documents (ou indexation) ;

• d'exploitation (ou d'output) : recherche et fourniture des documents pertinents suivant leur pertinence

Page 2: Cours 1 Les moteurs de recherche - unige.ch · • Comment faire une recherche sur le web? Pour en savoir plus sur les moteurs de recherche • • 4 Moteur de recherche ... Mais

5

Fonction d'enregistrement (ou d'indexation)

Avec les centaines de pages stockées partout dans le monde, comment le moteur parvient-il à localiser une information ? Le moteur de recherche utilise généralement un robot (araignée)

• qui va se promener sur les différentes pages,• trouve de quoi parle le document• et crée un index qui fait le lien entre les informations

contenues dans la page et la page elle-même :

Clinton page x, y, z, ...

Fonction d'expoitation

Etant donné un critère de recherche, retrouver dans l'index toutes les pages pertinentes qui y correspondent.

6

Indexation automatique

Différentes manières de caractériser le contenu d'un document, mais la plupart des systèmes vont utiliser la méthode d'indexation par mots simples

= caractérisation d'un texte par tous les mots du texte ou uniquement ceux qui ont une signification propre (les noms, verbes, adjectifs vs (prépositions), articles, conjonctions, etc.).

7

Méthode (simplifiée)

• Construire un anti-dictionnaire de mots-vides ;

• Ecarter tous les mots vides du texte à indexer ;

• Extraire tous les autres mots du texte, dans la langue ou sous la forme où ils se trouvent et les ajouter ds l'index.

8

Indexation automatique par mots

Page 1

La cour de justice européenne a annulé, pour vice de forme, la directive communautaire interdisant l'usage des hormones dans l´élevage bovin

→ cour/justice/européenne/annulé/pour/vice/forme/directive/communautaire/interdisant/usage/hormones/dans/élevage/bovin

Index

cour page 1

justice page 1 etc.

Page 3: Cours 1 Les moteurs de recherche - unige.ch · • Comment faire une recherche sur le web? Pour en savoir plus sur les moteurs de recherche • • 4 Moteur de recherche ... Mais

9

Indexation automatique par mots

Avantages

• Mise en oeuvre très simple sur le plan informatique

• Efficace par rapport à l'homme

Désavantages

• Bruit : ensemble de documents non pertinents trouvés par le système

• Silence : ensemble documents pertinents non trouvés par le système

10

Exemple de bruit et de silence

banque → banque

\→ banques, établissement bancaire, établissement financier, etc.

→ banque de sang, banque réfrigérante, etc.

11

Indexation automatique par mots

Pourquoi ce silence important ?

a Le mot présente des variations orthographiques et flexionnelles : égrenage/égrainage, hélico/hélicoptères, chameau/chamelles.

b Au niveau sémantique, plusieurs mots peuvent avoir la même signification (synonymie ou quasi-synonymie) : globule rouge = érytholène = hématies.

12

Indexation automatique par mots

Pourquoi ce bruit important ?

a un mot peut avoir plusieurs sens (polysémie/homonymie) : avocat (humain ou fruit), bureau (table ou local);

b Le mot graphique ne correspond pas toujours à l'unité de sens, notamment s'il s'agit d'un nom composé : chemin de fer;

c Dans la phrase, les mots entretiennent entre eux des liens syntagmatiques : erreur de mesure vs mesure de l'erreur; table pour teinture vs teinture pour table; etc.

Page 4: Cours 1 Les moteurs de recherche - unige.ch · • Comment faire une recherche sur le web? Pour en savoir plus sur les moteurs de recherche • • 4 Moteur de recherche ... Mais

13

Indexation automatique par mots

Comment parer aux désavantages de l'indexation par mots ?

• En aval du système documentaire : par une complexification du langage d'interrogation utilisé par l'utilisateur lors de la recherche. C'est à l'utilisateur de bien poser la question lors de la recherche.

• En amont du système : par une indexation plus adéquate du texte. C'est aux robots de mieux représenter le texte.

Mais la plupart des moteurs de recherche génériques sur Internet vont opter pour la première solution !

14

Quelques chiffres sur les index

Différents critères pour juger de la qualité de l'index:

• Taille des index

Les robots n'indexent qu'une partie du web.

On constate aussi que si la taille du web augmente chaque jour (175.000 pages approximativement), celle des index reste stable (8% à 34 % du web selon les moteurs). Cela signifie que les moteurs deviennent plus sélectifs (fraîcheur de l'information, fréquence des visites, etc.)

• Fraîcheur des index

Les moteurs renouvellent leur base tous les mois environ.

15

• Proportion du contenu textuel indexé

Aucun robot n'indexe complètement le site visité:

• Certains utilisent des critères structurels (X niveaux sous la page d'accueil; titre des documents uniquement);

• d'autres plus aléatoires (une partie du texte).

• 10 à 20 % des pages sont pris en considération.

Par exemple, Lycos indexe les titres (<head>), les liens hypertextes, les 20 premières lignes du document et les 100 mots les plus fréquents.

16

Exercices

• Prenons le texte suivant :

De nombreuses femmes au Moyen-Orient sont aujourd'hui obligées

• Puis-je retrouver ce texte avec les critères suivants :

- femme

- orient

- Orient

- Oriental

Page 5: Cours 1 Les moteurs de recherche - unige.ch · • Comment faire une recherche sur le web? Pour en savoir plus sur les moteurs de recherche • • 4 Moteur de recherche ... Mais

17

- de

- hui

- obligees

• Texte :

Présentation de l'objet sélectionné : porte-manteau d'époque ...

• Si je demande les documents qui traitent de portemanteau, vais-je obtenir le texte qui précède ?

• Et le suivant :

Présentation de l'objet sélectionné : porte manteau, ...