la recherche dinformation janvier 2001. max chevalier - [email protected] zla recherche...
TRANSCRIPT
La Recherche La Recherche d’Informationd’Information
Janvier 2001
Max CHEVALIER - [email protected]
2
PlanPlanLa Recherche d'Informations (RI)Evaluation Méta-donnéesle « vague » en RIDomaines d’application :
Informations Multilingues Informations Multimédia Librairies numériques Web Documents structurés
Max CHEVALIER - [email protected]
3
La Recherche d'Informations La Recherche d'Informations 1/81/8
Née il y a plus de 40 ansTâche principale : retrouver des documents
pertinents en réponse à un besoin en informations.
Sujets de la RI : Comparaison Exacte vs Partielle Modèles Déterministes vs
Probabilistes Langage de requête Artificiel vs Naturel Représentation A priori vs A posteriori Classification …
La RI : 3 « ciments » : La théorie, l’expérimentation, la pratique.
Max CHEVALIER - [email protected]
4
La Recherche d'Informations La Recherche d'Informations 2/82/8
La ThéorieLa Théorie Devenue à tâtons Sujets
Fusion de donnéesRésuméVisualisation du WebTraitement du langage naturel en RI (NLP in
IR)Logique & modèles « incertains »Dimensions temporelles...
Max CHEVALIER - [email protected]
5
La Recherche d'Informations La Recherche d'Informations 3/83/8
L'ExpérimentationL'Expérimentation Nécessaire pour valider une idée, un
projet Sujets
IHMVisualisationTravail en contexte, approches cognitivesCroisement de languesCroisement de médiaRI basée sur des corpusLibrairies numériquesTREC
Max CHEVALIER - [email protected]
6
La Recherche d'Informations La Recherche d'Informations 4/84/8
La Pratique La Pratique Permet d'apprécier le comportement de
l'utilisateur en « grandeur nature » Pour le Web, l'étude pratique est aussi
importante que l'expérimentation Sujets
Publication électroniqueRI orientée tâcheExploration des données (data mining)Découverte de connaissanceApprentissage des distances (distance
Learning)
Max CHEVALIER - [email protected]
7
Processus général de la RI Processus général de la RI Processus en U
La Recherche d'Informations La Recherche d'Informations 5/85/8
Besoin en Informations
Objets "fictifs"
Représentation Représentation
Requête Objets indexés
Comparaison (matching)
Où se trouve l'utilisateur ??
Max CHEVALIER - [email protected]
8
La Recherche d'Informations La Recherche d'Informations 6/86/8
Les modèles dans la RILes modèles dans la RIBases théoriques pour calculer la réponse à
une requête. Syntaxe, expressivité du langage de
requête + représentation des documents.
Plus courants :• BooléenBooléen• VectorielVectoriel • Probabiliste• …
N. Fuhr : Modèles en logique propositionnelle (Datalog)
Max CHEVALIER - [email protected]
9
La Recherche d'Informations La Recherche d'Informations 7/87/8
Modèle BooléenModèle BooléenRepose sur les opérateurs booléens (et, ou, non)
Permet d ’établir des requêtes complexes
En général : Réponse exacte (les réponses correspondent ou pas)
Ex de requête : Recherche ET InformationsRecherche ET Informations
• La réponse à cette requête ne seront que les documents qui possèdent à la fois les termes « Recherche » et « Informations »
Max CHEVALIER - [email protected]
10
La Recherche d'Informations La Recherche d'Informations 8/88/8
Modèle VectorielModèle VectorielRepose sur l’algèbre vectoriel
Les documents et la requête = vecteur poids termes d ’indexation
La correspondance entre les vecteurs documents et celui de la requête :
produit scalairemesure de cosinusdistance métrique
Autres Modèles : cf [Baeza-Yates, 1998] ou [Salton, 1983]
Evaluation en RI
Max CHEVALIER - [email protected]
12
Evaluation Evaluation 1/51/5
Pourquoi Evaluer ?Pourquoi Evaluer ?
Tout système conçu pour aider l’homme dans une tâche doitdoit être évalué.
IR : domaine non cartésien
Divers angles pour évaluer :
• Performance de la RI (vitesse de réponse par ex)
• Efficacité de la RIEfficacité de la RI
Efficacité de la RI
Max CHEVALIER - [email protected]
13
Evaluation Evaluation 2/52/5
Evaluation en Laboratoire :Evaluation en Laboratoire : Déf :
Un systèmeUn système : Ens. Méthodes et procédures pour l’indexation & la recherche.
Une collection de documentsUne collection de documents : Ens. d’informations structurées par un auteur.
Une collection de requêtesUne collection de requêtes
Critère Basique d’évaluation Critère Basique d’évaluation : Que constitue un bon document (pertinent) ?
Max CHEVALIER - [email protected]
14
Evaluation Evaluation 3/53/5
Mesure de l’efficacité Mesure de l’efficacité :
RappelRappel PrécisionPrécision
Concevoir une ExpérimentationConcevoir une Expérimentation• Documents et requêtes réutilisés dans différents
tests pour pouvoir comparer les systèmes• Un grand nombre de tests doivent être réalisés
pour vérifier l’étendue des paramètres du système
Intérêt d’expérimentations ParallèlesIntérêt d’expérimentations Parallèles• TREC (Text REtrieval Conference)• CLEF, NCTIR...
CollectioninentsDansNbDocsPert
ouvésinentsRetrNbDocsPert
lRetrouvésNbDocsTota
ouvésinentsRetrNbDocsPert
Max CHEVALIER - [email protected]
15
Evaluation Evaluation 4/54/5
Impliquer l’utilisateurImpliquer l’utilisateurProblème posés par :
– l’interaction– le jugement propre à l’utilisateur
D’un point de vue cognitif :• Un besoin d’informations provient d’un état des
connaissances (EC) incomplet• Le processus pour améliorer cet EC est purement
cognitif pour la part de l’utilisateur• La RI n ’est qu’une partie de ce processus
OKAPIOKAPI : famille de SRI expérimentaux pour utilisateurs finals.
Max CHEVALIER - [email protected]
16
Evaluation Evaluation 5/55/5
IR Expérimentale :IR Expérimentale :Non interactive, orientée système,
algorithmique, – -> Performances relatives au système
IR Interactive :IR Interactive :Cognitive, centrée sur l’utilisateur
– -> Permet de comprendre quel système, quelles structures d’informations et fonctionnalités de l’interface, permettent au mieux la recherche d’informations dans le contexte.
Les Méta-données
Max CHEVALIER - [email protected]
18
Méta-Données Méta-Données 1/41/4
Méta-Données ?Méta-Données ?« Données sur les données »Différentes disciplines, différents « sens »Divers types de Méta-données sont nécessaires
:• DécouverteDécouverte : Qu’est-ce qui existe ? Localisation ?• Termes & ConditionsTermes & Conditions : Règle pour y accéder ? • Données administrativesDonnées administratives : Date de création ?• ProvenanceProvenance : Origine de tout ou partie d’un objet• Contexte Contexte : Qui l’a créé ? Pourquoi ?• StructureStructure : Format de fichier ? Table des matières ?• ContenuContenu : De quoi traite l’objet ?• Historique de l’utilisationHistorique de l’utilisation • Liens, RelationsLiens, Relations : Liens vers d’autres objets ?
Max CHEVALIER - [email protected]
19
Méta-Données Méta-Données 2/42/4
Typologie des méta-donnéesTypologie des méta-données
(Dempsey & Heery sur le Web)
Type 1 Type 2 Type 3
But Localiser Sélectionner Evaluer, Analyser
Format Simple Structuré StandardsInternationaux
Caractéristiques Propriétaires,Indexation en « texte
plein »
Standards émergeants,Structure de champs
Balisage élaboré
Génération Robot Robot + Manuel Manuel
Exemples Lycos,Altavista,
Yahoo
Dublin Core,IAFA
RFC 1807SOIFLDIF
MARC,CIMI,EAD,TEI
Max CHEVALIER - [email protected]
20
Méta-Données Méta-Données 3/43/4
Dublin CoreDublin CoreStuart Weibel 1995-> Identifier et définir un jeu simple d’éléments
permettant de décrire des ressources sur les réseaux.
SimpleIndépendant de la syntaxeModifiableQuelques exemples :Title, Subject, Creator, Description, Date, Language…Subject(scheme=Dewey Decimal System)=004.251
SupercomputersRelation(type = ContainedIn)(identifier =
url)=www.dlib.org
Max CHEVALIER - [email protected]
21
Méta-Données Méta-Données 4/44/4
MARCMARCMachine Readable Catalogue Format1960, -> bibliothèquesBeaucoup de formats (USMARC, UNIMARC,
BIBSYS MARC…)Ex : UNIMARC
– 00x Identification block– 1xx Coded Information block– 2xx Descriptive Information block– 3xx Notes block– 4xx Linking entry block– 5xx Related title block– 6xx Subject Analysis block– 7xx Intellectual responsability block– 8xx International use block– 9xx National use block
Le « vague » en RI
Max CHEVALIER - [email protected]
23
Le « Vague » en RI Le « Vague » en RI 1/21/2
Vague : modélisé en RI par des travaux sur la logique floue
Travaux de G. Pasi & G. Bordogna :Appliquer les concepts de Logique floue sur
le modèle booléen.
« Trouver les documents récentsrécents qui traitent principalementprincipalement du SIDA »
Max CHEVALIER - [email protected]
24
Le « Vague » en RI Le « Vague » en RI 2/22/2
Travaux de G. Pasi & G. Travaux de G. Pasi & G. BordognaBordogna
Langage de requête :• Pondération des termes de la requête
– q = <Meurtres, 1> AND <Journalistes, 0.6>
• Utilisation de « poids linguistiques »– Très important, moyennement important, peu important...– q = <Meurtres, très important> AND <Journalistes, moyennement
important>
• Quantifieurs linguistiques pour agréger les conditions de sélection
– at least n– all
– Exemple : au moins 2 termes parmi 4...
Les applications de la RI
Max CHEVALIER - [email protected]
26
Applications de la RIApplications de la RIInformations multilinguesInformations multilingues
Informations multimédiaInformations multimédia
Bibliothèques digitalesBibliothèques digitales
Documents structurés & WebDocuments structurés & Web
RI Multilingue
Max CHEVALIER - [email protected]
28
Informations Multilingues Informations Multilingues 1/61/6
MLIAMLIA : MultiLingual Information Access Définition :
Accéder, rechercher, retrouver des informations dans des collections en quelque langage que ce soit à n’importe quel niveau de spécificité et inclut tous les problèmes induits par la gestion d’informations multilingues (encodage des caractères, identification du langage…)
Multidisciplinaire : RI, TALN...
CLIRCLIR : Cross-Lingual Information Retrieval : requête dans un langage pour retrouver des documents dans un autre langage
Max CHEVALIER - [email protected]
29
Informations Multilingues Informations Multilingues 2/62/6
Gestion des textes multilinguesGestion des textes multilinguesconversion des caractèresextraction des mots (tokenization)suppression des mots videsnormalisation (radicalisation : GB/Porter…)
CLIRCLIRMachine de traduction (Machine-translation)Basée sur la Connaissance (Knowledge
based)Basée sur les Corpus (Corpus based)
Max CHEVALIER - [email protected]
30
Informations Multilingues Informations Multilingues 3/63/6
Traduction automatiqueTraduction automatique
Traduction dans tous les autres langages cibles.
• De tous les documents Tâches lourdes et redondance de l’information Non viable si plusieurs langages de requête car
les documents sont traduits dans toutes les langues
• De la requêteRapide ambiguïté car pas de contexte
Max CHEVALIER - [email protected]
31
Informations Multilingues Informations Multilingues 4/64/6
Basées sur la ConnaissanceBasées sur la ConnaissanceThésaurusThésaurus
• Multilingues avec vocabulaire contrôlé : bon résultats pour la recherche et l ’indexation
Pas de problème d'ambiguïté Ontologie lourde à construire et à mettre à jour Affectation des termes au document lourde Entrainement nécessaire pour utiliser le
thésaurus
Dictionnaires bilinguesDictionnaires bilingues• Remplacement des mots de la requête par les
traductions possiblesExpansion de requête Pour des langues : difficile de trouver un dictionnaire Ambiguïté, termes généraux, expressions
Max CHEVALIER - [email protected]
32
Informations Multilingues Informations Multilingues 5/65/6
Basées sur les corpusBasées sur les corpusProposent une équivalence lexicale entre les lang.Corpus parallèlesCorpus parallèles
• Documents traduits dans les lang. cible/destination• Latent Semantic IndexingBons résultats avec GB & FR, Espagne, Grèce et JP Collections difficiles à obtenir
Corpus comparablesCorpus comparables• Documents : même thème, même période, même genre• Aligne les documents par rapport à leur descripteurs
(date, mots-clés, noms propres…)• Ex: Swiss News Agency : Allemand, Français, ItalienPlus faciles a trouver Alignement plus complexe à réaliser
Max CHEVALIER - [email protected]
33
Informations Multilingues Informations Multilingues 6/66/6
RésuméRésumé La plupart des travaux se basent uniquement
sur 2 langues Limitations de chaque méthode Manque de ressources (corpus, dictionnaires…)Plus de travaux doivent se concentrer sur les
mécanismes inter-langues.
• MT : 80 % monolingue Domaine général• Dict : 80 % … …• Corpus : 80 % … …
90 % … Domaine spécifique
RI Multimédia
Max CHEVALIER - [email protected]
35
Informations Multimédia Informations Multimédia 1/31/3
ImagesImagesApplications :
• Prévention des crimes, Propriété intellectuelle (TradeMark)• Journalisme & publication, diagnostic médical
3 Niveaux d’études :• 1 - Bas niveau : attributs primitifs
– forme, texture, couleur, localisation spatiale• 2 - Niveau dérivé ou attributs logiques
– objets d’un type donné, objets nommés• 3 - Niveau Subjectif ou attributs abstraits
– événements spécifiés ou type d’activité– signification émotionnelle ou symbolique
Importance de l’interface et intégration de l’utilisateur
Max CHEVALIER - [email protected]
36
Informations Multimédia Informations Multimédia 2/32/3
SonSonFormat de base : WAV, MIDIDifférents formats de compression (MP3,
AIFF…)MusiqueMusique : Méta-données ou RI
traditionnelle (MIDI).DialogueDialogue :
• Phonèmes : « More details » -> m oo r d ii t ei l z • 4 Approches :
– Repérage de mots– Reconnaissance du locuteur– Recherche basée sur les phonèmes– Recherche basée sur les mots (Tâche TREC)
Max CHEVALIER - [email protected]
37
Informations Multimédia Informations Multimédia 3/33/3
VidéoVidéoTaille importante (1 sec = 18 Mo à 720Ko/im) Vidéo = 3 dimensions (x, y, t)4 Formats compression : MPEG 1 - 2 - 4 - 7
• MPEG 1 & 2 : 3 types de Frames I,B,P.• MPEG 4 : Identifie les objets dans les séquences.• MPEG 7 : Inclus un aspect sémantique,
Le « descripteur » : langage balisé (XML)
Indexation par identification de séquences et méta-données
Indexation son & vidéo synchronisés
« navigation » vs « recherche » pour les médias « navigation » vs « recherche » pour les médias continus (vidéo, son)continus (vidéo, son)
Librairies Digitales
Max CHEVALIER - [email protected]
39
Librairies Digitales Librairies Digitales 1/31/3
Une LD est :Une LD est : un service,une architecture,un ensemble de ressources informatives,
bases de données textuelles, sons, images…un ensemble d’outils et fonctionnalités
permettant de localiser, d’utiliser les ressources disponibles.
normalement centrée sur l’utilisateur
RI joue un rôle clé, mais… Chercher ne suffit pas !
Max CHEVALIER - [email protected]
40
Librairies Digitales Librairies Digitales 2/32/3
Bibliothèque classique :Bibliothèque classique : trouver, identifier, sélectionner, obtenir
les documents à partir d’informations.Bibliothèque numérique:Bibliothèque numérique:
Localiser, sélectionner parmi des sources pertinentes
Y retrouver des documents Interpréter ce qui est retrouvé Gérer les informations filtrées localement Partager ces résultats avec les autres.
Max CHEVALIER - [email protected]
41
Librairies Digitales Librairies Digitales 3/33/3
Le Web est-il une DL ? Le Web est-il une DL ? NONNON
Web :• a un contenu incomplet• manque de standards et de contrôles de qualité• non catalogué• rappel trop élevé par rapport à la pertinence• pas d’organisation responsable
Mais il y a plusieurs LD sur le Web !!
Le WEB
Max CHEVALIER - [email protected]
43
Web Web 1/71/7
Comment retrouver des Comment retrouver des documents sur le Web ?documents sur le Web ? Par navigation :
URL connuePar lien présent dans une autre page WebService d’alerte (méthode PUSH)
Par recherche :Moteur de recherche Web
1 Page Web = 1 document
Max CHEVALIER - [email protected]
44
Web Web 2/72/7
Indexation sur le WebIndexation sur le Web
Automatique
Manuelle
Moteurs basés sur les requêtesLes index sont construits automatiquement.
Listes classiféesLes catalogues répertoriant les pages par thèmes sont construits manuellement
Max CHEVALIER - [email protected]
45
Web Web 3/73/7
Différences au sein de l’indexationDifférences au sein de l’indexation
Particularités du WebParticularités du WebLiens hypertextes = relations entre les
documents• classification
– Avantage : [Botafogo93] proposer des classes de documents qui dépendent d’un contexte, d’un thème… à partir des liens qu’ils possèdent entre eux = Réduction de la quantité d’informations à stocker
RI Classique (Textuelle) RI WebCollection Physique Collection Virtuelle
Construction de la collection manuelle Construction de la collection automatique(Spiders, Bots)
Analyse du balisage
Max CHEVALIER - [email protected]
46
Web Web 4/74/7
Utilisation des liens HypertextesUtilisation des liens HypertextesHypertexte bien réalisé :
• Baisse du risque de « perte » de l’utilisateur (hiérarchie)
• Organisation plus rigoureuse de l’information (navigation)
Analyse de l’hypertexte [Botafogo93]• Plus le nombre entre 2 nœuds est grand, plus la
relation entre les nœuds est importante• Permettant de :
– détecter le nœud index de l’hypertexte (liens out)
– détecter les nœuds références (liens in)– mesurer la compacité de l’hypertexte– mesurer la stratification (nbre de « couches »)
Max CHEVALIER - [email protected]
47
Web Web 5/75/7
Utilisation dans la RIUtilisation dans la RIClassification :
• Par contenu• Par liens• => Utilisation mixte des 2
Analyse Structurelle :• Identification de pages d’acceuil et pages
références– indexation de la structure globale
Mesures :• Non spécifique au Web mais adéquates
– qualité et complexité d’une portion du Web
Max CHEVALIER - [email protected]
48
Web Web 6/76/7
Algorithmes existantsAlgorithmes existants HITS (Hyperlink Induced Topic Search) PageRank
Algo. de génération de liens auto.Algo. de génération de liens auto. [Salton96], [Allan97], [Agosti97],
[Melluci99]relation de similarité entre nœudsdétection de liens de différents types
(révision, résumé, extension, équivalence, contraste, comparaison, tangence, agrégation)
Max CHEVALIER - [email protected]
49
Web Web 7/77/7
Evaluation de la RI sur le WebEvaluation de la RI sur le WebPb :
• Dynamique du Web• Hétérogénéité des pages et des requêtes• Hyperliens entre les pages
Base de test : tâche Web de TREC• performance de la RI sur le Web (1999)
– Small Task - 2 Go (250.000 docs)– Large Task - 100 Go (18.5 Millions docs)
Documents structurés
Max CHEVALIER - [email protected]
51
Documents structurés Documents structurés 1/41/4
RI InteractiveRI Interactive
Début
Commande
Interprétation de la Commande
Affichage du résultat
Evaluation du résultat
Utilisateur Satisfait ?
OuiFin
Révision de la Commande
Non
Effort Cognitif
Utilisateur
Besoins en Information
s
Max CHEVALIER - [email protected]
52
Documents structurés Documents structurés 2/42/4
Recherche vs NavigationRecherche vs Navigation
Impact des informations structurées :• Recherche : Pas ou peu de prise en compte de la
structure• Navigation : Surcharge cognitive lorsque la
structure de l’hypermédia n’est pas explicite
-> Interaction mixte
Effort Cognitif DésorientationRecherche Evaluation de la réponse
Reformulation appropriée
Taille des réponses Mauvais classement
(ranking)Navigation Enregistrer le chemin et le
jugement de pertinencedes étapes précédentes
Longueur du parcours Boucles Redondance
Max CHEVALIER - [email protected]
53
Documents structurés Documents structurés 3/43/4
Modèle intégréModèle de RI étendu (fonctionnalités
hypermédia)• prendre en considération la structure du
document
Modèle Hypermédia étendu• gestion du contenu• liens typés• liens pondérés• construction de liens
Approche :
HyperIndex
Treillis de concepts RECHERCHE
HyperBase
NAVIGATION
BeamDown
BeamUp
Max CHEVALIER - [email protected]
54
Documents structurés Documents structurés 4/44/4
ConclusionConclusionprise en considération de la structure permet
d’accroître les performances de la RI en terme d’interaction et P/R
permet l’intégration de la recherche et la navigation comme des façons complémentaires de trouver l’information
permet l’intégration de divers médias dans une stratégie d’indexation/recherche unique
améliorer focus / précision : important pour le Webimplique une meilleur compréhension des notions
« core » des documents, des besoins de l’utilisateur, de la pertinence