24 novembre 2006 laboratoire dinformatique de paris 6 moteur de recherche xml pour la plateforme...
TRANSCRIPT
24 Novembre 2006
Laboratoire d’Informatique de Paris 6
Moteur de recherche XML pour la plateforme Outilex
Introduction
Evolution dans le format des documents électroniques Passage document « plat » document « structuré » Ces documents sont définis par une structure logique (chapitres,
sections, paragraphes, …) Incapacité des moteurs de recherche traditionnels face à ces
nouveaux formats
Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents Nécessité d’élaborer de nouveaux concepts pour l’indexation, le
traitement, …
1Laboratoire d’Informatique de Paris 6
Initiative internationale INEX
Corpus: 2002-2005 - 500 Mo de documents XML + requêtes + jugements de
pertinence, 16 000 documents (IEEE journals), 10 millions de doxels,
2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains 161.35 nœuds XML par article, profondeur moyenne d’un élément 6.72.
Résultats INEX 2006
Travail effectué par le LIP6
Développement de moteurs de recherche XML Réseaux Bayesiens Algorithmes d’apprentissage (ordonnancement)
Implémenation d’un modèle simple dans la plateforme Outilex
Développement d’un module python permettant d’utiliser des fonctionnalités d’Outilex Cas de figure : Détection de mots composés.
Les fonctionnalités ajoutées: Indexation de la structure des documents XML, Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et
Outilex), Constitution d’index pour une recherche rapide, Serveur permettant de répondre à des requêtes composées de mots-
clés.
Laboratoire d’Informatique de Paris 6 2
Architecture
Basede données
DocumentsXML
Outilex
TreeTagger
Detection demots composés(français et anglais)
Lemmatisation(français et anglais)
Serveur(Python/XMLRPC)
Modules Pythond'interface
Navigateur
3Laboratoire d’Informatique de Paris 6
Laboratoire d'Informatiqe de Paris 6 7
Recherche structurée
Développé en python dans le cadre de la platerforme SIRXQL Basé sur Okapi, adapté à la RI structurée
Importance du terme dans la collection
constante dépendant de la longueur moyennedes éléments X du même type (i.e. section, paragraphe, ...)
Fréquence du terme dans l'élément / la requête
Moteur de Recherche XMLDémo sur http://webia.lip6.fr/~bpiwowar/outilex/search
6
Laboratoire d'Informatiqe de Paris 6 9
Requête: « grèce antique », base wikipédia
Laboratoire d'Informatiqe de Paris 6 10
Résultat sur le premier document retourné pour la requête “Grèce Antique”P
rofo
ndeu
r da
ns l’
arbr
e de
la c
olle
ctio
n
Str
uctu
re e
t co
nten
u du
doc
umen
t
Titre du document
Nœuds fils niveau 1
Laboratoire d'Informatiqe de Paris 6 11
Résultat de "(une) station spatiale"
Laboratoire d'Informatiqe de Paris 6 12
Conclusion
Une plateforme ouverte pour l'implémentation d'autres algorithmes de
recherche structurée pour une utilisation plus poussée d'outilex (au delà
de la détection de mots composés) Implémentation en Python + MySQL Des tests sur INEX 2005 (collection de
documents en anglais) ont donné de bons résultats (précision accrue)