24 novembre 2006 laboratoire d’informatique de paris 6

12
24 Novembre 2006 Laboratoire d’Informatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Upload: wyome

Post on 09-Jan-2016

24 views

Category:

Documents


2 download

DESCRIPTION

Moteur de recherche XML pour la plateforme Outilex. 24 Novembre 2006 Laboratoire d’Informatique de Paris 6. Introduction. Evolution dans le format des documents électroniques Passage document « plat »  document « structuré » - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

24 Novembre 2006

Laboratoire d’Informatique de Paris 6

Moteur de recherche XML pour la plateforme Outilex

Page 2: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Introduction

Evolution dans le format des documents électroniques Passage document « plat » document « structuré » Ces documents sont définis par une structure logique (chapitres,

sections, paragraphes, …) Incapacité des moteurs de recherche traditionnels face à ces

nouveaux formats

Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents Nécessité d’élaborer de nouveaux concepts pour l’indexation, le

traitement, …

1Laboratoire d’Informatique de Paris 6

Page 3: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Initiative internationale INEX

Corpus: 2002-2005 - 500 Mo de documents XML + requêtes + jugements de

pertinence, 16 000 documents (IEEE journals), 10 millions de doxels,

2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains 161.35 nœuds XML par article, profondeur moyenne d’un élément 6.72.

Page 4: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Résultats INEX 2006

Page 5: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Travail effectué par le LIP6

Développement de moteurs de recherche XML Réseaux Bayesiens Algorithmes d’apprentissage (ordonnancement)

Implémenation d’un modèle simple dans la plateforme Outilex

Développement d’un module python permettant d’utiliser des fonctionnalités d’Outilex Cas de figure : Détection de mots composés.

Les fonctionnalités ajoutées: Indexation de la structure des documents XML, Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et

Outilex), Constitution d’index pour une recherche rapide, Serveur permettant de répondre à des requêtes composées de mots-

clés.

Laboratoire d’Informatique de Paris 6 2

Page 6: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Architecture

Basede données

DocumentsXML

Outilex

TreeTagger

Detection demots composés(français et anglais)

Lemmatisation(français et anglais)

Serveur(Python/XMLRPC)

Modules Pythond'interface

Navigateur

3Laboratoire d’Informatique de Paris 6

Page 7: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Laboratoire d'Informatiqe de Paris 6 7

Recherche structurée

Développé en python dans le cadre de la platerforme SIRXQL Basé sur Okapi, adapté à la RI structurée

Importance du terme dans la collection

constante dépendant de la longueur moyennedes éléments X du même type (i.e. section, paragraphe, ...)

Fréquence du terme dans l'élément / la requête

Page 8: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Moteur de Recherche XMLDémo sur http://webia.lip6.fr/~bpiwowar/outilex/search

6

Page 9: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Laboratoire d'Informatiqe de Paris 6 9

Requête: « grèce antique », base wikipédia

Page 10: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Laboratoire d'Informatiqe de Paris 6 10

Résultat sur le premier document retourné pour la requête “Grèce Antique”P

rofo

ndeu

r da

ns l’

arbr

e de

la c

olle

ctio

n

Str

uctu

re e

t co

nten

u du

doc

umen

t

Titre du document

Nœuds fils niveau 1

Page 11: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Laboratoire d'Informatiqe de Paris 6 11

Résultat de "(une) station spatiale"

Page 12: 24 Novembre 2006 Laboratoire d’Informatique de Paris 6

Laboratoire d'Informatiqe de Paris 6 12

Conclusion

Une plateforme ouverte pour l'implémentation d'autres algorithmes de

recherche structurée pour une utilisation plus poussée d'outilex (au delà

de la détection de mots composés) Implémentation en Python + MySQL Des tests sur INEX 2005 (collection de

documents en anglais) ont donné de bons résultats (précision accrue)