projet moteur de recherche dinformation indexation et recherche de linformation par zehhaf ibrahim...
TRANSCRIPT
ProjetMoteur de recherche
d’information
Indexation et Recherche de l’Information
ParZEHHAF Ibrahim
HONG LiangPHAM Kim-Toan
Plan de présentation:
Objectif Approche technique Approche fonctionnelle Démo Perspectives
Moteur de recherche d’information
Objectif
• Objectif : réaliser un moteur de recherche sur un corpus local composé de 7400 fichiers (HTML, TEXTE, sortie TREE-TAGGER).
1- indexation des termes du corpus dans une base de donné relationnelle.
2- réaliser une interface web simple et conviviale permettant de poser des requêtes sur le corpus et recevoir en retour les liens HTM satisfaisants la requête dans l’ordre décroissant sur le score de pertinence.
Moteur de recherche d’information
1- indexation des termes
Pour procéder on a utilisé les fichiers tree-tagger, en traitant un fichier, on analyse les lignes une par une pour récupérer les termes sachant qu’on ne garde pas tous ce qui est ponctuation (on s’est servie de la colonne CAT)
On a utilisé aussi les fichiers texte pour récupérer les URLs de base et les titres de la page pour pouvoir les afficher après comme réponses de la requête
Approche technique
Moteur de recherche d’information
Approche technique
Pondération des termes
La pondération des termes a été fait par la méthode tf.idf qui consiste a donné plus de poids aux termes rares dans le corpus.
Le poids est calculé par la formule vue en TD:
Wi = tfi * log (dfi/N)
Moteur de recherche d’information
Architecture de la base de données
On a utilisé une base de donné relationnelle MySql5, cette dernière est constituée de six tables:
-dictionnaire-mot_fichier_inverse-poids-position-url-urls_sortants
Approche technique
Moteur de recherche d’information
Architecture de la base de données
La table dictionnaire:
Approche technique
Moteur de recherche d’information
Architecture de la base de donnéesLa table mot_fichier_inverse
Approche technique
Moteur de recherche d’information
Architecture de la base de données
La table poids:
Approche technique
Moteur de recherche d’information
Architecture de la base de données
La table position:
Approche technique
Moteur de recherche d’information
Architecture de la base de données
La table url
J’attend la nouvelle avec les chemins de fichiers
Approche technique
Moteur de recherche d’information
Architecture de la base de données
La table urls_sortants
Approche technique
Moteur de recherche d’information
Remarque
Le temps d’indexation = pas encore tester sur les 7400 fichiers
Approche technique
Moteur de recherche d’information
La Recherche
-Script: PHP5
-modèle utilisé : Booléen
-On a créé 2 scripts chacun traitant un type de requête
1-Recherche exacte pour les chaines délimitées par des guillemets, exemple: ’’victoire de la France’’
2-Recherche simple pour les autres requêtes
Approche fonctionnelle
Schéma de fonctionnement
Moteur de recherche d’information
Moteur de recherche d’information
Démo
Moteur de recherche d’information
Démo
Perspectives
Plusieurs améliorations sont envisageables afin d’augmenter la pertinence de nos résultats de recherche :
• prendre en compte les textes des balises <a href=’… ’> texte </a>
• implémenter le Page Rank pour pouvoir prendre en compte la célébrité des pages• améliorer les scripts pour avoir un temps de réponse plus petit
Moteur de recherche d’information