24 Novembre 2006
Laboratoire d’Informatique de Paris 6
Moteur de recherche XML pour
la plateforme Outilex
Introduction
Evolution dans le format des documents électroniques
Passage document « plat » document « structuré »
Ces documents sont définis par une structure logique (chapitres,
sections, paragraphes, …)
Incapacité des moteurs de recherche traditionnels face à ces
nouveaux formats
Avec cette évolution ont apparu de nouveaux besoins
visant à exploiter la richesse présente dans ces
documents
Nécessité d’élaborer de nouveaux concepts pour l’indexation, le
traitement,
1
Laboratoire d’Informatique de Paris 6
Initiative internationale INEX
Corpus:
2002-2005 - 500 Mo de documents XML + requêtes + jugements de
pertinence, 16 000 documents (IEEE journals), 10 millions de doxels,
2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles
couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000
tags differents. En moyenne an article contains 161.35 nœuds XML par
article, profondeur moyenne d’un élément 6.72.
Résultats INEX 2006
Travail effectué par le LIP6
Développement de moteurs de recherche XML
Réseaux Bayesiens
Algorithmes d’apprentissage (ordonnancement)
Implémenation d’un modèle simple dans la plateforme Outilex
Développement d’un module python permettant d’utiliser des
fonctionnalités d’Outilex
Cas de figure : Détection de mots composés.
Les fonctionnalités ajoutées:
Indexation de la structure des documents XML,
Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et
Outilex),
Constitution d’index pour une recherche rapide,
Serveur permettant de répondre à des requêtes composées de mots-
clés.
Laboratoire d’Informatique de Paris 6 2
1 / 12 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !