4-Recherche d'information

Telechargé par Rihab BEN LAMINE
Mineure « Data Science » Frédéric Pennerath
RECHERCHE D’INFORMATION
Chapitre 5
Mineure « Data Science » Frédéric Pennerath
INTRODUCTION
Mineure « Data Science » Frédéric Pennerath
Le problème de la recherche d’information
(information retrieval)
Ensemble de
références
Application
cliente
Moteur de
recherche
d’information
Ensemble de
documents
Documents :
Textes (bases documentaires)
Hypertextes, documents XML/HTML
R.I multimédia : images, vidéo, sons, etc
Granularité des réponses :
Page web (URL)
Documents (pdf,.doc, etc)
Section, chapitre, page
Paragraphes
Langage de requête :
Mots clés pour le texte
Requête par l’exemple (image, son, etc)
Algèbre : opérateurs logiques, opérateurs
de proximité
Requête Réponse
Mineure « Data Science » Frédéric Pennerath
Objectifs
1. Démystifier les moteurs de recherche :
Problème résolu depuis longtemps (bases documentaires)
Théorie très simple : recherche linéaire dans des listes
2. Prétexte à introduire des notions connexes
Modèles IR : modèle booléen, vectoriel, probabiliste
Algorithmique : indexation, optimisation des requêtes, B-tree, correction
orthographique
Fouille de texte et traitement automatique du langage naturel (TALN)
Problématique du Big Data : parallélisme des données (Map Reduce), NoSQL
Techniques Web : crawling /scraping
Mineure « Data Science » Frédéric Pennerath
La préhistoire de la recherche d’information :
l’approche de type « grep »
Principe du grep :
grep(requête Q)
Liste L
pour chaque document D,
si D satisfait Q, ajouter la référence de D à L
fin pour
retourner L
Avantage : requête sophistiquée (expressions régulières)
Inconvénient :
Parcours de toute la base documentaire à chaque requête
Très lent car pas de prétraitement
Inutilisable pour la recherche sur le Web
1 / 33 100%

4-Recherche d'information

Telechargé par Rihab BEN LAMINE
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !