Université de Bouira - Département d’Informatique Année 2017-2018
Module : Systèmes de Recherche d’Information 3ème année ISIL
Série TD N° 1 : Indexation
Exercice 1 : Méthode d'indexation automatique
Le but de l'indexation automatique est de transformer les documents en substituts capables de
représenter le contenu de ces documents. Cette méthode utilise deux approches : l'approche statistique
(distribution des mots) ou le traitement automatique du langage naturel (TALN).
Nous considérons, dans cet exercice, l'approche statistique. Cette dernière est réalisée suivant les étapes
suivantes :
1. Étape 1 : Extraction de mots simples comme suit :
Extraction des termes (tockenization) : Un terme est une suite de caractères séparés par
(blanc, signe de ponctuation ou caractères spéciaux,…)
Suppression des mots « vides » (stoplist / Common Words removal)
2. Étape 2 : Normalisation des mots extraits par l'une des techniques suivantes :
Lemmatisation (radicalisation) ou (stemming) : Processus morphologique permettant de
regrouper les variantes d’un mot.
Exemple : économie, économiquement, économiste, économ
Utilisation de règles de transformations : règle de type : condition action
Exemple : condition = si mot se termine par s action= supprimer la terminaison
Analyse grammaticale : utilisation de lexique (dictionnaire)
Exemple : Tree-tagger (gratuit sur le net)
Troncature : Tronquer les mots à X caractères : Tronquer plutôt les suffixes
Exemple : troncature à 7 caractères : économiquement : écomoni
3. Étape 3 : Statistique sur les occurrences :
Pour chaque mot, on doit faire la statistique de sa fréquence d'occurrence dans le document. Ainsi, à
chaque nouvelle occurrence d'un mot, on ajoute 1 dans sa fréquence.
4. Étape 4 : Construction du fichier inverse et pondération des mots
Une fois les documents indexés le résultat est que chaque document aura donc un descripteur ou
une représentation (liste de mots, fréquence de chaque mot). Ces mots sont ensuite stockés dans une
structure appelée fichier inverse. La pondération consiste à caractériser les termes importants dans
un document ou plusieurs documents c.à.d. que les termes importants doivent avoir un poids fort.
Plusieurs approches sont utilisées pour pondérer les mots comme :
Tf, IDF (approche plus répandue)
Pourvoir discriminatoire d’un terme
Considérons les documents suivants :
Doc1 : "La mesure R-précision est pertinente pour la mesure de la précision moyenne."
Doc2 : " Les modèles de recherche les plus efficaces sont le modèle de langage et le modèle vectoriel."
Doc3 : "L’efficacité de la recherche est mesurée par la précision moyenne."
Doc4 : " Apparition du modèle booléen et l’élaboration de petites expérimentations sur des petites
collections de documents. "
Doc5 : " L'indexation est un processus permettant de construire un ensemble d’éléments « clés » permettant
de caractériser le contenu d’un document / retrouver ce document en réponse à une requête."
Question :
1. Réaliser l'indexation de ces documents on considérant la troncature à 7 caractères.
Par Dr. A. ABBAS Site web : https://sites.google.com/a/esi.dz/a-abbas/