Université de Bouira - Département d’Informatique Année 2017-2018 Module : Systèmes de Recherche d’Information 3ème année ISIL Série TD N° 1 : Indexation Exercice 1 : Méthode d'indexation automatique Le but de l'indexation automatique est de transformer les documents en substituts capables de représenter le contenu de ces documents. Cette méthode utilise deux approches : l'approche statistique (distribution des mots) ou le traitement automatique du langage naturel (TALN). Nous considérons, dans cet exercice, l'approche statistique. Cette dernière est réalisée suivant les étapes suivantes : 1. Étape 1 : Extraction de mots simples comme suit : Extraction des termes (tockenization) : Un terme est une suite de caractères séparés par (blanc, signe de ponctuation ou caractères spéciaux,…) Suppression des mots « vides » (stoplist / Common Words removal) 2. Étape 2 : Normalisation des mots extraits par l'une des techniques suivantes : Lemmatisation (radicalisation) ou (stemming) : Processus morphologique permettant de regrouper les variantes d’un mot. Exemple : économie, économiquement, économiste, économ Utilisation de règles de transformations : règle de type : condition action Exemple : condition = si mot se termine par s action= supprimer la terminaison Analyse grammaticale : utilisation de lexique (dictionnaire) Exemple : Tree-tagger (gratuit sur le net) Troncature : Tronquer les mots à X caractères : Tronquer plutôt les suffixes Exemple : troncature à 7 caractères : économiquement : écomoni 3. Étape 3 : Statistique sur les occurrences : Pour chaque mot, on doit faire la statistique de sa fréquence d'occurrence dans le document. Ainsi, à chaque nouvelle occurrence d'un mot, on ajoute 1 dans sa fréquence. 4. Étape 4 : Construction du fichier inverse et pondération des mots Une fois les documents indexés le résultat est que chaque document aura donc un descripteur ou une représentation (liste de mots, fréquence de chaque mot). Ces mots sont ensuite stockés dans une structure appelée fichier inverse. La pondération consiste à caractériser les termes importants dans un document ou plusieurs documents c.à.d. que les termes importants doivent avoir un poids fort. Plusieurs approches sont utilisées pour pondérer les mots comme : Tf, IDF (approche plus répandue) Pourvoir discriminatoire d’un terme Considérons les documents suivants : Doc1 : "La mesure R-précision est pertinente pour la mesure de la précision moyenne." Doc2 : " Les modèles de recherche les plus efficaces sont le modèle de langage et le modèle vectoriel." Doc3 : "L’efficacité de la recherche est mesurée par la précision moyenne." Doc4 : " Apparition du modèle booléen et l’élaboration de petites expérimentations sur des petites collections de documents. " Doc5 : " L'indexation est un processus permettant de construire un ensemble d’éléments « clés » permettant de caractériser le contenu d’un document / retrouver ce document en réponse à une requête." Question : 1. Réaliser l'indexation de ces documents on considérant la troncature à 7 caractères. Par Dr. A. ABBAS Site web : https://sites.google.com/a/esi.dz/a-abbas/