TD N 1 SRI 2018(2)

Telechargé par udlfse

Téléchargement

Université de Bouira - Département d’Informatique Année 2017-2018

Module : Systèmes de Recherche d’Information 3ème année ISIL

Série TD N° 1 : Indexation

Exercice 1 : Méthode d'indexation automatique

Le but de l'indexation automatique est de transformer les documents en substituts capables de

représenter le contenu de ces documents. Cette méthode utilise deux approches : l'approche statistique

(distribution des mots) ou le traitement automatique du langage naturel (TALN).

Nous considérons, dans cet exercice, l'approche statistique. Cette dernière est réalisée suivant les étapes

suivantes :

1. Étape 1 : Extraction de mots simples comme suit :

Extraction des termes (tockenization) : Un terme est une suite de caractères séparés par

(blanc, signe de ponctuation ou caractères spéciaux,…)

Suppression des mots « vides » (stoplist / Common Words removal)

2. Étape 2 : Normalisation des mots extraits par l'une des techniques suivantes :

Lemmatisation (radicalisation) ou (stemming) : Processus morphologique permettant de

regrouper les variantes d’un mot.

Exemple : économie, économiquement, économiste, économ

Utilisation de règles de transformations : règle de type : condition action

Exemple : condition = si mot se termine par s action= supprimer la terminaison

Analyse grammaticale : utilisation de lexique (dictionnaire)

Exemple : Tree-tagger (gratuit sur le net)

Troncature : Tronquer les mots à X caractères : Tronquer plutôt les suffixes

Exemple : troncature à 7 caractères : économiquement : écomoni

3. Étape 3 : Statistique sur les occurrences :

Pour chaque mot, on doit faire la statistique de sa fréquence d'occurrence dans le document. Ainsi, à

chaque nouvelle occurrence d'un mot, on ajoute 1 dans sa fréquence.

4. Étape 4 : Construction du fichier inverse et pondération des mots

Une fois les documents indexés le résultat est que chaque document aura donc un descripteur ou

une représentation (liste de mots, fréquence de chaque mot). Ces mots sont ensuite stockés dans une

structure appelée fichier inverse. La pondération consiste à caractériser les termes importants dans

un document ou plusieurs documents c.à.d. que les termes importants doivent avoir un poids fort.

Plusieurs approches sont utilisées pour pondérer les mots comme :

Tf, IDF (approche plus répandue)

Pourvoir discriminatoire d’un terme

Considérons les documents suivants :

Doc1 : "La mesure R-précision est pertinente pour la mesure de la précision moyenne."

Doc2 : " Les modèles de recherche les plus efficaces sont le modèle de langage et le modèle vectoriel."

Doc3 : "L’efficacité de la recherche est mesurée par la précision moyenne."

Doc4 : " Apparition du modèle booléen et l’élaboration de petites expérimentations sur des petites

collections de documents. "

Doc5 : " L'indexation est un processus permettant de construire un ensemble d’éléments « clés » permettant

de caractériser le contenu d’un document / retrouver ce document en réponse à une requête."

Question :

1. Réaliser l'indexation de ces documents on considérant la troncature à 7 caractères.

Par Dr. A. ABBAS Site web : https://sites.google.com/a/esi.dz/a-abbas/

1 / 1 100%

Documents connexes

Knowledge Management - DESTIN Informatique

Stratégie de mise en place d`une structure informatique de

Télécharger

Blog de veille pour la mise à disposition de

ITTIA-DB: : ITTIA-DB, la base de données pour l - ac6

Moteur

TME

La Chambre de Commerce plaide ... matière d’indexation sur l’application de l’échelle mobile des salaires Projet de loi

Formation des salaires et indexation automatique

INDEXATION et FOUILLE des IMAGES

Fonds des communes : l`Union réclame une indexation qui

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

TD N 1 SRI 2018(2)

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

TD N 1 SRI 2018(2)

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib