Diapositive 1 - 6th International Conference on Arabic Language

publicité
4th International Conference on Arabic Language Processing,
May 2–3, 2012, Rabat, Morocco
Titre
Réinjection Automatique de la
pertinence pour la Recherche
d’Informations dans les textes Arabes
Mohamed El Amine ABDERRAHIM
Mohamed Alaedine ABDERRAHIM
Université Tlemcen, Algérie
Laboratoire de Traitement
Automatique de Langue Arabe
(LTALA)
1
Introduction
Linguistique
Informatique
Domaine
Traitement Automatique de Langue Naturelle
« TALN »
Traduction automatique
Correction orthographique
Recherche d'information
Résumé automatique
Génération automatique de textes
Synthèse de la parole
Reconnaissance vocale
Reconnaissance de l'écriture manuscrite
Recherche d’Information
2
Introduction
Un système de RI
1
Stocker
2
Organiser (indexer)
3
Rechercher des données
3
Introduction
« RI »
Trois types de connaissance
Les informations
sur le contenu
et le contenant
Les informations
sur les
les utilisateurs
Les dictionnaires
les thesaurus…
4
Introduction
La récupération de mots clé est jugée insuffisante
Des variations morphologiques comme dans « ‫» مدرسة‬
et « ‫» مدرستان‬, « ‫ » خيل‬et « ‫» خيول‬
Des variations lexicales (on utilise pour le même sens
des mots différents) comme dans le cas dans « ‫ » فرس‬et
« ‫; » خيل‬
Des variations sémantiques comme dans le cas
de « ‫ مـرادف الصـخــر‬: ‫ » الـحــجـر‬et « ‫ أنثى الخيـل‬:‫» الحـجر‬.
5
Introduction
Solutions
Réduire la distance
entre la pertinence système
et la pertinence utilisateur
Reformulation
de la requête
Ré-ordonnancement
des documents
Combinaison des résultats issus
de différents SRI ou l’intégration du
profil utilisateur
6
Introduction
Reformulation de la requête. « plusieurs démarches »
Par l’utilisation d’une représentation du domaine de recherche
Par l’utilisation des relations sémantiques de bases terminologiques.
Par l’utilisation d’un espace d’information structuré et construit automatiquement.
L’interrogation se fait par navigation (query by navigation).
Par l’utilisation des points de vue, les points de vue représentent des besoins
élémentaires en information par exemple : causalité, définition, citation,
thème,…
7
Introduction
Reformulation de la requête. « plusieurs Approches »
8
Introduction
Reformulation de la requête. « deux modes »
Avant interrogation (pré-interrogation)
Après interrogation (post-interrogation)
9
Introduction
Reformulation de la requête. « deux manières »
Reformulation automatique
(la reformulation se déroule sans l’intervention de l’utilisateur)
Reformulation interactive
(consiste à utiliser la requête initiale de l’utilisateur pour amorcer la
recherche, puis modifier celle-ci à partir de l’analyse des documents
retournés)
10
Introduction
Reformulation de la requête. « Résultats »
La reformulation de la requête
interactive permet d’améliorer la
précision des résultats.
L’efficacité
du
processus
de
reformulation est fortement lié à la
disposition des utilisateurs et leurs
aptitudes à juger la pertinence des
documents
11
Introduction
Reformulation de la requête. « Solution »
Pour éviter la lourdeur de
l’opération de jugement de
pertinence
des
documents
initialement restitués
Le SRI considère les « n » premiers
documents
restitués
initialement
comme pertinents. Cette nouvelle
forme de réinjection de pertinence est
appelée aveugle (pseudo réinjection
ou ad-hoc).
12
Introduction
Objectif
Cette étude entre dans le cadre de l’assistance de
l’utilisateur par l’amélioration de sa requête .
Nous proposons d’évaluer la technique de
réinjection automatique de la pertinence pour
les textes arabes.
13
Plan
1)
2)
3)
4)
5)
Introduction
La réinjection de la pertinence
Expérimentation
Discussion
Conclusion
14
Plan
1)
2)
3)
4)
5)
Introduction
La réinjection de la pertinence
Expérimentation
Discussion
Conclusion
15
2) Réinjection de la pertinence
Figure : Les trois étapes de la réinjection de la pertinence
16
Plan
1)
2)
3)
4)
5)
Introduction
La réinjection de la pertinence
Expérimentation
Discussion
Conclusion
17
3) Expérimentation
Un corpus
Nombre de fichiers
texte
Domaines
Taille
Nombre de mots
Nombre de mots
différents
22 000
santé, sport, politique,
science, religion
180 Mo
17 000 000
612 650
50 requêtes
API Lucene (Ver 3.0) + Java
Technique de Clustering Locale
18
3) Expérimentation
19
3) Expérimentation
Tableau : Le nombre des documents
trouvés et pertinents avant et après
réinjection de la pertinence
Avant réinjection
Après réinjection
de la pertinence
de la pertinence
Nbr
Nbr doc
Nbr
Nbr doc
N°
doc
Pertinents
doc
Pertinents
Requête retrouvés retrouvés retrouvés retrouvés
1
788
658
788
658
2
6373
646
6373
646
…
…
…
…
…
50
11232
1547
12743
1566
Tableau : Les différentes
valeurs de précision
obtenues avant et après
réinjection de la pertinence.
Précis
ion
moy
enne
P@
5
P@
10
P@
20
P@
100
P@
1000
Avant
réinjection
de la
pertinence
0,392
0,616
0,606
0,619
0,586
0,340
Après
réinjection
de la
pertinence
0,338
0,640
0,618
0,598
0,558
0,332
20
Plan
1)
2)
3)
4)
5)
Introduction
La réinjection de la pertinence
Expérimentation
Discussion
Conclusion
21
4) Discusion
Le rappel : Il y a une augmentation en nombre de documents
retournés après la RFA dans 35 requêtes (soit 70% des
requêtes) et une augmentation en nombre de documents
pertinents retournés après la RFA dans 29 requêtes (soit 58%
des requêtes)
Par conséquent nous pouvons annoncer que la RFA améliore
le rappel du SRI pour les textes Arabes.
La précision : une amélioration de l’ordre de 3,8% et de
1,9% dans les précisions à 5 et 10 documents
respectivement.
On peut déduire que le FRA n’améliore pas
considérablement la précision d’un SRI arabe.
22
Plan
1)
2)
3)
4)
5)
Introduction
La réinjection de la pertinence
Expérimentation
Discussion
Conclusion
23
5) Conclusion
Dans cet article, nous avons évalué la stratégie de la RFA locale. Elle repose sur
une expansion de la requête initiale par des termes (corrélés avec les termes de
la requête initiale) issus de la matrice d’association.
Cette stratégie a l’avantage d’être indépendante du SRI et donc elle pourra être
facilement intégrer dans un moteur de recherche.
Les résultats obtenus nous ont permet de :
 confirmer l’hypothèse de départ, à savoir, l’amélioration
des performances du SRI Arabe.
 D’ouvrir la voie pour tester d’autres techniques avec les
mêmes données de cette expérimentation pour déterminer
la meilleure méthode pour la RFA dans un SRI Arabe.
24
Merci pour votre attention
25
Téléchargement