4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Réinjection Automatique de la pertinence pour la Recherche d’Informations dans les textes Arabes Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM Université Tlemcen, Algérie Laboratoire de Traitement Automatique de Langue Arabe (LTALA) 1 Introduction Linguistique Informatique Domaine Traitement Automatique de Langue Naturelle « TALN » Traduction automatique Correction orthographique Recherche d'information Résumé automatique Génération automatique de textes Synthèse de la parole Reconnaissance vocale Reconnaissance de l'écriture manuscrite Recherche d’Information 2 Introduction Un système de RI 1 Stocker 2 Organiser (indexer) 3 Rechercher des données 3 Introduction « RI » Trois types de connaissance Les informations sur le contenu et le contenant Les informations sur les les utilisateurs Les dictionnaires les thesaurus… 4 Introduction La récupération de mots clé est jugée insuffisante Des variations morphologiques comme dans « » مدرسة et « » مدرستان, « » خيلet « » خيول Des variations lexicales (on utilise pour le même sens des mots différents) comme dans le cas dans « » فرسet « ; » خيل Des variations sémantiques comme dans le cas de « مـرادف الصـخــر: » الـحــجـرet « أنثى الخيـل:» الحـجر. 5 Introduction Solutions Réduire la distance entre la pertinence système et la pertinence utilisateur Reformulation de la requête Ré-ordonnancement des documents Combinaison des résultats issus de différents SRI ou l’intégration du profil utilisateur 6 Introduction Reformulation de la requête. « plusieurs démarches » Par l’utilisation d’une représentation du domaine de recherche Par l’utilisation des relations sémantiques de bases terminologiques. Par l’utilisation d’un espace d’information structuré et construit automatiquement. L’interrogation se fait par navigation (query by navigation). Par l’utilisation des points de vue, les points de vue représentent des besoins élémentaires en information par exemple : causalité, définition, citation, thème,… 7 Introduction Reformulation de la requête. « plusieurs Approches » 8 Introduction Reformulation de la requête. « deux modes » Avant interrogation (pré-interrogation) Après interrogation (post-interrogation) 9 Introduction Reformulation de la requête. « deux manières » Reformulation automatique (la reformulation se déroule sans l’intervention de l’utilisateur) Reformulation interactive (consiste à utiliser la requête initiale de l’utilisateur pour amorcer la recherche, puis modifier celle-ci à partir de l’analyse des documents retournés) 10 Introduction Reformulation de la requête. « Résultats » La reformulation de la requête interactive permet d’améliorer la précision des résultats. L’efficacité du processus de reformulation est fortement lié à la disposition des utilisateurs et leurs aptitudes à juger la pertinence des documents 11 Introduction Reformulation de la requête. « Solution » Pour éviter la lourdeur de l’opération de jugement de pertinence des documents initialement restitués Le SRI considère les « n » premiers documents restitués initialement comme pertinents. Cette nouvelle forme de réinjection de pertinence est appelée aveugle (pseudo réinjection ou ad-hoc). 12 Introduction Objectif Cette étude entre dans le cadre de l’assistance de l’utilisateur par l’amélioration de sa requête . Nous proposons d’évaluer la technique de réinjection automatique de la pertinence pour les textes arabes. 13 Plan 1) 2) 3) 4) 5) Introduction La réinjection de la pertinence Expérimentation Discussion Conclusion 14 Plan 1) 2) 3) 4) 5) Introduction La réinjection de la pertinence Expérimentation Discussion Conclusion 15 2) Réinjection de la pertinence Figure : Les trois étapes de la réinjection de la pertinence 16 Plan 1) 2) 3) 4) 5) Introduction La réinjection de la pertinence Expérimentation Discussion Conclusion 17 3) Expérimentation Un corpus Nombre de fichiers texte Domaines Taille Nombre de mots Nombre de mots différents 22 000 santé, sport, politique, science, religion 180 Mo 17 000 000 612 650 50 requêtes API Lucene (Ver 3.0) + Java Technique de Clustering Locale 18 3) Expérimentation 19 3) Expérimentation Tableau : Le nombre des documents trouvés et pertinents avant et après réinjection de la pertinence Avant réinjection Après réinjection de la pertinence de la pertinence Nbr Nbr doc Nbr Nbr doc N° doc Pertinents doc Pertinents Requête retrouvés retrouvés retrouvés retrouvés 1 788 658 788 658 2 6373 646 6373 646 … … … … … 50 11232 1547 12743 1566 Tableau : Les différentes valeurs de précision obtenues avant et après réinjection de la pertinence. Précis ion moy enne P@ 5 P@ 10 P@ 20 P@ 100 P@ 1000 Avant réinjection de la pertinence 0,392 0,616 0,606 0,619 0,586 0,340 Après réinjection de la pertinence 0,338 0,640 0,618 0,598 0,558 0,332 20 Plan 1) 2) 3) 4) 5) Introduction La réinjection de la pertinence Expérimentation Discussion Conclusion 21 4) Discusion Le rappel : Il y a une augmentation en nombre de documents retournés après la RFA dans 35 requêtes (soit 70% des requêtes) et une augmentation en nombre de documents pertinents retournés après la RFA dans 29 requêtes (soit 58% des requêtes) Par conséquent nous pouvons annoncer que la RFA améliore le rappel du SRI pour les textes Arabes. La précision : une amélioration de l’ordre de 3,8% et de 1,9% dans les précisions à 5 et 10 documents respectivement. On peut déduire que le FRA n’améliore pas considérablement la précision d’un SRI arabe. 22 Plan 1) 2) 3) 4) 5) Introduction La réinjection de la pertinence Expérimentation Discussion Conclusion 23 5) Conclusion Dans cet article, nous avons évalué la stratégie de la RFA locale. Elle repose sur une expansion de la requête initiale par des termes (corrélés avec les termes de la requête initiale) issus de la matrice d’association. Cette stratégie a l’avantage d’être indépendante du SRI et donc elle pourra être facilement intégrer dans un moteur de recherche. Les résultats obtenus nous ont permet de : confirmer l’hypothèse de départ, à savoir, l’amélioration des performances du SRI Arabe. D’ouvrir la voie pour tester d’autres techniques avec les mêmes données de cette expérimentation pour déterminer la meilleure méthode pour la RFA dans un SRI Arabe. 24 Merci pour votre attention 25