UNIVERSITE DE LA MANOUBA ECOLE NATIONALE DES SCIENCES DE L’INFORMATIQUE LABORATOIRE RIADI Un système multi-agent pour la détection et la correction des erreurs cachées en langue Arabe Chiraz BEN OTHMANE Fériel BEN FRAJ Mohamed BEN AHMED 1 Plan • Présentation des erreurs cachées • Quelles difficultés pour l’arabe ? • Typologie des erreurs cachées • La solution multi-agent • Expérimentation et résultats • Conclusion et perspectives 2 Erreurs cachées Ce travail s’intéresse aux erreurs cachées [COU, 94] en langue arabe: • erreurs de nature orthographique produisant des mots lexicalement valides. • présentent 25% à 40% parmi l’ensemble des erreurs orthographiques dans des corpus en anglais [VER, 02]. Exemple Le jardinier utilise le gâteau pour bêcher la terre (râteau) 3 Problématique • Aucune travail de recherche sur les erreurs cachées en langue arabe • Particularités de la langue arabe • La détection/correction des erreurs cachées touchent des niveaux d’analyse linguistique avancées: syntaxique, sémantique et pragmatique. 4 Quelles difficultés pour la langue arabe? L’agglutination: l’ajout des enclinomènes aux formes simples Une erreur cachée peu être la conséquence d’une opération d’ajout ou d’omission d’un enclionomène L’ambiguïté grammaticale : les mots arabes sont très ambigus grammaticalement (5,63 en voyellé, 8,71 en non voyellé) [DEB, 02] Une erreur cachée peut être dûe à une confusion dans l’interprétation grammaticale des formes textuelles 5 Quelles difficultés pour la langue arabe?(suite) La proximité lexicale: les mots en arabe sont lexicalement très voisins les uns des autres à une erreur d’édition près (ex: كتب, )كسب (nombre moyen de formes voisines : 26,5 pour l’arabe, 3,5 pour le français et 3 pour l’anglais ) Le risque de commettre une erreur cachée sera plus important en arabe que pour d’autres langues La taille de la liste des candidats à la correction d’une erreur cachée sera très grande 6 Typologie des erreurs cachées Anomalies syntaxiques Violation des règles d’accord Erreurs liées à la transitivité des verbes sémantiques Incomplétude sémantiques Incompatibilité sémantiques Structures agrammaticales Exemple Exemple Exemple ﺠﻤﻴﻠﺔ )في ﺠﻤﻴﻞ ﺍﻠﻤﺓ ﺍﻠﻓﺘـا (سمكة (ﻤﻛﺘﺒﻪ كبيرة ) (ﻧﻛﺘﺒﻪ سكة الصياد دير اصطاد جلس ﺼﺪﻴﻗﻪ ) (لصديقه ﺍﻠﻮﻠﺪ ﺘﻒ ))(ليرتاح يرتاح الرجل ﻫـانام La afille estgrande beau (belle) Le garçon appelé àrepose son ami (son ami) Le L’homme directeur Le pêcheur s’est a endormi assis pêché dans une nous l’écrivons voie (poisson) (son bureau) s’est il se (pour se reposer) 7 Hypothèses de travail L’arabe non voyellé Erreurs typographiques du type : - Ajout d’un caractère, - Omission d’un caractère - Substitution d’un caractère par un autre - Interversion de deux caractères adjacents Une seule erreur d’édition par mot (90% des cas) [HAM, 93] Un seul mot erroné par phrase 8 Solution proposée Architecture multi-agent Nécessité d’optimisation du temps de réponse Nécessité de collaboration, compétition et de partage d’informations au sein du système Nécessité d’interdépendance entre les différentes phases d’analyse linguistique L’application est composite, complexe et hiérarchique 9 L’architecture du système Texte brut Analyseur Morphosyntaxique Texte analysé Candidats Erreur cachée Groupe syntaxique d’agents Groupe sémantique d’agents Agent Coordinateur Candidats triés Agent correction Candidats minimisés 10 Le groupe syntaxique d’agents Agent Transitivité INFORMER Agent Accord Accord Agent Agent superviseur Agent Compatibilité grammaticale Agent Correction 11 L’agent Accord Utilise une base de règles d’accord pour la vérification des contraintes d’accord dans la phrase. Exemple de règle d’accord: ‘Un pronom démonstratif appelé ״ اسم إشارة ״prend le genre et le nombre du mot qu’il remplace’. La base est construite manuellement et contient environ 800 règles. VGprec P10 P10 P10 P10 P10 VGsuiv S20 S23 S34 S37 S48 Genre G1 G1 G1 G1 G1 Nombre N1 N1 N1 N1 N1 Détermination D0 D0 D0 D0 D0 Personne F0 F0 F0 F0 F0 12 L’agent Transitivité Utilise les règles de transitivité pour détecter les erreurs liées à la transitivité. Exemple de règle de transitivité: Si le verbe est transitif direct alors il doit être suivi d’un groupe nominal accusatif’. 13 L’agent compatibilité grammaticale Utilise une base de trigrammes d’hyperVGs pour vérifier la validité de la structuration syntaxique d’une phrase. La forme d’un hyperVG: VGProclitique+VGRadical+VGEnclitique Une matrice ternaire de succession d’hyperVGs. HVG1 P+126+ P3+66+ P+195+41 P58+53+ HVG2 S+154+ S+14+ S+195+41 S+80+ S+78+ HGV3 T+193+38 T+53+ T+80+ T+156+ T+195+ Licite L1 L1 L1 L1 L1 P+103+ 14 Le groupe sémantique d’agents Agent Cooccurrence Agent superviseur Agent Coordinateur Agent Répétition 15 Agent Correction L’agent Cooccurrence « Chaque mot d’une phrase possède une affinité sémantique avec ses voisins » recherche d’informations collocationnelles I(m i ) = max k ≤j≤k Log P( m i , c j ) P( m i ) P(c j ) P(mi ) la probabilité d’observer mi, P(cj ) la probabilité d’observer cj , et P(mi , cj) la probabilité de les observer ensemble. recherche des cooccurrences ordinaires P(mi C ) Une association habituelle de deux ou plusieurs termes (collocats) au sein d’un discours P(C mi ) P(mi ) P(C ) mi le mot cible de l’analyse C l’ensemble des mots du contexte qui l’entoure. La fréquence d’occurrence du mot cible au sein du contexte où il a été mis 16 L’agent Répétition « Les mots ou plus précisément les lemmes des mots d’un même texte ont tendance à se répéter » recherche de répétition nombre d ' occurrences de l i P(l i ) nombre total de lemmes li le lemme du mot mi 17 L’agent Coordinateur Combine les résultats trouvés par les deux agents Cooccurrence et Répétition avec la formule linéaire: F (mi ) * I (mi ) * Pmi C * P(li ) F(mi ) la fréquence totale d’apparition du mot mi au sein du texte , et sont trois coefficients liés aux trois probabilités contextuelles calculées Un mot mi est considéré valide sémantiquement si sa fréquence F(mi) est supérieure à une valeur seuil 18 L’agent Correction Agent superviseur syntaxique Agent Agent Correction Correction Agent superviseur sémantique Liste minimisée des candidats à la correction 19 Expérimentations et Résultats L’implémentation: Le groupe syntaxique d’agents L’agent Correction (génération et tri). Le groupe sémantique d’agents Le corpus de test: 750 formes textuelles 100 erreurs cachées (du type syntaxique) 20 Evaluation de la détection Résultats de la détection syntaxique Précision Rappel Bruit Silence 80% 77% 20% 23% Silence Bruit 20 % 23% Précisio 80 n % Rappel 77% 21 Evaluation de la correction • Avant la minimisation de la liste des candidats Couverture Précision Ambiguïté Proposition Rang 100% 100% 100% 82,5 8,7 • Après la minimisation de la liste des candidats Couverture Précision Ambiguïté Proposition Rang 93,3% 86,6% 86,6% 18,4 2,8 Minimisation de 77% 22 Conclusion et Perspectives La partie du système implémentée a donné des résultats satisfaisants Agrandir le corpus de test Compléter et améliorer les règles syntaxiques Implémenter le groupe sémantique d’agents Cloner quelques agents … 23 Merci pour votre attention 24 Anomalies syntaxiques vs sémantiques Une anomalie syntaxique et sémantique Exemple )ضربت الطفل بكى (فبكى Une anomalie purement syntaxique Exemple (أصاب الصياد ظبي )ظبيا Une anomalie purement sémantique Exemple (اصطاد الصياد سكة كبيرة )سمكة 25 Collaboration entres les groupes d’agents Agent superviseur sémantique Agent superviseur syntaxique Une anomalie syntaxique Une anomalie à la fois syntaxique et sémantique Une anomalie sémantique 26 Les anomalies syntaxiques Violation des règles d’accord Contraintes spécifiques à la grammaire qui assurent la compatibilité morpho-syntaxique entre les mots d’une phrase Exemple ()ﺠﻤﻴﻠﺔ ﺍﻠﻓﺘـاﺓ ﺠﻤﻴﻞ La fille est beau (belle) 27 Les anomalies syntaxiques (2) Erreur liée à la transitivité indique la possibilité pour un verbe d’avoir un complément d’objet Exemple (لصديقه )ﺼﺪﻴﻗﻪ ﻫـاﺘﻒ ﺍﻠﻮﻠﺪ Le garçon a appelé à son ami (son ami) 28 Les anomalies syntaxiques (3) Structure agrammaticale ne respecte pas les règles d’agencement des catégories grammaticales au sein d’une phrase Exemple ()ﻤﻛﺘﺒﻪ جلس ﺍﻠﻤدير في ﻧﻛﺘﺒﻪ Le directeur s’est assis dans nous l’écrivons (son bureau) 29 Les anomalies sémantiques L’incompatibilité sémantique Injection d’un mot dans un contexte sémantique qui n’est pas le sien Exemple (كبيرة )سمكة اصطاد الصياد سكة Le pêcheur a pêché une grande voie (poisson) 30 Les anomalies sémantiques (2) L’incomplétude sémantique L’oubli de mots ou de particules dont le sens est indispensable à l’interprétation de la phrase Exemple )ضربت الطفل بكى (فبكى J’ai frappé l’enfant il a pleuré (alors il a pleuré) 31