Un système Multi-Agent pour la détection et la correction des erreurs

publicité
UNIVERSITE DE LA MANOUBA
ECOLE NATIONALE DES SCIENCES DE L’INFORMATIQUE
LABORATOIRE RIADI
Un système multi-agent pour la
détection et la correction des erreurs
cachées en langue Arabe
Chiraz BEN OTHMANE
Fériel BEN FRAJ
Mohamed BEN AHMED
1
Plan
• Présentation des erreurs cachées
• Quelles difficultés pour l’arabe ?
• Typologie des erreurs cachées
• La solution multi-agent
• Expérimentation et résultats
• Conclusion et perspectives
2
Erreurs cachées
Ce travail s’intéresse aux
erreurs cachées [COU, 94]
en langue arabe:
• erreurs de nature orthographique produisant des mots
lexicalement valides.
• présentent 25% à 40% parmi l’ensemble des erreurs
orthographiques dans des corpus en anglais [VER, 02].
Exemple
Le jardinier utilise le gâteau pour bêcher la terre (râteau)
3
Problématique
•
Aucune travail de recherche sur les
erreurs cachées en langue arabe
•
Particularités de la langue arabe
•
La détection/correction des erreurs
cachées touchent des niveaux d’analyse
linguistique avancées: syntaxique,
sémantique et pragmatique.
4
Quelles difficultés pour la
langue arabe?
L’agglutination: l’ajout des enclinomènes aux formes
simples

Une erreur cachée peu être la conséquence d’une
opération d’ajout ou d’omission d’un enclionomène
L’ambiguïté grammaticale : les mots arabes sont très
ambigus grammaticalement (5,63 en voyellé, 8,71 en
non voyellé) [DEB, 02]

Une erreur cachée peut être dûe à une confusion dans
l’interprétation grammaticale des formes textuelles
5
Quelles difficultés pour la
langue arabe?(suite)

La proximité lexicale: les mots en arabe sont
lexicalement très voisins les uns des autres à une
erreur d’édition près (ex: ‫كتب‬, ‫)كسب‬
(nombre moyen de formes voisines : 26,5 pour l’arabe,
3,5 pour le français et 3 pour l’anglais )
 Le risque de commettre une erreur cachée sera plus
important en arabe que pour d’autres langues
 La taille de la liste des candidats à la correction
d’une erreur cachée sera très grande
6
Typologie des erreurs
cachées
Anomalies
syntaxiques
Violation des règles d’accord
Erreurs liées à la transitivité
des verbes
sémantiques
Incomplétude sémantiques
Incompatibilité sémantiques
Structures agrammaticales
Exemple
Exemple
Exemple
‫ﺠﻤﻴﻠﺔ‬
)‫في‬
‫ﺠﻤﻴﻞ‬
‫ﺍﻠﻤﺓ‬
‫ﺍﻠﻓﺘـا‬
(‫سمكة‬
(‫ﻤﻛﺘﺒﻪ‬
‫كبيرة‬
) (‫ﻧﻛﺘﺒﻪ‬
‫سكة‬
‫الصياد‬
‫دير‬
‫اصطاد‬
‫جلس‬
‫ﺼﺪﻴﻗﻪ‬
) (‫لصديقه‬
‫ﺍﻠﻮﻠﺪ‬
‫ﺘﻒ‬
))(‫ليرتاح‬
‫يرتاح‬
‫الرجل‬
‫ﻫـانام‬
La afille
estgrande
beau
(belle)
Le
garçon
appelé
àrepose
son
ami
(son
ami)
Le L’homme
directeur
Le pêcheur
s’est
a endormi
assis
pêché
dans
une
nous
l’écrivons
voie
(poisson)
(son
bureau)
s’est
il se
(pour
se
reposer)
7
Hypothèses de travail
 L’arabe non voyellé
 Erreurs typographiques du type :
- Ajout d’un caractère,
- Omission d’un caractère
- Substitution d’un caractère par un autre
- Interversion de deux caractères adjacents
 Une seule erreur d’édition par mot (90% des cas)
[HAM, 93]
 Un seul mot erroné par phrase
8
Solution proposée
Architecture multi-agent
Nécessité d’optimisation du temps de réponse
Nécessité de collaboration, compétition et de partage
d’informations au sein du système
Nécessité d’interdépendance entre les différentes
phases d’analyse linguistique
L’application est composite, complexe et hiérarchique
9
L’architecture du système
Texte
brut

Analyseur
Morphosyntaxique
Texte
analysé




Candidats


Erreur
cachée
Groupe
syntaxique
d’agents
Groupe
sémantique
d’agents
Agent Coordinateur

Candidats
triés

Agent
correction

Candidats
minimisés
10
Le groupe syntaxique d’agents

Agent Transitivité
INFORMER
Agent Accord
Accord
Agent
Agent superviseur
Agent Compatibilité
grammaticale
Agent Correction
11
L’agent Accord

Utilise une base de règles d’accord pour la vérification des
contraintes d’accord dans la phrase.
Exemple de règle d’accord:
‘Un pronom démonstratif appelé ‫ ״ اسم إشارة ״‬prend le genre et le nombre du
mot qu’il remplace’.

La base est construite manuellement et contient environ 800
règles.
VGprec
P10
P10
P10
P10
P10
VGsuiv
S20
S23
S34
S37
S48
Genre
G1
G1
G1
G1
G1
Nombre
N1
N1
N1
N1
N1
Détermination
D0
D0
D0
D0
D0
Personne
F0
F0
F0
F0
F0
12
L’agent Transitivité

Utilise les règles de transitivité pour détecter les erreurs liées
à la transitivité.
Exemple de règle de transitivité:
Si le verbe est transitif direct alors il doit être suivi d’un
groupe nominal accusatif’.
13
L’agent compatibilité
grammaticale

Utilise une base de trigrammes d’hyperVGs pour vérifier la
validité de la structuration syntaxique d’une phrase.

La forme d’un hyperVG:
VGProclitique+VGRadical+VGEnclitique

Une matrice ternaire de succession d’hyperVGs.
HVG1
P+126+
P3+66+
P+195+41
P58+53+
HVG2
S+154+
S+14+
S+195+41
S+80+
S+78+
HGV3
T+193+38
T+53+
T+80+
T+156+
T+195+
Licite
L1
L1
L1
L1
L1
P+103+
14
Le groupe sémantique d’agents
Agent Cooccurrence

Agent superviseur
Agent Coordinateur
Agent Répétition
15
Agent Correction
L’agent Cooccurrence
« Chaque mot d’une phrase possède une affinité
sémantique avec ses voisins »
 recherche d’informations collocationnelles
I(m i ) = max
k ≤j≤k
Log
P( m i , c j )
P( m i )
P(c j )
P(mi ) la probabilité d’observer mi,
P(cj ) la probabilité d’observer cj ,
et P(mi , cj) la probabilité de les observer ensemble.

recherche des cooccurrences ordinaires
P(mi C ) 
Une association
habituelle de deux
ou plusieurs termes
(collocats) au sein
d’un discours
P(C mi ) P(mi )
P(C )
mi le mot cible de l’analyse
C l’ensemble des mots du contexte qui
l’entoure.
La fréquence
d’occurrence du mot
cible au sein du contexte
où il a été mis
16
L’agent Répétition
« Les mots ou plus précisément les lemmes des
mots d’un même texte ont tendance à se répéter »
 recherche de répétition
nombre d ' occurrences de l i
P(l i ) 
nombre total de lemmes
li le lemme du mot mi
17
L’agent Coordinateur

Combine les résultats trouvés par les deux agents
Cooccurrence et Répétition avec la formule linéaire:
F (mi )   * I (mi )   * Pmi C    * P(li )
F(mi ) la fréquence totale d’apparition du mot mi au sein du texte
, 

et 
sont trois coefficients liés aux trois probabilités contextuelles
calculées
Un mot mi est considéré valide sémantiquement si sa
fréquence F(mi) est supérieure à une valeur seuil
18
L’agent Correction
Agent superviseur
syntaxique
Agent
Agent Correction
Correction
Agent superviseur
sémantique
Liste minimisée
des candidats
à la correction
19
Expérimentations et Résultats

L’implémentation:


Le groupe syntaxique d’agents
L’agent Correction (génération et tri).
Le groupe sémantique d’agents
 Le corpus de test:
750 formes textuelles
100 erreurs cachées (du type syntaxique)
20
Evaluation de la détection

Résultats de la détection syntaxique
Précision
Rappel
Bruit
Silence
80%
77%
20%
23%
Silence
Bruit
20 %
23%
Précisio
80
n %
Rappel
77%
21
Evaluation de la correction
• Avant la minimisation de la liste des candidats
Couverture
Précision
Ambiguïté
Proposition
Rang
100%
100%
100%
82,5
8,7
• Après la minimisation de la liste des candidats
Couverture
Précision
Ambiguïté
Proposition
Rang
93,3%
86,6%
86,6%
18,4
2,8
Minimisation de 77%
22
Conclusion et Perspectives
 La partie du système implémentée a
donné des résultats satisfaisants
 Agrandir le corpus de test
 Compléter et améliorer les règles
syntaxiques
 Implémenter le groupe sémantique d’agents
 Cloner quelques agents
…
23
Merci pour votre attention
24
Anomalies
syntaxiques vs sémantiques
Une anomalie syntaxique et sémantique
Exemple

)‫ضربت الطفل بكى (فبكى‬
Une anomalie purement syntaxique
Exemple

(‫أصاب الصياد ظبي )ظبيا‬
Une anomalie purement sémantique
Exemple

(‫اصطاد الصياد سكة كبيرة )سمكة‬
25
Collaboration entres les groupes
d’agents
Agent superviseur
sémantique
Agent superviseur
syntaxique
Une anomalie
syntaxique
Une anomalie à la
fois syntaxique et
sémantique
Une anomalie
sémantique
26
Les anomalies syntaxiques
Violation des règles d’accord
Contraintes spécifiques à la grammaire qui assurent
la compatibilité morpho-syntaxique entre les mots
d’une phrase
Exemple
(‫)ﺠﻤﻴﻠﺔ‬
‫ﺍﻠﻓﺘـاﺓ ﺠﻤﻴﻞ‬
La fille est beau (belle)
27
Les anomalies syntaxiques (2)
Erreur liée à la transitivité
indique la possibilité pour un verbe d’avoir un
complément d’objet
Exemple
(‫لصديقه )ﺼﺪﻴﻗﻪ‬
‫ﻫـاﺘﻒ ﺍﻠﻮﻠﺪ‬
Le garçon a appelé à son ami (son ami)
28
Les anomalies syntaxiques
(3)
Structure agrammaticale
ne respecte pas les règles d’agencement des
catégories grammaticales au sein d’une phrase
Exemple
(‫)ﻤﻛﺘﺒﻪ‬
‫جلس ﺍﻠﻤدير في ﻧﻛﺘﺒﻪ‬
Le directeur s’est assis dans nous l’écrivons (son bureau)
29
Les anomalies sémantiques
L’incompatibilité sémantique
Injection d’un mot dans un contexte sémantique qui
n’est pas le sien
Exemple
(‫كبيرة )سمكة‬
‫اصطاد الصياد سكة‬
Le pêcheur a pêché une grande voie (poisson)
30
Les anomalies sémantiques
(2)
L’incomplétude sémantique
L’oubli de mots ou de particules dont le sens est
indispensable à l’interprétation de la phrase
Exemple
)‫ضربت الطفل بكى (فبكى‬
J’ai frappé l’enfant il a pleuré (alors il a pleuré)
31
Téléchargement