Les erreurs dans la production écrite de documents rédigés en

publicité
ELÉMENTS DE STRATÉGIE DE CORRECTION
AUTOMATIQUE DE TEXTES : LE CAS DES
FRANCOPHONES S’EXPRIMANT EN ANGLAIS
Camille Albert (CAS),
(
),
Marie Garnier (CAS),
Arnaud Rykner (LLA)
Patrick Saint-Dizier (IRIT)
Toulouse - France
SOMMAIRE
1. Définition du projet
éfi i i d
j
‐Motivation et objectifs du projet
‐Méthodologie de travail
Méthodologie de travail
2. Constitution du corpus
p
Nature , phases de la constitution et paramètres d’analyse du corpus
3. Détection et la correction des erreurs: un processus dynamique
‐La classification des erreurs: trois phases d’analyse
‐ Les principes d’annotation des erreurs en corpus
L
i i
d’
t ti d
‐Un exemple d’interaction: correcteur‐internet
L induction des règles de correction
des règles de correction
‐L’induction
Conclusion: perspectives du projet
p p
p j
DÉFINITION DU PROJET
Motivation:
Taux d’erreur
Mail: 1erreur/l.
1erreur/l
Publi: 3 erreur/p.
Démarche
expérimentale
é i
t l
Méthodologie de travail
Niveaux Niveaux
linguistiques des erreurs
Objectif:
Procédures de correction de
classes d’erreurs non traitées par
les éditeurs de texte
Corpus
Corpus:
-niveaux de contrôle:
--- emails, forums, blogs
+++ pub
publis,
s, rapports
appo ts
-domaines de spécialité
-contextes, public.
p
‐empirique: observation du corpus
‐d’annotations et induction de règles
‐paire de langue anglais‐français
‐lexique
lexique
‐syntaxe
‐style et texte
ETAT DE L’ART
Divers outils informatiques de correction automatique:
‐Word
‐logiciels gratuits: SpellCheck.net, BonPatron, Cordial 2008.
l i i l
t it S llCh k t B P t
C di l 2008
‐Post‐édition manuelles : ProofingPro, J. Clark Powers, Euroscript.
‐Google
g : traductions automatiques
q
|
Problème général C
Correction limitée à la
ti li ité à l correction d’erreurs simples, où l’interaction ti d’
i l
ù l’i t
ti
avec l’utilisateur est quasi‐inexistante. Æ Or cette interaction est souvent essentielle. Æ De plus il faut aussi souvent faire appel à des données linguistiques (lexicales).
|
CONSTITUTION DU CORPUS
Le corpus
| Locuteurs natifs français. | Taille: environ 200 pages. ‐90 pages de documents électroniques, 35 auteurs.
‐110 pages de documents publications, rapports, 50 auteurs.
Différentes phases :
‐mise en place d’un corpus exploratoire,
‐analyses qualitatives, avec une méthodologie du traitement de l
li i
éh d l i d
i
d
l’erreur: quelle(s) erreur(s)? Quel type? Quelle(s) () Q
g
p
correction(s)? Quelles catégorisations pour les erreurs?
‐analyses quantitatives: corpus d’emails (cf. tableau)
Type d’erreurs
Fréquence des erreurs sur les cinq corpus d’emails analysés
SYNTAXE
Aspect : perfectif vs. imperfectif
10 erreurs
Concordance des temps
Concordance des temps
13 erreurs
13 erreurs
Inversion sujet‐verbe
5 erreurs
Passif
4 erreurs
Accord sujet‐verbe
8 erreurs
Modalité : mauvais choix d’un modal
13 erreurs
Mauvais placement l
Prépositions :
Adverbe : Adj tif : Adjectif
LEXIQUE
6 erreurs
19 erreurs
1
1 erreur
Les omissions lexicales
Omission du sujet : Omission du verbe : Omission objet : 19 erreurs
1 erreur
6 erreurs
Adjectif : forme incorrecte
7 erreurs
Type d’erreur
ADVERBE
Mauvais choix
Mauvaise forme
PREPOSITION
E
Erreur de préposition
d
é iti
Absence de préposition
ERREURS D’INFLECTION
Lexique : mauvaise forme ou expression : mauvaise forme ou expression
idiomatique
Absence d’articles
j
Inflection incorrecte :nom/adv.,adj. Orthographe
Mauvaise forme verbale/inflection incorrecte
Nombre (accord singulier‐pluriel/ dé
dénombrables/ indénombrables)
b bl / dé
b bl )
Quantifieurs (few/a few/several/both…): incohérence quantitative
STYLE
Usage abusif des conjonctions (that/which)
Ponctuation : mauvais usage de la virgule
Fréquence de l’erreur
5 erreurs
7 erreurs
21 erreurs
21
13 erreurs
35 erreurs
35 erreurs
6 erreurs
31 erreurs
3 erreurs
8 erreurs
15 erreurs
7 erreurs
38 erreurs
Sur les cinq corpus analysés, un mail fait en moyenne cinq lignes, et le taux d’erreur s’élève à une erreur par ligne. PARAMÈTRES D’ANALYSE DU CORPUS
Syntaxe
y
‐contraintes temps +d’aspect
( f tif
(perfectif vs. Imperfectif)
I
f tif)
‐sujets ou déterminants manquants, (cf. emails)
‐positions incorrectes: modaux prépositions
modaux, prépositions, adjectifs, adverbes, ‐organisation incorrecte des compléments (arguments, adjonctions, objets manquants), )
‐extraposition incorrecte d’adjonctions, ‐usage ou construction alternative incorrects (ex
alternative incorrects (ex. une construction passive incorrecte), ‐absence d’accord entre le sujet et le verbe. j
Lexique
q
‐prépositions
i
incorrectes, t
‐choix incorrect d’adverbes, d’une catégorie de mot
‐formes
formes incorrectes de quantification,
‐ usage incorrect d’un terme
Style
y
‐usage excessif de sa e e essif de
connecteurs (and, but,…), ‐répétitions fréquentes, usage
fréquentes, usage incorrect de la paire that/which, ‐ponctuation
incorrecte ou manquante, t
‐formes singulières de coordination, formes interrogatives et interrogatives
interrogatives indirectes incorrectes, ‐style oral excessif
DÉTECTION ET CORRECTION DES ERREURS: UN
PROCESSUS DYNAMIQUE
Phase 1: Détection des erreurs
Phase
1: Détection des erreurs
Deux phénomènes typiques: le calque et l’hypercorrection
|
le calque: principe d
le
calque: principe d’analogie,
analogie, ne connaissant pas les contraintes ne connaissant pas les contraintes
d’une structure ou d’un fait de langue de l’anglais, le rédacteur applique un cadre français de sa langue maternelle en général.
ex: a quite
it good convergence
d
l’hypercorrection: règle ou tendance de l’anglais relevée mais appliquée abusivement ou de manière erronée. ex: the goal failure
Æ Autres situations: inattention, méconnaissance de caractéristiques idiosyncratiques de la langue.
DÉTECTION ET CORRECTION DES ERREURS: UN
PROCESSUS DYNAMIQUE
Phase 2: Catégorisation des erreurs: notre approche basée sur la syntaxe:
‐à l’intérieur du GN
‐à l’intérieur du GV
‐à l’intérieur de la proposition
‐lexique
l i
‐temps et aspect
‐style
style
|
DÉTECTION ET CORRECTION DES ERREURS: UN
PROCESSUS DYNAMIQUE
A l’intérieur du GN: Ordre incorrect des constituants (‘ for our both companies it will be a good thing that we enforce this...’ ), une erreur de quantifieur (‘a few’ à la place de ‘few’) la construction NØN,
p
f )
Ø , ((‘This meaning
g
transposition’, ‘an abstraction layer’…)
|
A ll’intérieur
A
intérieur du GV
du GV
Absence de préposition, omission de l’objet, du sujet…: 'I am sorry but I have to order emergency laser probes [...] Can you send me before Friday’ (cas d
Friday
d’omission
omission de l
de l’objet)
objet).
|
A ll’intérieur
A
intérieur de la Proposition
de la Proposition
Mauvais placement de l’adverbe, de la préposition, erreur d’accord sujet‐verbe: ‘I do not yet have the feedback'
|
DÉTECTION ET CORRECTION DES ERREURS: UN
PROCESSUS DYNAMIQUE
Lexique
Utilisation erronée d’un terme, erreur sur la catégorie grammaticale (nom à la place de verbe), erreur sur le type de nom (dénombrables vs. Indénombrables). ‘We are actually initiating our internal architecture study ’. 'actually'
architecture study…
actually est un faux sens; utilisé au sens de est un faux sens; utilisé au sens de
'actuellement‘ selon le contexte. Correction: 'currently'.
|
Temps et Aspect
Temps
et Aspect
Erreur sur la concordance des temps, erreur sur l’inflection verbale,… ‘I noted fares are increasing’;
|
Style
P
Ponctuation
i manquante ou incorrecte,
i
répétitions
é éii
trop fréquentes
fé
d
de
coordinateurs (and, then, so,…), subordonnant incorrect (‘who’ à la
place de ‘which’) 'These purchace price will be validated by you and
me , for the year.
year.'
|
ANNOTATION DES ERREURS
Erreurs de Style et de Forme
Phase 1: Détection
Phase 2:
Catégorisation
Phase 3: Correction
Principes d’annotations des erreurs
‐Taux compréhension + grammaticalité
‐Longueur du segment concerné
‐corrections
corrections possibles, etc.
possibles, etc.
‐Annotation des erreurs à l’aide des tags. ‐A
i d
à l’ id d
Chaque erreur est ‘taguée’
Chaque erreur est taguée de plusieurs de plusieurs
attributs
‐analyse manuelle d’erreurs sur les corpus
Induction des règle de correction à partir des ti à
ti d
annotations du corpus
Dimension didactique
‐Interaction avec le rédacteur
‐Aide à la prise de décision et argumentation des choix
PHASE 1: ANNOTATION DE L’ERREUR
La délimitation de l’erreur et sa caractérisation: <error‐zone>
| comprehension: du segment, évaluée de 0 à 4 (0 étant le pire).
| agrammaticality: de 0 à 2: agrammaticalité
i li d 0 à 2
i li é de l’erreur
d l’
| categ: principales catégories: lexique, syntaxe, style, sémantique, texte.
| source: calque, surcorrection,
q
| surface: taille du segment de texte à corriger: minimal, average, maximal,
| grammar: règles de grammaire pour la correction: by‐default, alternative, unlikely,
lik l
| meaning: indique si le sens a été altéré: yes, somewhat, no,
| var‐size: augmentation ou
a s e aug e tat o ou d
diminution du nombre
ut o du o b e de
de mots
ots da
danss le segment e seg e t
corrigé,
| change: changements de la correction: syntaxe, lexique, style, sémantique, texte.
| comp: niveau de compréhension
d
éh
d
du segment de texte
d
corrigé: yes, average, no,
é
| fix: indique si l’erreur est spécifique à la chaîne de mots et si la correction est
idiosyncrasique
y
q et ne peut
p
pas être étendue à d’autres structures,
p
| qualif: niveau de certitude du correcteur,
| correct: donne la correction.
PHASE 2: ANNOTATION DANS LE TEXTE
Un exemple
U
l d’annotation: la construction ‘NØN’ The meaning utterance.
d’
i
l
i ‘NØN’ Th
i
......<correction‐zone>
p
<error‐zone comprehension=”2”
agrammaticality=”1”
categ=”syntax” source=”calque”>
the meaning utterance
<correction qualif=”high” grammar=”by‐default” surface=“minimal”
meaning= “not
meaning
not altered
altered” Var
Var‐size=”+2”
size +2
change=”synt” comp=”yes”
correct= “the meaning of the utterance”>
</correction>
<correction qualif=“high” grammar=“unlikely” surface=“minimal”
meaning= “somewhat”
meaning= somewhat Var‐size=
Var‐size=”0”
0
change=“lexical+synt” comp=”average”
correct= “the meaningful utterance”>
</correction>
</error‐zone> </correction‐zone>.....
PHASE 3: INDUCTION DE RÈGLE DE CORRECTION
<correction‐rule>
<correction
rule>
<error‐zone comprehension=”2”
agrammaticality=”1”
categ=”syntax” source=”calque” pattern=”[Det N(1) N(2)]”>
<correction qualif=”high” grammar=”by‐default” surface=”minimal”
meaning= ”not altered” Var‐size=”+2”
change=”synt” comp=”yes”
web‐correct= ”[Det N(1) of the N(2)]” >
</correction>
/
<correction qualif=”high” grammar=”unlikely” surface=”minimal”
meaning= ”somewhat” Var‐size=”0”
change=”lexical+synt” comp=”average”
correct=”[Det Adj(deriv(N(1)) N(2)]” exemple=”the meaningful
utterance”>
</correction>
<correction qualif=”high”
<correction qualif=
high grammar=
grammar=”by
by‐default
default” surface=
surface=”minimal”
minimal
meaning= ”not altered” Var‐size=”+2”
change=”synt” comp=”yes”
web‐correct= ”[Det (N2) of the N(1)]” >
eb co ect [ et ( ) o t e ( )]
</correction>
</error‐zone> </correction‐rule>
INTERACTION CORRECTEUR- RÉDACTEUR
Les arguments pour chaque correction, et l’aide à la prise de décision.
Ex: Place de l’adverbe qui présente parfois plusieurs possibilités.
l
d l’ d b
é
f
l
bl é
• Our system is able to automatically derive information.
• Our system is
O
t i able to derive
bl t d i information automatically.
i f
ti
t
ti ll
‐ Les éléments taggés
Les éléments taggés dans la règle de correction sont interprétés dans la règle de correction sont interprétés
comme des arguments pour ou contre la correction proposée, en fonction des préférences de l’utilisateur telle ou telle correction est privilégiée.
‐Dimension didactique de la correction: aide à la prise de décision.
‐Profilage du rédacteur en fonction de son niveau et de la correction fil
d éd
f
i d
i
d l
i
désirée.
INTERACTION CORRECTEUR-INTERNET
• Situations complexes avec plusieurs corrections possibles
Ex: le NØN ‘The meaning utterance’ , deux corrections sont possibles:
‐ ‘the meaning of the utterance’: N1 qualifie N2. Respect de l’ordre des mots, ‐ ‘the
the meaningful
meaningful utterance
utterance’. Le correcteur modifie la catégorie de Le correcteur modifie la catégorie de
‘meaning’ et en fait un adjectif. Les deux corrections diffèrent par le sens. La première qualifie le sens de la proposition, alors que la deuxième qualifie la proposition. L’interaction avec le correcteur permet de l’aider à la prise de décision sur le sens souhaité, grâce notamment à l’explication
sur le sens souhaité, grâce notamment à l
explication apportée aux apportée aux
causes de l’erreur.
CONCLUSION: PERSPECTIVES DU PROJET
Octobre 2008‐ Juin 2009: phase exploratoire
‐Analyse à partir de petits corpus, ‐Définition des méthodes de travail, ‐Maquette ’jouet’ pour explorer les formalismes, coûts et défis. |
Juin 2009 – 2011: phase de développement
p
pp
‐Développement des travaux
‐Extensions à d’autres paires de langues (Français‐espagnol, espagnol anglais)
espagnol‐anglais).
|
Téléchargement