ELÉMENTS DE STRATÉGIE DE CORRECTION AUTOMATIQUE DE TEXTES : LE CAS DES FRANCOPHONES S’EXPRIMANT EN ANGLAIS Camille Albert (CAS), ( ), Marie Garnier (CAS), Arnaud Rykner (LLA) Patrick Saint-Dizier (IRIT) Toulouse - France SOMMAIRE 1. Définition du projet éfi i i d j ‐Motivation et objectifs du projet ‐Méthodologie de travail Méthodologie de travail 2. Constitution du corpus p Nature , phases de la constitution et paramètres d’analyse du corpus 3. Détection et la correction des erreurs: un processus dynamique ‐La classification des erreurs: trois phases d’analyse ‐ Les principes d’annotation des erreurs en corpus L i i d’ t ti d ‐Un exemple d’interaction: correcteur‐internet L induction des règles de correction des règles de correction ‐L’induction Conclusion: perspectives du projet p p p j DÉFINITION DU PROJET Motivation: Taux d’erreur Mail: 1erreur/l. 1erreur/l Publi: 3 erreur/p. Démarche expérimentale é i t l Méthodologie de travail Niveaux Niveaux linguistiques des erreurs Objectif: Procédures de correction de classes d’erreurs non traitées par les éditeurs de texte Corpus Corpus: -niveaux de contrôle: --- emails, forums, blogs +++ pub publis, s, rapports appo ts -domaines de spécialité -contextes, public. p ‐empirique: observation du corpus ‐d’annotations et induction de règles ‐paire de langue anglais‐français ‐lexique lexique ‐syntaxe ‐style et texte ETAT DE L’ART Divers outils informatiques de correction automatique: ‐Word ‐logiciels gratuits: SpellCheck.net, BonPatron, Cordial 2008. l i i l t it S llCh k t B P t C di l 2008 ‐Post‐édition manuelles : ProofingPro, J. Clark Powers, Euroscript. ‐Google g : traductions automatiques q | Problème général C Correction limitée à la ti li ité à l correction d’erreurs simples, où l’interaction ti d’ i l ù l’i t ti avec l’utilisateur est quasi‐inexistante. Æ Or cette interaction est souvent essentielle. Æ De plus il faut aussi souvent faire appel à des données linguistiques (lexicales). | CONSTITUTION DU CORPUS Le corpus | Locuteurs natifs français. | Taille: environ 200 pages. ‐90 pages de documents électroniques, 35 auteurs. ‐110 pages de documents publications, rapports, 50 auteurs. Différentes phases : ‐mise en place d’un corpus exploratoire, ‐analyses qualitatives, avec une méthodologie du traitement de l li i éh d l i d i d l’erreur: quelle(s) erreur(s)? Quel type? Quelle(s) () Q g p correction(s)? Quelles catégorisations pour les erreurs? ‐analyses quantitatives: corpus d’emails (cf. tableau) Type d’erreurs Fréquence des erreurs sur les cinq corpus d’emails analysés SYNTAXE Aspect : perfectif vs. imperfectif 10 erreurs Concordance des temps Concordance des temps 13 erreurs 13 erreurs Inversion sujet‐verbe 5 erreurs Passif 4 erreurs Accord sujet‐verbe 8 erreurs Modalité : mauvais choix d’un modal 13 erreurs Mauvais placement l Prépositions : Adverbe : Adj tif : Adjectif LEXIQUE 6 erreurs 19 erreurs 1 1 erreur Les omissions lexicales Omission du sujet : Omission du verbe : Omission objet : 19 erreurs 1 erreur 6 erreurs Adjectif : forme incorrecte 7 erreurs Type d’erreur ADVERBE Mauvais choix Mauvaise forme PREPOSITION E Erreur de préposition d é iti Absence de préposition ERREURS D’INFLECTION Lexique : mauvaise forme ou expression : mauvaise forme ou expression idiomatique Absence d’articles j Inflection incorrecte :nom/adv.,adj. Orthographe Mauvaise forme verbale/inflection incorrecte Nombre (accord singulier‐pluriel/ dé dénombrables/ indénombrables) b bl / dé b bl ) Quantifieurs (few/a few/several/both…): incohérence quantitative STYLE Usage abusif des conjonctions (that/which) Ponctuation : mauvais usage de la virgule Fréquence de l’erreur 5 erreurs 7 erreurs 21 erreurs 21 13 erreurs 35 erreurs 35 erreurs 6 erreurs 31 erreurs 3 erreurs 8 erreurs 15 erreurs 7 erreurs 38 erreurs Sur les cinq corpus analysés, un mail fait en moyenne cinq lignes, et le taux d’erreur s’élève à une erreur par ligne. PARAMÈTRES D’ANALYSE DU CORPUS Syntaxe y ‐contraintes temps +d’aspect ( f tif (perfectif vs. Imperfectif) I f tif) ‐sujets ou déterminants manquants, (cf. emails) ‐positions incorrectes: modaux prépositions modaux, prépositions, adjectifs, adverbes, ‐organisation incorrecte des compléments (arguments, adjonctions, objets manquants), ) ‐extraposition incorrecte d’adjonctions, ‐usage ou construction alternative incorrects (ex alternative incorrects (ex. une construction passive incorrecte), ‐absence d’accord entre le sujet et le verbe. j Lexique q ‐prépositions i incorrectes, t ‐choix incorrect d’adverbes, d’une catégorie de mot ‐formes formes incorrectes de quantification, ‐ usage incorrect d’un terme Style y ‐usage excessif de sa e e essif de connecteurs (and, but,…), ‐répétitions fréquentes, usage fréquentes, usage incorrect de la paire that/which, ‐ponctuation incorrecte ou manquante, t ‐formes singulières de coordination, formes interrogatives et interrogatives interrogatives indirectes incorrectes, ‐style oral excessif DÉTECTION ET CORRECTION DES ERREURS: UN PROCESSUS DYNAMIQUE Phase 1: Détection des erreurs Phase 1: Détection des erreurs Deux phénomènes typiques: le calque et l’hypercorrection | le calque: principe d le calque: principe d’analogie, analogie, ne connaissant pas les contraintes ne connaissant pas les contraintes d’une structure ou d’un fait de langue de l’anglais, le rédacteur applique un cadre français de sa langue maternelle en général. ex: a quite it good convergence d l’hypercorrection: règle ou tendance de l’anglais relevée mais appliquée abusivement ou de manière erronée. ex: the goal failure Æ Autres situations: inattention, méconnaissance de caractéristiques idiosyncratiques de la langue. DÉTECTION ET CORRECTION DES ERREURS: UN PROCESSUS DYNAMIQUE Phase 2: Catégorisation des erreurs: notre approche basée sur la syntaxe: ‐à l’intérieur du GN ‐à l’intérieur du GV ‐à l’intérieur de la proposition ‐lexique l i ‐temps et aspect ‐style style | DÉTECTION ET CORRECTION DES ERREURS: UN PROCESSUS DYNAMIQUE A l’intérieur du GN: Ordre incorrect des constituants (‘ for our both companies it will be a good thing that we enforce this...’ ), une erreur de quantifieur (‘a few’ à la place de ‘few’) la construction NØN, p f ) Ø , ((‘This meaning g transposition’, ‘an abstraction layer’…) | A ll’intérieur A intérieur du GV du GV Absence de préposition, omission de l’objet, du sujet…: 'I am sorry but I have to order emergency laser probes [...] Can you send me before Friday’ (cas d Friday d’omission omission de l de l’objet) objet). | A ll’intérieur A intérieur de la Proposition de la Proposition Mauvais placement de l’adverbe, de la préposition, erreur d’accord sujet‐verbe: ‘I do not yet have the feedback' | DÉTECTION ET CORRECTION DES ERREURS: UN PROCESSUS DYNAMIQUE Lexique Utilisation erronée d’un terme, erreur sur la catégorie grammaticale (nom à la place de verbe), erreur sur le type de nom (dénombrables vs. Indénombrables). ‘We are actually initiating our internal architecture study ’. 'actually' architecture study… actually est un faux sens; utilisé au sens de est un faux sens; utilisé au sens de 'actuellement‘ selon le contexte. Correction: 'currently'. | Temps et Aspect Temps et Aspect Erreur sur la concordance des temps, erreur sur l’inflection verbale,… ‘I noted fares are increasing’; | Style P Ponctuation i manquante ou incorrecte, i répétitions é éii trop fréquentes fé d de coordinateurs (and, then, so,…), subordonnant incorrect (‘who’ à la place de ‘which’) 'These purchace price will be validated by you and me , for the year. year.' | ANNOTATION DES ERREURS Erreurs de Style et de Forme Phase 1: Détection Phase 2: Catégorisation Phase 3: Correction Principes d’annotations des erreurs ‐Taux compréhension + grammaticalité ‐Longueur du segment concerné ‐corrections corrections possibles, etc. possibles, etc. ‐Annotation des erreurs à l’aide des tags. ‐A i d à l’ id d Chaque erreur est ‘taguée’ Chaque erreur est taguée de plusieurs de plusieurs attributs ‐analyse manuelle d’erreurs sur les corpus Induction des règle de correction à partir des ti à ti d annotations du corpus Dimension didactique ‐Interaction avec le rédacteur ‐Aide à la prise de décision et argumentation des choix PHASE 1: ANNOTATION DE L’ERREUR La délimitation de l’erreur et sa caractérisation: <error‐zone> | comprehension: du segment, évaluée de 0 à 4 (0 étant le pire). | agrammaticality: de 0 à 2: agrammaticalité i li d 0 à 2 i li é de l’erreur d l’ | categ: principales catégories: lexique, syntaxe, style, sémantique, texte. | source: calque, surcorrection, q | surface: taille du segment de texte à corriger: minimal, average, maximal, | grammar: règles de grammaire pour la correction: by‐default, alternative, unlikely, lik l | meaning: indique si le sens a été altéré: yes, somewhat, no, | var‐size: augmentation ou a s e aug e tat o ou d diminution du nombre ut o du o b e de de mots ots da danss le segment e seg e t corrigé, | change: changements de la correction: syntaxe, lexique, style, sémantique, texte. | comp: niveau de compréhension d éh d du segment de texte d corrigé: yes, average, no, é | fix: indique si l’erreur est spécifique à la chaîne de mots et si la correction est idiosyncrasique y q et ne peut p pas être étendue à d’autres structures, p | qualif: niveau de certitude du correcteur, | correct: donne la correction. PHASE 2: ANNOTATION DANS LE TEXTE Un exemple U l d’annotation: la construction ‘NØN’ The meaning utterance. d’ i l i ‘NØN’ Th i ......<correction‐zone> p <error‐zone comprehension=”2” agrammaticality=”1” categ=”syntax” source=”calque”> the meaning utterance <correction qualif=”high” grammar=”by‐default” surface=“minimal” meaning= “not meaning not altered altered” Var Var‐size=”+2” size +2 change=”synt” comp=”yes” correct= “the meaning of the utterance”> </correction> <correction qualif=“high” grammar=“unlikely” surface=“minimal” meaning= “somewhat” meaning= somewhat Var‐size= Var‐size=”0” 0 change=“lexical+synt” comp=”average” correct= “the meaningful utterance”> </correction> </error‐zone> </correction‐zone>..... PHASE 3: INDUCTION DE RÈGLE DE CORRECTION <correction‐rule> <correction rule> <error‐zone comprehension=”2” agrammaticality=”1” categ=”syntax” source=”calque” pattern=”[Det N(1) N(2)]”> <correction qualif=”high” grammar=”by‐default” surface=”minimal” meaning= ”not altered” Var‐size=”+2” change=”synt” comp=”yes” web‐correct= ”[Det N(1) of the N(2)]” > </correction> / <correction qualif=”high” grammar=”unlikely” surface=”minimal” meaning= ”somewhat” Var‐size=”0” change=”lexical+synt” comp=”average” correct=”[Det Adj(deriv(N(1)) N(2)]” exemple=”the meaningful utterance”> </correction> <correction qualif=”high” <correction qualif= high grammar= grammar=”by by‐default default” surface= surface=”minimal” minimal meaning= ”not altered” Var‐size=”+2” change=”synt” comp=”yes” web‐correct= ”[Det (N2) of the N(1)]” > eb co ect [ et ( ) o t e ( )] </correction> </error‐zone> </correction‐rule> INTERACTION CORRECTEUR- RÉDACTEUR Les arguments pour chaque correction, et l’aide à la prise de décision. Ex: Place de l’adverbe qui présente parfois plusieurs possibilités. l d l’ d b é f l bl é • Our system is able to automatically derive information. • Our system is O t i able to derive bl t d i information automatically. i f ti t ti ll ‐ Les éléments taggés Les éléments taggés dans la règle de correction sont interprétés dans la règle de correction sont interprétés comme des arguments pour ou contre la correction proposée, en fonction des préférences de l’utilisateur telle ou telle correction est privilégiée. ‐Dimension didactique de la correction: aide à la prise de décision. ‐Profilage du rédacteur en fonction de son niveau et de la correction fil d éd f i d i d l i désirée. INTERACTION CORRECTEUR-INTERNET • Situations complexes avec plusieurs corrections possibles Ex: le NØN ‘The meaning utterance’ , deux corrections sont possibles: ‐ ‘the meaning of the utterance’: N1 qualifie N2. Respect de l’ordre des mots, ‐ ‘the the meaningful meaningful utterance utterance’. Le correcteur modifie la catégorie de Le correcteur modifie la catégorie de ‘meaning’ et en fait un adjectif. Les deux corrections diffèrent par le sens. La première qualifie le sens de la proposition, alors que la deuxième qualifie la proposition. L’interaction avec le correcteur permet de l’aider à la prise de décision sur le sens souhaité, grâce notamment à l’explication sur le sens souhaité, grâce notamment à l explication apportée aux apportée aux causes de l’erreur. CONCLUSION: PERSPECTIVES DU PROJET Octobre 2008‐ Juin 2009: phase exploratoire ‐Analyse à partir de petits corpus, ‐Définition des méthodes de travail, ‐Maquette ’jouet’ pour explorer les formalismes, coûts et défis. | Juin 2009 – 2011: phase de développement p pp ‐Développement des travaux ‐Extensions à d’autres paires de langues (Français‐espagnol, espagnol anglais) espagnol‐anglais). |