Correction automatique d*erreurs lexicales

publicité
Comment optimiser
l’aide à la rédaction?
S. Verlinde
KU Leuven - ILT
enseignement
apprentissage
temps
résultat
résultat
temps
archivage
dicos
grammaires
Aide à la rédaction?
1 objectif – 2 composantes
o
aide lors de la production du texte > predictive writing aid
o
aide lors de la révision du texte > corrective writing aid
(Ziyuan 2012)
3 langues – 1 site
o
utilisabilité/ergonomie: efficacité, efficience et satisfaction
Démo: ‘predictive writing aid’
Démo: ‘corrective writing aid’
Traitement des données
Analyse: suites de caractères
… bien …
Mais aussi: avions, entreprises, …
Analyse: motifs
… Ver + Nom …
Ver + Det + Nom
Ver + Det + Adj + Nom
Ver + Adv + Det + Nom
Ver + Adv + Det + Adj + Nom
Ver + Adv + Det + Adv + Adj + Nom
…
Nom + Ver
Analyse: parseur?
Selon un article ce qu'est publiée il y a quelques semaines, 66pour cent des
étudiants travaille comme Jobiste pendant l'été.
http://alpage.inria.fr/parserdemo
http://beta.visl.sdu.dk/visl/fr/parsing/automatic/trees.php
http://www.latl.unige.ch/
Analyse: parseur?
Analyse: parseur? > Antidote 8
Analyse: analyse syntaxique de surface?
Ou
analyse syntaxique superficielle
shallow parsing
identification des constituants d’une phrase
(groupes nominaux, verbe)
sans
structure interne
fonctions dans la phrase
Enrichissement: ressources
•
Ressources TAL: Lefff, Dela
92815 dictionnaire
•
dictionnaire
Résultats d’analyses de corpus: Google n-gram
Nom:Mas+SG
Enrichissement: ressources
•
Ressources lexicographiques
ex. verbes support
Enrichissement: ressources
•
enseignement
Correcteur orthographique (nl.)
Comment s’y prendre?
•
•
•
•
Ressources TAL/lexicographiques: listes de formes (768385)
•
‘Règles’ de composition de mots (analyse de corpus)
ex.
apparaat + nom > 2: apparaatsnoer, apparaatskosten
nom + apparaat > +370 mots composés
defensie + nom > +110 mots composés
nom + defensie > 1: milieudefensie
aanbieding + nom > 0
•
•
Préfixes et suffixes + leur longueur
Données diverses: listes d’entités nommées, de sigles, …
Listes d’erreurs fréquentes (enseignement)
Règles d’orthographe
ex.
régulier: peer > peren + sap > perensap
paardenbloem, depuis le 15.10.2005, auparavant: paardebloem
unique: maan > *manen + schijn > maneschijn
Néologismes: ‘mesttsunami’
Performances? Cf. Word
Correction d’erreurs lexicales: combinaisons de mots (fr.)
Comment s’y prendre?
• Détection d’erreurs
• Correction des erreurs
Espagne (Wanner, A. Ramos)
Belgique
synonymes
traductions

1) mesure d’affinité
2) mesure de contexte lexical
3) mesure de paramètres contextuels
fonctions lexicales Mel’čuk

1)
2)
3)
fréquence
mesure d’association
fréquence *
mesure d’association
Fonctions lexicales: verbes support
Fonctions lexicales
Démarche
inventaire verbes support (collocatifs - 233) + noms (bases - 673)
T. Fontenelle
Dafles
Analyse de corpus
673 bases * 233 collocatifs:
fréquence + mesure d’association
Analyse linguistique
structure prédicative des 673 bases
identification de la fonction lexicale
Programmation PHP
Intégration des données
La touche finale…
Informations contextuelles
Google n-gram
Programmation PHP
appariement
bases + collocatifs
informations contextuelles
Programmation PHP
Interface utilisateur
Et le résultat?
Références bibliographiques
•
Ferraro, G. - Nazar, R. - Wanner, L. (2011). Collocations: A Challenge in
Computer-Assisted Language Learning.
http://olst.ling.umontreal.ca/pdf/proceedingsMTT2011.pdf
•
Heift, T. – Schulze, M. (2007). Errors and intelligence in computer-assisted
language learning. Parsers and pedagogues. New York: Routledge.
•
Leacock, C. - Chodorow, M. - Gamon, M. - Tetreault, J. (2010). Automated
grammatical error detection for language learners. San Rafael : Morgan &
Claypool.
•
Verlinde, S. – Peeters, G. (2012). Data access revisited: The Interactive
Language Toolbox. In S. Granger – M. Paquot (éds). Electronic Lexicography.
Oxford: Oxford University Press.
•
Wanner, L. – Alonso Ramos, M. – e.a. (2011). Annotation of collocations in a
learner corpus for building a learning environment.
http://www.dicesp.com/app/webroot/files/file/LCR2011_proceedings_wanner_l
eo_1_.pdf
http://ilt.kuleuven.be/inlato
Téléchargement