Le développement de corpus annotés pour la langue arabe

UNIVERSITÉ PARIS OUEST NANTERRE-LA DÉFENSE
ÉCOLE DOCTORALE 139 - Connaissance Langage Modélisation
UMR 7114 MoDyCo
Le développem ent de corpus annotés pour
la langue a r abe
THÈSE DE DOCTORAT
« SCIENCES DU LANGAGE : TRAITEMENT AUTOMATIQUE DES LANGUES »
Présentée par
W aj di Za ghoua ni
Sous la direction de Sylvain Kahane
Membres du jury :
Khalid Choukri, Directeur de E.L.D.A, Examinateur
Sylvain Kahane, Professeur à l’Université Paris Ouest Nanterre, Directeur de thèse
Jean-Luc Minel, Professeur à l’Université Paris Ouest Nanterre, Examinateur
Jean-Luc Muller, Directeur du CREFOP, Examinateur
Alexis Nasr, Professeur à l’Université Aix Marseille, Rapporteur
Thierry Poibeau, Directeur de Recherche au C.N.R.S, Rapporteur
Benoît Sagot, Chargé de Recherche à l’I.N.R.I.A, Université Paris 7, Examinateur
- 2 -
Résum é
L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans
la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la
création de ressources lexicales dans la langue arabe.
D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation,
de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de
procédures d’annotation existantes.
Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin,
nous illustrons l’importance de ces travaux pour le traitement automatique des langues en
illustrant quelques exemples de ressources et dapplications.
Mots clés : Annotation de corpus, Guides d’annotation, Treebank, Propbank, Langue
arabe
Abst ract
The goal of this thesis is to show the various aspects of corpus annotation in the Arabic
language. We present our publications on corpus annotation and lexical resources creation in
the Arabic language.
First, we discuss the methods, the language difficulties, the annotation guidelines, the
annotation effort optimization limits and how we adapted some of the existing annotation
procedures to the Arabic language.
Furthermore, we show the complementarity between the different layers of annotations.
Finally, we illustrate the importance of our work for natural language processing by
illustrating some examples of resources and applications.
Keywords: Corpus Annotation, Annotation guidelines, Treebank, Propbank, Arabic
Language
- 3 -
Table des m at ières
Introduction .......................................................................................... 8
1. Construction de corpus annotés pour la langue arabe .............. 9
2. Optimisation des procédures d’annotation ............................... 21
3. Traits linguistiques et annotation de l’arabe ............................ 27
4. Corpus et couches d’annotation ................................................. 32
5. Exploitation des corpus annotés ................................................. 34
Conclusion .......................................................................................... 36
Bibliographie ...................................................................................... 38
Annexe A Liste complète des arguments dans le corpus Propbank ............. 43
Annexe B Exemple d’un frame en XML dans la Propbank arabe ............... 44
Annexe C Création d’un frame avec Cornetstone .......................................... 45
Annexe D L’outil d’annotation QAWI pour le projet QALB ....................... 46
Annexe E Visualisation de l’écran d’accueil de l’outil ARET ....................... 47
Annexe F Liste des articles annexés ................................................................. 48
- 4 -
Certes, la science guide, dirige et sauve; l'ignorance égare, trompe et ruine
Imâm Ali ibn Abi Talib
- 5 -
À mes parents Moncef et Fatma
À Anissa, Adem, Anas
1 / 48 100%

Le développement de corpus annotés pour la langue arabe

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !