- 2 -
Résum é
L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans
la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la
création de ressources lexicales dans la langue arabe.
D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation,
de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de
procédures d’annotation existantes.
Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin,
nous illustrons l’importance de ces travaux pour le traitement automatique des langues en
illustrant quelques exemples de ressources et d’applications.
Mots clés : Annotation de corpus, Guides d’annotation, Treebank, Propbank, Langue
arabe
Abst ract
The goal of this thesis is to show the various aspects of corpus annotation in the Arabic
language. We present our publications on corpus annotation and lexical resources creation in
the Arabic language.
First, we discuss the methods, the language difficulties, the annotation guidelines, the
annotation effort optimization limits and how we adapted some of the existing annotation
procedures to the Arabic language.
Furthermore, we show the complementarity between the different layers of annotations.
Finally, we illustrate the importance of our work for natural language processing by
illustrating some examples of resources and applications.
Keywords: Corpus Annotation, Annotation guidelines, Treebank, Propbank, Arabic
Language