Le développement de corpus annotés pour la langue arabe

Téléchargement

UNIVERSITÉ PARIS OUEST NANTERRE-LA DÉFENSE

ÉCOLE DOCTORALE 139 - Connaissance Langage Modélisation

UMR 7114 MoDyCo

Le développem ent de corpus annotés pour

la langue a r abe

THÈSE DE DOCTORAT

« SCIENCES DU LANGAGE : TRAITEMENT AUTOMATIQUE DES LANGUES »

Présentée par

W aj di Za ghoua ni

Sous la direction de Sylvain Kahane

Membres du jury :

Khalid Choukri, Directeur de E.L.D.A, Examinateur

Sylvain Kahane, Professeur à l’Université Paris Ouest Nanterre, Directeur de thèse

Jean-Luc Minel, Professeur à l’Université Paris Ouest Nanterre, Examinateur

Jean-Luc Muller, Directeur du CREFOP, Examinateur

Alexis Nasr, Professeur à l’Université Aix Marseille, Rapporteur

Thierry Poibeau, Directeur de Recherche au C.N.R.S, Rapporteur

Benoît Sagot, Chargé de Recherche à l’I.N.R.I.A, Université Paris 7, Examinateur

- 2 -

Résum é

L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans

la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la

création de ressources lexicales dans la langue arabe.

D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation,

de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de

procédures d’annotation existantes.

Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin,

nous illustrons l’importance de ces travaux pour le traitement automatique des langues en

illustrant quelques exemples de ressources et d’applications.

Mots clés : Annotation de corpus, Guides d’annotation, Treebank, Propbank, Langue

arabe

Abst ract

The goal of this thesis is to show the various aspects of corpus annotation in the Arabic

language. We present our publications on corpus annotation and lexical resources creation in

the Arabic language.

First, we discuss the methods, the language difficulties, the annotation guidelines, the

annotation effort optimization limits and how we adapted some of the existing annotation

procedures to the Arabic language.

Furthermore, we show the complementarity between the different layers of annotations.

Finally, we illustrate the importance of our work for natural language processing by

illustrating some examples of resources and applications.

Keywords: Corpus Annotation, Annotation guidelines, Treebank, Propbank, Arabic

Language

- 3 -

Table des m at ières

Introduction .......................................................................................... 8

1. Construction de corpus annotés pour la langue arabe .............. 9

2. Optimisation des procédures d’annotation ............................... 21

3. Traits linguistiques et annotation de l’arabe ............................ 27

4. Corpus et couches d’annotation ................................................. 32

5. Exploitation des corpus annotés ................................................. 34

Conclusion .......................................................................................... 36

Bibliographie ...................................................................................... 38

Annexe A Liste complète des arguments dans le corpus Propbank ............. 43

Annexe B Exemple d’un frame en XML dans la Propbank arabe ............... 44

Annexe C Création d’un frame avec Cornetstone .......................................... 45

Annexe D L’outil d’annotation QAWI pour le projet QALB ....................... 46

Annexe E Visualisation de l’écran d’accueil de l’outil ARET ....................... 47

Annexe F Liste des articles annexés ................................................................. 48

- 4 -

Certes, la science guide, dirige et sauve; l'ignorance égare, trompe et ruine

Imâm Ali ibn Abi Talib

- 5 -

À mes parents Moncef et Fatma

À Anissa, Adem, Anas

1 / 48 100%

Documents connexes

Saviez-vous que?

« Approche d`apprentissage automatique pour l`annotation

Progident/Clinique version 8, le pouvoir de l`information entre vos

Poster Équipe Biopuces Bionanotechnologies

PowerPoint, 2.5 Mo

Travaux sur le vocabulaire de Malte

Fiche d`activité N°1

Introduction à la musique arabe

L`arabe va supplanter l`anglais sur facebook : Toute l

Soutenance de stage

Usage des Annotations Java pour Javanaise V2

Mohamed Benrabah DEVENIR LANGUE

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Le développement de corpus annotés pour la langue arabe

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Le développement de corpus annotés pour la langue arabe

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib