Outils g´en´eriques pour l’´etiquetage morphosyntaxique de
la langue arabe : segmentation et corpus d’entraˆınement
Dhaou Ghoul
To cite this version:
Dhaou Ghoul. Outils g´en´eriques pour l’´etiquetage morphosyntaxique de la langue arabe :
segmentation et corpus d’entraˆınement. Linguistique. 2011. <dumas-00631517>
HAL Id: dumas-00631517
https://dumas.ccsd.cnrs.fr/dumas-00631517
Submitted on 12 Oct 2011
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-
entific research documents, whether they are pub-
lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.
Outils génériques pour l'étiquetage
morphosyntaxique de la langue arabe : segmentation
et corpus d'entraînement
Nom : GHOUL
Prénom : DHAOU
UFR Sciences du Langage
Mémoire de master 2 recherche - 30 crédits Sciences du langage
Spécialité ou Parcours : Modélisation et traitements automatique en industries de la
langue : parole, écrit, apprentissage orientation Recherche
Sous la direction d’Olivier Kraif
Composition du jury :
Georges Antoniadis
Lynne Franj
Olivier Kraif
Année universitaire 2010-2011
Remerciements
En préambule à ce mémoire, je souhaiterais adresser mes remerciements les plus
sincères aux personnes qui m'ont apporté leur aide et qui ont contribué à l'élaboration de ce
mémoire ainsi qu’à la réussite de cette formidable année universitaire.
Je tiens à remercier sincèrement Monsieur Olivier Kraif, qui, en tant qu’encadreur de
mémoire, s'est toujours montré à l'écoute et très disponible tout au long de la réalisation de ce
mémoire, ainsi pour l'inspiration, l'aide et le temps qu'il a bien voulu me consacrer et sans qui
ce mémoire n'aurait jamais vu le jour.
Mes remerciements s’adressent également à Monsieur Georges Antoniadis :
Responsable du master, de me faire découvrir le domaine du TAL qui m’a bien intéressé et de
l’aide qu’il m’a attribué tout au long des années des études en IDL.
Je présente mes remerciements anticipés à Mme Lynne Franjié qui m’a fait l’honneur
d’accepter la tâche d’être rapporteuse.
Je tiens à remercier Atef ben Youssef, pour ses remarques pertinentes lors de nos
discussions, son soutien et son amitié.
J'exprime ma gratitude à tous les consultants et internautes rencontrés lors des
recherches effectuées (particulièrement Monsieur El Haj) et qui ont accepté de répondre à mes
questions avec gentillesse.
Je garde une place toute particulière à mes parents, mes frères et mes sœurs qui sont
toujours à mes cotés.
Enfin, j'adresse mes plus sincères remerciements à tous mes proches et amis, qui m'ont
toujours soutenu et encouragé au cours de la réalisation de ce mémoire.
Merci à tous et à toutes.
GHOUL DHAOU
sumé :
L'objectif de ce travail est la alisation dun nouvel outil pour l’étiquetage
morphosyntaxique de la langue arabe.
Après avoir étudié les spécificités de la langue arabe, et confronté celles-ci avec les
différentes approches de l'étiquetage, nous avons mis en œuvre un système basé sur
ltiqueteur stochastique TreeTagger, puté pour son efficacité et la néricité de son
architecture.
Pour ce faire, nous avons commencé par la constitution de notre corpus de
travail. Celui-ci nous a d'abord servi à réaliser l'étape de segmentation lexicale. Dans
un second temps, ce corpus a permis d'effectuer l'entrainement de TreeTagger, grâce à
un premier étiquetage alisé avec l'étiqueteur ASVM 1.0, suivi d'une phase de
correction manuelle. Nous détaillons ainsi les prétraitements requis, et les différentes
étapes de la phase d'apprentissage avec cet outil.
Nous terminons par une évaluation sommaire des sultats, à la fois
qualitative et quantitative. Cette évaluation, bien que réalie sur un corpus de test de
taille modeste, montre que nos premiers sultats sont encourageants.
Mots clés :
TALN, langue arabe, corpus d'apprentissage, étiquetage morphosyntaxique,
segmentation de l'arabe, arbre de décision, lexique, jeux d’étiquette, TreeTagger,
ASVM 1.0.
ABSTRACT:
The main goal of this study is the implementation of a new tool for the part-of-
speech tagging of Arabic.
After studying the different approaches and problems of arabic tagging, we implemented a
tagging system based on TreeTagger, a generic stochastic tagging tool, very popular for its
efficiency.
First of all, we began by gathering a working corpus, large enough to ensure a
general linguistic coverage. This corpus has been used to implement the tokenization
process, as well as to train Treetagger. We first present our method of tokenization, then
we describe all the steps of the preprocessing and training process, using ASVM 1.0 to
yield a raw POS tagging that was subsequently manually corrected.
Finally, we implemented a straightfoward evaluation of the outputs, both in a
quantitative and qualitative way, on a small test corpus. Though restricted, this evaluation
showed really encouraging results.
Key words:
NLP, Arabic language, training corpus, POS tagging, tokenization, decision tree,
lexicon, tagsets, TreeTagger, ASVM 1.0.
1 / 99 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !