Le développement de corpus annotés pour la langue arabe

publicité
UNIVERSITÉ PARIS OUEST NANTERRE-LA DÉFENSE
ÉCOLE DOCTORALE 139 - Connaissance Langage Modélisation
UMR 7114 MoDyCo
Le dé ve loppe m e n t de cor pu s a n n ot é s pou r
la la n gu e a r a be
THÈSE DE DOCTORAT
« SCIENCES DU LANGAGE : TRAITEMENT AUTOMATIQUE DES LANGUES »
Présent ée par
W a j di Za gh ou a n i
Sous la direction de Sylvain Kahane
Membres du jury :
Khalid Choukri, Directeur de E.L.D.A, Examinateur
Sylvain Kahane, Professeur à l’Université Paris Ouest Nanterre, Directeur de thèse
Jean-Luc Minel, Professeur à l’Université Paris Ouest Nanterre, Examinateur
Jean-Luc Muller, Directeur du CREFOP, Examinateur
Alexis Nasr, Professeur à l’Université Aix Marseille, Rapporteur
Thierry Poibeau, Directeur de Recherche au C.N.R.S, Rapporteur
Benoît Sagot, Chargé de Recherche à l’I.N.R.I.A, Université Paris 7, Examinateur
Ré su m é
L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans
la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la
création de ressources lexicales dans la langue arabe.
D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation,
de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de
procédures d’annotation existantes.
Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin,
nous illustrons l’importance de ces travaux pour le traitement automatique des langues en
illustrant quelques exemples de ressources et d’applications.
Mots clés : Annotation de corpus, Guides d’annotation, Treebank, Propbank, Langue
arabe
Abst r a ct
The goal of this thesis is to show the various aspects of corpus annotation in the Arabic
language. We present our publications on corpus annotation and lexical resources creation in
the Arabic language.
First, we discuss the methods, the language difficulties, the annotation guidelines, the
annotation effort optimization limits and how we adapted some of the existing annotation
procedures to the Arabic language.
Furthermore, we show the complementarity between the different layers of annotations.
Finally, we illustrate the importance of our work for natural language processing by
illustrating some examples of resources and applications.
Keywords: Corpus Annotation, Annotation guidelines, Treebank, Propbank, Arabic
Language
-2-
Ta ble de s m a t iè r e s
Introduction .......................................................................................... 8
1. Construction de corpus annotés pour la langue arabe .............. 9
2. Optimisation des procédures d’annotation ............................... 21
3. Traits linguistiques et annotation de l’arabe ............................ 27
4. Corpus et couches d’annotation ................................................. 32
5. Exploitation des corpus annotés ................................................. 34
Conclusion .......................................................................................... 36
Bibliographie ...................................................................................... 38
Annexe A Liste complète des arguments dans le corpus Propbank ............. 43
Annexe B Exemple d’un frame en XML dans la Propbank arabe ............... 44
Annexe C Création d’un frame avec Cornetstone .......................................... 45
Annexe D L’outil d’annotation QAWI pour le projet QALB ....................... 46
Annexe E Visualisation de l’écran d’accueil de l’outil ARET....................... 47
Annexe F Liste des articles annexés................................................................. 48
-3-
Certes, la science guide, dirige et sauve; l'ignorance égare, trompe et ruine
Imâm Ali ibn Abi Talib
-4-
À mes parents Moncef et Fatma
À Anissa, Adem, Anas
-5-
Re m e r cie m e n t s
Je voudrais exprimer ma gratitude et mes remerciements à l’ensemble des personnes qui ont
participé de près ou de loin à cette thèse avec leurs conseils et leurs recommandations.
Je tiens en tout premier lieu à remercier sincèrement Sylvain Kahane qui a accepté de diriger
ma thèse tout en offrant ses précieux conseils et en se montrant toujours disponible toutes les
fois que j’attendais son aide. Je suis vraiment heureux d’avoir eu la chance de collaborer avec
lui.
Mes remerciements les plus sincères vont également aux directeurs de l’équipe QALB à
Carnegie Mellon University, Kemal Oflazer et Behrang Mohit, ainsi qu’à Nizar Habash de
Columbia University, pour leurs encouragements et pour m’avoir permis de dégager du temps
de travail pour terminer la thèse.
Je ne pourrais passer sous silence les encouragements constants de Ralf Steinberger et de tous
les membres du groupe JRC EMM à la Commission Européenne et particulièrement Bruno
Pouliquen.
Je voudrais aussi remercier mes collègues à l’université de Pennsylvanie du Linguistic Data
Consortium, Tim Buckwalter, Mohammed Maamouri et Dave Graff, pour le partage de leurs
expériences, ainsi que pour leurs conseils de grande qualité qui ont été d'une précieuse
richesse.
Ma plus grande gratitude va également à mes professeurs durant tout mon cursus universitaire
et en particulier Louisette Emirkanian, Marie Labelle, Denis Bouchard, Thomas Leu, Anne
Rochette, Reine Pinsonneault, Benoît Jacques, Patrick Drouin, Richard Kittredge, Mohamed
Guerseal, Didier Daussaint et Isabelle Daussaint.
Je remercie également le Conseil de Recherches en Sciences Humaines du Canada pour son
support financier durant mon parcours universitaire.
Merci à tous ceux avec lesquels j’ai eu une collaboration étroite au cours de mes projets :
Abdelati Hawwari, Manon Legault, Fatiha Sadat, Eric Atwell, Kais Dukes, Abdullah Alfaifi,
Houda Bouamor, Ossama Obeid, Brian Doherty, Arman Tajarobi, Martha Palmer et Mona
Diab.
-6-
Je n’oublie pas mon équipe d’annotateurs, Nour Alzeer, Samah Lakhal Gannar, Hoda Fathy,
Hoda Ibrahim, Anissa Jrad, Jihene Wefi, Mariem Fekih et Nourhen Feki. Merci de m’avoir
aidé lors de cet éprouvant travail d’annotation.
Je remercie également Khalid Choukri, Jean-Luc Minel, Jean-Luc Muller, Alexis Nasr,
Thierry Poibeau et Benoît Sagot qui ont accepté de faire partie de mon jury et d'évaluer mon
travail.
Enfin, j’adresse mes plus sincères remerciements à tous mes proches et amis et
particulièrement mes parents Moncef et Fatma et mes frères Nader et Waël pour le soutien et
les encouragements qu’ils m’ont apportés. Sans oublier les petits Adem et Anas. Un merci
très particulier à toi, Anissa, tu m’as toujours apporté ton soutien au jour le jour, aussi bien
dans les moments de joie que dans ceux du doute et de remise en question.
-7-
I n t r odu ct ion
L’annotation linguistique de corpus joue un rôle important dans le développement
d’applications en traitement automatique des langues naturelles telles que la recherche
d’informations, l’extraction d’informations, la traduction automatique, les systèmes de
questions/réponses et le résumé automatique. Ce document de synthèse vise à présenter et à
mettre en perspective mes travaux scientifiques sur l’annotation de corpus et sur la création de
ressources lexicales dans la langue arabe. Une bonne de partie de mes travaux de recherche
résulte d’une contribution collective avec d’autres membres dans les équipes de recherche.
Nous exposons dans ce document l’essentiel de nos contributions personnelles dans ces
travaux. Nous discutons des méthodes, des difficultés linguistiques ainsi que de l’importance
de ces travaux pour le traitement automatique des langues en illustrant quelques exemples où
des ressources ont été intégrées dans des applications.
Voici quelques-unes des questions auxquelles nous avons été confrontés au cours des 10 ans
où nous avons travaillé au développement de corpus annotés pour l’arabe et pour lesquelles
nous avons essayé d’apporter des éléments de réponses dans nos publications.
Tout d’abord, est-il possible de développer des corpus annotés pour la langue arabe en se
servant majoritairement des méthodes et des approches d'annotation existantes ? Quelle est
l'ampleur des adaptations à faire ? Quelles sont les difficultés que l’on rencontre lorsqu’on
cherche à adapter des méthodes développées pour d’autres langues ? Comment peut-on
optimiser les procédures et l’effort d’annotation dans les projets d'annotation d'envergure ? Et
comment se fait le lien entre les différentes couches d'annotation dans les corpus ? Est-ce que
les annotations peuvent se compléter les unes les autres ? Ensuite, quelles sont les
particularités linguistiques de la langue arabe dont on doit tenir compte lors d’un projet
d'annotation ? Enfin, quelles sont les exploitations possibles des corpus annotés pour la langue
arabe ? Par le présent manuscrit, nous proposons une synthèse de nos travaux en montrant
comment ils répondent à ces diverses questions.
-8-
1.
Con st r u ct ion de cor pu s a n n ot é s pou r la
la n gu e a r a be
Afin de développer des corpus annotés pour une langue comme l’arabe, nous avons essayé de
suivre en partie les démarches testées et prouvées pour des corpus similaires et pour des
langues ayant plus de ressources disponibles et notamment la langue anglaise comme le
montre notre récent travail de recensement de corpus dans la langue arabe (Zaghouani
2014a) 1. L’adaptation des procédures d’annotation existantes permet un gain en temps de
recherche, même s’il existe toujours des adaptations à faire pour se conformer aux
particularités de la langue et à la nouvelle annotation à créer.
Dans ce qui suit, nous discutons des méthodologies suivies pour adapter le Penn Treebank
(Marcus et al., 1993) et le Propbank (Palmer et al., 2005) pour la langue arabe. Le choix de
porter ces deux corpus pour l’arabe était motivé par l’importance de ces ressources et par
l’inexistence de ressources similaires pour l’arabe.
Le corpus Penn Treebank qui est annoté en arbres syntagmatiques constitue une référence
pour l’anglais-américain (Marcus et al., 1993). La segmentation du guide d’annotation du
Penn Treebank favorise un découpage du texte en unités élémentaires avant de déterminer les
caractéristiques de ces unités. La figure 1 illustre un arbre syntaxique annoté selon le schéma
d’annotation du Penn Treebank. Le corpus Penn Treebank compte près de 2,4 millions de
mots annotés morphologiquement et syntaxiquement et couvre le domaine journalistique
(Wall Street Journal) et l’anglais général (Brown).
Dans ce qui suit, nous discutons de nos efforts pour adapter la procédure d’annotation du
Penn Treebank vers un corpus en langue arabe et pour le domaine oral (transcription audio de
téléjournaux). Avant de commencer l’étape d’annotation, une transcription complète des
enregistrements audio doit s’effectuer préalablement. Un corpus oral transcrit dispose de
caractéristiques différentes d’un corpus écrit, ce qui requiert quelques changements dans la
procédure et les guides d’annotation. En tant que membre du groupe Penn Arabic Treebank
(PATB), j’étais chargé de l’adaptation de la procédure d’annotation ainsi que de la rédaction
du nouveau guide d’annotation.
1
Dans ce document y compris la bibliographie, j’indique en gras les publications dont je suis auteur ou coauteur.
-9-
Figure 1 : Arbre syntaxique du Penn Arabic Treebank (Diab et Habash, 2014)
Les principales adaptations faites dans la procédure d’annotation sont liées à la nature de ce
nouveau corpus issu de l’oral. D’abord, le traitement des erreurs de transcription, ainsi que
l’annotation de l’arabe dialectal (assez fréquent dans le corpus oral), n’était pas présent dans
l’ancienne procédure et les guides d’annotation. Ensuite, le traitement des mots inconnus dans
le dictionnaire de l’analyseur morphologique SAMA (Kulick et al., 2010) que nous utilisions
a changé depuis l’ancienne version 2. Par conséquent, le flux de travail (workflow) a été
adapté à son tour pour supporter la production d’un treebank issu de sources orales comme
l’Arabic Treebank Broadcast News v1.0 (catalogue du LDC No : LDC2012T07), qui
comprend environ 100 000 mots provenant de la transcription de journaux télé d’Aljazeera,
Dubai News et Alhurra News. La transcription des données audio vers des fichiers textes avec
l’outil de transcription Xtrans 3 en se servant du guide de transcription qui décrit le processus
de segmentation et les métadonnées à inclure. Une fois transcrites, les phrases passent par
l’analyseur morphologique SAMA afin de produire automatiquement les analyses possibles
pour chaque unité lexicale y compris les clitiques, les morphèmes flexionnels, les parties du
discours, ainsi que la glose en anglais de chaque morphème.
Un autre changement fait pour ce nouveau corpus est le nouveau mécanisme de contrôle de la
qualité. Il s’agit d’une vérification faite pour s’assurer que les arbres syntaxiques sont annotés
d’une manière fiable selon un ensemble de 93 règles de vérification avec l’outil de diagnostic
2
3
<https://catalog.ldc.upenn.edu/LDC2004L02>
Disponible sur < https://www.ldc.upenn.edu/language-resources/tools/xtrans>
- 10 -
Corpus Search 4. Cet outil permet de personnaliser les règles pour couvrir des problèmes
spécifiques aux corpus oraux ou écrit, ce qui rend possible la détection de plusieurs problèmes
connus, comme la présence d’arbres syntaxiques ayant des structures incomplètes. Une fois le
rapport d’erreurs généré, une deuxième phase d’annotation peut commencer avec seulement
les arbres repérés comme potentiellement problématiques. Cette dernière étape peut se faire
plus d’une fois, si des erreurs persistent après la première passe. Le processus d’annotation en
arbres syntagmatiques que nous avons présentée dans (Zaghouani 2014b ; Maamouri et al.,
2010a) est devenu la nouvelle norme d’annotation des treebanks pour l’arabe. On peut en
particulier l’observer dans les corpus Arabic Treebank Part 1 (Maamouri et al., 2010b), Part
2 (Maamouri et al., 2011) et Part 3 (Maamouri et al., 2010c) et dans les projets futurs dans
le groupe PATB (Kulick et al., 2012). L’une des raisons à cela est que ce processus permet de
s’assurer que la production du corpus est en accord avec les guides d’annotation. Ainsi, nous
avons pu adapter et tester une nouvelle procédure d’annotation pour un corpus d’un nouveau
genre pour la langue arabe.
D’une manière similaire, nous avons mené des efforts pour adapter le corpus Propbank de la
langue anglaise vers la langue arabe. Le corpus Propbank (Palmer et al., 2005), qui est la suite
du projet Penn Treebank, se considère comme une couche sémantique ajoutée aux arbres
syntaxiques du Penn Treebank. Le corpus est composé de deux parties, l’ensemble des frames
qui donnent un sens aux arguments des prédicats ainsi que l’annotation des rôles sémantiques
des constituants des arbres syntaxiques. Les frames comprennent la liste des rôles déterminés
par les différents sens que peut avoir un prédicat donné. Il s’agit du premier projet du genre
pour la langue arabe.
Selon la méthode Propbank, un numéro est donné aux arguments (roleset) pour distinguer leur
fonction dans la phrase. L’agent est consigné comme l’argument Arg0, le thème ou patient est
l’argument Arg1 et ainsi de suite comme l'illustre l'exemple suivant : Paul mange une pomme
[Prédicat : manger], [Arg0 : Paul], [Arg1 : une pomme]. En plus des arguments numérotés
spécifiés pour chaque verbe, les constituants restants qui apparaissent dans la phrase sont
considérés comme des arguments adjoints d’ordre facultatif (modifiers en anglais). Ces
arguments sont étiquetés Arg-M suivis de leurs descriptions, par exemple (ArgM-Loc). Ils
représentent sémantiquement des concepts primitifs tels que la cause [CAU], le lieu [LOC], le
temps [TMP] ou la manière [MAN]. L’Annexe A énumère la liste des arguments employés
dans les projets Propbank.
4
Disponible sur <http://corpussearch.sourceforge.net/>
- 11 -
Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui
dispose de ressources riches, telles que le VerbNet (Kipper 2006) et le FrameNet (Baker et al.,
1998), qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans
d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose
souvent sur le FrameNet anglais comme point de départ.
Les corpus annotés sémantiquement ont contribué au développement et à l’amélioration de
plusieurs outils linguistiques (Palmer et al., 2008), tel que les systèmes d'extraction de
l'information, les systèmes de questions/réponses, et les outils de traduction automatique,
mentionnés dans (Lo et Wu 2010; Wu et Fung 2009a, 2009b) qui ont testé l’apport des rôles
sémantiques de type Propbank dans des systèmes de traduction automatique basés sur
l’apprentissage automatique. Les résultats que Lo et Wu (2010) et Wu et Fung (2009a et
2009b) ont obtenus ont montré que ces systèmes produisent une meilleure traduction et moins
de confusion. Afin de créer un corpus de type Propbank pour la langue arabe, dans le cadre
d’une première expérience pilote, nous avons adapté en partie la méthodologie existante pour
l’anglais (Palmer et al., 2005) et nous l’avons appliquée au corpus Treebank arabe Part 3
version 3.1 et 3.2 (Maamouri et al., 2004 ; Maamouri et al., 2010c).
Pour créer ce corpus, il fallait tenir compte de certaines particularités de la langue arabe,
notamment celles liées à l’ordre des mots dans la phrase, à la construction syntaxique de la
phrase et à la polysémie. Dans l’annotation de type Propbank, l’annotation sémantique est
basée sur la structure syntaxique sous-jacente représentée dans le treebank. La procédure
d’annotation implique la création des frames pour les verbes en suivant un guide d’annotation.
Les frames contiennent les prédicats verbaux ainsi que leurs arguments possibles. Il faut noter
que lors de cette expérience pilote, la création des frames se fait comme pour la langue
anglaise, sans l’aide d’un éditeur XML dédié. L’Annexe B illustre le contenu d’un frame au
format XML.
La procédure commence par le choix des prédicats verbaux à annoter dans le corpus. Dans le
cadre de ce projet pilote, nous avons choisi 493 prédicats parmi les plus fréquents. Ensuite, un
frame a été créé pour chaque verbe. Comme avec le Propbank anglais, l’annotation s’est
déroulée avec l’outil Wordfreak (Morton et LaCivita 2003), qui n’était pas parfaitement
adapté pour la langue arabe (problèmes de lenteurs, d’encodages et d’affichage). (Nous
envisageons de développer un outil plus approprié dans des projets futurs.)
Pour chaque prédicat verbal, l’annotateur était amené à observer une cinquantaine d’exemples
de ce prédicat en corpus afin de pouvoir bien définir le comportement et les possibles
- 12 -
variations syntaxiques de ce dernier. Dans les cas où le prédicat verbal est polysémique, un
frameset distinct est créé au sein du même fichier frame afin de distinguer les rôles
sémantiques pour chaque sens du verbe. Au besoin, l’annotateur peut aussi consulter d’autres
sources comme l’Internet ou des dictionnaires pour vérifier l’existence d’emplois non
observés dans le corpus à annoter.
À l’issue de ce projet pilote, notre contribution se résume aux éléments suivants : la
démonstration de la faisabilité de l’adaptation de la procédure d’annotation du Propbank
anglais pour la langue arabe, la création du guide d’annotation linguistique des rôles
sémantiques pour la langue arabe, lequel s’inspire en partie du guide d’annotation de la
langue anglaise, ainsi que la création des frames et l’annotation de 493 verbes. La figure 2 cidessous, illustre un arbre syntaxique marqué avec les arguments sémantiques.
Figure 2 : Arbre syntaxique du PATB avec les arguments sémantiques (Diab et Habash, 2014)
Plus tard et après la réussite de ce projet pilote, nous avons amorcé le deuxième projet
d’annotation du corpus Propbank (Zaghouani et al. 2010) faisant suite à la livraison de la
nouvelle version du Penn Arabic Treebank 3.1 qui est conforme au nouveau guide
d’annotation du Treebank (Maamouri et al., 2008). Cette version inclut plusieurs changements
- 13 -
au niveau de l’annotation syntaxique et morphologique avec l’ajout de nouvelles parties du
discours. Par exemple, le nom verbal, connu en arabe sous la dénomination de masdar, est
maintenant annoté explicitement par le tag VN (Verbal Noun en anglais) et il est devenu plus
facile de repérer ses arguments lors de l’annotation du Propbank. Par exemple, dans la phrase
suivante 5 :
‫ ﺗﻜﺒﺪﻫﻢ ﺧﺴﺎﺋﺮ ﻛﺒﻴﺮﺓ‬/tkbdhm xsA}r kbyrp/ Ils ont subi de grandes ‘pertes’
Le VN est ‫ ﺗﻜﺒﺪ‬/tkbd/ ‘subir’ et ses deux arguments sémantiques : le sujet ‫ ﻫﻢ‬/hm/ ‘eux’ et le
complément ‫ ﺧﺴﺎﺋﺮ ﻛﺒﻴﺮﺓ‬/xsA}r kbyrp/ ‘de grandes pertes’.
Au niveau des changements dans l’annotation syntaxique, nous citons le cas de la structure du
complément du nom (annexion) rendu par le génitif comme le montre les figures 3 et 4 où on
observe que selon le nouveau guide d’annotation, le complément du quantifieur et syntagme
nominal ُّ‫ ﻛﻞ‬/kul~u/ ‘tout’ est considéré aussi comme un syntagme nominal. Cette construction
est connue en arabe par la construction par ‫ ﺇﺿﺎﻓﺔ‬Idafa (Annexion). Il s’agit d’une structure
particulièrement fréquente en arabe d’où l’importance de ce changement en terme
d’occurrences dans le corpus.
Figure 3 : Arbre syntaxique avant l’ancien guide d’annotation (Maamouri et al., 2008)
Figure 4 : Arbre syntaxique après le nouveau guide d’annotation (Maamouri et al., 2008)
Étant donné que l’annotation de type Propbank est basée sur les arbres syntaxiques, une
pareille révision du Propbank arabe était aussi nécessaire pour les 493 frames déjà créés.
5
Dans le cas où un mot ou un exemple est écrit en caractères arabes, nous avons choisi de fournir une
translittération et une traduction française ou une traduction littérale française (si nécessaire) et dans l’ordre
suivant : les caractères arabes, la translittération selon le système de translittération Buckwalter
(www.qamus.org/transliteration.htm) et la traduction ou la translittération française.
- 14 -
Nous avons aussi ajouté 1462 prédicats pour atteindre un total de 1955 frames et 2446
framesets (Zaghouani et al., 2010). Les figures 4 et 5 illustrent un exemple d’un frame ainsi
qu’un exemple d’une annotation d’une phrase.
Figure 4 : Le Frame du verbe ‫ ﺍﺳﺘﻤﻊ‬/{isotamaE/ ‘entendre’ (Zaghouani et al., 2010)
Figure 5 : Exemple d’une annotation d’une phrase dans le Propbank (Zaghouani et al., 2010)
Ce nouveau projet a nécessité des changements dans le flux du travail ainsi que dans le guide
d’annotation (Zaghouani et al., 2010). De plus, il inclut l’annotation des verbes composés.
La transformation de l’ancienne annotation vers la nouvelle n’était pas une tâche simple étant
donné que l’annotation de type Propbank était basée directement sur les arbres syntaxiques de
l’ancienne version du Treebank qui a subi principalement les changements suivants :
modification dans la structure des arbres syntaxiques, changement dans la segmentation
(insertion et effacement) , changement dans les parties du discours et changement dans la
délimitation de la phrase.
Par ailleurs, le nouveau processus d’annotation est devenu mieux organisé que le précédent.
D’abord, avec la création de l’outil Cornerstone 6 (Choi et al., 2010a), dédié à la création des
5F
frames, ce qui a permis de gagner du temps et de mieux organiser les fichiers avec un frame
pour chaque sens de prédicat. La figure 6 illustre le menu principal Cornerstone et la figure 7
montre un exemple avec un arbre syntaxique dans le frame. L’Annexe C montre les étapes de
création d’un frame. D’autre part, l’annotation ne se fait plus avec l’ancien outil Wordfreak,
mais plutôt avec Jubilee (Choi 2010b). Cet outil permet d’afficher en même temps le contenu
des frames y compris le prédicat verbal, les instances de l’arbre syntaxique à annoter avec les
prédicats et leurs arguments ainsi que la possibilité de visualiser un ou deux exemples annotés
6
Les deux outils Cornerstone et
<https://code.google.com/p/propbank/>
Jubilee
sont
- 15 -
disponibles
en
code
source
ouvert
sur
:
pour chaque sens (frameset) du prédicat verbal dans le frame (figure 8). Les annotateurs
doivent choisir le sens qui correspond le mieux au frame du verbe dans l’arbre syntaxique.
Une fois, le sens choisi, l’annotateur décide du choix des arguments obligatoires
correspondants (Arg0, Arg1, Arg2,…) et les arguments adjoints (cause, conséquence, temps,
lieu,…) comme le montre la figure 8.
Figure 6 : Le menu principal de l’outil Cornerstone (Choi 2010a)
Figure 7 : Exemple d’un arbre syntaxique annoté dans le fichier frame (Choi 2010a)
- 16 -
Figure 8 : Annotation d’un arbre syntaxique avec l’outil Jubilee (Choi 2010b).
Pour chaque arbre syntaxique, l’annotation se fait en parallèle par deux annotateurs de
manière aveugle afin de vérifier la qualité de l’annotation. Enfin, une procédure
d’adjudication est réalisée par l’annotateur le plus expérimenté et qui choisit la meilleure
annotation des deux versions.
Au terme de ce projet, nous avons introduit une nouvelle procédure de contrôle de la qualité
avec un processus d’adjudication dédié à l’annotation de type Propbank et nous avons apporté
des modifications majeures dans le guide d’annotation pour faciliter l’identification des
arguments et des circonstants par les annotateurs, enfin, nous avons mis en ligne les outils
d’annotation afin qu’ils puissent servir pour d’autres projets similaires comme pour la
nouvelle expérience pilote (Zaghouani et al., 2012) et qui consiste en l’annotation de 50
verbes les plus fréquents dans le Treebank de dépendance du Coran connu en anglais par
Quranic Arabic Dependency Treebank (QADT) et crée par Dukes et Buckwalter (2010). Cette
expérience fait suite au défi que nous avons lancé en 2010 et qui portait sur les moyens et les
outils pour le traitement automatique et la compréhension du langage du Coran (Atwell et al.,
2010).
- 17 -
La figure 9 montre la liste partielle des 50 verbes choisis avec d’autres informations comme la
racine verbale correspondante, la forme, la fréquence dans le corpus et la traduction anglaise 7.
Figure 9 : La liste des verbes les plus fréquents dans le corpus du Coran
L’annotation du corpus du Coran dans le QADT se distingue du Penn Arabic par une
représentation en arbres de dépendances (Mel’čuk 1988). La figure 10 illustre un exemple
d’un arbre de dépendances du corpus QADT. Dans cet exemple en particulier (en lisant de
droite à gauche), nous observons le cas classique en arabe d’un ordre des mots de type VSO
(c’est-à-dire avec un verbe suivi par son sujet et son objet). Le premier objectif de cette
expérience est l’augmentation de la couverture de l’actuel Propbank arabe avec une autre
variété de l’arabe (arabe classique du Coran) et un nouveau domaine (texte religieux).
L’annotation Propbank avec l’arabe classique permettra d’enrichir davantage les frames
existants tout en testant la procédure d’annotation déjà mise en place avec les arbres de
dépendances syntaxiques du corpus du Coran.
7
La liste complete est disponible sur <http://corpus.quran.com/verbs.jsp>
- 18 -
Figure 10 : Un exemple d’un arbre de dépendances du QADT (Dukes et al., 2010)
De plus, les verbes de l’arabe classique ont la particularité de marquer des notions telles que
le causatif, l’intensif ou le réciproque (Arbaoui 2010). Cette spécificité fait en sorte que le
verbe apparait sous différentes formes suivant qu’il indique telle ou telle notion et elle peut
certainement aider à bien localiser les arguments du verbe dans le corpus. Par ailleurs, le
corpus du Coran est entièrement transcrit avec les signes diacritiques qui permettent de
réduire l’ambiguïté du texte lors de l’annotation. Dans cette étape pilote, nous avons annoté
les 50 verbes les plus fréquents, ce qui représente 7227 occurrences en corpus sur un total de
19 356 occurrences verbales. Lors de la création des frames, les annotateurs ont fait des
requêtes sur chaque prédicat verbal à partir d’une base de données lexicale en ligne (Boudelaa
et Marslen-Wilson 2010). Cette base de données permet d’afficher tous les sens possibles de
chaque racine verbale tout en fournissant des exemples en contexte. Cette recherche a permis
d’aider la prise de décisions lors de la création des frames.
Lors de l’étape d’annotation, nous avons constaté que le fait d’avoir une annotation
syntaxique en dépendances à des avantages. En effet, les corpus annotés en dépendances
syntaxiques permettent d’extraire les relations prédicat-argument d’une manière plus directe
- 19 -
qu’avec les corpus annotés en syntagmes (Perrier 2014). Ainsi, les arguments sémantiques 8
sont marqués explicitement dans l’arbre syntaxique ce qui facilite l’annotation (figure 11). De
plus, le QADT affiche clairement les informations de dépendances syntactico-sémantiques
des arguments adjoints ou « circonstants » comme ceux qui expriment la manière, le temps ou
le lieu. Toutefois, ces informations sont insuffisantes pour cette tâche qui nécessite d’autres
informations sémantiques complémentaires à ces informations syntaxiques.
Nous espérons que le succès de notre méthodologie va encourager l’apparition d’expériences
similaires pour l’arabe ainsi que d’autres langues ayant des corpus annotés en syntaxe de
dépendance.
Figure 11 : Un arbre de dépendances avec les arguments (Zaghouani et al., 2012)
8
Dans ce manuscrit, nous employons le terme “argument sémantique” pour indiquer tous les arguments, y
compris les arguments adjoints dans le Propbank.
- 20 -
2.
Opt im isa t ion de s pr océ du r e s
d’a n n ot a t ion
Dans cette section, nous présentons nos efforts pour optimiser la procédure d’annotation à
travers la présentation de notre méthodologie dans un projet d’envergure que nous avons
récemment entrepris pour annoter et corriger les erreurs dans la langue arabe.
Le corpus Qatar Arabic Language Bank (Zaghouani et al., 2014a) qui comprend 2 millions
de mots, a été annoté 9 manuellement avec les erreurs et leurs corrections (orthographe,
syntaxe, morphologie, lexique, et ponctuation), en plus nous demandons aux annotateurs de
traduire en arabe standard, les expressions dialectales de l’arabe. Ultérieurement, ce corpus va
permettre la création de systèmes de correction automatique des erreurs. À l’heure actuelle, il
n’existe aucun corpus comparable pour la langue arabe (en termes de taille et de variété). Les
rares efforts qui existent se limitent aux travaux d’Abuhakema et al. (2008), qui ont annoté un
corpus de 9000 mots d’apprenants de langue arabe, et à ceux d’Alkanhal et al. (2012), qui ont
annoté manuellement un corpus de travaux d’étudiants d’environ 65 000 mots. Étant donné
que ce dernier corpus a été informatisé à la main, il comprend beaucoup d’erreurs de
transcription en plus des erreurs commises par les étudiants. Plus récemment, Alfaifi et
Atwell (2013) ont entrepris une expérience pilote pour annoter 20 000 mots d’un corpus de
282 000 mots qui comprend des productions écrites de niveau universitaire d'apprenants de
langue arabe non arabophones ainsi que des étudiants arabophones.
Au tout début du projet, des expériences ont été réalisées afin de pouvoir optimiser l’effort
d’annotation, étant donné l’absence d’un véritable standard d’annotation pour ce type de
corpus. De plus, nous avons décidé de ne pas tester l’annotation collaborative dans ce projet
étant donné le degré d’expertise requis des annotateurs et le résultat négatif que nous avons
obtenu lors d’une expérience pilote similaire (Zaghouani et Dukes 2014).
Tout d’abord, la première tâche dans un projet d’annotation est la sélection du corpus. Nous
avons essayé de choisir des textes assez courts, entre 50 et 60 mots par fichier, afin d’éviter
une certaine sensation d’ennui chez l’annotateur tout en ayant des genres de textes variés
(commentaires en ligne, textes d’élèves, textes d’apprenants de langue arabe), de plus, nous
avons décidé d’inclure des textes traduits automatiquement. Nous avons choisi une sélection
9
Dans ce manuscrit, nous employons le terme annotation pour indiquer également l’action de correction de
texte.
- 21 -
d’articles en anglais de la Wikipédia 10 avant de les traduire vers l’arabe avec l’outil Google
Translate. Cette diversité de style et de genres devrait augmenter l’utilité de ce corpus lors de
son exploitation.
L’erreur dans la langue se définit comme déviation des normes de la grammaire, de
l’orthographe, de la syntaxe, etc. Elle peut aussi se définir selon les types d’erreurs suivants :
omission, ajout, substitution ou mauvais ordre d’apparition dans la phrase. Afin de guider
l’équipe d’annotateurs dans leur tâche de correction d’erreurs et pour les aider à produire une
annotation aussi fiable que possible (Zaghouani et al., 2014a).
Nous avons investi un effort considérable dans la rédaction d’un manuel d’annotation
linguistique complet d’une centaine de pages (Zaghouani et al., 2014b) durant la première
année de ce projet. De plus, nous avons indiqué clairement dans ce manuel quel type d’erreurs
corriger afin d’éviter toute déviation dans la correction comme les corrections non nécessaires
du style du texte. Étant donné la complexité des règles d’orthographe et de grammaire dans la
langue arabe, nous avons inclus un résumé de ces règles dans le guide d’annotation.
L’exemple suivant illustre une phrase avec trois types d’erreurs et comment les annotateurs
doivent les corriger.
Texte original
‫ﺩﻫﺐ ﻋﻠﻲ ﺇﻟﻰ ﺣﺪﻳﻘﺎﺕ ﺟﻤﻴﻠﺔ‬
dhb Ely IlY HdyqAt jmylp
‘Ali est allé dans les beaux jardins’
Texte corrigé
.‫ﺫﻫﺐ ﻋﻠﻲ ﺇﻟﻰ ﺣﺪﺍﺋﻖ ﺟﻤﻴﻠﺔ‬
*hb Ely IlY HdA}q jmylp.
‘Ali est allé dans les beaux jardins’
Dans ce cas, le mot ‫ ﺫﻫﺐ‬/ dhb / ‘allé’ est mal écrit avec la lettre ‫ ﺩ‬d au lieu de la lettre ‫ * ﺫ‬.
Le mot ‫ ﺣﺪﻳﻘﺎﺕ‬/ HdyqAt / ‘jardins’ est décliné d’une manière incorrecte avec le pluriel
10
Le choix de la Wikipédia était motivé par la nature libre de droit de son contenu.
- 22 -
irrégulier, les annotateurs doivent le corriger en ‫ ﺣﺪﺍﺋﻖ‬/ HdA}q / ‘jardins’. Enfin, on observe le
texte original ne comporte pas le point qui marque la fin de la phrase.
Étant donné qu’il n’existe pas de véritable consensus concernant les règles de ponctuation en
arabe (Awad 2013), nous avons essayé de simplifier les règles de ponctuation afin de faciliter
la prise de décisions par les annotateurs. De plus, les annotateurs doivent limiter la portée de
leur correction aux signes de ponctuation suivants : le point {.}, le point d'interrogation {?}, le
point d'exclamation {!}, la virgule {,}, le point-virgule {;} et le deux-points {:}. En pratique,
nous avons constaté un grand désaccord entre les annotateurs pour décider de l’insertion ou
non de la virgule.
Durant la deuxième année du projet, nous avons rédigé de nouveaux guides d’annotation avec
l’introduction de textes de nouveaux genres, comme les travaux d’étudiants locuteurs natifs et
non natifs (Zaghouani et al., 2014c), ainsi qu’un ensemble d’articles traduits
automatiquement de l’anglais vers l’arabe. En effet, il existe une grande différence dans les
erreurs selon le type du texte. Ainsi, les locuteurs natifs ont tendance à commettre surtout des
fautes d’orthographe ou de grammaire, tandis que les locuteurs non natifs de l’arabe font
plusieurs fautes au niveau pragmatique et stylistique comme dans l’exemple suivant.
Texte original :
.‫ﻫﺬﺍ ﺃﻣﻞ ﻣﻬﻢ ﺟﺪﺍ‬
h*A Oml mhm jdA.
‘Il s'agit d'un espoir très important.’
Texte corrigé :
.‫ﻫﺬﺍ ﺃﻣﺮ ﻣﻬﻢ ﺟﺪﺍ‬
h*A Omr mhm jdA.
‘Il s'agit d'une question très importante.’
Dans ce cas, l’emploi du mot ‫ ﺃﻣﻞ‬/ Oml / ‘espoir’ est incohérent selon le texte et il est clair que
l’auteur a voulu écrire ‫ ﺃﻣﺮ‬/ Omr / ‘question’. Dans le cas de choix de mots incorrects et afin
de réduire l’ampleur des corrections à faire, nous avons créé un ordre de correction à respecter
lorsque le texte comprend un choix lexical non adéquat, ceci permet d’avoir un bon accord
entre les annotateurs avec les textes rédigés par les locuteurs non natifs de l’arabe.
- 23 -
L’ordre de priorité des corrections à suivre par les annotateurs est le suivant : correction au
niveau de la flexion, correction des clitiques attachés aux mots, correction du mot en gardant
la racine ou avec l’ajout d’une préposition et finalement le remplacement du mot par un autre.
Enfin, les textes traduits automatiquement comprennent plusieurs types de fautes liées à de
mauvais choix lexicaux, ainsi qu’une mauvaise construction de phrase comme dans l’exemple
suivant.
Phrase originale en anglais :
Japan has an extensive web of highways with thousands of tunnels.
Traduction automatique (avec Google Translate) 11
.‫ﺍﻟﻴﺎﺑﺎﻥ ﻟﺪﻳﻬﺎ ﻋﻠﻰ ﺷﺒﻜﺔ ﺍﻹﻧﺘﺮﻧﺖ ﻭﺍﺳﻌﺔ ﻣﻦ ﺍﻟﻄﺮﻕ ﺍﻟﺴﺮﻳﻌﺔ ﻣﻊ ﺍﻵﻻﻑ ﻣﻦ ﺍﻷﻧﻔﺎﻕ‬
AlyAbAn ldyhA ElY $bkp AlIntrnt wAsEp mn AlTrq AlsryEp mE Al|lAf mn AlOnfAq.
‘Le Japon a dans large réseau Internet d’autoroutes avec un millier de tunnels’
Version corrigée
.‫ﺍﻟﻴﺎﺑﺎﻥ ﻟﺪﻳﻬﺎ ﺷﺒﻜﺔ ﻃﺮﻗﺎﺕ ﺳﺮﻳﻌﺔ ﻭﺍﺳﻌﺔ ﻣﻊ ﺍﻵﻻﻑ ﻣﻦ ﺍﻷﻧﻔﺎﻕ‬
AlyAbAn ldyhA $bkp TrqAt sryEp wAsEp mE Al|lAf mn AlOnfAq.
‘Le Japon a un large réseau d’autoroutes avec un millier de tunnels’
Pour finir, nous avons bien spécifié, dans le guide d’annotation des textes traduits
automatiquement de l’anglais vers l’arabe, que le but est de se limiter aux corrections rendues
nécessaires pour produire une traduction complète sans fautes d’orthographe et avec une
syntaxe correcte tout en reflétant le même le sens que la phrase source. Ces instructions ont
permis de limiter l’ampleur des corrections à faire afin d’améliorer l’accord inter-annotateurs.
Nous pensons que les guides d’annotation peuvent servir comme des références dans des
recherches similaires en arabe ou dans d’autres langues. Nos guides d’annotation sont mis en
ligne à la disposition des chercheurs 12.
1F
L’équipe d’annotateurs est formée de spécialistes en langue arabe de niveau universitaire. Une
procédure de sélection rigoureuse a été mise en place pour choisir seulement les candidats
11
12
Traduction réalisée le 15 juin 2014 avec https://translate.google.com/
Les guides d’annotation sont disponibles sur <http://nlp.qatar.cmu.edu/qalb/>
- 24 -
ayant une excellente expertise en langue arabe. À la suite du recrutement des annotateurs,
plusieurs sessions de formation ont été nécessaires afin de les introduire au guide
d’annotation. Un groupe de discussion en ligne a été créé afin que les annotateurs puissent
poser leurs questions sur les cas d’annotations problématiques et des réunions hebdomadaires
sont organisées pour discuter de certains points avant de mettre à jour le guide d’annotation si
nécessaire dans un processus d’amélioration itératif.
Avant de pouvoir commencer ce projet d’annotation, un travail de conception et de design a
été réalisé avec un programmeur pour créer l’interface d’annotation QAWI. (Obeid et al.,
2013) en source libre. Cet outil offre l’avantage d’un accès en ligne il permet de garder la
trace de chaque action de correction parmi la liste suivante : édition ou ajout de mot,
mouvement, suppression, fusion ou séparation de mot. L’historique des actions de correction
peut être utile sur plusieurs niveaux. D’abord, lors des séances de formations , il permet de
montrer les erreurs d’annotations aux annotateurs. Ensuite, il peut servir pour faire des études
sur le comportement et sur l’attitude des annotateurs. Enfin, il est utile pour les systèmes de
correction automatique d’erreurs. La figure 12, montre des extraits de l’outil d’annotation
avec 5 différents cas de correction.
L’interface d’annotation QAWI attribue une boite pour chaque mot dans le texte afin de
faciliter l’annotation (voir Annexe D). L’exemple en (a) montre un cas changement dans
l’ordre du mot. En (b) on observe un cas de suppression de signes de ponctuation. Le cas en
(c) illustre une édition pour corriger un mot avec l’ajout d’une lettre. L’exemple en (d) montre
la séparation de deux mots collés. Enfin, l’exemple en (e) illustre une fusion pour coller une
lettre à un mot.
Figure 12 : Illustration des actions de correction dans QAWI (Obeid et al., 2013)
- 25 -
Au début de projet et lors d’une expérience pilote, l’annotation était réalisée entièrement à la
main et sans l’assistance d’un analyseur morphologique ou syntaxique. Par la suite, nous
avons testé l’apport de l’analyseur morphologique MADAMIRA (Pasha et al., 2014) qui a
permis un gain de temps considérable (environ 2 minutes par fichier). Cet analyseur réalise la
segmentation, la lemmatisation, l’étiquetage grammatical et l’analyse morphologique avec
une précision qui avoisine les 90%. De plus, cet analyseur, qui est basé sur modèle de
prédiction, réalise une hiérarchisation des analyses retournées, la meilleure analyse étant celle
qui s’accorde le plus avec la prédiction, ce qui permet de corriger d’une manière très fiable les
erreurs simples et assez fréquentes comme l’écriture de la lettre ِAlif Hamza avec ses variétés
qui dépendent du contexte : ‫ﺃ‬, ‫ﺇ‬, ‫ ﺍ‬, et ‫ﺁ‬.
Afin de s’assurer de la qualité de l’annotation durant ce projet, des mesures d’accord interannotateurs sont calculées régulièrement d’une manière aléatoire. Après l’annotation
d’environ 1,5 million de mots, l’accord moyen inter-annotateurs était de l’ordre de 95%, ce
qui prouve que les guides d’annotation ont été bien appliqués par les annotateurs durant le
projet. Récemment et dans le cadre d’un atelier dans la conférence EMNLP 13, nous avons mis
12F
à la disposition des participants un corpus d’environ 1 million de mots dans le but de
participer dans une compétition pour déterminer le meilleur système de correction
automatique d’erreurs. Le corpus et la compétition sont présentés dans Mohit et al. (2014).
Lors de notre participation à cette compétition, nous avons développé un système de détection
et de correction d’erreurs. Notre système combine des règles linguistiques avec des modèles
statistiques et un module de traduction automatique. Ce système a obtenu le troisième rang
sur un ensemble de huit participants avec une F-mesure de 65.42% (Jeblee et al., 2014).
Nous avons présenté jusqu’à maintenant quelques exemples de nos projets d’annotation pour
la langue arabe. Lors de ces projets, nous avons dû faire face à certains traits linguistiques de
la langue arabe qui posaient problème. Nous en discutons maintenant.
13
Des détails sur l’atelier Arabic NLP sur <http://emnlp2014.org/workshops/anlp/workshopschedule.html>
- 26 -
3.
Tr a it s lin gu ist iqu e s e t a n n ot a t ion de
l’a r a be
Dans tout projet d’annotation, il est important de connaitre les traits linguistiques de la langue
à annoter, ceci est particulièrement vrai pour des langues comme l’arabe, une langue
sémitique qui se distingue des langues à écriture latine.
Dans les différents projets d’annotation de l’arabe auxquels j’ai participé, qu’il s’agisse
d’annotation syntaxique, morphologique, sémantique ou d’annotation des erreurs, comme les
travaux cités plutôt dans ce travail, nous avons dû prendre en compte la morphologie, le
système d’écriture, l’orthographe et la syntaxe de cette langue. Tout effort d’annotation
linguistique sera basé sur ces éléments et toute méthodologie suivie doit forcément en tenir
compte afin de bien rédiger les manuels d’annotation et procéder efficacement au
prétraitement des données en vue du démarrage de l’annotation.
Lors de la préparation des textes pour l’annotation, il est important de faire certains
prétraitements morphologiques en vue de segmenter le texte en morphèmes. Étant donné que
la langue arabe se caractérise par une morphologie dérivationnelle, flexionnelle et
agglutinante assez complexe, la plupart des mots composant la langue arabe sont
pratiquement tous dérivés de racines en employant des patrons ou des gabarits (Vergyri et al.,
2004). De plus, l’arabe dispose d’une forte tendance à la cliticisation : cela concerne les
conjonctions de coordination et de subordination, les prépositions ou les pronoms
compléments d’objet.
Il existe plusieurs traits morphologiques qui peuvent aider dans la détection des catégories
grammaticales lors de l’annotation syntaxique, par exemple pour distinguer le verbe du nom
comme dans l’exemple 1 du tableau 1 qui montre la segmentation d’un nom. De plus, il existe
des traits morphologiques qui sont spécifiques au nom et d’autres au verbe comme le genre, le
nombre, le temps, l’aspect à l’instar du verbe faire dans l’exemple 2 du tableau 1.
Ce système morphologique assez complexe procure à la langue arabe un degré d’ambigüité
dérivationnelle assez fréquent. Par exemple, le mot ‫ ﻗﺎﻋﺪﺓ‬/ qAEdp / qui est une forme dérivée
de la racine ‫ ﻗﻌﺪ‬/ qEd / devient une forme ambiguë avec une seule dérivation qui inclut l’ajout
de la voyelle longue Alif après la deuxième lettre et l’ajout du suffixe nominal ‫ ﺓ‬/t/.
- 27 -
Avant la segmentation
Après la segmentation
‫ ﻭﻟﻠﻤﻜﺘﺒﺎﺕ‬/walilmaktabat/
‫ﺍﺕ‬+‫ﻣﻜﺘﺒﺔ‬+‫ﺍﻝ‬+‫ﻝ‬+‫ ﻭ‬/wa+li+al+maktaba+at/
« Et pour les librairies »
Et+pour+les+librairies+pluriel
‫ ﻭﺳﻨﻔﻌﻠﻬﺎ‬/wasanaf’aluhaa/
‫ ﻫﺎ‬+‫ ﻓﻌﻞ‬+‫ ﻥ‬+‫ ﺱ‬+‫ ﻭ‬/wa+sa+na+f’alu+ha/
Exemple 1
Exemple 2
« et+on+nous+faire+elle »
« et on va la faire »
Tableau 1 : Exemples de segmentation de mots dans la langue arabe
La forme dérivée est un cas d’homonymie, ainsi le mot ‫ ﻗﺎﻋﺪﺓ‬/ qAEdp / peut renvoyer aux
différents sens suivants : une règle ou un principe, une base militaire ou encore le nom d’une
organisation ‫ ﺍﻟﻘﺎﻋﺪﺓ‬/ AlqAEdp / ‘Al Qaida’.
L’ambiguïté lexicale est aussi présente en arabe comme dans le cas des noms propres qui
peuvent correspondre à un adjectif, à un nom ou même à un verbe comme l’illustre notre
étude sur la composition des noms de personnes dans la langue arabe (Zaghouani 2011).
Enfin, contrairement aux voyelles longues, les voyelles courtes (signes diacritiques) sont
généralement absentes dans la plupart des textes écrits en arabe, ce qui constitue un grand
facteur d’ambiguïté dans les tâches d’annotation, comme le montre l’exemple du tableau 2.
Catégorie
Translittération 14 Graphie
Verbe
/bayyana/
‫ﺑﻴﻦ‬
‘a déclaré/démontré’
Verbe
/bayyanna/
‫ﺑﻴﻦ‬
‘elles [féminin] ont déclaré/démontré’
Adjectif
/bayyin/
‫ﺑﻴﻦ‬
‘clair/évident’
Préposition /bayna/
‫ﺑﻴﻦ‬
‘entre/parmi’
Préposition /biyin/
‫ﺑﻴﻦ‬
‘avec un Yen’
13F
Signification
Tableau 2 : Exemple d’ambiguïté causée par l’absence des voyelles courtes
14
Il s’agit d’un translittération avec l’ajout des voyelles courtes pour illustrer les différentes lectures possibles.
- 28 -
En effet, contrairement au français, les voyelles courtes arabes ne sont pas des lettres de
l’alphabet, ce sont des signes diacritiques qui se rajoutent aux consonnes (lettres) et qui jouent
le même rôle que les voyelles dans les autres langues. Généralement, les écrits en arabe sont
non diacriticisés et c’est au lecteur d’inférer les voyelles au moment de la lecture. Par
exemple, le sens du mot ‫ ﻭﺟﺪ‬/wjd/ peut changer selon les règles de segmentation adoptées et
même sans segmentation, il peut avoir deux sens distincts avec l’absence de signes
diacritiques comme l’illustre les sens distincts dans le tableau 3.
Par ailleurs, lors de l’annotation syntaxique, il faut prendre en compte le fait que la langue
arabe est une langue à sujet nul pro-drop et qu’elle omet systématiquement la réalisation
morphologique du pronom sujet ; le verbe contient un indice pronominal sujet dans sa flexion.
Dans l’annotation de type Penn Treebank, le sujet nul est annoté implicitement par une trace
dans l’arbre syntaxique.
Translittération
Sens 1
Sens 2
Sans segmentation
‫ ﻭﺟﺪ‬/wjd 15/
‘il a trouvé’
‘amour’
Avec segmentation
‫ﺟﺪ‬+‫ ﻭ‬: /w+jd/
« et+grand-père ».
« et+du sérieux ».
14F
Tableau 3 : Exemple d’ambiguïté du mot ‫ ﻭﺟﺪ‬/wjd/
Il est également important de savoir que la langue arabe dispose d’un ordre des mots mixte,
c’est-à-dire ni entièrement libre ni complètement fixe. Concernant la phrase verbale, l’ordre
de la phrase arabe standard obéit généralement à l’ordre VSO (Al-Chartouni 1986) comme
dans l’exemple suivant : ‫ ﺃﻛﻞ ﺍﻟﻮﻟﺪ ﺍﻟﺴﻠﻄﺔ‬/akala/ (verbe) /al-waladwu/ (sujet) /assalaTa/ (objet),
lit. 16 ‘A mangé l’enfant la salade’, trad. ‘l’enfant a mangé la salade’.
15F
Dans la langue arabe, si on ajoute un mot au début de la phrase, c’est qu’il y a une intention
de focaliser sur ce mot. D’un autre côté, on a généralement tendance à insérer vers la fin de la
phrase, le mot qui rime le mieux ou qui soit le plus long (Blachère et GaudefroyDemombynes 1975). Ceci peut expliquer l’existence d’autres structures comme celles
mentionnées par Mahfoudhi (2002), notamment l’ordre SVO, très employé dans la forme
15
16
Il s’agit d’une translittération sans les voyelles courtes.
La traduction littérale
- 29 -
emphatique dans l’arabe dialectal à l’instar de l’arabe tunisien : ‫ ﺍﻟﻮﻟﺪ ﺃﻛﻞ ﺍﻟﺴﻠﻄﺔ‬/al-waladwu/
(sujet) /akala/ (verbe) /assalaTa/ (objet) ‘l’enfant a mangé la salade’.
La structure VOS existe aussi, mais avec une fréquence moindre. Elle sert exclusivement à
emphatiser le sujet : ‫ ﺃﻛﻞ ﺍﻟﺴﻠﻄﺔ ﺍﻟﻮﻟﺪ‬/akala/ (verbe) /assalaTa/ (objet) /al-wladwu/ (sujet), lit. ‘A
mangé la salade l’enfant’, trad. ‘l’enfant a mangé la salade’. Enfin, la structure OVS qui est
rare est employée parfois pour exprimer la focalisation sur le sujet : ‫ ﺍﻟﺴﻠﻄﺔ ﺃﻛﻞ ﺍﻟﻮﻟﺪ‬/assalaTa/
(objet) /akala/ (verbe) /al-wladwu/ (sujet), lit. ‘La salade a mangé l’enfant’, trad. ‘l’enfant a
mangé la salade’.
La bonne connaissance des règles d’orthographe est d’une grande importance surtout dans les
projets d’annotation des erreurs. Nous citons en particulier les règles d’écriture de la Hamza,
une lettre qui s’écrit comme un diacritique. D’un point de vue phonologique, elle correspond
au coup de glotte /ʔ /. La lettre Hamza peut s’écrire de différentes manières, seule ou avec un
support ; le choix de son support est dicté par des règles orthographiques : seule ‫ ء‬ou
combinée avec d’autres lettres :
- sur et sous la lettre Alif ‫ ﺃ‬et ‫ﺇ‬
- sur la lettre Waw ‫ﺅ‬,
- sur la lettre Yaa ‫ﺉ‬.
De nos jours, on observe une diminution importante de l’usage de cette lettre. Dans d’autres
cas par contre, nous avons remarqué sa présence dans des contextes où elle est devrait être
absente selon les règles d’orthographe des grammairiens de l’arabe classique, par exemple ‫ﻳﺮﺃ‬
/ yaraa / ‘voir’ pour ‫ ﻳﺮﻯ‬/ yary / ‘voir’. De plus, à cause de la complexité des règles d’écriture
de la Hamza (voir tableau 4), beaucoup de fautes de ce type sont présentes dans les textes
écrits. Ceci est en partie causé par le manque de connaissance de l’auteur des règles de la
Hamza et par souci de rapidité.
Nous avons recensé certains traits linguistiques de la langue arabe particulièrement importants
pour les projets d’annotation, ainsi que les difficultés posées par l’orthographe, la
morphologie ou la syntaxe. Ceci nous a permis d’implémenter correctement nos procédures et
nos guides d’annotation dans le projet Treebank (Zaghouani et al., 2014b ; Maamouri et al.,
2010a), dans le projet pilote du Propbank arabe (Palmer et al., 2008) et lors de la révision du
Propbank (Zaghouani et al., 2010), ainsi que dans le Propbank du Coran (Zaghouani et al.,
2012).
- 30 -
Type de combinaison
Graphie
La lettre Alif seule
‫ﺍ‬
La lettre Alif avec Hamza dessus
‫ﺃ‬
La lettre Alif avec Hamza dessous
‫ﺇ‬
La lettre Waw avec Hamza dessus ‫ﺅ‬
La lettre Yaa avec Hamza dessus
‫ﺉ‬
La Hamza seule
‫ء‬
Tableau 4 : Illustration de l’écriture de la Hamza et de l’Alif selon les combinaisons
Enfin, étant donné que l’objectif du projet Qatar Arabic Language Bank était la correction
des erreurs linguistiques, nous avons inclus la plupart des traits de la langue arabe exposés
dans cette section dans le guide d’annotation (Zaghouani et al., 2014a ; Zaghouani et al.,
2014b). Dans la section suivante, nous discutons de la complémentarité entre les différentes
couches d’annotation.
- 31 -
4.
Cor pu s e t cou ch e s d’a n n ot a t ion
Dans les projets d’annotation linguistique, les différentes tâches sont généralement divisées
selon différents niveaux qui suivent un certain ordre ou une certaine hiérarchie inspirée des
travaux Mel'čuk (1988) et comme l’illustre Wilcock (2009), qui présente les différents
niveaux de description linguistique comme des couches selon l’ordre de traitement de la plus
petite unité en bas de l’échelle (sons et lettres) aux plus grandes unités (mots, syntagmes et
phrases) :
Phonologie < Orthographe < Morphologie < Syntaxe < Sémantique < Pragmatique < Discours
D’une manière similaire, l’état de l’art de l’annotation linguistique divise aussi les différents
niveaux d’annotation selon l’ordre suivant :
Division du texte en phrases < Segmentation du texte en mots < étiquetage grammatical des
mots < étiquetage syntaxique des phrases < étiquetage et analyse sémantique (relation
prédicat argument) < étiquetage des entités nommées < analyse des coréférences.
Jusqu’à maintenant, nous avons présenté d’une manière isolée les différents projets
d’annotation auxquels nous avons participé. Dans ce qui suit, nous allons discuter des liens
qui existent entre ces différents projets ainsi que la complémentarité qui existe entre les
différentes couches d’annotation.
Le projet Penn Arabic Treebank illustre un exemple typique d’un projet d’annotation
syntaxique dans lequel l’annotation syntaxique est basée au préalable sur une annotation
morphologique ainsi qu’une segmentation du texte en phrases et en mots. Une fois la
segmentation réalisée, l’analyse morphologique se fait d’une manière semi-automatique avec
la sélection de la meilleure analyse de la partie du discours par l’analyseur morphologique
SAMA (Kulick et al., 2010). Lors de l’étape suivante, l’analyse syntaxique se fait aussi d’une
manière semi-automatique avec une validation manuelle par les annotateurs.
- 32 -
Il existe un lien direct entre la segmentation, l’annotation morphologique et l’annotation
syntaxique, puisque l’annotation syntaxique se base en grande partie sur les choix de la
segmentation, ainsi que sur la désignation des parties du discours par l’annotateur. Plus tard,
cette couche d’analyse syntaxique a permis l’enrichissement du Penn Arabic Treebank par
une couche d’annotation sémantique dans le cadre du projet Probank. Dans ce projet, les rôles
sémantiques dans une structure prédicat-argument sont ajoutés dans la phrase en se basant sur
les choix de l’annotation syntaxique dans la phrase. De plus, notre deuxième expérience
d’annotation pilote du Propbank avec le corpus du Coran a montré que l’exploitation de
l’annotation syntaxique selon la structure de dépendances syntaxiques est aussi possible. Nous
avons aussi montré qu’il est possible d’enrichir la couverture des prédicats verbaux avec
l’enrichissement de la liste des verbes du Propbank arabe existant par ceux du corpus du
Coran.
Dans le cadre du projet Qatar Arabic Language Bank (QALB) pour l’annotation et la
correction des erreurs dans la langue arabe (Zaghouani et al., 2014a), l’annotation se base
aussi sur la segmentation et l’analyse morphologique du texte, ce qui permet de faire une
première passe d’annotation avec l’analyseur morphologique MADAMIRA (Pasha et al.,
2014), qui comprend aussi un module de désambiguïsation des parties du discours.
Ultérieurement, une couche d’annotation d’opinion sera ajoutée au corpus QALB selon le
sentiment exprimé par le texte (positif, négatif ou neutre). Cette annotation va exploiter les
couches existantes pour enrichir davantage le contenu du corpus.
- 33 -
5.
Ex ploit a t ion de s cor pu s a n n ot é s
Jusqu’à maintenant, nous avons discuté seulement de l’annotation de corpus sans montrer des
exemples d’applications possibles qui exploitent directement ces corpus annotés. Dans ce qui
suit, on se propose de présenter brièvement quelques travaux annexes que nous avons menés
et qui illustrent l’intérêt des corpus annotés et leurs applications.
Tout d’abord et suite au projet Propbank, nous avons réalisé une expérience pilote pour
construire une ressource lexicale sous forme d’une base de données morphologique pour les
formes verbales dans la langue arabe standard. Cette ressource exploite directement le corpus
Propbank annoté pour la langue arabe (Hawwari et al., 2013). Dans ce projet, nous avons
choisi un nombre limité de formes verbales et nous avons analysé le comportement des verbes
correspondants dans le Propbank arabe avec un ensemble de 2100 verbes. Le résultat obtenu
permet de classer les différents frames possibles pour chaque forme verbale.
Cette première expérience nous a permis de vérifier la faisabilité et l’intérêt de l’approche
pour construire une base de données similaire, mais avec une couverture plus large.
Ultérieurement, cette base de données peut s’intégrer dans des ressources lexicales comme le
Propbank, le WordNet ou le VerbNet.
Ensuite, dans le cadre du projet RENAR (Zaghouani 2012 ; Zaghouani et al., 2010 ;
Zaghouani 2010), nous avons montré l’importance d’avoir un corpus et des ressources
lexicales pour la création de systèmes de repérage des entités nommées ainsi que pour faire
leurs évaluations.
Lors du projet ARET (Arabic Reading Enhancement Tool), nous avons conçu un outil d’aide
à la lecture en arabe standard (Maamouri et al., 2012). Nous avons intégré un corpus annoté
morphologiquement dans une application pédagogique. Le corpus annoté avec 60 000 mots
provient du texte intégral des passages de lectures de la série de livres audio Al-Kitaab I, II et
III 17, édité par les presses universitaires de l’université de Georgetown. Chaque passage du
corpus a subi, dans une première étape, une annotation automatique pour la morphologie avec
l’outil SAMA (Kulick et al., 2010) qui propose plusieurs solutions possibles pour chaque mot.
Dans une deuxième étape, l’annotation est réalisée par des annotateurs humains. Cette
annotation consiste en la vérification de l’analyse morphologique et de la segmentation de
17
Disponible sur <http://press.georgetown.edu/book-list/al-kitaab>
- 34 -
chaque mot en morphèmes, l’ajout des parties du discours, ainsi que la traduction anglaise
pour chaque morphème. Cet outil montre un exemple d’une application basée sur un corpus
annoté par des experts en morphologie et en syntaxe. Une illustration de l’outil ARET est
incluse dans l’Annexe E.
Enfin, dans le cadre d’un travail collaboratif pour la compagne d’évaluation Arcade II
(Véronis et al., 2008), qui est une compagne d'évaluation dans le domaine de l’alignement
multilingue (français, arabe, russe, chinois etc.). Pour les langues à écriture non latine comme
l’arabe, le chinois ou le russe, nous avons utilisé le corpus du journal le Monde Diplomatique
(MD) et qui contient des articles alignés manuellement au niveau de la phrase. De plus, nous
avons défini des guides d’annotation suite à l’alignement des entités nommées pour la paire
français-arabe. Les ressources créées dans le cadre de cette compagne seront utiles
ultérieurement dans des compagnes similaires. En effet, l’évaluation des technologies de
traitement automatique du langage (Chiao et al., 2006) est une autre exploitation possible des
ressources annotées.
- 35 -
Con clu sion
Dans ce document de synthèse de nos travaux, nous avons tenté de répondre d’une manière
assez sommaire à certaines questions relatives à l’annotation de corpus dans la langue arabe.
Pour plus de détails sur chacun des projets cités dans ce manuscrit, nous invitons le lecteur à
consulter en annexe la version publiée des articles.
Tout d’abord, notre démarche de création de corpus pour la langue arabe nous a permis de
conclure qu’il était possible de réutiliser en partie les méthodologies d’annotation pour la
langue anglaise lors de la création de ressources équivalentes pour la langue arabe. C’est ce
que nous avons démontré avec l’adaptation du Penn Treebank et du Propbank vers l’arabe.
Nous avons néanmoins pu observer à travers ces projets que l’ampleur des adaptations à faire
dans les procédures d’annotation varie selon le type du corpus. Le plus grand travail reste tout
de même dans la rédaction des guides d’annotation pour la nouvelle langue à annoter. De
plus, nous pensons que nos procédures d’annotation, les nouveaux outils développés et
notamment les guides d’annotation, peuvent être exploitées dans des projets similaires pour la
langue arabe et même dans d’autres langues.
Nous avons observé que lors de l’adaptation des procédures d’annotation existantes comme
celle du Penn Treebank, nous avons dû faire face à quelques changements. En effet, le corpus
Arabic Treebank Broadcast News v1.0 issu de sources orales contient des erreurs de
transcriptions et des portions de texte en arabe dialectal. Ces deux éléments parmi d’autres ont
nécessité quelques changements dans la procédure d’annotation (cf. section 2). De plus, nous
avons illustré l’importance de bien étudier les traits linguistiques de la langue arabe dans une
perspective d’annotation. En effet, lors du projet d’annotation des erreurs QALB, nous avons
montré comment nous avons rédigé nos guides d’annotation en nous basant sur les règles
d’orthographe, de morphologie ou de syntaxe propres à l’arabe.
Par ailleurs, nous avons pu améliorer la procédure d’annotation par la simplification des
instructions dans les guides d’annotation et grâce à la création d’outils d’annotation efficaces.
Ensuite, nous avons employé des analyseurs syntaxiques et morphologiques, comme les outils
SAMA et MADAMIRA, afin d’optimiser l’annotation. Enfin, nous avons formé avec soin les
annotateurs et nous avons instauré un mécanisme de suivi et de contrôle de la qualité de
l’annotation avec des mesures fréquentes des accords inter-annotateurs.
En allant de la segmentation et de l’annotation morphologique jusqu’à l’annotation
syntaxique et plus tard avec l’ajout de la couche d’annotation sémantique avec le Propbank,
- 36 -
l’annotation du projet Penn Arabic Treebank montre un bon exemple de l’importance des
rapports qui existent entre les différentes couches d’annotation. Cette complémentarité entre
les différentes couches d’annotations se manifeste aussi à travers les exemples d’applications
présentés dans ce manuscrit et qui illustrent des exemples concrets d’exploitations possibles
de nos ressources.
Prochainement et étant donné que nous avons déjà mis en place nos méthodologies pour
l’annotation de corpus, nous allons continuer dans cette direction avec l’exploration de
nouvelles possibilités pour créer d’autres ressources utiles pour la communauté scientifique.
Nous pensons en particulier à l’ajout de l’annotation des anaphores et des coréférences dans
des corpus comme le Propbank arabe et le Treebank arabe ou la réalisation de nouvelles
expériences pilotes d’annotation avec des corpus appartenant à de nouveaux genres comme
les médias sociaux ou couvrant les variétés dialectales de l’arabe.
- 37 -
Bibliogr a ph ie
Abuhakema, G., Faraj, R., Feldman, A. et Fitzpatrick, E. (2008). Annotating an Arabic
Learner Corpus for Error, dans Proceedings of the Sixth International Language Resources
and Evaluation (LRE 2008), pages 1347-1350.
Al-Chartouni, R. (1986). mabaadiu al arabijati (Les bases de l’arabe). Beyrouth, Dar ElMachreq, s.p.
Alfaifi, Abdullah et Atwell, Eric (2013). Arabic Learner Corpus v1: A New Resource for
Arabic Language Research, dans Proceedings of the Second Workshop on Arabic Corpus
Linguistics (WACL-2). Lancaster University, UK.
Alkanhal Mohamed I., Mohamed Al-Badrashiny, Mansour M. Alghamdi, Abdulaziz O. AlQabbany (2012). Automatic Stochastic Arabic Spelling Correction With Emphasis on Space
Insertions and Deletions, dans IEEE Transactions on Audio, Speech and Language
Processing 20(7): 2111-2122.
Arbaoui, Nor Elhouda (2010). Les dix formes de l'arabe classique à l'interface
syntaxe/phonologie : pour une déconstruction du gabarit. Thèse de doctorat à Paris 7.
Atwell Eric, Kais Dukes, Abdul-Baquee Sharaf, Nizar Habash, Bill Louw, Bayan Abu
Shawar, Tony McEnery, Wajdi Zaghouani et Mahmoud El-Haj (2010). Understanding
the Quran: A new Grand Challenge for Computer Science and Artificial Intelligence,
dans Grand Challenges for Computing Research. British Computer Society Workshop.
Edinburgh.
Awad Dina (2013). La ponctuation en arabe : histoire et règles. Étude contrastive avec le
français et l'anglais. Thèse de doctorat, Lyon 2.
Baker Collin F., Charles J. Fillmore, et John B. Lowe (1998). The Berkeley FrameNet
Project, dans Proceedings of the 36th Annual Meeting of the Association for Computational
Linguistics and 17th International Conference on Computational Linguistics - Volume 1
(ACL '98), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA,
pages 86-90.
Blachère, R. et M. Gaudefroy-Demombynes (1975). Grammaire de l’arabe classique, Paris,
Maisonneuve and Larose, 508 p.
Boudelaa Sami, William D Marslen-Wilson (2010). Aralex: a lexical database for Modern
Standard Arabic, dans MRC Cognition and Brain Sciences Unit, Cambridge, England.
Chiao Yun-Chuang, Olivier Kraif, Dominique Laurent, Thi Minh Huyen Nguyen,
Nasredine Semmar, François Stuck, Jean Véronis, Wajdi Zaghouani (2006).
Evaluation of multilingual text alignment systems: the ARCADE II project, dans
Proceedings of the 5th International Conference on Language Resources and Evaluation
(LREC'2006). Genoa, Italy, 24-26 May 2006.
- 38 -
Choi Jinho, Claire Bonial, et Martha Palmer (2010a) Propbank Instance Annotation
Guidelines Using a Dedicated Editor, Cornerstone, dans Proceedings of the (LREC'10),
pages 3650-3653.
Choi Jinho, Claire Bonial, et Martha Palmer (2010b). Propbank Instance Annotation
Guidelines Using a Dedicated Editor, Jubilee, dans Proceedings of the (LREC'10), pages
1871-1875.
Diab Mona et Nizar Habash (2014). Arabic Dialect Processing Tutorial, dans Proceedings of
the conference on Empirical Methods for Natural Language Processing (EMNLP),
Doha,Qatar.
Dukes Kais et Tim Buckwalter (2010). A Dependency Treebank of the Quran using
Traditional Arabic Grammar, dans Proceedings of the 7th International Conference on
Informatics and Systems (INFOS).
Dukes Kais, Eric Atwell et Abdul-Baquee Sharaf (2010). Syntactic Annotation Guidelines for
the Quranic Arabic Dependency Treebank, dans Proceedings of Language Resources and
Evaluation Conference (LREC). Valletta, Malta.
Hawwari, A.; Zaghouani, W.; O'Gorman, T.; Badran, A.; Diab, M. (2013). Building a
lexical semantic resource for Arabic morphological Patterns, dans Proceedings of la
conférence Communications, Signal Processing, and their Applications (ICCSPA), pages
1-6, 12-14 Février. 2013.
Jeblee Serena, Houda Bouamor, Wajdi Zaghouani et Kemal Oflazer (2014).
CMUQ@The 2014 Automatic Arabic Error Correction Shared Task, dans
Proceedings du Arabic Natural Language Processing Workshop co-located with EMNLP
2014, Doha, Qatar.
Kipper Karin (2006). VerbNet: A Broad-Coverage, Comprehensive Verb Lexicon. Thèse de
doctorat, University of Pennsylvania.
Kulick Seth, Ann Bies et Mohamed Maamouri (2010). Consistent and Flexible Integration of
Morphological Annotation in the Arabic Treebank, dans Proceedings of the Seventh
International Conference on Language Resources and Evaluation (LREC) .
Kulick Seth, Ann Bies, Justin Mott (2012). Further Developments in Treebank Error
Detection Using Derivation Trees, dans Proceedings of LREC 2012 : 8th International
Conference on Language Resources and Evaluation, Istanbul, May 21-27.
Lo Chi-kiu et Dekai Wu (2010). Evaluating machine translation utility via semantic
rolelabels, dans Proceedings of the Seventh International Conference on Language
Resources and Evaluation (LREC-2010), pages 2873–2877, Malta, May 2010.
Maamouri Mohamed et Ann Bies (2004). Developing an Arabic Treebank: Methods,
Guidelines, Procedures, and Tools, dans Proceedings of COLING 2004. Geneva,
Switzerland.
- 39 -
Maamouri Mohamed, Ann Bies, Seth Kulick (2008). Enhancing the Arabic Treebank: A
Collaborative Effort toward New Annotation Guidelines, dans Proceedings of LREC 2008:
7th International Conference on Language Resources and Evaluation, Marrakech, May 2830.
Maamouri Mohamed, Ann Bies, Seth Kulick, Wajdi Zaghouani, Dave Graff et Mike
Ciul (2010a). From Speech to Trees: Applying Treebank Annotation to Arabic
Broadcast News, dans Proceedings du LREC 2010, Valetta, Malta, mai 17-23 2010.
Maamouri Mohamed, Ann Bies, Seth Kulick, Fatma Gaddeche, Wigdan Mekki, Sondos
Krouna, Basma Bouziri, Wajdi Zaghouani (2010b). Arabic Treebank Part 1 Version
4.1. LDC Catalog, LDC2010T13. Linguistic Data Consortium.
Maamouri Mohamed, Ann Bies, Seth Kulick, Sondos Krouna, Fatma Gaddeche, Wajdi
Zaghouani (2010c). Arabic Arabic Treebank: Part 3 v 3.2. LDC Catalog No. :
LDC2010T08. Linguistic Data Consortium.
Maamouri Mohamed, Ann Bies, Seth Kulick, Fatma Gaddeche, Wigdan Mekki, Sondos
Krouna, Basma Bouziri, Wajdi Zaghouani (2011). Arabic Treebank: Part 2 v 3.1.
LDC2011T09. ISBN 1-58563-590-1. Linguistic Data Consortium.
Maamouri Mohammed, Wajdi Zaghouani, Violetta Cavalli-Sforza, Dave Graff et Mike
Ciul (2012). Developing ARET: An NLP-based Educational Tool Set for Arabic
Reading Enhancement, dans Proceedings of the Workshop on Innovative Use of NLP
for Building Educational Applications, NAACL-HLT 2012, Montréal, Canada.
Mahfoudhi, A. (2002). « Agreement lost, agreement regained! A minimalist account of word
order and agreement variation in Arabic », dans California Linguistic Notes, vol. 27 nº 2
(2002).
Marcus, M.- P., Marcinkiewicz M.-A, et Beatrice Santorini (1993). Building a large annotated
corpus of English: The Penn Treebank, dans Computational Linguistics 19, no. 2 (1993):
313-330.
Mel'cuk Igor A. (1988). Dependency Syntax: Theory and Practice. SUNY Press, Albany, NY.
Mohit Behrang, Alla Rozovskaya, Nizar Habash, Wajdi Zaghouani, and Ossama Obeid
(2014). The First QALB Shared Task on Automatic Text Correction for Arabic, dans
Proceedings of EMNLP Workshop on Arabic Natural Language Processing, Doha,
Qatar.
Morton Thomas et Jeremy LaCivita (2003). WordFreak: an open tool for linguistic
annotation, dans Proceedings of the 2003 Conference of the North American Chapter of the
Association for Computational Linguistics on Human Language Technology:
Demonstrations - Volume 4 (NAACL-Demonstrations '03), Vol. 4. Association for
Computational Linguistics, Stroudsburg, PA, USA, pages 17-18.
Obeid Ossama, Wajdi Zaghouani, Behrang Mohit, Nizar Habash, Kemal Oflazer et
Nadi Tomeh (2013). A Web-based Annotation Framework For Large-Scale Text
Correction, dans Proceedings du IJCNLP’2013, Nagoya, Japan.
- 40 -
Palmer Martha, Dan Gildea, et Paul Kingsbury (2005). The proposition bank: A corpus
annotated with semantic roles, dans Computational Linguistics Journal, number 31:1.
Palmer Martha, Olga Babko-Malaya, Ann Bies, Mona Diab, Aous Mansouri,
Mohammed Maamouri et Wajdi Zaghouani (2008). A Pilot Arabic Propbank, dans
Proceedings of la Language Resources and Evaluation Conference, Marrakech,
Morocco, May 28-30, 2008.
Pasha Arfath, Mohamed Al-Badrashiny, Mona Diab, Ahmed El Kholy, Ramy Eskander,
Nizar Habash, Manoj Pooleery, Owen Rambow, et Ryan M. Roth (2014). MADAMIRA: A
Fast, Comprehensive Tool for Morphological Analysis and Disambiguation, dans
Proceedings of LREC 2014, Reykjavik, Iceland.
Perrier Guy, Marie Candito, Bruno Guillaume, Corentin Ribeyre, Karën Fort, Djamé Seddah
(2014). Un schéma d’annotation en dépendances syntaxiques profondes pour le français,
dans Actes du TALN 2014.
Vergyri, D., Kirchhoff, K., Duh, K. et A. Stolcke (2004). « Morphology-Based Language
Modeling for Arabic Speech Recognition » , dans Proceedings of the International
Conference on Spoken Language Processing (ICSLP). Jeju Island, Korea, pages 2245-2248.
Véronis, J., O. Hamon, C. Ayache, R. Belmouhoub, O. Kraif, D. Laurent, T.M.H. Nuyyen, N.
Semmar, F. Stuck, W. Zaghouani. (2008). La campagne d'évaluation ARCADE II,
dans Chaudiron, S. and Choukri, K. (Eds.) L'évaluation des technologies de traitement de la
langue (pp 47-69). Paris: hermès Science Publications, IC2 Cognition Collection. ISBN
978-2-7462-1992-2.
Wilcock Graham (2009). Introduction to Linguistic Annotation and Text Analytics, volume 3
of Synthesis Lectures on Human Language Technologies. Morgan and Claypool, 2009.
Wu Dekai et Pascale Fung (2009a). Can semantic role labeling improve SMT?, dans
Proceedings of 13th Annual Conference of the European Association for Machine
Translation (EAMT 2009), pages 218–225, Barcelona, May 2009.
Wu Dekai et Pascale Fung (2009b). Can semantic role labeling improve SMT? , dans
Proceedings of In 13th Annual Conference of the European Association for Machine
Translation (EAMT 2009), pages 218–225, Barcelona, May 2009.
Zaghouani Wajdi (2010). L'intégration d'un outil de repérage d'entités nommées pour la
langue arabe dans un système de veille, dans Actes du TALN 2010, Montréal, 19-23
juillet 2010.
Zaghouani Wajdi, Mona Diab , Aous Mansouri, Sameer Pradhan et Martha Palmer
(2010). The Revised Arabic Propbank, dans Proceedings of Linguistic Annotation
Workshop, ACL. Uppsala, Suède, juillet 15-16 2010.
Zaghouani Wajdi, Bruno Pouliquen, Mohamed Ebrahim et Ralf Steinberger (2010).
Adapting a resource-light highly multilingual Named Entity Recognition system to
Arabic, dans Proceedings of LREC 2010, Valette, Malte, May 17-23, 2010.
- 41 -
Zaghouani Wajdi (2011). Étude sur la composition des noms de personnes dans la
langue arabe, dans Actes du 25ème Colloque Journées de linguistique de Laval. 9-11
March 2011, Laval , Québec, Canada.
Zaghouani Wajdi (2012). RENAR: A Rule-Based Arabic Named Entity Recognition
System. Article dans ACM Transactions on Asian Language and information
Processing 11(1): 2 .
Zaghouani Wajdi, Hawwari, Abdelati et Diab, Mona (2012). A Pilot PropBank
Annotation for Quranic Arabic, dans Proceedings of the NAACL-HLT 2012 Workshop
on Computational Linguistics for Literature, Association for Computational Linguistics,
Montréal, Canada. pages 78-83.
Zaghouani Wajdi (2014a). Critical Survey of the Freely Available Arabic Corpora, dans
Proceedings of the Workshop on Free/Open-Source Arabic Corpora and Corpora
Processing Tools, Language Resources and Evaluation (LREC'2014). Rejkavik, Iceland,
26-31 May 2014.
Zaghouani Wajdi (2014b). Annotation syntaxique d’un corpus pour la langue arabe,
dans Actes du 82ème congrès de l’Association francophone pour le savoir (ACFAS), 15
Mai 2014 Montréal, Canada.
Zaghouani Wajdi, Behrang Mohit, Nizar Habash, Ossama Obeid, Nadi Tomeh, Alla
Rozovskaya, Noura Farra, Sarah Alkuhlani et Kemal Oflazer (2014a). Large-scale
Arabic Error Annotation: Guidelines and Framework, dans Proceedings of the
International Conference on Language Resources and Evaluation (LREC'2014).
Rejkavik, Iceland, 26-31 May 2014.
Zaghouani Wajdi, Behrang Mohit, Nizar Habash (2014b.) The Qatar Arabic Language
Bank Guidelines. Technical report number CMU-CS-QTR-124, School of Computer
Science, Carnegie Mellon University Qatar, Septembre 2014.
Zaghouani Wajdi, Nizar Habash, Behrang Mohit, Kemal Oflazer (2014c). Annotation
Guidelines for Non-native Arabic Text in the Qatar Arabic Language Bank, dans
Proceedings of Qatar Annual Research Conference (ARC-2013), Doha, Qatar.
Zaghouani Wajdi et Kais Dukes (2014) Can Crowdsourcing be used for Effective
Annotation of Arabic?, dans Proceedings of LREC 2014. Pages 224-228.
- 42 -
An n e x e A
Li st e co m p l è t e d e s a r g u m e n t s
d a n s l e co r p u s P r o p b a n k
Arguments
ARG-0
ARG-1
ARG-2
ARG-3
ARG-4
Fonction
Agent
Patient
Instrument, bénéficiaire ou attribut
Point de départ
Point d’arrivée
Tableau 5 : Liste des arguments
Étiquette
ARGM-ADV
ARGM-BNF
ARGM-CAU
ARGM-CND
ARGM-DIR
ARGM-DIS
ARGM-EXT
ARGM-LOC
ARGM-MNR
ARGM-NEG
ARGM-PRD
ARGM-PRP
ARGMREC
ARGM-TMP
Sens de l’argument
adjoint
Adverbiale
Bénéficiaire
Causale
Condition
Direction
Discours
Degré
Lieu
Manière
Négation
Prédicatif
But
Réciproque
Temporel
Tableau 6 : Liste des arguments adjoints dans la Propbank
- 43 -
An n e x e B
Ex e m p l e
d’u n
fram e
da n s la Pr opba n k a r a be
Figure 16 : Exemple d’un fichier cadre en XML
- 44 -
en
XML
An n e x e C
Cr é a t i o n
d’u n
fram e
avec
Co r n e t st o n e
Figure 13 : Étape 1. Ajout des arguments dans le fichier frame ‫ ﺧﻠﻖ‬Xalaqa créer.
Figure 14 : Étape 2. Un exemple est annoté dans le fichier frame ‫ ﺧﻠﻖ‬Xalaqa créer qui montre la sélection
d’un argument temporel.
- 45 -
An n e x e D
L’ o u t i l d ’ a n n o t a t i o n Q A W I p o u r
l e p r o j e t Q A LB
Figure 17 : L’outil d’annotation QAWI
- 46 -
An n e x e E
V i su a l i sa t i o n d e l ’ é cr a n
d ’ a ccu e i l d e l ’ o u t i l A R ET
Figure 18 : Illustration de l’outil ARET (Maamouri et al., 2012)
1.
2.
3.
4.
5.
6.
7.
8.
Passage de lecture du texte
Phrase sélectionnée
Mot sélectionné
Lecteur audio pour la phrase sélectionnée
Lecteur audio pour le mot sélectionné
Analyse morphologique
Glossaire et racine du mot sélectionné
Onglet du navigateur pour ouvrir des écrans multiples
- 47 -
An n e x e F
Li st e d e s a r t i cl e s a n n e x é s 18
Article 1 : Critical Survey of the Freely Available Arabic Corpora
Article 2 : From Speech to Trees: Applying Treebank Annotation to Arabic Broadcast News
Article 3 : A Pilot Arabic Propbank
Article 4 : The Revised Arabic Propbank
Article 5 : A Pilot PropBank Annotation for Quranic Arabic
Article 6 : Can Crowdsourcing be used for Effective Annotation of Arabic?
Article 7 : Large-scale Arabic Error Annotation: Guidelines and Framework
Article 8 : A Web-based Annotation Framework For Large-Scale Text Correction
Article 9 : The First QALB Shared Task on Automatic Text Correction for Arabic
Article 10 : CMUQ@The 2014 Automatic Arabic Error Correction Shared Task
Article 11 : Étude sur la composition des noms de personnes dans la langue arabe
Article 12 : Building a lexical semantic resource for Arabic morphological Patterns
Article 13 : RENAR: A Rule-Based Arabic Named Entity Recognition System
Article 14 : Adapting a resource-light highly multilingual Named Entity Recognition system
to Arabic
Article 15 : Developing ARET: An NLP-based Educational Tool Set for Arabic Reading
Enhancement
Article 16 : Evaluation of multilingual text alignment systems: the ARCADE II project
18
Les articles annexés sont ordonnés selon leur ordre d’apparition dans le document de synthèse.
- 48 -
Téléchargement