UNIVERSITÉ PARIS OUEST NANTERRE-LA DÉFENSE ÉCOLE DOCTORALE 139 - Connaissance Langage Modélisation UMR 7114 MoDyCo Le dé ve loppe m e n t de cor pu s a n n ot é s pou r la la n gu e a r a be THÈSE DE DOCTORAT « SCIENCES DU LANGAGE : TRAITEMENT AUTOMATIQUE DES LANGUES » Présent ée par W a j di Za gh ou a n i Sous la direction de Sylvain Kahane Membres du jury : Khalid Choukri, Directeur de E.L.D.A, Examinateur Sylvain Kahane, Professeur à l’Université Paris Ouest Nanterre, Directeur de thèse Jean-Luc Minel, Professeur à l’Université Paris Ouest Nanterre, Examinateur Jean-Luc Muller, Directeur du CREFOP, Examinateur Alexis Nasr, Professeur à l’Université Aix Marseille, Rapporteur Thierry Poibeau, Directeur de Recherche au C.N.R.S, Rapporteur Benoît Sagot, Chargé de Recherche à l’I.N.R.I.A, Université Paris 7, Examinateur Ré su m é L’objectif de cette thèse est de montrer les différentes facettes de l’annotation de corpus dans la langue arabe. Nous présentons nos travaux scientifiques sur l’annotation de corpus et sur la création de ressources lexicales dans la langue arabe. D’abord, nous discutons des méthodes, des difficultés linguistiques, des guides d’annotation, de l’optimisation de l’effort d’annotation, ainsi que de l’adaptation à la langue arabe de procédures d’annotation existantes. Ensuite, nous montrons la complémentarité entre les différentes couches d’annotation. Enfin, nous illustrons l’importance de ces travaux pour le traitement automatique des langues en illustrant quelques exemples de ressources et d’applications. Mots clés : Annotation de corpus, Guides d’annotation, Treebank, Propbank, Langue arabe Abst r a ct The goal of this thesis is to show the various aspects of corpus annotation in the Arabic language. We present our publications on corpus annotation and lexical resources creation in the Arabic language. First, we discuss the methods, the language difficulties, the annotation guidelines, the annotation effort optimization limits and how we adapted some of the existing annotation procedures to the Arabic language. Furthermore, we show the complementarity between the different layers of annotations. Finally, we illustrate the importance of our work for natural language processing by illustrating some examples of resources and applications. Keywords: Corpus Annotation, Annotation guidelines, Treebank, Propbank, Arabic Language -2- Ta ble de s m a t iè r e s Introduction .......................................................................................... 8 1. Construction de corpus annotés pour la langue arabe .............. 9 2. Optimisation des procédures d’annotation ............................... 21 3. Traits linguistiques et annotation de l’arabe ............................ 27 4. Corpus et couches d’annotation ................................................. 32 5. Exploitation des corpus annotés ................................................. 34 Conclusion .......................................................................................... 36 Bibliographie ...................................................................................... 38 Annexe A Liste complète des arguments dans le corpus Propbank ............. 43 Annexe B Exemple d’un frame en XML dans la Propbank arabe ............... 44 Annexe C Création d’un frame avec Cornetstone .......................................... 45 Annexe D L’outil d’annotation QAWI pour le projet QALB ....................... 46 Annexe E Visualisation de l’écran d’accueil de l’outil ARET....................... 47 Annexe F Liste des articles annexés................................................................. 48 -3- Certes, la science guide, dirige et sauve; l'ignorance égare, trompe et ruine Imâm Ali ibn Abi Talib -4- À mes parents Moncef et Fatma À Anissa, Adem, Anas -5- Re m e r cie m e n t s Je voudrais exprimer ma gratitude et mes remerciements à l’ensemble des personnes qui ont participé de près ou de loin à cette thèse avec leurs conseils et leurs recommandations. Je tiens en tout premier lieu à remercier sincèrement Sylvain Kahane qui a accepté de diriger ma thèse tout en offrant ses précieux conseils et en se montrant toujours disponible toutes les fois que j’attendais son aide. Je suis vraiment heureux d’avoir eu la chance de collaborer avec lui. Mes remerciements les plus sincères vont également aux directeurs de l’équipe QALB à Carnegie Mellon University, Kemal Oflazer et Behrang Mohit, ainsi qu’à Nizar Habash de Columbia University, pour leurs encouragements et pour m’avoir permis de dégager du temps de travail pour terminer la thèse. Je ne pourrais passer sous silence les encouragements constants de Ralf Steinberger et de tous les membres du groupe JRC EMM à la Commission Européenne et particulièrement Bruno Pouliquen. Je voudrais aussi remercier mes collègues à l’université de Pennsylvanie du Linguistic Data Consortium, Tim Buckwalter, Mohammed Maamouri et Dave Graff, pour le partage de leurs expériences, ainsi que pour leurs conseils de grande qualité qui ont été d'une précieuse richesse. Ma plus grande gratitude va également à mes professeurs durant tout mon cursus universitaire et en particulier Louisette Emirkanian, Marie Labelle, Denis Bouchard, Thomas Leu, Anne Rochette, Reine Pinsonneault, Benoît Jacques, Patrick Drouin, Richard Kittredge, Mohamed Guerseal, Didier Daussaint et Isabelle Daussaint. Je remercie également le Conseil de Recherches en Sciences Humaines du Canada pour son support financier durant mon parcours universitaire. Merci à tous ceux avec lesquels j’ai eu une collaboration étroite au cours de mes projets : Abdelati Hawwari, Manon Legault, Fatiha Sadat, Eric Atwell, Kais Dukes, Abdullah Alfaifi, Houda Bouamor, Ossama Obeid, Brian Doherty, Arman Tajarobi, Martha Palmer et Mona Diab. -6- Je n’oublie pas mon équipe d’annotateurs, Nour Alzeer, Samah Lakhal Gannar, Hoda Fathy, Hoda Ibrahim, Anissa Jrad, Jihene Wefi, Mariem Fekih et Nourhen Feki. Merci de m’avoir aidé lors de cet éprouvant travail d’annotation. Je remercie également Khalid Choukri, Jean-Luc Minel, Jean-Luc Muller, Alexis Nasr, Thierry Poibeau et Benoît Sagot qui ont accepté de faire partie de mon jury et d'évaluer mon travail. Enfin, j’adresse mes plus sincères remerciements à tous mes proches et amis et particulièrement mes parents Moncef et Fatma et mes frères Nader et Waël pour le soutien et les encouragements qu’ils m’ont apportés. Sans oublier les petits Adem et Anas. Un merci très particulier à toi, Anissa, tu m’as toujours apporté ton soutien au jour le jour, aussi bien dans les moments de joie que dans ceux du doute et de remise en question. -7- I n t r odu ct ion L’annotation linguistique de corpus joue un rôle important dans le développement d’applications en traitement automatique des langues naturelles telles que la recherche d’informations, l’extraction d’informations, la traduction automatique, les systèmes de questions/réponses et le résumé automatique. Ce document de synthèse vise à présenter et à mettre en perspective mes travaux scientifiques sur l’annotation de corpus et sur la création de ressources lexicales dans la langue arabe. Une bonne de partie de mes travaux de recherche résulte d’une contribution collective avec d’autres membres dans les équipes de recherche. Nous exposons dans ce document l’essentiel de nos contributions personnelles dans ces travaux. Nous discutons des méthodes, des difficultés linguistiques ainsi que de l’importance de ces travaux pour le traitement automatique des langues en illustrant quelques exemples où des ressources ont été intégrées dans des applications. Voici quelques-unes des questions auxquelles nous avons été confrontés au cours des 10 ans où nous avons travaillé au développement de corpus annotés pour l’arabe et pour lesquelles nous avons essayé d’apporter des éléments de réponses dans nos publications. Tout d’abord, est-il possible de développer des corpus annotés pour la langue arabe en se servant majoritairement des méthodes et des approches d'annotation existantes ? Quelle est l'ampleur des adaptations à faire ? Quelles sont les difficultés que l’on rencontre lorsqu’on cherche à adapter des méthodes développées pour d’autres langues ? Comment peut-on optimiser les procédures et l’effort d’annotation dans les projets d'annotation d'envergure ? Et comment se fait le lien entre les différentes couches d'annotation dans les corpus ? Est-ce que les annotations peuvent se compléter les unes les autres ? Ensuite, quelles sont les particularités linguistiques de la langue arabe dont on doit tenir compte lors d’un projet d'annotation ? Enfin, quelles sont les exploitations possibles des corpus annotés pour la langue arabe ? Par le présent manuscrit, nous proposons une synthèse de nos travaux en montrant comment ils répondent à ces diverses questions. -8- 1. Con st r u ct ion de cor pu s a n n ot é s pou r la la n gu e a r a be Afin de développer des corpus annotés pour une langue comme l’arabe, nous avons essayé de suivre en partie les démarches testées et prouvées pour des corpus similaires et pour des langues ayant plus de ressources disponibles et notamment la langue anglaise comme le montre notre récent travail de recensement de corpus dans la langue arabe (Zaghouani 2014a) 1. L’adaptation des procédures d’annotation existantes permet un gain en temps de recherche, même s’il existe toujours des adaptations à faire pour se conformer aux particularités de la langue et à la nouvelle annotation à créer. Dans ce qui suit, nous discutons des méthodologies suivies pour adapter le Penn Treebank (Marcus et al., 1993) et le Propbank (Palmer et al., 2005) pour la langue arabe. Le choix de porter ces deux corpus pour l’arabe était motivé par l’importance de ces ressources et par l’inexistence de ressources similaires pour l’arabe. Le corpus Penn Treebank qui est annoté en arbres syntagmatiques constitue une référence pour l’anglais-américain (Marcus et al., 1993). La segmentation du guide d’annotation du Penn Treebank favorise un découpage du texte en unités élémentaires avant de déterminer les caractéristiques de ces unités. La figure 1 illustre un arbre syntaxique annoté selon le schéma d’annotation du Penn Treebank. Le corpus Penn Treebank compte près de 2,4 millions de mots annotés morphologiquement et syntaxiquement et couvre le domaine journalistique (Wall Street Journal) et l’anglais général (Brown). Dans ce qui suit, nous discutons de nos efforts pour adapter la procédure d’annotation du Penn Treebank vers un corpus en langue arabe et pour le domaine oral (transcription audio de téléjournaux). Avant de commencer l’étape d’annotation, une transcription complète des enregistrements audio doit s’effectuer préalablement. Un corpus oral transcrit dispose de caractéristiques différentes d’un corpus écrit, ce qui requiert quelques changements dans la procédure et les guides d’annotation. En tant que membre du groupe Penn Arabic Treebank (PATB), j’étais chargé de l’adaptation de la procédure d’annotation ainsi que de la rédaction du nouveau guide d’annotation. 1 Dans ce document y compris la bibliographie, j’indique en gras les publications dont je suis auteur ou coauteur. -9- Figure 1 : Arbre syntaxique du Penn Arabic Treebank (Diab et Habash, 2014) Les principales adaptations faites dans la procédure d’annotation sont liées à la nature de ce nouveau corpus issu de l’oral. D’abord, le traitement des erreurs de transcription, ainsi que l’annotation de l’arabe dialectal (assez fréquent dans le corpus oral), n’était pas présent dans l’ancienne procédure et les guides d’annotation. Ensuite, le traitement des mots inconnus dans le dictionnaire de l’analyseur morphologique SAMA (Kulick et al., 2010) que nous utilisions a changé depuis l’ancienne version 2. Par conséquent, le flux de travail (workflow) a été adapté à son tour pour supporter la production d’un treebank issu de sources orales comme l’Arabic Treebank Broadcast News v1.0 (catalogue du LDC No : LDC2012T07), qui comprend environ 100 000 mots provenant de la transcription de journaux télé d’Aljazeera, Dubai News et Alhurra News. La transcription des données audio vers des fichiers textes avec l’outil de transcription Xtrans 3 en se servant du guide de transcription qui décrit le processus de segmentation et les métadonnées à inclure. Une fois transcrites, les phrases passent par l’analyseur morphologique SAMA afin de produire automatiquement les analyses possibles pour chaque unité lexicale y compris les clitiques, les morphèmes flexionnels, les parties du discours, ainsi que la glose en anglais de chaque morphème. Un autre changement fait pour ce nouveau corpus est le nouveau mécanisme de contrôle de la qualité. Il s’agit d’une vérification faite pour s’assurer que les arbres syntaxiques sont annotés d’une manière fiable selon un ensemble de 93 règles de vérification avec l’outil de diagnostic 2 3 <https://catalog.ldc.upenn.edu/LDC2004L02> Disponible sur < https://www.ldc.upenn.edu/language-resources/tools/xtrans> - 10 - Corpus Search 4. Cet outil permet de personnaliser les règles pour couvrir des problèmes spécifiques aux corpus oraux ou écrit, ce qui rend possible la détection de plusieurs problèmes connus, comme la présence d’arbres syntaxiques ayant des structures incomplètes. Une fois le rapport d’erreurs généré, une deuxième phase d’annotation peut commencer avec seulement les arbres repérés comme potentiellement problématiques. Cette dernière étape peut se faire plus d’une fois, si des erreurs persistent après la première passe. Le processus d’annotation en arbres syntagmatiques que nous avons présentée dans (Zaghouani 2014b ; Maamouri et al., 2010a) est devenu la nouvelle norme d’annotation des treebanks pour l’arabe. On peut en particulier l’observer dans les corpus Arabic Treebank Part 1 (Maamouri et al., 2010b), Part 2 (Maamouri et al., 2011) et Part 3 (Maamouri et al., 2010c) et dans les projets futurs dans le groupe PATB (Kulick et al., 2012). L’une des raisons à cela est que ce processus permet de s’assurer que la production du corpus est en accord avec les guides d’annotation. Ainsi, nous avons pu adapter et tester une nouvelle procédure d’annotation pour un corpus d’un nouveau genre pour la langue arabe. D’une manière similaire, nous avons mené des efforts pour adapter le corpus Propbank de la langue anglaise vers la langue arabe. Le corpus Propbank (Palmer et al., 2005), qui est la suite du projet Penn Treebank, se considère comme une couche sémantique ajoutée aux arbres syntaxiques du Penn Treebank. Le corpus est composé de deux parties, l’ensemble des frames qui donnent un sens aux arguments des prédicats ainsi que l’annotation des rôles sémantiques des constituants des arbres syntaxiques. Les frames comprennent la liste des rôles déterminés par les différents sens que peut avoir un prédicat donné. Il s’agit du premier projet du genre pour la langue arabe. Selon la méthode Propbank, un numéro est donné aux arguments (roleset) pour distinguer leur fonction dans la phrase. L’agent est consigné comme l’argument Arg0, le thème ou patient est l’argument Arg1 et ainsi de suite comme l'illustre l'exemple suivant : Paul mange une pomme [Prédicat : manger], [Arg0 : Paul], [Arg1 : une pomme]. En plus des arguments numérotés spécifiés pour chaque verbe, les constituants restants qui apparaissent dans la phrase sont considérés comme des arguments adjoints d’ordre facultatif (modifiers en anglais). Ces arguments sont étiquetés Arg-M suivis de leurs descriptions, par exemple (ArgM-Loc). Ils représentent sémantiquement des concepts primitifs tels que la cause [CAU], le lieu [LOC], le temps [TMP] ou la manière [MAN]. L’Annexe A énumère la liste des arguments employés dans les projets Propbank. 4 Disponible sur <http://corpussearch.sourceforge.net/> - 11 - Les travaux antérieurs dans ce domaine ont porté essentiellement sur la langue anglaise qui dispose de ressources riches, telles que le VerbNet (Kipper 2006) et le FrameNet (Baker et al., 1998), qui ont servi à alimenter les systèmes d’annotation automatisés. L’annotation dans d’autres langues, pour lesquelles on ne dispose pas d’un corpus annoté manuellement, repose souvent sur le FrameNet anglais comme point de départ. Les corpus annotés sémantiquement ont contribué au développement et à l’amélioration de plusieurs outils linguistiques (Palmer et al., 2008), tel que les systèmes d'extraction de l'information, les systèmes de questions/réponses, et les outils de traduction automatique, mentionnés dans (Lo et Wu 2010; Wu et Fung 2009a, 2009b) qui ont testé l’apport des rôles sémantiques de type Propbank dans des systèmes de traduction automatique basés sur l’apprentissage automatique. Les résultats que Lo et Wu (2010) et Wu et Fung (2009a et 2009b) ont obtenus ont montré que ces systèmes produisent une meilleure traduction et moins de confusion. Afin de créer un corpus de type Propbank pour la langue arabe, dans le cadre d’une première expérience pilote, nous avons adapté en partie la méthodologie existante pour l’anglais (Palmer et al., 2005) et nous l’avons appliquée au corpus Treebank arabe Part 3 version 3.1 et 3.2 (Maamouri et al., 2004 ; Maamouri et al., 2010c). Pour créer ce corpus, il fallait tenir compte de certaines particularités de la langue arabe, notamment celles liées à l’ordre des mots dans la phrase, à la construction syntaxique de la phrase et à la polysémie. Dans l’annotation de type Propbank, l’annotation sémantique est basée sur la structure syntaxique sous-jacente représentée dans le treebank. La procédure d’annotation implique la création des frames pour les verbes en suivant un guide d’annotation. Les frames contiennent les prédicats verbaux ainsi que leurs arguments possibles. Il faut noter que lors de cette expérience pilote, la création des frames se fait comme pour la langue anglaise, sans l’aide d’un éditeur XML dédié. L’Annexe B illustre le contenu d’un frame au format XML. La procédure commence par le choix des prédicats verbaux à annoter dans le corpus. Dans le cadre de ce projet pilote, nous avons choisi 493 prédicats parmi les plus fréquents. Ensuite, un frame a été créé pour chaque verbe. Comme avec le Propbank anglais, l’annotation s’est déroulée avec l’outil Wordfreak (Morton et LaCivita 2003), qui n’était pas parfaitement adapté pour la langue arabe (problèmes de lenteurs, d’encodages et d’affichage). (Nous envisageons de développer un outil plus approprié dans des projets futurs.) Pour chaque prédicat verbal, l’annotateur était amené à observer une cinquantaine d’exemples de ce prédicat en corpus afin de pouvoir bien définir le comportement et les possibles - 12 - variations syntaxiques de ce dernier. Dans les cas où le prédicat verbal est polysémique, un frameset distinct est créé au sein du même fichier frame afin de distinguer les rôles sémantiques pour chaque sens du verbe. Au besoin, l’annotateur peut aussi consulter d’autres sources comme l’Internet ou des dictionnaires pour vérifier l’existence d’emplois non observés dans le corpus à annoter. À l’issue de ce projet pilote, notre contribution se résume aux éléments suivants : la démonstration de la faisabilité de l’adaptation de la procédure d’annotation du Propbank anglais pour la langue arabe, la création du guide d’annotation linguistique des rôles sémantiques pour la langue arabe, lequel s’inspire en partie du guide d’annotation de la langue anglaise, ainsi que la création des frames et l’annotation de 493 verbes. La figure 2 cidessous, illustre un arbre syntaxique marqué avec les arguments sémantiques. Figure 2 : Arbre syntaxique du PATB avec les arguments sémantiques (Diab et Habash, 2014) Plus tard et après la réussite de ce projet pilote, nous avons amorcé le deuxième projet d’annotation du corpus Propbank (Zaghouani et al. 2010) faisant suite à la livraison de la nouvelle version du Penn Arabic Treebank 3.1 qui est conforme au nouveau guide d’annotation du Treebank (Maamouri et al., 2008). Cette version inclut plusieurs changements - 13 - au niveau de l’annotation syntaxique et morphologique avec l’ajout de nouvelles parties du discours. Par exemple, le nom verbal, connu en arabe sous la dénomination de masdar, est maintenant annoté explicitement par le tag VN (Verbal Noun en anglais) et il est devenu plus facile de repérer ses arguments lors de l’annotation du Propbank. Par exemple, dans la phrase suivante 5 : ﺗﻜﺒﺪﻫﻢ ﺧﺴﺎﺋﺮ ﻛﺒﻴﺮﺓ/tkbdhm xsA}r kbyrp/ Ils ont subi de grandes ‘pertes’ Le VN est ﺗﻜﺒﺪ/tkbd/ ‘subir’ et ses deux arguments sémantiques : le sujet ﻫﻢ/hm/ ‘eux’ et le complément ﺧﺴﺎﺋﺮ ﻛﺒﻴﺮﺓ/xsA}r kbyrp/ ‘de grandes pertes’. Au niveau des changements dans l’annotation syntaxique, nous citons le cas de la structure du complément du nom (annexion) rendu par le génitif comme le montre les figures 3 et 4 où on observe que selon le nouveau guide d’annotation, le complément du quantifieur et syntagme nominal ُّ ﻛﻞ/kul~u/ ‘tout’ est considéré aussi comme un syntagme nominal. Cette construction est connue en arabe par la construction par ﺇﺿﺎﻓﺔIdafa (Annexion). Il s’agit d’une structure particulièrement fréquente en arabe d’où l’importance de ce changement en terme d’occurrences dans le corpus. Figure 3 : Arbre syntaxique avant l’ancien guide d’annotation (Maamouri et al., 2008) Figure 4 : Arbre syntaxique après le nouveau guide d’annotation (Maamouri et al., 2008) Étant donné que l’annotation de type Propbank est basée sur les arbres syntaxiques, une pareille révision du Propbank arabe était aussi nécessaire pour les 493 frames déjà créés. 5 Dans le cas où un mot ou un exemple est écrit en caractères arabes, nous avons choisi de fournir une translittération et une traduction française ou une traduction littérale française (si nécessaire) et dans l’ordre suivant : les caractères arabes, la translittération selon le système de translittération Buckwalter (www.qamus.org/transliteration.htm) et la traduction ou la translittération française. - 14 - Nous avons aussi ajouté 1462 prédicats pour atteindre un total de 1955 frames et 2446 framesets (Zaghouani et al., 2010). Les figures 4 et 5 illustrent un exemple d’un frame ainsi qu’un exemple d’une annotation d’une phrase. Figure 4 : Le Frame du verbe ﺍﺳﺘﻤﻊ/{isotamaE/ ‘entendre’ (Zaghouani et al., 2010) Figure 5 : Exemple d’une annotation d’une phrase dans le Propbank (Zaghouani et al., 2010) Ce nouveau projet a nécessité des changements dans le flux du travail ainsi que dans le guide d’annotation (Zaghouani et al., 2010). De plus, il inclut l’annotation des verbes composés. La transformation de l’ancienne annotation vers la nouvelle n’était pas une tâche simple étant donné que l’annotation de type Propbank était basée directement sur les arbres syntaxiques de l’ancienne version du Treebank qui a subi principalement les changements suivants : modification dans la structure des arbres syntaxiques, changement dans la segmentation (insertion et effacement) , changement dans les parties du discours et changement dans la délimitation de la phrase. Par ailleurs, le nouveau processus d’annotation est devenu mieux organisé que le précédent. D’abord, avec la création de l’outil Cornerstone 6 (Choi et al., 2010a), dédié à la création des 5F frames, ce qui a permis de gagner du temps et de mieux organiser les fichiers avec un frame pour chaque sens de prédicat. La figure 6 illustre le menu principal Cornerstone et la figure 7 montre un exemple avec un arbre syntaxique dans le frame. L’Annexe C montre les étapes de création d’un frame. D’autre part, l’annotation ne se fait plus avec l’ancien outil Wordfreak, mais plutôt avec Jubilee (Choi 2010b). Cet outil permet d’afficher en même temps le contenu des frames y compris le prédicat verbal, les instances de l’arbre syntaxique à annoter avec les prédicats et leurs arguments ainsi que la possibilité de visualiser un ou deux exemples annotés 6 Les deux outils Cornerstone et <https://code.google.com/p/propbank/> Jubilee sont - 15 - disponibles en code source ouvert sur : pour chaque sens (frameset) du prédicat verbal dans le frame (figure 8). Les annotateurs doivent choisir le sens qui correspond le mieux au frame du verbe dans l’arbre syntaxique. Une fois, le sens choisi, l’annotateur décide du choix des arguments obligatoires correspondants (Arg0, Arg1, Arg2,…) et les arguments adjoints (cause, conséquence, temps, lieu,…) comme le montre la figure 8. Figure 6 : Le menu principal de l’outil Cornerstone (Choi 2010a) Figure 7 : Exemple d’un arbre syntaxique annoté dans le fichier frame (Choi 2010a) - 16 - Figure 8 : Annotation d’un arbre syntaxique avec l’outil Jubilee (Choi 2010b). Pour chaque arbre syntaxique, l’annotation se fait en parallèle par deux annotateurs de manière aveugle afin de vérifier la qualité de l’annotation. Enfin, une procédure d’adjudication est réalisée par l’annotateur le plus expérimenté et qui choisit la meilleure annotation des deux versions. Au terme de ce projet, nous avons introduit une nouvelle procédure de contrôle de la qualité avec un processus d’adjudication dédié à l’annotation de type Propbank et nous avons apporté des modifications majeures dans le guide d’annotation pour faciliter l’identification des arguments et des circonstants par les annotateurs, enfin, nous avons mis en ligne les outils d’annotation afin qu’ils puissent servir pour d’autres projets similaires comme pour la nouvelle expérience pilote (Zaghouani et al., 2012) et qui consiste en l’annotation de 50 verbes les plus fréquents dans le Treebank de dépendance du Coran connu en anglais par Quranic Arabic Dependency Treebank (QADT) et crée par Dukes et Buckwalter (2010). Cette expérience fait suite au défi que nous avons lancé en 2010 et qui portait sur les moyens et les outils pour le traitement automatique et la compréhension du langage du Coran (Atwell et al., 2010). - 17 - La figure 9 montre la liste partielle des 50 verbes choisis avec d’autres informations comme la racine verbale correspondante, la forme, la fréquence dans le corpus et la traduction anglaise 7. Figure 9 : La liste des verbes les plus fréquents dans le corpus du Coran L’annotation du corpus du Coran dans le QADT se distingue du Penn Arabic par une représentation en arbres de dépendances (Mel’čuk 1988). La figure 10 illustre un exemple d’un arbre de dépendances du corpus QADT. Dans cet exemple en particulier (en lisant de droite à gauche), nous observons le cas classique en arabe d’un ordre des mots de type VSO (c’est-à-dire avec un verbe suivi par son sujet et son objet). Le premier objectif de cette expérience est l’augmentation de la couverture de l’actuel Propbank arabe avec une autre variété de l’arabe (arabe classique du Coran) et un nouveau domaine (texte religieux). L’annotation Propbank avec l’arabe classique permettra d’enrichir davantage les frames existants tout en testant la procédure d’annotation déjà mise en place avec les arbres de dépendances syntaxiques du corpus du Coran. 7 La liste complete est disponible sur <http://corpus.quran.com/verbs.jsp> - 18 - Figure 10 : Un exemple d’un arbre de dépendances du QADT (Dukes et al., 2010) De plus, les verbes de l’arabe classique ont la particularité de marquer des notions telles que le causatif, l’intensif ou le réciproque (Arbaoui 2010). Cette spécificité fait en sorte que le verbe apparait sous différentes formes suivant qu’il indique telle ou telle notion et elle peut certainement aider à bien localiser les arguments du verbe dans le corpus. Par ailleurs, le corpus du Coran est entièrement transcrit avec les signes diacritiques qui permettent de réduire l’ambiguïté du texte lors de l’annotation. Dans cette étape pilote, nous avons annoté les 50 verbes les plus fréquents, ce qui représente 7227 occurrences en corpus sur un total de 19 356 occurrences verbales. Lors de la création des frames, les annotateurs ont fait des requêtes sur chaque prédicat verbal à partir d’une base de données lexicale en ligne (Boudelaa et Marslen-Wilson 2010). Cette base de données permet d’afficher tous les sens possibles de chaque racine verbale tout en fournissant des exemples en contexte. Cette recherche a permis d’aider la prise de décisions lors de la création des frames. Lors de l’étape d’annotation, nous avons constaté que le fait d’avoir une annotation syntaxique en dépendances à des avantages. En effet, les corpus annotés en dépendances syntaxiques permettent d’extraire les relations prédicat-argument d’une manière plus directe - 19 - qu’avec les corpus annotés en syntagmes (Perrier 2014). Ainsi, les arguments sémantiques 8 sont marqués explicitement dans l’arbre syntaxique ce qui facilite l’annotation (figure 11). De plus, le QADT affiche clairement les informations de dépendances syntactico-sémantiques des arguments adjoints ou « circonstants » comme ceux qui expriment la manière, le temps ou le lieu. Toutefois, ces informations sont insuffisantes pour cette tâche qui nécessite d’autres informations sémantiques complémentaires à ces informations syntaxiques. Nous espérons que le succès de notre méthodologie va encourager l’apparition d’expériences similaires pour l’arabe ainsi que d’autres langues ayant des corpus annotés en syntaxe de dépendance. Figure 11 : Un arbre de dépendances avec les arguments (Zaghouani et al., 2012) 8 Dans ce manuscrit, nous employons le terme “argument sémantique” pour indiquer tous les arguments, y compris les arguments adjoints dans le Propbank. - 20 - 2. Opt im isa t ion de s pr océ du r e s d’a n n ot a t ion Dans cette section, nous présentons nos efforts pour optimiser la procédure d’annotation à travers la présentation de notre méthodologie dans un projet d’envergure que nous avons récemment entrepris pour annoter et corriger les erreurs dans la langue arabe. Le corpus Qatar Arabic Language Bank (Zaghouani et al., 2014a) qui comprend 2 millions de mots, a été annoté 9 manuellement avec les erreurs et leurs corrections (orthographe, syntaxe, morphologie, lexique, et ponctuation), en plus nous demandons aux annotateurs de traduire en arabe standard, les expressions dialectales de l’arabe. Ultérieurement, ce corpus va permettre la création de systèmes de correction automatique des erreurs. À l’heure actuelle, il n’existe aucun corpus comparable pour la langue arabe (en termes de taille et de variété). Les rares efforts qui existent se limitent aux travaux d’Abuhakema et al. (2008), qui ont annoté un corpus de 9000 mots d’apprenants de langue arabe, et à ceux d’Alkanhal et al. (2012), qui ont annoté manuellement un corpus de travaux d’étudiants d’environ 65 000 mots. Étant donné que ce dernier corpus a été informatisé à la main, il comprend beaucoup d’erreurs de transcription en plus des erreurs commises par les étudiants. Plus récemment, Alfaifi et Atwell (2013) ont entrepris une expérience pilote pour annoter 20 000 mots d’un corpus de 282 000 mots qui comprend des productions écrites de niveau universitaire d'apprenants de langue arabe non arabophones ainsi que des étudiants arabophones. Au tout début du projet, des expériences ont été réalisées afin de pouvoir optimiser l’effort d’annotation, étant donné l’absence d’un véritable standard d’annotation pour ce type de corpus. De plus, nous avons décidé de ne pas tester l’annotation collaborative dans ce projet étant donné le degré d’expertise requis des annotateurs et le résultat négatif que nous avons obtenu lors d’une expérience pilote similaire (Zaghouani et Dukes 2014). Tout d’abord, la première tâche dans un projet d’annotation est la sélection du corpus. Nous avons essayé de choisir des textes assez courts, entre 50 et 60 mots par fichier, afin d’éviter une certaine sensation d’ennui chez l’annotateur tout en ayant des genres de textes variés (commentaires en ligne, textes d’élèves, textes d’apprenants de langue arabe), de plus, nous avons décidé d’inclure des textes traduits automatiquement. Nous avons choisi une sélection 9 Dans ce manuscrit, nous employons le terme annotation pour indiquer également l’action de correction de texte. - 21 - d’articles en anglais de la Wikipédia 10 avant de les traduire vers l’arabe avec l’outil Google Translate. Cette diversité de style et de genres devrait augmenter l’utilité de ce corpus lors de son exploitation. L’erreur dans la langue se définit comme déviation des normes de la grammaire, de l’orthographe, de la syntaxe, etc. Elle peut aussi se définir selon les types d’erreurs suivants : omission, ajout, substitution ou mauvais ordre d’apparition dans la phrase. Afin de guider l’équipe d’annotateurs dans leur tâche de correction d’erreurs et pour les aider à produire une annotation aussi fiable que possible (Zaghouani et al., 2014a). Nous avons investi un effort considérable dans la rédaction d’un manuel d’annotation linguistique complet d’une centaine de pages (Zaghouani et al., 2014b) durant la première année de ce projet. De plus, nous avons indiqué clairement dans ce manuel quel type d’erreurs corriger afin d’éviter toute déviation dans la correction comme les corrections non nécessaires du style du texte. Étant donné la complexité des règles d’orthographe et de grammaire dans la langue arabe, nous avons inclus un résumé de ces règles dans le guide d’annotation. L’exemple suivant illustre une phrase avec trois types d’erreurs et comment les annotateurs doivent les corriger. Texte original ﺩﻫﺐ ﻋﻠﻲ ﺇﻟﻰ ﺣﺪﻳﻘﺎﺕ ﺟﻤﻴﻠﺔ dhb Ely IlY HdyqAt jmylp ‘Ali est allé dans les beaux jardins’ Texte corrigé .ﺫﻫﺐ ﻋﻠﻲ ﺇﻟﻰ ﺣﺪﺍﺋﻖ ﺟﻤﻴﻠﺔ *hb Ely IlY HdA}q jmylp. ‘Ali est allé dans les beaux jardins’ Dans ce cas, le mot ﺫﻫﺐ/ dhb / ‘allé’ est mal écrit avec la lettre ﺩd au lieu de la lettre * ﺫ. Le mot ﺣﺪﻳﻘﺎﺕ/ HdyqAt / ‘jardins’ est décliné d’une manière incorrecte avec le pluriel 10 Le choix de la Wikipédia était motivé par la nature libre de droit de son contenu. - 22 - irrégulier, les annotateurs doivent le corriger en ﺣﺪﺍﺋﻖ/ HdA}q / ‘jardins’. Enfin, on observe le texte original ne comporte pas le point qui marque la fin de la phrase. Étant donné qu’il n’existe pas de véritable consensus concernant les règles de ponctuation en arabe (Awad 2013), nous avons essayé de simplifier les règles de ponctuation afin de faciliter la prise de décisions par les annotateurs. De plus, les annotateurs doivent limiter la portée de leur correction aux signes de ponctuation suivants : le point {.}, le point d'interrogation {?}, le point d'exclamation {!}, la virgule {,}, le point-virgule {;} et le deux-points {:}. En pratique, nous avons constaté un grand désaccord entre les annotateurs pour décider de l’insertion ou non de la virgule. Durant la deuxième année du projet, nous avons rédigé de nouveaux guides d’annotation avec l’introduction de textes de nouveaux genres, comme les travaux d’étudiants locuteurs natifs et non natifs (Zaghouani et al., 2014c), ainsi qu’un ensemble d’articles traduits automatiquement de l’anglais vers l’arabe. En effet, il existe une grande différence dans les erreurs selon le type du texte. Ainsi, les locuteurs natifs ont tendance à commettre surtout des fautes d’orthographe ou de grammaire, tandis que les locuteurs non natifs de l’arabe font plusieurs fautes au niveau pragmatique et stylistique comme dans l’exemple suivant. Texte original : .ﻫﺬﺍ ﺃﻣﻞ ﻣﻬﻢ ﺟﺪﺍ h*A Oml mhm jdA. ‘Il s'agit d'un espoir très important.’ Texte corrigé : .ﻫﺬﺍ ﺃﻣﺮ ﻣﻬﻢ ﺟﺪﺍ h*A Omr mhm jdA. ‘Il s'agit d'une question très importante.’ Dans ce cas, l’emploi du mot ﺃﻣﻞ/ Oml / ‘espoir’ est incohérent selon le texte et il est clair que l’auteur a voulu écrire ﺃﻣﺮ/ Omr / ‘question’. Dans le cas de choix de mots incorrects et afin de réduire l’ampleur des corrections à faire, nous avons créé un ordre de correction à respecter lorsque le texte comprend un choix lexical non adéquat, ceci permet d’avoir un bon accord entre les annotateurs avec les textes rédigés par les locuteurs non natifs de l’arabe. - 23 - L’ordre de priorité des corrections à suivre par les annotateurs est le suivant : correction au niveau de la flexion, correction des clitiques attachés aux mots, correction du mot en gardant la racine ou avec l’ajout d’une préposition et finalement le remplacement du mot par un autre. Enfin, les textes traduits automatiquement comprennent plusieurs types de fautes liées à de mauvais choix lexicaux, ainsi qu’une mauvaise construction de phrase comme dans l’exemple suivant. Phrase originale en anglais : Japan has an extensive web of highways with thousands of tunnels. Traduction automatique (avec Google Translate) 11 .ﺍﻟﻴﺎﺑﺎﻥ ﻟﺪﻳﻬﺎ ﻋﻠﻰ ﺷﺒﻜﺔ ﺍﻹﻧﺘﺮﻧﺖ ﻭﺍﺳﻌﺔ ﻣﻦ ﺍﻟﻄﺮﻕ ﺍﻟﺴﺮﻳﻌﺔ ﻣﻊ ﺍﻵﻻﻑ ﻣﻦ ﺍﻷﻧﻔﺎﻕ AlyAbAn ldyhA ElY $bkp AlIntrnt wAsEp mn AlTrq AlsryEp mE Al|lAf mn AlOnfAq. ‘Le Japon a dans large réseau Internet d’autoroutes avec un millier de tunnels’ Version corrigée .ﺍﻟﻴﺎﺑﺎﻥ ﻟﺪﻳﻬﺎ ﺷﺒﻜﺔ ﻃﺮﻗﺎﺕ ﺳﺮﻳﻌﺔ ﻭﺍﺳﻌﺔ ﻣﻊ ﺍﻵﻻﻑ ﻣﻦ ﺍﻷﻧﻔﺎﻕ AlyAbAn ldyhA $bkp TrqAt sryEp wAsEp mE Al|lAf mn AlOnfAq. ‘Le Japon a un large réseau d’autoroutes avec un millier de tunnels’ Pour finir, nous avons bien spécifié, dans le guide d’annotation des textes traduits automatiquement de l’anglais vers l’arabe, que le but est de se limiter aux corrections rendues nécessaires pour produire une traduction complète sans fautes d’orthographe et avec une syntaxe correcte tout en reflétant le même le sens que la phrase source. Ces instructions ont permis de limiter l’ampleur des corrections à faire afin d’améliorer l’accord inter-annotateurs. Nous pensons que les guides d’annotation peuvent servir comme des références dans des recherches similaires en arabe ou dans d’autres langues. Nos guides d’annotation sont mis en ligne à la disposition des chercheurs 12. 1F L’équipe d’annotateurs est formée de spécialistes en langue arabe de niveau universitaire. Une procédure de sélection rigoureuse a été mise en place pour choisir seulement les candidats 11 12 Traduction réalisée le 15 juin 2014 avec https://translate.google.com/ Les guides d’annotation sont disponibles sur <http://nlp.qatar.cmu.edu/qalb/> - 24 - ayant une excellente expertise en langue arabe. À la suite du recrutement des annotateurs, plusieurs sessions de formation ont été nécessaires afin de les introduire au guide d’annotation. Un groupe de discussion en ligne a été créé afin que les annotateurs puissent poser leurs questions sur les cas d’annotations problématiques et des réunions hebdomadaires sont organisées pour discuter de certains points avant de mettre à jour le guide d’annotation si nécessaire dans un processus d’amélioration itératif. Avant de pouvoir commencer ce projet d’annotation, un travail de conception et de design a été réalisé avec un programmeur pour créer l’interface d’annotation QAWI. (Obeid et al., 2013) en source libre. Cet outil offre l’avantage d’un accès en ligne il permet de garder la trace de chaque action de correction parmi la liste suivante : édition ou ajout de mot, mouvement, suppression, fusion ou séparation de mot. L’historique des actions de correction peut être utile sur plusieurs niveaux. D’abord, lors des séances de formations , il permet de montrer les erreurs d’annotations aux annotateurs. Ensuite, il peut servir pour faire des études sur le comportement et sur l’attitude des annotateurs. Enfin, il est utile pour les systèmes de correction automatique d’erreurs. La figure 12, montre des extraits de l’outil d’annotation avec 5 différents cas de correction. L’interface d’annotation QAWI attribue une boite pour chaque mot dans le texte afin de faciliter l’annotation (voir Annexe D). L’exemple en (a) montre un cas changement dans l’ordre du mot. En (b) on observe un cas de suppression de signes de ponctuation. Le cas en (c) illustre une édition pour corriger un mot avec l’ajout d’une lettre. L’exemple en (d) montre la séparation de deux mots collés. Enfin, l’exemple en (e) illustre une fusion pour coller une lettre à un mot. Figure 12 : Illustration des actions de correction dans QAWI (Obeid et al., 2013) - 25 - Au début de projet et lors d’une expérience pilote, l’annotation était réalisée entièrement à la main et sans l’assistance d’un analyseur morphologique ou syntaxique. Par la suite, nous avons testé l’apport de l’analyseur morphologique MADAMIRA (Pasha et al., 2014) qui a permis un gain de temps considérable (environ 2 minutes par fichier). Cet analyseur réalise la segmentation, la lemmatisation, l’étiquetage grammatical et l’analyse morphologique avec une précision qui avoisine les 90%. De plus, cet analyseur, qui est basé sur modèle de prédiction, réalise une hiérarchisation des analyses retournées, la meilleure analyse étant celle qui s’accorde le plus avec la prédiction, ce qui permet de corriger d’une manière très fiable les erreurs simples et assez fréquentes comme l’écriture de la lettre ِAlif Hamza avec ses variétés qui dépendent du contexte : ﺃ, ﺇ, ﺍ, et ﺁ. Afin de s’assurer de la qualité de l’annotation durant ce projet, des mesures d’accord interannotateurs sont calculées régulièrement d’une manière aléatoire. Après l’annotation d’environ 1,5 million de mots, l’accord moyen inter-annotateurs était de l’ordre de 95%, ce qui prouve que les guides d’annotation ont été bien appliqués par les annotateurs durant le projet. Récemment et dans le cadre d’un atelier dans la conférence EMNLP 13, nous avons mis 12F à la disposition des participants un corpus d’environ 1 million de mots dans le but de participer dans une compétition pour déterminer le meilleur système de correction automatique d’erreurs. Le corpus et la compétition sont présentés dans Mohit et al. (2014). Lors de notre participation à cette compétition, nous avons développé un système de détection et de correction d’erreurs. Notre système combine des règles linguistiques avec des modèles statistiques et un module de traduction automatique. Ce système a obtenu le troisième rang sur un ensemble de huit participants avec une F-mesure de 65.42% (Jeblee et al., 2014). Nous avons présenté jusqu’à maintenant quelques exemples de nos projets d’annotation pour la langue arabe. Lors de ces projets, nous avons dû faire face à certains traits linguistiques de la langue arabe qui posaient problème. Nous en discutons maintenant. 13 Des détails sur l’atelier Arabic NLP sur <http://emnlp2014.org/workshops/anlp/workshopschedule.html> - 26 - 3. Tr a it s lin gu ist iqu e s e t a n n ot a t ion de l’a r a be Dans tout projet d’annotation, il est important de connaitre les traits linguistiques de la langue à annoter, ceci est particulièrement vrai pour des langues comme l’arabe, une langue sémitique qui se distingue des langues à écriture latine. Dans les différents projets d’annotation de l’arabe auxquels j’ai participé, qu’il s’agisse d’annotation syntaxique, morphologique, sémantique ou d’annotation des erreurs, comme les travaux cités plutôt dans ce travail, nous avons dû prendre en compte la morphologie, le système d’écriture, l’orthographe et la syntaxe de cette langue. Tout effort d’annotation linguistique sera basé sur ces éléments et toute méthodologie suivie doit forcément en tenir compte afin de bien rédiger les manuels d’annotation et procéder efficacement au prétraitement des données en vue du démarrage de l’annotation. Lors de la préparation des textes pour l’annotation, il est important de faire certains prétraitements morphologiques en vue de segmenter le texte en morphèmes. Étant donné que la langue arabe se caractérise par une morphologie dérivationnelle, flexionnelle et agglutinante assez complexe, la plupart des mots composant la langue arabe sont pratiquement tous dérivés de racines en employant des patrons ou des gabarits (Vergyri et al., 2004). De plus, l’arabe dispose d’une forte tendance à la cliticisation : cela concerne les conjonctions de coordination et de subordination, les prépositions ou les pronoms compléments d’objet. Il existe plusieurs traits morphologiques qui peuvent aider dans la détection des catégories grammaticales lors de l’annotation syntaxique, par exemple pour distinguer le verbe du nom comme dans l’exemple 1 du tableau 1 qui montre la segmentation d’un nom. De plus, il existe des traits morphologiques qui sont spécifiques au nom et d’autres au verbe comme le genre, le nombre, le temps, l’aspect à l’instar du verbe faire dans l’exemple 2 du tableau 1. Ce système morphologique assez complexe procure à la langue arabe un degré d’ambigüité dérivationnelle assez fréquent. Par exemple, le mot ﻗﺎﻋﺪﺓ/ qAEdp / qui est une forme dérivée de la racine ﻗﻌﺪ/ qEd / devient une forme ambiguë avec une seule dérivation qui inclut l’ajout de la voyelle longue Alif après la deuxième lettre et l’ajout du suffixe nominal ﺓ/t/. - 27 - Avant la segmentation Après la segmentation ﻭﻟﻠﻤﻜﺘﺒﺎﺕ/walilmaktabat/ ﺍﺕ+ﻣﻜﺘﺒﺔ+ﺍﻝ+ﻝ+ ﻭ/wa+li+al+maktaba+at/ « Et pour les librairies » Et+pour+les+librairies+pluriel ﻭﺳﻨﻔﻌﻠﻬﺎ/wasanaf’aluhaa/ ﻫﺎ+ ﻓﻌﻞ+ ﻥ+ ﺱ+ ﻭ/wa+sa+na+f’alu+ha/ Exemple 1 Exemple 2 « et+on+nous+faire+elle » « et on va la faire » Tableau 1 : Exemples de segmentation de mots dans la langue arabe La forme dérivée est un cas d’homonymie, ainsi le mot ﻗﺎﻋﺪﺓ/ qAEdp / peut renvoyer aux différents sens suivants : une règle ou un principe, une base militaire ou encore le nom d’une organisation ﺍﻟﻘﺎﻋﺪﺓ/ AlqAEdp / ‘Al Qaida’. L’ambiguïté lexicale est aussi présente en arabe comme dans le cas des noms propres qui peuvent correspondre à un adjectif, à un nom ou même à un verbe comme l’illustre notre étude sur la composition des noms de personnes dans la langue arabe (Zaghouani 2011). Enfin, contrairement aux voyelles longues, les voyelles courtes (signes diacritiques) sont généralement absentes dans la plupart des textes écrits en arabe, ce qui constitue un grand facteur d’ambiguïté dans les tâches d’annotation, comme le montre l’exemple du tableau 2. Catégorie Translittération 14 Graphie Verbe /bayyana/ ﺑﻴﻦ ‘a déclaré/démontré’ Verbe /bayyanna/ ﺑﻴﻦ ‘elles [féminin] ont déclaré/démontré’ Adjectif /bayyin/ ﺑﻴﻦ ‘clair/évident’ Préposition /bayna/ ﺑﻴﻦ ‘entre/parmi’ Préposition /biyin/ ﺑﻴﻦ ‘avec un Yen’ 13F Signification Tableau 2 : Exemple d’ambiguïté causée par l’absence des voyelles courtes 14 Il s’agit d’un translittération avec l’ajout des voyelles courtes pour illustrer les différentes lectures possibles. - 28 - En effet, contrairement au français, les voyelles courtes arabes ne sont pas des lettres de l’alphabet, ce sont des signes diacritiques qui se rajoutent aux consonnes (lettres) et qui jouent le même rôle que les voyelles dans les autres langues. Généralement, les écrits en arabe sont non diacriticisés et c’est au lecteur d’inférer les voyelles au moment de la lecture. Par exemple, le sens du mot ﻭﺟﺪ/wjd/ peut changer selon les règles de segmentation adoptées et même sans segmentation, il peut avoir deux sens distincts avec l’absence de signes diacritiques comme l’illustre les sens distincts dans le tableau 3. Par ailleurs, lors de l’annotation syntaxique, il faut prendre en compte le fait que la langue arabe est une langue à sujet nul pro-drop et qu’elle omet systématiquement la réalisation morphologique du pronom sujet ; le verbe contient un indice pronominal sujet dans sa flexion. Dans l’annotation de type Penn Treebank, le sujet nul est annoté implicitement par une trace dans l’arbre syntaxique. Translittération Sens 1 Sens 2 Sans segmentation ﻭﺟﺪ/wjd 15/ ‘il a trouvé’ ‘amour’ Avec segmentation ﺟﺪ+ ﻭ: /w+jd/ « et+grand-père ». « et+du sérieux ». 14F Tableau 3 : Exemple d’ambiguïté du mot ﻭﺟﺪ/wjd/ Il est également important de savoir que la langue arabe dispose d’un ordre des mots mixte, c’est-à-dire ni entièrement libre ni complètement fixe. Concernant la phrase verbale, l’ordre de la phrase arabe standard obéit généralement à l’ordre VSO (Al-Chartouni 1986) comme dans l’exemple suivant : ﺃﻛﻞ ﺍﻟﻮﻟﺪ ﺍﻟﺴﻠﻄﺔ/akala/ (verbe) /al-waladwu/ (sujet) /assalaTa/ (objet), lit. 16 ‘A mangé l’enfant la salade’, trad. ‘l’enfant a mangé la salade’. 15F Dans la langue arabe, si on ajoute un mot au début de la phrase, c’est qu’il y a une intention de focaliser sur ce mot. D’un autre côté, on a généralement tendance à insérer vers la fin de la phrase, le mot qui rime le mieux ou qui soit le plus long (Blachère et GaudefroyDemombynes 1975). Ceci peut expliquer l’existence d’autres structures comme celles mentionnées par Mahfoudhi (2002), notamment l’ordre SVO, très employé dans la forme 15 16 Il s’agit d’une translittération sans les voyelles courtes. La traduction littérale - 29 - emphatique dans l’arabe dialectal à l’instar de l’arabe tunisien : ﺍﻟﻮﻟﺪ ﺃﻛﻞ ﺍﻟﺴﻠﻄﺔ/al-waladwu/ (sujet) /akala/ (verbe) /assalaTa/ (objet) ‘l’enfant a mangé la salade’. La structure VOS existe aussi, mais avec une fréquence moindre. Elle sert exclusivement à emphatiser le sujet : ﺃﻛﻞ ﺍﻟﺴﻠﻄﺔ ﺍﻟﻮﻟﺪ/akala/ (verbe) /assalaTa/ (objet) /al-wladwu/ (sujet), lit. ‘A mangé la salade l’enfant’, trad. ‘l’enfant a mangé la salade’. Enfin, la structure OVS qui est rare est employée parfois pour exprimer la focalisation sur le sujet : ﺍﻟﺴﻠﻄﺔ ﺃﻛﻞ ﺍﻟﻮﻟﺪ/assalaTa/ (objet) /akala/ (verbe) /al-wladwu/ (sujet), lit. ‘La salade a mangé l’enfant’, trad. ‘l’enfant a mangé la salade’. La bonne connaissance des règles d’orthographe est d’une grande importance surtout dans les projets d’annotation des erreurs. Nous citons en particulier les règles d’écriture de la Hamza, une lettre qui s’écrit comme un diacritique. D’un point de vue phonologique, elle correspond au coup de glotte /ʔ /. La lettre Hamza peut s’écrire de différentes manières, seule ou avec un support ; le choix de son support est dicté par des règles orthographiques : seule ءou combinée avec d’autres lettres : - sur et sous la lettre Alif ﺃet ﺇ - sur la lettre Waw ﺅ, - sur la lettre Yaa ﺉ. De nos jours, on observe une diminution importante de l’usage de cette lettre. Dans d’autres cas par contre, nous avons remarqué sa présence dans des contextes où elle est devrait être absente selon les règles d’orthographe des grammairiens de l’arabe classique, par exemple ﻳﺮﺃ / yaraa / ‘voir’ pour ﻳﺮﻯ/ yary / ‘voir’. De plus, à cause de la complexité des règles d’écriture de la Hamza (voir tableau 4), beaucoup de fautes de ce type sont présentes dans les textes écrits. Ceci est en partie causé par le manque de connaissance de l’auteur des règles de la Hamza et par souci de rapidité. Nous avons recensé certains traits linguistiques de la langue arabe particulièrement importants pour les projets d’annotation, ainsi que les difficultés posées par l’orthographe, la morphologie ou la syntaxe. Ceci nous a permis d’implémenter correctement nos procédures et nos guides d’annotation dans le projet Treebank (Zaghouani et al., 2014b ; Maamouri et al., 2010a), dans le projet pilote du Propbank arabe (Palmer et al., 2008) et lors de la révision du Propbank (Zaghouani et al., 2010), ainsi que dans le Propbank du Coran (Zaghouani et al., 2012). - 30 - Type de combinaison Graphie La lettre Alif seule ﺍ La lettre Alif avec Hamza dessus ﺃ La lettre Alif avec Hamza dessous ﺇ La lettre Waw avec Hamza dessus ﺅ La lettre Yaa avec Hamza dessus ﺉ La Hamza seule ء Tableau 4 : Illustration de l’écriture de la Hamza et de l’Alif selon les combinaisons Enfin, étant donné que l’objectif du projet Qatar Arabic Language Bank était la correction des erreurs linguistiques, nous avons inclus la plupart des traits de la langue arabe exposés dans cette section dans le guide d’annotation (Zaghouani et al., 2014a ; Zaghouani et al., 2014b). Dans la section suivante, nous discutons de la complémentarité entre les différentes couches d’annotation. - 31 - 4. Cor pu s e t cou ch e s d’a n n ot a t ion Dans les projets d’annotation linguistique, les différentes tâches sont généralement divisées selon différents niveaux qui suivent un certain ordre ou une certaine hiérarchie inspirée des travaux Mel'čuk (1988) et comme l’illustre Wilcock (2009), qui présente les différents niveaux de description linguistique comme des couches selon l’ordre de traitement de la plus petite unité en bas de l’échelle (sons et lettres) aux plus grandes unités (mots, syntagmes et phrases) : Phonologie < Orthographe < Morphologie < Syntaxe < Sémantique < Pragmatique < Discours D’une manière similaire, l’état de l’art de l’annotation linguistique divise aussi les différents niveaux d’annotation selon l’ordre suivant : Division du texte en phrases < Segmentation du texte en mots < étiquetage grammatical des mots < étiquetage syntaxique des phrases < étiquetage et analyse sémantique (relation prédicat argument) < étiquetage des entités nommées < analyse des coréférences. Jusqu’à maintenant, nous avons présenté d’une manière isolée les différents projets d’annotation auxquels nous avons participé. Dans ce qui suit, nous allons discuter des liens qui existent entre ces différents projets ainsi que la complémentarité qui existe entre les différentes couches d’annotation. Le projet Penn Arabic Treebank illustre un exemple typique d’un projet d’annotation syntaxique dans lequel l’annotation syntaxique est basée au préalable sur une annotation morphologique ainsi qu’une segmentation du texte en phrases et en mots. Une fois la segmentation réalisée, l’analyse morphologique se fait d’une manière semi-automatique avec la sélection de la meilleure analyse de la partie du discours par l’analyseur morphologique SAMA (Kulick et al., 2010). Lors de l’étape suivante, l’analyse syntaxique se fait aussi d’une manière semi-automatique avec une validation manuelle par les annotateurs. - 32 - Il existe un lien direct entre la segmentation, l’annotation morphologique et l’annotation syntaxique, puisque l’annotation syntaxique se base en grande partie sur les choix de la segmentation, ainsi que sur la désignation des parties du discours par l’annotateur. Plus tard, cette couche d’analyse syntaxique a permis l’enrichissement du Penn Arabic Treebank par une couche d’annotation sémantique dans le cadre du projet Probank. Dans ce projet, les rôles sémantiques dans une structure prédicat-argument sont ajoutés dans la phrase en se basant sur les choix de l’annotation syntaxique dans la phrase. De plus, notre deuxième expérience d’annotation pilote du Propbank avec le corpus du Coran a montré que l’exploitation de l’annotation syntaxique selon la structure de dépendances syntaxiques est aussi possible. Nous avons aussi montré qu’il est possible d’enrichir la couverture des prédicats verbaux avec l’enrichissement de la liste des verbes du Propbank arabe existant par ceux du corpus du Coran. Dans le cadre du projet Qatar Arabic Language Bank (QALB) pour l’annotation et la correction des erreurs dans la langue arabe (Zaghouani et al., 2014a), l’annotation se base aussi sur la segmentation et l’analyse morphologique du texte, ce qui permet de faire une première passe d’annotation avec l’analyseur morphologique MADAMIRA (Pasha et al., 2014), qui comprend aussi un module de désambiguïsation des parties du discours. Ultérieurement, une couche d’annotation d’opinion sera ajoutée au corpus QALB selon le sentiment exprimé par le texte (positif, négatif ou neutre). Cette annotation va exploiter les couches existantes pour enrichir davantage le contenu du corpus. - 33 - 5. Ex ploit a t ion de s cor pu s a n n ot é s Jusqu’à maintenant, nous avons discuté seulement de l’annotation de corpus sans montrer des exemples d’applications possibles qui exploitent directement ces corpus annotés. Dans ce qui suit, on se propose de présenter brièvement quelques travaux annexes que nous avons menés et qui illustrent l’intérêt des corpus annotés et leurs applications. Tout d’abord et suite au projet Propbank, nous avons réalisé une expérience pilote pour construire une ressource lexicale sous forme d’une base de données morphologique pour les formes verbales dans la langue arabe standard. Cette ressource exploite directement le corpus Propbank annoté pour la langue arabe (Hawwari et al., 2013). Dans ce projet, nous avons choisi un nombre limité de formes verbales et nous avons analysé le comportement des verbes correspondants dans le Propbank arabe avec un ensemble de 2100 verbes. Le résultat obtenu permet de classer les différents frames possibles pour chaque forme verbale. Cette première expérience nous a permis de vérifier la faisabilité et l’intérêt de l’approche pour construire une base de données similaire, mais avec une couverture plus large. Ultérieurement, cette base de données peut s’intégrer dans des ressources lexicales comme le Propbank, le WordNet ou le VerbNet. Ensuite, dans le cadre du projet RENAR (Zaghouani 2012 ; Zaghouani et al., 2010 ; Zaghouani 2010), nous avons montré l’importance d’avoir un corpus et des ressources lexicales pour la création de systèmes de repérage des entités nommées ainsi que pour faire leurs évaluations. Lors du projet ARET (Arabic Reading Enhancement Tool), nous avons conçu un outil d’aide à la lecture en arabe standard (Maamouri et al., 2012). Nous avons intégré un corpus annoté morphologiquement dans une application pédagogique. Le corpus annoté avec 60 000 mots provient du texte intégral des passages de lectures de la série de livres audio Al-Kitaab I, II et III 17, édité par les presses universitaires de l’université de Georgetown. Chaque passage du corpus a subi, dans une première étape, une annotation automatique pour la morphologie avec l’outil SAMA (Kulick et al., 2010) qui propose plusieurs solutions possibles pour chaque mot. Dans une deuxième étape, l’annotation est réalisée par des annotateurs humains. Cette annotation consiste en la vérification de l’analyse morphologique et de la segmentation de 17 Disponible sur <http://press.georgetown.edu/book-list/al-kitaab> - 34 - chaque mot en morphèmes, l’ajout des parties du discours, ainsi que la traduction anglaise pour chaque morphème. Cet outil montre un exemple d’une application basée sur un corpus annoté par des experts en morphologie et en syntaxe. Une illustration de l’outil ARET est incluse dans l’Annexe E. Enfin, dans le cadre d’un travail collaboratif pour la compagne d’évaluation Arcade II (Véronis et al., 2008), qui est une compagne d'évaluation dans le domaine de l’alignement multilingue (français, arabe, russe, chinois etc.). Pour les langues à écriture non latine comme l’arabe, le chinois ou le russe, nous avons utilisé le corpus du journal le Monde Diplomatique (MD) et qui contient des articles alignés manuellement au niveau de la phrase. De plus, nous avons défini des guides d’annotation suite à l’alignement des entités nommées pour la paire français-arabe. Les ressources créées dans le cadre de cette compagne seront utiles ultérieurement dans des compagnes similaires. En effet, l’évaluation des technologies de traitement automatique du langage (Chiao et al., 2006) est une autre exploitation possible des ressources annotées. - 35 - Con clu sion Dans ce document de synthèse de nos travaux, nous avons tenté de répondre d’une manière assez sommaire à certaines questions relatives à l’annotation de corpus dans la langue arabe. Pour plus de détails sur chacun des projets cités dans ce manuscrit, nous invitons le lecteur à consulter en annexe la version publiée des articles. Tout d’abord, notre démarche de création de corpus pour la langue arabe nous a permis de conclure qu’il était possible de réutiliser en partie les méthodologies d’annotation pour la langue anglaise lors de la création de ressources équivalentes pour la langue arabe. C’est ce que nous avons démontré avec l’adaptation du Penn Treebank et du Propbank vers l’arabe. Nous avons néanmoins pu observer à travers ces projets que l’ampleur des adaptations à faire dans les procédures d’annotation varie selon le type du corpus. Le plus grand travail reste tout de même dans la rédaction des guides d’annotation pour la nouvelle langue à annoter. De plus, nous pensons que nos procédures d’annotation, les nouveaux outils développés et notamment les guides d’annotation, peuvent être exploitées dans des projets similaires pour la langue arabe et même dans d’autres langues. Nous avons observé que lors de l’adaptation des procédures d’annotation existantes comme celle du Penn Treebank, nous avons dû faire face à quelques changements. En effet, le corpus Arabic Treebank Broadcast News v1.0 issu de sources orales contient des erreurs de transcriptions et des portions de texte en arabe dialectal. Ces deux éléments parmi d’autres ont nécessité quelques changements dans la procédure d’annotation (cf. section 2). De plus, nous avons illustré l’importance de bien étudier les traits linguistiques de la langue arabe dans une perspective d’annotation. En effet, lors du projet d’annotation des erreurs QALB, nous avons montré comment nous avons rédigé nos guides d’annotation en nous basant sur les règles d’orthographe, de morphologie ou de syntaxe propres à l’arabe. Par ailleurs, nous avons pu améliorer la procédure d’annotation par la simplification des instructions dans les guides d’annotation et grâce à la création d’outils d’annotation efficaces. Ensuite, nous avons employé des analyseurs syntaxiques et morphologiques, comme les outils SAMA et MADAMIRA, afin d’optimiser l’annotation. Enfin, nous avons formé avec soin les annotateurs et nous avons instauré un mécanisme de suivi et de contrôle de la qualité de l’annotation avec des mesures fréquentes des accords inter-annotateurs. En allant de la segmentation et de l’annotation morphologique jusqu’à l’annotation syntaxique et plus tard avec l’ajout de la couche d’annotation sémantique avec le Propbank, - 36 - l’annotation du projet Penn Arabic Treebank montre un bon exemple de l’importance des rapports qui existent entre les différentes couches d’annotation. Cette complémentarité entre les différentes couches d’annotations se manifeste aussi à travers les exemples d’applications présentés dans ce manuscrit et qui illustrent des exemples concrets d’exploitations possibles de nos ressources. Prochainement et étant donné que nous avons déjà mis en place nos méthodologies pour l’annotation de corpus, nous allons continuer dans cette direction avec l’exploration de nouvelles possibilités pour créer d’autres ressources utiles pour la communauté scientifique. Nous pensons en particulier à l’ajout de l’annotation des anaphores et des coréférences dans des corpus comme le Propbank arabe et le Treebank arabe ou la réalisation de nouvelles expériences pilotes d’annotation avec des corpus appartenant à de nouveaux genres comme les médias sociaux ou couvrant les variétés dialectales de l’arabe. - 37 - Bibliogr a ph ie Abuhakema, G., Faraj, R., Feldman, A. et Fitzpatrick, E. (2008). Annotating an Arabic Learner Corpus for Error, dans Proceedings of the Sixth International Language Resources and Evaluation (LRE 2008), pages 1347-1350. Al-Chartouni, R. (1986). mabaadiu al arabijati (Les bases de l’arabe). Beyrouth, Dar ElMachreq, s.p. Alfaifi, Abdullah et Atwell, Eric (2013). Arabic Learner Corpus v1: A New Resource for Arabic Language Research, dans Proceedings of the Second Workshop on Arabic Corpus Linguistics (WACL-2). Lancaster University, UK. Alkanhal Mohamed I., Mohamed Al-Badrashiny, Mansour M. Alghamdi, Abdulaziz O. AlQabbany (2012). Automatic Stochastic Arabic Spelling Correction With Emphasis on Space Insertions and Deletions, dans IEEE Transactions on Audio, Speech and Language Processing 20(7): 2111-2122. Arbaoui, Nor Elhouda (2010). Les dix formes de l'arabe classique à l'interface syntaxe/phonologie : pour une déconstruction du gabarit. Thèse de doctorat à Paris 7. Atwell Eric, Kais Dukes, Abdul-Baquee Sharaf, Nizar Habash, Bill Louw, Bayan Abu Shawar, Tony McEnery, Wajdi Zaghouani et Mahmoud El-Haj (2010). Understanding the Quran: A new Grand Challenge for Computer Science and Artificial Intelligence, dans Grand Challenges for Computing Research. British Computer Society Workshop. Edinburgh. Awad Dina (2013). La ponctuation en arabe : histoire et règles. Étude contrastive avec le français et l'anglais. Thèse de doctorat, Lyon 2. Baker Collin F., Charles J. Fillmore, et John B. Lowe (1998). The Berkeley FrameNet Project, dans Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics - Volume 1 (ACL '98), Vol. 1. Association for Computational Linguistics, Stroudsburg, PA, USA, pages 86-90. Blachère, R. et M. Gaudefroy-Demombynes (1975). Grammaire de l’arabe classique, Paris, Maisonneuve and Larose, 508 p. Boudelaa Sami, William D Marslen-Wilson (2010). Aralex: a lexical database for Modern Standard Arabic, dans MRC Cognition and Brain Sciences Unit, Cambridge, England. Chiao Yun-Chuang, Olivier Kraif, Dominique Laurent, Thi Minh Huyen Nguyen, Nasredine Semmar, François Stuck, Jean Véronis, Wajdi Zaghouani (2006). Evaluation of multilingual text alignment systems: the ARCADE II project, dans Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006. - 38 - Choi Jinho, Claire Bonial, et Martha Palmer (2010a) Propbank Instance Annotation Guidelines Using a Dedicated Editor, Cornerstone, dans Proceedings of the (LREC'10), pages 3650-3653. Choi Jinho, Claire Bonial, et Martha Palmer (2010b). Propbank Instance Annotation Guidelines Using a Dedicated Editor, Jubilee, dans Proceedings of the (LREC'10), pages 1871-1875. Diab Mona et Nizar Habash (2014). Arabic Dialect Processing Tutorial, dans Proceedings of the conference on Empirical Methods for Natural Language Processing (EMNLP), Doha,Qatar. Dukes Kais et Tim Buckwalter (2010). A Dependency Treebank of the Quran using Traditional Arabic Grammar, dans Proceedings of the 7th International Conference on Informatics and Systems (INFOS). Dukes Kais, Eric Atwell et Abdul-Baquee Sharaf (2010). Syntactic Annotation Guidelines for the Quranic Arabic Dependency Treebank, dans Proceedings of Language Resources and Evaluation Conference (LREC). Valletta, Malta. Hawwari, A.; Zaghouani, W.; O'Gorman, T.; Badran, A.; Diab, M. (2013). Building a lexical semantic resource for Arabic morphological Patterns, dans Proceedings of la conférence Communications, Signal Processing, and their Applications (ICCSPA), pages 1-6, 12-14 Février. 2013. Jeblee Serena, Houda Bouamor, Wajdi Zaghouani et Kemal Oflazer (2014). CMUQ@The 2014 Automatic Arabic Error Correction Shared Task, dans Proceedings du Arabic Natural Language Processing Workshop co-located with EMNLP 2014, Doha, Qatar. Kipper Karin (2006). VerbNet: A Broad-Coverage, Comprehensive Verb Lexicon. Thèse de doctorat, University of Pennsylvania. Kulick Seth, Ann Bies et Mohamed Maamouri (2010). Consistent and Flexible Integration of Morphological Annotation in the Arabic Treebank, dans Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC) . Kulick Seth, Ann Bies, Justin Mott (2012). Further Developments in Treebank Error Detection Using Derivation Trees, dans Proceedings of LREC 2012 : 8th International Conference on Language Resources and Evaluation, Istanbul, May 21-27. Lo Chi-kiu et Dekai Wu (2010). Evaluating machine translation utility via semantic rolelabels, dans Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC-2010), pages 2873–2877, Malta, May 2010. Maamouri Mohamed et Ann Bies (2004). Developing an Arabic Treebank: Methods, Guidelines, Procedures, and Tools, dans Proceedings of COLING 2004. Geneva, Switzerland. - 39 - Maamouri Mohamed, Ann Bies, Seth Kulick (2008). Enhancing the Arabic Treebank: A Collaborative Effort toward New Annotation Guidelines, dans Proceedings of LREC 2008: 7th International Conference on Language Resources and Evaluation, Marrakech, May 2830. Maamouri Mohamed, Ann Bies, Seth Kulick, Wajdi Zaghouani, Dave Graff et Mike Ciul (2010a). From Speech to Trees: Applying Treebank Annotation to Arabic Broadcast News, dans Proceedings du LREC 2010, Valetta, Malta, mai 17-23 2010. Maamouri Mohamed, Ann Bies, Seth Kulick, Fatma Gaddeche, Wigdan Mekki, Sondos Krouna, Basma Bouziri, Wajdi Zaghouani (2010b). Arabic Treebank Part 1 Version 4.1. LDC Catalog, LDC2010T13. Linguistic Data Consortium. Maamouri Mohamed, Ann Bies, Seth Kulick, Sondos Krouna, Fatma Gaddeche, Wajdi Zaghouani (2010c). Arabic Arabic Treebank: Part 3 v 3.2. LDC Catalog No. : LDC2010T08. Linguistic Data Consortium. Maamouri Mohamed, Ann Bies, Seth Kulick, Fatma Gaddeche, Wigdan Mekki, Sondos Krouna, Basma Bouziri, Wajdi Zaghouani (2011). Arabic Treebank: Part 2 v 3.1. LDC2011T09. ISBN 1-58563-590-1. Linguistic Data Consortium. Maamouri Mohammed, Wajdi Zaghouani, Violetta Cavalli-Sforza, Dave Graff et Mike Ciul (2012). Developing ARET: An NLP-based Educational Tool Set for Arabic Reading Enhancement, dans Proceedings of the Workshop on Innovative Use of NLP for Building Educational Applications, NAACL-HLT 2012, Montréal, Canada. Mahfoudhi, A. (2002). « Agreement lost, agreement regained! A minimalist account of word order and agreement variation in Arabic », dans California Linguistic Notes, vol. 27 nº 2 (2002). Marcus, M.- P., Marcinkiewicz M.-A, et Beatrice Santorini (1993). Building a large annotated corpus of English: The Penn Treebank, dans Computational Linguistics 19, no. 2 (1993): 313-330. Mel'cuk Igor A. (1988). Dependency Syntax: Theory and Practice. SUNY Press, Albany, NY. Mohit Behrang, Alla Rozovskaya, Nizar Habash, Wajdi Zaghouani, and Ossama Obeid (2014). The First QALB Shared Task on Automatic Text Correction for Arabic, dans Proceedings of EMNLP Workshop on Arabic Natural Language Processing, Doha, Qatar. Morton Thomas et Jeremy LaCivita (2003). WordFreak: an open tool for linguistic annotation, dans Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: Demonstrations - Volume 4 (NAACL-Demonstrations '03), Vol. 4. Association for Computational Linguistics, Stroudsburg, PA, USA, pages 17-18. Obeid Ossama, Wajdi Zaghouani, Behrang Mohit, Nizar Habash, Kemal Oflazer et Nadi Tomeh (2013). A Web-based Annotation Framework For Large-Scale Text Correction, dans Proceedings du IJCNLP’2013, Nagoya, Japan. - 40 - Palmer Martha, Dan Gildea, et Paul Kingsbury (2005). The proposition bank: A corpus annotated with semantic roles, dans Computational Linguistics Journal, number 31:1. Palmer Martha, Olga Babko-Malaya, Ann Bies, Mona Diab, Aous Mansouri, Mohammed Maamouri et Wajdi Zaghouani (2008). A Pilot Arabic Propbank, dans Proceedings of la Language Resources and Evaluation Conference, Marrakech, Morocco, May 28-30, 2008. Pasha Arfath, Mohamed Al-Badrashiny, Mona Diab, Ahmed El Kholy, Ramy Eskander, Nizar Habash, Manoj Pooleery, Owen Rambow, et Ryan M. Roth (2014). MADAMIRA: A Fast, Comprehensive Tool for Morphological Analysis and Disambiguation, dans Proceedings of LREC 2014, Reykjavik, Iceland. Perrier Guy, Marie Candito, Bruno Guillaume, Corentin Ribeyre, Karën Fort, Djamé Seddah (2014). Un schéma d’annotation en dépendances syntaxiques profondes pour le français, dans Actes du TALN 2014. Vergyri, D., Kirchhoff, K., Duh, K. et A. Stolcke (2004). « Morphology-Based Language Modeling for Arabic Speech Recognition » , dans Proceedings of the International Conference on Spoken Language Processing (ICSLP). Jeju Island, Korea, pages 2245-2248. Véronis, J., O. Hamon, C. Ayache, R. Belmouhoub, O. Kraif, D. Laurent, T.M.H. Nuyyen, N. Semmar, F. Stuck, W. Zaghouani. (2008). La campagne d'évaluation ARCADE II, dans Chaudiron, S. and Choukri, K. (Eds.) L'évaluation des technologies de traitement de la langue (pp 47-69). Paris: hermès Science Publications, IC2 Cognition Collection. ISBN 978-2-7462-1992-2. Wilcock Graham (2009). Introduction to Linguistic Annotation and Text Analytics, volume 3 of Synthesis Lectures on Human Language Technologies. Morgan and Claypool, 2009. Wu Dekai et Pascale Fung (2009a). Can semantic role labeling improve SMT?, dans Proceedings of 13th Annual Conference of the European Association for Machine Translation (EAMT 2009), pages 218–225, Barcelona, May 2009. Wu Dekai et Pascale Fung (2009b). Can semantic role labeling improve SMT? , dans Proceedings of In 13th Annual Conference of the European Association for Machine Translation (EAMT 2009), pages 218–225, Barcelona, May 2009. Zaghouani Wajdi (2010). L'intégration d'un outil de repérage d'entités nommées pour la langue arabe dans un système de veille, dans Actes du TALN 2010, Montréal, 19-23 juillet 2010. Zaghouani Wajdi, Mona Diab , Aous Mansouri, Sameer Pradhan et Martha Palmer (2010). The Revised Arabic Propbank, dans Proceedings of Linguistic Annotation Workshop, ACL. Uppsala, Suède, juillet 15-16 2010. Zaghouani Wajdi, Bruno Pouliquen, Mohamed Ebrahim et Ralf Steinberger (2010). Adapting a resource-light highly multilingual Named Entity Recognition system to Arabic, dans Proceedings of LREC 2010, Valette, Malte, May 17-23, 2010. - 41 - Zaghouani Wajdi (2011). Étude sur la composition des noms de personnes dans la langue arabe, dans Actes du 25ème Colloque Journées de linguistique de Laval. 9-11 March 2011, Laval , Québec, Canada. Zaghouani Wajdi (2012). RENAR: A Rule-Based Arabic Named Entity Recognition System. Article dans ACM Transactions on Asian Language and information Processing 11(1): 2 . Zaghouani Wajdi, Hawwari, Abdelati et Diab, Mona (2012). A Pilot PropBank Annotation for Quranic Arabic, dans Proceedings of the NAACL-HLT 2012 Workshop on Computational Linguistics for Literature, Association for Computational Linguistics, Montréal, Canada. pages 78-83. Zaghouani Wajdi (2014a). Critical Survey of the Freely Available Arabic Corpora, dans Proceedings of the Workshop on Free/Open-Source Arabic Corpora and Corpora Processing Tools, Language Resources and Evaluation (LREC'2014). Rejkavik, Iceland, 26-31 May 2014. Zaghouani Wajdi (2014b). Annotation syntaxique d’un corpus pour la langue arabe, dans Actes du 82ème congrès de l’Association francophone pour le savoir (ACFAS), 15 Mai 2014 Montréal, Canada. Zaghouani Wajdi, Behrang Mohit, Nizar Habash, Ossama Obeid, Nadi Tomeh, Alla Rozovskaya, Noura Farra, Sarah Alkuhlani et Kemal Oflazer (2014a). Large-scale Arabic Error Annotation: Guidelines and Framework, dans Proceedings of the International Conference on Language Resources and Evaluation (LREC'2014). Rejkavik, Iceland, 26-31 May 2014. Zaghouani Wajdi, Behrang Mohit, Nizar Habash (2014b.) The Qatar Arabic Language Bank Guidelines. Technical report number CMU-CS-QTR-124, School of Computer Science, Carnegie Mellon University Qatar, Septembre 2014. Zaghouani Wajdi, Nizar Habash, Behrang Mohit, Kemal Oflazer (2014c). Annotation Guidelines for Non-native Arabic Text in the Qatar Arabic Language Bank, dans Proceedings of Qatar Annual Research Conference (ARC-2013), Doha, Qatar. Zaghouani Wajdi et Kais Dukes (2014) Can Crowdsourcing be used for Effective Annotation of Arabic?, dans Proceedings of LREC 2014. Pages 224-228. - 42 - An n e x e A Li st e co m p l è t e d e s a r g u m e n t s d a n s l e co r p u s P r o p b a n k Arguments ARG-0 ARG-1 ARG-2 ARG-3 ARG-4 Fonction Agent Patient Instrument, bénéficiaire ou attribut Point de départ Point d’arrivée Tableau 5 : Liste des arguments Étiquette ARGM-ADV ARGM-BNF ARGM-CAU ARGM-CND ARGM-DIR ARGM-DIS ARGM-EXT ARGM-LOC ARGM-MNR ARGM-NEG ARGM-PRD ARGM-PRP ARGMREC ARGM-TMP Sens de l’argument adjoint Adverbiale Bénéficiaire Causale Condition Direction Discours Degré Lieu Manière Négation Prédicatif But Réciproque Temporel Tableau 6 : Liste des arguments adjoints dans la Propbank - 43 - An n e x e B Ex e m p l e d’u n fram e da n s la Pr opba n k a r a be Figure 16 : Exemple d’un fichier cadre en XML - 44 - en XML An n e x e C Cr é a t i o n d’u n fram e avec Co r n e t st o n e Figure 13 : Étape 1. Ajout des arguments dans le fichier frame ﺧﻠﻖXalaqa créer. Figure 14 : Étape 2. Un exemple est annoté dans le fichier frame ﺧﻠﻖXalaqa créer qui montre la sélection d’un argument temporel. - 45 - An n e x e D L’ o u t i l d ’ a n n o t a t i o n Q A W I p o u r l e p r o j e t Q A LB Figure 17 : L’outil d’annotation QAWI - 46 - An n e x e E V i su a l i sa t i o n d e l ’ é cr a n d ’ a ccu e i l d e l ’ o u t i l A R ET Figure 18 : Illustration de l’outil ARET (Maamouri et al., 2012) 1. 2. 3. 4. 5. 6. 7. 8. Passage de lecture du texte Phrase sélectionnée Mot sélectionné Lecteur audio pour la phrase sélectionnée Lecteur audio pour le mot sélectionné Analyse morphologique Glossaire et racine du mot sélectionné Onglet du navigateur pour ouvrir des écrans multiples - 47 - An n e x e F Li st e d e s a r t i cl e s a n n e x é s 18 Article 1 : Critical Survey of the Freely Available Arabic Corpora Article 2 : From Speech to Trees: Applying Treebank Annotation to Arabic Broadcast News Article 3 : A Pilot Arabic Propbank Article 4 : The Revised Arabic Propbank Article 5 : A Pilot PropBank Annotation for Quranic Arabic Article 6 : Can Crowdsourcing be used for Effective Annotation of Arabic? Article 7 : Large-scale Arabic Error Annotation: Guidelines and Framework Article 8 : A Web-based Annotation Framework For Large-Scale Text Correction Article 9 : The First QALB Shared Task on Automatic Text Correction for Arabic Article 10 : CMUQ@The 2014 Automatic Arabic Error Correction Shared Task Article 11 : Étude sur la composition des noms de personnes dans la langue arabe Article 12 : Building a lexical semantic resource for Arabic morphological Patterns Article 13 : RENAR: A Rule-Based Arabic Named Entity Recognition System Article 14 : Adapting a resource-light highly multilingual Named Entity Recognition system to Arabic Article 15 : Developing ARET: An NLP-based Educational Tool Set for Arabic Reading Enhancement Article 16 : Evaluation of multilingual text alignment systems: the ARCADE II project 18 Les articles annexés sont ordonnés selon leur ordre d’apparition dans le document de synthèse. - 48 -