Etiquetage Morphosyntaxique de l`Amazighe :Particularités et Enjeux

Etiquetage Morphosyntaxique de
l’Amazighe :Particularités et Enjeux
Samir Amri1, Lahbib Zenkouar1, Mohamed Outahajala2
amri.samir@gmail.com
1 Ecole Mohammadia d’Ingénieurs, Rabat, Maroc
2Institut Royal de la Culture Amazighe (IRCAM), Rabat, Maroc
Résumé.
L’objectif principal de ce papier est de présenter les particularités et les
enjeux relatifs à la tâche d’étiquetage morphosyntaxique. En effet,
l’étiquetage morphosyntaxique est une partie vitale de toute application du
Traitement Automatique des Langues Naturelles (analyseur syntaxique,
traducteur automatique, correcteur orthographique…), car la performance de
toute application dépend, entre autres, de la performance de l’étiqueteur
morphosyntaque qu’elle utilise. Ainsi, et afin de réaliser un étiqueteur
morphosyntaxique efficace, on doit s’intéresser à améliorer la qualité des
trois phases suivantes: la phase de segmentation, la phase d’organisation des
unités lexicales, et la phase de désambiguïsation.
Mots-clés: apprentissage automatique, étiquetage morphosyntaxique, langue
Amazighe, annotation, SVM, CRF, TALN, TALAM, HMM.
1. Introduction
L’Amazighe est parmi les langues peu dotées et les moins utilisées sur
Internet, d’où la motivation et la nécessité de son informatisation et de son
développement en Traitement Automatique des Langues Naturelles (TALN).
D’ailleurs beaucoup de recherches ont dirigé cette tâche du TALN et ont
abouti à diverses approches et algorithmes qui ont conduit fréquemment à
des applications et aux systèmes sophistiqués.
D'un point de vue général, pour la mise en œuvre d'outils du TALN, les
chercheurs ont besoin:
- d’unités de base pour la segmentation des phrases et des mots, et
l'analyse morphologique, syntaxique ou sémantique.
- des ressources linguistiques (dictionnaires et des agrégats, données
lexicales, corpus...).
- des expertises au niveau linguistique ou au niveau d’apprentissage
automatique (Machine Learning en Anglais).
Au niveau de cet article on va se focaliser sur la discipline de l’étiquetage
morphosyntaxique qui est une étape indispensable et primordiale pour la
réalisation de la plupart des applications du TALN, car il peut déterminer la
catégorie grammaticale des mots de texte et la description des différentes
unités de base dans les applications grand public telles que l’analyse
syntaxique, la génération automatique des résumés et la recherche
d'information...etc. Il est également très utile dans le traitement des mots
pour les systèmes d'optimisation des performances et la reconnaissance
vocale. En général l’étiquetage morphosyntaxique est une étape nécessaire et
difficile à faire, nous avons décidé de mettre l'accent sur ce problème en
particulier pour la langue amazighe.
La suite de cet article est structurée comme suit : la deuxième Section est
consacrée à l’état de l’art de la langue amazighe et le TALN, ensuite on
discutera l’étiquetage morphosyntaxique. La troisième Section sera dédiée à
une discussion sur les prérequis nécessaires et les points à améliorer pour
avoir des systèmes d’étiquetage morphosyntaxiques complets robustes et
surtout efficaces pour la langue amazighe. Enfin on conclura avec un
ensemble de perspectives pour les travaux futurs dans le domaine du
traitement automatique de la langue amazighe.
2. Amazighe et TALN
2.1 Aperçu sur la langue Amazighe
L’Amazighe est parlé sous forme de plusieurs dialectes et parlers. Ces
derniers sont utilisés sur un grand territoire qui couvre de nombreux pays:
Egypte, Libye, Tunisie, Algérie, Maroc, Mali, Niger, Mauritanie. Cependant
l’Algérie et le Maroc sont les deux pays est concentré le plus grand
nombre d’Imazighen dans le sens qu’être amazighe c’est parler un des
parlers de la langue.
Selon les régions, ces parlers prennent des noms différents. Ainsi en Algérie,
nous nous retrouvons notamment les parlers Kabyle, Mozabite et Chaoui. Au
Maroc, il y a trois parlers principaux:
Tarifit au nord du Maroc, Tachelhit au sud-ouest du royaume et Tamazight
au Maroc central.
Malgré des nombreuses recherches, la langue Amazighe est considérée
comme une langue difficile à maitriser à cause de sa richesse
morphologique. Les travaux de recherche dans le TALN ont abordé des
problématiques variées comme la morphologie, la traduction automatique,
l’indexation des documents, etc.
Au cours de ce passage nous présenterons les particularités de la langue
Amazighe ainsi que certaines de ses propriétés morphologiques et
syntaxiques.
La création de l’Institut Royal de la Culture Amazighe(IRCAM) en 2001 et
l’officialisation de la langue amazighe en 2011 ont permis la promotion de la
langue Amazighe, et il a permis d'obtenir une orthographe officielle (Ameur
et al., 2004), le codage approprié dans le standard Unicode (Andries, 2008;
Zenkouar, 2008), les structures linguistiques (Ameur et al.,2004; Boukhris et
al., 2008).
La langue Amazighe possède sa propre graphie, Tifinaghe, un système
alphabétique standard plus adéquat et utilisable pour tous les parlers
amazighes actuels. Ainsi en 2003, l’IRCAM a développé un système
d’alphabet sous le nom de Tifinaghe-IRCAM. L’alphabet standardisé par
l’IRCAM est basé sur un système graphique à tendance phonologique, cet
alphabet comporte :
- 27 consonnes dont : les labiales (, , ), les dentales (, , , , ,
, , ), les alvéolaires (, , , ), les palatales (, ), les vélaires
(, ), les labiovélaires (ⴼⴼ, ⴼⴼ), les uvulaires (, , ), les
pharyngales (, ) et la laryngale ().
- 2 semi-consonnes : et .
- 4 voyelles : trois voyelles pleines , , et la voyelle neutre qui a un
statut assez particulier en phonologie Amazighe.
D’ailleurs c’est la translitération en alphabet latin qui est utilisée dans tous
les exemples présentés dans cet article.
Dans le lexique de la langue Amazighe, on distingue trois catégories
principales de mots :
Les verbes, les noms et les particules (Boukhris et al., 2008) qui se
subdivisent elles-mêmes en différentes sous catégories: préposition,
conjonction, pronom, article, interjection et adverbe :
- Le nom est soit au masculin, soit au féminin. Il est au pluriel ou au
singulier: le pluriel commence à partir de deux comme en Français. Le
nom est soit à l’état libre ou à l’état d’annexion.
Par exemple pour le nom masculin : afus /ifassn (main/mains), igr/igran
(champ/champs), pour le nom féminin: tuzzalt/tuzzalin
(couteau/couteaux), tasarut/tisura (clef/clés).
- Le verbe se construit généralement par l’affixation et la composition.
Certains verbes sont des dérivations par affixation (préfixes, suffixes),
d’autre verbes ne sont pas nécessairement dérivés de noms, ils sont
composés soit à partir d’un verbe et d’un nom, soit à partir de deux
verbes, sans oublier bien évidemment les aspects de la conjugaison qui
impactent parfois la morphologie du verbe d’une façon significative.
Exemple du verbe en Amazighe : sw(boire), ddu (aller), rwl(courir).
- Les pronoms sont isolés des mots auxquels ils se réfèrent. Les pronoms
en langue Amazighe sont soit démonstratifs, exclamatifs, indéfinis,
interrogatifs, personnels, possessifs ou relatifs.
- Les adverbes sont subdivisés en adverbes de lieu, de temps, de quantité,
de manière et les adverbes interrogatifs.
- Les prépositions sont un ensemble de caractères indépendants par
rapport au nom qu'elles précèdent; cependant si la préposition est suivie
d’un pronom personnel, la préposition et le pronom personnel forment
une seule chaîne délimitée par des blancs ou bien un blanc et une
marque de ponctuation.
- Les particules sont toujours isolées, elles sont de plusieurs types:
Les particules aspectuelles telles que «ar, ad».
La particule de négation « ur ».
Les particules d’orientation « s ».
La particule de prédication « .
- Les déterminants prennent toujours la forme d’un seul mot délimité par
deux espaces, ils sont divisés en articles, démonstratifs, exclamatifs,
articles indéfinis, interrogatifs, chiffres ordinaux, possessifs, présentatifs
et quantificateur.
- Les marques de ponctuation en Amazighe marocain sont similaires aux
marques de ponctuation adoptées par les langues internationales, elles
ont les mêmes fonctions.
2.2 Traitement automatique de la langue Amazighe (TALAM)
Le traitement automatique d’une langue naturelle (TALN) est divisé d’une
façon générale en deux parties :
- Traitement de langue: concerne les systèmes capables de se comporter
comme des lecteurs/auditeurs.
- Génération de langue : concerne les systèmes capables de se comporter
comme des rédacteurs/producteurs.
Après cette subdivision, on entrevoit des niveaux dans le TALN :
- Le niveau phonologie: interprétation du discours à travers les mots.
- Le niveau morphologique: traite la composition des mots (préfixe,
suffixe, radical, ...).
- Le niveau lexical: donne un sens au mot pris individuellement.
- Le niveau syntaxique: découvre la structure grammaticale de la phrase.
- Le niveau sémantique: traite le sens des mots et des phrases.
- Le niveau conversation: traite du sens global des corpus. Il ne considère
pas un texte comme une concaténation de phrases, mais comme un
ensemble pourvu de sens.
- Le niveau pragmatique: explicite les sens implicites des phrases et mots.
En ce qui concerne le TALAM, la langue Amazighe ne possède pas
suffisamment des ressources linguistiques et d’outils TALN (Outahajala et
al. 2015). Toutefois on va lister quelques travaux déjà faits pour le TALAM :
- L’alphabet Tifinaghe est intégré par le standard Unicode, ce qui a permis
le développement d'outils adaptés au traitement de cette langue (Rachidi
et Mammass, 2005).
- La création des claviers et polices de caractères dédiés à l’écriture
Tifinaghe (IRCAM, 2003b; IRCAM, 2004).
- Les travaux de translittération des textes écrits en alphabet tifinaghe vers
l’alphabet arabe ou latin (Ataa Allah et al. 2013).
- La construction d’un grand corpus annoté pour la langue Amazighe
(Outahajala et al., 2014).
- Le projet de reconnaissance des caractères Tifinaghes fait en 2009 (Ait
Ouguengay et al., 2009).
- L’analyseur morphologique pour les noms Amazighes (Raiss & Cavalli
Sforza, 2012).
- Le conjugueur des verbes de la langue Amazighe. (Ataa Allah et
Boulaknadel, 2014).
- Le pseudo-racineur (Ataa Allah et Boulaknadel, 2010).
- Le concordancier (Boulaknadel, 2009), permettant la recherche d’un mot
quelconque dans un ensemble de textes afin d’étudier son emploi.
De ce qui précède on peut constater que le domaine du TALAM a besoin de
vision et de stratégie de tout le monde (chercheurs, linguistes…) pour réussir
ce grand chantier et d’apporter à la communauté scientifique et au grand
public des systèmes et des projets pertinents et de grande valeur ajoutée.
3. L’étiquetage morphosyntaxique de la langue Amazighe
Il s’agit d’un processus de détecter la catégorie morphosyntaxique d’un mot
dans un contexte, cette action est non triviale du traitement automatique de la
langue écrite. En effet rendre un ordinateur capable de connaître la catégorie
grammaticale d’un mot exige de mettre en œuvre des méthodes
sophistiquées, en particulier pour les mots ambigus, c'est-à-dire susceptibles
d’appartenir à plusieurs catégories différentes. Les systèmes automatiques
dédiés à cette activité sont appelés des étiqueteurs morphosyntaxiques (Part-
Of-Speech tagger en Anglais).
Ceux-ci consistent à affecter des étiquettes morphosyntaxiques propres à
chaque mot d'une phrase d'un texte (catégorie grammaticale, informations
morphologiques comme le genre, le nombre, l’état...etc). L'étiquetage correct
par exemple de la phrase (idda yidir s tmzgida) est comme suit : idda.Verbe
yidir.Nom propre s.préposition tmzgida.Nom. La principale difficul de
l'étiquetage morphosyntaxique vient du fait que les mots de la langue sont
ambigus, c’est à dire que l'on peut affecter plusieurs étiquettes à un mot
donné de la phrase.
Un étiqueteur morphosyntaxique doit donc effectuer une phase de
désambigüisation afin de sélectionner une séquence d'étiquettes possibles
pour la séquence de mots de la phrase, et si possible la séquence correcte.
D’ailleurs l'étiquetage morphosyntaxique a été largement étudié par le passé,
il est maintenant considéré comme un problème relativement résolu pour
quelques langues comme l’Anglais et le Français. Les performances des
étiqueteurs actuels de ces langues étant très élevées (environ 97,50% de mots
correctement étiquetés).
Pour aborder cette discipline, plusieurs approches ont été proposées pour
annoter automatiquement les mots d'un texte (figure1).
Le mécanisme de l’étiquetage morphosyntaxique se base généralement sur
l’hypothèse que la catégorie d’un mot dépend de son contexte local, qui peut
par exemple se réduire au mot ou aux deux qui le précèdent.
Dans ce qui suit nous allons présenter différentes méthodes d’étiquetage
morphosyntaxique, et effectuer un bref recensement des étiqueteurs qui
existent en particulier pour la langue Amazighe.
Il existe deux grandes familles d’étiqueteurs :
- Les étiqueteurs symboliques sont ceux qui appliquent des règles qui leur
ont été communiquées par des experts humains. Dans ce type
d’étiqueteurs, il y a très peu d’automatisation; c’est le designer qui
manipule toutes les règles d’étiquetage et qui fournit au besoin une liste
des morphèmes. La conception n’est pas automatisée : l’étiqueteur
fournit un étiquetage automatique une fois ses règles élaborées. La
conception d’un tel étiqueteur est longue et coûteuse. De plus, les
étiqueteurs ainsi conçus ne sont pas facilement portables, c’est-à-dire ils
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !