Etiquetage Morphosyntaxique de l`Amazighe :Particularités et Enjeux

Téléchargement

Etiquetage Morphosyntaxique de

l’Amazighe :Particularités et Enjeux

Samir Amri1, Lahbib Zenkouar1, Mohamed Outahajala2

amri.samir@gmail.com

1 Ecole Mohammadia d’Ingénieurs, Rabat, Maroc

2Institut Royal de la Culture Amazighe (IRCAM), Rabat, Maroc

Résumé.

L’objectif principal de ce papier est de présenter les particularités et les

enjeux relatifs à la tâche d’étiquetage morphosyntaxique. En effet,

l’étiquetage morphosyntaxique est une partie vitale de toute application du

Traitement Automatique des Langues Naturelles (analyseur syntaxique,

traducteur automatique, correcteur orthographique…), car la performance de

toute application dépend, entre autres, de la performance de l’étiqueteur

morphosyntaque qu’elle utilise. Ainsi, et afin de réaliser un étiqueteur

morphosyntaxique efficace, on doit s’intéresser à améliorer la qualité des

trois phases suivantes: la phase de segmentation, la phase d’organisation des

unités lexicales, et la phase de désambiguïsation.

Mots-clés: apprentissage automatique, étiquetage morphosyntaxique, langue

Amazighe, annotation, SVM, CRF, TALN, TALAM, HMM.

1. Introduction

L’Amazighe est parmi les langues peu dotées et les moins utilisées sur

Internet, d’où la motivation et la nécessité de son informatisation et de son

développement en Traitement Automatique des Langues Naturelles (TALN).

D’ailleurs beaucoup de recherches ont dirigé cette tâche du TALN et ont

abouti à diverses approches et algorithmes qui ont conduit fréquemment à

des applications et aux systèmes sophistiqués.

D'un point de vue général, pour la mise en œuvre d'outils du TALN, les

chercheurs ont besoin:

- d’unités de base pour la segmentation des phrases et des mots, et

l'analyse morphologique, syntaxique ou sémantique.

- des ressources linguistiques (dictionnaires et des agrégats, données

lexicales, corpus...).

- des expertises au niveau linguistique ou au niveau d’apprentissage

automatique (Machine Learning en Anglais).

Au niveau de cet article on va se focaliser sur la discipline de l’étiquetage

morphosyntaxique qui est une étape indispensable et primordiale pour la

réalisation de la plupart des applications du TALN, car il peut déterminer la

catégorie grammaticale des mots de texte et la description des différentes

unités de base dans les applications grand public telles que l’analyse

syntaxique, la génération automatique des résumés et la recherche

d'information...etc. Il est également très utile dans le traitement des mots

pour les systèmes d'optimisation des performances et la reconnaissance

vocale. En général l’étiquetage morphosyntaxique est une étape nécessaire et

difficile à faire, nous avons décidé de mettre l'accent sur ce problème en

particulier pour la langue amazighe.

La suite de cet article est structurée comme suit : la deuxième Section est

consacrée à l’état de l’art de la langue amazighe et le TALN, ensuite on

discutera l’étiquetage morphosyntaxique. La troisième Section sera dédiée à

une discussion sur les prérequis nécessaires et les points à améliorer pour

avoir des systèmes d’étiquetage morphosyntaxiques complets robustes et

surtout efficaces pour la langue amazighe. Enfin on conclura avec un

ensemble de perspectives pour les travaux futurs dans le domaine du

traitement automatique de la langue amazighe.

2. Amazighe et TALN

2.1 Aperçu sur la langue Amazighe

L’Amazighe est parlé sous forme de plusieurs dialectes et parlers. Ces

derniers sont utilisés sur un grand territoire qui couvre de nombreux pays:

Egypte, Libye, Tunisie, Algérie, Maroc, Mali, Niger, Mauritanie. Cependant

l’Algérie et le Maroc sont les deux pays où est concentré le plus grand

nombre d’Imazighen dans le sens qu’être amazighe c’est parler un des

parlers de la langue.

Selon les régions, ces parlers prennent des noms différents. Ainsi en Algérie,

nous nous retrouvons notamment les parlers Kabyle, Mozabite et Chaoui. Au

Maroc, il y a trois parlers principaux:

Tarifit au nord du Maroc, Tachelhit au sud-ouest du royaume et Tamazight

au Maroc central.

Malgré des nombreuses recherches, la langue Amazighe est considérée

comme une langue difficile à maitriser à cause de sa richesse

morphologique. Les travaux de recherche dans le TALN ont abordé des

problématiques variées comme la morphologie, la traduction automatique,

l’indexation des documents, etc.

Au cours de ce passage nous présenterons les particularités de la langue

Amazighe ainsi que certaines de ses propriétés morphologiques et

syntaxiques.

La création de l’Institut Royal de la Culture Amazighe(IRCAM) en 2001 et

l’officialisation de la langue amazighe en 2011 ont permis la promotion de la

langue Amazighe, et il a permis d'obtenir une orthographe officielle (Ameur

et al., 2004), le codage approprié dans le standard Unicode (Andries, 2008;

Zenkouar, 2008), les structures linguistiques (Ameur et al.,2004; Boukhris et

al., 2008).

La langue Amazighe possède sa propre graphie, Tifinaghe, un système

alphabétique standard plus adéquat et utilisable pour tous les parlers

amazighes actuels. Ainsi en 2003, l’IRCAM a développé un système

d’alphabet sous le nom de Tifinaghe-IRCAM. L’alphabet standardisé par

l’IRCAM est basé sur un système graphique à tendance phonologique, cet

alphabet comporte :

- 27 consonnes dont : les labiales (ⴼ, ⴼ, ⴼ), les dentales (ⴼ, ⴼ, ⴼ, ⴼ, ⴼ,

ⴼ, ⴼ, ⴼ), les alvéolaires (ⴼ, ⴼ, ⴼ, ⴼ), les palatales (ⴼ, ⴼ), les vélaires

(ⴼ, ⴼ), les labiovélaires (ⴼⴼ, ⴼⴼ), les uvulaires (ⴼ, ⴼ, ⴼ), les

pharyngales (ⴼ, ⴼ) et la laryngale (ⴼ).

- 2 semi-consonnes : ⴼ et ⴼ.

- 4 voyelles : trois voyelles pleines ⴼ, ⴼ, ⴼ et la voyelle neutre ⴼ qui a un

statut assez particulier en phonologie Amazighe.

D’ailleurs c’est la translitération en alphabet latin qui est utilisée dans tous

les exemples présentés dans cet article.

Dans le lexique de la langue Amazighe, on distingue trois catégories

principales de mots :

Les verbes, les noms et les particules (Boukhris et al., 2008) qui se

subdivisent elles-mêmes en différentes sous catégories: préposition,

conjonction, pronom, article, interjection et adverbe :

- Le nom est soit au masculin, soit au féminin. Il est au pluriel ou au

singulier: le pluriel commence à partir de deux comme en Français. Le

nom est soit à l’état libre ou à l’état d’annexion.

Par exemple pour le nom masculin : afus /ifassn (main/mains), igr/igran

(champ/champs), pour le nom féminin: tuzzalt/tuzzalin

(couteau/couteaux), tasarut/tisura (clef/clés).

- Le verbe se construit généralement par l’affixation et la composition.

Certains verbes sont des dérivations par affixation (préfixes, suffixes),

d’autre verbes ne sont pas nécessairement dérivés de noms, ils sont

composés soit à partir d’un verbe et d’un nom, soit à partir de deux

verbes, sans oublier bien évidemment les aspects de la conjugaison qui

impactent parfois la morphologie du verbe d’une façon significative.

Exemple du verbe en Amazighe : sw(boire), ddu (aller), rwl(courir).

- Les pronoms sont isolés des mots auxquels ils se réfèrent. Les pronoms

en langue Amazighe sont soit démonstratifs, exclamatifs, indéfinis,

interrogatifs, personnels, possessifs ou relatifs.

- Les adverbes sont subdivisés en adverbes de lieu, de temps, de quantité,

de manière et les adverbes interrogatifs.

- Les prépositions sont un ensemble de caractères indépendants par

rapport au nom qu'elles précèdent; cependant si la préposition est suivie

d’un pronom personnel, la préposition et le pronom personnel forment

une seule chaîne délimitée par des blancs ou bien un blanc et une

marque de ponctuation.

- Les particules sont toujours isolées, elles sont de plusieurs types:

 Les particules aspectuelles telles que «ar, ad».

 La particule de négation « ur ».

 Les particules d’orientation « s ».

 La particule de prédication « d».

- Les déterminants prennent toujours la forme d’un seul mot délimité par

deux espaces, ils sont divisés en articles, démonstratifs, exclamatifs,

articles indéfinis, interrogatifs, chiffres ordinaux, possessifs, présentatifs

et quantificateur.

- Les marques de ponctuation en Amazighe marocain sont similaires aux

marques de ponctuation adoptées par les langues internationales, elles

ont les mêmes fonctions.

2.2 Traitement automatique de la langue Amazighe (TALAM)

Le traitement automatique d’une langue naturelle (TALN) est divisé d’une

façon générale en deux parties :

- Traitement de langue: concerne les systèmes capables de se comporter

comme des lecteurs/auditeurs.

- Génération de langue : concerne les systèmes capables de se comporter

comme des rédacteurs/producteurs.

Après cette subdivision, on entrevoit des niveaux dans le TALN :

- Le niveau phonologie: interprétation du discours à travers les mots.

- Le niveau morphologique: traite la composition des mots (préfixe,

suffixe, radical, ...).

- Le niveau lexical: donne un sens au mot pris individuellement.

- Le niveau syntaxique: découvre la structure grammaticale de la phrase.

- Le niveau sémantique: traite le sens des mots et des phrases.

- Le niveau conversation: traite du sens global des corpus. Il ne considère

pas un texte comme une concaténation de phrases, mais comme un

ensemble pourvu de sens.

- Le niveau pragmatique: explicite les sens implicites des phrases et mots.

En ce qui concerne le TALAM, la langue Amazighe ne possède pas

suffisamment des ressources linguistiques et d’outils TALN (Outahajala et

al. 2015). Toutefois on va lister quelques travaux déjà faits pour le TALAM :

- L’alphabet Tifinaghe est intégré par le standard Unicode, ce qui a permis

le développement d'outils adaptés au traitement de cette langue (Rachidi

et Mammass, 2005).

- La création des claviers et polices de caractères dédiés à l’écriture

Tifinaghe (IRCAM, 2003b; IRCAM, 2004).

- Les travaux de translittération des textes écrits en alphabet tifinaghe vers

l’alphabet arabe ou latin (Ataa Allah et al. 2013).

- La construction d’un grand corpus annoté pour la langue Amazighe

(Outahajala et al., 2014).

- Le projet de reconnaissance des caractères Tifinaghes fait en 2009 (Ait

Ouguengay et al., 2009).

- L’analyseur morphologique pour les noms Amazighes (Raiss & Cavalli

Sforza, 2012).

- Le conjugueur des verbes de la langue Amazighe. (Ataa Allah et

Boulaknadel, 2014).

- Le pseudo-racineur (Ataa Allah et Boulaknadel, 2010).

- Le concordancier (Boulaknadel, 2009), permettant la recherche d’un mot

quelconque dans un ensemble de textes afin d’étudier son emploi.

De ce qui précède on peut constater que le domaine du TALAM a besoin de

vision et de stratégie de tout le monde (chercheurs, linguistes…) pour réussir

ce grand chantier et d’apporter à la communauté scientifique et au grand

public des systèmes et des projets pertinents et de grande valeur ajoutée.

3. L’étiquetage morphosyntaxique de la langue Amazighe

Il s’agit d’un processus de détecter la catégorie morphosyntaxique d’un mot

dans un contexte, cette action est non triviale du traitement automatique de la

langue écrite. En effet rendre un ordinateur capable de connaître la catégorie

grammaticale d’un mot exige de mettre en œuvre des méthodes

sophistiquées, en particulier pour les mots ambigus, c'est-à-dire susceptibles

d’appartenir à plusieurs catégories différentes. Les systèmes automatiques

dédiés à cette activité sont appelés des étiqueteurs morphosyntaxiques (Part-

Of-Speech tagger en Anglais).

Ceux-ci consistent à affecter des étiquettes morphosyntaxiques propres à

chaque mot d'une phrase d'un texte (catégorie grammaticale, informations

morphologiques comme le genre, le nombre, l’état...etc). L'étiquetage correct

par exemple de la phrase (idda yidir s tmzgida) est comme suit : idda.Verbe

yidir.Nom propre s.préposition tmzgida.Nom. La principale difficulté de

l'étiquetage morphosyntaxique vient du fait que les mots de la langue sont

ambigus, c’est à dire que l'on peut affecter plusieurs étiquettes à un mot

donné de la phrase.

Un étiqueteur morphosyntaxique doit donc effectuer une phase de

désambigüisation afin de sélectionner une séquence d'étiquettes possibles

pour la séquence de mots de la phrase, et si possible la séquence correcte.

D’ailleurs l'étiquetage morphosyntaxique a été largement étudié par le passé,

il est maintenant considéré comme un problème relativement résolu pour

quelques langues comme l’Anglais et le Français. Les performances des

étiqueteurs actuels de ces langues étant très élevées (environ 97,50% de mots

correctement étiquetés).

Pour aborder cette discipline, plusieurs approches ont été proposées pour

annoter automatiquement les mots d'un texte (figure1).

Le mécanisme de l’étiquetage morphosyntaxique se base généralement sur

l’hypothèse que la catégorie d’un mot dépend de son contexte local, qui peut

par exemple se réduire au mot ou aux deux qui le précèdent.

Dans ce qui suit nous allons présenter différentes méthodes d’étiquetage

morphosyntaxique, et effectuer un bref recensement des étiqueteurs qui

existent en particulier pour la langue Amazighe.

Il existe deux grandes familles d’étiqueteurs :

- Les étiqueteurs symboliques sont ceux qui appliquent des règles qui leur

ont été communiquées par des experts humains. Dans ce type

d’étiqueteurs, il y a très peu d’automatisation; c’est le designer qui

manipule toutes les règles d’étiquetage et qui fournit au besoin une liste

des morphèmes. La conception n’est pas automatisée : l’étiqueteur

fournit un étiquetage automatique une fois ses règles élaborées. La

conception d’un tel étiqueteur est longue et coûteuse. De plus, les

étiqueteurs ainsi conçus ne sont pas facilement portables, c’est-à-dire ils

1 / 13 100%

Documents connexes

L`emprunt et variations lexicale et grammaticale : Une approche

Géographie linguistique Langue, variation et aménagement

Extrait PV et Résultat AO 11_2016

Règles orthographiques de l`amazighe

Etiquetage légal des denrées alimentaires pré-emballées

Mohamed Sguenfle - dipralang

Actualités - CCI Champagne-Ardenne - Plate

emploi du temps Amazigh

Propositions

Classification des salariés en Suivi Individuel Renforcé

Revue AMA - Souss.com

Compte-rendu de l`exercice d`écriture

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Etiquetage Morphosyntaxique de l`Amazighe :Particularités et Enjeux

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Etiquetage Morphosyntaxique de l`Amazighe :Particularités et Enjeux

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib