atelier international sur l’amazighe et les TIC
ème
5
1
Analyseur morphologique des mots arabe en utilise le
dérivé et schème de surface
S.Iazzi1, A.Yousfi2, M.Bellafkih3
1Laboratoire GSCM-LRIT, FS, Agdal-Rabat, Maroc.
2Equipe ERADIASS, FSJES, Souissi-Rabat, Maroc.
3INPT, Rabat, Maroc.
Résumé : Cet article présente un système d'analyse morphologique pour la langue arabe. Ce
système est fondé sur les schèmes de surface des mots arabes.
Notre travail dans cet article, vise à traiter les noms dérivés arabes, il est basé
principalement sur la construction de la base des données des schèmes de surface de ces
derniers, ensuite on a adopté un travail antérieur de (Yousfi, 2010) pour l'analyse des verbes
arabes pour traiter les noms dérivés arabes.
Notre approche à été testée sur un corpus de 2400 mots arabes (400 verbes et 2000 noms
dérivés), les résultats obtenus sont très intéressants et montre l'utilité et l'importance de cette
approche.
Mots-clés : TALN, Nom dérivé Arabe, Schème de Surface des mots, Analyse Morphologique,
Degré de Similitude.
Abstract: The present article introduces a system for the morphological analysis of the Arabic
language. The system is based on the surface patterns of the Arabic words.
Our work in this article purports to deal with Arabic derived nouns. It is based mainly on the
building of a database for the surface patterns of derived nouns. In order to deal with Arabic
derived nouns, the article is also based on a previous study by (Yousfi, 2010) for the analysis
of Arabic verbs.
Our approach was tested against a corpus of 2400 Arabic words (400 verbs and 2000 derived
nouns), the obtained results are very interesting and show the utility and importance of this
approach.
Keywords: ATNL, Arabic derived nouns, Surface pattern of words, Morphological Analysis,
degree of similarity.
1. Introduction
L'analyse morphologique arabe et l'un des outils qui permettent de résoudre la majorité des
problèmes de la langue arabe, elle a été largement utilisée dans plusieurs domaines du
Traitement automatique des langues naturelles (TALN) tels que la recherche documentaire,
les dictionnaires électroniques, les systèmes de marquage, etc.
Plusieurs travaux ont été réalisés dans le but d'élaborer des analyseurs morphologiques de la
langue arabe et qui peuvent être regroupés en trois approches (Darwish, 2002 ; Yousfi, 2010):
atelier international sur l’amazighe et les TIC
ème
5
2
L'approche symbolique: Cette approche est basée sur la segmentation du mot
en préfixes, infixes et suffixes dans le but d'extraire la racine du mot arabe. Plusieurs
analyseurs morphologiques ont été élaborés et qui s'appuient sur cette approche
(Darwish, 2002 ; Buckwalter, 2002 ; Hegazi et ElSharkawi, 1986 ; Koskenniemi, 1983
; Beesly, 1998 ; El-Sadany et Hashish, 1989 ; Khoja et Garside, 1999 ; Soudi, 2002).
Parmi les analyseurs les plus connus pour cette approche est celui de Buckwalter ce
dernier consiste à déterminer toutes les segmentations possibles du mot, puis à
chercher les résultats dans les listes des radicaux, des suffixes et des préfixes, et vérifie
ensuite si les morphologies de chacun des éléments sont compatibles entre elles en
examinant trois tables de correspondances : préfixe-radical, préfixe-suffixe, radical-
suffixe.
L'approche statistique: Cette approche calcule les possibilités et les probabilités qu'un
préfixe, suffixe et un radical peuvent apparaître ensemble dans une base de données
des mots (Goldsmith et John, 2001).
L'approche hybride: cette approche combine entre les deux approches précédentes
(Darwish, 2002).
Malgré les avantages de ces approches, on remarque qu'il y a toujours des inconvénients pour
ces dernières, on cite par exemple:
Le dictionnaire des mots est très grand, et il est très difficile de construire un
dictionnaire contenant tous les mots arabes. Ces dictionnaires des mots contiennent
une sorte de répétition des noms ayant les mêmes règles morphologiques '

' '


'.
Ces approches utilisent plusieurs règles au moment de l'analyse morphologique.
Pour remédier à ces problèmes, nous avons développé un analyseur morphologique
indépendant du dictionnaire des mots et n'utilisant pas les règles au moment de l'analyse
morphologique. Notre système utilise uniquement les schèmes de surface du mot à analyser.
2. Construction de la base des schèmes de surface des noms dérivés
2.1 Noms dérivés arabe
Les noms dérivés se sont les noms qui peuvent être dérivés à partir d’une racine verbale. Le
nombre et la nature de ces formes varient selon le statut du verbe auquel ils se rattachent.
Parmi les noms dérivés (Voir Tab 1), on cite (Mesfar, 2008):
Le Participe Actif '

' : est un nom associé à tout verbe d'action, et qui désigne
l'agent du verbe c'est-à-dire celui qui fait l'action. Par exemple, le verbe '
'a pour
nom actif '
 '
Le Participe Passif '

' : est un nom associé à tout verbe d’action transitif. Il
désigne le patient qui subit l’action ou le résultat de cette action. Par exemple le verbe
'' a pour participe passif ' ''.
Nom Verbal ' ' : est un nom abstrait formé sur la même racine que le verbe
auquel il est associé et exprime le même contenu sémantique que le verbe. Un verbe
peut avoir plus qu'un nom verbal. Par exemple, le verbe '
' admet quatre noms
verbaux différents ' 

'.
La qualité similaire '

' : Les noms de la qualité similaire indiquent la
présence absolue de la qualité de celui qui a fait l’action, comme ''.
atelier international sur l’amazighe et les TIC
ème
5
3
Le Nom comparatif '

' : Il indique la qualité commune de deux noms dont
l’un exprime un degré supérieur, comme '
'.
Les noms de lieux et de temps '

' : Ils indiquent l’endroit ou le temps de
l’action, comme
, ''.
Le nom d’instrument '

' : Il indique le moyen par lequel l’action a été réalisée,
comme ''.
Dans cet article plus ces noms, on a traité aussi les noms dérivés suivants : nom d'état "
", "", masdar sinaai "", hyperbole "" et "  ".
Tab 1: un exemple des noms dérivés en fonctions de leurs racines et leurs pronoms.
2.2 Schème de surface
Le schème d'un mot permet de détecter les lettres constituant sa racine. Le schème de '
'
est '', les lettres " " remplacent les lettres de la racine de '
', et le schème de "
 " est  " (Youssef, 1999 ; Bahrak, 869- ; Hanafi, 1914 ; Zanjani, 1343).
Ce type de schème ne peut pas présenter les variations morphologiques du mot (par exemple
le nom
 du verbe), c'est pourquoi nous avons proposé un schème adapté appelé schème
de surface (yousfi, 2010).
La méthode de construction de ce nouveau schème est la suivante:
Si on suppose que le mot dont on cherche son schème est :
n
lllw ...
21
(
i
l
Caractère du mot
w
) et R sa racine.
Le schème de surface de
w
est
n
fffp .....
21
avec :
i
f
est l'une des trois lettres " " si
i
l
R
ii lf
si
i
l
n'est pas dans R.
Racine
Type de noms
Dérivation de la racine





























atelier international sur l’amazighe et les TIC
ème
5
4
Et le schème de surface de la racine
k
gggR ...
21
(g i est un caractère) est
k
fffP '...'' 21
avec :
i
f'
= l'une des trios lettre "  " si
i
g
est une lettre constante au moment de la
conjugaison de R.
i
f'
= g i sinon.
Exemple
La conjugaison du mot "
" au participe actif à la 1ére personne du singulier, est "
 ",
alors le schème de surface de la racine "
" est "
" et "
 " est le schème de surface de "

".
Le schème de surface de "
" est "
" et de " 
" est "
".
Pour la construction de la base des schèmes de surface des noms dérivés arabes, nous avons
traité 127 racines qui représentent presque toutes les classes possibles pour générer les noms
dérivés arabes (Youssef, 1999)
Des linguistes ont généré tous les noms dérivés arabes à partir de ces 127 racines, ensuite ils
les ont conjugué aux différentes personnes (masculin singulier, masculin duel, masculin
pluriel, féminine singulier, féminine duel, féminine pluriel), et à partir des ces noms, ils ont
dégagé les schèmes de surface de chaque nom dérivé.
A la fin nous avons obtenu plus de 6216 schèmes de surface qui représentent presque tous les
noms dérivés arabes (Voir tab 2).
Racine
Nature et nombre
du pronom
Type noms
Schème de
surface des noms
dérivés
Noms Dérivé











































Tab 2: un exemple des schèmes de surface en fonction de leurs racines et leurs pronoms.
3. L'approche utilisée dans notre analyseur morphologique:
Dans l'approche déjà utilisé par (yousfi, 2010), on a remarqué que pour la construction de la
base des schèmes de surface des verbes, il ajoute une étape de liaison de tous les suffixes et
les préfixes possibles avec les schèmes de surfaces des verbes conjugués, ceci rend la taille de
la base des données des schèmes assez grande.
Dans notre cas, on a supprimé cette étape et on a intégré dans le système une phase de
segmentation du mot en suffixe, et en préfixe avant de trouver le schème de surface de ce mot.
Exemple : le mot "" après l'extraction du préfixe "" et du suffixe "" on trouve "
", donc le schème de surface est "".
atelier international sur l’amazighe et les TIC
ème
5
5
On cherche les schèmes du mot dans l'ensemble des schèmes du surface ayant la même
longueur.
De même pour ce travail, nous avons pu formulé la fonction qui mesure la similarité entre le
mot à analyser et les schèmes de surface. Cette fonction a été formulée comme suite :
N
iwm ii
wmf 1];[
1);(
avec :
),,(1 lg'sin0),(];[
1
mwmsi orithmealdesortonetonwmfwm iii
ii
mschèmedu Caractère: ème
iim
et
mot w.du mot du Caractère: ème
iiw
La fonction
f
dégage un ensemble de solutions de schèmes de surface, qu’on note par S :
 
 
0,/P m L(w) wmfS
L(w)
P
: l'ensemble de tous des schèmes de surface de longueur L(
w
).
L(
w
) : la longueur du mot
w
.
Exemple :
f
('  ' ; '  ') = 6
f
('  ' ; '  ') = 6
f
('  ' ; ' 
') =
Ensuite, Pour chaque schème de surface
k
m
du mot
w
on cherche ces racines
r
k
R
. Pour
trouver les racines du mot à analyser
w
, on cherche dans un premier temps les positions des
caractères"", "", "" dans les schèmes de surface du mot
w
et on dégage les caractères
associés à ces positions dans le mot
w
. Ces caractères sont remplacés ensuite dans les
schèmes de surface de la racine dans leurs positions.
Par exemple, pour le mot  on trouve les schèmes de surface :
 avec le schème de surface  pour sa racine.
 avec le schème de surface  pour sa racine.
Après l'application de notre méthode on trouve les deux solutions suivantes :



Comme la racine
n'existe pas dans la langue arabe, on garde donc seulement la deuxième
solution
. (Voir tab 3).
Tab 3 : Exemple des résultats de l'analyse morphologique des mots.
suffixes
prefixes
Nature et
nombre
du
pronom
Type
nom
Schèmes
mots(w)
Schèmes
racines
Racines
mots
Mots(w)
Mots






































1 / 7 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !