HPSG arabisée

publicité
Génération d’un analyseur syntaxique
basé sur HPSG avec le LKB
Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR
1
Introduction (1/2)
• TALN (Traitement Automatique des Langues
Naturelles)
 Tester les hypothèses sur la communication humaine
 Traiter les informations naturelles
• TALN couvre quatre niveaux de traitement :
 Niveau lexical
 Niveau syntaxique
 Niveau sémantique
 Niveau pragmatique
2
Introduction (2/2)
• L’analyse syntaxique est une phase fondamentale
Insuffisance des recherches pour la langue arabe
Choix d’un formalisme adéquat
 Complexité de la phase d’analyse
 beaucoup d’efforts et de temps
 Vérification de plusieurs contraintes
Simplification de la construction d’un analyseur
(i.e., Outils de génération, Heuristiques)
3
Objectifs
• Élaboration d’une grammaire HPSG pour la
langue arabe :
 Identification d’une hiérarchie de types
 Spécification TDL (Type Description Language)
de la grammaire conçue
 Expérimentation avec l’outil de génération LKB
(Linguistic Knowledge Building)
4
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
5
État de l’art
• Il existe deux principales approches :
Génération d’un
analyseur
syntaxique
 Construction
propre
d’un analyseur
syntaxique
Extensibilité
du
code
Génération
difficile

d’un
analyseur
syntaxique
 Problème
Maintenance
facile

de maintenance

de l’algorithme
 Choix
Algorithmes
expérimentés
 Coût
Coût moins
élevé (plus
temps et d’efforts)

cher de
et efficacité
garantie
 Ergonomie
Résultats et testée
efficacité non garantis

(Bahou,
2005),
(Maaloul,
(Abdelkader, 2006)

Entrées
sorties
bien2005),
définis
(Oscar, 2005), (Laurens, 2007)
6
…État de l’art
Générateurs disponibles
• Deux
pour
l’implémentation
HPSG : similaires
Deuxsystèmes
systèmes
différents
mais dederésultats
 LKB : Linguistic Knowledge Building
• En terme d’accessibilité :
LKBde
= TRALE
simplifiée
 TRALE : extension
ALE (Attribute
Logic Engine)
• Interface LKB plus ergonomique
LKB
7
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
8
Identification d’une hiérarchie de types
Signe
• En se basant sur plusieurs
théories grammaticales
telles que celles proposées par (Abdelwahed,
Mot
Syntagme
2004) et (Dahdeh,
1992)
 Unités simples : desVerbal
mots
Nominal
 Unités composées : des syntagmes
Particule
Nom
Non opérative opérative Non décliné
Décliné
Trilitère
Prépositionnel
Verbe
Quadrilitère
9
…Identification d’une hiérarchie de types
Pour les verbes
• Différents critères de catégorisation
• Catégorisation suivant le nombre de lettres
Verbe
Quadrilatère
Trilitère
Défectueux
‫مثال‬
‫أجوف‬
Sain
Sain
‫سالم‬
‫ناقص‬
‫مضعف‬
‫لفيف‬
‫مهموز‬
Défectueux
‫مضعف واوي‬
‫مضعف يائي‬
10
…Identification d’une hiérarchie de types
Pour les noms
• Différents critères de catégorisation
• Catégorisation suivant la déclinaison
Nom
Décliné
Non décliné
Non Significatif
‫اسم االشارة‬
‫اسم الموصول‬
Pronoms
Non Variable
Variable
‫بارز‬
‫مستتر‬
11
…Identification d’une hiérarchie de types
Pour les particules
• Différents critères de catégorisation
• Opératives (‫ )عاملة‬ou non opérative (‫)مهملة‬
Particule
Non opérative
‫العطف‬
‫النفي‬
opérative
Verbe
Nom
‫الجزم‬
‫الجر‬
‫النسخ‬
‫االستثناء‬
‫النصب‬
12
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
13
HPSG arabisée
Aperçu sur HPSG
• HPSG : Head-driven
Entrées lexicales
Phrase (SAV)
Structure
Grammar
Règles lexicales
• Une grammaire
d’unification à base de contraintes
• Deux composants de baseEntrées
:
lexicales
 Structures Attributs Valeurs
Schémas de DI
 Schémas de Domination
Immédiate (DI)
élargies
Entrées lexicales
Arbres de dérivation
Syntagmes
14
…HPSG arabisée
Structure générale d’une SAV
• Une SAV se compose d’un ensemble de traits
• A chaque type de mot est associé un ensemble de traits
PHON< >
TETE
CAT
SS
MAJ
VAL
S-ARG <>
LOC
CONT
NONLOC
15
…HPSG arabisée
Les schémas de DI
• HPSG se base sur un nombre limité de schémas
DI (i.e., règles de spécifications )
• Chaque schéma décrit un phénomène syntaxique bien
déterminé
• La composition des syntagmes se
vérification des contraintes : Principes
fait
par
16
…HPSG arabisée
Les principes
PHON < le garçon >
TETE 1à vérifier
• Un ensemble
contraintes
SS de
CAT
LOC
S-ARG < >
 Principe des traits de tête
 Principe de valence
 Principe
PHON
< le>
de spécification
PHON < garçon >
SS LOC CAT TÊTE []
2
SS LOC CAT TETE 1
| SUJ < 2 >]
Les valeurs de traits deVAL
tête[SPR
d’un
syntagme
et celles du fils tête doivent être identiques
17
…HPSG arabisée
Modifications apportées
• HPSG a été conçue pour des langues latines
• Adaptation de HPSG à la langue arabe :
 Au niveau des traits
 Au niveau des schémas
18
…HPSG arabisée
Pour les verbes
PHON < ‫>يشرب‬
MAJ
VFORM
RADICAL
TYPE
VOIX
ASPECT
RACINE
DEC
• VFORM : Sain / Défectueux
TETE / Quadrilatère
• RADICAL : Trilitère
verbe
Sain
Trilitère
Intact sain
َActif
Inaccompli
‫ب‬.‫ر‬.‫ش‬
élidé
• TYPE : ‫صحيح مهموزالفاء‬, ‫صحيح مهموزالعين‬, ‫صحيح مهموز الالم‬
• VOIX : Passif /Actif
SS
LOC CAT
SPR< 1 particule
• ASPECT : Accompli / Inaccompli /Opérative-verbe,
Impératif
VAL
>
‫حرف جزم‬
• RACINE : pour déterminer la racine (‫ )جذر‬du verbe
COMPS < 2 SN
S – ARG <
1
,
2
>
>
masc
19
…HPSG arabisée
PHON < ‫>الولد‬
Pour les noms
TETE
MAJ
NFORM
DEFINI
NAT
DEC
nom
décliné
oui
variable
َrégulière
SS CAT
• NFORM
: Décliné (‫)معرب‬/
Non Décliné(‫)مبني‬
SPR< nom
• DEFINIVAL
: oui
/ nonNon décliné ‫مبني‬,
1
>
non significatif ‫مبهم‬
• NAT : Variable, non Variable, pronom démonstratif,
pronom caché, pronom apparent,
PHON < ‫>هذا‬pronom relatif
nom
MAJ VALENCE
• TOPIC, ATTRIBUT : au niveau du trait
CAT TETE
SS
NFORM
DEFINI
NAT
DEC
SPEC
CONT RESTIND 1
non décliné
nul
p.demonstratifَ
saturée
1
20
Décliné, masc, sing
…HPSG arabisée
Pour les particules
• PFORM
:
opérative_nom,
PHON < ‫>لم‬
non_opérative
MAJ
PFORM
NATP
DEC
SPEC
opérative_verbe,
Particule
Opèrative_verbe
‫حرف جزم‬
saturéeَ
• NATP : ‫حرف جر‬, ‫نسخ‬
‫حرف‬, ‫حرف نصب‬, ‫حرف عطف‬
TETE
SS LOC CAT
1
21
…HPSG arabisée
Modifications apportées
• Adaptation de HPSG à la langue arabe:
 Au niveau des traits
 Au niveau des schémas
22
Règle de spécification 1
PHON< ‫> هذا الولد‬
1
SS LOC CAT TETE
S-ARG <>
PHON< ‫> الولد‬
SS LOC CAT TETE 1
VAL [SPR< 2 >]
PHON< ‫> هذا‬
NFORM non déc
SS LOC CAT TETE
DEFINI non
NAT
p.dem
2
23
Règle de spécification 2
PHON< ‫> الولد جميل‬
1
SS LOC CAT TETE
VAL <
>
Fils – non tête
Fils – tête
PHON< ‫> جميل‬
PHON< ‫> الولد‬
NFORM décliné
SS LOC CAT TETE
DEFINI non
SS LOC CAT TETE 1
VAL ATTRIBUT< 2 >
2
24
Règle de complémentation
PHON< ‫> ولد الجار‬
1
SS LOC CAT TETE
VAL < >
Fils – comps
Fils – tête
PHON< ‫> الجار‬
NFORM
DEFINI
SS LOC CAT TETE ADJ
DEC
PHON< ‫> ولد‬
décliné
oui
non
réduite
TETE 1
SS LOC CAT
NFORM décliné
DEFINI non
ADJ
non
VAL [COMPS < 2 >]
2
25
Règle de modification
PHON<‫> فتاة جميلة‬
1
SS LOC CAT TETE
VAL < 2 >
Fils – tête
Fils – modifieur
PHON< ‫> جميلة‬
SS LOC CAT
PHON<‫> فتاة‬
TETE [MOD 3 ]
VAL <
>
1
SS LOC CAT TETE
3
VAL < 2 >
26
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
27
Spécification TDL
• TDL : Type Description Language
OPÉRATEUR
FONCTION
:=
L’élément à gauche est une instance de celui de droite
&
Adjonction de constraintes
.
Fin d’une description de type. Aussi équivalent de [ ]
,
Séparation des couples attribut-valeur dans une SAV
[]
SAV
<>
Liste
# [a-z]
Ettiquette pour indiquer la coréference
#| ... |#
Commentaires de plusieurs lignes
28
…Spécification TDL
Spécification d’une SAV
hadha:=lex-nom-non-decline &
PHON< ‫> هذا‬
[PHON <!«hadha»!>,
MAJ
nom
DEFINI
NAT
non
p.dem
CAT TETE NFORM non déc
SS LOC
CONT IND NOMB
GEN
SS[LOC[
CAT[
TÊTE
[MAJ nom,
NFORM non dec,
DEFINI non,
NAT P.dem]],
sing
masc
CONT[
IND[NOMB sing,
GEN masc]
]]].
29
…Spécification TDL
Spécification d’un schéma
regle_annexion := regle-bin-t-init &
PHON< ‫> ولد الجار‬
[SS.LOC.CAT.TETE nom,
BRS [BR-TETE[
SS [LOC[CAT[TETE nom1 & [NFORM decline_variable,
SS LOC CAT TETE
DEFINI non],
VALVAL
[SPR
< > < >,COMPS <#nontete >]
]]]],
BRS-NTETE < [SS #nontete &
[LOC [CAT [TETE nom & [NFORM decline,
DEFINI oui,
PHON< ‫> الجار‬
PHON< ‫> ولد‬
ADJ
non,
NFORM décliné
décliné
DECNFORM
reduite]
1
TETE
DEFINI oui
DEFINI non
]]]]>]].
SS LOC CAT TETE ADJ
DEC
non
réduite
SS LOC CAT
ADJ
non
VAL [COMPS] < 2 >
2
30
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
31
Expérimentation avec LKB
Aperçu sur LKB
• LKB (Linguistic Knowledge Building)
• Outil de génération
• Deux types de fichiers
 Fichiers TDL (i.e., types.tdl, rsynt.tdl)
 Fichiers LISP (i.e., script.lsp)
32
…Expérimentation avec LKB
Etapes
d’analyses
Étape
1 : Chargement de la grammaire conçue
Étape 2 : Expérimentation de l’analyseur syntaxique généré
33
…Expérimentation avec LKB
Analyse complète
34
…Expérimentation avec LKB
in : :« «test.txt
»
 Fichier out
résultat.txt
»
35
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
36
Évaluation
• Corpus de 200 phrases découpées et translittérées
 lexique de 781 mots
• Phrases simples verbales et nominales
 phrases nominales : SN + SN
 phrases nominales : SN + SV
 phrases verbales : SV + Sujet
 phrases verbales : SV + Sujet + Comps
37
…Évaluation
• 85 % des phrases sont analysées correctement
Nbre d’analyse (n)
Nbre de phrases
ayant n
analyse(s)
0
25
1
170
2
5
200
38
…Évaluation
• Cas d’échec :
 Absence de règles syntaxiques
 Le phénomène de coordination
 Le phénomène des relatives
 Le phénomène de l’ellipse
 Ambiguïté
39
Plan
 Introduction
 Objectif
 État de l’art
 Identification d’une hiérarchie de type
 HPSG arabisée
 Spécification TDL de la grammaire conçue
 Expérimentation avec LKB
 Évaluation
 Conclusion et perspectives
40
Conclusion et perspectives
• Identification d’une hiérarchie de types pour l’arabe
• Spécification plus précise des contraintes
Élaboration
d’unephénomènes
grammaire HPSG
arabisée
• Couvrir
d’autres
syntaxiques
de règles flexionnelles
• Spécification TDL
• Expérimentation sur le système LKB
41
Merci pour votre attention
42
Téléchargement