Génération d’un analyseur syntaxique basé sur HPSG avec le LKB Sirine BOUKEDI, Noureddine LOUKIL & Kais HADDAR 1 Introduction (1/2) • TALN (Traitement Automatique des Langues Naturelles) Tester les hypothèses sur la communication humaine Traiter les informations naturelles • TALN couvre quatre niveaux de traitement : Niveau lexical Niveau syntaxique Niveau sémantique Niveau pragmatique 2 Introduction (2/2) • L’analyse syntaxique est une phase fondamentale Insuffisance des recherches pour la langue arabe Choix d’un formalisme adéquat Complexité de la phase d’analyse beaucoup d’efforts et de temps Vérification de plusieurs contraintes Simplification de la construction d’un analyseur (i.e., Outils de génération, Heuristiques) 3 Objectifs • Élaboration d’une grammaire HPSG pour la langue arabe : Identification d’une hiérarchie de types Spécification TDL (Type Description Language) de la grammaire conçue Expérimentation avec l’outil de génération LKB (Linguistic Knowledge Building) 4 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 5 État de l’art • Il existe deux principales approches : Génération d’un analyseur syntaxique Construction propre d’un analyseur syntaxique Extensibilité du code Génération difficile d’un analyseur syntaxique Problème Maintenance facile de maintenance de l’algorithme Choix Algorithmes expérimentés Coût Coût moins élevé (plus temps et d’efforts) cher de et efficacité garantie Ergonomie Résultats et testée efficacité non garantis (Bahou, 2005), (Maaloul, (Abdelkader, 2006) Entrées sorties bien2005), définis (Oscar, 2005), (Laurens, 2007) 6 …État de l’art Générateurs disponibles • Deux pour l’implémentation HPSG : similaires Deuxsystèmes systèmes différents mais dederésultats LKB : Linguistic Knowledge Building • En terme d’accessibilité : LKBde = TRALE simplifiée TRALE : extension ALE (Attribute Logic Engine) • Interface LKB plus ergonomique LKB 7 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 8 Identification d’une hiérarchie de types Signe • En se basant sur plusieurs théories grammaticales telles que celles proposées par (Abdelwahed, Mot Syntagme 2004) et (Dahdeh, 1992) Unités simples : desVerbal mots Nominal Unités composées : des syntagmes Particule Nom Non opérative opérative Non décliné Décliné Trilitère Prépositionnel Verbe Quadrilitère 9 …Identification d’une hiérarchie de types Pour les verbes • Différents critères de catégorisation • Catégorisation suivant le nombre de lettres Verbe Quadrilatère Trilitère Défectueux مثال أجوف Sain Sain سالم ناقص مضعف لفيف مهموز Défectueux مضعف واوي مضعف يائي 10 …Identification d’une hiérarchie de types Pour les noms • Différents critères de catégorisation • Catégorisation suivant la déclinaison Nom Décliné Non décliné Non Significatif اسم االشارة اسم الموصول Pronoms Non Variable Variable بارز مستتر 11 …Identification d’une hiérarchie de types Pour les particules • Différents critères de catégorisation • Opératives ( )عاملةou non opérative ()مهملة Particule Non opérative العطف النفي opérative Verbe Nom الجزم الجر النسخ االستثناء النصب 12 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 13 HPSG arabisée Aperçu sur HPSG • HPSG : Head-driven Entrées lexicales Phrase (SAV) Structure Grammar Règles lexicales • Une grammaire d’unification à base de contraintes • Deux composants de baseEntrées : lexicales Structures Attributs Valeurs Schémas de DI Schémas de Domination Immédiate (DI) élargies Entrées lexicales Arbres de dérivation Syntagmes 14 …HPSG arabisée Structure générale d’une SAV • Une SAV se compose d’un ensemble de traits • A chaque type de mot est associé un ensemble de traits PHON< > TETE CAT SS MAJ VAL S-ARG <> LOC CONT NONLOC 15 …HPSG arabisée Les schémas de DI • HPSG se base sur un nombre limité de schémas DI (i.e., règles de spécifications ) • Chaque schéma décrit un phénomène syntaxique bien déterminé • La composition des syntagmes se vérification des contraintes : Principes fait par 16 …HPSG arabisée Les principes PHON < le garçon > TETE 1à vérifier • Un ensemble contraintes SS de CAT LOC S-ARG < > Principe des traits de tête Principe de valence Principe PHON < le> de spécification PHON < garçon > SS LOC CAT TÊTE [] 2 SS LOC CAT TETE 1 | SUJ < 2 >] Les valeurs de traits deVAL tête[SPR d’un syntagme et celles du fils tête doivent être identiques 17 …HPSG arabisée Modifications apportées • HPSG a été conçue pour des langues latines • Adaptation de HPSG à la langue arabe : Au niveau des traits Au niveau des schémas 18 …HPSG arabisée Pour les verbes PHON < >يشرب MAJ VFORM RADICAL TYPE VOIX ASPECT RACINE DEC • VFORM : Sain / Défectueux TETE / Quadrilatère • RADICAL : Trilitère verbe Sain Trilitère Intact sain َActif Inaccompli ب.ر.ش élidé • TYPE : صحيح مهموزالفاء, صحيح مهموزالعين, صحيح مهموز الالم • VOIX : Passif /Actif SS LOC CAT SPR< 1 particule • ASPECT : Accompli / Inaccompli /Opérative-verbe, Impératif VAL > حرف جزم • RACINE : pour déterminer la racine ( )جذرdu verbe COMPS < 2 SN S – ARG < 1 , 2 > > masc 19 …HPSG arabisée PHON < >الولد Pour les noms TETE MAJ NFORM DEFINI NAT DEC nom décliné oui variable َrégulière SS CAT • NFORM : Décliné ()معرب/ Non Décliné()مبني SPR< nom • DEFINIVAL : oui / nonNon décliné مبني, 1 > non significatif مبهم • NAT : Variable, non Variable, pronom démonstratif, pronom caché, pronom apparent, PHON < >هذاpronom relatif nom MAJ VALENCE • TOPIC, ATTRIBUT : au niveau du trait CAT TETE SS NFORM DEFINI NAT DEC SPEC CONT RESTIND 1 non décliné nul p.demonstratifَ saturée 1 20 Décliné, masc, sing …HPSG arabisée Pour les particules • PFORM : opérative_nom, PHON < >لم non_opérative MAJ PFORM NATP DEC SPEC opérative_verbe, Particule Opèrative_verbe حرف جزم saturéeَ • NATP : حرف جر, نسخ حرف, حرف نصب, حرف عطف TETE SS LOC CAT 1 21 …HPSG arabisée Modifications apportées • Adaptation de HPSG à la langue arabe: Au niveau des traits Au niveau des schémas 22 Règle de spécification 1 PHON< > هذا الولد 1 SS LOC CAT TETE S-ARG <> PHON< > الولد SS LOC CAT TETE 1 VAL [SPR< 2 >] PHON< > هذا NFORM non déc SS LOC CAT TETE DEFINI non NAT p.dem 2 23 Règle de spécification 2 PHON< > الولد جميل 1 SS LOC CAT TETE VAL < > Fils – non tête Fils – tête PHON< > جميل PHON< > الولد NFORM décliné SS LOC CAT TETE DEFINI non SS LOC CAT TETE 1 VAL ATTRIBUT< 2 > 2 24 Règle de complémentation PHON< > ولد الجار 1 SS LOC CAT TETE VAL < > Fils – comps Fils – tête PHON< > الجار NFORM DEFINI SS LOC CAT TETE ADJ DEC PHON< > ولد décliné oui non réduite TETE 1 SS LOC CAT NFORM décliné DEFINI non ADJ non VAL [COMPS < 2 >] 2 25 Règle de modification PHON<> فتاة جميلة 1 SS LOC CAT TETE VAL < 2 > Fils – tête Fils – modifieur PHON< > جميلة SS LOC CAT PHON<> فتاة TETE [MOD 3 ] VAL < > 1 SS LOC CAT TETE 3 VAL < 2 > 26 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 27 Spécification TDL • TDL : Type Description Language OPÉRATEUR FONCTION := L’élément à gauche est une instance de celui de droite & Adjonction de constraintes . Fin d’une description de type. Aussi équivalent de [ ] , Séparation des couples attribut-valeur dans une SAV [] SAV <> Liste # [a-z] Ettiquette pour indiquer la coréference #| ... |# Commentaires de plusieurs lignes 28 …Spécification TDL Spécification d’une SAV hadha:=lex-nom-non-decline & PHON< > هذا [PHON <!«hadha»!>, MAJ nom DEFINI NAT non p.dem CAT TETE NFORM non déc SS LOC CONT IND NOMB GEN SS[LOC[ CAT[ TÊTE [MAJ nom, NFORM non dec, DEFINI non, NAT P.dem]], sing masc CONT[ IND[NOMB sing, GEN masc] ]]]. 29 …Spécification TDL Spécification d’un schéma regle_annexion := regle-bin-t-init & PHON< > ولد الجار [SS.LOC.CAT.TETE nom, BRS [BR-TETE[ SS [LOC[CAT[TETE nom1 & [NFORM decline_variable, SS LOC CAT TETE DEFINI non], VALVAL [SPR < > < >,COMPS <#nontete >] ]]]], BRS-NTETE < [SS #nontete & [LOC [CAT [TETE nom & [NFORM decline, DEFINI oui, PHON< > الجار PHON< > ولد ADJ non, NFORM décliné décliné DECNFORM reduite] 1 TETE DEFINI oui DEFINI non ]]]]>]]. SS LOC CAT TETE ADJ DEC non réduite SS LOC CAT ADJ non VAL [COMPS] < 2 > 2 30 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 31 Expérimentation avec LKB Aperçu sur LKB • LKB (Linguistic Knowledge Building) • Outil de génération • Deux types de fichiers Fichiers TDL (i.e., types.tdl, rsynt.tdl) Fichiers LISP (i.e., script.lsp) 32 …Expérimentation avec LKB Etapes d’analyses Étape 1 : Chargement de la grammaire conçue Étape 2 : Expérimentation de l’analyseur syntaxique généré 33 …Expérimentation avec LKB Analyse complète 34 …Expérimentation avec LKB in : :« «test.txt » Fichier out résultat.txt » 35 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 36 Évaluation • Corpus de 200 phrases découpées et translittérées lexique de 781 mots • Phrases simples verbales et nominales phrases nominales : SN + SN phrases nominales : SN + SV phrases verbales : SV + Sujet phrases verbales : SV + Sujet + Comps 37 …Évaluation • 85 % des phrases sont analysées correctement Nbre d’analyse (n) Nbre de phrases ayant n analyse(s) 0 25 1 170 2 5 200 38 …Évaluation • Cas d’échec : Absence de règles syntaxiques Le phénomène de coordination Le phénomène des relatives Le phénomène de l’ellipse Ambiguïté 39 Plan Introduction Objectif État de l’art Identification d’une hiérarchie de type HPSG arabisée Spécification TDL de la grammaire conçue Expérimentation avec LKB Évaluation Conclusion et perspectives 40 Conclusion et perspectives • Identification d’une hiérarchie de types pour l’arabe • Spécification plus précise des contraintes Élaboration d’unephénomènes grammaire HPSG arabisée • Couvrir d’autres syntaxiques de règles flexionnelles • Spécification TDL • Expérimentation sur le système LKB 41 Merci pour votre attention 42