Apprentissage efficace de lexiques ssémantiques

publicité
Apprentissage efficace de lexiques
sémantiques
Travail réalisé en collaboration avec
- Pierrette Bouillon - TIM/ISSCO, Genève
- Cécile Fabre - ERSS, Toulouse
Recherche d’information
• Extensions d’index
• morphologiques (singulier - pluriel)
• syntaxiques (insertions…)
• sémantiques intra-catégorielles (synonymes…)
• sémantiques inter-catégorielles
• jaugeur de carburant - mesurer du carburant
• Précision de requêtes : cours - cours fluctuer / enseigner
• Quel cadre pour ces liens nom-verbe (N-V) ?
Le lexique génératif (Pustejovsky 95)
• Structure des qualia : mots décrits à l'aide de rôles sémantiques
(essentiellement des associations verbales)
• télique : fonction typique (ou subie) d'un objet (couper - couteau)
• agentif : mode de création d'un objet (construire - maison)
• formel : classe sémantique d'un objet (contenir (de l'information)
- livre)
• constitutif : parties constitutives d'un objet (anse - tasse)
Objectifs
• Construire des lexiques génératifs à partir de corpus
• Apprendre des règles pour ce faire
• qu’est-ce qui, dans leurs contextes d’apparition
dans les textes, différencie les paires N-V qualia des
autres ?
• Développer une méthode d’apprentissage fiable,
rapide, portable, peu coûteuse
Plan
• Corpus et prétraitements
• Apprentissage et validations théorique et empirique
(apprentissage efficace et programmation logique inductive)
• Validité linguistique des règles apprises
• Conclusions - perspectives
Corpus et prétraitements
• Manuel de maintenance d’hélicoptères - MATRA CCR Aérospatiale
• Plus de 104 000 occurrences de mots
• Sous-corpus : 81314 occurrences - 1489 N différents (29633 occ.) 567 V différents (9522 occ.)
• Étiquetage catégoriel (outils Multext - Issco)
• Segmenté, analysé and lemmatisé
• Désambiguïser par Tatoo (HMM) : moins de 2% d’erreurs
Étiquetage sémantique
• Faire un lexique pour chaque catégorie
• Noms - 33 classes à partir de WordNet (activité, instrument...)
• Verbes - 7 classes (action physique, temporalité...)
• Prépositions - 11 classes (but, manière...)
• Adjectifs - 4 classes (comparaison, propriété physique...)
• Pronoms, déterminants...
Étiquetage sémantique
Projection des étiquettes sur le corpus et
désambiguïsation
Entrée du lexique :
attache | NOUN-SG || pro/ins
critique | NOUN-SG || psy
critique | ADJ-SG || apa
les
attaches
sur
le
capot
⇒ Limite la polysémie contrastive
le#det-pl\ddef
attache#nom-pl\pro | attache#nom-pl\ins
sur#prep\rspat | sur#prep\rrel
le#det-sg\ddef
capot#nom-sg\art
Projection des étiquettes sur le corpus et
désambiguïsation
Entrée du lexique :
attache | NOUN-SG || pro/ins
critique | NOUN-SG || psy
critique | ADJ-SG || apa
les
attaches
sur
le
capot
le#det-pl\ddef
attache#nom-pl\ins
sur#prep\rspat
le#det-sg\ddef
capot#nom-sg\art
⇒ Limite la polysémie contrastive
Résultats de la désambiguïsation
• 7.8% de mots ambigus dans un extrait de 5850 mots
•1.18% d’erreurs d’étiquetage restant soit 85% de
désambiguïsation correcte
• Une grande part des erreurs restantes est due aux prépositions
très ambigües comme de
Apprentissage efficace et
Programmation Logique Inductive
Vincent Claveau
Tahiti 2001
Plan de l’exposé
Introduction à la PLI
I - Apprendre des couples qualia
II - Treillis d'hypothèses et généralité
III - Opérateur de raffinement
IV - Élagage et propriétés privées
Résultats
Introduction à la Programmation logique Inductive (PLI)
L’apprentissage automatique
Définition et principe :
Un programme informatique apprend la tâche T à
partir de l'expérience E et de la mesure de
performance P, si sa capacité à exécuter la tâche T,
mesurée par P augmente avec E.
T. Mitchell - Machine Learning - 1997
Introduction à la PLI
L’induction
(a) Tous les hommes sont mortels
(b) Socrate est un homme
(c) Socrate est mortel
mortel(X) :- homme(X).
homme(socrate).
mortel(socrate).
Si on a (a) et (b), on trouve (c) par déduction
Si on a (a) et (c), on trouve (b) par abduction
Si on a (b) et (c), on trouve (a) par induction
Introduction à la PLI
Cadre de la PLI
B : connaissances préalables (Background knowledge)
E+ : exemples positifs
E- : exemples négatifs
h : l’hypothèse recherchée
B∧Ε- |≠ faux
satisfiabilité antérieure
B∧h∧E- |≠ faux
satisfiabilité postérieure
B |≠ Ε+
nécessité antérieure
B∧h |= E+
suffisance postérieure
Introduction à la PLI
Aleph/Progol [Muggleton 95]
Exemple :
Background knowledge
oiseau( canard ).
oiseau( pie ).
oiseau( canari ).
mammifère( chien ).
mammifère( chat ).
mammifère( chauve-souris ).
:- mammifère( X ), oiseau( X ).
Exemples positifs
vole( canard ).
vole( pie ).
vole( canari ).
vole( chauve-souris ).
Exemples négatifs
vole( chien ).
vole( chat ).
Résultat
vole( chauve-souris ).
vole( A ) :- oiseau( A ).
Introduction à la PLI
Aleph/Progol (2)
Exemple :
Background knowledge
oiseau( canard ).
oiseau( pie ).
oiseau( canari ).
mammifère( chien ).
mammifère( chat ).
mammifère( chauve-souris ).
:- mammifère( X ), oiseau( X ).
oiseau( pingouin ).
Exemples positifs
vole( canard ).
vole( pie ).
vole( canari ).
vole( chauve-souris ).
Exemples négatifs
:- vole( chien ).
:- vole( chat ).
:- vole( pingouin ).
Introduction à la PLI
Aleph/Progol (3)
Exemple :
Résultat
vole( chauve-souris ).
vole( canard ).
vole( pie ).
vole( canari ).
⇒ overfitting :
apprentissage par cœur
Résultat avec bruit
vole( chauve-souris ).
vole( A ) :- oiseau( A ).
I - Apprendre des couples qualia
Apprendre ce qui distingue un couple N-V qualia
d'un non-qualia dans une phrase
Informations disponibles :
• constituants
info catégorielle
info sémantique
• contexte
info catégorielle
info sémantique
• distances et position dans la phrase (nombre de mots,
de verbes entre N et V, ordre d’apparition dans la phrase)
I - Apprendre des couples qualia
Codage des exemples
« L’installation se compose de deux attérisseurs protégés par des
carénages, fixés et articulés… »
Background knowledge
pred( n609, m609_8 ).
Exemples positifs
tags( m609_8, tc_prep, ts_rman ).
...
suc( n609, m609_8 ).
is_qualia( n609, v609 ).
tags( m609_10, tc_wpunct, ts_virg ).
pred( v609, m609_6 ).
tags( m609_6, tc_noun_pl, ts_art ).
suc( v609, m609_8 ).
tags( n609, tc_noun_pl, ts_art ).
tags( v609, tc_verb_adj, ts_acp ).
distances( n609, v609, 2, 1 ).
...
I - Apprendre des couples qualia
Langage d’hypothèse
biais syntaxique pour obtenir des solutions
« bien formée » p.r. au problème à résoudre
• 1 variable ≡ 1 mot
• au maximum une info sem et une info cat sur
chaque mot
is_qualia(A,B) :- pred(A,C), object(C), artefact(C).
is_qualia(A,B) :- pred(A,C), object(C), noun_sg(C).
is_qualia(A,B) :- pred(A,C), suc(B,C).
II - Treillis d’hypothèses et généralité
• nombre énorme d ’hypothèses « bien formées »
expliquant un exemple
• tester chaque hypothèse coûte cher
• organiser l’espace de recherche des
hypothèses pour faciliter son parcours
• classer les hypothèses suivant leur généralité :
– la plus générale : top = is_qualia(A,B).
– la plus spécifique : bottom (⊥) = tous les
littéraux sur l’e+ choisi (saturation)
II - Treillis d’hypothèses et généralité
Quelle notion de généralité ?
• θ-subsumption : C 1 ≥ C2 ssi ∃θ tq C1θ ⊆ C2
ex : C1 ≡ is_qualia(A,B) :- suc(B,C), object(C), object(A).
C2 ≡ is_qualia(X,Y) :- suc(Y,X), object(X), pred(X,Z),
object(Z).
θ = {A/X, B/Y, C/X}
1) θ-subsumption sous identité objet : C1 ≥ C2 ssi
∃θ n’unifiant pas de variables de C1 tq C1θ ⊆ C2
relation
choisie
≥NV
2) subsumption généralisée : prendre en compte la
théorie du domaine
ex : C1 ≡ is_qualia(A,B) :- object(A).
C2 ≡ is_qualia(A,B) :- instrument(A).
⇒ C1 ≥ C2
II - Treillis d’hypothèses et généralité
Quelle notion de généralité ?
Relation de quasi-ordre (réflexivité + transitivité)
⇒ treillis de clauses :
III - Opérateur de raffinement
parcourt le treillis à la recherche de l’hypothèse
maximisant une certaine fonction de score
• parcours efficace (arriver le plus vite à la
meilleure hypothèse) car le calcul du score est
coûteux
• parcours « sûr » (on n’oublie pas d’hypothèses)
• principalement deux techniques :
– top-down = du plus général au plus spécifique
– bottom-up = du plus spécifique au plus général
III - Opérateur de raffinement
Propriétés des opérateurs
ρ est un opérateur descendant ssi ρ(C) ⊆ { D | C ≥NV D }
• ρ est fini ssi ∀C ρ(C) est fini et calculable
• ρ est faiblement complet ssi ρ∗(top) = toutes les
hypothèses du treillis
• ρ est non-redondant ssi ∀C1,C2,D tq D ∈ ρ∗(C1) ∩ ρ∗(C2)
⇒ C1 ∈ ρ∗(C2) ou C 2 ∈ ρ∗(C1)
• ρ est optimal ssi ρ est fini, non-redondant et faiblement
complet
l’optimalité assure l’efficacité et la sûreté de la recherche
IV - Élagage et propriétés privées
Élagage « sûr » : pas de perte de solutions
ppté non-privée
ppté privée
ppté privée
IV - Elagage et propriété privée
Définition [Torre & Rouveirol 97]
Une propriété P est privée par rapport a une relation ρ
dans un espace d’hypothèses S ssi :
∀Η,Η’ ∈ S : ∀( H’ ∈ ρ ∗(Η) ∧ P(H) ⇒ P(H’) )
Exemple : borner la longueur d’une hypothèse |H| ≤ k
∀Η,Η’ ∈ S : ∀k ∈ ΙΝ : ( H’ ∈ ρ ∗(Η) ∧ |H|>k ⇒ |H’|>k )
e.g. ρ ~ opérateur top-down : spécialisation par ajout
de littéraux
IV - Elagage et propriété privée
Élagage par rapport au score
• Fonction de score : s( H) = ( P-N, L )
P = nb d’E+ couverts
N = nb d ’E- couverts
L = |H|
• s(H1) > s(H2) ssi P1-N1 > P2-N2 ou P1-N1 = P2-N2 et L1 < L2
• on voudrait couper dès que Scourant < Sbest mais
Scourant ≤ Sbest n’est pas privée car P-N pas monotone
• Pcourant - N⊥ < Sbest car P-N⊥ est monotone
Résultats
évaluation théorique
• efficacité : généralise les 4000 e+ en moins de 5h sur un
SUN ultra 60
• expressivité : Pearson (combine rappel et précision) sur
les données d’apprentissage : 0,78
évaluation empirique
• application des clauses apprises sur le corpus et
comparaison des résultats (couples trouvés) avec un
expert :
ILP
chi-2
corrects
52
38
incorrects
30
124
non trouvés
14
21
0,606
0,120
Pearson
Validité linguistique des règles apprises
Dans l’ensemble des clauses généralisées
• des clauses non pertinentes car manquant une information
linguistique ou ajoutant des éléments marginaux
is_qualia(A,B) :- pred(A,C), pred(B,D), suc(A,D), preposition(C),
preposition_a(D), nom_commun_pluriel(A).
N à Vinf - Généralités des écrous à river
• des clauses linguistiquement pertinentes
is_qualia(A,B) :- suc(B,C), pred(B,D), preposition(C), auxiliaire(D).
structure passive - l'énergie d' impact est absorbée par l'amortisseur
Qu’apprend-on ?
• des informations linguistiques génériques
• proximité (N et V séparés par au plus un élément)
• schémas morpho-syntaxiques parfois enrichis
d’informations sémantiques
•forme passive
• structures incluant des verbes de modalité (devoir,
pouvoir) - Le tableau doit être éclairé
• structures incluant des prépositions de manière, but,
instrument - Fixer avec leurs vis…
• des structures « en+ participe présent » - (valider) en
appuyant sur le poussoir
Qu’apprend-on ?
• des schémas spécifiques au corpus
• marque de ponctuation
• V en première position : visser les écrous
• V infinitif
• paires N-V dans des subordonnées (ordre)
Vérifier que le feu anti-collision clignote
Comparaison avec une évaluation manuelle
• Fort recouvrement des schémas
• Vinf det N
• N être participe_passé , etc.
• Ce que manque l’apprentissage
• la variation lexicale d’un schéma donné
• variantes de pour (dans le but de, avec l’objectif de)
• les paires N-N (bouchon de protection)
• Ce qu’il permet de découvrir
• des indices négligés habituellement (marques de
ponctuation, éléments au-delà de la proposition, position)
• des schémas spécificiques au corpus
Conclusions et perspectives
• Résultats globalement bons d’apprentissage de paires N-V
qualia
• Coût : l’étiquetage sémantique, la construction des
exemples
• Apprentissage des paires N-N qualia
• Exploitation en recherche d’information
Téléchargement