Apprentissage efficace de lexiques sémantiques Travail réalisé en collaboration avec - Pierrette Bouillon - TIM/ISSCO, Genève - Cécile Fabre - ERSS, Toulouse Recherche d’information • Extensions d’index • morphologiques (singulier - pluriel) • syntaxiques (insertions…) • sémantiques intra-catégorielles (synonymes…) • sémantiques inter-catégorielles • jaugeur de carburant - mesurer du carburant • Précision de requêtes : cours - cours fluctuer / enseigner • Quel cadre pour ces liens nom-verbe (N-V) ? Le lexique génératif (Pustejovsky 95) • Structure des qualia : mots décrits à l'aide de rôles sémantiques (essentiellement des associations verbales) • télique : fonction typique (ou subie) d'un objet (couper - couteau) • agentif : mode de création d'un objet (construire - maison) • formel : classe sémantique d'un objet (contenir (de l'information) - livre) • constitutif : parties constitutives d'un objet (anse - tasse) Objectifs • Construire des lexiques génératifs à partir de corpus • Apprendre des règles pour ce faire • qu’est-ce qui, dans leurs contextes d’apparition dans les textes, différencie les paires N-V qualia des autres ? • Développer une méthode d’apprentissage fiable, rapide, portable, peu coûteuse Plan • Corpus et prétraitements • Apprentissage et validations théorique et empirique (apprentissage efficace et programmation logique inductive) • Validité linguistique des règles apprises • Conclusions - perspectives Corpus et prétraitements • Manuel de maintenance d’hélicoptères - MATRA CCR Aérospatiale • Plus de 104 000 occurrences de mots • Sous-corpus : 81314 occurrences - 1489 N différents (29633 occ.) 567 V différents (9522 occ.) • Étiquetage catégoriel (outils Multext - Issco) • Segmenté, analysé and lemmatisé • Désambiguïser par Tatoo (HMM) : moins de 2% d’erreurs Étiquetage sémantique • Faire un lexique pour chaque catégorie • Noms - 33 classes à partir de WordNet (activité, instrument...) • Verbes - 7 classes (action physique, temporalité...) • Prépositions - 11 classes (but, manière...) • Adjectifs - 4 classes (comparaison, propriété physique...) • Pronoms, déterminants... Étiquetage sémantique Projection des étiquettes sur le corpus et désambiguïsation Entrée du lexique : attache | NOUN-SG || pro/ins critique | NOUN-SG || psy critique | ADJ-SG || apa les attaches sur le capot ⇒ Limite la polysémie contrastive le#det-pl\ddef attache#nom-pl\pro | attache#nom-pl\ins sur#prep\rspat | sur#prep\rrel le#det-sg\ddef capot#nom-sg\art Projection des étiquettes sur le corpus et désambiguïsation Entrée du lexique : attache | NOUN-SG || pro/ins critique | NOUN-SG || psy critique | ADJ-SG || apa les attaches sur le capot le#det-pl\ddef attache#nom-pl\ins sur#prep\rspat le#det-sg\ddef capot#nom-sg\art ⇒ Limite la polysémie contrastive Résultats de la désambiguïsation • 7.8% de mots ambigus dans un extrait de 5850 mots •1.18% d’erreurs d’étiquetage restant soit 85% de désambiguïsation correcte • Une grande part des erreurs restantes est due aux prépositions très ambigües comme de Apprentissage efficace et Programmation Logique Inductive Vincent Claveau Tahiti 2001 Plan de l’exposé Introduction à la PLI I - Apprendre des couples qualia II - Treillis d'hypothèses et généralité III - Opérateur de raffinement IV - Élagage et propriétés privées Résultats Introduction à la Programmation logique Inductive (PLI) L’apprentissage automatique Définition et principe : Un programme informatique apprend la tâche T à partir de l'expérience E et de la mesure de performance P, si sa capacité à exécuter la tâche T, mesurée par P augmente avec E. T. Mitchell - Machine Learning - 1997 Introduction à la PLI L’induction (a) Tous les hommes sont mortels (b) Socrate est un homme (c) Socrate est mortel mortel(X) :- homme(X). homme(socrate). mortel(socrate). Si on a (a) et (b), on trouve (c) par déduction Si on a (a) et (c), on trouve (b) par abduction Si on a (b) et (c), on trouve (a) par induction Introduction à la PLI Cadre de la PLI B : connaissances préalables (Background knowledge) E+ : exemples positifs E- : exemples négatifs h : l’hypothèse recherchée B∧Ε- |≠ faux satisfiabilité antérieure B∧h∧E- |≠ faux satisfiabilité postérieure B |≠ Ε+ nécessité antérieure B∧h |= E+ suffisance postérieure Introduction à la PLI Aleph/Progol [Muggleton 95] Exemple : Background knowledge oiseau( canard ). oiseau( pie ). oiseau( canari ). mammifère( chien ). mammifère( chat ). mammifère( chauve-souris ). :- mammifère( X ), oiseau( X ). Exemples positifs vole( canard ). vole( pie ). vole( canari ). vole( chauve-souris ). Exemples négatifs vole( chien ). vole( chat ). Résultat vole( chauve-souris ). vole( A ) :- oiseau( A ). Introduction à la PLI Aleph/Progol (2) Exemple : Background knowledge oiseau( canard ). oiseau( pie ). oiseau( canari ). mammifère( chien ). mammifère( chat ). mammifère( chauve-souris ). :- mammifère( X ), oiseau( X ). oiseau( pingouin ). Exemples positifs vole( canard ). vole( pie ). vole( canari ). vole( chauve-souris ). Exemples négatifs :- vole( chien ). :- vole( chat ). :- vole( pingouin ). Introduction à la PLI Aleph/Progol (3) Exemple : Résultat vole( chauve-souris ). vole( canard ). vole( pie ). vole( canari ). ⇒ overfitting : apprentissage par cœur Résultat avec bruit vole( chauve-souris ). vole( A ) :- oiseau( A ). I - Apprendre des couples qualia Apprendre ce qui distingue un couple N-V qualia d'un non-qualia dans une phrase Informations disponibles : • constituants info catégorielle info sémantique • contexte info catégorielle info sémantique • distances et position dans la phrase (nombre de mots, de verbes entre N et V, ordre d’apparition dans la phrase) I - Apprendre des couples qualia Codage des exemples « L’installation se compose de deux attérisseurs protégés par des carénages, fixés et articulés… » Background knowledge pred( n609, m609_8 ). Exemples positifs tags( m609_8, tc_prep, ts_rman ). ... suc( n609, m609_8 ). is_qualia( n609, v609 ). tags( m609_10, tc_wpunct, ts_virg ). pred( v609, m609_6 ). tags( m609_6, tc_noun_pl, ts_art ). suc( v609, m609_8 ). tags( n609, tc_noun_pl, ts_art ). tags( v609, tc_verb_adj, ts_acp ). distances( n609, v609, 2, 1 ). ... I - Apprendre des couples qualia Langage d’hypothèse biais syntaxique pour obtenir des solutions « bien formée » p.r. au problème à résoudre • 1 variable ≡ 1 mot • au maximum une info sem et une info cat sur chaque mot is_qualia(A,B) :- pred(A,C), object(C), artefact(C). is_qualia(A,B) :- pred(A,C), object(C), noun_sg(C). is_qualia(A,B) :- pred(A,C), suc(B,C). II - Treillis d’hypothèses et généralité • nombre énorme d ’hypothèses « bien formées » expliquant un exemple • tester chaque hypothèse coûte cher • organiser l’espace de recherche des hypothèses pour faciliter son parcours • classer les hypothèses suivant leur généralité : – la plus générale : top = is_qualia(A,B). – la plus spécifique : bottom (⊥) = tous les littéraux sur l’e+ choisi (saturation) II - Treillis d’hypothèses et généralité Quelle notion de généralité ? • θ-subsumption : C 1 ≥ C2 ssi ∃θ tq C1θ ⊆ C2 ex : C1 ≡ is_qualia(A,B) :- suc(B,C), object(C), object(A). C2 ≡ is_qualia(X,Y) :- suc(Y,X), object(X), pred(X,Z), object(Z). θ = {A/X, B/Y, C/X} 1) θ-subsumption sous identité objet : C1 ≥ C2 ssi ∃θ n’unifiant pas de variables de C1 tq C1θ ⊆ C2 relation choisie ≥NV 2) subsumption généralisée : prendre en compte la théorie du domaine ex : C1 ≡ is_qualia(A,B) :- object(A). C2 ≡ is_qualia(A,B) :- instrument(A). ⇒ C1 ≥ C2 II - Treillis d’hypothèses et généralité Quelle notion de généralité ? Relation de quasi-ordre (réflexivité + transitivité) ⇒ treillis de clauses : III - Opérateur de raffinement parcourt le treillis à la recherche de l’hypothèse maximisant une certaine fonction de score • parcours efficace (arriver le plus vite à la meilleure hypothèse) car le calcul du score est coûteux • parcours « sûr » (on n’oublie pas d’hypothèses) • principalement deux techniques : – top-down = du plus général au plus spécifique – bottom-up = du plus spécifique au plus général III - Opérateur de raffinement Propriétés des opérateurs ρ est un opérateur descendant ssi ρ(C) ⊆ { D | C ≥NV D } • ρ est fini ssi ∀C ρ(C) est fini et calculable • ρ est faiblement complet ssi ρ∗(top) = toutes les hypothèses du treillis • ρ est non-redondant ssi ∀C1,C2,D tq D ∈ ρ∗(C1) ∩ ρ∗(C2) ⇒ C1 ∈ ρ∗(C2) ou C 2 ∈ ρ∗(C1) • ρ est optimal ssi ρ est fini, non-redondant et faiblement complet l’optimalité assure l’efficacité et la sûreté de la recherche IV - Élagage et propriétés privées Élagage « sûr » : pas de perte de solutions ppté non-privée ppté privée ppté privée IV - Elagage et propriété privée Définition [Torre & Rouveirol 97] Une propriété P est privée par rapport a une relation ρ dans un espace d’hypothèses S ssi : ∀Η,Η’ ∈ S : ∀( H’ ∈ ρ ∗(Η) ∧ P(H) ⇒ P(H’) ) Exemple : borner la longueur d’une hypothèse |H| ≤ k ∀Η,Η’ ∈ S : ∀k ∈ ΙΝ : ( H’ ∈ ρ ∗(Η) ∧ |H|>k ⇒ |H’|>k ) e.g. ρ ~ opérateur top-down : spécialisation par ajout de littéraux IV - Elagage et propriété privée Élagage par rapport au score • Fonction de score : s( H) = ( P-N, L ) P = nb d’E+ couverts N = nb d ’E- couverts L = |H| • s(H1) > s(H2) ssi P1-N1 > P2-N2 ou P1-N1 = P2-N2 et L1 < L2 • on voudrait couper dès que Scourant < Sbest mais Scourant ≤ Sbest n’est pas privée car P-N pas monotone • Pcourant - N⊥ < Sbest car P-N⊥ est monotone Résultats évaluation théorique • efficacité : généralise les 4000 e+ en moins de 5h sur un SUN ultra 60 • expressivité : Pearson (combine rappel et précision) sur les données d’apprentissage : 0,78 évaluation empirique • application des clauses apprises sur le corpus et comparaison des résultats (couples trouvés) avec un expert : ILP chi-2 corrects 52 38 incorrects 30 124 non trouvés 14 21 0,606 0,120 Pearson Validité linguistique des règles apprises Dans l’ensemble des clauses généralisées • des clauses non pertinentes car manquant une information linguistique ou ajoutant des éléments marginaux is_qualia(A,B) :- pred(A,C), pred(B,D), suc(A,D), preposition(C), preposition_a(D), nom_commun_pluriel(A). N à Vinf - Généralités des écrous à river • des clauses linguistiquement pertinentes is_qualia(A,B) :- suc(B,C), pred(B,D), preposition(C), auxiliaire(D). structure passive - l'énergie d' impact est absorbée par l'amortisseur Qu’apprend-on ? • des informations linguistiques génériques • proximité (N et V séparés par au plus un élément) • schémas morpho-syntaxiques parfois enrichis d’informations sémantiques •forme passive • structures incluant des verbes de modalité (devoir, pouvoir) - Le tableau doit être éclairé • structures incluant des prépositions de manière, but, instrument - Fixer avec leurs vis… • des structures « en+ participe présent » - (valider) en appuyant sur le poussoir Qu’apprend-on ? • des schémas spécifiques au corpus • marque de ponctuation • V en première position : visser les écrous • V infinitif • paires N-V dans des subordonnées (ordre) Vérifier que le feu anti-collision clignote Comparaison avec une évaluation manuelle • Fort recouvrement des schémas • Vinf det N • N être participe_passé , etc. • Ce que manque l’apprentissage • la variation lexicale d’un schéma donné • variantes de pour (dans le but de, avec l’objectif de) • les paires N-N (bouchon de protection) • Ce qu’il permet de découvrir • des indices négligés habituellement (marques de ponctuation, éléments au-delà de la proposition, position) • des schémas spécificiques au corpus Conclusions et perspectives • Résultats globalement bons d’apprentissage de paires N-V qualia • Coût : l’étiquetage sémantique, la construction des exemples • Apprentissage des paires N-N qualia • Exploitation en recherche d’information