Présentation

publicité
Acquisition de connaissances
linguistiques en corpus par
apprentissage symbolique
ou quand l’apprentissage perd son aspect
boîte noire
Pascale Sébillot
Équipe TexMex, IRISA, Rennes
Plan



Acquisition numérique versus
symbolique
Principes de la programmation logique
inductive (PLI)
Expérience d’acquisition de relations
sémantiques nomino-verbales par PLI
Acquisition numérique versus
symbolique

Pas opposition numérique vs linguistique

Approche numérique


exploite l’aspect fréquentiel des données

utilise des techniques statistiques

indices statistiques, analyse distributionnelle…
Approche symbolique

exploite l’aspect structurel des données

utilise des informations structurelles ou symboliques

expertise linguistique ou apprentissage symbolique
Indices statistiques (app. num.)

Cooccurrences dans une fenêtre

Mots apparaissant ensemble de manière statistiquement
significative


Coefficients d’association
m1
ml≠m1
m2
a
c
mk≠m2
b
d

table de contingence

coefficient d’information mutuelle IM= log2(a/(a+b)(a+c))

test du 2 (Church-Gale 91) = (ad-bc)2/((a+b)(a+c)(b+c)(b+d))
Segments répétés (Lebart et Salem 94)
Analyse distributionnelle (app. num.)




Linguistique Harrissienne (Harris et al. 89)
Approches en 3 étapes
 extraction des cooccurrents d'un mot
 mise en évidence de la proximité/distance des
mots 2 à 2 selon leurs cooccurrents
 regroupement en classes
Classes sémantiques… Grefenstette 94, Bouaud et
al. 97…
Limites : interprétabilité, détection au niveau du
corpus… mais portabilité
Approche linguistique (app. symb.)

Définitions opérationnelles des éléments à acquérir,
établies par expertise linguistique

Patrons, marqueurs

Lexter (Bourigault 94)…

Seek (Jouis 95) : règles d'exploration contextuelle


plus de 220 règles SI <condition de co-présence de marqueurs
linguistiques> ALORS <actions> OU <conclusions> manipulant plus
de 3300 marqueurs linguistiques, construites manuellement
détection de couples de mots en relation binaire (localisation, tout à
partie…)
Apprentissage symbolique (app. symb.)


Marqueurs de la relation issus d’une analyse d’exemples et
non d’une connaissance linguistique a priori  extraction
de patrons à partir d’exemples
Hearst (92) : méthodologie en 5 étapes
1.
2.
3.
4.
5.

choisir une relation cible R
réunir une liste de paires en relation R
trouver les phrases contenant ces paires ; enregistrer leurs
contextes lexical et syntaxique
trouver les points communs entre ces contextes ; supposer que
c’est un schéma de R
appliquer les schémas pour avoir de nouvelles paires et retourner
en 3
Hyponymie (Morin 99)

SN tel que LISTE (arbres fruitiers tels que des pommiers, des poiriers…)
Intérêt de l’approche symbolique

Interprétabilité, détection au niveau de l’occurrence

Définition opérationnelle d’un concept


Intérêt quand une relation est connue partiellement
en extension et pas en intention, c’est-à-dire non
formalisée par une règle
Généraliser automatiquement  apprentissage
artificiel (automatique) symbolique
Principes de la PLI
[Muggleton & De Raedt 94]



Intérêt : exemples à manipuler contenant un nombre
variables d’objets et relations entre objets importantes
Technique d’apprentissage symbolique supervisée

E+ et E- : exemples positifs et négatifs (contre-exemples)

B : connaissances préalables (background knowledge)

B, E+, E- exprimés en logique des prédicats
But : l’algorithme de PLI infère, par généralisation des
exemples positifs, des règles (hypothèses, clauses) H qui
caractérisent les exemples positifs par rapport aux négatifs

possibilité d’autoriser un peu de bruit (exemples négatifs couverts)
Exemple : apprendre quels
animaux volent




E+ = {vole(canari). vole(chauve-souris).}
E- = {:-vole(chien).}
B = {oiseau(canari). mamm(chien). mamm(chauve-souris).
ailé(chauve-souris). ailé(canari).}
H = {vole(X) :- ailé(X).}
général
vole(X).
vole(X) :- oiseau(X).
vole(X) :- mamm(X).
vole(X) :- oiseau(X),
mamm(X).
spécifique
vole(X) :- ailé(X).
Eh
Un peu plus formellement…

Choix du langage des exemples et du langage des
hypothèses

Lien entre les deux espaces : notion de couverture

Hypothèses organisées par une notion de généralisation

Algorithme de PLI (ALEPH - Srinivasan 00)
1.
2.
3.
4.
choisir un exemple dans E+ ; arrêt s’il n’y en a plus
définir un espace de recherche d’hypothèses à partir de E+ et du
langage d’hypothèses
rechercher l’hypothèse dans l’espace de solutions maximisant une
fonction de score
conserver cette hypothèse et ôter les exemples qu’elle couvre
(explique) ; retourner en 1
Expérience d’acquisition de
relations sémantiques N-V par PLI



Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco)
et V. Claveau (Irisa)  logiciel ASARES
Acquisition de couples N-V sémantiquement liés
Liens définis dans la structure des qualia du Lexique
génératif (Pustejovsky 95) : rôles qualia





télique : fonction ou but d’un objet (couper – couteau)
agentif : mode de création d’un objet (construire – maison)
couple N-V qualia par la suite
Pas d’a priori sur les structures portant les rôles qualia dans
un corpus
Méthode symbolique d’acquisition : intérêt linguistique
(schémas porteurs, verbalisation des rôles)
Extraction symbolique
supervisée


Concept à apprendre : distinguer les paires N-V qualia
des non-qualia en contexte (en corpus)
Informations utilisées



contexte (informations apportées par étiquetages)
ordre et distance entre N et V, succession des mots
Construction d’ensembles d’exemples E+ et E- par un
fonction
expert


e+ : « À l’aide des manettes, déverrouiller le siège et ... »
e- : « Gonfler la roue à la pression prescrite... »
?

Règles générées = patrons d’extraction interprétables
Extraction symbolique supervisée
corpus
expert LG
système
PLI
E+ et EB
corpus
étiqueté
patrons
d’extraction
?
Étiquetages
couples
qualia
Corpus et étiquetages



Manuel de maintenance d’hélicoptères de MATRA-CCR

corpus technique : nombreux termes concrets

vocabulaire et structures syntaxiques homogènes

104 000 mots, 700 Koctets
Étiquetage catégoriel

segmentation, lemmatisation, étiquetage (moins de 2% d’erreurs)

manettes est un nom commun au pluriel
Étiquetage sémantique (Bouillon et al. 00)

construction d’une hiérarchie d’étiquettes (à partir de WordNet)

ex : un instrument est un type d’artefact, d’objet...

manettes désigne un instrument

moins de 1.5% d’erreurs
Exemples et connaissances a priori

Exemples


description des mots de la phrase

étiquettes catégorielles

étiquettes sémantiques

description des successions de mots

distance en nombre de mots et verbes entre N et V
Connaissances préalables : entre autres les
hiérarchies des étiquettes catégorielles et
sémantiques pour permettre des généralisations
Spécificités

Hypothèse bien formée pour identifier une paire NV qualia

clause donnant des informations sur les mots (N, V, mots
du contexte) ou sur les positions respectives du N et du
V dans la phrase

Prise en compte des connaissances hiérarchiques

Règles linguistiquement pertinentes


concision : au plus une information catégorielle et
sémantique par mot
introduction de variables si contraintes
Inférence des patrons
d’extraction

Supervision : 3000 exemples positifs et 3000 négatifs

Apprentissage : 20min (vs 12h+ sans modifications)

Résultats : 9 patrons inférés

is_qualia(N,V) :- precedes(V,N), near_verb(N,V),
infinitive(V), action_verb(V).

V d’action à l’infinitif + (tout sauf un verbe)* + N

obturer avec les bouchons



is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C), pred(N,D),
punctuation(D), singular_common_noun(N).
V + : + (tout mot)* + [:,;] + N
ouvrir : le capot coulissant, le capot droit et…
Résultats - validation


Validation théorique de l’apprentissage et de
ses paramétrages (validation croisée)
Validation empirique  jeu de test

sous-corpus de 32 000 mots

focus sur 7 noms : vis, écrou, porte, voyant…

286 paires annotées par des experts du LG, dont
66 qualia
Résultats - validation


Application des 9 patrons et comparaison
des résultats d’extraction des patrons
inférés à ceux des experts
Calcul des taux de rappel, précision et Fmesure (2PR/(P+R))
Système
PLI
Précision (P)
62.2%
Rappel (R) F-mesure
92.4%
0.744
Comparaison avec des méthodes
d’extraction statistiques
Système
PLI
coeff Ochiai
coeff IM3
test chi2
coeff loglike




Précision (P) Rappel (R) F-mesure
62.2%
82.4%
92.3%
78.1%
80%
92.4%
42.4%
36.4%
37.9%
42.4%
0.744
0.56
0.522
0.464
0.554
Cooccurrences de N et V dans une phrase, basées sur les
lemmes
Meilleure précision mais taux de rappel plus faible
Travail uniquement sur les lemmes alors que la PLI bénéficie
d’informations sémantiques et catégorielles
Pas besoin de supervision
Comparaison avec une méthode
syntaxique manuelle


Extraction basée sur une analyse syntaxique : annotation
syntaxique (sujet, objet, modifieur) manuelle des paires
N-V
Paire N-V détectée si en relation syntaxique
Système
PLI
lien synt.

Précision (P) Rappel (R) F-mesure
62.2%
79.2%
92.4%
86.4%
0.744
0.826
Le lien qualia est plus qu’un simple lien syntaxique
(rappel) (poser l’ensemble : rondelle, vis et serrer au
couple)
Pertinence linguistique des
patrons d’extraction
1.
2.
3.
4.
5.
6.
7.
8.
9.
is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V),
action_verb(V).
is_qualia(N, V) :- contiguous(N, V).
is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N, V),
suc(V,C), preposition(C).
is_qualia(N, V) :- near_word(N, V), sentence_beginning(N).
is_qualia(N, V) :- precedes(V, N), singular_common_noun(N), suc(V,C),
colon(C), pred(N,D), punctuation(D).
is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D), action_verb(D).
is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C),
punctuation(C).
is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D), pred(D,E),
preposition(E), sentence_beginning(N).
is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C),
subordinating_conjunction(C).
Pertinence linguistique des
patrons d’extraction

À ce niveau de généralisation, peu de marqueurs
linguistiques usuels sauf informations
morphologiques et sémantiques pour les verbes


infinitifs et verbes d’action privilégiés
Autres critères

proximité : N et V proches dans la phrase, sans verbe entre eux

position : N ou V souvent en début de phrase (en particulier V)

ponctuations telles que « : » « , » « ; »

catégorisation morphosyntaxique

1e clause  verbe d’action à l’infinitif

débrancher les prises, déposer les obturateurs…
Pertinence linguistique des
patrons d’extraction


Patrons propres au corpus et interprétables
Recoupement en partie de structures trouvées
manuellement (Galy 00)

V infinitif + déterminant + N (visser le bouchon)
N + V (un bouchon obture)
être + V participe passé + par + déterminant + N (sont obturées par les

…






bouchons)
Pertinence des structures infinitives, patrons avec N et V
proches
Généralisations des structures de Galy (actif et passif 
clause 2)
Non trouvés : marqueurs polylexicaux (avoir pour but de…)
Mais indices nouveaux par rapport à l’analyse manuelle
Approche numérique vs symbolique

Numérique

méthodes portables, automatiques

résultats peu interprétables



détection au niveau du corpus : une occurrence (retenue ou non)
pas explicable
cas rares problématiques
Symbolique

connaissances a priori (patrons, exemples)

résultats interprétables

détection au niveau de l’occurrence

cas rares pouvant être pris en compte
Acquisition de connaissances
linguistiques en corpus par
apprentissage symbolique
ou quand l’apprentissage perd son aspect
boîte noire
Pascale Sébillot
Équipe TexMex, IRISA, Rennes
Merci de votre attention
Téléchargement