Acquisition et évaluation sur corpus de propriétés de sous

publicité
Acquisition et évaluation sur corpus
de propriétés de sous-catégorisation
syntaxique
Didier BOURIGAULT, Cécile FREROT
Equipe de Recherche en Syntaxe et Sémantique
CNRS – Université Toulouse Le Mirail
{didier.bourigault,frerot}@univ-tlse2.fr
www.univ-tlse2.fr/erss/
Objectif de l’étude

Evaluation des performances d’un analyseur syntaxique
(Syntex),

pour la tâche de résolution des ambiguïtés de
rattachement prépositionnel,

effectuée à l’aide d’un lexique de de sous-catégorisation
acquis sur un corpus d’apprentissage de 200 millions de
mots,

sur des corpus d’évaluation de genre variés

Journalistique, littéraire, juridique, médical
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
2
Ambiguïté de rattachement prépositionnel

Un problème « classique »


Beaucoup de travaux, depuis (Hindle & Rooth, 1993)
Il voit un homme avec un télescope
il mange une pizza avec des olives
Faire varier les corpus d’évaluation



Gildea (2001) : «Most work in statistical method has focused on a
single corpus: the Wall Street Journal portion of the Penn Treebank »
Kilgarriff & Greffenstette (2003) : « There is little work on assessing
how well one language language model fares when applied to a text
type that is different from that of the training corpus. »
(Basili et al.1999) (Illouz, 1999) (Roland & al., 2000) (Gildea, 2001)
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
3
Méthode de résolution des ambiguïtés de
rattachement prépositionnel

En entrée : une phrase étiquetée, partiellement analysée

1ère étape : rechercher_candidats :


Etant donné une préposition p, qui régit un mot m’, rechercher
dans le contexte gauche l’ensemble des mots mj susceptibles de
régir la préposition p
des règles qui décrivent dans quelles configurations




conserver un mot comme candidat
« sauter » un mot
arrêter la recherche
2ème étape : choisir_candidat
Sur la base d’indices affectés à chacun des candidats
 Principal indice : probabilité que le mot candidat mj se construise
avec la préposition p : proba(mj, p)

D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
4
Recherche des candidats
La France défendra ses intérêts avec la plus grande fermeté .
Le problème est triple : insuffisance de la recherche sur des pathologies, …
Certains pays réclament l'élimination totale des subventions agricoles à l' exportation
Son rôle serait de protéger un port ou un dispositif naval en mouvement
On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
5
Recherche des candidats

Pas de rattachement :
En France , cinq millions d' emplois sont liés à l' exportation
Sur l'agriculture , l' Europe fait cause commune face à un front composé des
Etats-Unis , de pays exportateurs comme l' Australie , la Nouvelle Zélande , l'
Argentine et le Brésil
A 1,0039 dollar , la monnaie européenne se retrouve ainsi quasiment à parité avec
le billet vert .
Elle se situe au quatrième rang mondial des pays exportateurs de produits
manufacturés, derrière les Etats-Unis , l'Allemagne et le Japon
De même, on ne saurait , sous le prétexte de l'urgence , négliger l'impératif du
développement d' infrastructures sanitaires , dont l'absence fait le lit de maladies ,
comme la tuberculose ou le trachome
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
6
Acquisition de propriétés de sous-catégorisation

Calcul de probabilités de sous-catégorisation




A partir d’un corpus annoté manuellement (PTB)
A partir d’un corpus étiqueté automatiquement
A partir du Web
Méthode testée

A partir d’un corpus de 200 millions de mots : journal Le Monde,
années 1991 à 2000 (LM10)
Grande taille

Thématiquement diversifié
 Ressources génériques


Etiqueté (Treetagger) et partiellement analysé syntaxiquement
(Syntex)
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
7
Procédure d’acquisition à partir du corpus LM10

Deux itérations sur le corpus LM10
1) Amorçage :


n’exploiter que les informations acquises dans des contextes non
ambigus
Construire un premier lexique de sous-catégorisation à partir de ces
informations : proba(m,p)
2) Consolidation :


Utiliser le lexique construit à l’étape précédente, pour résoudre les
ambiguïtés de rattachement prépositionnel
construire le lexique final en exploitant les informations acquises
dans tous les contextes (non ambigus et ambigus résolus)
nb d’occurrences où le mot m régit la préposition p
proba(m,p) =
nb total d’occurrences du mot m
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
8
Procédure d’acquisition à partir du corpus LM10
LM10
étiqueté
1- Amorçage
cas de rattachement
prépositionnel
non ambigus
rechercher_candidat
2- Consolidation
choisir_candidat
cas de rattachement
prépositionnel
résolus avec L0
Résolution :
Le candidat de plus
forte probabilité.
Par défaut : le
premier
Calcul proba(m,p)
Calcul proba(m,p)
Lexique L0
Lexique L1
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
Lexique final
9
Etape d’amorçage

A partir des cas de rattachement non ambigus :
1- Pour une préposition p, qui régit le mot m’ : le module
chercher_candidats a trouvé un seul candidat recteur (m) :
Incrémenter freq (m, p, m’) de 1
2- Pour un mot m : le module chercher_candidats ne l’a retenu
comme candidat recteur pour aucune préposition
 Incrémenter freq (m,0) de 1
freq0 (m) + 1
freq (m, p, m’) + 1
Je l’ai mangé avec une fourchette
Jean a mangé.
freq (manger, avec, fourchette) + 1
freq0 (manger) + 1
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
10
Calcul des probabilités pondérées
fréquence de m sans préposition :
freq0(m)
fréquence de m avec la préposition p : freq(m,p) =  m’ freq(m,p,m’)
fréquence totale de m :
freq(m) = freq0(m) +  p freq(m,p)
productivité de m avec p :
prod(m,p)=Card { m’ / freq(m,p,m’) > 0 }
freq(m,p)
proba(m,p)
=
log ( 1 + prod(m,p) )
*
freq(m)
k
freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1
freq(manger,avec)=5
freq(manger,à)=5
prod(manger,avec)=1
prod(manger,à)=5
proba(manger,avec)=0.28
D. BOURIGAULT, C FREROT
proba(manger,à)=0.72
TALN 2005, Dourdan, juin 2005
11
Lexique d’amorçage
proba
mot
0,765
abonner
0,536
prod
freq p
freq
freq0
à
120
260
408
48
aboutir
à
1451
5201
10555
3980
0,788
accéder
à
881
3683
4972
834
0,535
accoler
à
98
121
254
109
0,569
accorder
à
2498
9494
17990
6883
0,871
accouder
à
32
68
86
2
0,558
accrocher
à
515
1064
2240
714
0,578
acculer
à
104
229
443
89
0,641
achopper
sur
109
221
379
122
0,650
adapter
à
935
3780
6204
1852
0,700
adhérer
à
538
2143
3249
896
0,772
adjoindre
à
406
3085
4297
620
0,873
adosser
à
228
392
462
55
D. BOURIGAULT, C FREROT
prep
TALN 2005, Dourdan, juin 2005
12
Etape de consolidation

A partir de tous les cas de rattachement :
1a- Pour une préposition p, qui régit le mot m’ : le module
chercher_candidats a trouvé un seul candidat recteur (m) :
Incrémenter freq (m, p, m’) de 1
1b- Pour une préposition p, qui régit le mot m’ : le module
chercher_candidats a trouvé plusieurs candidats recteurs
 le module choisir_candidat choisit le candidat m qui a la
probabilité la plus élevée
Incrémenter freq (m, p, m’) de 1
2- Pour tout mot m recteur d’aucune préposition
 Incrémenter freq (m,0) de 1

Recalculer les probabilités avec les nouvelles données
de fréquences : lexique final
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
13
Lexique final
Nombre d’occurrences
de couples (m,p)
extraits du corpus LM10
Nombre de couples (m,p)
retenus dans le lexique L1
étape
d’amorçage
étape de
confirmation
(verbe,prep+nom)
4 732 143
7 924 140
(verbe,prep+nom)
26 031
(verbe,prep+vinf)
656 083
947 562
(verbe,prep+vinf)
2 501
(nom,prep+nom)
1 207 453
2 671 314
(nom,prep+nom)
15 548
(nom,prep+vinf)
61 957
125 502
(nom,prep+vinf)
294
(adj,prep+nom)
80 641
223 333
(adj,prep+nom)
811
(adj,prep+vinf)
10 900
45 030
(adj,prep+vinf)
40
frep >= 20
proba >=0.01
6 693 verbes, 11 528 noms, 698 adjectifs différents
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
14
Lexique final
proba
mot
prep
prod
freq
freqtot
freq0
0,622
accès
à
1238
6180
10185
3741
0,864
accession
à
136
1417
1665
213
0,539
accointance
avec
39
48
95
41
0,606
allusion
à
791
1319
2227
867
0,537
appartenance
à
338
1318
2479
1146
0,528
assignation
à
16
156
345
109
0,564
assujettissement
à
35
56
101
44
0,554
butte
à
162
365
684
301
0,773
cofinancé
par
30
45
61
13
0,510
conformité
avec
126
362
761
234
0,606
croupière
à
38
49
86
32
0,745
haro
sur
52
63
86
22
0,546
hockey
sur
3
310
570
253
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
15
Annotation de corpus

La tâche d’annotation est partie intégrante de l’activité
de développement de l’analyseur

Annotation de corpus variés
Nb de mots
Nb de cas
annotés
BAL
199 789
672
Journalistique un extrait du Monde
LMO
673 187
1 238
Juridique
le Code du travail
CTR
509 124
1 150
Médical
Compte rendus d’hospitalisation
MED
377 967
646
Littéraire
Balzac (Splendeur …)
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
16
Annotation de corpus

Règles d’annotations :

Annoter plusieurs centaines de cas sur chaque corpus



Assurer la diversité des configurations syntaxiques
Arrêter l’annotation quand on estime que la couverture est satisfaisante
L’objectif de l’annotation est d’évaluer la procédure de sélection
des candidats




Ne pas annoter en cas d’erreurs d’étiquetage
Ne pas annoter en cas d’erreur dans la recherche des candidats
Ne pas distinguer argument/circonstant
Se donner la possibilité : de valider 2 candidats (verbe support), de
passer…
 Il y a nécessairement une part de subjectivité dans l’annotation
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
17
Stratégies de résolution

4 stratégies

Base :


calcul de probabilités à partir du corpus en cours d’analyse
 le premier j / (mj,p,m’) a été repéré dans un contexte non ambigu
 sinon celui qui a la probabilité la plus élevée
 sinon le premier
Exogène :



le premier candidat
Endogène


manger une pizza aux olives
(manger,à,olive) € corpus ?
(pizza,à,olive) € corpus ?
celui qui a la probabilité la plus élevée
sinon le premier
Mixte :



Le premier j / (mj,p,m’) a été repéré dans un contexte non ambigu
sinon celui qui a la probabilité la plus élevée (endo ou exo)
sinon le premier
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
18
Calcul des probabilités de sous-catégorisation
Lexique endogène : résultats sur le corpus médical
proba
mot
prep
prod
freq p
freq
freq0
0,444 accord
avec
4
4
9
5
0,246 accouchement
par
2
9
33
19
0,418 allergie
à
21
41
98
57
0,200 amylasémie
à
2
2
10
8
0,469 analgésie
par
6
20
44
23
0,200 anémie
à
5
11
61
47
0,735 antibioprophylaxie
par
10
21
30
7
0,355 antibiothérapie
par
29
63
195
123
0,235 anticoagulation
par
4
4
19
13
0,616 argument
pour
14
16
28
2
0,312 argument
en faveur de
8
10
28
2
0,308 arme
à
3
24
78
54
0,600 bactériémie
à
5
6
10
4
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
19
Résultats de l’évaluation
% précision
100
Prec
%
90
80
70
base
endo
exo
mixte
BAL
83.0
83.5
86.9
86.6
LMO
70.3
80.1
86.6
85.9
CTR
65.5
82.3
86.3
87.3
MED
59.9
78.0
66.3
78.3
60
50
base endo
D. BOURIGAULT, C FREROT
exo
mixte
TALN 2005, Dourdan, juin 2005
20
Conclusion sur la stabilité

Le corpus médical a un comportement particulier


À cause du « style » et non du domaine
Sur les 3 autres corpus (journalistique, juridique et
littéraire), les performances sont étonnamment stables



Autour de 87%
La stratégie de base est très bonne sur le corpus littéraire
L’apport d’informations endogènes :


dégrade légèrement les résultats sur les corpus littéraire et
journalistique
améliore sensiblement les résultats sur le corpus juridique
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
21
Conclusion sur le lexique

Le lexique de sous-catégorisation syntaxique est exploité
par l’analyseur sans avoir été validé manuellement.

Il est performant pour la tâche de résolution des
ambiguïtés prépositionnelles.

Sur le plan linguistique, ce lexique n’est pas comparable
aux lexiques construits à la main ou aux dictionnaires de
langue :


La probabilité qu’a un verbe de sous-catégoriser telle préposition
est calculée à partir de toutes les occurrences (lemmatisées) de ce
verbe, sans distinction de ses différentes sens
Dans le contexte du développement d’un analyseur
syntaxique « tout terrain », l’approximation à laquelle
conduit ce lissage des sens est un mal nécessaire.
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
22
Perspectives

Utiliser des informations « sémantiques » générales



Prendre en compte le régi de la préposition : m’
Exploiter les triplets (m,p,m’) extraits de LM10
Utiliser des informations sémantiques



Liens entre mots
Classes sémantiques
Quelles ressources ?


Ressources lexicales existantes (Dicosyn de l’U. de Caen)
Ressources construites automatiquement à partir de l’Analyse
Distributionnelle de très gros corpus
(manger,à,anchois) € LM10 ?
manger une pizza aux anchois
(pizza,à,anchois) € LM10 ?
(pizza,à,olive) € LM10 ?
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
23
Les Voisins de Le Monde

Une base de données lexico-distributionnelle du français
 Analyse distributionnelle (syntex+upery) sur le corpus LM10
http://www.univ-tlse2.fr/erss/voisinsdelemonde/
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
24
Boire un café au lait €
Boire un café au bar
Boire un café au bistrot
Allouer des crédits à la recherche
Allouer des aides à la recherche
Subventionner la recherche
(bof)
D. BOURIGAULT, C FREROT
TALN 2005, Dourdan, juin 2005
25
Téléchargement