Présentation

publicité
Acquisition de probabilités de
sous-catégorisation à partir de très
gros corpus
Didier BOURIGAULT
Equipe de Recherche en Syntaxe et Sémantique
CNRS – Université Toulouse Le Mirail
[email protected]
www.univ-tlse2.fr/erss/
TAL, linguistique et méthodes quantitatives

TAL : intégrer dans un analyseur syntaxique
automatique (Syntex) une ressource de souscatégorisation syntaxique pour améliorer la résolution
des ambiguïtés de rattachement prépositionnel

Linguistique (de corpus) : évaluer sur un corpus de
grande taille les informations de sous-catégorisation
syntaxique extraites d’un lexique (le Lexique
Grammaire) construit par des linguistes
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
2
Contexte (TAL) : résoudre les ambiguïtés de
rattachement prépositionnel en analyse
syntaxique automatique

Syntex, un analyseur syntaxique en dépendance

Résoudre les ambiguïté de rattachement prépositionnel

Propriétés de sous-catégorisation syntaxique nécessaires


issues du Lexique-Grammaire
acquises automatiquement à partir de corpus
D. BOURIGAULT
Je vois un homme avec un télescope
voir + avec ?
homme + avec ?
Je mange une pizza avec des olives
manger + avec ?
pizza + avec ?
Sémantique et corpus, 2 juin 2004
3
Syntex : un analyseur syntaxique de corpus

Analyseur en dépendance

Architecture modulaire




En entrée : un corpus étiqueté morpho-syntaxiquement (parties
du discours)
Un module par relation : Déterminant, Sujet, Objet, Préposition,
Adjectif
En sortie : corpus annotés avec des relations syntaxiques entre
mots
Chaque module est « écrit à la main »


Par des linguistes informaticiens
Selon une approche empirique et expérimentale basée sur
l’analyse de corpus
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
4
Un exemple d’analyse
Le chat de Marie mange une petite souris.
Etiquetage morphosyntaxique (Treetagger)
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
Analyse syntaxique (Syntex)
SUJ
OBJ
Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom.
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
5
Les relations syntaxiques

Dans chaque phrase, Syntex pose des relations de
dépendance syntaxique entre les mots


Une relation de dépendance syntaxique est orientée




Les mots ont été préalablement étiquetés
d’un régi vers son recteur
Contrainte 1 : un régi n’a qu’un seul recteur
Contrainte 2 : Les relations de dépendance ne se croisent pas.
Principales relations :




SUJ : sujet de verbe
OBJ : complément d’objet direct de verbe
PREP : complément d’objet indirect de verbe, de nom, d’adjectif
ADJ : épithète de nom
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
6
Algorithme OBJET : « premier nom à droite »

Parcours des mots de la phrase





Point de départ : le verbe (le recteur)
Si pronom clitique objet juste à gauche : arrêt
Sinon direction : droite
Saut de certaines séquences entre virgules (incises)
Arrêt : au premier Nom
OBJ
le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom
OBJ
Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
7
Algorithme SUJET : « dernier nom à gauche »

Parcours des mots de la phrase








Point de départ : le verbe (le recteur)
Direction : gauche
Saut de certaines séquences entre virgules (incises)
Arrêt : au dernier Nom ou Pronom
Si échec (sujet inversé) :
Point de départ : le verbe
Direction : droite
Arrêt : au premier Nom ou Pronom
SUJ
le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
8
Algorithme PREP : ambiguïté de rattachement
prépositionnel

1- Rechercher_candidats

Parcours des mots de la phrase



Point de départ : la préposition (le régi) et Direction : gauche
Noms, participe passé, adjectif, verbes
2- Sélectionner_candidat

À l’aide d’indices

dont propriété de sous-catégorisation syntaxique
?
Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom
installer + sur ?
logiciel + sur ?
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
9
Propriétés de sous-catégorisation syntaxique : où
les trouver (pour le français) ?

Dictionnaires (électroniques) existants




Le Lexique-Grammaire du LADL
TLFi (Trésor de la Langue Française informatisé)
(…)
Acquisition de probabilités de sous-catégorisation à
partir de corpus

A partir d’un corpus étiqueté automatiquement



Corpus Le Monde
Web
A partir d’un corpus annoté manuellement (~ Penn Tree Bank)
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
10
Lexique grammaire

Choix de la ressource :



Objectif d’exhaustivité, français « standard »
Démarche introspective, indépendamment de tout corpus et tout
domaine
Mode de constitution (C. FREROT, ERSS)


Extraire l’information sur la sous-catégorisation verbale à
distance des prépositions à, dans, sur
 Appartenance à la forme canonique N0 V N1 Prep N2
Filtrage des données : on exclut les restrictions de sélection


Nature sémantique du syntagme prépositionnel non encodée dans
l’analyseur (traits humain, non humain…)
 Ex : N1 = : « coup » : Max a (allongé, balancé, envoyé, mis) une
gifle à Ida
Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
11
Calcul des probabilités de sous-catégorisation

Corpus partiellement annoté



Le Monde (1990-1996) : 140 millions de mots
Étiquetage morpho-syntaxique (Treetagger) + premiers modules
Syntex
A partir des cas non ambigus :
1- Pour une préposition p, qui régit le mot m’, le module
Recherche_candidats a trouvé un seul candidat recteur : m
2- Pour un mot m, le module Recherche_candidats ne l’a retenu
comme candidat recteur pour aucune préposition
1-
freq (m, p,m’) + 1
2-
freq (m,0) + 1
Je l’ai mangé avec une fourchette
Jean a mangé.
freq (manger, avec, fourchette) + 1
freq (manger, 0) + 1
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
12
Calcul des probabilités de sous-catégorisation
fréquence de m sans préposition :
freq(m,0)
fréquence de m avec la préposition p : freq(m,p) =  m’ freq(m,p,m’)
fréquence totale de m :
freq(m) = freq(m,0) +  p freq(m,p)
productivité de m avec p :
prod(m,p)=Card { m’ / freq(m,p,m’) > 0 }
freq(m,p)
proba(m,p)
=
log ( 1 + prod(m,p) )
*
freq(m)
k
freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1
freq(manger,avec)=5
freq(manger,à)=5
prod(manger,avec)=1
prod(manger,à)=5
proba(manger,avec)=0.28
proba(manger,à)=0.72
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
13
Calcul des probabilités de sous-catégorisation

Exemple de ressource endogène : résultats sur un
corpus médical
proba
mot
prep
prod
freq p
freq
freq0
0,444
accord
avec
4
4
9
5
0,246
accouchement
par
2
9
33
19
0,418
allergie
à
21
41
98
57
0,200
amylasémie
à
2
2
10
8
0,469
analgésie
par
6
20
44
23
0,200
anémie
à
5
11
61
47
0,735
antibioprophylaxie
par
10
21
30
7
0,355
antibiothérapie
par
29
63
195
123
0,235
anticoagulation
par
4
4
19
13
0,616
argument
pour
14
16
28
2
0,312
argument
en faveur de
8
10
28
2
0,308
arme
à
3
24
78
54
0,600
bactériémie
à
5
6
10
4
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
14
Calcul des probabilités de sous-catégorisation

Itérations


Etape 0 : ressources exogènes R0
Etape i :



Résoudre les ambiguïtés de rattachement à l’aide de la ressource
construite à l’étape i-1 (Ri-1)
Pour chaque cas ambigu : { (mj, p,m’) , j=1 à ncand }
 S’il existe un candidat k tel que prob(mk, P) >> prob(mjk,P) :
(rattachement certain)

freq(mk,p,m’) + 1

freq(mjk,0) + 1
 Sinon (rattachement incertain)

freq(mj,P,m’) + 1 / ncand
pour j=1 à ncand
Recalculer les probabilités avec ces nouvelles fréquences plus les
fréquences calculées sur les cas non ambigus (étape 0) : Ri
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
15
Calcul des probabilités de sous-catégorisation

Résultats



Corpus d’apprentissage de 140 M mots (Le Monde, 1990-96)
Convergence après 4 itérations
Nombre de couples (m,p) : 10 759


freq(m)>=50
proba(m,p) >0.05
D. BOURIGAULT
cat
Total
Nom
VINF
Adj
569
531
38
Nom
3813
3676
137
Vb
6377
5878
499
Sémantique et corpus, 2 juin 2004
16
Probabilités de sous-catégorisation de noms
proba
mot
prep
prod
freq
freqtot
freq0
0,622
accès
à
1238
6180
10185
3741
0,864
accession
à
136
1417
1665
213
0,539
accointance
avec
39
48
95
41
0,606
allusion
à
791
1319
2227
867
0,537
appartenance
à
338
1318
2479
1146
0,528
assignation
à
16
156
345
109
0,564
assujettissement
à
35
56
101
44
0,554
butte
à
162
365
684
301
0,773
cofinancé
par
30
45
61
13
0,510
conformité
avec
126
362
761
234
0,606
croupière
à
38
49
86
32
0,745
haro
sur
52
63
86
22
0,546
hockey
sur
3
310
570
253
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
17
Validation de la liste LG sur le corpus LM

Histogramme des fréquences des verbes de LG dans le
corpus LM
nb
770 verbes / 1182
1 117 couples (vb, prep) / 1659
500
400
300
200
100
(412)
(375)
100
D. BOURIGAULT
(271)
1000
Sémantique et corpus, 2 juin 2004
(124)
10000
100000
freq
18
Verbes de LG écartés de l’analyse
Verbes de LG dont la fréquence d’occurrence dans le corpus LM
est nulle :
chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ;
faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver
; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à
redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ;
enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ;
céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ;
Verbes de LG dont la fréquence d’occurrence dans le corpus LM
est inférieure à 100 :
aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir
(16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ;
agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ;
amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ;
apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler
(44) ; aventurer (23) ; aérer (99) ; (…)
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
19
Probabilités des couples (vb,prep) de LG calculées
sur le corpus LM
lg
= 1 si (vb,prep) LG
f
= freq(vb,prep)
f tot =freq(vb)
p
= f / f tot
cat = catégorie du régi de prep
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
20
Histogramme des probabilités des couples
(vb,prep) de LG
proba
nb
cumul
0
39
39
[ 0.00 , 0.01 [
70
109
[ 0.01 , 0.02 [
208
317
[ 0.02 , 0.05 [
233
550
[ 0.05 , 0.10 [
212
762
[ 0.10 , 0.25 [
225
987
[ 0.25 , 0.50 [
99
1086
[ 0.50 , 1.00 [
31
1117
D. BOURIGAULT

Si seuil probabilité = 0.05

550 couples « infirmés » par le corpus



freq(vb,prep) = 0
Ou p(vb,prep) < 0.05
567 couples « confirmés » par le corpus

p(vb,prep)>= 0.05
Sémantique et corpus, 2 juin 2004
21
Couples (vb,prep) de LG absents du corpus
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
22
Couples (vb,prep) de LG de probabilité
inférieure à 0.05
pas (peu) fréquent/probable, (…) , très fréquent/probable
≠
«impossible », « * », « facultatif », « optionnel », (…) , « obligatoire »
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
23
Couples (vb,prep) de LG de probabilité
supérieure à 0.05
Rappel : la liste LG est
construite à partir du
schéma :
N0 V N1 prep N2
Proportion des cas où
vb est construit avec prep et
vb n’a pas d’objet
(analyse Syntex)
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
24
Couples de LG (vb,prep) sans objet dans le
corpus LM
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
25
Compléter LG : couples (vb, prep) du corpus LM
absents de la liste LG
à (243)
p
dans (135)
vb
p
dans (65)
vb
p
vb
0,59 affilier
à
0,28 entasser
dans
0,2
axer
sur
0,31 chiffrer
à
0,5
replacer
dans
0,39
calquer
sur
0,32 comparer
à
0,23 réfugier
dans
0,28
concentrer
sur
0,55 confronter
à
0,22 réinstaller
dans
0,24
déverser
sur
0,24 coter
à
0,2
dans
0,2
fonder
sur
0,29 coupler
à
0,63 spécialiser
dans
0,64
indexer
sur
0,38 déférer
à
0,27 transposer
dans
0,21
interroger
sur
(…)
D. BOURIGAULT
se frayer
(…)
Sémantique et corpus, 2 juin 2004
(…)
26
Réflexions

La vérité ne jaillit pas d’elle-même « du » corpus



Même si le corpus est très gros
Même si les méthodes quantitatives sont très sophistiquées
Le linguiste




choisit le corpus,
choisit les méthodes,
en fonction de son projet (hypothèses, cadre théorique, application)
Les entités manipulées par les outils ne sont pas
équivalentes aux unités travaillées par le linguiste

Par exemple :


Outils : lemme+catégorie, relation de rection
Linguiste : sens de verbe, cadre syntactico-sémantique de souscatégorisation
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
27
Réflexions (suite) : quantitatif/qualitatif

« gro cé bo ? »

Oui,



Mais :



Il faut de la quantité pour évaluer des probabilités
La quantité vient compenser les erreurs d’analyse, les
approximations, la faible précision des outils automatiques
« Il faut battre les corpus », pour mesurer la stabilité, la robustesse
des résultats
Il faut procéder à des analyses contrastives inter-corpus
« probabiliser les événements linguistiques »

En particulier, les outils de traitements automatique des langues
ont besoin de propriétés probabilisées
D. BOURIGAULT
Sémantique et corpus, 2 juin 2004
28
Résultats de l’évaluation
% précision
choix par défaut : le dernier
100
Prec
%
90
80
70
base
endo
exo
mixte
BAL
83.7
84.7
87.4
87.4
LMO
70.5
81.9
86.6
86.7
CTR
61.8
81.1
85.8
86.2
MED
54.0
76.3
65.8
77.6
60
50
base endo
D. BOURIGAULT
exo
mixte
Sémantique et corpus, 2 juin 2004
29
Téléchargement