Acquisition de probabilités de sous-catégorisation à partir de très gros corpus Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail [email protected] www.univ-tlse2.fr/erss/ TAL, linguistique et méthodes quantitatives TAL : intégrer dans un analyseur syntaxique automatique (Syntex) une ressource de souscatégorisation syntaxique pour améliorer la résolution des ambiguïtés de rattachement prépositionnel Linguistique (de corpus) : évaluer sur un corpus de grande taille les informations de sous-catégorisation syntaxique extraites d’un lexique (le Lexique Grammaire) construit par des linguistes D. BOURIGAULT Sémantique et corpus, 2 juin 2004 2 Contexte (TAL) : résoudre les ambiguïtés de rattachement prépositionnel en analyse syntaxique automatique Syntex, un analyseur syntaxique en dépendance Résoudre les ambiguïté de rattachement prépositionnel Propriétés de sous-catégorisation syntaxique nécessaires issues du Lexique-Grammaire acquises automatiquement à partir de corpus D. BOURIGAULT Je vois un homme avec un télescope voir + avec ? homme + avec ? Je mange une pizza avec des olives manger + avec ? pizza + avec ? Sémantique et corpus, 2 juin 2004 3 Syntex : un analyseur syntaxique de corpus Analyseur en dépendance Architecture modulaire En entrée : un corpus étiqueté morpho-syntaxiquement (parties du discours) Un module par relation : Déterminant, Sujet, Objet, Préposition, Adjectif En sortie : corpus annotés avec des relations syntaxiques entre mots Chaque module est « écrit à la main » Par des linguistes informaticiens Selon une approche empirique et expérimentale basée sur l’analyse de corpus D. BOURIGAULT Sémantique et corpus, 2 juin 2004 4 Un exemple d’analyse Le chat de Marie mange une petite souris. Etiquetage morphosyntaxique (Treetagger) Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. Analyse syntaxique (Syntex) SUJ OBJ Le|Det chat|Nom de|Prep Marie|NomPr mange|Vb une|Det petite|Adj souris|Nom. D. BOURIGAULT Sémantique et corpus, 2 juin 2004 5 Les relations syntaxiques Dans chaque phrase, Syntex pose des relations de dépendance syntaxique entre les mots Une relation de dépendance syntaxique est orientée Les mots ont été préalablement étiquetés d’un régi vers son recteur Contrainte 1 : un régi n’a qu’un seul recteur Contrainte 2 : Les relations de dépendance ne se croisent pas. Principales relations : SUJ : sujet de verbe OBJ : complément d’objet direct de verbe PREP : complément d’objet indirect de verbe, de nom, d’adjectif ADJ : épithète de nom D. BOURIGAULT Sémantique et corpus, 2 juin 2004 6 Algorithme OBJET : « premier nom à droite » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Si pronom clitique objet juste à gauche : arrêt Sinon direction : droite Saut de certaines séquences entre virgules (incises) Arrêt : au premier Nom OBJ le|Det chat|Nom mange|Vb une|Det petite|Adj souris|Nom OBJ Marie|Nom installe|Vb sur|Prep son|Det ordinateur|Nom un|Det logiciel|Nom D. BOURIGAULT Sémantique et corpus, 2 juin 2004 7 Algorithme SUJET : « dernier nom à gauche » Parcours des mots de la phrase Point de départ : le verbe (le recteur) Direction : gauche Saut de certaines séquences entre virgules (incises) Arrêt : au dernier Nom ou Pronom Si échec (sujet inversé) : Point de départ : le verbe Direction : droite Arrêt : au premier Nom ou Pronom SUJ le|Det petit|Adj chat|Nom de|Prep Marie|Nom mange|Vb D. BOURIGAULT Sémantique et corpus, 2 juin 2004 8 Algorithme PREP : ambiguïté de rattachement prépositionnel 1- Rechercher_candidats Parcours des mots de la phrase Point de départ : la préposition (le régi) et Direction : gauche Noms, participe passé, adjectif, verbes 2- Sélectionner_candidat À l’aide d’indices dont propriété de sous-catégorisation syntaxique ? Marie|Nom installe|Vb un|Det logiciel|Nom sur|Prep son|Det ordinateur|Nom installer + sur ? logiciel + sur ? D. BOURIGAULT Sémantique et corpus, 2 juin 2004 9 Propriétés de sous-catégorisation syntaxique : où les trouver (pour le français) ? Dictionnaires (électroniques) existants Le Lexique-Grammaire du LADL TLFi (Trésor de la Langue Française informatisé) (…) Acquisition de probabilités de sous-catégorisation à partir de corpus A partir d’un corpus étiqueté automatiquement Corpus Le Monde Web A partir d’un corpus annoté manuellement (~ Penn Tree Bank) D. BOURIGAULT Sémantique et corpus, 2 juin 2004 10 Lexique grammaire Choix de la ressource : Objectif d’exhaustivité, français « standard » Démarche introspective, indépendamment de tout corpus et tout domaine Mode de constitution (C. FREROT, ERSS) Extraire l’information sur la sous-catégorisation verbale à distance des prépositions à, dans, sur Appartenance à la forme canonique N0 V N1 Prep N2 Filtrage des données : on exclut les restrictions de sélection Nature sémantique du syntagme prépositionnel non encodée dans l’analyseur (traits humain, non humain…) Ex : N1 = : « coup » : Max a (allongé, balancé, envoyé, mis) une gifle à Ida Liste LG : 1659 couples (vb,prep) ; 1182 verbes différents D. BOURIGAULT Sémantique et corpus, 2 juin 2004 11 Calcul des probabilités de sous-catégorisation Corpus partiellement annoté Le Monde (1990-1996) : 140 millions de mots Étiquetage morpho-syntaxique (Treetagger) + premiers modules Syntex A partir des cas non ambigus : 1- Pour une préposition p, qui régit le mot m’, le module Recherche_candidats a trouvé un seul candidat recteur : m 2- Pour un mot m, le module Recherche_candidats ne l’a retenu comme candidat recteur pour aucune préposition 1- freq (m, p,m’) + 1 2- freq (m,0) + 1 Je l’ai mangé avec une fourchette Jean a mangé. freq (manger, avec, fourchette) + 1 freq (manger, 0) + 1 D. BOURIGAULT Sémantique et corpus, 2 juin 2004 12 Calcul des probabilités de sous-catégorisation fréquence de m sans préposition : freq(m,0) fréquence de m avec la préposition p : freq(m,p) = m’ freq(m,p,m’) fréquence totale de m : freq(m) = freq(m,0) + p freq(m,p) productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 } freq(m,p) proba(m,p) = log ( 1 + prod(m,p) ) * freq(m) k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5 freq(manger,à)=5 prod(manger,avec)=1 prod(manger,à)=5 proba(manger,avec)=0.28 proba(manger,à)=0.72 D. BOURIGAULT Sémantique et corpus, 2 juin 2004 13 Calcul des probabilités de sous-catégorisation Exemple de ressource endogène : résultats sur un corpus médical proba mot prep prod freq p freq freq0 0,444 accord avec 4 4 9 5 0,246 accouchement par 2 9 33 19 0,418 allergie à 21 41 98 57 0,200 amylasémie à 2 2 10 8 0,469 analgésie par 6 20 44 23 0,200 anémie à 5 11 61 47 0,735 antibioprophylaxie par 10 21 30 7 0,355 antibiothérapie par 29 63 195 123 0,235 anticoagulation par 4 4 19 13 0,616 argument pour 14 16 28 2 0,312 argument en faveur de 8 10 28 2 0,308 arme à 3 24 78 54 0,600 bactériémie à 5 6 10 4 D. BOURIGAULT Sémantique et corpus, 2 juin 2004 14 Calcul des probabilités de sous-catégorisation Itérations Etape 0 : ressources exogènes R0 Etape i : Résoudre les ambiguïtés de rattachement à l’aide de la ressource construite à l’étape i-1 (Ri-1) Pour chaque cas ambigu : { (mj, p,m’) , j=1 à ncand } S’il existe un candidat k tel que prob(mk, P) >> prob(mjk,P) : (rattachement certain) freq(mk,p,m’) + 1 freq(mjk,0) + 1 Sinon (rattachement incertain) freq(mj,P,m’) + 1 / ncand pour j=1 à ncand Recalculer les probabilités avec ces nouvelles fréquences plus les fréquences calculées sur les cas non ambigus (étape 0) : Ri D. BOURIGAULT Sémantique et corpus, 2 juin 2004 15 Calcul des probabilités de sous-catégorisation Résultats Corpus d’apprentissage de 140 M mots (Le Monde, 1990-96) Convergence après 4 itérations Nombre de couples (m,p) : 10 759 freq(m)>=50 proba(m,p) >0.05 D. BOURIGAULT cat Total Nom VINF Adj 569 531 38 Nom 3813 3676 137 Vb 6377 5878 499 Sémantique et corpus, 2 juin 2004 16 Probabilités de sous-catégorisation de noms proba mot prep prod freq freqtot freq0 0,622 accès à 1238 6180 10185 3741 0,864 accession à 136 1417 1665 213 0,539 accointance avec 39 48 95 41 0,606 allusion à 791 1319 2227 867 0,537 appartenance à 338 1318 2479 1146 0,528 assignation à 16 156 345 109 0,564 assujettissement à 35 56 101 44 0,554 butte à 162 365 684 301 0,773 cofinancé par 30 45 61 13 0,510 conformité avec 126 362 761 234 0,606 croupière à 38 49 86 32 0,745 haro sur 52 63 86 22 0,546 hockey sur 3 310 570 253 D. BOURIGAULT Sémantique et corpus, 2 juin 2004 17 Validation de la liste LG sur le corpus LM Histogramme des fréquences des verbes de LG dans le corpus LM nb 770 verbes / 1182 1 117 couples (vb, prep) / 1659 500 400 300 200 100 (412) (375) 100 D. BOURIGAULT (271) 1000 Sémantique et corpus, 2 juin 2004 (124) 10000 100000 freq 18 Verbes de LG écartés de l’analyse Verbes de LG dont la fréquence d’occurrence dans le corpus LM est nulle : chourer ; abouter ; begayer ; discounter ; cabler ; condondre ; hâbler ; mendigoter ; faire tenir ; camionner ; râcler ; rencoquiller ; radotter ; sussurer ; encabaner ; encuver ; affimer ; postposer ; annoner ; redevoir ; asséner ; renfoncer ; trimbaler ; avoir à redire ; écornifler ; trompéter ; faire revenir ; pelotonner ; grognonner ; contrecoller ; enchainer ; piauler ; rencogner ; réexpédier ; exhiler ; enchrister ; goupiller ; insufler ; céler ; faire accroître ; pieuter ; faire valoir ; ébouler ; surjeter ; mender ; Verbes de LG dont la fréquence d’occurrence dans le corpus LM est inférieure à 100 : aboucher (1) ; abouler (1) ; abêtir (11) ; accouder (4) ; accoutumer (84) ; accroupir (16) ; affaisser (3) ; affaler (20) ; affermer (16) ; agenouiller (14) ; agrafer (10) ; agripper (66) ; aguerrir (37) ; ahaner (31) ; aiguiller (98) ; alléguer (80) ; alunir (1) ; amarrer (90) ; amerrir (9) ; ameuter (32) ; apitoyer (32) ; aplatir (67) ; apponter (4) ; apprêter (34) ; arnaquer (30) ; assermenter (8) ; attabler (30) ; attarder (38) ; atteler (44) ; aventurer (23) ; aérer (99) ; (…) D. BOURIGAULT Sémantique et corpus, 2 juin 2004 19 Probabilités des couples (vb,prep) de LG calculées sur le corpus LM lg = 1 si (vb,prep) LG f = freq(vb,prep) f tot =freq(vb) p = f / f tot cat = catégorie du régi de prep D. BOURIGAULT Sémantique et corpus, 2 juin 2004 20 Histogramme des probabilités des couples (vb,prep) de LG proba nb cumul 0 39 39 [ 0.00 , 0.01 [ 70 109 [ 0.01 , 0.02 [ 208 317 [ 0.02 , 0.05 [ 233 550 [ 0.05 , 0.10 [ 212 762 [ 0.10 , 0.25 [ 225 987 [ 0.25 , 0.50 [ 99 1086 [ 0.50 , 1.00 [ 31 1117 D. BOURIGAULT Si seuil probabilité = 0.05 550 couples « infirmés » par le corpus freq(vb,prep) = 0 Ou p(vb,prep) < 0.05 567 couples « confirmés » par le corpus p(vb,prep)>= 0.05 Sémantique et corpus, 2 juin 2004 21 Couples (vb,prep) de LG absents du corpus D. BOURIGAULT Sémantique et corpus, 2 juin 2004 22 Couples (vb,prep) de LG de probabilité inférieure à 0.05 pas (peu) fréquent/probable, (…) , très fréquent/probable ≠ «impossible », « * », « facultatif », « optionnel », (…) , « obligatoire » D. BOURIGAULT Sémantique et corpus, 2 juin 2004 23 Couples (vb,prep) de LG de probabilité supérieure à 0.05 Rappel : la liste LG est construite à partir du schéma : N0 V N1 prep N2 Proportion des cas où vb est construit avec prep et vb n’a pas d’objet (analyse Syntex) D. BOURIGAULT Sémantique et corpus, 2 juin 2004 24 Couples de LG (vb,prep) sans objet dans le corpus LM D. BOURIGAULT Sémantique et corpus, 2 juin 2004 25 Compléter LG : couples (vb, prep) du corpus LM absents de la liste LG à (243) p dans (135) vb p dans (65) vb p vb 0,59 affilier à 0,28 entasser dans 0,2 axer sur 0,31 chiffrer à 0,5 replacer dans 0,39 calquer sur 0,32 comparer à 0,23 réfugier dans 0,28 concentrer sur 0,55 confronter à 0,22 réinstaller dans 0,24 déverser sur 0,24 coter à 0,2 dans 0,2 fonder sur 0,29 coupler à 0,63 spécialiser dans 0,64 indexer sur 0,38 déférer à 0,27 transposer dans 0,21 interroger sur (…) D. BOURIGAULT se frayer (…) Sémantique et corpus, 2 juin 2004 (…) 26 Réflexions La vérité ne jaillit pas d’elle-même « du » corpus Même si le corpus est très gros Même si les méthodes quantitatives sont très sophistiquées Le linguiste choisit le corpus, choisit les méthodes, en fonction de son projet (hypothèses, cadre théorique, application) Les entités manipulées par les outils ne sont pas équivalentes aux unités travaillées par le linguiste Par exemple : Outils : lemme+catégorie, relation de rection Linguiste : sens de verbe, cadre syntactico-sémantique de souscatégorisation D. BOURIGAULT Sémantique et corpus, 2 juin 2004 27 Réflexions (suite) : quantitatif/qualitatif « gro cé bo ? » Oui, Mais : Il faut de la quantité pour évaluer des probabilités La quantité vient compenser les erreurs d’analyse, les approximations, la faible précision des outils automatiques « Il faut battre les corpus », pour mesurer la stabilité, la robustesse des résultats Il faut procéder à des analyses contrastives inter-corpus « probabiliser les événements linguistiques » En particulier, les outils de traitements automatique des langues ont besoin de propriétés probabilisées D. BOURIGAULT Sémantique et corpus, 2 juin 2004 28 Résultats de l’évaluation % précision choix par défaut : le dernier 100 Prec % 90 80 70 base endo exo mixte BAL 83.7 84.7 87.4 87.4 LMO 70.5 81.9 86.6 86.7 CTR 61.8 81.1 85.8 86.2 MED 54.0 76.3 65.8 77.6 60 50 base endo D. BOURIGAULT exo mixte Sémantique et corpus, 2 juin 2004 29