Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique Didier BOURIGAULT, Cécile FREROT Equipe de Recherche en Syntaxe et Sémantique CNRS – Université Toulouse Le Mirail {didier.bourigault,frerot}@univ-tlse2.fr www.univ-tlse2.fr/erss/ Objectif de l’étude Evaluation des performances d’un analyseur syntaxique (Syntex), pour la tâche de résolution des ambiguïtés de rattachement prépositionnel, effectuée à l’aide d’un lexique de de sous-catégorisation acquis sur un corpus d’apprentissage de 200 millions de mots, sur des corpus d’évaluation de genre variés Journalistique, littéraire, juridique, médical D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 2 Ambiguïté de rattachement prépositionnel Un problème « classique » Beaucoup de travaux, depuis (Hindle & Rooth, 1993) Il voit un homme avec un télescope il mange une pizza avec des olives Faire varier les corpus d’évaluation Gildea (2001) : «Most work in statistical method has focused on a single corpus: the Wall Street Journal portion of the Penn Treebank » Kilgarriff & Greffenstette (2003) : « There is little work on assessing how well one language language model fares when applied to a text type that is different from that of the training corpus. » (Basili et al.1999) (Illouz, 1999) (Roland & al., 2000) (Gildea, 2001) D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 3 Méthode de résolution des ambiguïtés de rattachement prépositionnel En entrée : une phrase étiquetée, partiellement analysée 1ère étape : rechercher_candidats : Etant donné une préposition p, qui régit un mot m’, rechercher dans le contexte gauche l’ensemble des mots mj susceptibles de régir la préposition p des règles qui décrivent dans quelles configurations conserver un mot comme candidat « sauter » un mot arrêter la recherche 2ème étape : choisir_candidat Sur la base d’indices affectés à chacun des candidats Principal indice : probabilité que le mot candidat mj se construise avec la préposition p : proba(mj, p) D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 4 Recherche des candidats La France défendra ses intérêts avec la plus grande fermeté . Le problème est triple : insuffisance de la recherche sur des pathologies, … Certains pays réclament l'élimination totale des subventions agricoles à l' exportation Son rôle serait de protéger un port ou un dispositif naval en mouvement On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 5 Recherche des candidats Pas de rattachement : En France , cinq millions d' emplois sont liés à l' exportation Sur l'agriculture , l' Europe fait cause commune face à un front composé des Etats-Unis , de pays exportateurs comme l' Australie , la Nouvelle Zélande , l' Argentine et le Brésil A 1,0039 dollar , la monnaie européenne se retrouve ainsi quasiment à parité avec le billet vert . Elle se situe au quatrième rang mondial des pays exportateurs de produits manufacturés, derrière les Etats-Unis , l'Allemagne et le Japon De même, on ne saurait , sous le prétexte de l'urgence , négliger l'impératif du développement d' infrastructures sanitaires , dont l'absence fait le lit de maladies , comme la tuberculose ou le trachome D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 6 Acquisition de propriétés de sous-catégorisation Calcul de probabilités de sous-catégorisation A partir d’un corpus annoté manuellement (PTB) A partir d’un corpus étiqueté automatiquement A partir du Web Méthode testée A partir d’un corpus de 200 millions de mots : journal Le Monde, années 1991 à 2000 (LM10) Grande taille Thématiquement diversifié Ressources génériques Etiqueté (Treetagger) et partiellement analysé syntaxiquement (Syntex) D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 7 Procédure d’acquisition à partir du corpus LM10 Deux itérations sur le corpus LM10 1) Amorçage : n’exploiter que les informations acquises dans des contextes non ambigus Construire un premier lexique de sous-catégorisation à partir de ces informations : proba(m,p) 2) Consolidation : Utiliser le lexique construit à l’étape précédente, pour résoudre les ambiguïtés de rattachement prépositionnel construire le lexique final en exploitant les informations acquises dans tous les contextes (non ambigus et ambigus résolus) nb d’occurrences où le mot m régit la préposition p proba(m,p) = nb total d’occurrences du mot m D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 8 Procédure d’acquisition à partir du corpus LM10 LM10 étiqueté 1- Amorçage cas de rattachement prépositionnel non ambigus rechercher_candidat 2- Consolidation choisir_candidat cas de rattachement prépositionnel résolus avec L0 Résolution : Le candidat de plus forte probabilité. Par défaut : le premier Calcul proba(m,p) Calcul proba(m,p) Lexique L0 Lexique L1 D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 Lexique final 9 Etape d’amorçage A partir des cas de rattachement non ambigus : 1- Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé un seul candidat recteur (m) : Incrémenter freq (m, p, m’) de 1 2- Pour un mot m : le module chercher_candidats ne l’a retenu comme candidat recteur pour aucune préposition Incrémenter freq (m,0) de 1 freq0 (m) + 1 freq (m, p, m’) + 1 Je l’ai mangé avec une fourchette Jean a mangé. freq (manger, avec, fourchette) + 1 freq0 (manger) + 1 D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 10 Calcul des probabilités pondérées fréquence de m sans préposition : freq0(m) fréquence de m avec la préposition p : freq(m,p) = m’ freq(m,p,m’) fréquence totale de m : freq(m) = freq0(m) + p freq(m,p) productivité de m avec p : prod(m,p)=Card { m’ / freq(m,p,m’) > 0 } freq(m,p) proba(m,p) = log ( 1 + prod(m,p) ) * freq(m) k freq (manger, avec, Jean)=5 freq(manger,à,restaurant|maison|self|cantine|table)=1 freq(manger,avec)=5 freq(manger,à)=5 prod(manger,avec)=1 prod(manger,à)=5 proba(manger,avec)=0.28 D. BOURIGAULT, C FREROT proba(manger,à)=0.72 TALN 2005, Dourdan, juin 2005 11 Lexique d’amorçage proba mot 0,765 abonner 0,536 prod freq p freq freq0 à 120 260 408 48 aboutir à 1451 5201 10555 3980 0,788 accéder à 881 3683 4972 834 0,535 accoler à 98 121 254 109 0,569 accorder à 2498 9494 17990 6883 0,871 accouder à 32 68 86 2 0,558 accrocher à 515 1064 2240 714 0,578 acculer à 104 229 443 89 0,641 achopper sur 109 221 379 122 0,650 adapter à 935 3780 6204 1852 0,700 adhérer à 538 2143 3249 896 0,772 adjoindre à 406 3085 4297 620 0,873 adosser à 228 392 462 55 D. BOURIGAULT, C FREROT prep TALN 2005, Dourdan, juin 2005 12 Etape de consolidation A partir de tous les cas de rattachement : 1a- Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé un seul candidat recteur (m) : Incrémenter freq (m, p, m’) de 1 1b- Pour une préposition p, qui régit le mot m’ : le module chercher_candidats a trouvé plusieurs candidats recteurs le module choisir_candidat choisit le candidat m qui a la probabilité la plus élevée Incrémenter freq (m, p, m’) de 1 2- Pour tout mot m recteur d’aucune préposition Incrémenter freq (m,0) de 1 Recalculer les probabilités avec les nouvelles données de fréquences : lexique final D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 13 Lexique final Nombre d’occurrences de couples (m,p) extraits du corpus LM10 Nombre de couples (m,p) retenus dans le lexique L1 étape d’amorçage étape de confirmation (verbe,prep+nom) 4 732 143 7 924 140 (verbe,prep+nom) 26 031 (verbe,prep+vinf) 656 083 947 562 (verbe,prep+vinf) 2 501 (nom,prep+nom) 1 207 453 2 671 314 (nom,prep+nom) 15 548 (nom,prep+vinf) 61 957 125 502 (nom,prep+vinf) 294 (adj,prep+nom) 80 641 223 333 (adj,prep+nom) 811 (adj,prep+vinf) 10 900 45 030 (adj,prep+vinf) 40 frep >= 20 proba >=0.01 6 693 verbes, 11 528 noms, 698 adjectifs différents D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 14 Lexique final proba mot prep prod freq freqtot freq0 0,622 accès à 1238 6180 10185 3741 0,864 accession à 136 1417 1665 213 0,539 accointance avec 39 48 95 41 0,606 allusion à 791 1319 2227 867 0,537 appartenance à 338 1318 2479 1146 0,528 assignation à 16 156 345 109 0,564 assujettissement à 35 56 101 44 0,554 butte à 162 365 684 301 0,773 cofinancé par 30 45 61 13 0,510 conformité avec 126 362 761 234 0,606 croupière à 38 49 86 32 0,745 haro sur 52 63 86 22 0,546 hockey sur 3 310 570 253 D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 15 Annotation de corpus La tâche d’annotation est partie intégrante de l’activité de développement de l’analyseur Annotation de corpus variés Nb de mots Nb de cas annotés BAL 199 789 672 Journalistique un extrait du Monde LMO 673 187 1 238 Juridique le Code du travail CTR 509 124 1 150 Médical Compte rendus d’hospitalisation MED 377 967 646 Littéraire Balzac (Splendeur …) D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 16 Annotation de corpus Règles d’annotations : Annoter plusieurs centaines de cas sur chaque corpus Assurer la diversité des configurations syntaxiques Arrêter l’annotation quand on estime que la couverture est satisfaisante L’objectif de l’annotation est d’évaluer la procédure de sélection des candidats Ne pas annoter en cas d’erreurs d’étiquetage Ne pas annoter en cas d’erreur dans la recherche des candidats Ne pas distinguer argument/circonstant Se donner la possibilité : de valider 2 candidats (verbe support), de passer… Il y a nécessairement une part de subjectivité dans l’annotation D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 17 Stratégies de résolution 4 stratégies Base : calcul de probabilités à partir du corpus en cours d’analyse le premier j / (mj,p,m’) a été repéré dans un contexte non ambigu sinon celui qui a la probabilité la plus élevée sinon le premier Exogène : le premier candidat Endogène manger une pizza aux olives (manger,à,olive) € corpus ? (pizza,à,olive) € corpus ? celui qui a la probabilité la plus élevée sinon le premier Mixte : Le premier j / (mj,p,m’) a été repéré dans un contexte non ambigu sinon celui qui a la probabilité la plus élevée (endo ou exo) sinon le premier D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 18 Calcul des probabilités de sous-catégorisation Lexique endogène : résultats sur le corpus médical proba mot prep prod freq p freq freq0 0,444 accord avec 4 4 9 5 0,246 accouchement par 2 9 33 19 0,418 allergie à 21 41 98 57 0,200 amylasémie à 2 2 10 8 0,469 analgésie par 6 20 44 23 0,200 anémie à 5 11 61 47 0,735 antibioprophylaxie par 10 21 30 7 0,355 antibiothérapie par 29 63 195 123 0,235 anticoagulation par 4 4 19 13 0,616 argument pour 14 16 28 2 0,312 argument en faveur de 8 10 28 2 0,308 arme à 3 24 78 54 0,600 bactériémie à 5 6 10 4 D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 19 Résultats de l’évaluation % précision 100 Prec % 90 80 70 base endo exo mixte BAL 83.0 83.5 86.9 86.6 LMO 70.3 80.1 86.6 85.9 CTR 65.5 82.3 86.3 87.3 MED 59.9 78.0 66.3 78.3 60 50 base endo D. BOURIGAULT, C FREROT exo mixte TALN 2005, Dourdan, juin 2005 20 Conclusion sur la stabilité Le corpus médical a un comportement particulier À cause du « style » et non du domaine Sur les 3 autres corpus (journalistique, juridique et littéraire), les performances sont étonnamment stables Autour de 87% La stratégie de base est très bonne sur le corpus littéraire L’apport d’informations endogènes : dégrade légèrement les résultats sur les corpus littéraire et journalistique améliore sensiblement les résultats sur le corpus juridique D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 21 Conclusion sur le lexique Le lexique de sous-catégorisation syntaxique est exploité par l’analyseur sans avoir été validé manuellement. Il est performant pour la tâche de résolution des ambiguïtés prépositionnelles. Sur le plan linguistique, ce lexique n’est pas comparable aux lexiques construits à la main ou aux dictionnaires de langue : La probabilité qu’a un verbe de sous-catégoriser telle préposition est calculée à partir de toutes les occurrences (lemmatisées) de ce verbe, sans distinction de ses différentes sens Dans le contexte du développement d’un analyseur syntaxique « tout terrain », l’approximation à laquelle conduit ce lissage des sens est un mal nécessaire. D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 22 Perspectives Utiliser des informations « sémantiques » générales Prendre en compte le régi de la préposition : m’ Exploiter les triplets (m,p,m’) extraits de LM10 Utiliser des informations sémantiques Liens entre mots Classes sémantiques Quelles ressources ? Ressources lexicales existantes (Dicosyn de l’U. de Caen) Ressources construites automatiquement à partir de l’Analyse Distributionnelle de très gros corpus (manger,à,anchois) € LM10 ? manger une pizza aux anchois (pizza,à,anchois) € LM10 ? (pizza,à,olive) € LM10 ? D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 23 Les Voisins de Le Monde Une base de données lexico-distributionnelle du français Analyse distributionnelle (syntex+upery) sur le corpus LM10 http://www.univ-tlse2.fr/erss/voisinsdelemonde/ D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 24 Boire un café au lait € Boire un café au bar Boire un café au bistrot Allouer des crédits à la recherche Allouer des aides à la recherche Subventionner la recherche (bof) D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 25