Acquisition et évaluation sur corpus de propriétés de sous

Téléchargement

Acquisition et évaluation sur corpus

de propriétés de sous-catégorisation

syntaxique

Didier BOURIGAULT, Cécile FREROT

Equipe de Recherche en Syntaxe et Sémantique

CNRS –Université Toulouse Le Mirail

{didier.bourigault,frerot}@univ-tlse2.fr

www.univ-tlse2.fr/erss/

D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 2

Evaluation des performances d’un analyseur syntaxique

(Syntex),

pour la tâche de résolution des ambiguïtés de

rattachement prépositionnel,

effectuée à l’aide d’un lexique de de sous-catégorisation

acquis sur un corpus d’apprentissage de 200 millions de

mots,

sur des corpus d’évaluation de genre variés

Journalistique, littéraire, juridique, médical

Objectif de l’étude

D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 3

Ambiguïté de rattachement prépositionnel

Un problème « classique »

Beaucoup de travaux, depuis (Hindle & Rooth, 1993)

Il voit un homme avec un télescope

il mange une pizza avec des olives

Faire varier les corpus d’évaluation

Gildea (2001) : «Most work in statistical method has focused on a

single corpus: the Wall Street Journal portion of the Penn Treebank »

Kilgarriff & Greffenstette (2003) : « There is little work on assessing

how well one language language model fares when applied to a text

type that is different from that of the training corpus. »

(Basili et al.1999) (Illouz, 1999) (Roland & al., 2000) (Gildea, 2001)

D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 4

Méthode de résolution des ambiguïtés de

rattachement prépositionnel

En entrée : une phrase étiquetée, partiellement analysée

1ère étape : rechercher_candidats :

Etant donné une préposition p, qui régit un mot m’, rechercher

dans le contexte gauche l’ensemble des mots mjsusceptibles de

régir la préposition p

des règles qui décrivent dans quelles configurations

conserver un mot comme candidat

« sauter » un mot

arrêter la recherche

2ème étape : choisir_candidat

Sur la base d’indices affectés à chacun des candidats

Principal indice : probabilité que le mot candidat mjse construise

avec la préposition p : proba(mj, p)

D. BOURIGAULT, C FREROT TALN 2005, Dourdan, juin 2005 5

Recherche des candidats

La France défendra ses intérêts avec la plus grande fermeté .

Le problème est triple : insuffisance de la recherche sur des pathologies, …

Son rôle serait de protéger un port ou un dispositif naval en mouvement

On lui proposait des rôles dans des comédies idiotes et des films d'action sans scénario

Certains pays réclament l'élimination totale des subventions agricoles àl' exportation

1 / 25 100%

Documents connexes

corpus 10 mai nrc13

info document

BA 7 – EVALUATION ORALE DRAMATURGIE Liste de textes 3

le corps dans tous ses etats dans l`oeuvre de john donne

special jeunes……stage de formation aux premiers secours la croix

Introduction

Révisions pour le brevet blanc 3e2 Séquence 1 : Nouvelles à chute

Verbe ou révérence

Lexico 3

Compte-rendu de l`exercice d`écriture

Vers un apprentissage en TALN dépendant du type de Texte

LES PRONOMS RELATIFS

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Acquisition et évaluation sur corpus de propriétés de sous

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Acquisition et évaluation sur corpus de propriétés de sous

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib