Outil pour repérer les occurences du pronom impersonnel il

publicité
Reconnaissance automatique des
constructions impersonnelles
Laurence DANLOS
Université Paris 7, LATTICE
Institut Universitaire de France
Outil : ILIMP
Entrée : texte brut en français
 Sortie : le texte d’entrée où chaque
occurrence de il est marqué par une
des balises :

– [ANA] : Il [ANA] est violet (Elle est violette)
– [IMP] : Il [IMP] pleut (*Elle pleut)
– [AMB] : Il [AMB] est certain que Fred
viendra
Utilisation d’ILIMP
En amont d’un système de résolution
des anaphores
 Raffinement d’un tagger :
étiquette PRO  PRO-ANA, PROIMP
 Intégration dans la chaîne de
traitements d’un analyseur modulaire
 Produits dérivés d’ILIMP

Travaux connexes
(sur l’anglais)

Lapin, Leass, 1994 : système à bases de
régles linguistiques, mais qui repose sur une
analyse syntaxique
 Kennedy, Bogurev, 1996
 Evans 2001: techniques d’apprentissage
Méthode pour ILIMP
Données linguistiques : le lexiquegrammaire développé au LADL
 Outil informatique : UNITEX développé
par l’IGM (Institut Gaspard Monge)

Constructions impersonnelles

Constructions intrinsèquement
impersonnelles

Constructions avec un « sujet profond »
extraposé :
– Phrastique (complétive ou infinitive)
– Nominal
Constructions intrinsèquement
impersonnelles

45 verbes météorologiques de (BGL 1976)
il neige (V31i)
il fait beau
 21 verbes de la Table 17 de (Gross 1975)
Il faut que Fred vienne
 38 expressions figées de (Gross 1993)
il était une fois
s’il te plaît
quoi qu’il en soit
Constructions impersonnelles
avec sujet profond phrastique

682 Adjectifs (L. Picabia, A. Meunier)
est probable que Fred viendra
 88 être Prép X (L. Danlos)
est de règle de porter un chapeau
 21 Verbes de la Table 5 (M. Gross)
plaît à Paul que Fred vienne
 232 Verbes des Tables 6 au 9 (M. Gross)
a été dit/se raconte que Fred viendra
Il
Il
Il
Il
Constructions impersonnelles
avec sujet profond nominal

Verbes sans complétive (J.P. Boons, A.
Guillet, C. Leclère) :

Langue courante
Il
manque/reste du pain

Langue châtiée (verbes au passif ou
verbes « inaccusatifs »)
a été mangé trois gâteaux
Il est
venu / a dormi trois personnes dans ce lit
Il
Complémentation
des têtes lexicales

Pour une même tête lexicale : construction
impersonnelle ou personnelle selon la
complémentation
 Impersonnel :
Il est difficile de résoudre ce problème
 Personnel :
Il est difficile à résoudre, ce problème
UNITEX
Outil qui permet d’écrire des patrons
linguistiques (expressions régulières,
automates et transducteurs) qui sont
localisés dans le texte d’entrée
 Pré-traitement du texte d’entrée :

– découpage en phrases
– assignement des parties du discours et traits
flexionnels à chaque token (dico DELAS)
– Pas de désambiguïsation (pas de tagging)
UNITEX pour ILIMP

Ecrire un ensemble de patrons comme :
Il [IMP] <être.V:3s> :Adj1 de <V:W>
Il [IMP] est difficile de résoudre ce problème
•[ANA] valeur par défaut :
Il [ANA] est difficile à résoudre
Réalisation de ILIMP
Contexte gauche de la tête lexicale
 Contexte droite de la tête lexicale

Contexte gauche de la tête
lexicale
Simple :
Il
est difficile de résoudre ce problème
 Complexe :
Il
peut lui paraître très difficile de résoudre ce
problème
Il
ne s'est pas avéré difficile de résoudre ce
problème
 Pas de réelles difficultés : laborieux

Contexte droite de la tête lexicale

Ambiguïtés syntaxiques
 Ambiguïtés lexicales
 Autres ambiguïtés
Ambiguïtés syntaxiques

Une séquence de parties de discours peut
recevoir plusieurs analyses syntaxiques :
Il est difficile pour <MOT>* de <V:W>
Il [IMP]est difficile pour (<MOT>*)GN de <V:W> Il
est difficile pour (les étudiants qui viennent ici) de
résoudre ce problème
Il [ANA]est difficile pour (<MOT>* de<V:W>)GN Il
est difficile pour (les étudiants qui viennent juste de
résoudre ce problème)
Ambiguïtés syntaxiques
Utiliser la balise [AMB] :
Il [AMB] est difficile pour <MOT>* de <V:W>
 A utiliser avec modération : peu utile pour les
traitements ultérieurs
 Heuristiques basées sur des fréquences :
Il [IMP] est difficile pour <MOT>* de <V:W>
 Nombreuses heuristiques basées sur mon intuition
linguistique et/ou sur des études quantitatives dans
les corpus

Ambiguïtés lexicales
Quelques cas : certain avec une
complétive
Il est certain que Fred viendra
 certain a deux sens : probable et convaincu
 Pas de différence de fréquences : balise
[AMB]
Il[AMB] est certain que P

Autres ambiguïtés

le verbe manquer ou rester suivi d’un GN :
Il [ANA] manque de poivre (ce rôti)
Il
[IMP] manque du poivre (dans cette maison)
Il [ANA] reste la priorité du gouvernement (le
chômage)
Il
[IMP] reste la valise du chef (dans la voiture)
Conclusion sur la réalisation
d’ILIMP

Recours à de nombreuses heuristiques
pour éviter un emploi abusif de la balise
[AMB]
Evaluation d’ILIMP





Corpus Le Monde 1994 de 3. 782.613 tokens
segmenté par UNITEX en 71.293 phrases
13.611 occurrences de il
20.540 occurrences de il, elle, ils, elles
66% de il sur les pronoms personnels sujet
approximativement : 1/5 phrase a pour sujet il
Evaluation d’ILIMP
Extraction de 8544 phrases contenant
au moins une occurrence de il
 Près de 10.000 occurrences de il
 Résultats d’ILIMP évalués manuellement par des amis et collègues

Evaluation d’ILIMP
 Sur
10 000 occurrences de il :
253 erreurs
soit un taux de précision de
97,5 %
Commentaires sur les erreurs de
ILIMP

Premier type d’erreur: il balisé à tort
[IMP] au lieu de [ANA] : 33
Second type d’erreur: il balisé à tort
[ANA] au lieu de [IMP] : 208
 Autres erreurs : 12

il balisé à tort [IMP]
au lieu de[ANA]
Très peu d’erreurs : 0,3%
 il y a «théoriquement»ambiguë :


– il[IMP] y a quatre ans / une solution à ce
problème
– Fred, dans ce village, il[ANA] y a des amis
Dans ILIMP : il[IMP] y a

Sur corpus : 2 erreurs sur 1500
Il[ANA] revient de Rimini, il[ANA] y a donné la
réplique à …
il balisé à tort [ANA]
au lieu de[IMP]
 Plus
d’erreurs : 2%

[ANA] est la valeur par défaut

Lacunes dans les patrons
il balisé à tort [ANA]
au lieu de[IMP] 1/4

Lacunes de « paresse/manque de
temps » :
– les guillemets :
Il[ANA] était " même souhaitable " que celui-ci
soit issu " de l’opposition ".
– les coordinations :
Il[ANA] est donc indispensable et légitime de les
aider
– les inversions du sujet :
Est-il[ANA] inconcevable que ...
il balisé à tort [ANA]
au lieu de[IMP] 2/4

Lacunes lexicales :
– Il faut compléter la liste des 682 adjectifs à
sujet phrastique extraposable

Listes fermées et stables ?
– Oui
? Il semble tout à fait myope, voire aveugle, de
penser que la situation ne peut se détériorer
? Cette action/cette idée est myope
il balisé à tort [ANA]
au lieu de[IMP] 3/4

Lacunes syntaxiques :
– Sujet phrastique extraposé obligatoire,
mais pas toujours le cas :
Comme il a été annoncé / il a été prétendu
Comme il arrive souvent / il conviendrait
il balisé à tort [ANA]
au lieu de[IMP] 4/4

Lacunes linguistiques :
– Erreurs dues à des sujets profonds nominaux :
Il[ANA] s’est formé un cercle d’inimitié
autour de cet individu abject
 Ce
quatrième type d’erreur est
difficile
Autres erreurs : 0,2%
 il
pas pronom sujet :
Cela a commencé dans la seconde
moitié du 18ème, quand, à Milan, se
publie cette revue illuministe appelée
Il[ANA] Caffè.
 fautes
de frappe/d’orthographe :
Il[ANA] y vingt-cinq ans
Puis Il[ANA] ont franchi les
obstacles dans les bois
Corpus différents

Le Monde
– 42% des occurrences de il doivent être
balisées [IMP]
– Taux de précision d’ILIMP : 97,5%

Textes littéraires du XIXème siècle
– 49,8% des occurrences de il doivent être
balisées [IMP]
– Taux de précision d’ILIMP : 96,8%
Erreurs provenant d'ambiguïtés
morphologiques
Comptabilisées dans les erreurs d’ILIMP
Il [IMP] <avoir.V:3s> été <V6:K> (ADV) que P
Il a été choisi que les séances se feraient le
matin vers 9h
Il a été choisi plutôt que l’acier ou le béton pour
soutenir une toiture de 170 mètres
 mètres : forme finie du verbe métrer, pluriel du
nom mètre

Intégration d’ILIMP dans une
chaîne de traitements
Avant ou après un taggeur ?
 Avant ou après un système de
reconnaissance d’entités nommées ?

Conclusion sur ILIMP

Outil qui donne de très bons résultats (surtout
en considérant qu’il part d’un texte brut)
 Outil qui peut être complété par des produits
dérivés, e.g. identification des fonctions
syntaxiques « profondes » ou identification de
l’amas verbal (Gerdes et Kahane)
Il
est probable que [sujet-profond Fred viendra]
Conclusion sur la méthode
ILIMP est portable à d’autres langues
 La méthode (données linguistiques +
UNITEX) est portable à d’autres tâches

– tri dans les constructions pronominales
– désambiguïsation de que (voir la communication
suivante de M. P. Jacques)
Les petits ruisseaux font les grandes rivières
Téléchargement