Bien que le pronom constitue la forme prototypique de l’anaphore, les formes qu’elle
peut prendre sont plus diversifiées : ainsi, une anaphore peut être nominale définie (c),
démonstrative (d) ou indéfinie(e) ou encore associative (i.e. il s’agit d’une forme de reprise
pour laquelle l’anaphorique et l’antécédent sont liés sémantiquement sans faire référence à
une même entité : elle relève d’un savoir partagé et se manifeste souvent par une relation
de type métonymique (f)).
c) « Tu as invité Pierre,le garçon très charmant. »
d) « Tu as invité Pierre,ce garçon très charmant. »
e) « Tu as invité Pierre,un garçon très charmant. »
f) « Le restaurant est bon mais le serveur est très désa-
gréable. »
Cette notion d’anaphore s’intègre en partie à celle de coréférence. Celle-ci est plus
complexe puisqu’elle décrit la relation existant entre plusieurs expressions référant à une
même entité. Contrairement à l’anaphore qui distinguait strictement ses deux parties,
la relation de coréférence est symétrique (en effet, deux expressions coréférentes xet
ypeuvent être définies par x est coréférent de y aussi bien que par y est coréférent
de x). Dans (Corblin, 1995), une chaîne de coréférence est définie comme « une suite
d’expressions d’un texte entre lesquelles l’interprétation établit une identité de référence »
dont les différentes expressions constituent des maillons. Cette unité discursive de chaîne
de coréférence est souvent réduite à la description d’une suite de relations anaphoriques
que l’on peut reconstituer par transitivité. Par exemple, la chaîne de coréférence [Jean-
Pierre Bel1, président du Sénat2, il3, son4] présente en (g) pourrait se ramener à la
suite de paires anaphoriques [[Jean-Pierre Bel1,président du Sénat2], [Jean-Pierre Bel1,
il3],[Jean-Pierre Bel1,son4]].
g) « Jean-Pierre Bel1,président du Sénat2depuis le
1er octobre 2011, annonce qu’il3quittera son4fauteuil
du Palais du Luxembourg. »
1.1.2 Objectifs
L’objectif de ce travail est double : il s’agit principalement de construire un système
de détection automatique de la coréférence à base d’apprentissage automatique, en s’ins-
pirant des protocoles de travaux existants. A terme, un tel outil pourrait être utile à
des analyses linguistiques approfondies de la problématique que constitue la coréférence,
grâce à l’annotation automatique de grands volumes de données, en limitant les biais de
l’annotation manuelle (erreurs d’inattention, subjectivité de l’annotateur, ...). Si ce n’est
une annotation complète, les fonctionnalités d’un tel système pourraient au moins per-
mettre une pré-annotation de corpus qui diminueraient les coûts financiers et humains
d’une annotation manuelle.
D’un point de vue plus linguistique, l’objectif repose sur l’observation et l’analyse des
procédés de référence dans le discours en français oral. Le corpus annoté dont nous dispo-
sons présente des spécificités qui seront particulièrement étudiées à travers les différents
résultats d’expérimentations, ainsi que par les informations quantitatives des données le
constituant (comme la longueur moyenne des chaînes de coréférence ou encore les critères
discriminants de la séléction d’un antécédent).
Dans ce mémoire, nous commencerons par présenter un historique des systèmes de
l’état de l’art répondant à notre problématique. Puis, à partir des méthodes implémentées
dans ces systèmes, nous décrirons les données dont nous disposons pour l’apprentissage
supervisé avant d’exposer la manière dont elles seront utilisées pour la génération d’un
modèle de détection des chaînes de coréférence. Après la description de notre protocole
4