Identification et extraction automatique des informations

Ghassan MouradJean-Pierre Desclés, Identification et extraction automatique des informations
citationnelles dans un texte. In, &L'LW. &ROORTXHLQWHUQDWLRQDOHWLQWHUGLVFLSOLQDLUH, Bruxelles 8-11
Novembre 2001 (à paraître 2003).
,GHQWLILFDWLRQHWH[WUDFWLRQDXWRPDWLTXHGHVLQIRUPDWLRQVFLWDWLRQQHOOHV
GDQVXQWH[WH
*KDVVDQ0RXUDG-HDQ3LHUUH'HVFOpV
Langage, Logique, Informatique, Cognition et Communication (LaLICC)
FRE 2520, Université Paris – Sorbonne, CNRS
96, Bd Raspail 75006 Paris – France
Tél. : (33) 01 44 39 35 90
[Prenom.Nom]@paris4.sorbonne.fr
,QWURGXWLRQ
Cet article s'inscrit dans le cadre de l'identification automatique et de la description de certains
objets textuels, à savoir l'information citationnelle, qui jouent un rôle fondamentale, d'abord pour
l'organisation du texte, ensuite en tant qu'informations jugées pertinentes pour le filtrage de
textes. La méthode utilisée est celle de l'exploration contextuelle qui s'appuie, selon le type de
l'objet à identifier, sur des indices lexicaux, typographiques et dispositionnels. En effet tous ces
éléments jouent un rôle dans la phase de l'extraction automatique de citation dans un texte. Celle-
ci n'est pas seulement un segment entre guillemets mais elle constitue, selon nous, tout segment
de texte rapporté.
Notre travail d'identification est fondé sur l'étude de textes réels (structurés ou non, par exemple
les textes journalistiques, scientifiques, rapports, etc. voire les textes littéraires). Le travail sur
des corpus divers nous a amené à mettre en évidence les points suivants :
x la citation n'est pas un simple segment textuel toujours déterminé par des marqueurs
typographiques explicites, comme le deux-points et les guillemets ;
x la citation peut être introduite par l'association de marqueurs linguistiques et de marqueurs
typographiques (verbes de communication et guillemets);
x la citation peut être introduite par le biais d'introducteurs linguistiques sans aucun marquage
typographique.
3UREOpPDWLTXH
L’identification et le filtrage de certains segments textuels comme la citation nécessite une étude
systématique du texte traité : de ses composantes linguistiques (par une étude sémantique), et de
ses composantes typographiques (par une étude sémantique de la ponctuation et de l’architecture
du texte, et de la disposition spatiale de certains segments).
L'extraction et l'étiquetage sémantique des citations sont des étapes primordiales pour la
constitution de résumés automatiques. En effet, la citation est un objet important du texte :
qu'elle soit ou non intégrée au texte, elle intervient au premier chef dans l’argumentation
journalistique, scientifique, etc. C'est pourquoi son étude est un enjeu crucial pour la veille
technologique : identifier et extraire les citations permet de découvrir [qui (DIT)] (quoi) et
(comment) ; d'autre part, la citation est l'un des premiers objets textuels perçus et, dans certains
cas, oriente vers la lecture d’ un texte (expérimentation et étude oculométrique, [INSA, projet
SHIVA]).
&ULWqUHVGpILQLWRLUHV
De manière générale, nous définissons la citation comme un acte de langage, celui de rapporter
un discours, que celui-ci soit marqué typographiquement (citation directe) ou non (citation
indirecte). Une citation est tout texte ou fragment textuel rapporté, qu'il soit écrit ou prononcé.
Donc, toute donnée rapportée, qu’ elle soit entre guillemets ou non, est une citation1. En d'autres
termes, "citation" est pour nous un terme générique qui regroupe toutes les formes de discours
rapporté.
/¶H[WUDFWLRQGHFLWDWLRQVSDUODPpWKRGHG¶H[SORUDWLRQFRQWH[WXHOOH
L'exploration contextuelle (EC) est une méthode linguistique basée sur la prise en compte du
contexte pour le repérage de certaines informations sémantiques décelées par des indices textuels
(au sens de Ch. S. Peirce) en vue de répondre à des besoins spécifiques d'utilisateurs. Cette
approche a donné lieu à différentes applications informatiques, comme le résumé automatique,
l'extraction des relations de causalité, de définitions, de citations etc. Elle permet de lever des
indéterminations sémantiques et de prendre certaines décisions pour la construction du sens, le
filtrage de certains informations, la segmentation, etc. [Desclés (2000) Berri (1996) Minel
(2000)].Un système d’ EC fait appel à des connaissances exclusivement linguistiques (des indices
déclencheurs, ou indicateurs, et des indices complémentaires) ainsi qu'à un ensemble de règles
d’EC. Une règle d'exploration contextuelle [Crispino (1999)] a la forme déclarative suivante :
7kFKH75qJOH5
62,7 I unLQGLFHGpFOHQFKHXURX,QGLFDWHXU
62,7 EI l’ HVSDFHGHUHFKHUFKH de cet indicateur
6, Il existe des,QGLFHV complémentaires INk INj , ….., INp dans EI
6, lesFRQGLWLRQV sur I et INk INj , ….., INp sont satisfaites
$/256 Appliquer la décision DI
1 Nous ne mettons l'accent sur les aspects théoriques (qui sont beaucoup plus compliqués que cette simplification),
qui sont développés dans d'autres articles au sein de ces actes.
Chaque règle comprend pour une tâche T (dans notre cas l'extraction de citation), différentes
parties, une partie Déclaration d'un espace de recherche, une partie Condition et une partie
Action. L'action dans notre cas sera d'attribuer une étiquette sémantique au segment textuel
contenant des informations citationnelles. Les indicateurs ou indices déclencheurs sont des
marqueurs d'introduction de citations comme les verbes de communication (présentés ci-après).
Les indices complémentaires sont des marqueurs d'attribution de la citation ou du discours
rapporté. Les indices et les indicateurs sont tirés d'un corpus écrit :
x 100 articles de presse de " /H0RQGH'LSORPDWLTXH " entre 89 – 98 ;
x 4 romans policiers " grand public " ;
x un ensemble de textes fournis par l’Électricité de France sur l’effet de serre ;
x 60 articles de presse de "/H0RQGH,QIRUPDWLTXH " et de " ,QIRUPDWLTXH ".
Les connaissances linguistiques (indices et indicateurs) sont implémentées dans le logiciel
&RQWH[W2 [MINEL (2000)] développé au sein de l’ équipe LaLICC. Ce logiciel fait partie d’ une
plate-forme ()LOWH[W), qui a donné lieu à différentes applications informatiques, comme le résumé
automatique, le filtrage de définitions, l’ extraction des relations causales, etc. Tous ces travaux
sont fondés sur la méthode d’exploration contextuelle.
/HVFRQQDLVVDQFHVOLQJXLVWLTXHV
Comme nous l'avons signalé, les connaissances linguistiques sont regroupées dans des classes,
celle des indices et celle des indicateurs, qui sont de nature lexicale ou typographique. Les
indices et les indicateurs typographiques (deux-points et guillemets, majuscule, italique, note de
bas de page, références bibliographiques, etc.) ne seront pas traités ici (voir [Mourad (2002)]
pour ces indices et les introducteurs prépositionnels (VHORQ, SRXU, GDSUqV, etc.)).
/HVYHUEHVG¶LQWURGXFWLRQGHODFLWDWLRQ
Nous pensons qu’ il n’ y a pas de citation neutre. Cette non neutralité se manifeste d’ abord par
l’ action de prélèvement, donc par le choix même de la citation. Celle-ci peut être introduite
d’une manière implicite ou explicite selon différents procédés, lexicaux et grammaticaux
[Mourad (2001)]. Chaque citation est le résultat d’un acte linguistique réalisé au moyen d'
introducteurs qui sont souvent des verbes de communication. Les verbes d’introduction de
citations traduisent une certaine position de l’ auteur, comme le montre l'exemple suivant :
1)"Si chaque électeur britannique était un économiste de l'OCDE, les conservateurs pourraient
s'attendre à un raz-de-marée électoral en leur faveur", LURQLVDLW j SHLQH, le mois dernier,
l'hebdomadaire londonien The Economist.
Nous avons choisi d’ établir une classification des verbes introducteurs de citations qui, selon
nous, informent sur le contenu de la citation. Ceci dans le but d’ utiliser ces classes pour attribuer
des étiquettes sémantiques aux citations filtrées.
Le choix des classes est fondé non pas sur un critère de synonymie, mais sur lobservation de
corpus. De plus, les dénominations de ces classes sont des mots issus de la langue qui décrivent
le contenu de la citation pour tenter d’établir une typologie de la citation (figure ci-
dessous). Ainsi, cette classification n'est pas fondée sur des critères syntaxiques, ni sur des traits
sémantiques (humain/non humain, etc.), mais sur l'utilisation qui est faite des verbes comme
introducteurs de citations, selon leur "force" dans ce processus [Mourad (2001)].
Typologie citationnelle
&ULWqUHVGHFODVVLILFDWLRQ
Nous avons tenté d’ établir une première classification sémantique des verbes introducteurs de
citations; pour ce faire, nous avons classé une partie de ces verbes, ceux qui appartiennent au
corpus journalistique et qui sont parmi les plus utilisés.
Le classement des verbes d’ introduction de citations que nous avons effectué relève d’une
approche intuitive et a été établi par des utilisateurs de ces verbes. En effet, nous avons demandé
à des journalistes2, utilisateurs potentiels de ces verbes, de les classer dans des catégories
sémantiques que nous avons prédéfinies d’après l’ observation de corpus. Cette classification est
fondée sur un critère : l’ engagement de l’ auteur par rapport à ce qu’ il rapporte comme
événement ou comme citation d’une autre source. En effet, nous répétons que l’acte
« citationnel » n’ est pas un acte neutre. Le fait de citer quelqu’un est déjà un engagement, mais
2 Gaëlle Fouéré, journaliste depuis six ans, actuellement au « 0RQGHGHO¶pGXFDWLRQ » ; Chafik Guendouz, journaliste depuis vingt
ans, actuellement à «/¶8VLQH1RXYHOOH ».
cet engagement peut être un engagement fort ou un engagement faible selon les marqueurs
linguistiques et leur modalité. La notion de fidélité de la citation et de la distanciation d’ une
citation, souvent marquée par des guillemets, est ainsi un acte d’ engagement. Dans ce travail,
nous n’abordons pas la question de la différence entre citation, point de vue, et faits rapportés.
Ces sont tous des faits d’ intertextualité et d’ hétérogénéité du discours. Les uns n’ existent pas
sans les autres [Mourad (2000a)].
Le classement effectué ne concerne que les verbes, il a donc été effectué hors contexte. Aussi
nous tenons à souligner que l’engagement peut être introduit par des adverbes qui suivent ou qui
précèdent le verbe, comme par exemple ; GLVDLW MROLPHQW, ; GpFODUH KkWLYHPHQW, etc.
L association de ces adverbes avec les verbes d’ introduction de citations change le statut de
l’ engagement.
Voici un schéma qui illustre notre classification :
Nous signalons que compte tenu de l’ utilisation des verbes de citation et de la polysémie verbale,
les journalistes ont trouvé des verbes qui appartiennent à différentes classes. Par ailleurs, nous
notons l’ importance du contexte linguistique dans cette prise de position de l’ auteur. Ainsi des
verbes qui paraissent « neutres » peuvent dénoter une certaine attitude de l’ auteur par rapport au
propos qu’il cite.
1 / 12 100%

Identification et extraction automatique des informations

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !