Le résumé automatique de textes - LaLIC - Université Paris

Université Paris IV-Sorbonne
Ecole doctorale Concepts et Langages
Thèse pour obtenir le grade de
DOCTEUR DE L’UNIVERSITE PARIS IV-SORBONNE
Discipline : Informatique
Spécialité : Informatique linguistique
Résumé automatique de textes scientifiques
et construction de fiches de synthèse catégorisées :
Approche linguistique par annotations sémantiques
et réalisation informatique
Présentée par Antoine BLAIS
Sous la direction de Monsieur le Professeur Jean-Pierre DESCLÉS
Devant le jury composé de :
Jawad BERRI, Assistant Professor à l’Université des Sciences de Khalifa (Rapporteur)
Jean-Pierre DESCLÉS, Professeur à l’Université Paris IV-Sorbonne
Jean-Guy MEUNIER, Professeur à l’Université du Québec à Montréal
Patrice POGNAN, Professeur à l’INALCO
Gérard SABAH, Directeur de Recherche CNRS au LIMSI (Rapporteur)
3
Je tiens à remercier tout d’abord mon directeur de thèse Jean-Pierre Desclés,
directeur du laboratoire LaLIC, pour ses nombreux conseils et sa disponibilité tout au
long de cette thèse. Je le remercie également de m’avoir ouvert l’esprit à de nombreuses
connaissances linguistiques, logiques, informatiques, épistémologiques…
Je remercie très sincèrement Marianne Belis, directrice de l’école d’ingénieur
Supinfo Paris, qui a su éveillé en moi un intérêt pour la recherche et qui m’a fortement
encouragé dans cette voie.
Je remercie ma famille, particulièrement mes grands-parents et mes parents qui
m’ont toujours appuyé dans mes études et mon frère Julien pour son constant soutien.
Je remercie les membres du laboratoire LaLIC, Motassem Alrahabi, Aurélien
Aréna, Iana Atanassova, Marc Bertin, Roselyne Cantarel, Julien Desclés, Brahim
Djioua, Agata Jackiewicz, Philippe Laublet, Florence Le Priol, Agnès Provôt, Junko
Yamamoto, Leïla Zighem ainsi que tous les autres avec lesquels j’ai pasd’agréables
moments. Je remercie en particulier Juyeon Kang pour sa gentillesse, son amitié et ses
cours de coréen ; Huyen Pham pour sa bonne humeur et son amitié ; et Elena Ivanova
pour ses encouragements et son écoute.
Je remercie mes amis et anciens camarades Hyunzoo Chai, Thomas Lee, Hogeun
Son qui sont en Corée du Sud et qui m’ont beaucoup appris sur leur pays.
Je remercie particulièrement Agnès Provôt pour ses nombreux conseils
orthographiques à la suite de la lecture d’une grande partie de cette thèse, et aussi pour
ses très bons gâteaux qui ravissent à chaque fois les doctorants.
Enfin, je remercie sincèrement les membres du jury d’avoir accepté de juger ce
présent travail.
Sommaire
4
Sommaire
SOMMAIRE...............................................................................................................................................4
INTRODUCTION......................................................................................................................................9
1. PRÉSENTATION..................................................................................................................................9
2. CONTEXTE DE TRAVAIL ET OBJECTIFS..................................................................................12
3. DESCRIPTION DU PLAN DE LA THÈSE......................................................................................16
CHAPITRE 1 : L’ACTIVITÉ RÉSUMANTE DE TEXTES...............................................................19
1. L’ACTIVITÉ RÉSUMANTE HUMAINE.........................................................................................20
1.1.
L
ES ACTIVITÉS RÉSUMANTES
...............................................................................................20
1.1.1. Présentation ................................................................................................................20
1.1.2. Nature des objets résumés...........................................................................................22
1.1.3. Décomposition sommaire du processus résumant....................................................... 23
1.2.
L’
ACTIVITÉ RÉSUMANTE DE TEXTE
......................................................................................26
1.2.1. Le résumé textuel et ses différents types......................................................................26
1.2.2. Résumer par compréhension....................................................................................... 29
1.2.3. Le modèle de Kintsch et Van Dijk...............................................................................30
1.2.4. Autres modèles : Schnotz et Alterman.........................................................................34
1.3.
L’
INFORMATION PERTINENTE DANS LES TEXTES
..................................................................35
2. RÉSUMER PAR COMPRÉHENSION PARTIELLE : LES RÉSUMEURS PROFESSIONNELS
...................................................................................................................................................................38
2.1.
O
BSERVATIONS PSYCHOLINGUISTIQUES
...............................................................................38
2.2.
F
ONDEMENTS COGNITIFS D
UNE APPROCHE AUTOMATIQUE
.................................................40
CHAPITRE 2 : LE RÉSUMÉ AUTOMATIQUE DE TEXTES..........................................................42
1. PRÉSENTATION DU DOMAINE.....................................................................................................43
1.1.
H
ISTORIQUE
.........................................................................................................................43
1.2.
L
A FONCTION DU RÉSUMÉ AUTOMATIQUE
............................................................................49
1.2.1. Les besoins et les textes traités....................................................................................49
1.2.2. Résumé automatique et indexation..............................................................................52
1.2.3. Les apports scientifiques.............................................................................................52
Sommaire
5
2. DESCRIPTION DES DEUX GRANDES APPROCHES : COMPRÉHENSION VS
EXTRACTION.......................................................................................................................................... 54
2.1.
R
EMARQUES PRÉALABLES
................................................................................................... 54
2.2.
L’
APPROCHE PAR COMPRÉHENSION AVEC ANALYSE EN PROFONDEUR
................................. 55
2.3.
L’
APPROCHE PAR EXTRACTION AVEC ANALYSE DE SURFACE
............................................... 57
3. LES TECHNIQUES UTILISÉES DANS LE RÉSUMÉ AUTOMATIQUE .................................. 60
3.1.
P
RÉSENTATION
.................................................................................................................... 60
3.2.
L
ES TECHNIQUES ISSUES DE L
INTELLIGENCE ARTIFICIELLE
................................................ 61
3.3.
L
ES TECHNIQUES NUMÉRIQUES
,
STATISTIQUES ET PAR APPRENTISSAGE
.............................. 65
3.4.
L
ES TECHNIQUES LINGUISTIQUES
......................................................................................... 69
3.5.
Q
UELQUES APPLICATIONS LOGICIELLES POUR LE FRANÇAIS
................................................ 72
3.5.1. Autosummarize............................................................................................................ 73
3.5.2. Copernic Summarizer ................................................................................................. 75
3.5.3. Pertinence Summarizer............................................................................................... 76
3.5.4. SubjectSearchSummarizer........................................................................................... 78
4. APPLICATIONS DÉRIVÉES OU COMPLÉMENTAIRES .......................................................... 80
4.1.
P
RÉSENTATION
.................................................................................................................... 80
4.2.
L
E RÉSUMÉ AUTOMATIQUE MULTIDOCUMENT
..................................................................... 80
4.3.
L’
INTERFAÇAGE RÉSUMÉ
/
UTILISATEUR ET LE RÉSUMÉ AUTOMATIQUE MULTIMÉDIA
......... 82
4.4.
L
A COMPRESSION DE TEXTES
............................................................................................... 85
5. HISTORIQUE DES RECHERCHES AU LABORATOIRE LALIC............................................. 87
5.1.
T
RAVAUX PRÉCÉDENTS
:
SERAPHIN,
SAPHIR
ET
CONTEXTO....................................... 87
5.1.1. Le système SERAPHIN (1994).................................................................................... 87
5.1.2. Le système SAPHIR (1996)......................................................................................... 89
5.1.3. Le système CONTEXTO (2002).................................................................................. 90
5.2.
L
A PHASE ACTUELLE
:
EXCOM
(2005)............................................................................... 93
CHAPITRE 3 : L’ANNOTATION DISCURSIVE À PARTIR D’EXCOM....................................... 95
1. L’ANNOTATION DE TEXTES......................................................................................................... 97
1.1.
O
BJECTIF DE L
ANNOTATION DE TEXTES
.............................................................................. 97
1.2.
Q
UELQUES EXEMPLES D
ANNOTATIONS AUTOMATIQUES DE TEXTES D
UN POINT DE VUE
LINGUISTIQUE
........................................................................................................................................ 99
2. LE PROJET EXCOM D’ANNOTATION AUTOMATIQUE....................................................... 105
2.1.
I
NTRODUCTION ET PRÉSENTATION DU SYSTÈME
EXCOM ................................................. 105
2.2.
P
RINCIPES DE FONCTIONNEMENT
....................................................................................... 107
1 / 385 100%

Le résumé automatique de textes - LaLIC - Université Paris

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !