HACÈNE CHERFI
Mis en page avec la classe thloria.
i
Remerciements
Je tiens à adresser mes remerciements les plus chaleureux aux membres du jury qui ont bien
voulu s’intéresser à mon travail.
À Yannick Toussaint pour le temps et l’énergie qu’il a consacrés à ce travail de thèse, mais
également ses encouragements, son accompagnement, son soutien et ses conseils scientifiques et
personnels durant ce travail.
À Amedeo Napoli, celui qui m’a fait confiance, qui m’a encadré et m’a aidé à avoir le recul et
la vision claire nécessaires pour mener, au mieux, ce travail. Merci également d’avoir accepté que
je fasse partie, le temps d’une thèse, de l’équipe ORPAILLEUR.
Aux rapporteurs et aux examinateurs : Henri Briand, Pascale Sébillot, Marie-Christine Haton
et Daniel Kayser pour leurs nombreux commentaires très pertinents qui ont permis d’améliorer ce
mémoire.
À tous les membres de l’équipe ORPAILLEUR un très grand merci ainsi qu’à Christelle, la très
efficace assistante de l’équipe.
À l’équipe URI de l’INIST pour les textes de mes expérimentations mais également pour l’in-
terprétation des résultats; parmi eux : Xavier Polanco, Claire François, Jean Royauté et Alain
Zasadzinski.
À ceux qui sont, naturellement et très vite, passés de collègues à ami(e)s. En premiers : Jérôme
(babtou), Armelle et Hélène (deux muses); puis en vrac (que dis-je sans un ordre particulier) Jean
(son chapeau, son fromage), Mathieu (à indexer en A.), Clara (farfarella), Laïka (petite luciole),
Sylvain, BenJ, Joseph, Huy, Makram, Hend, Karima, Rim, Sandy, Sandra(s), Sandrine (son café),
Irina, Suzanne, Fréd, Benoît, Yann, Évelyne, Alain, Laurent, Bernard(s), Nico(s) et une foultitude
d’autres personnes du LORIA et d’ailleurs : Henri, Miriam, Kiki, Hania, Nadia, Yasmine, Lydia,
Chida, Vincent(s), William, Jo.
À ma famille, mon énorme soutien indéfectible et sans qui ce travail n’aurait pu être mené.
Merci pour leur patience.
ii
Table des matières
Table des figures ix
Liste des tableaux xi
Chapitre 1
Introduction 1
Chapitre 2
Définition de la fouille de textes 7
2.1 Extraction de connaissances dans des bases de données (ECBD) . . . . . . . . . 8
2.2 Fouille de textes : un paradigme de l’ECBD . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Chaîne de traitement pour le processus de FdT . . . . . . . . . . . . . . 10
2.2.2 Acquisition itérative et incrémentale de connaissances . . . . . . . . . . 11
2.3 Modélisation du contenu des textes : des liens avec le TAL . . . . . . . . . . . . 12
2.3.1 Caractéristiques d’une donnée textuelle . . . . . . . . . . . . . . . . . . 13
2.3.2 Niveaux d’analyse pour la compréhension d’un texte . . . . . . . . . . . 15
2.3.2.1 Traitement des dimensions multilingue et culturelle . . . . . . 16
2.3.2.2 Repérage de concepts et d’entités nommées . . . . . . . . . . 17
2.3.2.3 Traitement de l’ambiguïté . . . . . . . . . . . . . . . . . . . . 18
2.3.2.4 Traitement des présupposés d’interprétation . . . . . . . . . . 18
2.3.3 Typologie de textes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.4 Différentes représentations des textes . . . . . . . . . . . . . . . . . . . 21
2.4 Notre proposition pour la modélisation des textes . . . . . . . . . . . . . . . . . 24
2.4.1 Sélection et prétraitement des textes . . . . . . . . . . . . . . . . . . . . 24
2.4.1.1 Sélection des champs textuels dans les bases de textes . . . . . 25
2.4.1.2 Étiquetage morpho-syntaxique . . . . . . . . . . . . . . . . . 26
2.4.2 Indexation terminologique pour la modélisation du contenu . . . . . . . 26
2.4.2.1 Constitution de ressources terminologiques . . . . . . . . . . . 27
iii
1 / 162 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !