Conservatoire National des Arts et Métiers
Thèse de doctorat en informatique
Didier Nakache
Septembre 2007
SOMMAIRE Page
Remerciements..................................................................................................... 4
Chapitre 1 : introduction.................................................................................... 5
1.1 Présentation du sujet de la thèse................................................................................. 6
1.2 Le sous projet CIREA ................................................................................................ 8
1.3 Présentation du plan ................................................................................................. 12
Chapitre 2 : état de l'art des classifications de documents textuels rédigés en
langage naturel ..................................................................................................15
2.1 Présentation générale de l'état de l'art ...................................................................... 16
2.2 Définition de la classification................................................................................... 16
2.3 Les comptes rendus hospitaliers............................................................................... 20
2.4 Convergence des méthodes ...................................................................................... 20
2.5 Méthodologie pour classifier les documents textuels .............................................. 26
2.6 L’approche linguistique............................................................................................ 28
2.7 Préparation des données par la desuffixation........................................................... 32
2.8 La vectorisation des documents ............................................................................... 33
2.9 Les mesures de distances et de similarités ............................................................... 43
2.10 Les algorithmes de classification par apprentissage ................................................ 50
2.11 Comparaison des méthodes...................................................................................... 77
Chapitre 3 : la classification automatique des comptes rendus hospitaliers85
3.1 La formalisation du problème .................................................................................. 86
3.2 Analyse du problème................................................................................................ 88
3.3 La représentation du langage médical...................................................................... 88
3.4 Constitution des corpus, des bases d'apprentissage et de test .................................. 97
3.5 Plan expérimental................................................................................................... 100
3.6 Analyse des comptes rendus et de leur reproductivité ........................................... 101
3.7 Proposition d'un algorithme de désuffixation : EDA ............................................. 107
3.8 Proposition d'un algorithme de classification : CLO3 ........................................... 114
3.9 Optimisation de l'apprentissage.............................................................................. 120
3.10 Exemple d'utilisation du logiciel............................................................................ 128
Chapitre 4 la problématique de l'évaluation ..............................................133
4.1 Présentation de la problématique ........................................................................... 134
4.2 Etat de l'art de l’évaluation des classifications....................................................... 135
4.3 Paradigme de l’évaluation : vers une nouvelle approche ? .................................... 142
4.4 De la difficulté d’évaluer........................................................................................ 142
4.5 Vers de nouveaux indicateurs ................................................................................ 145
Chapitre 5 le projet Rhéa, contexte de cette thèse ..................................... 159
5.1 De la cognition artificielle à la connaissance......................................................... 160
5.2 Définitions.............................................................................................................. 160
5.3 Présentation de l'application RHÉA....................................................................... 161
5.4 Résultats obtenus avec la base RHÉA.................................................................... 174
5.5 Conclusions sur RHÉA .......................................................................................... 178
Version finale Page 2