Rapport de pré-soutenance sur la thèse de Doctorat
de M. Didier Nakache
« Extraction automatique des diagnostics à partir des comptes rendus médicaux
textuels »
Présentée pour obtenir le grade de Docteur du CNAM
Tours, le 31 août 2007.
Cette thèse traite de la fouille de textes dans le cadre d’une application au domaine médical. Il
s’agit de résoudre un problème d’apprentissage supervisé sur des données textuelles afin de prédire la
bonne étiquette de classes pour des comptes rendus médicaux. Ce problème est réel et difficile. Le
document présenté est constitué de 5 chapitres qui peuvent être résumés et évalués comme suit.
Le chapitre 1 est une introduction rapide et très bien rédigée qui donne un aperçu du sujet de la
thèse. Trois contributions sont attendues : d’une part le classement des données textuelles, puis
l’évaluation des résultats renvoyés par un système de recherche et enfin la conception d’une base de
données médicales et d’un logiciel permettant de la gérer. Cette introduction décrit ensuite le contexte
médical et hospitalier du travail (notamment la classification CIM des diagnostics) et les projets CIREA
et RHEA. Elle se termine par l’annonce du plan de la thèse.
Le chapitre 2 est un état de l’art étendu sur la fouille de textes. Il commence par des définitions,
puis liste des travaux dans le domaine de la fouille de textes médicaux. Ensuite il décrit la méthodologie
de la classification de textes, puis l’approche linguistique, la désuffixation. Il détaille le codage vectoriel
des documents ainsi que de nombreuses mesures de similarité entre documents. Il consacre une partie
importante à la description des méthodes d’apprentissage et de fouille de textes offrant ainsi un large
panorama de méthodes. Il se termine par un bilan très utile des différentes comparaisons expérimentales
ayant eu lieu entre les méthodes. Ce chapitre est très didactique et agréable à lire mais manque par endroit
de logique dans sa structuration. Il offre un aperçu très large du domaine et les références sont
nombreuses et utiles pour le lecteur.
Le chapitre 3 décrit les propositions et expérimentations faites dans le cadre de la classification
des comptes rendus hospitaliers. Ce chapitre commence par décrire les ressources linguistiques
disponibles dans le domaine traité et notamment la classification des maladies CIM-10 qui sert d’étiquette
aux comptes rendus hospitaliers. Ensuite, il est montré comment, à partir des données brutes, il est
possible de les coder pour effectuer l’apprentissage supervisé et la prédiction des codes de maladies à
partir de comptes rendus au statut inconnu. Les traitements effectués paraissent judicieusement choisis en
regard de l’application traitée : il s’agit tout d’abord de définir des concepts à partir de tables
préexistantes, de traiter les acronymes médicaux, d’établir une liste de préfixes et de suffixes. Ensuite un
algorithme EDA est proposé afin d’enlever les suffixes (et diminuer ainsi le nombre de mots) et aussi
pour enrichir les documents avec d’autres mots. Il se base sur une liste de règles ordonnées qui éliminent
des suffixes du mot en cours de traitement. Une validation expérimentale a lieu en comparant EDA avec
un algorithme concurrent CARRY sur la base d’une F-mesure mais également de la K-mesure (une
contribution de l’auteur détaillée plus tard) et en conjonction avec un algorithme de prédiction