Rapport de pré-soutenance sur la thèse de Doctorat de M. Didier Nakache « Extraction automatique des diagnostics à partir des comptes rendus médicaux textuels » Présentée pour obtenir le grade de Docteur du CNAM Tours, le 31 août 2007. Cette thèse traite de la fouille de textes dans le cadre d’une application au domaine médical. Il s’agit de résoudre un problème d’apprentissage supervisé sur des données textuelles afin de prédire la bonne étiquette de classes pour des comptes rendus médicaux. Ce problème est réel et difficile. Le document présenté est constitué de 5 chapitres qui peuvent être résumés et évalués comme suit. Le chapitre 1 est une introduction rapide et très bien rédigée qui donne un aperçu du sujet de la thèse. Trois contributions sont attendues : d’une part le classement des données textuelles, puis l’évaluation des résultats renvoyés par un système de recherche et enfin la conception d’une base de données médicales et d’un logiciel permettant de la gérer. Cette introduction décrit ensuite le contexte médical et hospitalier du travail (notamment la classification CIM des diagnostics) et les projets CIREA et RHEA. Elle se termine par l’annonce du plan de la thèse. Le chapitre 2 est un état de l’art étendu sur la fouille de textes. Il commence par des définitions, puis liste des travaux dans le domaine de la fouille de textes médicaux. Ensuite il décrit la méthodologie de la classification de textes, puis l’approche linguistique, la désuffixation. Il détaille le codage vectoriel des documents ainsi que de nombreuses mesures de similarité entre documents. Il consacre une partie importante à la description des méthodes d’apprentissage et de fouille de textes offrant ainsi un large panorama de méthodes. Il se termine par un bilan très utile des différentes comparaisons expérimentales ayant eu lieu entre les méthodes. Ce chapitre est très didactique et agréable à lire mais manque par endroit de logique dans sa structuration. Il offre un aperçu très large du domaine et les références sont nombreuses et utiles pour le lecteur. Le chapitre 3 décrit les propositions et expérimentations faites dans le cadre de la classification des comptes rendus hospitaliers. Ce chapitre commence par décrire les ressources linguistiques disponibles dans le domaine traité et notamment la classification des maladies CIM-10 qui sert d’étiquette aux comptes rendus hospitaliers. Ensuite, il est montré comment, à partir des données brutes, il est possible de les coder pour effectuer l’apprentissage supervisé et la prédiction des codes de maladies à partir de comptes rendus au statut inconnu. Les traitements effectués paraissent judicieusement choisis en regard de l’application traitée : il s’agit tout d’abord de définir des concepts à partir de tables préexistantes, de traiter les acronymes médicaux, d’établir une liste de préfixes et de suffixes. Ensuite un algorithme EDA est proposé afin d’enlever les suffixes (et diminuer ainsi le nombre de mots) et aussi pour enrichir les documents avec d’autres mots. Il se base sur une liste de règles ordonnées qui éliminent des suffixes du mot en cours de traitement. Une validation expérimentale a lieu en comparant EDA avec un algorithme concurrent CARRY sur la base d’une F-mesure mais également de la K-mesure (une contribution de l’auteur détaillée plus tard) et en conjonction avec un algorithme de prédiction bayésienne. Les résultats sont meilleurs pour EDA même si l’on ne connaît pas les temps d’exécution respectifs des méthodes. Ce chapitre traite ensuite de la proposition d’un algorithme de classement CLO3. Cet algorithme est en fait une pondération des concepts qui utilise le fait que les mots décrivant le cas médical peuvent apparaître dans la description du diagnostique prédit. Cette heuristique semble intéressante et un bilan comparatif est ensuite présenté entre CLO3 et des approches compétitives pour ce problème. Ce chapitre se poursuit sur l’optimisation de CLO3 en explicitant clairement les motivations pour les choix effectués, ce qui représente à nouveau un travail expérimental très important. Ce chapitre se termine en illustrant le fonctionnement du logiciel réalisé. On obtient alors une vue claire quant à la manière dont l’outil peut interagir avec l’expert pour proposer des diagnostiques (application finale visée). Le chapitre 4 commence par un état de l’art et une discussion à propos des mesures d’évaluation des systèmes de recherche d’information, à savoir la précision, le rappel et la F-Mesure. Il se poursuit en décrivant quelques autres mesures, puis est constitué de deux parties. Sur la base d’une discussion sur les limites de la F-mesure, la K-Mesure est proposée. Il s’agit d’une généralisation de la F-mesure permettant de mieux préciser les contributions respectives de la précision et du rappel dans une mesure d’évaluation d’un outil de recherche d’information. La deuxième partie propose la définition de la D-mesure. Cette partie est intéressante également et répond au problème de la prise en compte de l’exigence de l’expert en ce qui concerne la présence des résultats pertinents en tête de liste. Ces choix sont très clairement argumentés. Le chapitre 5 décrit le projet RNTS RHEA et la contribution importante qui y est apportée. Il s’agit d’aider à la collecte des informations sur les patients en réanimation, d’une part par la définition d’une base de données et d’autre part par la réalisation d’un logiciel pour la gérer. Cette réalisation est couramment utilisée dans de nombreux services de réanimation. La conclusion dégage les perspectives importantes qui font suite à ce travail. En conclusion de ce rapport, j’ai lu cette thèse avec beaucoup d’intérêt et de satisfaction. L’ensemble du document représente un travail conséquent avec une dimension expérimentale importante qui a du engendrer de nombreuses difficultés. Le texte est très bien rédigé, avec en outre une justification des choix très agréable à lire, même s’il manque parfois de détails sur certains points. Les résultats présentés sur des données réelles sont d’un volume important. La réalisation est opérationnelle dans des services hospitaliers. Les références bibliographiques sont volumineuses. Pour toutes ces raisons, je donne donc un avis très favorable à la soutenance de cette thèse. Gilles Venturini, Professeur d’Informatique, Ecole Polytechnique de l’Université de Tours.