Télécharger le pré rapport du Professeur VENTURINI

publicité
Rapport de pré-soutenance sur la thèse de Doctorat
de M. Didier Nakache
« Extraction automatique des diagnostics à partir des comptes rendus médicaux
textuels »
Présentée pour obtenir le grade de Docteur du CNAM
Tours, le 31 août 2007.
Cette thèse traite de la fouille de textes dans le cadre d’une application au domaine médical. Il
s’agit de résoudre un problème d’apprentissage supervisé sur des données textuelles afin de prédire la
bonne étiquette de classes pour des comptes rendus médicaux. Ce problème est réel et difficile. Le
document présenté est constitué de 5 chapitres qui peuvent être résumés et évalués comme suit.
Le chapitre 1 est une introduction rapide et très bien rédigée qui donne un aperçu du sujet de la
thèse. Trois contributions sont attendues : d’une part le classement des données textuelles, puis
l’évaluation des résultats renvoyés par un système de recherche et enfin la conception d’une base de
données médicales et d’un logiciel permettant de la gérer. Cette introduction décrit ensuite le contexte
médical et hospitalier du travail (notamment la classification CIM des diagnostics) et les projets CIREA
et RHEA. Elle se termine par l’annonce du plan de la thèse.
Le chapitre 2 est un état de l’art étendu sur la fouille de textes. Il commence par des définitions,
puis liste des travaux dans le domaine de la fouille de textes médicaux. Ensuite il décrit la méthodologie
de la classification de textes, puis l’approche linguistique, la désuffixation. Il détaille le codage vectoriel
des documents ainsi que de nombreuses mesures de similarité entre documents. Il consacre une partie
importante à la description des méthodes d’apprentissage et de fouille de textes offrant ainsi un large
panorama de méthodes. Il se termine par un bilan très utile des différentes comparaisons expérimentales
ayant eu lieu entre les méthodes. Ce chapitre est très didactique et agréable à lire mais manque par endroit
de logique dans sa structuration. Il offre un aperçu très large du domaine et les références sont
nombreuses et utiles pour le lecteur.
Le chapitre 3 décrit les propositions et expérimentations faites dans le cadre de la classification
des comptes rendus hospitaliers. Ce chapitre commence par décrire les ressources linguistiques
disponibles dans le domaine traité et notamment la classification des maladies CIM-10 qui sert d’étiquette
aux comptes rendus hospitaliers. Ensuite, il est montré comment, à partir des données brutes, il est
possible de les coder pour effectuer l’apprentissage supervisé et la prédiction des codes de maladies à
partir de comptes rendus au statut inconnu. Les traitements effectués paraissent judicieusement choisis en
regard de l’application traitée : il s’agit tout d’abord de définir des concepts à partir de tables
préexistantes, de traiter les acronymes médicaux, d’établir une liste de préfixes et de suffixes. Ensuite un
algorithme EDA est proposé afin d’enlever les suffixes (et diminuer ainsi le nombre de mots) et aussi
pour enrichir les documents avec d’autres mots. Il se base sur une liste de règles ordonnées qui éliminent
des suffixes du mot en cours de traitement. Une validation expérimentale a lieu en comparant EDA avec
un algorithme concurrent CARRY sur la base d’une F-mesure mais également de la K-mesure (une
contribution de l’auteur détaillée plus tard) et en conjonction avec un algorithme de prédiction
bayésienne. Les résultats sont meilleurs pour EDA même si l’on ne connaît pas les temps d’exécution
respectifs des méthodes. Ce chapitre traite ensuite de la proposition d’un algorithme de classement CLO3.
Cet algorithme est en fait une pondération des concepts qui utilise le fait que les mots décrivant le cas
médical peuvent apparaître dans la description du diagnostique prédit. Cette heuristique semble
intéressante et un bilan comparatif est ensuite présenté entre CLO3 et des approches compétitives pour ce
problème. Ce chapitre se poursuit sur l’optimisation de CLO3 en explicitant clairement les motivations
pour les choix effectués, ce qui représente à nouveau un travail expérimental très important. Ce chapitre
se termine en illustrant le fonctionnement du logiciel réalisé. On obtient alors une vue claire quant à la
manière dont l’outil peut interagir avec l’expert pour proposer des diagnostiques (application finale
visée).
Le chapitre 4 commence par un état de l’art et une discussion à propos des mesures d’évaluation
des systèmes de recherche d’information, à savoir la précision, le rappel et la F-Mesure. Il se poursuit en
décrivant quelques autres mesures, puis est constitué de deux parties. Sur la base d’une discussion sur les
limites de la F-mesure, la K-Mesure est proposée. Il s’agit d’une généralisation de la F-mesure permettant
de mieux préciser les contributions respectives de la précision et du rappel dans une mesure d’évaluation
d’un outil de recherche d’information. La deuxième partie propose la définition de la D-mesure. Cette
partie est intéressante également et répond au problème de la prise en compte de l’exigence de l’expert
en ce qui concerne la présence des résultats pertinents en tête de liste. Ces choix sont très clairement
argumentés.
Le chapitre 5 décrit le projet RNTS RHEA et la contribution importante qui y est apportée. Il
s’agit d’aider à la collecte des informations sur les patients en réanimation, d’une part par la définition
d’une base de données et d’autre part par la réalisation d’un logiciel pour la gérer. Cette réalisation est
couramment utilisée dans de nombreux services de réanimation.
La conclusion dégage les perspectives importantes qui font suite à ce travail.
En conclusion de ce rapport, j’ai lu cette thèse avec beaucoup d’intérêt et de satisfaction.
L’ensemble du document représente un travail conséquent avec une dimension expérimentale importante
qui a du engendrer de nombreuses difficultés. Le texte est très bien rédigé, avec en outre une justification
des choix très agréable à lire, même s’il manque parfois de détails sur certains points. Les résultats
présentés sur des données réelles sont d’un volume important. La réalisation est opérationnelle dans des
services hospitaliers. Les références bibliographiques sont volumineuses.
Pour toutes ces raisons, je donne donc un avis très favorable à la soutenance de cette thèse.
Gilles Venturini,
Professeur d’Informatique,
Ecole Polytechnique de l’Université de Tours.
Téléchargement