Télécharger le pré rapport du Professeur VENTURINI

Téléchargement

Rapport de pré-soutenance sur la thèse de Doctorat

de M. Didier Nakache

« Extraction automatique des diagnostics à partir des comptes rendus médicaux

textuels »

Présentée pour obtenir le grade de Docteur du CNAM

Tours, le 31 août 2007.

Cette thèse traite de la fouille de textes dans le cadre d’une application au domaine médical. Il

s’agit de résoudre un problème d’apprentissage supervisé sur des données textuelles afin de prédire la

bonne étiquette de classes pour des comptes rendus médicaux. Ce problème est réel et difficile. Le

document présenté est constitué de 5 chapitres qui peuvent être résumés et évalués comme suit.

Le chapitre 1 est une introduction rapide et très bien rédigée qui donne un aperçu du sujet de la

thèse. Trois contributions sont attendues : d’une part le classement des données textuelles, puis

l’évaluation des résultats renvoyés par un système de recherche et enfin la conception d’une base de

données médicales et d’un logiciel permettant de la gérer. Cette introduction décrit ensuite le contexte

médical et hospitalier du travail (notamment la classification CIM des diagnostics) et les projets CIREA

et RHEA. Elle se termine par l’annonce du plan de la thèse.

Le chapitre 2 est un état de l’art étendu sur la fouille de textes. Il commence par des définitions,

puis liste des travaux dans le domaine de la fouille de textes médicaux. Ensuite il décrit la méthodologie

de la classification de textes, puis l’approche linguistique, la désuffixation. Il détaille le codage vectoriel

des documents ainsi que de nombreuses mesures de similarité entre documents. Il consacre une partie

importante à la description des méthodes d’apprentissage et de fouille de textes offrant ainsi un large

panorama de méthodes. Il se termine par un bilan très utile des différentes comparaisons expérimentales

ayant eu lieu entre les méthodes. Ce chapitre est très didactique et agréable à lire mais manque par endroit

de logique dans sa structuration. Il offre un aperçu très large du domaine et les références sont

nombreuses et utiles pour le lecteur.

Le chapitre 3 décrit les propositions et expérimentations faites dans le cadre de la classification

des comptes rendus hospitaliers. Ce chapitre commence par décrire les ressources linguistiques

disponibles dans le domaine traité et notamment la classification des maladies CIM-10 qui sert d’étiquette

aux comptes rendus hospitaliers. Ensuite, il est montré comment, à partir des données brutes, il est

possible de les coder pour effectuer l’apprentissage supervisé et la prédiction des codes de maladies à

partir de comptes rendus au statut inconnu. Les traitements effectués paraissent judicieusement choisis en

regard de l’application traitée : il s’agit tout d’abord de définir des concepts à partir de tables

préexistantes, de traiter les acronymes médicaux, d’établir une liste de préfixes et de suffixes. Ensuite un

algorithme EDA est proposé afin d’enlever les suffixes (et diminuer ainsi le nombre de mots) et aussi

pour enrichir les documents avec d’autres mots. Il se base sur une liste de règles ordonnées qui éliminent

des suffixes du mot en cours de traitement. Une validation expérimentale a lieu en comparant EDA avec

un algorithme concurrent CARRY sur la base d’une F-mesure mais également de la K-mesure (une

contribution de l’auteur détaillée plus tard) et en conjonction avec un algorithme de prédiction

bayésienne. Les résultats sont meilleurs pour EDA même si l’on ne connaît pas les temps d’exécution

respectifs des méthodes. Ce chapitre traite ensuite de la proposition d’un algorithme de classement CLO3.

Cet algorithme est en fait une pondération des concepts qui utilise le fait que les mots décrivant le cas

médical peuvent apparaître dans la description du diagnostique prédit. Cette heuristique semble

intéressante et un bilan comparatif est ensuite présenté entre CLO3 et des approches compétitives pour ce

problème. Ce chapitre se poursuit sur l’optimisation de CLO3 en explicitant clairement les motivations

pour les choix effectués, ce qui représente à nouveau un travail expérimental très important. Ce chapitre

se termine en illustrant le fonctionnement du logiciel réalisé. On obtient alors une vue claire quant à la

manière dont l’outil peut interagir avec l’expert pour proposer des diagnostiques (application finale

visée).

Le chapitre 4 commence par un état de l’art et une discussion à propos des mesures d’évaluation

des systèmes de recherche d’information, à savoir la précision, le rappel et la F-Mesure. Il se poursuit en

décrivant quelques autres mesures, puis est constitué de deux parties. Sur la base d’une discussion sur les

limites de la F-mesure, la K-Mesure est proposée. Il s’agit d’une généralisation de la F-mesure permettant

de mieux préciser les contributions respectives de la précision et du rappel dans une mesure d’évaluation

d’un outil de recherche d’information. La deuxième partie propose la définition de la D-mesure. Cette

partie est intéressante également et répond au problème de la prise en compte de l’exigence de l’expert

en ce qui concerne la présence des résultats pertinents en tête de liste. Ces choix sont très clairement

argumentés.

Le chapitre 5 décrit le projet RNTS RHEA et la contribution importante qui y est apportée. Il

s’agit d’aider à la collecte des informations sur les patients en réanimation, d’une part par la définition

d’une base de données et d’autre part par la réalisation d’un logiciel pour la gérer. Cette réalisation est

couramment utilisée dans de nombreux services de réanimation.

La conclusion dégage les perspectives importantes qui font suite à ce travail.

En conclusion de ce rapport, j’ai lu cette thèse avec beaucoup d’intérêt et de satisfaction.

L’ensemble du document représente un travail conséquent avec une dimension expérimentale importante

qui a du engendrer de nombreuses difficultés. Le texte est très bien rédigé, avec en outre une justification

des choix très agréable à lire, même s’il manque parfois de détails sur certains points. Les résultats

présentés sur des données réelles sont d’un volume important. La réalisation est opérationnelle dans des

services hospitaliers. Les références bibliographiques sont volumineuses.

Pour toutes ces raisons, je donne donc un avis très favorable à la soutenance de cette thèse.

Gilles Venturini,

Professeur d’Informatique,

Ecole Polytechnique de l’Université de Tours.

1 / 2 100%

Documents connexes

algorithme algorithme -bases -une

Résumé de ma thèse

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Télécharger le pré rapport du Professeur GARDARIN

Résumé

Grille d'évaluation orale ISN - Compétences et capacités

Exercice d'algorithme : Boucle "tant que"

Premiers algorithmes… Exercice1 : Exercice2 : Exercice3 : Exercice4:

Considérer l`algorithme

Problème de codage

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Télécharger le pré rapport du Professeur VENTURINI

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Télécharger le pré rapport du Professeur VENTURINI

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib