Télécharger le pré rapport du Professeur GARDARIN

publicité
RAPPORT
De Georges GARDARIN
Professeur à Versailles
Sur la thèse de Didier NAKACHE
Cette thèse d’informatique présente des études, développements et
expérimentations d’algorithmes de fouille de texte dans le contexte du domaine
médical et plus particulièrement des services de réanimation. Dans le cadre du
projet RNTS RHEA, elle traite d'un problème de classification en catégories
multiples de données textuelles, en l'occurrence de comptes rendus hospitaliers.
Le document est constitué de 5 chapitres.
Le chapitre 1 introductif présente le cadre général : présentation du contexte,
des enjeux, et exposé de la problématique. Il est précédé d'une présentation
globale du projet et des sous-projets dans lequel s’est déroulé le travail, et suivi
d'une présentation du plan. L’originalité des résultats gagnerait à être mise en
valeur.
Le chapitre 2 est consacré à l'état de l’art sur les techniques de classification de
données textuelles. Après avoir défini quelques termes et discuté un peu
longuement des philosophies de la classification, l’auteur décrit comment nous
assistons à la convergence des méthodes purement algorithmiques avec les
méthodes linguistiques. La vectorisation des documents s’appuie sur des
méthodes plutôt linguistiques alors que la classification des vecteurs
représentant les documents peut s’appuyer sur de multiples algorithmes
aujourd’hui classiques. Chaque étape est décrite avec précision et illustrée
d’exemples. Les principaux algorithmes sont introduits. Au final, une analyse très
complète permet la comparaison entre ces différentes méthodes et leurs
résultats respectifs.
Le chapitre 3 propose et expérimente une méthode complète et originale pour la
classification automatique des comptes rendus hospitaliers (CRH). L’auteur
montre toute la démarche utilisée, de la formalisation du problème à sa
résolution, en passant par la constitution des bases de données et leur
exploitation. Il décrit en particulier la mise au point d'un algorithme de
désuffixation, EDA, qui a l’originalité de rajouter des concepts à partir de la
structure des termes médicaux. Plusieurs algorithmes plus ou moins classiques
ont été appliqués sur plus de 30000 CRH. Les résultats n’étaient pas très
satisfaisants en termes de rappel et précision. L’auteur a proposé et développé
un nouvel algorithme de classification automatique de documents qui permet
d’améliorer de 8% les résultats. Une analyse très complète des facteurs
d’optimisation est proposée. Elle devrait permettre une transposition des
optimisations aux autres algorithmes et à d’autres problématiques.
Le chapitre 4 est consacré à la problématique de l'évaluation des résultats. Après
un état de l’art, s'en suit une analyse de la difficulté d'évaluer et d’adapter les
mesures traditionnelles à ce type de problématique. L’auteur présente la Dmesure et la K-mesure, adaptées aux problèmes d'évaluation pour la recherche
d'informations et la classification. La D-mesure permet d’intégrer la position des
réponses et leur qualité au-delà du simple positionnement vrai/faux. La Kmesure permet d'ajouter des niveaux d'exigence et de mieux maîtriser ce que
l'on souhaite évaluer. La F-mesure reste cependant un standard d’évaluation
synthétisant rappel et précision.
Le chapitre 5 présente le projet RNTS RHEA, contexte de cette thèse. RHEA est
un outil de saisie de données médicales des patients admis en réanimation.
L'applicatif développé alimente un entrepôt de données, en intégrant la gestion
des flux, la sécurité, le calcul des indicateurs et des scores de gravité, la
génération automatique de codes actes, …. Ce travail représente 300 000 lignes
de code. L’outil est utilisé par des praticiens et a atteint un niveau proche du
produit industriel. C’est un résultat concret remarquable de cette thèse.
La conclusion fait le bilan du travail réalisé et dégage les perspectives
envisagées.
Au vu de tous ces travaux remarquables et clairement expliqués, des
publications réalisées et de l’excellent outil logiciel issu du projet, je recommande
l’attribution du titre de docteur en informatique à M. Didier Nakache.
Versailles, le 6 septembre 2007
Georges GARDARIN
Téléchargement