RAPPORT De Georges GARDARIN Professeur à Versailles Sur la thèse de Didier NAKACHE Cette thèse d’informatique présente des études, développements et expérimentations d’algorithmes de fouille de texte dans le contexte du domaine médical et plus particulièrement des services de réanimation. Dans le cadre du projet RNTS RHEA, elle traite d'un problème de classification en catégories multiples de données textuelles, en l'occurrence de comptes rendus hospitaliers. Le document est constitué de 5 chapitres. Le chapitre 1 introductif présente le cadre général : présentation du contexte, des enjeux, et exposé de la problématique. Il est précédé d'une présentation globale du projet et des sous-projets dans lequel s’est déroulé le travail, et suivi d'une présentation du plan. L’originalité des résultats gagnerait à être mise en valeur. Le chapitre 2 est consacré à l'état de l’art sur les techniques de classification de données textuelles. Après avoir défini quelques termes et discuté un peu longuement des philosophies de la classification, l’auteur décrit comment nous assistons à la convergence des méthodes purement algorithmiques avec les méthodes linguistiques. La vectorisation des documents s’appuie sur des méthodes plutôt linguistiques alors que la classification des vecteurs représentant les documents peut s’appuyer sur de multiples algorithmes aujourd’hui classiques. Chaque étape est décrite avec précision et illustrée d’exemples. Les principaux algorithmes sont introduits. Au final, une analyse très complète permet la comparaison entre ces différentes méthodes et leurs résultats respectifs. Le chapitre 3 propose et expérimente une méthode complète et originale pour la classification automatique des comptes rendus hospitaliers (CRH). L’auteur montre toute la démarche utilisée, de la formalisation du problème à sa résolution, en passant par la constitution des bases de données et leur exploitation. Il décrit en particulier la mise au point d'un algorithme de désuffixation, EDA, qui a l’originalité de rajouter des concepts à partir de la structure des termes médicaux. Plusieurs algorithmes plus ou moins classiques ont été appliqués sur plus de 30000 CRH. Les résultats n’étaient pas très satisfaisants en termes de rappel et précision. L’auteur a proposé et développé un nouvel algorithme de classification automatique de documents qui permet d’améliorer de 8% les résultats. Une analyse très complète des facteurs d’optimisation est proposée. Elle devrait permettre une transposition des optimisations aux autres algorithmes et à d’autres problématiques. Le chapitre 4 est consacré à la problématique de l'évaluation des résultats. Après un état de l’art, s'en suit une analyse de la difficulté d'évaluer et d’adapter les mesures traditionnelles à ce type de problématique. L’auteur présente la Dmesure et la K-mesure, adaptées aux problèmes d'évaluation pour la recherche d'informations et la classification. La D-mesure permet d’intégrer la position des réponses et leur qualité au-delà du simple positionnement vrai/faux. La Kmesure permet d'ajouter des niveaux d'exigence et de mieux maîtriser ce que l'on souhaite évaluer. La F-mesure reste cependant un standard d’évaluation synthétisant rappel et précision. Le chapitre 5 présente le projet RNTS RHEA, contexte de cette thèse. RHEA est un outil de saisie de données médicales des patients admis en réanimation. L'applicatif développé alimente un entrepôt de données, en intégrant la gestion des flux, la sécurité, le calcul des indicateurs et des scores de gravité, la génération automatique de codes actes, …. Ce travail représente 300 000 lignes de code. L’outil est utilisé par des praticiens et a atteint un niveau proche du produit industriel. C’est un résultat concret remarquable de cette thèse. La conclusion fait le bilan du travail réalisé et dégage les perspectives envisagées. Au vu de tous ces travaux remarquables et clairement expliqués, des publications réalisées et de l’excellent outil logiciel issu du projet, je recommande l’attribution du titre de docteur en informatique à M. Didier Nakache. Versailles, le 6 septembre 2007 Georges GARDARIN