RAPPORT
De Georges GARDARIN
Professeur à Versailles
Sur la thèse de Didier NAKACHE
Cette thèse d’informatique présente des études, développements et
expérimentations d’algorithmes de fouille de texte dans le contexte du domaine
médical et plus particulièrement des services de réanimation. Dans le cadre du
projet RNTS RHEA, elle traite d'un problème de classification en catégories
multiples de données textuelles, en l'occurrence de comptes rendus hospitaliers.
Le document est constitué de 5 chapitres.
Le chapitre 1 introductif présente le cadre général : présentation du contexte,
des enjeux, et exposé de la problématique. Il est précédé d'une présentation
globale du projet et des sous-projets dans lequel s’est déroulé le travail, et suivi
d'une présentation du plan. L’originalité des résultats gagnerait à être mise en
valeur.
Le chapitre 2 est consacré à l'état de l’art sur les techniques de classification de
données textuelles. Après avoir défini quelques termes et discuté un peu
longuement des philosophies de la classification, l’auteur décrit comment nous
assistons à la convergence des méthodes purement algorithmiques avec les
méthodes linguistiques. La vectorisation des documents s’appuie sur des
méthodes plutôt linguistiques alors que la classification des vecteurs
représentant les documents peut s’appuyer sur de multiples algorithmes
aujourd’hui classiques. Chaque étape est décrite avec précision et illustrée
d’exemples. Les principaux algorithmes sont introduits. Au final, une analyse très
complète permet la comparaison entre ces différentes méthodes et leurs
résultats respectifs.
Le chapitre 3 propose et expérimente une méthode complète et originale pour la
classification automatique des comptes rendus hospitaliers (CRH). L’auteur
montre toute la démarche utilisée, de la formalisation du problème à sa
résolution, en passant par la constitution des bases de données et leur
exploitation. Il décrit en particulier la mise au point d'un algorithme de
désuffixation, EDA, qui a l’originalité de rajouter des concepts à partir de la
structure des termes médicaux. Plusieurs algorithmes plus ou moins classiques
ont été appliqués sur plus de 30000 CRH. Les résultats n’étaient pas très
satisfaisants en termes de rappel et précision. L’auteur a proposé et développé
un nouvel algorithme de classification automatique de documents qui permet
d’améliorer de 8% les résultats. Une analyse très complète des facteurs
d’optimisation est proposée. Elle devrait permettre une transposition des
optimisations aux autres algorithmes et à d’autres problématiques.