FCDA 2003-2004 ANALYSE DISCRIMINANTE L’objectif de cet exemple est de fournir un cas concret d’utilisation de l’analyse discriminante ainsi qu’une illustration des problèmes rencontrés en pratique. 1 - Introduction L’hémochromatose est une pathologie qui se traduit par une absorption anormale du fer au niveau digestif entraînant à terme l’apparition d’une cirrhose. Le problème consiste ici à détecter la présence de cirrhose chez les patients atteints d’hémochromatose sans recourir à un examen pénible pour le sujet (biopsie du foie). La population étudiée comporte 136 sujets, tous atteints d’hémochromatose. Certains (37) présentent une cirrhose (groupe 1), les autres (99) en étant indemnes (groupe 2). L’objectif consiste à l’aide de différents paramètres relevés sur ces patients et présentés ciaprès, à construire une règle de décision permettant de diagnostiquer la présence de cirrhose. Les variables disponibles : 1- SEXE : sexe du patient 2- AGEDIAG : âge du patient au diagnostic 3- HM : Hépatomégalie 4- IHC : insuffisance hépato cellulaire 5- AST : enzymes de la cellule hépatique 6- ALAT : idem 7- GGT : gamma GT 8- FER : teneur en fer dans le sang (quantité de fer par unité de volume) 9- FRT : ferritine (quantité de la protéine vecteur du fer) 10- CS : coefficient de saturation Hemo_Fdca - 1 11- CHFAGE : concentration hépatique divisée par l’âge 12- BMI : index de biomasse (poids en kg divisé par le carré de la taille) 13- OH : présence d’alcoolisme Les données après élimination des valeurs manquantes contiennent 136 observations comme mentionné plus haut. 2 - Quelles variables peuvent être traitées directement ? 3 - Quels sont les choix à effectuer avant de commencer le traitement ? 4 - Une fonction de densité normale a été choisie. Quels sont les règles que l’on peut alors obtenir ? Comment choisir ? 5 - Les résultats fournis ont été obtenus par la procédure DISCRIM de SAS. Donner la règle de classement obtenue. Utiliser cette règle pour obtenir le groupe d’affectation des individus suivants : 21, 27, 31 et 37. Calculer également les probabilités a posteriori correspondantes. Quelle est la qualité de la règle de classement ainsi obtenue ? Que penser de la méthode utilisée ? Quelles autres approches aurait-on pu utiliser ? Examiner alors les résultats obtenus par l’une d’entre elles. La qualité de la règle de classement est-elle identique pour les 2 groupes ? 6 - Examiner les classements et les probabilités a posteriori des individus suivants : 27, 28, 31 et 42. Comment tenir compte de la qualité du classement dans un groupe ? Quels sont alors les indicateurs à considérer ? 7 - L’ensemble des variables du modèle doit-il être retenu ? Comment procéder ? Quel est le problème posé par les procédures de sélection disponibles dans la plupart des logiciels ? Quel modèle retient-on ici ? Examiner les résultats du modèle définitif en vous inspirant de la démarche précédente. 8 - Comment apprécier la qualité de la règle de classement obtenue ? 9 - On désire prendre en compte les variables qualitatives, sexe et hépatomégalie par exemple. Comment procéder ? Hemo_Fdca - 2 10 - Dans le cas de la méthode DISQUAL quel est le problème posé par l’utilisation des procédures de sélection ? Comment peut-on alors sélectionner a priori les variables à intégrer dans le modèle ? 11 - Donner les résultats. En particulier préciser l’affectation des observations 1, 37, 38 et 40. 12 - Extraire les facteurs issus de l’ACM réalisée sous SPAD (fichier HEMO.GUS) et les importer sous SAS. Utiliser alors la procédure DISCRIM de SAS pour vérifier les résultats obtenus sur les facteurs. 13 - Si l’on désire construire directement la règle discriminante sur l’ensemble des variables comment procéder ? 14 - La prise en compte des variables qualitatives améliore-t-elle la qualité prédictive de la règle discriminante ? 15 - Quelle méthode autre que l’analyse discriminante pourrait être utilisée ? Hemo_Fdca - 3