Hémocromatose doc

publicité
FCDA
2003-2004
ANALYSE DISCRIMINANTE
L’objectif de cet exemple est de fournir un cas concret d’utilisation de l’analyse discriminante
ainsi qu’une illustration des problèmes rencontrés en pratique.
1 - Introduction
L’hémochromatose est une pathologie qui se traduit par une absorption anormale du fer au
niveau digestif entraînant à terme l’apparition d’une cirrhose. Le problème consiste ici à
détecter la présence de cirrhose chez les patients atteints d’hémochromatose sans recourir à un
examen pénible pour le sujet (biopsie du foie).
La population étudiée comporte 136 sujets, tous atteints d’hémochromatose. Certains (37)
présentent une cirrhose (groupe 1), les autres (99) en étant indemnes (groupe 2).
L’objectif consiste à l’aide de différents paramètres relevés sur ces patients et présentés ciaprès, à construire une règle de décision permettant de diagnostiquer la présence de cirrhose.
Les variables disponibles :
1- SEXE : sexe du patient
2- AGEDIAG : âge du patient au diagnostic
3- HM : Hépatomégalie
4- IHC : insuffisance hépato cellulaire
5- AST : enzymes de la cellule hépatique
6- ALAT : idem
7- GGT : gamma GT
8- FER : teneur en fer dans le sang (quantité de fer par unité de volume)
9- FRT : ferritine (quantité de la protéine vecteur du fer)
10- CS : coefficient de saturation
Hemo_Fdca -
1
11- CHFAGE : concentration hépatique divisée par l’âge
12- BMI : index de biomasse (poids en kg divisé par le carré de la taille)
13- OH : présence d’alcoolisme
Les données après élimination des valeurs manquantes contiennent 136 observations comme
mentionné plus haut.
2 - Quelles variables peuvent être traitées directement ?
3 - Quels sont les choix à effectuer avant de commencer le traitement ?
4 - Une fonction de densité normale a été choisie. Quels sont les règles que l’on peut alors
obtenir ? Comment choisir ?
5 - Les résultats fournis ont été obtenus par la procédure DISCRIM de SAS. Donner la règle
de classement obtenue. Utiliser cette règle pour obtenir le groupe d’affectation des individus
suivants : 21, 27, 31 et 37. Calculer également les probabilités a posteriori correspondantes.
Quelle est la qualité de la règle de classement ainsi obtenue ? Que penser de la méthode
utilisée ? Quelles autres approches aurait-on pu utiliser ? Examiner alors les résultats obtenus
par l’une d’entre elles. La qualité de la règle de classement est-elle identique pour les 2
groupes ?
6 - Examiner les classements et les probabilités a posteriori des individus suivants : 27, 28, 31
et 42. Comment tenir compte de la qualité du classement dans un groupe ? Quels sont alors les
indicateurs à considérer ?
7 - L’ensemble des variables du modèle doit-il être retenu ? Comment procéder ? Quel est le
problème posé par les procédures de sélection disponibles dans la plupart des logiciels ?
Quel modèle retient-on ici ? Examiner les résultats du modèle définitif en vous inspirant de la
démarche précédente.
8 - Comment apprécier la qualité de la règle de classement obtenue ?
9 - On désire prendre en compte les variables qualitatives, sexe et hépatomégalie par exemple.
Comment procéder ?
Hemo_Fdca -
2
10 - Dans le cas de la méthode DISQUAL quel est le problème posé par l’utilisation des
procédures de sélection ? Comment peut-on alors sélectionner a priori les variables à intégrer
dans le modèle ?
11 - Donner les résultats. En particulier préciser l’affectation des observations 1, 37, 38 et 40.
12 - Extraire les facteurs issus de l’ACM réalisée sous SPAD (fichier HEMO.GUS) et les
importer sous SAS. Utiliser alors la procédure DISCRIM de SAS pour vérifier les résultats
obtenus sur les facteurs.
13 - Si l’on désire construire directement la règle discriminante sur l’ensemble des variables
comment procéder ?
14 - La prise en compte des variables qualitatives améliore-t-elle la qualité prédictive de la
règle discriminante ?
15 - Quelle méthode autre que l’analyse discriminante pourrait être utilisée ?
Hemo_Fdca -
3
Téléchargement