Réseau thématique ACTA n° RT-03/03 GUIDE ILLUSTRE SUR LE MODELE LINEAIRE GENERALISE Annexe A au Rapport final Décembre 2004 Pilote du réseau : Gérard Daumas Institut Technique du Porc La Motte au Vicomte, B.P. 35104 - 35651 LE RHEU CEDEX Tél. 02 99 60 98 43 – Fax : 02.99.60.93.55 - Courriel : [email protected] Table des matières Table des matières 6 Liste des tableaux 11 Liste des figures 16 1 Introduction au modèle linéaire généralisé 17 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.1 Conditions d’utilisation du modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . 18 1.2 Quelques situations en dehors des limites du modèle linéaire . . . . . . . . . . . . . . 20 Les différents types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1 Y est qualitative à deux modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2 Y est qualitative à plus de deux modalités . . . . . . . . . . . . . . . . . . . . . . . . 32 2.3 Y est une variable de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1 34 2 3 Prédicteur du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Table des matières 3.2 Fonction de lien et prédicteurs linéaires . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.3 Y est qualitative à deux modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.4 Y est qualitative à plus de deux modalités . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5 Y est une variable de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.1 Première impression graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2 Vraisemblance d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.3 Maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.4 Propriétés des estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . . 52 Tests de validité et comparaison de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1 Déviance du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 5.2 Test de la validité par rapport à un sous-modèle . . . . . . . . . . . . . . . . . . . . . 57 5.3 Sélection pas à pas du meilleur modèle . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.4 Contributions individuelles à la déviance résiduelle . . . . . . . . . . . . . . . . . . . 61 6 Modèle logit et discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 7 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4 5 2 L’étude de l’association entre variables binaires (Le modèle logistique avec GENMOD de SASr ) 67 1 67 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 4 5 6 7 La comparaison de deux pourcentages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.1 Le test usuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.2 Un test exact, le test de FISHER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.3 L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Des mesures de l’association entre deux variables binaires . . . . . . . . . . . . . . . . . . . 76 3.1 Les définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.2 Les estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3.3 L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Le modèle logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.1 L’essai ((gras d’agneaux)), une première analyse sur données agrégées . . . . . . . . . 84 4.2 L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 La prise en compte d’un tiers facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.1 Le test de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.2 Condition d’utilisation du test de Mantel-Haenszel, le test d’interaction . . . . . . . . 96 5.3 L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Le modèle logistique avec 2 variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1 un second modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.2 L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3 Table des matières 3 Analyse d’un pourcentage 1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 2 essai phytosanitaire - présentation de l’exemple . . . . . . . . . . . . . . . . . . . . . . . . . 110 3 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4 4 109 3.1 Utilité du lien logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 3.2 Estimation du modèle avec introduction d’un facteur de surdispersion . . . . . . . . . 114 3.3 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Le modèle multinomial nominal 125 1 Introduction : exemple (( carcasses )) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 2 Où le modèle linéaire généralisé est incontournable . . . . . . . . . . . . . . . . . . . . . . . 127 3 Modèle multinomial nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4 Mise en œuvre sous SAS: exemple ((carcasses)) . . . . . . . . . . . . . . . . . . . . . . . . . 130 5 4.1 Lecture des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.2 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 4.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.4 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 4.5 Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Récapitulatif des commandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 4 5 Régression logistique avec la procédure LOGISTIC 1 Les données utilisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 2 La régression stepwise avec la procédure LOGISTIC . . . . . . . . . . . . . . . . . . . . . . 147 3 6 145 2.1 Le programme SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 2.2 Les sorties de la procédure LOGISTIC . . . . . . . . . . . . . . . . . . . . . . . . . 151 Le modèle final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 3.1 Les variables retenues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 3.2 Le programme SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 3.3 Les sorties de la procédure LOGISTIC . . . . . . . . . . . . . . . . . . . . . . . . . 161 Modèle log-linéaire pour les données de comptage 181 1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 2 Dispositif expérimental et données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 3 L’analyse de variance des comptages, et ses limites . . . . . . . . . . . . . . . . . . . . . . . 183 4 Retour sur le phénomène étudié et justification d’un modèle log-linéaire . . . . . . . . . . . . 187 4.1 Modèle multiplicatif de l’espérance du comptage . . . . . . . . . . . . . . . . . . . . 189 4.2 Loi du comptage, connaissant son espérance (loi conditionnelle) . . . . . . . . . . . . 190 4.3 Modèle log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 5 Pourquoi pas une transformation de variable? . . . . . . . . . . . . . . . . . . . . . . . . . . 191 6 Ajustement d’un modèle log-linéaire et de ses variantes . . . . . . . . . . . . . . . . . . . . . 194 5 Table des matières 6.1 Choix d’une relation entre moyenne et variance . . . . . . . . . . . . . . . . . . . . . 194 6.2 Choix d’un modèle pour l’espérance : élimination de l’interaction . . . . . . . . . . . 198 7 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Index 203 Index 203 Bibliographie 207 6 Liste des tableaux 1.1 Extrait de données d’intention d’achat. La promesse d’achat prend les valeurs 0 (lorsque le sondé achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit) . . . . . . . . . 1.2 20 Nombre de plantules avec sporulations (dans des bacs de 7 plantules) pour différentes doses de fongicide et différentes races de mildiou inoculé. . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3 Épaisseur de muscle (en mm) et génotype de carcasses de porcs. . . . . . . . . . . . . . . . . 24 1.4 Extrait de données concernant le comportement de clients d’un magasin vendant du vin. . . . 26 1.5 Correspondance entre résultats détaillés et synthèse par dénombrement . . . . . . . . . . . . . 31 1.6 Nombres d’agneaux ayant un gras coloré. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.7 Ancienneté et état des poumons de 371 mineurs (McCullagh & Nelder, 1983). . . . . . . . . . 44 1.8 Estimation par la méthode du maximum de vraisemblance dans le cas des données d’intention d’achat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Coefficients estimés du modèle complet pour les données (( tournesol )) . . . . . . . . . . . . . 56 1.10 Analyse de la déviance du modèle complet pour les données (( tournesol )) . . . . . . . . . . . 56 1.11 Analyse de la déviance du modèle avec interaction pour les données (( tournesol )). . . . . . . . 59 1.12 Descripteurs sensoriels des sandwichs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 1.9 7 Liste des tableaux 1.13 Sélection d’un sous-ensemble pertinent de descripteurs sensoriels. En italique, les probabilités critiques conduisant à considérer que le modèle n’est pas intéressant. En gras, la probabilité critique du modèle sélectionné. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.1 Les données de l’essai ((gras coloré)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.2 La répartition selon l’aliment et la couleur du gras . . . . . . . . . . . . . . . . . . . . . . . . 69 2.3 Les données binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.4 Les tests approchés avec FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.5 Le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.6 L’option cmh1 de FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7 Les estimations de RR et OR dans FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.8 L’intervalle de confiance exact de OR dans FREQ . . . . . . . . . . . . . . . . . . . . . . . . 82 2.9 Les 4 profils d’animaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 2.10 Le code SASr du modèle ((couleur = aliment)) . . . . . . . . . . . . . . . . . . . . . . . . . 85 2.11 Le test du rapport de vraisemblance de l’effet ((alimentation)) . . . . . . . . . . . . . . . . . . 85 2.12 Les moyennes ajustées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 2.13 Estimation de l’odds ratio de l’alimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 2.14 La qualité d’ajustement du modèle ((couleur=alimentation)) . . . . . . . . . . . . . . . . . . . 89 2.15 La prise en compte du logement avec FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 2.16 Le test d’interaction ((logement*aliment)) avec FREQ . . . . . . . . . . . . . . . . . . . . . . 100 2.17 Le code SASr du modèle ((couleur = logement+aliment+aliment*logement)) . . . . . . . . . 102 8 2.18 Les déviances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 2.19 Les tests de type1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 2.20 Les moyennes ajustées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 2.21 Les odds ratio de l’alimentation conditionnellement au type de logement . . . . . . . . . . . . 106 3.1 données de l’essai porte-greffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.1 données ((carcasses)) : effectifs observés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.2 données ((carcasses)) : proportions observées . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.1 Croisement entre ∆TP et traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 5.2 Variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.3 Code SAS – Procédure LOGISTIC (( stepwise )) . . . . . . . . . . . . . . . . . . . . . . . . . 149 5.4 Etape 0 – Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 152 5.5 Etape 0 – Test du Khi-deux résiduel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.6 Etape 0 – Critères absents du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 5.7 Etape 1 – Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.8 Etape 1 – Critères d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 5.9 Etape 1 – Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 156 5.10 Etape 1 – Odds ratios estimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 5.11 Etape 1 – Critères présents dans le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 9 Liste des tableaux 5.12 Etape 1 – Critères absents du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 5.13 Tableau récapitulatif de la régression logistique (( stepwise )) . . . . . . . . . . . . . . . . . . 160 5.14 Variables explicatives retenues par la régression logistique (( stepwise )) . . . . . . . . . . . . 160 5.15 Code SAS – Procédure LOGISTIC finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.16 Modèle final – Critères d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.17 Modèle final – R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 5.18 Modèle final – Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 5.19 Modèle final – Odds ratios estimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 5.20 Modèle final – Intervalles de confiance des odds ratios . . . . . . . . . . . . . . . . . . . . . 164 5.21 Modèle final – Partition pour le test de Hosmer et Lemeshow . . . . . . . . . . . . . . . . . . 167 5.22 Modèle final – Test de Hosmer et Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 5.23 Modèle final – Croisement entre répartition observée et répartition prédite . . . . . . . . . . . 168 5.24 Modèle final – Estimation de la sensibilité et de la spécificité . . . . . . . . . . . . . . . . . . 169 5.25 Modèle final – Tableau de classement avec probabilité a priori de 38 % . . . . . . . . . . . . . 170 5.26 Modèle final – Tableau de classement avec probabilité a priori de 23,3 % . . . . . . . . . . . . 171 5.27 Modèle final – Code SAS – Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 5.28 Modèle final – Extrait de la table de sortie ROC . . . . . . . . . . . . . . . . . . . . . . . . . 175 5.29 Modèle final – Diagnostics 1ière partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 5.30 Modèle final – Diagnostics 2ième partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 10 5.31 Modèle final – Nuages de points obtenus par l’option IPLOTS . . . . . . . . . . . . . . . . . 180 6.1 Nombre de points collants par échantillon dans l’expérimentation humidité x coton . . . . . . 184 6.2 Nombre de points collants par échantillon dans l’expérimentation humidité x coton . . . . . . 185 6.3 Relation entre moyenne et variance pour quelques lois de probabilité courantes . . . . . . . . 189 6.4 Essai de différentes transformations de variables avant analyse de variance : tests d’homogénéité de variance et d’interaction coton x humidité . . . . . . . . . . . . . . . . . . . . . . . . 193 11 Table des figures 1.1 Variations de la teneur en viande maigre en fonction d’une épaisseur de gras (haut) et en fonction du sexe de la carcasse (bas). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 19 Lien entre les promesses d’achat et les notes hédoniques attribuées par 36 juges. La promesse d’achat prend les valeurs 0 (lorsque le sondé achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit). Notons que, pour éviter les superpositions de points, les valeurs de note globale représentées sur le graphique sont légèrement modifiées par rapport aux valeurs mesurées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 21 Proportion de plantules avec sporulations en fonction du logarithme de la dose (afin de visualiser toutes les mesures, le logarithme de la dose a été perturbé de manière aléatoire en chaque point). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.4 Type génétique et épaisseur de muscle de carcasses de porcs. . . . . . . . . . . . . . . . . . . 25 1.5 Nombre de bouteilles examinées par un client en fonction du logarithme de son temps de séjour en magasin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.6 Types de variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.7 Relation entre variance et espérance d’une loi conditionnelle dans le cas où Y est qualitative à deux modalités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 29 Liste des figures 1.8 Relation entre promesse d’achat et note hédonique. Pour chaque valeur de la note hédonique, la proportion d’acheteurs potentiels du sandwich est représentée par un cercle. Pour éviter les superpositions de points, les valeurs de note globale représentées sur le graphique sont légèrement modifiées par rapport aux valeurs mesurées. . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Prédicteurs du modèle logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 1.10 Relation entre le logodds de la promesse d’achat et la note hédonique. . . . . . . . . . . . . . 38 1.11 Interprétation des paramètres de la surface de réponse. Dans tous les exemples, β0 = −5β1 . . . 39 1.12 Modèle logistique multinomial représentant le lien entre type génétique et épaisseur de muscle. 43 1.9 1.13 Ajustement du modèle à risques proportionnels aux données sur la maladie des poumons des mineurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 1.14 Modèle log-linéaire pour les données de comportements de clients en magasin. . . . . . . . . 47 1.15 Comparaison de 2 modèles logit pour les données d’intention d’achat. . . . . . . . . . . . . . 50 1.16 Vraisemblance du modèle logit. Exemple des données d’intention d’achat . . . . . . . . . . . 51 1.17 Ajustement d’un modèle de régression logistique (courbe noire). Les courbes en gris sont les limites d’un intervalle de confiance d’estimation de niveau 95 %. Exemple des données d’intention d’achat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 1.18 Ajustement du modèle saturé, du modèle complet et du modèle nul sur les données (( tournesol )). 55 1.19 Ajustement du modèle avec interaction (en haut) et du modèle sans interaction (en bas) sur les données (( tournesol )). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 1.20 Détection de données mal ajustées (les points désignés par les les lettres (( R )) ou (( S )) selon la race du mildiou) par l’analyse des résidus de la déviance. . . . . . . . . . . . . . . . . . . . . 63 1.21 Discrimination logit. Exemple des données d’intention d’achat. Les cercles désignent les données correctement affectées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 64 1.22 Choix de la meilleure valeur du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 65 Relation entre la dispersion des valeurs des traitements et leur moyenne. Valeurs initiales et logits correspondants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.1 Ce qu’il ne faut pas faire : une régression linéaire simple par type génétique. Résidus en fonction des probabilités prédites, pour le type génétique g1. . . . . . . . . . . . . . . . . . . . . . . . 128 4.2 Exemple ’carcasse’ : vérification a priori de la linéarité de l’effet épaisseur de muscle : (a) proportions en fonction de l’épaisseur de muscle; (b) logit empirique en fonction de l’épaisseur de muscle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4.3 Exemple ((carcasse)) : proportions associées aux différents génotypes, en fonction de l’épaisseur de muscle. Les courbes correspondent aux probabilités estimées sans (a) ou avec (b) les intervalles de confiance à 95%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.4 Exemple ((carcasse)) : résidus de Pearson en fonction (a) de l’épaisseur de muscle; (b) des probabilités prédites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.1 Etape 1 – 3 tests possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 5.2 Modèle final – Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 6.1 Mise en évidence d’une distribution trop aplatie des résidus de l’analyse de variance, traduisant une hétérogénéité de la variance résiduelle : (a) histogramme et densité d’une loi gaussienne; (b) graphique quantile (qqplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 6.2 (a) mise en évidence d’une hétérogénéité de variance en croisant les résidus de l’analyse de variance avec les valeurs prédites (b) mise en évidence d’une interaction multiplicative en croisant les valeurs moyennes par coton et par humidité avec la valeur moyenne par coton . . . . . . . 187 6.3 Comparaison de trois répartitions spatiales de points (a) répartition au hasard : le nombre de points par échantillon suit une loi de Poisson (b) répartition en agrégats : le nombre de points par échantillon suit une loi de (c) densité non homogène : le nombre de points par échantillon suit une loi binomiale . . . . . 188 15 Liste des figures 6.4 Résidus de déviance du modèle log-linéaire : (a) graphique quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la prédiction) . . . . . . . . . . . . . . . . . . 195 6.5 Résidus de déviance du modèle à lien logarithme et distribution binomiale négative : (a) graphique quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la prédiction) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 16 Introduction au modèle linéaire généralisé (Causeur, D.) Chapitre 1 Introduction au modèle linéaire généralisé Causeur, D. Agrocampus Rennes Laboratoire de Mathématiques Appliquées 65, rue de St-Brieuc, CS84215 - 35042 Rennes cedex [email protected] 1 Introduction Un des objectifs de cette introduction à la modélisation linéaire généralisée est de faire l’inventaire de questions qu’il est important de se poser au moment d’entreprendre un traitement de données. Ces questions interviennent donc à un stade de la démarche statistique où la réflexion sur la mesure du phénomène étudié a abouti à la définition d’un ensemble de caractéristiques pertinentes, appelées les variables du problème. Par exemple, dans le contexte agricole et dans les problèmes de sélection végétale ou animale en particulier, il est classique de retrouver parmi ces variables des mesures de rendement, d’autres caractérisant la qualité de l’environnement ou encore des informations sur le génotype des plantes ou des animaux qui font l’objet de l’étude. On le voit, toutes les variables n’ont pas le même statut : en effet, certaines d’entre elles, en l’occurence ici les mesures de rendement, sont la cible de l’étude au sens où l’objectif de l’analyse est de comprendre comment ou pourquoi 17 Introduction au modèle linéaire généralisé (Causeur, D.) ces quantités varient. Selon les domaines d’application et les logiciels, la terminologie diffère pour définir ces variables : on choisit pour la suite le terme variables à expliquer plutôt que variables réponses, variables à prédire ou variables endogènes. Par opposition, d’autres variables, ici les informations d’ordre environnemental ou génétique, apparaissent comme des sources de variabilité potentielles de ces variables à expliquer. Par analogie avec le choix de vocabulaire justifié ci-dessus, on choisit d’appeler ces variables les variables explicatives plutôt que prédictrices ou exogènes. L’étude du lien entre les variables à expliquer et les variables explicatives passe maintenant par le choix d’une méthode statistique adaptée à la nature de leurs relations. En fait, chacune de ces méthodes statistiques s’appuie sur une représentation mathématique de ces relations, que l’on appelle le modèle statistique. Pour qu’il permette de mieux comprendre comment les variables à expliquer sont liées aux variables explicatives, il faut que ce modèle soit d’une part un bon compte-rendu de la réalité et d’autre part une représentation simple, réduite à l’essentiel, de cette réalité. Dans de nombreuses situations, les très populaires modèles linéaires de régression et d’analyse de la variance présentent ces deux qualités : il ne trahissent pas la réalité et leur linéarité leur confère une simplicité très attractive. 1.1 Conditions d’utilisation du modèle linéaire L’utilisation des modèles linéaires est limitée à certaines conditions que l’on peut décrire à partir des exemples représentés sur la figure 1.1. Les graphes de cette figure représentent les variations des mesures de teneur en viande maigre (en kg de muscle par quintal) de 344 carcasses de porc selon les mesures d’une épaisseur de gras (en mm) d’une part et selon le sexe de la carcasse d’autre part. La variable à expliquer commune à ces deux exemples est la teneur en viande maigre. La variable explicative quant à elle est, selon le cas, soit l’épaisseur de gras soit le sexe. La 1ère condition d’application du modèle linéaire porte sur le type de la variable à expliquer. En l’occurence, l’utilisation du modèle linéaire suppose que cette variable soit mesurable sur une échelle continue, à l’instar de la teneur en viande maigre et de nombreux autres indicateurs de rendement. La 2ème condition porte sur la distribution des valeurs de la variable à expliquer pour une valeur donnée de la variable explicative. Cette distribution s’appelle la loi conditionnelle de la variable à expliquer connaissant la variable explicative. Comme le montrent les courbes de densité de probabilité représentées sur les graphes de la figure 1.1, pour une épaisseur de gras donnée ou pour un sexe donné, la teneur en viande maigre se répartit de manière symétrique autour d’une position centrale. Plus précisément, la normalité de la loi conditionnelle est un pré-requis à l’application du modèle linéaire. Bien évidemment, ces deux conditions d’application constituent 18 Introduction au modèle linéaire généralisé (Causeur, D.) Teneur en viande maigre (kg/quintal) 65 60 55 50 8 10 12 14 16 18 Epaisseur de gras (mm) Teneur en viande maigre (kg/quintal) 65 60 55 50 Femelle Male Sexe F IG . 1.1: Variations de la teneur en viande maigre en fonction d’une épaisseur de gras (haut) et en fonction du sexe de la carcasse (bas). un préalable à l’utilisation du modèle linéaire mais ne suffisent pas à spécifier entièrement le modèle. Par exemple, notons que l’utilisation du modèle linéaire suppose que l’écart-type de la loi conditionnelle soit le même, quelque soit la valeur de la variable explicative. Pour reprendre l’exemple de la teneur en viande maigre, ceci signifie que les dispersions des valeurs observées pour une épaisseur de gras donnée ne dépendent pas de la valeur de cette épaisseur ou que les dispersions intra-sexes sont les mêmes. 19 Introduction au modèle linéaire généralisé (Causeur, D.) La 1ère étape de l’analyse, déterminante dans le choix du modèle statistique, consiste donc à caractériser le type de la variable à expliquer et la forme de la loi conditionnelle. 1.2 Quelques situations en dehors des limites du modèle linéaire On présente quelques situations courantes échappant au domaine d’utilisation classique du modèle linéaire. Afin d’apporter une réponse adaptée à chacune de ces situations, l’ensemble des modèles statistiques que nous envisageons dans la suite étend celui des modèles linéaires. Toutefois, afin de préserver toute la souplesse d’interprétation des modèles linéaires, l’élargissement des conditions d’utilisation se limitera à un cadre préservant une forme de linéarité du modèle : on parle alors de modèle linéaire généralisé. Exemple : promesse d’achat d’un produit alimentaire. Le tableau 1.1 reproduit un extrait des résultats d’une dégustation de sandwiches par 36 juges. Cet extrait se limite à deux variables : d’une part, la promesse d’achat qui correspond à la réponse par oui (codée par la suite 1) ou non (codée 0) à la question (( achèteriez-vous ce sandwich? )) et d’autre part, la note hédonique attribuée par le juge au produit sur une échelle entière allant de 1 à 10. L’objectif est ici d’étudier la relation entre la promesse d’achat, variable à expliquer, et la note hédonique, variable explicative. Promesse d’achat Note globale 1 0 6 2 N 7 3 N 5 4 0 9 5 0 8 6 .. . 0 .. . 5 .. . TAB . 1.1: Extrait de données d’intention d’achat. La promesse d’achat prend les valeurs 0 (lorsque le sondé achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit) Le graphique de la figure 1.2 représente le nuage des valeurs observées des notes hédoniques et promesses d’achat. Comme dans le cas de la régression linéaire, ce type de graphique est traditionnellement utilisé, en 20 Introduction au modèle linéaire généralisé (Causeur, D.) Promesse d’achat O N 0 1 2 3 4 5 6 7 8 9 10 Note hedonique F IG . 1.2: Lien entre les promesses d’achat et les notes hédoniques attribuées par 36 juges. La promesse d’achat prend les valeurs 0 (lorsque le sondé achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit). Notons que, pour éviter les superpositions de points, les valeurs de note globale représentées sur le graphique sont légèrement modifiées par rapport aux valeurs mesurées. préalable à l’ajustement, pour décrire l’évolution des valeurs de la variable à expliquer en fonction de celles de la variable explicative. La forme du nuage de points, structuré en deux sous-nuages horizontaux, est liée à la nature de la variable à expliquer, binaire. Il en résulte aussi qu’à l’évidence, faire le postulat que, pour une note hédonique donnée, les valeurs de la variable à expliquer se répartissent selon une loi normale est en contradiction avec la réalité observée. 2 Exemple : résistance du tournesol au mildiou. Les données dont un extrait est présenté dans le tableau 1.2 proviennent d’une expérience mise en place par l’équipe pathologie du tournesol, laboratoire INRA de pathologie et de mycologie de la station d’amélioration des plantes de Clermont-Ferrand (voir [3]) 1 . L’objectif de l’expérience est d’étudier l’effet d’un traitement fongicide sur 2 races de mildiou, dont l’une, notée R, présente une résistance au fongicide par mutation. L’expérience consiste à inoculer le champignon parasite à des groupes de 7 plantules et à mesurer le nombre de plantules présentant des signes d’infection, à savoir une sporulation. 1. Cet exemple sert aussi d’illustration au chapitre consacré au modèle linéaire généralisé du plan de formation à la statistique proposé par le département Biométrie et Intelligence Artificielle de l’INRA. (Voir [14]) 21 Introduction au modèle linéaire généralisé (Causeur, D.) Dans cet exemple, la variable à expliquer est la proportion de plantes avec sporulations par bac et les variables explicatives sont d’une part la race du mildiou inoculé et d’autre part la dose de fongicide ou plus judicieusement, comme nous le verrons plus loin, le logarithme de la dose. Groupe Race Dose Sporulations Proportion de Nombre de plantules sporulations 1 S 0,001 5 0.71 7 2 S 0,001 6 0.86 7 3 S 0,001 7 1.00 7 4 S 0,001 7 1.00 7 5 S 0,001 7 1.00 7 6 S 0,001 5 0.71 7 7 S 0,02 7 1.00 7 8 .. . S .. . 0,02 .. . 7 .. . 1.00 .. . 7 TAB . 1.2: Nombre de plantules avec sporulations (dans des bacs de 7 plantules) pour différentes doses de fongicide et différentes races de mildiou inoculé. Le graphique de la figure 1.3 montre l’évolution de la proportion de sporulations en fonction du logarithme de la dose de fongicide. Il apparaît assez nettement sur ce graphique que les évolutions sont très différentes pour les 2 races de mildiou. D’autre part, le graphique met également bien en évidence la non-pertinence des postulats du modèle linéaire, en particulier ceux concernant la normalité de la loi conditionnelle et l’homogénéité de sa variance. 2 Exemple : lien entre génotype et épaisseur tissulaire. Dans de nombreux pays de l’Union Européenne, la teneur en viande maigre d’une carcasse de porc est évaluée à partir d’épaisseurs tissulaires mesurées en différents sites sur la carcasse. Les méthodes d’évaluation de la teneur en viande maigre ne tiennent en revanche pas compte du type génétique, exposant ainsi la prédiction à un biais entre les différents génotypes. Une manière de réduire le biais passe par la construction d’un modèle de prédiction du génotype par les épaisseurs tissulaires. La variable à expliquer est donc ici le génotype de la carcasse, variable qualitative nominale dont les modalités sont notées LWP (LargeWhite × Piétrain), LWLF (LargeWhite × Landrace Français), PAL (Pen-ar-Lan) et P 22 Introduction au modèle linéaire généralisé (Causeur, D.) Proportion de plantes avec sporulations 1.0 0.8 0.6 0.4 0.2 Race Sensible Race Resistante 0.0 -8.5 -6.0 -3.5 -1.0 1.5 4.0 6.5 9.0 Logarithme de la dose de fongicide F IG . 1.3: Proportion de plantules avec sporulations en fonction du logarithme de la dose (afin de visualiser toutes les mesures, le logarithme de la dose a été perturbé de manière aléatoire en chaque point). (Piétrain). La variable explicative est une épaisseur de muscle (en mm). Un extrait de données est fourni dans le tableau 1.3 et le graphique de la figure 1.4 illustre ces données. Là encore, le nuage de points représenté sur le graphique de la figure 1.4 ne ressemble pas au nuage elliptique propice à l’utilisation du modèle linéaire. Ces données font l’objet d’une analyse détaillée dans le chapitre 4 2 Exemple : comportement de clients en magasin. Les chercheurs du département Marketing de Texas Tech University s’intéressent à l’effet des conditions d’ambiance en magasin sur le comportement des clients. Pour cela, ils mettent en place une expérience consistant à observer le comportement de clients d’un magasin commercialisant du vin, à travers la durée de présence dans le magasin, le nombre de fois qu’un client sort une bouteille du rayonnage, le nombre de bouteilles achetées ... dans différentes conditions de luminosité (douce ou forte) et de musique d’ambiance (classique ou pop). Un extrait des données est reproduit dans le tableau 1.4. Le graphique de la figure 1.5 illustre le lien entre le nombre de bouteilles examinées par un client et la durée de son passage dans le magasin. Parmi les enseignements à tirer de ce graphique, il apparaît à l’évidence que le nombre moyen de bouteilles examinées, mais aussi la dispersion de ce nombre, est d’autant plus grand que la durée de séjour en magasin est longue. C’est notamment cette dernière remarque qui va à l’encontre des hypothèses traditionnelles justifiant l’utilisation du modèle linéaire classique. 2 23 Introduction au modèle linéaire généralisé (Causeur, D.) Epaisseur de Génotype muscle (en mm) 1 51.48 LWP 2 52.24 LWP 3 57.74 PAL 4 56.98 PAL 5 57.36 LWP 6 56.61 LWP 7 61.16 LWP 8 45.97 LWLF 9 55.09 LWLF 10 .. . 54.71 .. . LWLF .. . TAB . 1.3: Épaisseur de muscle (en mm) et génotype de carcasses de porcs. 2 Les différents types de variables Dans la suite, on utilise les notations traditionnelles du modèle linéaire : Y désigne la variable à expliquer et x = (x(1) , x(2) , . . . , x(p) ) le vecteur des mesures des p variables explicatives. Le plus souvent, dans les exemples illustratifs, on se limitera au cas d’une seule variable explicative. Comme on l’a vu, il est important dans un premier temps d’identifier le type de la variable à expliquer avant d’aller plus loin dans la démarche de modélisation. La typologie schématisée dans la figure 1.6 est relativement standard. Elle met en avant deux grandes familles de variables : • les variables quantitatives, que l’on mesure par des valeurs numériques. La teneur en viande maigre d’une carcasse (en kg/quintal) et le nombre de cibles détruites par un fongicide sont deux exemples de variables quantitatives. Remarquons que les valeurs prises par la teneur en viande maigre se répartissent sur un intervalle continu : on dit que cette variable est quantitative continue. En revanche, les valeurs prises par le nombre de cibles détruites étant cantonnées aux entiers naturels, on parle de variable quantitative 24 Introduction au modèle linéaire généralisé (Causeur, D.) PAL Type genetique P LWP LWLF 45 50 55 60 65 70 Epaisseur de muscle (en mm) F IG . 1.4: Type génétique et épaisseur de muscle de carcasses de porcs. discrète. • les variables qualitatives, que l’on ne peut mesurer par des valeurs numériques. La couleur d’un produit alimentaire et son niveau de qualité (notée A, B, C, D) constituent deux exemples de variables qualitatives. Ici, les valeurs prises par la couleur ne peuvent a priori pas être rangées selon un ordre logique. On parle alors de variable nominale et on appelle modalités les valeurs de cette variable. En revanche, les valeurs prises par la qualité peuvent être rangées selon un ordre de qualité croissante ou décroissante. On parle alors de variable ordinale et on appelle niveaux les valeurs de cette variable. Remarquons que, si l’examen de la nature de la variable à expliquer est une étape fondamentale dans le choix du modèle statistique, celui de la nature des variables explicatives est également très important. Lorsqu’une variable explicative est qualitative, on l’appelle aussi facteur. De même, lorsqu’elle est quantitative, on utilise parfois le terme covariable. Dans le cadre du modèle linéaire, lorsque toutes les variables explicatives sont 25 Introduction au modèle linéaire généralisé (Causeur, D.) Luminosité Musique Durée ... (minutes) Client Nombre de Nombre de Nombre de bouteilles bouteilles bouteilles examinées extraites achetées 1 Douce Classique 2.0 ... 0 0 0 2 Douce Classique 1.0 ... 0 0 0 3 Douce Classique 0.5 ... 0 0 0 4 Douce Classique 2.3 ... 16 0 0 5 Douce Classique 2.2 ... 1 1 0 6 Douce Classique 1.7 ... 1 0 0 7 Douce Classique 42.7 ... 11 3 1 8 Douce Classique 3.0 ... 0 0 0 9 .. . Douce .. . Classique .. . 0.7 .. . ... .. . 0 .. . 0 .. . 0 .. . TAB . 1.4: Extrait de données concernant le comportement de clients d’un magasin vendant du vin. quantitatives, on parle de modèles de régression linéaire. A l’opposé, si toutes les variables explicatives sont qualitatives, le modèle linéaire devient modèle d’analyse de la variance. L’extension que nous présentons par la suite ne porte que sur la nature de la variable à expliquer : pour chaque type de variable, on retrouve donc toute la gamme des modèles bien connus dans le cadre linéaire, de la régression à l’analyse de la variance. Dans la suite, on passe en revue les différents types de variables à expliquer dans un ordre de complexité croissante. 2.1 Y est qualitative à deux modalités Quoiqu’en apparence très basique, cette situation est en fait assez fréquente. Par exemple, les sciences animales et végétales sont de grandes consommatrices de ce type de modèle : la variable à expliquer peut alors être la réussite ou non d’un traitement, la présence ou non d’un état de grossesse, etc. 26 Introduction au modèle linéaire généralisé (Causeur, D.) Nombre de bouteilles examinees 20 15 10 5 0 0 1 2 3 4 5 Logarithme de la duree de sejour en magasin F IG . 1.5: Nombre de bouteilles examinées par un client en fonction du logarithme de son temps de séjour en magasin. Dans la suite, par convention, les deux valeurs prises par la variable à expliquer sont 0 et 1. Dans de nombreuses situations, la valeur 1 code la modalité (( positive )). Par exemple, si les états de la variable sont (( réussite )) et (( échec )), le 1 code la valeur (( réussite )). Exemple : promesse d’achat d’un produit alimentaire. Le tableau 1.1 illustre la forme générale sous laquelle se présentent les données par un extrait des résultats d’une dégustation de sandwiches par n = 36 juges. Ici, la variable à expliquer est la promesse d’achat qui correspond à la réponse par oui (codée par la suite 1) ou non (codée 0) à la question (( achèteriez-vous ce sandwich? )) alors que la variable explicative est la note hédonique x. 2 Pour une valeur donnée x des variables explicatives, la loi conditionnelle de Y est dite loi de Bernoulli et est 27 Introduction au modèle linéaire généralisé (Causeur, D.) Types de variables Variable qualitative Nominale Variable quantitative Ordinale Discrete Continue Nombre de Teneur en viande Couleur ∈ Qualite ∈ cibles detruites ∈ maigre ∈ { bleu , rouge , vert } { A,B,C,D } { 0,1,2, ... } { 0,1,2, ... } F IG . 1.6: Types de variables. complètement définie par la relation suivante : Px (Y = 1) = π(x), où π(x) est une fonction des variables explicatives telle que, pour tout x, 0 ≤ π(x) ≤ 1. Traditionnellement, π(x) et 1 − π(x) s’interprètent comme des Risques (mesures) : par exemple, si Y est le résultat d’un traitement médical, ces deux quantités formalisent respectivement la probabilité de réussite codée 1 et le risque d’échec codé 0. Notons que l’espérance et la variance de la loi conditionnelle se déduisent directement de π(x) : Ex (Y ) = π(x), Varx (Y ) = π(x) [1 − π(x)] . On déduit en particulier des relations précédentes une propriété intéressante de la loi conditionnelle lorsque Y est qualitative à 2 modalités : la variance de cette loi dépend de son espérance. La forme de la relation varianceespérance est décrite par le graphique de la figure 1.7. Il apparaît clairement sur ce graphique que, lorsque π(x) 28 Introduction au modèle linéaire généralisé (Causeur, D.) est proche de 0 ou de 1, la variance de la loi conditionnelle est proche de 0, alors que celle-ci est maximale lorsque π(x) est proche de 0.5. 0.00 0.05 conditionnelle 0.10 0.15 0.20 0.25 Variance de la loi 0.0 0.2 0.4 0.6 0.8 1.0 π(x) F IG . 1.7: Relation entre variance et espérance d’une loi conditionnelle dans le cas où Y est qualitative à deux modalités. Exemple : promesse d’achat d’un produit alimentaire. Ici, π(x) est la probabilité qu’un acheteur ayant attribué la note x au produit l’achète. La propriété énoncée plus haut se traduit concrètement sur le graphique de la figure 1.8 par le fait que : • pour de faibles valeurs de x, π(x) est presque nulle et effectivement la valeur de Y varie alors très peu de 0, • pour des valeurs x autour de 6, π(x) semble proche de 0.5 et alors les valeurs de Y se répartissent presqu’équitablement entre 0 et 1, • pour des valeurs élevées de x, π(x) est presque égal à 1 et alors la valeur de Y varie très peu de 1. 2 Lorsqu’il est possible de contrôler, en conditions expérimentales par exemple, les valeurs prises par les variables explicatives, alors on peut disposer de plusieurs valeurs de Y pour une même valeur de x. Dans ce cas, il est tentant de mener l’étude, non pas à partir des valeurs binaires de Y correspondant aux résultats individuels, mais plutôt à partir du dénombrement par valeur de x des résultats pour lesquels Y prend la valeur 1. En fait, 29 Introduction au modèle linéaire généralisé (Causeur, D.) 0.0 0.2 0.4 0.6 0.8 1.0 Promesse d’achat 2 4 6 8 10 Note hedonique F IG . 1.8: Relation entre promesse d’achat et note hédonique. Pour chaque valeur de la note hédonique, la proportion d’acheteurs potentiels du sandwich est représentée par un cercle. Pour éviter les superpositions de points, les valeurs de note globale représentées sur le graphique sont légèrement modifiées par rapport aux valeurs mesurées. lorsque les unités statistiques sont indépendantes, il est équivalent de travailler sur les données individuelles et sur les données ainsi groupées. Le tableau 1.5 illustre cette manière d’agréger les données : pour une valeur de x fixée pour laquelle on dispose de nx répétitions de Y , Z désigne le nombre d’unités statistiques, parmi ces nx répétitions, pour lesquelles Y prend la valeur 1. Exemple : résistance du tournesol au mildiou. Dans cet exemple, on peut considérer que Y est qualitative à deux modalités, à savoir l’observation ou non d’une sporulation sur une plantule. Comme pour chaque valeur du couple (dose, race) on dispose de 7 mesures indépendantes de Y , il est aussi possible de considérer que la variable à expliquer est le nombre de plantules présentant une sporulation dans chaque bac ou encore la proportion de ces plantules. C’est ainsi que se présentent les données dans le tableau 1.2. 2 Pour une valeur x donnée des variables explicatives, si l’on peut considérer que les nx mesures de Y sont indépendantes, alors la loi de Z est la loi binomiale notée de la manière suivante : Z ∼ B [nx , π(x)] . 30 (1.1) Introduction au modèle linéaire généralisé (Causeur, D.) Données individuelles Données groupées (agrégées) x Y 1 0 1 2 0 1 3 0 0 4 0 0 5 1 1 6 1 0 7 1 0 8 2 1 9 2 1 10 .. . 2 .. . 1 .. . x Z nx 0 2 4 1 1 3 2 .. . 3 .. . 3 ⇒ TAB . 1.5: Correspondance entre résultats détaillés et synthèse par dénombrement Ici aussi, l’espérance et la variance de la loi conditionnelle se déduisent directement de π(x) : Ex (Z) = nx π(x), Varx (Z) = nx π(x) [1 − π(x)] . A l’instar de la représentation des données (( tournesol )) sur le graphique de la figure ??, une variante toute aussi intuitive de l’agrégation des données consiste à résumer les informations individuelles par les proportions Z/nx dont l’espérance et la variance conditionnelle sont données par : Z = π(x), Ex nx Z π(x) [1 − π(x)] = . Varx nx nx Exemple : l’essai gras coloré. Cet exemple est traité en détail dans le chapitre 2. Il concerne l’étude des effets de l’alimentation et du mode de logement sur la couleur du gras d’agneaux (voir Grenet, 1999). Dans cette 31 Introduction au modèle linéaire généralisé (Causeur, D.) étude, la variable à expliquer est la coloration du gras considérée comme binaire (0 = absence de coloration, 1 = présence d’une coloration) et les variables explicatives sont les modes d’alimentation et de logement, toutes deux étant des variables qualitatives à 2 modalités. Le protocole expérimental prévoit la répartition de 80 agneaux en parts égales dans les quatre combinaisons possibles des modalités des variables explicatives. Les résultats sont présentés dans le tableau 1.6. Alimentation Logement Nombre d’agneaux Effectif à gras coloré total A1 L1 10 n11 = 20 A1 L2 12 n12 = 20 A2 L1 15 n21 = 20 A2 L2 16 n22 = 20 TAB . 1.6: Nombres d’agneaux ayant un gras coloré. Lorsque les variables explicatives sont des facteurs, on préfère, comme dans le cas linéaire, à la notation fonctionnelle (1.1) la notation indicée suivante : pour le ième mode d’alimentation et le jème mode de logement, Z ∼ B [ni j , πi j ] . 2 Que l’on étudie la relation entre Y et x à partir des données individuelles ou des données groupées, l’objet de la modélisation est de mettre en avant une formulation réaliste de la fonction π(x). Les nombres nx , quant à eux, sont connus de l’expérimentateur et nécessaires à la modélisation. 2.2 Y est qualitative à plus de deux modalités Cette situation généralise la précédente. Notons C1 , C2 , . . . , CK les K modalités de la variable Y , alors la loi conditionnelle de Y est décrite par les relations suivantes : Px (Y = Ck ) = π(k) (x), k = 1, 2, . . . , K. où, pour tout x, pour k = 1, 2, . . . , K, 0 ≤ π(k) (x) ≤ 1 et π(1) (x) + π(2) (x) + . . . + π(K) (x) = 1. Exemple : lien entre génotype et épaisseur tissulaire. Dans les données du tableau 1.3, la variable à expliquer 32 Introduction au modèle linéaire généralisé (Causeur, D.) est le génotype de la carcasse, variable qualitative nominale dont les modalités sont LWP (LargeWhite × Piétrain), LWLF (LargeWhite × Landrace Français), PAL (Pen-ar-Lan) et P (Piétrain). 2 Comme dans le cas où Y est une variable qualitative à 2 modalités, les données peuvent également se présenter sous une forme groupée lorsque l’on dispose de plusieurs répétitions de Y pour une même valeur de x. 2.3 Y est une variable de comptage Le dénombrement intervient dans de nombreuses situations de recueil d’information en sciences biologiques. En particulier, en écologie, l’étude de la dynamique des populations peut s’appuyer sur le comptage, en différents lieux et à différents instants, d’individus, animaux ou plantes, présentant les mêmes caractéristiques. La variable à expliquer est alors le nombre de ces individus et les variables explicatives sont par exemple des caractéristiques environnementales du lieu du comptage. Sous certaines hypothèses de répartition uniforme des individus dénombrés, hypothèses que nous ne discuterons pas ici, la variable à expliquer est distribuée selon une loi de Poisson : Y ∼ P [λ(x)] , où λ(x) ≥ 0 est appelée l’intensité de la loi de Poisson. Comme dans les situations décrites plus haut, l’espérance et la variance de la loi conditionnelle sont ici aussi liées fonctionnellement : Ex (Y ) = Varx (Y ) = λ(x). Cette relation entre espérance et variance traduit en pratique le fait que la dispersion des effectifs dénombrés est d’autant plus grande que leur valeur moyenne est élevée. Exemple : comportement de clients en magasin. Ici, la variable à expliquer est le nombre de bouteilles examinées par un client. Comme on le voit sur le graphique de la figure 1.5, la dispersion des nombres de bouteilles examinées est d’autant plus grande que leur nombre moyen est grand. Dans cette situation, il est judicieux de modéliser ce nombre par une loi de Poisson dont l’intensité est dépend de la durée du séjour du client en magasin. 2 33 Introduction au modèle linéaire généralisé (Causeur, D.) 3 3.1 Modèles statistiques Prédicteur du modèle Lorsque la variable Y est quantitative continue, la modélisation du lien entre la variable à expliquer et les variables explicatives par le modèle linéaire consiste essentiellement à décrire l’évolution de l’espérance de la loi conditionnelle en fonction des valeurs des variables explicatives : Ex (Y ) = β0 + β1 x(1) + β p x(p) , = L(x; β) où β désigne l’ensemble des coefficients inconnus du modèle et L(x; β) est communément appelé le prédicteur linéaire. Dans le cas où Y est une variable de dénombrement, distribuée selon une loi de Poisson, appliquer la démarche précédente pose un premier problème : si, dans le modèle linéaire, L(x; β) n’est en général pas l’objet de restrictions quant à sa plage de variations, l’espérance conditionnelle de Y est ici l’intensité de la loi de Poisson, ce qui impose que le prédicteur soit aussi positif. De même, lorsque Y est une variable qualitative à deux modalités, son espérance conditionnelle est une probabilité et le prédicteur doit en outre être inférieur à 1. Enfin, lorsque Y est une variable qualitative à plus de deux modalités, la transposition directe de la démarche mise en œuvre dans le cas du modèle linéaire se heurte à un problème fondamental : la notion d’espérance conditionnelle n’a pas d’équivalent direct. Par conséquent, dans ce cas, la modélisation du lien porte directement sur les probabilités de chacune des modalités : Px (Y = Ck ) = π(k) (x), k = 1, . . . , K. Ici, les fonctions π(k) que nous introduisons doivent naturellement satisfaire aux contraintes liées à la modélisation d’une probabilité, à savoir: 0 ≤ π(k) (x) ≤ 1, pour tout x, π(1) (x) + π(2) (x) + . . . + π(K) (x) = 1, pour tout x. 3.2 Fonction de lien et prédicteurs linéaires Examinons dans un premier temps le cas où Y est une variable qualitative à deux modalités, 0 pour l’échec et 1 pour la réussite, et x est la seule variable explicative, supposée dans un premier temps continue. Une forme très 34 Introduction au modèle linéaire généralisé (Causeur, D.) générale du modèle du lien entre Y et x est le suivant : Px (Y = 1) = π(x; β), où π(x; β) est appelé le prédicteur du modèle. Deux situations extrêmes et opposées peuvent illustrer, de manière schématique, l’étendue de la gamme des possibilités dans l’étude du lien entre x et Y . D’une part, l’absence totale d’influence de x sur la probabilité de réussite se traduit par Px (Y = 1) = π, où π est une constante. A l’opposé, une situation très simple d’une dépendance totale entre la probabilité de réussite et x est la suivante: 1 si x < x0 Px (Y = 1) = , 0 si x ≥ x0 (1.2) où x0 est une valeur seuil au-delà de laquelle la probabilité de réussite est nulle. Ces deux situations extrêmes sont illustrées par le graphe de la figure 1.9. De la même manière que l’utilisation du modèle de régression linéaire simple correspond au choix délibérément simplificateur d’un prédicteur ayant la forme d’une droite, les prédicteurs que nous considérerons ici se limitent à un continuum de courbes allant de la fonction en escalier (1.2) à la fonction constante. Un exemple d’une telle courbe, par nature en forme de (( S )), est donné sur un graphique de la figure 1.9. Le problème de la modélisation linéaire généralisée est de composer d’une part, avec cette forme sigmoïdale inhérente à la nature du problème et d’autre part, avec l’objectif d’une simplicité d’interprétation inspirée de la modélisation linéaire classique. Pour cela, le prédicteur π(x; β) se définit de la manière suivante : g [π(x; β)] = L(x; β), (1.3) où g est une fonction connue qui confère au prédicteur sa forme en (( S )) et L(x; β) = β0 + β1 x est le prédicteur linéaire hérité de la modélisation linéaire. On appelle g la fonction de lien du modèle. Dans le cas de plusieurs variables explicatives, la modélisation précédente se généralise naturellement par extension du prédicteur linéaire L(x; β) = β0 +β1 x(1) +. . .+β p x p . D’autre part, dans le cas où Y est une variable qualitative à K modalités, la modélisation décrite plus haut se généralise aussi par l’introduction de K − 1 (k) (k) (k) (k) prédicteurs linéaires L(x; β(k) ) = β0 + β1 x(1) + β2 x(2) + . . . + β p x(p) : h i g π(k) (x) = L(x; β(k) ), k = 1, . . . , K − 1. Remarquons aussi qu’à travers le prédicteur linéaire, qui fait la jonction entre la modélisation linéaire classique et la modélisation linéaire généralisée, il est très facile de définir un modèle d’analyse de variance pour une 35 1.0 1.0 0.8 0.8 P(Y=1) P(Y=1) Introduction au modèle linéaire généralisé (Causeur, D.) 0.6 0.4 0.6 0.4 0.2 0.2 0.0 0.0 1 3 5 7 9 1 3 x Px (Y = 1) = 5 7 9 x 1 si x < x0 Px (Y = 1) = π 0 si x ≥ x0 1.0 P ( Y =1 ) 0.8 0.6 0.4 0.2 0.0 0 2 4 6 8 10 x Px (Y = 1) = π(x; β) F IG . 1.9: Prédicteurs du modèle logit variable Y qualitative. Par exemple, si Y est qualitative à 2 modalités, le modèle d’analyse de la variance additif à deux facteurs prend la forme suivante : g [πi j ] = µ + αi + β j , avec les contraintes d’estimabilité habituelles sur les paramètres du modèle. 36 Introduction au modèle linéaire généralisé (Causeur, D.) 3.3 Y est qualitative à deux modalités On se limite dans un premier temps au cas d’une variable à expliquer qualitative à deux modalités, codées par commodité 0 et 1. D’après l’expression (1.3), le choix du prédicteur n’est subordonné qu’au choix de la fonction de lien. Dans la suite, on se limite à la présentation de deux de ces prédicteurs : le modèle logit et modèle probit. Le modèle logit Le modèle logit correspond au choix suivant de la fonction de lien : u g(u) = ln , 1−u = logit(u). Par conséquent, le modèle logit définit la relation suivante entre Px (Y = 1) et x : logit (Px (Y = 1)) = L(x; β), Px (Y = 1) = L(x; β). ln 1 − Px (Y = 1) Cette modélisation met donc en avant le rapport entre la probabilité de réussite et le risque d’échec, que l’on désigne par le terme cote ou plus souvent par sa version anglo-américaine odds : odds(x) = Px (Y = 1) . 1 − Px (Y = 1) Dans le cas où Y est le résultat d’un traitement médical, si, pour une valeur de x donnée, la cote vaut 10, le traitement a alors 10 fois plus de chances de réussir que d’échouer. Choisir le modèle logit revient donc à opter pour un modèle linéaire du logarithme de la cote, aussi appelé logodds : ln [odds(x)] = L(x; β), logodds(x) = L(x; β). Le choix de cette forme de fonction de lien est en partie motivé par des considérations d’ordre théorique qui donnent à la régression logistique le statut de modèle (( canonique )) ou (( naturel )) parmi tous les modèles possibles pour variables qualitatives. Cependant, l’exposé des arguments de théorie statistique qui sous-tendent cette propriété dépasse largement le cadre de cette introduction. Le lecteur désireux de parfaire sa connaissance théorique pourra assouvir sa curiosité en lisant l’ouvrage de [13] par exemple. 37 Introduction au modèle linéaire généralisé (Causeur, D.) Exemple : promesse d’achat d’un produit alimentaire. Sur le graphique de la figure 1.8, le lien sigmoïdal entre la promesse d’achat et la note hédonique est matérialisé par la ligne brisée joignant les proportions d’acheteurs calculées pour chaque note hédonique. Afin de confirmer la pertinence du lien logit, le graphique de la figure 1.10 représente le lien entre ces mêmes proportions après transformation logit et la note hédonique. Ce graphique met bien en avant la linéarité du lien entre le logodds et la note hédonique et permet même une évaluation visuelle des paramètres : β0 ≈ −8 et β1 ≈ 1.5. 2 -2 -1 0 1 2 3 Logodds de la promesse d’achat 2 4 6 8 10 Note hedonique F IG . 1.10: Relation entre le logodds de la promesse d’achat et la note hédonique. Interprétation des paramètres L’introduction dans l’écriture du modèle d’une non-linéarité, par l’intermédiaire de la fonction de lien, rend l’interprétation des coefficients de la régression logistique moins immédiate que dans le cas de la régression linéaire. Dans le cas simple où x est la seule variable explicative et qu’elle est continue, il est cependant facile de vérifier que cette courbe de régression passe par le point d’abscisse x = −β0 /β1 et d’ordonnée Px (Y = 1) = 0.5. Quelques calculs supplémentaires, ceux des dérivées premières et secondes de la surface de réponse, permettent aussi de voir, que ce point est également le seul point d’inflexion de la courbe de régression logistique. Enfin, il est intéressant de remarquer que le paramètre β1 peut être vu comme un coefficient de pente au même titre que dans le cas de la régression linéaire. En effet, la fonction de lien étant une fonction croissante, le sens de variation de la courbe de régression logistique est également celui de β0 + β1 x : si β1 > 0, alors la courbe de régression est croissante et inversement, si β1 < 0, la courbe de régression est décroissante. D’autre part, plus 38 Introduction au modèle linéaire généralisé (Causeur, D.) la valeur absolue de β1 est grande, plus la pente au point d’inflexion est grande. Pour reprendre les exemples extrêmes représentés par les graphes de la figure 1.9, la surface de réponse en escalier correspond au cas limite où |β1 | → +∞, et, à l’opposé, la surface de réponse horizontale correspond au cas où |β1 | = 0. Les graphiques de la figure 1.11 illustrent ces propriétés de la surface de réponse par quelques exemples. -90 P(Y=1) 0.0 0.2 0.0 0.2 0.4 0.6 P(Y=1) 0.8 1.0 0.8 1.0 0.8 1.0 0.0 0.2 0.0 0.2 0.0 0.2 0.4 0.6 0.8 1.0 0.8 1.0 0.8 1.0 0 0.2 0 0.0 2 2 x 6 6 β 1 = -5 4 x β1 = 0 4 8 8 10 10 P(Y=1) 0.4 0.6 P(Y=1) 0.4 0.6 0 0 2 2 x 6 6 β 1 = -3 4 x β1 = 1 4 8 8 10 10 P(Y=1) 0.4 0.6 P(Y=1) 0.4 0.6 0 0 2 2 6 6 β 1 = -1 4 x x β1 = 5 4 8 8 10 10 F IG . 1.11: Interprétation des paramètres de la surface de réponse. Dans tous les exemples, β0 = −5β1 . Odds ratio L’analyse du lien entre Y et les variables explicatives est ramené à l’étude des variations de l’odds, ou du logodds, en fonction de ces variables explicatives. C’est dans cet objectif qu’il peut être intéressant d’étudier le rapport des odds entre deux situations caractérisées par des valeurs différentes des variables explicatives, aussi 39 Introduction au modèle linéaire généralisé (Causeur, D.) appelé risque relatif ou odds ratio, pour rester homogène dans le choix de la langue du spécialiste : OR(x, x0 ) = = odds(x) , odds(x0 ) Px (Y = 1)Px0 (Y = 0) . Px (Y = 0)Px0 (Y = 1) Lorsque les variables explicatives sont quantitatives, il est fréquent de se limiter à l’examen d’odds ratio un peu particuliers, notés OR j , pour lesquels x0 est égal à x sauf pour une des variables explicatives, la jème, où x0 prend la valeur de x plus une unité. Il est facile de vérifier que, dans ce cas, OR j = exp(β j ). Pour chaque variable, OR j mesure donc l’impact d’une variation de une unité de la jème variable (toutes choses égales par ailleurs) sur l’évolution de Px (Y = 1). Par exemple, si Y désigne le résultat d’un traitement et si OR1 = 10, alors on peut dire que lorsque la 1ère variable explicative augmente de 1 unité (toutes choses égales par ailleurs), les chances de réussite du traitement sont multipliées par 10. Dans la pratique, OR j est donc aussi considéré comme un indicateur de l’influence de la jème variable sur les variations de la variable à expliquer. Lorsque les variables explicatives sont qualitatives, les odds ratio permettent de la même manière de comparer les risques entre différentes combinaisons des modalités de ces variables. Dans l’exemple introduit plus haut de la couleur du gras d’agneau, on distingue 4 combinaisons possibles des modalités des variables Logement et Alimentation. La comparaison des risques de coloration du gras entre deux de ces combinaisons de modalités peut donc s’appuyer sur le calcul du rapport des odds associés à chaque combinaison de modalités. Le modèle probit Toute la pertinence des arguments théoriques avancés pour le choix de la fonction de lien ne suffit parfois pas à convaincre les utilisateurs de ce type de modèle. Ainsi, dans de nombreux domaines d’applications et sous couvert d’arguments d’une pertinence aussi peu discutable, d’autres modèles ont émergé, associés à d’autres choix de fonctions de lien. Parce que nous ne prétendons pas à l’exhaustivité, nous avons choisi de ne présenter que l’un d’entre eux, très classique : le modèle probit. Ce modèle est particulièrement naturel lorsque la variable binaire Y dont on peut observer les réalisations n’est que l’expression simplifiée d’une autre variable continue Y ∗ impossible à observer, parfois seulement conceptuelle. Par exemple, dans un contexte médical, une problématique classique est le classement d’un patient dans le système de catégories (( malade )) et (( sain )). Bien entendu, ce classement n’est que l’expression simplifiée d’une variable quantifiant le niveau de santé d’un patient, variable qui n’est soit pas directement mesurable, soit la synthèse d’informations diverses concernant le patient. 40 Introduction au modèle linéaire généralisé (Causeur, D.) Supposons donc que cette variable Y ∗ soit distribuée selon une loi normale d’espérance α0 + α1 x et d’écart-type σ, où x est une variable explicative. La variable observable Y est donc définie de la manière suivante : 1 si Y ∗ ≤ s Y = , 0 si Y ∗ > s où s désigne une valeur seuil. Dans ce contexte, Px (Y = 1) = Px (Y ∗ ≤ s), ∗ Y − α0 − α1 x s − α0 − α1 x ≤ , = Px σ σ s − α0 − α1 x = Φ , σ où Φ est la fonction de répartition de la loi normale centrée réduite. Par conséquent, si on pose β0 = (s − α0 )/σ et β1 = −α1 /σ, Px (Y = 1) = Φ (β0 + β1 x) , Φ−1 [Px (Y = 1)] = β0 + β1 x, où Φ−1 est la fonction de quantile de la loi normale centrée réduite. Dans le cas d’une variable binaire qui correspond à l’expression simplifiée d’une variable distribuée selon une loi normale, une fonction de lien naturelle est donc la fonction Φ−1 . De manière plus pragmatique, le choix d’une fonction de lien dépend beaucoup plus des habitudes inhérentes au domaine dans lequel on travaille et du logiciel de traitement de données que l’on a choisi que de justifications théoriques. Dans la grande majorité des cas, les ajustements selon un modèle ou un autre ne diffèrent d’ailleurs que très peu. Pour ces raisons, dans la suite, on se recentre sur le modèle logit mais son extension au modèle probit ou à tout autre modèle de régression pour variables binaires ne pose aucun nouveau problème conceptuel. 3.4 Y est qualitative à plus de deux modalités Dans cette section, on suppose que Y est une variable à K modalités, notées C1 , C2 , . . . , CK . Comme nous le mentionnons plus haut, il faut distinguer ici deux situations de nature différente : le cas où Y est qualitative nominale et le cas où Y est qualitative ordinale. 41 Introduction au modèle linéaire généralisé (Causeur, D.) Y est qualitative nominale Dans le cas où Y a 2 modalités, le fait que le modèle s’appuie sur une représentation linéaire du logodds impose d’une certaine manière la modalité 0 comme une valeur de référence. En effet, l’analyse de Px (Y = 1) à travers l’odds est fondé sur une comparaison avec le risque que Y = 0. Par extension, nous allons ici aussi choisir une modalité de référence. Pour fixer les idées et les notations, on décide dans la suite que cette modalité de référence est CK . En pratique, il n’est pas inutile de s’autoriser quelques minutes de réflexion sur le choix de cette modalité de référence. En effet, ce choix conditionne l’interprétation des résultats du traitement. En particulier, dans le cas où une modalité peut être considérée comme une valeur témoin, cette modalité s’impose naturellement comme une référence. Le modèle se présente donc comme un ensemble de K − 1 modèles logit pour les K − 1 couples de modalités (C j ,CK ), j = 1, . . . , K − 1 : ln [Px (Y = C1 )/Px (Y = CK )] = L(x; β(1) ), ln [Px (Y = C2 )/Px (Y = CK )] = L(x; β(2) ), .. .. . . ln [Px (Y = CK−1 )/Px (Y = CK )] = L(x; β(K−1) ). Ce modèle est traditionnellement appelé le modèle logistique multinomial. La présentation suivante du modèle est équivalente et met en avant de manière plus directe les équations modélisant l’évolution des probabilités Px (Y = C j ) en fonction de x : exp L(x; β(1) ) , Px (Y = C1 ) = 1 + exp L(x; β(1) ) + . . . + exp L(x; β(K−1) ) exp L(x; β(2) ) , Px (Y = C2 ) = 1 + exp L(x; β(1) ) + . . . + exp L(x; β(K−1) ) .. .. . . exp L(x; β(K−1) ) , Px (Y = CK−1 ) = 1 + exp L(x; β(1) ) + . . . + exp L(x; β(K−1) ) 1 . Px (Y = CK ) = (1) 1 + exp L(x; β ) + . . . + exp L(x; β(K−1) ) Exemple : lien entre génotype et épaisseur tissulaire. Après ajustement des paramètres du modèle de régression logistique présenté ci-dessus, le graphique de la figure 1.12 montre l’évolution des probabilités des différents types génétiques en fonction de l’épaisseur de muscle. 2 42 1.0 Introduction au modèle linéaire généralisé (Causeur, D.) 0.0 0.2 0.4 0.6 0.8 LWP P PAL LWLF 40 45 50 55 60 65 70 Epaisseur de muscle (mm) F IG . 1.12: Modèle logistique multinomial représentant le lien entre type génétique et épaisseur de muscle. Y est qualitative ordinale On suppose ici qu’il existe un ordre naturel entre les modalités de la variable Y . Par convention, on considère que C1 ≤ C2 ≤ . . . ≤ CK . Il existe plusieurs manières de prendre en compte cet ordre dans la modélisation selon la nature des relations entre les modalités. On recense essentiellement 3 types de modèles : • le modèle à risques adjacents : la cote d’une modalité est calculée par rapport à la modalité suivante. • le modèle séquentiel : la cote d’une modalité est calculée par rapport aux modalités supérieures. • le modèle cumulatif : le risque que la variable à expliquer soit inférieure à une modalité est calculé par rapport aux modalités supérieures. 43 Introduction au modèle linéaire généralisé (Causeur, D.) Nous présentons ici de manière plus détaillé le modèle cumulatif : ln [Px (Y ≤ C1 )/Px (Y > C1 )] = L(x; β(1) ), ln [Px (Y ≤ C2 )/Px (Y > C2 )] = L(x; β(2) ), .. .. . . ln [Px (Y ≤ CK−1 )/Px (Y > CK−1 )] = L(x; β(K−1) ). Exemple : maladie du poumon chez les mineurs (McCullah & Nelder, 1983). On s’intéresse à la relation entre l’état d’avancement d’une maladie des poumons touchant des mineurs et l’ancienneté de ces mineurs au travail. Le diagnostic de la gravité de la maladie se fonde sur l’examen d’une radio des poumons et conclut à l’état normal, moyennement atteint ou sévèrement atteint des poumons. Les données sont issues de l’examen de 371 mineurs et reproduites dans le tableau 1.7. Notons qu’elles se présentent sous la forme de données groupées. Ces données sont traitées en détail dans le chapitre ??. Ancienneté (années) État des poumons Normal Moyen Sévère 5.8 98 0 0 15.0 51 2 1 21.5 34 6 3 27.5 35 5 8 33.5 32 10 9 39.5 23 7 8 46.0 12 6 10 51.5 4 2 5 TAB . 1.7: Ancienneté et état des poumons de 371 mineurs (McCullagh & Nelder, 1983). Dans cette situation, la variable à expliquer Y est l’état d’avancement de la maladie, variable qualitative à 3 modalités ordonnées, et la variable explicative est l’ancienneté x, variable quantitative continue. Le modèle 44 Introduction au modèle linéaire généralisé (Causeur, D.) cumulatif s’écrit donc ici de la manière suivante : Px (Y = normal) (1) (1) = β0 + β1 x, ln Px (Y = moyen) + Px (Y = sévère) Px (Y = normal) + Px (Y = moyen) (2) (2) ln = β0 + β1 x. Px (Y = sévère) (1) (2) Il est important de remarquer que, sous cette forme, sans contrainte particulière sur β1 et β1 , il est possible (1) (1) (2) (2) que les prédicteur linéaires β0 + β1 x et β0 + β1 x se croisent et qu’alors, pour certaines valeurs de x, on ait : Px (Y = normal) Px (Y = normal) + Px (Y = moyen) ln > ln , Px (Y = moyen) + Px (Y = sévère) Px (Y = sévère) Px (Y = normal) Px (Y = normal) + Px (Y = moyen) > . Px (Y = moyen) + Px (Y = sévère) Px (Y = sévère) Or, à l’évidence, Px (Y = normal) + Px (Y = moyen) Px (Y = sévère) ≥ Px (Y = normal) + Px (Y = moyen) . Px (Y = moyen) + Px (Y = sévère) (1) (2) Par conséquent, sans contrainte particulière sur les coefficients de pente β1 et β1 , il est possible que : Px (Y = normal) Px (Y = normal) + Px (Y = moyen) > , Px (Y = moyen) + Px (Y = sévère) Px (Y = moyen) + Px (Y = sévère) Px (Y = normal) > Px (Y = normal) + Px (Y = moyen), ce qui est manifestement fâcheux. Une manière de contourner ce problème consiste à contraindre les coefficients de pente du modèle à être les (1) (2) mêmes pour les 2 prédicteurs linéaires : β1 = β1 = β. Dans certaines situations, cette contrainte de parallélisme entre les prédicteurs linéaires peut apparaître comme une solution radicale au problème d’intersection des prédicteurs linéaires qui peut prêter à discussions. Ici, elle conduit au graphique de la figure 1.13 représentant l’évolution des risques en fonction de l’ancienneté. Sous cette nouvelle contrainte, notons que les logarithmes des rapports des risques relatifs pour deux valeurs x1 et x2 de l’ancienneté sont proportionnels à l’écart x1 − x2 : Px2 (Y = normal) Px1 (Y = normal) = β [x1 − x2 ] , ln Px1 (Y = moyen) + Px1 (Y = sévère) Px2 (Y = moyen) + Px2 (Y = sévère) Px1 (Y = normal) + Px1 (Y = moyen) Px2 (Y = normal) + Px2 (Y = moyen) ln = β [x1 − x2 ] .2 Px1 (Y = sévère) Px2 (Y = sévère) De manière générale, lorsque le modèle cumulatif est simplifié par l’hypothèse d’égalité des pentes des prédicteurs linéaires, on parle de modèle à risques proportionnels. 45 0.8 1.0 Introduction au modèle linéaire généralisé (Causeur, D.) 0.0 0.2 0.4 0.6 Normal Moyen Severe 1.5 2.0 2.5 3.0 3.5 4.0 Log de l’anciennete F IG . 1.13: Ajustement du modèle à risques proportionnels aux données sur la maladie des poumons des mineurs. 3.5 Y est une variable de comptage Dans cette section, Y est distribuée selon une loi de Poisson dont on modélise l’intensité par l’intermédiaire de la fonction de lien logarithme, garantissant le fait que l’intensité soit positive : ln [λ(x; β)] = L(x; β). Le modèle précédent est appelé modèle log-linéaire. Comme nous l’avons mentionné dans le cadre du modèle pour variable qualitative à 2 modalités, ce choix de fonction de lien est également motivé par des arguments d’ordre théorique. D’ailleurs, de la même manière que la fonction de lien probit peut être préférée à la fonction de lien logit, la plupart des logiciels proposent ici aussi d’autre choix de fonction de lien que le logarithme. 46 Introduction au modèle linéaire généralisé (Causeur, D.) Exemple : comportement de clients en magasin. Si Y désigne le nombre de bouteilles examinées par un client pendant son séjour au magasin et x le logarithme de la durée de ce séjour, alors on propose le modèle suivant, formalisant le lien entre Y et x : ln [Ex (Y )] = β0 + β1 x, ln [λ(x; β)] = β0 + β1 x. Le graphique de la figure 1.14 illustre le lien entre le nombre de bouteilles examinées par un client et la durée de son séjour dans le magasin par l’ajustement du modèle précédent. 2 0 5 10 15 20 Nombre de bouteilles examinees 0 1 2 3 4 5 Logarithme de la duree du sejour F IG . 1.14: Modèle log-linéaire pour les données de comportements de clients en magasin. 4 Estimation des paramètres La procédure d’estimation des paramètres consiste à attribuer des valeurs aux paramètres du modèle, à partir de l’observation conjointe des variables explicatives et de la variable à expliquer. Comme dans le cas plus connu du modèle linéaire, ces paramètres sont ici aussi les coefficients de prédicteurs linéaires. 47 Introduction au modèle linéaire généralisé (Causeur, D.) 4.1 Première impression graphique Dans les situations les plus simples, il est intéressant de faire précéder la phase d’estimation des paramètres du modèle par l’élaboration de quelques graphiques. Par exemple, les graphiques des figures 1.2 et 1.3 représentent chacun un nuage de points d’abscisse la valeur de la variable explicative et d’ordonnée la valeur de la variable à expliquer. Comme dans le cas de la régression linéaire, ce type de graphique est traditionnellement utilisé, préalablement à l’ajustement, pour décrire l’évolution des valeurs de Y en fonction de celles de x. Il peut par exemple suggérer d’utiliser un autre modèle que le modèle logit si le prédicteur sigmoïdal apparaît irréaliste. 4.2 Vraisemblance d’un modèle Dans le cas du modèle linéaire, les estimateurs sont obtenus par minimisation d’un critère, celui des moindres carrés, défini comme une distance entre les données observées et le modèle ajusté. Dans le contexte du modèle linéaire généralisé, la procédure d’estimation repose également sur l’optimisation d’un critère, appelé vraisemblance du modèle, que l’on peut aussi décrire intuitivement comme une mesure d’adéquation entre les valeurs des paramètres et les données observées. Illustrons cette notion de vraisemblance à partir de l’exemple des données d’intention d’achat représentées sur le graphique de la figure 1.2. Comme on l’a vu précédemment, le modèle adapté à la description du lien entre la promesse d’achat, Y codée 1 si le dégustateur est prêt à acheter le sandwich et 0 sinon, et la note hédonique, x variable quantitative, est le modèle logit défini comme suit : logit [Px (Y = 1)] = β0 + β1 x, ou encore : Px (Y = 1) = exp(β0 + β1 x) . 1 + exp(β0 + β1 x) Ce modèle permet en particulier de calculer, pour chaque valeur possible des paramètres (β0 , β1 ) et chaque valeur xi de la note hédonique dans l’échantillon, la probabilité que la promesse d’achat Yi associée prenne la valeur yi = 0 ou 1 : Pxi (Yi = yi ) = exp(β0 +β1 xi ) 1+exp(β0 +β1 xi ) 1 − exp(β0 +β1 xi ) 1+exp(β0 +β1 xi ) si yi = 1 si yi = 0. Plus généralement, il est donc possible, pour chaque valeur possible des paramètres (β0 , β1 ), de calculer la probabilité d’une configuration de données (xi , yi )i=1,...,n quelconque : Px (Y1 = y1 ,Y2 = y2 , . . . ,Yn = yn ) = Px1 (Y1 = y1 )Px2 (Y2 = y2 ) . . . Pxn (Yn = yn ). 48 Introduction au modèle linéaire généralisé (Causeur, D.) En particulier, par ce mode de calcul, on peut associer à chaque valeur des paramètres (β0 , β1 ) la probabilité, notée V (β), de la configuration de données telle qu’effectivement observée et représentée sur le graphique de la figure 1.2 : (x1 = 6, y1 = 1), (x2 = 7, y2 = 0), (x3 = 5, y3 = 0), (x4 = 9, y4 = 1), . . .. Illustrons l’intérêt de ce calcul : on a donné plus haut une estimation visuelle des paramètres β0 et β1 à partir du graphique de la figure 1.11. Rappelons que nous avions déduit de ce graphique que β0 ≈ −8 et β1 ≈ 1.5. On peut maintenant mesurer la pertinence de ces approximations par le calcul de V (−8, 1.5) = 2.88.10−28 . La très faible valeur de cette probabilité ne doit pas surprendre : elle s’obtient par le produit de n = 36 probabilités, dont certaines proches de 0. Toutefois, pour se ramener à une échelle de valeurs moins extraordinaires, il est d’usage de retenir comme mesure de l’adéquation entre les valeurs des paramètres et les données le logarithme de V (β), ici −63.41. Si maintenant on réalise le même calcul pour une autre valeur des paramètres, par exemple β0 = −4, β1 = 1.5, alors on obtient −210.70. On en déduit que la première approximation visuelle, β0 = −8 et β1 = 1.5, est plus en adéquation avec les observations que la deuxième proposition (β0 = −4, β1 = 1.5), ce qui est confirmé par le graphique de la figure 1.15 représentant les modèles pour ces deux jeux de paramètres. On appelle V (β) la vraisemblance du modèle. Le graphique de la figure 1.16 montre l’évolution de V (β) en fonction de β dans le cas des données d’intention d’achat. 4.3 Maximisation de la vraisemblance Ayant choisi de mesurer l’adéquation d’un modèle aux données par la vraisemblance, il est naturel de calculer l’estimateur β̂ de β par maximisation de la vraisemblance : β̂ = arg max V (β) β On dit alors que β̂ est l’estimateur du maximum de vraisemblance de β. A l’image de la représentation graphique de la figure 1.16, la vraisemblance du modèle est à l’évidence une fonction continue et même dérivable des paramètres, ce qui en théorie définit un cadre idéal à la recherche des points maximaux. Toutefois, la complexité analytique de cette vraisemblance rend le plus souvent impossible le calcul de formes explicites d’estimateurs. Les techniques de maximisation mises en œuvre dans les logiciels de traitement statistique des données s’appuient en fait sur des algorithmes itératifs convergeant vers les estimateurs du maximum de vraisemblance. Il faut donc être indulgent avec son logiciel préféré de traitement de données : si le modèle contient un trop grand nombre (l’appréciation du terme (( trop )) dépend du logiciel, de la performance de la machine, ...) de paramètres, il n’est pas rare que l’algorithme itératif renonce à donner une estimation de ces paramètres. La présentation des algorithmes d’estimation et de leurs propriétés dépassent les 49 Introduction au modèle linéaire généralisé (Causeur, D.) 1.0 Promesse d’achat 0.6 0.8 β 0 = - 4, β 1 = 1.5 0.0 0.2 0.4 β 0 = -8 , β 1 = 1.5 2 4 6 8 10 Note hedonique F IG . 1.15: Comparaison de 2 modèles logit pour les données d’intention d’achat. objectifs de cette introduction. Mais, là aussi, le lecteur frustré par le manque d’ambition affiché par les auteurs pourra se reporter avantageusement à [23]. Le tableau 1.8 reproduit un extrait du listage des résultats de l’ajustement d’un modèle logit aux données d’intention d’achat. Outre l’estimation des coefficients, il faut noter qu’une information concernant la bonne marche de l’algorithme d’estimation est aussi proposée. Ici, cette information se limite au nombre d’étapes de l’algorithme avant convergence. Le graphique de la figure 1.17 présente le tracé de la surface de réponse ajustée par la méthode du maximum de vraisemblance, dans le cas des données d’intention d’achat. 50 1e0 Vraisemblance 5 25 25 2e-25 3e-25 4e-2 5e- Introduction au modèle linéaire généralisé (Causeur, D.) 1. 7 1. 6 5 1. 6 -7 1. 5 -8 5 β1 1. 5 -9 1. 4 5 1. 4 -10 β0 -11 F IG . 1.16: Vraisemblance du modèle logit. Exemple des données d’intention d’achat Coefficients: Value Std. Error (Intercept) -9.187662 globale 1.543768 t value 1.6574553 -5.543234 0.2647332 5.831412 Number of Fisher Scoring Iterations: 5 TAB . 1.8: Estimation par la méthode du maximum de vraisemblance dans le cas des données d’intention d’achat. 51 Introduction au modèle linéaire généralisé (Causeur, D.) F IG . 1.17: Ajustement d’un modèle de régression logistique (courbe noire). Les courbes en gris sont les limites d’un intervalle de confiance d’estimation de niveau 95 %. Exemple des données d’intention d’achat. 4.4 Propriétés des estimateurs du maximum de vraisemblance La méthode du maximum de vraisemblance n’est pas propre au modèle linéaire généralisé. C’est même d’une certaine manière la méthode d’estimation de référence s’il on en juge par la diversité des situations dans lesquelles elle est utilisée. Cette notoriété est pour une grande part liée au fait que, de manière générale, les estimateurs du maximum de vraisemblance ont de bonnes propriétés statistiques. Le lecteur avide de connaissances plus approfondies (celui auquel on fait référence depuis le début et qui a déjà lu courageusement et minutieusement citedobson et [23]) aura trouvé par exemple des réponses à ses questions sur la théorie du maximum de vraisemblance dans le livre de [13]. Dans le cas présent, on retient de cette théorie du maximum de vraisemblance que, lorsque la taille n de l’échan52 Introduction au modèle linéaire généralisé (Causeur, D.) tillon est suffisamment grande, on peut affirmer que les estimateurs sont distribués approximativement selon une loi normale centrée sur les paramètres qu’ils estiment et dont il est possible de calculer la variance. Ceci explique que, dans le cas des données d’intention d’achat, le tableau 1.8 donne une estimation des écarts-types de β̂0 et β̂1 . Les conséquences pratiques de ces calculs sont nombreuses : tests de la nullité des paramètres, calculs d’intervalles de confiance, etc. Ainsi, le listage du tableau 1.8 donne par exemple les valeurs de statistiques de Student dont on sait qu’elles sont utiles aux tests de nullité des paramètres. Le graphique de la figure 1.17 fournit également le tracé des bornes inférieures et supérieures de l’intervalle de confiance d’ajustement de niveau 95% ainsi calculé. Dans le cas du modèle logit avec une seule variable explicative quantitative, on montre par exemple que : " s # 1 β̂1 − β1 ∼ N 0, (1.4) s2π Sx2 où s2π = ∑ni=1 πi (1 − πi ), Sx2 = ∑ni=1 pi (xi − m1 )2 est une variance pondérée des valeurs xi et m1 = ∑ni=1 pi xi est une moyenne pondérée des valeurs xi . Les poids (pi )i=1,...,n , positifs et tels que ∑ni=1 pi = 1, sont ici définis de la manière suivante : pi = πi (1 − πi ) . n ∑i=1 πi (1 − πi ) Ils donnent donc une importance plus grande aux points pour lesquels πi est proche de 0.5, à savoir les points les plus proches de l’inflexion de la surface de réponse. Comme dans le cas de la régression linéaire simple, il découle de l’expression (1.4) que l’écart-type des estimateurs est d’autant plus faible, et donc la précision de l’estimation d’autant meilleure, que les valeurs xi sont dispersées. 5 Tests de validité et comparaison de modèles Une des questions récurrentes lorsque l’on a ajusté un modèle porte sur l’existence effective ou non d’une relation entre Y et les variables explicatives. Pour reprendre l’exemple simple du modèle logit avec une seule variable explicative quantitative, le problème soulevé peut se ramener à la question suivante : compte tenu de l’information dont on dispose, peut-on considérer que le prédicteur du modèle diffère significativement de la droite horizontale ? Dans un contexte statistique, on formalise traditionnellement ce type de problème par le test d’hypothèses suivant : H0 : x n0 a pas d0 influence sur Y H1 : x a une influence sur Y 53 Introduction au modèle linéaire généralisé (Causeur, D.) Il s’agit donc ici de comparer deux modèles emboîtés : le modèle avec coefficients de pente non-nuls (sous H1 ), que l’on appelle aussi modèle complet, et le modèle avec tous les coefficients de pente nuls (sous H0 ), que l’on appelle aussi modèle nul. Une stratégie intuitive consiste à comparer ces deux modèles sur la base d’une mesure de la qualité de leur ajustement aux données. Exemple : résistance du tournesol au mildiou. Ici, la variable à expliquer est le taux de sporulations dans des bacs de 7 plantules et les variables explicatives sont d’une part le logarithme de la dose de fongicide, variable quantitative, et d’autre part la race du mildiou, variable qualitative à 2 modalités. Si πi (x) désigne la probabilité de sporulation pour un mildiou de race i (i = 1 pour la race résistante, i = 2 pour la race sensible) et une log-dose x, alors le modèle complet est le suivant : logit [πi (x)] = µ + αi + [β + δi ] x, (1.5) où α2 = δ2 = 0. Notons que l’on peut préférer les contraintes suivantes : α1 + α2 = δ1 + δ2 = 0, même si elles ne traduisent pas le fait que la race sensible (( S )) est, d’une certaine manière, une modalité (( témoin )). Le modèle nul fait état d’une absence de relations entre la probabilité de sporulation d’une part et la race du mildiou et la dose de fongicide d’autre part : logit [πi (x)] = µ. Remarquons que valider le modèle complet sur la base d’une comparaison avec le modèle nul est par nature une approche minimaliste puisqu’elle se fonde sur la mesure de ce que le modèle complet apporte par rapport à un sous-modèle trivial. Ici, grâce aux répétitions dont on dispose pour chaque valeur de la dose de fongicide, il est aussi possible de comparer le modèle complet à un sur-modèle, appelé modèle saturé dans lequel il y a autant de paramètres que de combinaisons dose × race : logit [πi (x)] = µi (x). Par opposition avec la comparaison au modèle nul, cette nouvelle approche consiste à mesurer la diminution de la qualité de l’ajustement par le modèle complet par rapport au sur-modèle le plus paramétré. Le graphique de la figure 1.18 représente l’ajustement de ces trois modèles. 2 5.1 Déviance du modèle Comme nous l’avons déjà mentionné auparavant, la vraisemblance V (β) constitue une mesure pertinente de l’adéquation entre un modèle de paramètre β et des données. Les vraisemblances maximisées V1 et V0 du modèle complet et du modèle nul respectivement sont donc des indicateurs naturels de la qualité de leur ajustement. 54 0.6 Modele sature Modele nul 0.4 Modele complet 0.0 0.2 Proportion de sporulations 0.8 1.0 Introduction au modèle linéaire généralisé (Causeur, D.) -6 -4 -2 0 2 4 6 8 Logarithme de la dose F IG . 1.18: Ajustement du modèle saturé, du modèle complet et du modèle nul sur les données (( tournesol )). On compare alors les modèles par le rapport entre les vraisemblances des deux modèles : RV = V0 . V1 (1.6) Plus précisément, il découle des propriétés des estimateurs du maximum de vraisemblance que, sous l’hypothèse nulle et pour de grandes valeurs de n, on peut considérer qu’approximativement −2 ln RV ∼ χ2k−1 , où k est le nombre de paramètres du modèle complet. Cette propriété permet la construction de la stratégie de test et l’évaluation des risques d’erreurs. La quantité −2 ln RV, que nous noterons D , est appelée déviance du modèle. Lorsque cette déviance est proche de 0, la statistique RV est proche de 1 et donc le modèle complet n’est pas plus intéressant que le modèle nul. Inversement, une grande valeur de D indique une statistique RV proche de 0, et consécutivement, incite à considérer que le modèle complet est plus intéressant que le modèle nul. Par analogie avec la décomposition de la variance à l’origine des tests de validité des modèles de régression linéaire, on peut parler ici d’équation d’analyse de la déviance : V0 = V0 V, V1 1 −2 ln V = −2 ln RV} −2 ln V1 , | {z | {z } | {z }0 D D0 D0 = D + Dr , 55 Dr Introduction au modèle linéaire généralisé (Causeur, D.) où D0 est appelée déviance du modèle nul, ou déviance totale, et Dr est appelée déviance résiduelle. L’interprétation de cette équation d’analyse de la déviance est analogue à celle de l’équation d’analyse de la variance d’un modèle de régression linéaire : la validité du modèle se lit dans la répartition de la déviance totale entre la déviance du modèle et la déviance résiduelle. On peut également considérer qu’approximativement, lorsque la taille de l’échantillon est suffisamment grande, Dr ∼ χ2n−k−1 . Exemple : résistance du tournesol au mildiou. Un extrait du listage des résultats de l’ajustement du modèle (1.5) aux données ((tournesol)) est fourni dans le tableau 1.9. Le tableau 1.10 reproduit une table d’analyse de la déviance du modèle complet. Comme le graphique de la figure 1.3 le laissait penser, la probabilité critique dans la table d’analyse de la déviance conduit à considérer que le modèle complet est informatif. 2 Coefficients Effets Estimation Écart-type Student Probabilité critique µ -1.065 0.213 -5.003 2.304e-6 α1 6.720 0.803 8.37 2.796e-13 β -0.812 0.089 -9.113 6.439e-15 δ1 -0.0686 0.149 -0.460 6.464e-1 TAB . 1.9: Coefficients estimés du modèle complet pour les données (( tournesol )) Analyse de la déviance Déviance Degré de liberté Modèle nul 836.739 107 Modèle complet 689.422 3 Résiduelle 147.316 104 Probabilité critique 0 TAB . 1.10: Analyse de la déviance du modèle complet pour les données (( tournesol )) 56 Introduction au modèle linéaire généralisé (Causeur, D.) 5.2 Test de la validité par rapport à un sous-modèle Lorsque le test précédent a conclu au fait que le modèle complet était intéressant, une analyse plus détaillée consiste à tester l’intérêt du modèle complet non plus par rapport au modèle nul mais par rapport à un sousmodèle. Supposons par exemple que le modèle complet, noté M p soit fondé sur p variables explicatives x(1) , x(2) , . . . , x(p) et qu’un sous-modèle particulièrement intéressant, noté Mq ne soit basé que sur q de ces p variables explicatives, par exemple x(1) , x(2) , . . . , x(q) . On dit alors que Mq est un sous-modèle de M p . La problématique peut alors se résumer en un test d’hypothèses : H0 : M p est aussi intressant que Mq H1 : M p est plus intressant que Mq En d’autres termes, sous l’hypothèse nulle, les coefficients de pente des variables x(q+1) , x(q+2) , . . . , x(p) dans le prédicteur linéaire de M p sont non-nuls alors que sous l’hypothèse alternative, ils sont nuls. Exemple : résistance du tournesol au mildiou. Si πi (x) désigne la probabilité de sporulation pour un mildiou de race i (i = 1 pour la race résistante, i = 2 pour la race sensible) et une log-dose x, alors le modèle complet, noté M2 , est le suivant : logit [πi (x)] = µ + αi + [β + δi ] x, où α2 = δ2 = 0. Dans ce modèle, on suppose qu’il peut y avoir un effet de l’interaction entre la race et la dose de fongicide : en d’autres termes, le lien entre la probabilité de sporulation et la dose de fongicide prend une forme différente selon que la race du mildiou est sensible ou résistante. Un sous-modèle intéressant, que l’on note M1 , est le modèle sans interaction obtenu par δ1 = 0 : logit [πi (x)] = µ + αi + βx. Le modèle M1 suppose lui que les prédicteurs pour les races sensible et résistante sont parallèles. Le test de la validité de M2 par rapport à M1 est donc un test de l’interaction dose × race. Le graphique de la figure 1.19 représente l’ajustement de ces deux modèles. Le peu de différences entre les ajustements des deux modèles laisse entrevoir l’issue du test de comparaison de ceux-ci. 2 Comme pour le test de validité par rapport au modèle nul, on compare le modèle complet et son sous-modèle à partir du rapport entre leur vraisemblance, notées respectivement V p et Vq : RV p|q = 57 Vq . Vp Introduction au modèle linéaire généralisé (Causeur, D.) 0.4 0.6 0.8 1.0 Proportion de sporulations 0.0 0.2 Race R Race S -6 -4 -2 0 2 4 6 8 4 6 8 Logarithme de la dose 0.4 0.6 0.8 1.0 Proportion de sporulations 0.0 0.2 Race R Race S -6 -4 -2 0 2 Logarithme de la dose F IG . 1.19: Ajustement du modèle avec interaction (en haut) et du modèle sans interaction (en bas) sur les données (( tournesol )). Sous l’hypothèse nulle, et si la taille de l’échantillon est suffisamment grande, cette statistique est approximativement distribuée selon la loi χ2p−q , ce qui permet de construire la stratégie de décision et d’évaluer les risques d’erreurs. 58 Introduction au modèle linéaire généralisé (Causeur, D.) L’équation d’analyse de la déviance prend ici la forme suivante : V0 = V0 Vq V , Vq V p p −2 ln V0 = −2 ln RVq −2 ln RV p|q −2 ln V p , | {z } | {z } | {z } | {z } D0 Dq D p|q Dr D0 = Dq + D p|q + Dr , où Dq est la déviance du modèle Mq D p|q est la déviance mesurant le gain d’ajustement que permet le modèle M p par rapport au modèle Mq . Notons que, par comparaison avec l’équation d’analyse de la déviance du modèle complet, on retrouve la déviance du modèle M p par Dq + D p|q . Remarquons aussi que ce type d’analyse de la déviance donne lieu à des tests séquentiels de validité des modèles : Dq permet de tester la validité du sousmodèle et D p|q la validité du modèle complet par rapport au sous-modèle. Dans ce cas, on parle d’analyse de la déviance de type 1. Exemple : résistance du tournesol au mildiou. Le tableau 1.11 donne les éléments pour l’analyse de la déviance de type 1 du modèle complet. A l’évidence, il amène à conclure qu’il n’y a pas d’effet de l’interaction dose × race. 2 Analyse de la déviance Déviance Degré de liberté Modèle nul 836.739 107 Modèle sans interaction 689.21 2 0 Modèle avec interaction 0.21 1 0.64 147.316 104 Résiduelle Probabilité critique TAB . 1.11: Analyse de la déviance du modèle avec interaction pour les données (( tournesol )). 5.3 Sélection pas à pas du meilleur modèle La mise en œuvre de cette méthode dans un cas concret fait l’objet du chapitre 6. Cette méthode est pré Une application intéressante des tests de validité d’un modèle par rapport à un sous-modèle est la construction d’une procédure de choix d’un sous-ensemble pertinent de variables explicatives parmi les p variables disponibles 59 Introduction au modèle linéaire généralisé (Causeur, D.) x(1) , x(2) , . . . , x(p) . Une manière de considérer cette procédure est la suivante : on commence par comparer tous les modèles construit à partir d’une seule variable explicative sur la base de leur déviance. Parmi les modèles pour lesquels le test de validité conduit à penser qu’ils sont intéressants, on retient alors la variable explicative correspondant au modèle de plus grande déviance, donc s’ajustant le mieux. On opère maintenant de la même manière avec les p − 1 modèles à deux variables explicatives, dont la première déjà retenue. On reproduit l’opération jusqu’à ce que l’ajout d’une nouvelle variable ne conduise pas à un gain d’ajustement significatif, au sens du test d’analyse de la déviance. Exemple : promesse d’achat d’un produit alimentaire. On s’intéresse ici à la mise en évidence de descripteurs sensoriels qui favoriseraient l’intention d’achat. En plus de la promesse d’achat et de la note hédonique, on dispose pour cela d’évaluations sensorielles des sandwichs, selon différents descripteurs, par les juges, sur une échelle de note allant de 0 à 10. La liste des descripteurs sensoriels est fourni dans le tableau 1.12. On reporte dans le tableau 1.13 les probabilités critiques des tests séquentiels de la validité des modèles construits sur chacun des descripteurs sensoriels. La procédure pas à pas conduit à retenir comme descripteurs sensoriels influençant la promesse d’achat en premier lieu la qualité de la garniture en bouche, ensuite la qualité du pain en bouche et enfin la pertinence de l’association des ingrédients. 2 Variable Definition x(1) Impression visuelle x(2) Appétance x(3) Qualité du pain en bouche x(4) Originalité du pain x(5) Quantité de garniture x(6) Qualité de la garniture en bouche x(7) Originalité de la garniture x(8) Pertinence de l’association des ingrédients de la garniture TAB . 1.12: Descripteurs sensoriels des sandwichs. 60 Introduction au modèle linéaire généralisé (Causeur, D.) Variable Modèle à une Modèle à 2 Modèle à 3 Modèle à 4 variable explicative variables explicatives variables explicatives variables explicatives dont x(6) dont x(6) et x(3) dont x(6) , x(3) et x(8) x(1) 1.7e-2 1.4e-1 4.2e-1 5.6e-1 x(2) 1.2e-4 4.0e-2 2.8e-1 3.7e-1 x(3) 4.9e-6 1.0e-3 x(4) 7.8e-1 9.6e-1 2.7e-1 2.0e-1 x(5) 6.1e-1 8.8e-1 8.6e-1 8.2e-1 x(6) 5.4e-10 x(7) 7.7e-3 4.6e-1 3.3e-1 6.9e-1 x(8) 1.8e-7 1.1e-2 1.7e-1 TAB . 1.13: Sélection d’un sous-ensemble pertinent de descripteurs sensoriels. En italique, les probabilités critiques conduisant à considérer que le modèle n’est pas intéressant. En gras, la probabilité critique du modèle sélectionné. 5.4 Contributions individuelles à la déviance résiduelle Cette étape de l’analyse des données par le modèle linéaire généralisé peut être vue comme le pendant du traditionnel examen des résidus de l’ajustement lorsque l’on utilise le modèle linéaire classique. Elle apporte souvent un éclairage nouveau sur la qualité de l’ajustement, en particulier lorsque le test de validité amène à remettre en cause la pertinence du modèle. D’autre part, elle permet aussi un diagnostic individuel de l’adéquation d’une donnée à un modèle. Dans le cas du modèle linéaire classique, le calcul des résidus par l’écart entre les valeurs observées de Y et leur valeur ajustée par le modèle fait l’objet d’un consensus. En revanche, dans le cadre du modèle linéaire généralisé, on trouve plusiseurs définition des résidus d’ajustement. On se limite ici à la présentation d’un de ces types de résidus dont la définition est cohérente avec les arguments avancés pour le choix de la procédure d’estimation et de la stratégie du test de la validité du modèle. Dans la suite, on illustre le calcul de ces résidus dans le cadre du modèle logit. Dans un premier temps, exami61 Introduction au modèle linéaire généralisé (Causeur, D.) nons plus en détail l’expression de la déviance résiduelle d’un modèle de vraisemblance V : Dr = −2 ln V , n = ∑ |−2 ln i=1 P̂xi (Yi = yi ) , {z } di2 où P̂xi (Yi = yi ) est la probabilité, calculée par le modèle ajusté, que l’on observe la valeur yi de la variable à expliquer lorsque la variable explicative prend la valeur xi . Par conséquent, cette probabilité mesure le degré d’adéquation, pour la ième donnée de l’échantillon, entre la valeur observée yi de la variable à expliquer et sa valeur ajustée par le modèle. De plus, si on note ε̃i = di lorsque yi est plus petit que sa valeur ajustée et ε̃i = −di lorsque yi est plus grand que sa valeur ajustée, alors ε̃i peut être vu comme une mesure de la contribution de la ième donnée à la déviance résiduelle. Les valeurs ε̃i , i = 1, . . . , n, sont appelées résidus de la déviance et sont distribuées selon une loi normale centrée réduite, de sorte que la stratégie de détection de données mal ajustées est similaire à celle utilisée dans le cadre du modèle linéaire classique. Exemple : résistance du tournesol au mildiou. Les graphiques de la figure 1.20 illustrent ici le calcul des résidus de la déviance. 6 Modèle logit et discrimination Outre les contributions importantes à l’étude de l’influence de variables explicatives sur une variable binaire que permet le modèle logit, son utilisation s’inscrit souvent dans une problématique de discrimination. Il s’agit alors de construire des règles de décision basées sur la connaissance des variables explicatives et visant à affecter une donnée à la classe définie par Y = 0 où à celle définie par Y = 1. Dans le contexte du modèle de régression logistique, la prédiction, telle qu’elle a été définie par exemple dans le cas du modèle de régression linéaire, se ramène à une affectation à l’une ou l’autre des classes définies par les valeurs de Y . Supposons donc que nous ne connaissions d’un individu statistique que la valeur x0 de la variable explicative, que donc la valeur Y0 de Y ne soit pas observée, et que nous souhaitions, à partir de cette information, affecter cet individu soit à la classe définie par Y0 = 0, soit à celle définie par Y0 = 1. Le modèle logit nous permet dans un premier temps d’estimer la probabilité π0 = Px0 (Y0 = 1) : g(π̂0 ) = β̂0 + β̂1 x0 . Le principe de la stratégie de discrimination est alors de considérer que si π̂0 dépasse un seuil s, alors la valeur 62 Introduction au modèle linéaire généralisé (Causeur, D.) Residus de la deviance 4 R Race R Race S SS -2 0 2 RR RR RR -4 S R -6 -4 -2 0 2 4 6 8 Logarithme de la dose de fongicide 1.0 Proportion de sporulations RR R 0.8 SS R 0.4 0.6 S 0.0 0.2 Race R Race S RRRR -6 -4 -2 0 2 4 6 8 Logarithme de la dose de fongicide F IG . 1.20: Détection de données mal ajustées (les points désignés par les les lettres (( R )) ou (( S )) selon la race du mildiou) par l’analyse des résidus de la déviance. prédite Ŷ0 de Y0 est 1, sinon Ŷ0 = 0. En d’autres termes : si π̂0 > s alors Ŷ0 = 1 si π̂0 ≤ s alors Ŷ0 = 0 63 . Introduction au modèle linéaire généralisé (Causeur, D.) Exemple : promesse d’achat d’un produit alimentaire. Le graphique de la figure 1.21 illustre la stratégie logit de discrimination. Pour cet exemple, la valeur du seuil s est arbitrairement fixée à 0.3. Une manière simple de mesurer la pertinence de ce choix est de comptabiliser les erreurs d’affectations observées sur l’échantillon. Ces erreurs sont de deux types : soit une donnée a été affectée à la classe Y = 0 alors que la valeur observée de Y est 1, soit une donnée a été affectée à la classe Y = 1 alors que la valeur observée de Y est 0. Ces deux types d’erreurs sont recensées sur le graphique. En l’occurence, pour ce choix particulier de seuil, le taux d’affectations correctes s’élève à 79.02% : parmi les personnes n’ayant pas l’intention d’acheter le produit, 55.36% ont été bien classées et parmi les personnes ayant l’intention d’acheter le produit, 94.25% ont été bien 0 Promesse d’achat 1 classées. 2 3 4 5 6 7 8 9 10 Note globale F IG . 1.21: Discrimination logit. Exemple des données d’intention d’achat. Les cercles désignent les données correctement affectées. Ces taux d’affectations correctes servent de support à la détermination d’une valeur pertinente du seuil s. On choisit par exemple la valeur du seuil pour laquelle le taux d’affectations correctes global est le plus fort. Le graphique de la figure 1.22, appelé graphique de capabilité, représente l’évolution des différents taux d’affectations correctes en fonction de s et permet donc un choix rapide de la meilleure valeur du seuil. 2 7 Bilan 64 Introduction au modèle linéaire généralisé (Causeur, D.) F IG . 1.22: Choix de la meilleure valeur du seuil 65 L’étude de l’association entre variables binaires (Lopez, C.) Chapitre 2 L’étude de l’association entre variables binaires (Le modèle logistique avec GENMOD de SASr ) Lopez, C. Service Biométrie - Institut de l’Élevage 149, rue de Bercy - 75595 Paris Cedex 12 [email protected] 1 Introduction On est souvent dans la situation de décrire et de tenter de prédire les variations d’une variable-réponse binaire à partir de une ou plusieurs autres variables. La réponse est généralement représentée sous la forme d’un codage en 0/1, la valeur 1 exprimant la possession d’une certaine caractéristique (succès à une épreuve, production d’un certain type de produit, présence d’une maladie donnée ...). La nature particulière de la réponse nécessite l’utilisation de méthodes appropriées. Nous allons illustrer certaines de ces méthodes lorsque les variables explicatives de la réponse sont elles mêmes binaires à partir d’un exemple sur l’influence de facteurs de conduite d’élevage vis-à-vis de la coloration du gras de carcasses d’agneaux. 67 L’étude de l’association entre variables binaires (Lopez, C.) L’objectif de cette étude de cas Après avoir rappelé les tests usuels d’association entre deux variables binaires et la prise en compte d’un facteur de confusion 1 , nous montrerons comment le modèle logistique généralise l’étude à la prise en compte de plusieurs variables binaires explicatives. Les analyses sont faites avec les procédures ((FREQ)) et ((GENMOD)) du logiciel SASr (version 8.2). Nous allons commencer par présenter succinctement l’étude de cas ((gras coloré)). L’essai ((Gras coloré)) Un essai a été réalisé portant sur l’effet de deux types d’accès à l’alimentation, accès à l’auge en continu (aliment=1) ou non (aliment=0), sur l’aptitude pour des agneaux de faire du gras plus ou moins coloré [Grenet [16]]. La coloration du gras a été appréciée selon une échelle ordinale à 4 niveaux, de 1=((gras blanc ferme)) à 4=((gras jaune huileux)). La carcasse de chaque animal a été codée en ((couleur=1)) selon que le gras est classé dans les catégories 3 ou 4 (on parlera alors de gras ((coloré))) ou en ((couleur=0)) s’il est classé dans les catégories 1 ou 2 (gras ((non coloré))). le type de logement des animaux, en cases collectives (logement=0) ou individuelles (logement=1) a été contrôlé dans le dispositif expérimental car pouvant avoir une incidence sur le risque d’obtenir des gras plus colorés. On veut savoir si l’alimentation non limitée modifie le risque de coloration du gras et si cet effet dépend du type de logement. L’effet du type de logement intéresse les zootechniciens mais c’est un facteur secondaire dans notre étude. Les 80 agneaux utilisés ont été répartis par tirage au sort entre les 4 modalités expérimentales {Aliment x Logement} à raison de 20 animaux par groupe. Les agneaux sont tous de sexe mâle. Le tableau 2.1 présente les données obtenues. 1. Dans l’étude de l’effet d’une variable X sur une variable-réponse Y, on appelle ((facteur de confusion)) une variable Z ((corrélée)) au facteur X et explicative de Y conditionnellement à X. 68 L’étude de l’association entre variables binaires (Lopez, C.) Logement = 0 couleur aliment 0 1 Total 0 10 5 15 1 10 15 25 Total 20 20 40 1 12 16 28 Total 20 20 40 Logement = 1 couleur aliment 0 1 Total 0 8 4 12 TAB . 2.1: Les données de l’essai ((gras coloré)) 2 La comparaison de deux pourcentages Nous allons pour l’instant simplifier le protocole en supposant que l’on a constitué par tirage au sort deux groupes expérimentaux de n=40 agneaux, un groupe soumis à une alimentation en continu (x=1) et un second groupe soumis à une alimentation limitée (((non continue)), x = 0) considérée comme conduite alimentaire de référence. La variable codant la couleur (((couleur)) dans la table (2.1)) sera désignée par l’indicatrice ((y)) dans les traitements statistiques. On désignera par n le nombre d’animaux par type d’alimentation (n=40) et par N le nombre total d’individus (N = 80). On désigne par π(0) la probabilité d’avoir un gras coloré pour une alimentation limitée et π(1) la probabilité d’avoir un gras coloré lorsque l’alimentation est donnée en continu. L’examen des résultats des 2 lots expérimentaux (tableau 2.2) indique une estimation de la probabilité d’avoir un gras coloré, p(1), égale à 77,5% (31/40) lorsque l’alimentation est donnée en continu contre une estimation, p(0), de 55,0% (22/40) lorsqu’elle est limitée. ALIMENT COULEUR 0 TOTAL 1 0 18 22 40 1 9 31 40 Total 27 53 80 TAB . 2.2: La répartition selon l’aliment et la couleur du gras 69 L’étude de l’association entre variables binaires (Lopez, C.) 2.1 Le test usuel L’analyse d’un tel tableau de données ne présente pas de difficultés particulière. Nous sommes dans la situation classique de la comparaison de 2 probabilités. La statistique de test est : 2 p(1) − p(0) 2 χ = p 2p(.)(1 − p(.))/n (2.1) où p(.) est l’estimation du risque de gras coloré sous l’hypothèse d’absence d’effet de l’alimentation. Ce risque est estimé par la proportion de gras coloré sur l’ensemble de toutes les carcasses, hypothèse, χ2 suit une loi de Chi-deux à 1 degré de liberté (((ddl))). Ici χ2 (22+31) 80 =0,6625. Sous cette = 4, 5283. Une telle valeur est supérieure au seuil à 5% d’un Chi-deux à 1 ddl (χ2(1) = 3, 841). La probabilité d’obtenir un tel résultat si le type d’alimentation est sans effet sur la coloration du gras est p=0,0333. On conclut à un effet du type d’alimentation. L’alimentation donnée en continu augmente significativement le risque de gras coloré. On peut exprimer différemment la statistique (2.1) en l’interprétant comme une mesure de l’écart entre le tableau observé 2.2 et la répartition que l’on observerait en moyenne si l’alimentation n’influait pas le risque de gras coloré (les marges du tableau 2.2 étant fixées). La statistique précédente s’écrit alors : χ = ∑∑ 2 x y 2 n(x, y) − c(x, y) c(x, y) où n(x, y) désigne le nombre de carcasses dans le groupe ((x)) (x=0, 1) ayant une couleur de gras ((y)) (y=0, 1) et c(x, y) désigne l’effectif théorique correspondant sous l’hypothèse d’absence d’effet de l’alimentation. c(x, y) = n ∗ n(., y) N où n(.,y) désigne le nombre total de carcasses ayant un gras de couleur ((y)). C’est la statistique ((Chi-deux de Pearson)). Le test précédent est en fait un test approché, exact si l’on disposait d’un très grand nombre d’animaux (on parle de test ((asymptotique))). Pour un nombre d’animaux fixé n la distribution d’échantillonnage du pourcentage de carcasses présentant un gras coloré suit une distribution ((binomiale)) si l’on peut considérer les agneaux comme des individus indépendants provenant d’une population où le risque de coloration du gras est identique pour tous les animaux (population homogène vis-à-vis du risque). C’est ce que l’on suppose pour chacune des populations définies par les 2 types d’alimentation. Cette loi statistique a pour moyenne π(x), la probabilité de gras coloré dans la population considérée et pour variance π(x)(1 − π(x))/n. 70 L’étude de l’association entre variables binaires (Lopez, C.) Lorsque les échantillons sont ((grands)) les lois binomiales ne sont pas trop différentes de distributions ((normales)) de même moyenne et variance que la distribution binomiale. La statistique de test (2.1) suit alors approximativement une distribution normale centrée réduite sous l’hypothèse d’absence d’effet du type d’alimentation sur la coloration du gras, d’où le test (2.1). Que veut dire un échantillon grand? On sait que la distribution d’échantillonnage d’un pourcentage sous une loi binomiale est d’autant plus proche d’une distribution d’allure normale 2 que la probabilité π est proche de 1/2 et que la taille n de l’échantillon est grande. On considère généralement que cette double condition est remplie lorsque nπ et n(1 − π) sont tous les deux supérieurs à 5. Dans notre exemple la probabilité π considérée est celle sous l’hypothèse d’absence d’effet de l’alimentation. Elle est estimée par la proportion p(.) de carcasses colorées sur l’ensemble des 2 groupes. On vérifie que les conditions précédentes sont remplies pour les deux populations étudiées (np(.) = 26, 5 et n(1 − p(.)) = 13, 5). Lorsque l’une de ces deux conditions n’est pas remplie les distributions binomiales ne suivent que très approximativement des lois normales. Leurs variances π(1 − π)/n ne peuvent plus être considérées comme à peu près constantes et la statistique de test (2.1) ne peut être utilisée. Il existe en fait un test exact approprié à cette situation, le test de Fisher. Nous allons le décrire maintenant. 2.2 Un test exact, le test de FISHER Ce test suppose fixées les marges du tableau 2.2 (on dit que l’on raisonne conditionnellement aux marges). On recense alors toutes les tables donnant des écarts entre les 2 proportions de gras coloré supérieurs ou égaux en valeur absolue à celui observé 3 . C’est le cas de la table suivante: ALIMENT COULEUR TOTAL 0 0 19 1 21 40 1 8 32 40 Total 27 53 80 2. Elle ne sera jamais rigoureusement normale car c’est une distribution discrète (cf. chapitre 1) 3. Si 2 groupes expérimentaux sont déséquilibrés en effectif on recense les tables donnant des degrés de signification inférieurs ou égaux à celui observé. 71 L’étude de l’association entre variables binaires (Lopez, C.) On sait calculer la probabilité d’observer une table donnée sous l’hypothèse d’un risque de coloration du gras indépendant du type d’alimentation 4 . Le principe du test consiste alors à comparer à 0,05 la somme, Ps , des probabilités de toutes les tables ayant une probabilité inférieure ou égale à celle de la table observée. Si Ps est inférieur à 0,05 on conclut à un effet de l’alimentation. L’application de ce test aux données de l’essai ((gras coloré)) indique une probabilité cumulée Ps de 0,0576 à la limite de signification. Ce test ainsi que le test usuel (entre autres) sont proposés par la procédure FREQ de SASr que nous allons présenter maintenant. 2.3 L’analyse des données avec SASr La procédure FREQ s’écrit : proc freq data=s.gras; table aliment*y/ chisq; run; Le fichier analysé (((s.gras))) est le tableau des réponses individuelles des 80 agneaux où pour chaque animal la couleur du gras est codée par une variable indicatrice, y=0 pour blanc et y=1 pour rosé. Le tableau 2.3 représente les données pour les 24 premiers agneaux du fichier. Le test usuel (Chi-deux de Pearson) figure dans le tableau 2.4 sous la rubrique ((Chi-Square)). On retrouve le résultat de la statistique de test (équation (2.1)). Trois autres test asymptotiques figurent également, le test du rapport des vraisemblances (((Likelihood Ratio Chi-Square))), le test Chi-deux avec correction de continuité (((Continuity Adj. Chi-Square))) et le test de Mantel-Haenszel. 1. Le test du rapport des vraisemblances mesure l’écart entre les résultats observés et les écarts théoriques selon une certaine échelle de mesure sous l’hypothèse d’absence d’effet de l’alimentation . Nous le reverrons 4. Pr(Table) = n(x=0)!n(x=1)!n(y=0)!n(y=1)! n(x=0,y=0)!n(x=0,y=1)!n(x=1,y=0)!n(x=1,y=1)!N! où n(x = 0) désigne le nombre total d’animaux ayant eu une alimenta- tion limitée, n(y = 1) représente le nombre total d’agneaux ayant un gras coloré, n(x = 1, y = 0) est le nombre d’animaux ayant reçu une alimentation en continu et n’ayant pas de gras coloré... et N désigne le nombre total de données. m! désigne le produit des m premiers entiers (m! = 1 ∗ 2 ∗ 3 . . . ∗ (m − 1) ∗ m). Ainsi la probabilité d’observer la table 2.2 est égale à : Pr(Table) = 72 40!40!27!53! 18!22!9!31!80! = 0, 0202 L’étude de l’association entre variables binaires (Lopez, C.) Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 logement aliment 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 y 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 0 0 0 0 TAB . 2.3: Les données binaires au moment où nous aborderons le modèle Logistique. La statistique de test s’écrit : G2 = 2 ∑ ∑ n(x, y) ∗ ln x y n(x, y) c(x, y) Elle vaut G2 =4,5939 et est significative (p=0,0321). 2. Le test Chi-deux avec correction de continuité est le test Chi-deux usuel où l’on a tenu compte du caractère discret de la proportion de carcasses colorées. La statistique de test s’écrit : χAdj = ∑ ∑ 2 x y |n(x, y) − c(x, y)| − 1/2 c(x, y) 2 Elle est égale à χ2Adj = 3, 5579, à la limite de signification (p=0,0586). 3. Le test de Mantel-Haenszel est l’approximation normale du test exact de Fisher. La statistique de test est sensiblement égale à la statistique usuelle (Chi-deux de Pearson) : 73 L’étude de l’association entre variables binaires (Lopez, C.) χ2MH = χ2 ∗ N −1 N Elle est égale à χ2MH = 4, 4717, significative (p=0,0345). Statistic DF Value Prob Chi-Square 1 4,5283 0,0333 Likelihood Ratio Chi-Square 1 4,5939 0,0321 Continuity Adj. Chi-Square 1 3,5779 0,0586 Mantel-Haenszel Chi-Square 1 4,4717 0,0345 Phi Coefficient 0,2379 Contingency Coefficient 0,2315 Cramer's V 0,2379 TAB . 2.4: Les tests approchés avec FREQ Nous ne commenterons pas les 3 statistiques suivantes du tableau 2.4 qui sont des indicateurs de mesure d’association entre variables binaires. Ils ont une valeur essentiellement descriptive et sortent du cadre de la présente étude de cas. Le test exact de Fisher est affiché dans le tableau suivant 2.5. Le test étant bilatéral 5 il faut regarder le résultat ((Two-sided Pr<=P)). La probabilité d’observer un écart entre les 2 pourcentages de gras colorés supérieur ou égal, en valeur absolue, à celui obtenu est égal à 0,0576. Fisher's Exact Test Cell (1,1) Frequency (F) Left-sided Pr <= F Right-sided Pr >= F 18 0,9914 0,0288 Table Probability (P) Two-sided Pr <= P 0,0202 0,0576 TAB . 2.5: Le test de Fisher En conclusion les tests montrent un effet du type d’alimentation (à la limite de signification pour le test exact et pour le test avec correction de continuité). L’alimentation en continu semble accroître le risque d’avoir un gras de carcasse coloré. Remarque: L’écart entre le degré de signification du test exact (p=0,0576) et celui des tests asymptotiques, le test usuel (((Chi-Square)), p=0,0333), le test du rapport des vraisemblances (((Likelihood Ratio Chi-Square)), 5. on ne sait pas a priori si l’alimentation en continu est à risque ou au contraire protège du risque d’avoir un gras coloré 74 L’étude de l’association entre variables binaires (Lopez, C.) p=0,0321) et l’approximation ((normale)) du test exact (((Mantel-Haenszel Chi-Square)), p=0,0345) s’explique par l’approximation d’une distribution discrète par une distribution continue. C’est la raison pour laquelle le test qui introduit une correction de continuité (((Continuity Adj. Chi-Square)), p=0,0586) a un degré de signification plus proche de celui fourni par le test exact. On peut obtenir les tests exacts pour les statistiques ((Chi-Square)), ((Likelihood Ratio Chi-Square)) et ((MantelHaenszel Chi-Square)) en rajoutant l’instruction : exact chisq lrchi mhchi; On obtient alors naturellement le degré de signification du test exact de Fisher. Une fois établi l’effet du type d’alimentation, il est intéressant de quantifier l’accroissement du risque induit par l’alimentation en continu. Les statistiques de tests ne sont pas adaptées pour une telle estimation. Elles testent l’existence d’une association entre alimentation et coloration du gras mais pas son intensité (ainsi si on multiplie par une constante k les cellules du tableau 2.2 des données observées le Chi-deux usuel est multiplié par k alors que l’intensité de la liaison entre ((alimentation)) et ((couleur du gras)) est la même). Il existe une variété importante de mesures de liaison. Nous allons présenter succinctement trois mesures. Nous verrons qu’elles correspondent à deux façons différentes d’exprimer la liaison entre les deux variables binaires. Nous caractériserons leurs estimations et montrerons qu’une des trois mesures est toujours estimable quelle que soit le type d’étude entreprise. C’est l’objet du chapitre suivant. 75 L’étude de l’association entre variables binaires (Lopez, C.) 3 Des mesures de l’association entre deux variables binaires Les tableaux suivant présentent : les probabilités de gras coloré conditionnellement au type d’alimentation et marginalement, la notation des échantillons et les échantillons observés. y=0 y=1 y=0 y=1 x=0 1 − π(0) π(0) x=1 1 − π(1) 1−π 1 n(0, 0) n(0, 1) π(1) 1 n(1, 0) π 1 n(+, 0) ((Les probabilités)) 3.1 y=0 y=1 n(0,+) 18 22 40 n(1, 1) n(1,+) 9 31 40 n(+, 1) N 27 53 80 ((notations des échantillons)) ((Les échantillons observés)) Les définitions Le risque en excès Une première façon de caractériser l’intensité de l’association entre le type d’alimentation et la couleur du gras consiste à exprimer l’accroissement de risque pour les animaux alimentés en continu par rapport à ceux recevant une alimentation limitée (groupe de référence), c’est le risque en excès (((Excess Risk))). ER = π(1) − π(0) c= Il est estimé sur notre exemple par : ER 31 40 (2.2) − 22 40 = 0, 775 − 0, 550 = 0, 225. Le risque estimé de gras coloré avec une alimentation en continu est supérieur de 22,5 % au risque estimé avec une alimentation limitée. Le risque relatif Une deuxième façon de caractériser la mesure d’association consiste à exprimer l’accroissement du risque de gras coloré pour l’alimentation en continu en proportion du risque pour le groupe de référence. On définit alors le risque relatif (((Relative Risk))) comme le ratio : 76 L’étude de l’association entre variables binaires (Lopez, C.) RR = c= Il est estimé sur notre exemple par : RR 31/40 22/40 = 0,775 0,550 π(1) π(0) (2.3) = 1, 409. Le risque estimé de gras coloré avec une alimentation en continu est 1,41 fois supérieur au risque estimé avec une alimentation limitée soit une augmentation relative de 41%. L’Odds Ratio Une troisième façon de caractériser la mesure d’association consiste à exprimer l’accroissement du risque de gras coloré pour l’alimentation en continu relativement au risque pour le groupe de référence comme pour le risque relatif mais à partir d’un indicateur de risque particulier, le ((Odds)). Le odds associé à une probabilité π donnée est : odds(π) = π 1−π L’odds de la probabilité π varie comme π. Quand π = 0 l’odds est nul et il augmente indéfiniment lorsque π s’approche de 1. L’odds ratio ou ((rapport des cotes)) 6 est alors le rapport de l’odds pour l’alimentation en continu à celui de l’alimentation limitée. OR = π(1)/(1 − π(1)) π(0)/(1 − π(0)) (2.4) Il est estimé sur notre exemple par : c = OR 31 9 40 / 40 22 18 40 / 40 = 31/9 = 2, 818 22/18 (2.5) Le risque estimé de gras coloré avec une alimentation en continu est 2,8 fois supérieur en ((échelle Odds)) au risque estimé avec une alimentation limitée . 6. Ce terme emprunté aux courses hippiques est contesté [18], il serait plus correct de l’appeler ((rapport des chances)) ou ((rapport des risques)) 77 L’étude de l’association entre variables binaires (Lopez, C.) On constate que les trois mesures d’associations donnent des résultats différents . . . En fait ces trois mesures sont associées à deux modélisations différentes de l’effet du type d’alimentation sur la probabilité de gras coloré, une modélisation additive pour le risque en excès et multiplicative pour le risque relatif et l’odds ratio. Le choix entre ces mesures ne peut être guidé que par des considérations propres aux problèmes étudiés. Cependant la stabilité de la mesure lorsque la relation est étudiée dans des populations différentes ou dans une même population en fonction de caractéristiques propres aux individus (par exemple le type de logement dans notre étude) est l’argument essentiel. Les modèles multiplicatifs vérifient beaucoup mieux cette propriété que les modèles additifs. Une autre raison (empirique celle-ci) en faveur des modèles multiplicatifs est la propriété de l’odds ratio d’être estimable quel que soit le type d’étude réalisée 7 . Enfin, dernier argument militant en faveur du odds ratio malgré son interprétation moins immédiate, on verra quand nous introduirons le modèle logistique que les paramètres de ce modèle sont des odds ratio en échelle Loge . Nous allons caractériser maintenant les estimations de ces trois mesures d’association ainsi que leurs précisions. 7. Les différents types d’enquêtes : Dans l’étude sur le gras, le nombre d’animaux soumis aux deux types d’alimentation (le facteur étudié) est contrôlé par l’expérimentateur. On appelle ce type d’étude ((études ou enquêtes de type II)). C’est toujours le cas en situation expérimentale. On rencontre également ce type de situation dans des contextes d’observations (enquêtes), ce sont les enquêtes ((cohortes))ou encore enquêtes ((prospectives)), en épidémiologie notamment. Il existe deux autres types d’enquêtes dans le contexte d’observation, les enquêtes de type I où seul le nombre total d’individus est fixé a priori, ce sont les enquêtes ((échantillons représentatifs)) ou encore enquêtes ((transversales)) et les ((enquêtes de type III)) où la répartition de la variable-réponse est contrôlée, ce sont les enquêtes ((cas-témoins)) ou encore enquêtes ((rétrospectives)). Le risque en excès et le risque relatif sont estimables dans les enquêtes de type I et II mais pas dans les enquêtes de type III à la différence de l’odds ratio qui est estimable quel que soit le type d’enquête. 78 L’étude de l’association entre variables binaires (Lopez, C.) 3.2 Les estimations Le risque en excès • L’estimation du risque en excès et de sa précision ne posent pas de problème particulier. Il est estimé par d − π(0). d c = π(1) la différence des proportions observées, ER [= c (ER) • Sa variance est estimée par : var d d π(1)∗(1− π(1)) n(1,+) π(0)) + π(0)∗(1− (cf. le tableau ((notations des échann(0,+) d d tillons))) c= • Le risque en excès est estimé à sur notre exemple par : ER variance estimée égale à : 31 40 − 22 40 = 0, 775 − 0, 550 = 0, 225 avec une 1 18 22 1 9 31 ∗ ∗ + = (0, 103)2 40 40 40 40 40 40 • On en déduit un intervalle de confiance approché : IC(ER) = 0, 225 − 1, 96 ∗ 0, 103 ; 0, 225 + 1, 96 ∗ 0, 103 = 0, 024 ; 0, 426 L’intervalle de confiance ne contient pas zéro ce qui est conforme avec le résultat du test usuel (2.1). Le risque relatif • Le risque relatif est quantifié par le rapport des proportions estimant les probabilités π(0) et π(1) : d π(0). d c = π(1)/ RR • Une estimation approchée de sa variance est obtenue en posant que le logarithme du risque relatif estimé c est alors approximativement égale à (Katz suit une distribution normale. La variance estimée de ln(RR) et al [21]): c ' c var(ln( RR)) d d 1 1 (1 − π(1)) (1 − π(0)) + ∗ ∗ d d n(1, +) n(0, +) π(1) π(0) L’intervalle de confiance de ln(RR) au niveau 95% est égal à : c − 1, 96 ∗ var(ln( c ; ln(RR) c + 1, 96 ∗ var(ln( c c c IC ln(RR) = ln(RR) RR)) RR)) On déduit un intervalle de confiance approché de RR en appliquant la transformation exponentielle aux bornes de l’intervalle de confiance de ln(RR). 79 L’étude de l’association entre variables binaires (Lopez, C.) c = • Le risque relatif est estimé sur notre exemple par : RR 31/40 22/40 = 0,775 0,550 = 1, 409. Le logarithme népérien correspondant est égal 0,343. La variance correspondante vaut c ' c var(ln( RR)) 1 9/40 1 18/40 ∗ + ∗ = (0, 166)2 40 31/40 40 22/40 • On en déduit l’intervalle de confiance approché : IC ln(RR) = 0, 343 − 1, 96 ∗ 0, 166 ; 0, 343 + 1, 96 ∗ 0, 166 = 0, 017 ; 0, 669 et celui de RR : IC(RR) = e0,017 ; e0,669 = 1, 017 ; 1, 953 L’odds ratio • L’estimation de l’odds ratio est donnée, comme nous l’avons vu précédemment, par le rapport des estimations des odds. d d c = π(1)/(1 − π(1) OR d d π(0)/(1 − π(0) • Woolf [32] a proposé une méthode d’estimation de sa variance qui, comme pour le risque relatif, est obtenue en posant que le logarithme de l’odds ratio estimé suit une distribution normale. La variance de c est alors approximativement estimée par : ln(OR) c ' c var(ln( OR)) 1 1 1 1 + + + n(1, 1) n(1, 0) n(0, 0) n(0, 1) 31 9 / c = 40 40 = 31/9 = 2, 818, soit un . Dans l’étude sur la coloration du gras l’odds ratio est estimé à OR 22 18 22/18 / 40 40 logarithme de 1,036. La variance correspondante est la somme des inverses des effectifs n(x ; y) : c ' c var(ln( OR)) 1 1 1 1 + + + n(1, 1) n(1, 0) n(0, 0) n(0, 1) soit c ' c var(ln( OR)) 1 1 1 1 + + + = (0, 494)2 31 9 22 18 • On en déduit l’intervalle de confiance approché : IC ln(OR) = 1, 036 − 1, 96 ∗ 0, 494 ; 1, 036 + 1, 96 ∗ 0, 494 = 0, 067 ; 2, 005 et celui de OR : IC(OR) = e0,067 ; e2,005 = 1, 069 ; 7, 426 80 L’étude de l’association entre variables binaires (Lopez, C.) Nous allons maintenant voir comment l’on retrouve ces résultats avec la procédure FREQ de SASr . 3.3 L’analyse des données avec SASr Pour obtenir les estimations du risque relatif et de l’odds ratio il rajouter l’option ((cmh1)) dans l’instruction ((table)) de la procédure FREQ. Le code SASr s’écrit : proc freq data=s.gras; table aliment*y/ chisq cmh1; run; TAB . 2.6: L’option cmh1 de FREQ Les résultats figurent dans le tableau 2.7 suivant : Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) 2.8182 1.0695 7.4261 Cohort (Col1 Risk) Cohort (Col2 Risk) 2.0000 0.7097 1.0240 0.5121 3.9063 0.9835 Odds Ratio Study) TAB . 2.7:(Case-Control Les estimations de RR et OR dans FREQ Odds Ratio 2.8182 c = 2, 818 ainsi que son intervalle de confiance au niveau 95%. On retrouve l’estimationAsymptotic de l’odds Conf ratio,Limits OR 95% Lower Conf Limit 95% Upper Conf Limit 1.0695 7.4261 En ce qui concerne le risque relatif le calcul réalisé par FREQ dépend du codage des variables. FREQ fournit Exact Conf Limits les estimations de deux risques relatifs correspondant chacun à une des deux modalités de couleur prise comme référence. 95% Lower Conf Limit 95% Upper Conf Limit 0.9719 8.4507 ((Col1 Risk)) est le ratio du risque de la première colonne (couleur=0) pour la ligne 1 (x=0) par rapport à la 18/40 deuxième ligne (x=1), Col1Risk = = 2, 00. 9/40 ((Col2 Risk)) est le ratio du risque de la deuxième colonne (couleur=1) pour la ligne 1 (x=0) par rapport à la 22/40 = 0, 71. deuxième ligne (x=1), Col2Risk = 31/40 Le risque relatif RR qui nous intéresse est alors l’inverse de ((Col1 Risk)). On retrouve son intervalle de confiance en prenant les inverses des bornes de celui de ((Col1 Risk)). 81 L’étude de l’association entre variables binaires (Lopez, C.) Lorsque la réponse (la couleur dans notre exemple) et la variable explicative (le type d’alimentation) sont codées en 0/1 avec la modalité ((1)) codant l’évènement d’intérêt (la coloration) et la modalité ((à risque)) (l’alimentation en continu), une façon de ne pas avoir à se casser la tête consiste à trier le fichier par valeurs décroissantes de la réponse et de la variable explicative et à rajouter l’option order=data dans l’instruction ((proc FREQ)) du code SASr . L’option ((cmh1)) fournit également l’intervalle de confiance approché du odds ratio. ICa (OR) = 1, 070 ; 7, 426 L’intervalle de confiance exact peut être obtenu en rajoutant l’instruction Estimates of the Relative Risk (Row1/Row2) Type of Study exact OR; Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) SASr fournit alors la sortie suivante : Cohort (Col2 Risk) 2.8182 2.0000 1.0695 1.0240 7.4261 3.9063 0.7097 0.5121 0.9835 Odds Ratio (Case-Control Study) Odds Ratio 2.8182 Asymptotic Conf Limits 95% Lower Conf Limit 95% Upper Conf Limit 1.0695 7.4261 Exact Conf Limits 95% Lower Conf Limit 95% Upper Conf Limit 0.9719 8.4507 TAB . 2.8: L’intervalle de confiance exact de OR dans FREQ L’intervalle ICe (OR) = 0, 972 ; 8, 451 est plus étendu que l’intervalle précédent. On remarque que 1 est compris dans l’intervalle ce qui est conforme avec le résultat du test de Fisher. Nous allons voir maintenant comment l’analyse avec le modèle logistique permet de retrouver une partie de ces résultats. 82 L’étude de l’association entre variables binaires (Lopez, C.) 4 Le modèle logistique Une façon de modéliser l’effet de l’alimentation consiste à poser un modèle d’analyse de variance sur le logarithme du odds de coloration du gras. ln π(x) ≡ η(x) = µ + αx 1 − π(x) (2.6) où αx désigne l’écart (en échelle Log népérien du odds) du risque de gras coloré pour l’alimentation x par rapport au risque moyen µ sur les 2 types d’alimentation. Ce modèle est sur-paramétré (3 paramètres µ, α0 et α1 pour 2 probabilités π(0), π(1)). On pose alors les contraintes habituelles : α0 + α1 = 0. On a ainsi 2 paramètres à estimer, µ et α1 . L’effet de l’alimentation est alors mesuré par l’écart α1 − α0 = 2α1 . π(1) π(0) 2α1 = ln − ln 1 − π(1) 1 − π(0) C’est l’odds ratio de l’alimentation en échelle Log. Le paramètre d’intérêt du modèle logistique, 2α1 est le Log de l’odds ratio. L’odds ratio estimé s’écrit : # p(1) (1 − p(1)) 2α̂1 = ln p(0) (1 − p(0)) " donnant ainsi une interprétation du paramètre α̂1 : α̂1 = p OR(alimentation) 8 8. On prendra garde que cette expression n’est valable que lorsque la variable explicative binaire X est introduite comme variable qualitative, on verra qu’elle figure alors dans l’instruction ((class)) de GENMOD. Lorsque X n’est pas déclarée dans cette instruction π(x) elle est considérée comme variable quantitative, le modèle (2.6) s’écrit alors ln = β0 + β1 x. Le paramètre β1 est alors le 1 − π(x) logarithme de l’odds ratio. 83 L’étude de l’association entre variables binaires (Lopez, C.) 4.1 L’essai ((gras d’agneaux)), une première analyse sur données agrégées Les données de l’essai ((gras coloré)) sont présentées dans le tableau 2.9 sous la forme de 4 profils correspondant aux 2 x 2 modalités des facteurs ((alimentation)) et ((logement)). obs logement aliment y n 1 0 0 10 20 2 0 1 15 20 3 1 0 12 20 4 1 1 16 20 TAB . 2.9: Les 4 profils d’animaux La colonne désignée par ((y)) représente le nombre d’agneaux qui ont un gras de carcasse coloré parmi les animaux d’un profil donné (en nombre ((n))). Ainsi 10 animaux sur 20, logés en cases collectives (indicatrice de logement=0) et recevant une alimentation en discontinu (indicatrice d’alimentation=0), ont un gras coloré. Nous appellerons par la suite données ((agrégées)) ou ((groupées)) de telles structures de données. Remarque: Pour cette première analyse on aurait pu tout aussi bien représenter les données en ne tenant pas compte du type de logement. La table analysée aurait alors été formée par deux lignes correspondant aux 2 types d’alimentation. On va voir que le fichier structuré suivant les 4 profils {alimentation ∗ logement} va permettre de tester la qualité du modèle logistique ce que ne permet pas la structuration des données sur le seul facteur {logement}. 4.2 L’analyse des données avec SASr La procédure GENMOD de SASr permet d’analyser des modèles logistiques et de façon plus générale de traiter des réponses aléatoires Y appartenant à la famille ((exponentielle)) (cf. l’introduction (D. Causeur)). Le code SASr s’écrit : On notera l’expression du modèle où le pourcentage d’animaux ayant une carcasse colorée apparaît explicitement dans l’expression ((y/n)). Ce type de modèle est appelé par SASr ((events/trials)). Il est réservé aux réponses binomiales. Nous l’appellerons par la suite ((modèle sur données agrégées)). 84 L’étude de l’association entre variables binaires (Lopez, C.) proc genmod title2 title3 class model lsmeans estimate run; data=s.profils; "Analyse du fichier des données regroupées"; "effet de l'alimentation"; aliment; y/n = aliment / dist=binomial type1; aliment / cl; "Loge(OR(aliment))" aliment -1 +1 / exp; TAB . 2.10: Le code SASr du modèle ((couleur = aliment)) L’option ((dist=binomial)) indique que l’on pose une distribution binomiale pour chacun des 2 pourcentages. A cette distribution est associée la transformée Logistique (option ’((link=Logit)) non mentionnée car c’est la transformation par défaut). Le test de l’alimentation L’option ((type1)) de l’instruction ((model)) affiche le test de signification de l’alimentation vis-à-vis du risque de coloration du gras (tableau 2.11). Il est basé sur un écart, la ((Déviance)) , calculé à partir de la ((vraisemblance)) des données sous les 2 lois binomiales, écart d’autant plus grand que la variable introduite (l’alimentation) est explicative des variations du risque de coloration du gras. Cette statistique suit une loi de Chi-deux à ν = 2 − 1 = 1 degré de liberté 9 si l’alimentation est sans effet sur la coloration du gras. C’est la statistique de test du ((rapport des vraisemblances)), ((Likelihood Ratio)) (LR). L’alimentation accroît la déviance d’une quantité 0,5484 significative (χ2LR = 4, 59 , p=0,0321). On retrouve le test donné par la procédure ((FREQ)) sous le nom ((likelihood Ratio Chi-Square)) (encore appelé test ((G2 ))). Source Intercept aliment LR Statistics For Type 1 Analysis Deviance DF Chi-Square 5.1423 0.5484 1 4.59 Pr > ChiSq 0.0321 TAB . 2.11: Le test du rapport de vraisemblance de l’effet ((alimentation)) 9. (ν = nombre de paramètres (µ, α1 ) du modèle (2.6) - nombre de paramètres du modèle sans l’alimentation (µ)) 85 L’étude de l’association entre variables binaires (Lopez, C.) Les moyennes ajustées L’instruction ((lsmeans)) affiche les valeurs des estimations des Logits des pourcentages de gras colorés par classe d’alimentation, η(x), accompagnées de l’estimation de leurs intervalles de confiance (((CL))) (tableau 2.12). Effect aliment Estimate Standard Error DF ChiSquare Pr > ChiSq Confidence Limits aliment 0 0,2007 0,3178 1 0,4 0,5278 -0,4222 0,8236 aliment 1 1,2368 0,3786 1 10,67 0,0011 0,4946 1,9789 TAB . 2.12: Les moyennes ajustées Ainsi pour l’alimentation non continue l’odds de gras coloré, π(0) (1 − π(0)), est estimé par le ratio 22 40 18 40 = b(0) = ln(1,22) = 0,2007. De même en présence d’alimentation continue le Logit du risque 1, 22 soit le Logit η b(1) = ln(31/9) = 1,2368. de gras coloré en échelle Logit est estimé par la valeur η On peut calculer les probabilités de coloration du gras prédites par le modèle (2.6) pour chaque type d’alimentation à l’aide de l’expression : π̂(x) = eηb(x) 1 + eηb(x) (2.7) Les probabilités prédites sont naturellement égales aux probabilités observées. π̂(0) = eηb(0) e0,2007 e1,2368 eηb(1) = = = 0, 550 ; π̂(1) = = 0, 775 1 + eηb(0) 1 + e0,2007 1 + eηb(1) 1 + e1,2368 Les statistiques ((Chi square)) sont des statistiques de Wald testant à zéro les ((lsmeans)). Elles sont accompagnées de l’estimation au risque 5% des intervalles de confiance correspondants. Ces deux tests ne sont pas intéressants, ils testent que les Logit des probabilités de gras coloré sont significativement différents de zéro c’est-à-dire si ces probabilités sont significativement différentes de 50% dans chaque classe d’alimentation. Les contrastes L’écart δ̂ = η̂(1)− η̂(0) = 1, 2368−0, 2007 = 1, 0361 fourni par l’instruction ((estimate)) (tableau 2.13) est l’estimation de l’odds ratio en échelle Loge . Il quantifie le rapport de risque d’avoir un gras coloré avec une alimen86 L’étude de l’association entre variables binaires (Lopez, C.) tation en continue par rapport à une alimentation non continue. L’odds ratio est alors égal à exp η̂(1) − η̂(0) = e1,0361 soit OR(alim) = 2,8182. On retrouve l’estimation fournie par la procédure FREQ. Cette estimation du odds ratio peut être obtenue directement à l’aide de l’option ((exp)) . Elle figure dans le tableau 2.13 à la ligne ((Exp(Loge(OR(aliment))))) accompagnée de son intervalle de confiance. Estimate Standard Error Loge(OR(aliment)) 1,0361 0,4943 0,0672 2,005 Exp(Loge(OR(aliment))) 2,8182 1,3932 1,0695 7,4261 Label Confidence Limits ChiSquare Pr > ChiSq 4,39 0,0361 TAB . 2.13: Estimation de l’odds ratio de l’alimentation La variance du Log de l’odds ratio est estimée par la somme des inverses des effectifs : c c var(ln( OR(alim))) = 1 1 1 1 + + + = (0, 4943)2 18 22 9 31 Le test à zéro du log de l’odds ratio affiché est celui basé sur la statistique de Wald [30] 2 χWald = δ̂2 var(δ̂) = 1, 0361 0, 4943 2 = 4, 39 . Ce test donne un résultat légèrement différent de la statistique du maximum de vraisemblance affichée par l’option ((type1)) de l’instruction ((model)), χ2LR = 4,59. La statistique de Wald peut être utilisée lorsque les échantillons sont de tailles importantes et cela d’autant plus que les probabilités {π(x) ; 1-π(x)} sont proches de 1/2. Lorsque les effectifs sont très importants elle donne des résultats proches de ceux fournis par la statistique du rapport des vraisemblances. On obtient une valeur approchée de l’intervalle de confiance de l’odds ratio au niveau 95% à partir de l’intervalle de confiance du Log de l’odds ratio. On retrouve l’intervalle de confiance fourni par la procédure FREQ (tableau 2.7). OR(alim)inf = e0,0672 = 1, 0695 ; 87 OR(alim)sup = e2,0050 = 7, 4261 L’étude de l’association entre variables binaires (Lopez, C.) En conclusion l’alimentation continue des agneaux accroît significativement le risque d’avoir un gras coloré par rapport à l’alimentation donnée en discontinu. Le rapport de risques, estimé à 2,82, a 95 chances sur 100 d’être compris entre 1,07 et 7,43. Remarque: Le test classique de comparaison des 2 pourcentages de carcasses colorées (χ2(1) = 4, 53 , (p=0,0333)) donne ici un résultat très proche du test du rapport de vraisemblance et de Wald. Cela est dû au fait que les pourcentages observés de carcasses à gras coloré ( 55% et 77,5%) sont relativement proches de 50%. Les distributions d’échantillonnage des pourcentages peuvent être considérées comme approximativement normales avec des variances qui varient peu, 22 ∗ 18/403 = (0, 079)2 et 31 ∗ 9/403 = (0, 066)2 ). La qualité d’ajustement du modèle 10 Le fichier analysé est constitué de 4 profils générés par les 2 types de logement croisés avec les 2 types d’alimentation. Le modèle (2.6) a 2 paramètres, la constante µ et α1 . On dit que le modèle est ((non saturé)), il reste 2 degrés de liberté. On dispose en fait de 2 estimations du risque de gras coloré π(x) pour un type d’alimentation ((x)) donnée, une par type de logement. Ces répétitions vont nous servir à tester la qualité du modèle. Le modèle (2.6) suppose que tous les agneaux soumis à une alimentation donnée ont le même risque, π(x). Or cela peut s’avérer faux si les animaux soumis à une même alimentation sont différents sur certaines caractéristiques elles mêmes susceptibles de jouer sur la coloration du gras. Le type de logement, en particulier pourrait générer une variabilité du risque de gras coloré . . . Une façon de vérifier cela consiste à regarder les écarts entre les probabilités de gras coloré par type d’alimentation et de logement et les probabilités prédites. Ainsi pour l’alimentation en continu (x=1) les deux proportions de gras coloré par type de logement, 15/20=0,75 (logement=0) et 16/20=0,80 (logement=1), sont proches de la probabilité prédite, 0,775 11 . De même pour l’alimentation limitée (x=0) les deux proportions, 10/20=0,50 (logement=0) et 12/20=0,60 (logement=1), sont peu différentes de la probabilité prédite, 0,55. Les probabilités estimées semblent relativement homogènes. On peut évaluer globalement l’hétérogénéité des 4 probabilités par alimentation ∗ logement à l’aide des statis10. Pour un développement détaillé de cette partie se référer à Collett [8]. 11. La probabilité prédite est la moyenne des 2 proportions intra type de logement pondérées par les effectifs dans les classes de logement. 88 L’étude de l’association entre variables binaires (Lopez, C.) tiques proposées par la table 2.14. Les statistiques ((Deviance)) et ((Pearson Chi-Square)) sont deux mesures de la dispersion des estimations des écarts des probabilités de coloration du gras, conditionnelles à l’alimentation et au logement, aux probabilités prédites par le modèle (2.6). Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 2 0,5484 0,2742 Scaled Deviance 2 0,5484 0,2742 Pearson Chi-Square 2 0,5474 0,2737 Scaled Pearson X2 2 0,5474 0,2737 Log Likelihood -48,8521 TAB . 2.14: La qualité d’ajustement du modèle ((couleur=alimentation)) Si le modèle ajuste correctement les données, les dispersions sont faibles et ces deux statistiques suivent chacune une distribution de Chi-deux avec comme degrés de liberté le nombre total de données diminué du nombre de paramètres du modèle, ici ν = 4 − 2 = 2. Leurs espérances mathématiques sont alors égales aux degrés de liberté ν et les rapports des statistiques à leurs degrés de liberté sont sensiblement égaux à 1. Ce rapport est appelé ((paramètre de dispersion)) et désigné par le symbole φ. Si par contre les populations définies par le modèle sont hétérogènes vis-à-vis du risque, φ est différent de 1. S’il est supérieur à 1 on parlera de ((sur-dispersion)) (((overdispersion))) . S’il est inférieur à 1 on parlera de ((sous-dispersion)) (((underdispersion))) . Dans ces deux situations les variances des estimations des probabilités π(x) ne sont plus celles de lois binomiales, elles sont pondérées par le paramètre de dispersion φ et les tests sont biaisés. var(π̂(x)) = π(x)(1 − π(x)) ∗φ n(x) où n(x) désigne le nombre de données d’individus de la population définie par ((x)). Les estimations du paramètre φ dans notre étude sont très proches, 0,2742 pour la statistique de Pearson, 0,2737 pour celle de la déviance. Un moyen de tenir compte de cette hétérogénéité consiste à introduire l’option ((scale=Pearson)) ou ((scale=Deviance)) dans l’instruction model. Les écarts-types des estimations des Logit de π(x) sont alors multipliés p par (φ) (appelé ((scale))) et les statistiques de tests des effets des variables explicatives sont divisées par φ. 89 L’étude de l’association entre variables binaires (Lopez, C.) Dans notre exemple l’étroitesse des pourcentages conditionnels {logement ∗ alimentation} par type d’alimentation ne justifie pas une telle correction. Remarques : 1. L’analyse du modèle (2.6) peut être réalisée sur le fichier de données binaires (table 2.3). Les résultats sont les mêmes . . . sauf les statistiques de qualités d’ajustement qui n’ont plus de sens. 2. Une telle analyse n’aurait pas pu être possible si l’on avait analysé le tableau des données agrégées uniquement selon l’alimentation. Nous n’aurions eu que 2 populations, une par type d’alimentation marginalement sur le logement. Le modèle (2.6) aurait été saturé et il n’y aurait pas eu d’écarts au modèle. Cela n’a rien de choquant. Si l’on n’a pas d’informations sur des facteurs susceptibles d’induire une variabilité des probabilités étudiées ou si l’on considère a priori que les populations étudiées sont homogènes vis-à-vis de ces probabilités il n’y a aucune raison de structurer les individus selon d’autres facteurs. Dans le cas contraire, si on suspecte une hétérogénéité sans avoir les facteurs qui pourraient la générer, on a intérêt à la tester. Si par contre l’on dispose de ces facteurs on peut les introduire dans le modèle. C’est ce que l’on va faire maintenant avec la variable ((logement)). Avant de modifier le modèle logistique (2.6) nous allons montrer comment utiliser la procédure FREQ pour introduire une variable explicative supplémentaire dont l’étude ne nous intéresse pas en soi mais dont on veut tenir compte pour : 1. tester une interaction entre la variable explicative étudiée et la variable supplémentaire 2. corriger du biais éventuel dû à la variable supplémentaire Cela pourrait être le cas dans notre étude pour le facteur ((logement)) 12 . 12. la randomisation faite suggère plutôt que le logement est un facteur étudié au même titre que l’alimentation. Nous le considérerons comme facteur ((contrôlé)) pour les besoins de la présentation. 90 L’étude de l’association entre variables binaires (Lopez, C.) 5 La prise en compte d’un tiers facteur Un second facteur, le type de logement, a été pris en compte dans l’étude sur le gras d’agneaux. L’étude précédente n’a pas intégré cette seconde variable dans les analyses réalisées. Quelles sont les conséquences de sa non prise en compte? Tout d’abord on ne peut répondre à la question de savoir si l’effet du type d’alimentation sur le risque de coloration du gras dépend du type de logement (interaction ((alimentation ∗ logement))). Mais, de plus, sa non prise en compte fournit une mesure biaisée de l’effet de l’alimentation . Le biais peut être particulièrement important en situation d’observation comme va le montrer l’exemple fictif suivant. Supposons qu’une enquête ait été réalisée en élevages sur les 2 types d’alimentation précédents. Les animaux se répartissent en 2 groupes de 100 animaux avec les résultats suivants : y=0 y=1 x=0 48 52 100 x=1 29 71 100 77 123 200 L’analyse de cette table conclut à un effet de l’alimentation en continu avec un odds ratio estimé à 2,26. Le croisement du sexe des animaux avec la couleur du gras indique un risque plus élevé pour les mâles avec un odds ratio de 24,75 (le sexe est codé par l’indicatrice : z=0 (femelle) ; z=1 (mâle)). y=0 y=1 z=0 66 24 90 z=1 11 99 110 77 123 200 Croisement ((sexe ∗ couleur)) z=0 z=1 x=0 60 40 100 x=1 30 70 100 100 110 200 Croisement ((aliment ∗ sexe)) 91 L’étude de l’association entre variables binaires (Lopez, C.) Négliger cet effet sexe nous amène à conclure à un effet de l’alimentation qui n’existe pas !! En effet l’étude de l’effet de l’alimentation à sexe fixé montre clairement une absence d’effet avec un odds ratio conditionnel égal à 1. z=0 y=0 y=1 x=0 44 16 x=1 22 66 z=1 y=0 y=1 60 x=0 4 36 40 8 30 x=1 7 63 70 24 90 11 99 110 Croisement ((alimentation ∗ couleur(z=0))) Croisement ((alimentation ∗ couleur(z=1))) c = 0) = 8/22 = 1 OR(z 16/44 c = 1) = 63/7 = 1 OR(z 36/4 Le biais est, ici, extrême car les mâles (dont on sait qu’ils ont une couleur de gras plus marqué) sont surreprésentés dans le groupe alimenté en continu (70 contre 40). Le biais existe aussi lorsque les effectifs sont contrôlés sur le facteur de confusion ((Z)) comme nous allons le voir à propos du type de logement. 5.1 Le test de Mantel-Haenszel On désignera par Z l’indicatrice de logement, z=0 pour un logement en cases collectives et z=1 pour un logement en cases individuelles. On supposera que Z a q classes ou ((strates)). Pour tester l’effet spécifique de l’alimentation, c’est-à-dire à niveau fixé du type de logement, on procède de de la façon suivante. Pour des répartitions des animaux suivant le type de logement et l’alimentation égales à celles observées et supposées fixées on étudie, dans chaque strate de logement, le nombre d’événements ((gras coloré et alimentation en continu)) (y=1 et x=1), noté nz (1, 1). 92 L’étude de l’association entre variables binaires (Lopez, C.) z y=0 y=1 x=0 nz (0, 0) nz (0, 1) nz (0, +) x=1 nz (1, 0) nz (1, 1) nz (1, +) nz (+, 0) nz (+, 1) nz Les notations dans la classe de logement z 1- Sous l’hypothèse d’absence d’effet de X sur Y , le nombre total de carcasses à gras coloré dans la strate ((z)), nz (+, 1), se répartit en moyenne entre les 2 types de logement au prorata du nombre d’animaux par groupe. nz (1, 1) est alors en moyenne égal à: mz (1, 1) = nz (+, 1) ∗ nz (1, +) nz On peut montrer que nz (1, 1) a pour variance 13 : vz (1, 1) = nz (+, 0) ∗ nz (+, 1) ∗ nz (0, +) ∗ nz (1, +) n2z ∗ (nz − 1) 13. nz (1, 1) suit conditionnellement aux marges du tableau de contingence X∗ Y de la strate ((z)) une distribution Hypergéométrique. 93 L’étude de l’association entre variables binaires (Lopez, C.) Les tableaux suivant présentent les effectifs observées et ceux attendus en moyenne sous l’hypothèse d’absence d’effet de l’alimentation à type de logement fixé. z=0 y=0 y=1 x=0 10 10 x=1 5 15 z=0 y=0 y=1 20 x=0 7,5 12,5 20 15 20 x=1 7,5 12,5 20 25 40 15 25 40 ((effectifs observés (z=0))) ((effectifs attendus (z=0))) z=1 y=0 y=1 z=1 y=0 y=1 x=0 8 12 20 x=0 6 14 20 x=1 4 16 20 x=1 6 14 20 12 28 40 12 28 40 ((effectifs observés (z=1))) ((effectifs attendus (z=1))) 2- L’écart entre le nombre total de carcasses à gras coloré observé, n(1, 1), sur les 2 types de logement et le total des effectifs attendus en moyenne, ∑z mz (1, 1), va permettre de tester si l’effet de l’alimentation reste significatif à logement fixé. Cet écart sera ((grand)) si X a un effet sur Y et ((petit)) sinon. On montre alors que la statistique 2 ∑z nz (1, 1) − ∑z mz (1, 1) QMH = ∑z vz (1, 1) suit une distribution de χ2 à 1 degré de liberté si l’alimentation est sans effet sur la coloration du gras. C’est la statistique de Mantel-Haenszel [22]. . Le nombre total de carcasses colorées observé avec l’alimentation en continu est n(1, 1) = (15 + 16) = 31, le nombre que l’on devrait observer en moyenne est m(1, 1) = (12, 5 + 14) = 26, 5. La variance d’échantillonnage de n(1, 1) est : 94 L’étude de l’association entre variables binaires (Lopez, C.) v(1, 1) = ∑z vz (1, 1) = 15 ∗ 25 ∗ 20 ∗ 20 12 ∗ 28 ∗ 20 ∗ 20 + = 4, 558 402 ∗ 39 402 ∗ 39 La statistique de Mantel-Haenszel est égale à : 2 31 − 26, 5 QMH = = 4, 443 4, 558 On conclut à un effet significatif (p=0,035) de l’alimentation à type de logement fixé (on dit ((ajusté du logement))). 3- L’odds ratio quantifiant la liaison entre le facteur X et la réponse Y ajustée du facteur de confusion Z est alors estimé par l’expression suivante [Mantel-Haenszel, [22]] : nz (1, 1) ∗ nz (0, 0) nz ∑ z c MH = OR ∑z nz (0, 1) ∗ nz (1, 0) nz . L’odds ratio de l’alimentation ajusté du logement est égal à : c MH = 15 ∗ 10/40 + 16 ∗ 8/40 = 2, 837 OR 5 ∗ 10/40 + 16 ∗ 8/40 L’estimateur ((Logit)) Un autre estimateur de l’odds ratio entre X et Y ajusté de Z est également proposé, l’estimateur ((LOGIT)). Il est plus naturel à comprendre car s’exprimant comme une moyenne pondérée des estimations des logarithmes des odds ratio par niveau de la variable Z (ORz ). Le coefficient de pondération étant l’inverse de la variance des Logarithmes des odds ratio intra niveau de Z. c c L = ∑z wz ∗ ln(ORz ) OR ∑z wz avec c z) = var ln(OR ; wz = 1 c z) var ln(OR 1 1 1 1 + + + nz (0, 0) nz (0, 1) nz (1, 0) nz (1, 1) 95 L’étude de l’association entre variables binaires (Lopez, C.) . L’estimation LOGIT de l’odds ratio ajusté de l’alimentation donne la même estimation que celle de MantelHaenszel : 1 1 1 1 + + + = 0, 4667 10 10 5 15 ; w−1 1 = c 0 ) = ln 15 ∗ 10 = 1, 0986 ln(OR 5 ∗ 10 ; c 1 ) = ln 16 ∗ 8 = 0, 9808 lnOR 4 ∗ 12 w−1 0 = 1 1 1 1 + + + = 0, 5208 8 12 4 16 1 1 ∗ 1, 0986 + ∗ 0, 9808 0, 4667 0, 5208 c ln(ORL ) = = 1, 0429 1 1 + 0, 4667 0, 5208 c L = e1,0429 = 2, 837 OR 5.2 Condition d’utilisation du test de Mantel-Haenszel, le test d’interaction Le test précédent n’a de sens que si la liaison entre X et Y est la même dans chacune des classes de Z. On dit alors qu’il n’y a pas d’interaction entre X et Z. Cela signifie que les odds ratio ORz sont les mêmes pour toutes les strates z. Si cette supposition n’est pas vérifiée il est déconseillé de se baser sur ces statistiques pour juger de l’effet spécifique de X sur Y . C’est le cas par exemple si les odds ratio intra strate s’inversent d’une classe z à l’autre, X jouant un rôle protecteur pour certains niveaux de Z et étant à risque pour d’autres niveaux. Dans ce cas la statistique QMH peut être très petite sur l’ensemble des strates de Z et traduire un manque d’effet moyen de X qui ne restitue absolument par la diversité des situations suivant le niveau de Z. Cette hypothèse d’absence d’interaction peut être testée, c’est ce que nous allons décrire maintenant. Un test d’interaction, le test de Breslow-Day [6] Le principe du test consiste à calculer la valeur attendue mz (1, 1) dans chaque classe z sous l’hypothèse que l’odds ratio entre X et Y est la même dans chaque strate. 96 L’étude de l’association entre variables binaires (Lopez, C.) ORz = OR quel que soit z L’odds ratio OR est estimé par l’odds ratio de Mantel-Haenszel. Si l’alimentation est sans effet sur la coloration du gras dans la classe z, la valeur attendue mz (1, 1) doit alors vérifier l’équation : mz (1, 1) mz (1, 0) c MH = OR mz (0, 0) mz (0, 1) (2.8) pour chacune des classes z, où mz (x, y) désigne l’effectif moyen attendu dans la classe {X=x ; Y=y} . Dans cette équation seule la valeur de mz (1, 1) est la seule quantité inconnue puisque l’on raisonne à marges fixées. Les relations suivantes : mz (1, 0) = nz (1, +) − mz (1, 1) mz (0, 1) = nz (+, 1) − mz (1, 1) mz (0, 0) = nz − nz (1, +) − nz (+, 1) + mz (1, 1) c MH en fonction de mz (1, 1). Une fois obtenue la valeur de mz (1, 1) on calcule les permettent d’exprimer OR autres valeurs attendues, mz (x, y), à l’aide des relations précédentes. Le calcul est ainsi réalisé pour toutes les classes z. La statistique de Breslow-Day est alors : QBD = ∑z ∑x ∑y 2 nz (x, y) − mz (x, y) mz (x, y) On montre que QBD suit approximativement une distribution du Chi-deux à q-1 degrés de liberté (où q est le nombre de strates) sous l’hypothèse nulle d’égalité des odds ratio intra strate. Il faut noter que si le test de Mantel-Haenszel nécessite d’avoir des effectifs importants sur l’ensemble des q classes de Z, le test de Breslow-Day suppose des effectifs importants dans chaque strate ce qui peut limiter sérieusement sa validité notamment lorsque l’on a beaucoup de strates. 97 L’étude de l’association entre variables binaires (Lopez, C.) Un second test d’interaction, le test de Paul et Donner [20] Ce second test est réalisé à partir des estimations Logit des odds ratio intra strate. c z , en échelle logarithmique. On calcule la variance Il est basé sur la différence des odds ratio intra strate, OR c z ), le coefficient de pondération étant l’inverse de la variance des ln(OR c z) pondérée des ln(OR 2 cL c z − ln OR IL = ∑ wz ∗ ln OR z Sous l’hypothèse d’absence d’interaction entre X et Z, IL suit une distribution de Chi-deux avec (q-1) degrés de liberté. Il faut souligner que ce test est peu puissant, c’est-à-dire que sa capacité à détecter des hétérogénéités d’odds ratio est assez faible [Jones et al.,[20]]. En pratique le test d’interaction doit précéder l’estimation de l’odds ratio ajusté du facteur Z. Cette estimation n’est réellement interprétable qu’en absence d’interaction ou lorsque les odds ratio intra strate sont légèrement différents et tous supérieurs ou tous inférieurs à 1 (interaction de type ((synergie))). Nous allons maintenant analyser les données ((gras coloré)) à l’aide de la procédure FREQ dans un premier temps puis nous comparerons aux résultats obtenus avec le modèle logistique. 98 L’étude de l’association entre variables binaires (Lopez, C.) 5.3 L’analyse des données avec SASr Le tableau suivant représente les pourcentages de carcasses colorées par type d’alimentation pour chacun des 2 logements ainsi que les odds ratio par type de logement. z=0 z=1 x=0 10 20 = 0, 50 12 20 = 0, 60 x=1 15 20 = 0, 75 16 20 = 0, 80 ORz 15/5 10/10 = 3, 00 16/4 12/8 = 2, 67 Les 2 odds ratio conditionnels sont assez proches, ce qui laisse présager une absence d’interaction. Le code SASr s’écrit : proc freq data=s.gras; title1 "aliment ajusté du logement"; table logement*aliment*y/ chisq cmh1; run; TAB . 2.15: La prise en compte du logement avec FREQ Les 3 variables logement, aliment et couleur figurent dans l’instruction ((table)) avec la variable ((logement)) en premier. L’option ((cmh1)) indique à SASr que l’on veut ajuster sur cette variable. Les résultats (tableau 2.16) indiquent, comme on s’y attendait, une absence d’interaction (test de Breslow-Day, χ2BD = 0, 0141, p = 0, 9056). Le test de Paul et Donner (non calculé par FREQ) fournit le même résultat. Les c MH = 2,8367 et deux estimations de l’odds ratio de l’alimentation ajusté du logement sont très proches, OR c L = 2,8376. On retrouve le résultat calculé précédemment. La statistique de Mantel-Haenszel, χ2 = 4, 443 OR MH (statistique ((Nonzero Correlation))), assure que l’alimentation ajustée du logement a un effet significatif sur le risque de coloration du gras (p = 0, 035). On remarque que l’odds ratio ajusté est très proche de l’odds ratio estimé sans tenir compte du logement c = 2, 82). Cela signifie que le type de logement des animaux n’a pas d’influence sur la coloration du gras. (OR 99 L’étude de l’association entre variables binaires (Lopez, C.) Summary Statistics for aliment by couleur Controlling for logement Cochran-Mantel-Haenszel Statistics (Based on Table Scores) Alternative Statistic Hypothesis DF Value 1 Nonzero Correlation 1 4.4430 Prob 0.0350 Estimates of the Common Relative Risk (Row1/Row2) Type of Study Method Value 95% Confidence Limits Case-Control Mantel-Haenszel 2.8367 1.0728 7.5009 (Odds Ratio) Logit 2.8376 1.0731 7.5031 Cohort Mantel-Haenszel 2.0000 1.0258 3.8994 (Col1 Risk) Logit 2.0000 1.0266 3.8965 Cohort Mantel-Haenszel 0.7097 0.5125 0.9826 (Col2 Risk) Logit 0.7149 0.5175 0.9874 Breslow-Day Test for Homogeneity of the Odds Ratios Chi-Square DF Pr > ChiSq 0.0141 1 0.9056 TAB . 2.16: Le test d’interaction ((logement*aliment)) avec FREQ Nous allons montrer maintenant comment refaire cette analyse en utilisant le modèle logistique. 100 L’étude de l’association entre variables binaires (Lopez, C.) 6 Le modèle logistique avec 2 variables explicatives 6.1 un second modèle Le risque, exprimé en échelle Logit, s’écrit en fonction des indicatrices de logement, d’alimentation ainsi que de leur interaction : π(x, z) ln ≡ η(x, z) = µ + αx + θz + γxz 1 − π(x, z) (2.9) où : 1. π(x,z) désigne la probabilité de gras coloré conditionnellement à l’alimentation x et au logement z, 2. µ désigne le risque moyen de gras coloré en échelle Logit 3. αx désigne l’écart dû à l’alimentation x, 4. θz désigne l’écart dû au logement z, 5. γxz désigne l’écart d’interaction ((alimentation x logement)). avec les contraintes habituelles sur les paramètres : α0 + α1 = 0 θ0 + θ1 = 0 γ00 + γ01 = 0 γ10 + γ11 = 0 6.2 γ00 + γ10 = 0 γ01 + γ11 = 0 L’analyse des données avec SASr Le code SASr correspondant à l’analyse de ce modèle s’écrit L’option ((type 1)) de l’instruction ((model)) indique que l’on veut tester les différents effets de façon séquentielle, dans l’ordre : 1/ le logement, 2/ l’alimentation ajustée du logement et 3/ l’interaction ((alimentation ∗ logement)) ajustée du logement et de l’alimentation. Cette option est nécessaire pour faire les ajustements adéquats. 101 L’étude de l’association entre variables binaires (Lopez, C.) proc genmod title1 title2 class model lsmeans estimate estimate estimate estimate run; data=s.profils; "effet de l'alimentation et du type du logement"; "interaction alimentation x logement présente"; aliment logement; y/n = logement aliment aliment*logement / dist=binomial type1; aliment logement aliment*logement / cl; "Loge(OR(alim|logt=0)" aliment -1 +1 aliment*logement -1 0 +1 0 / exp; "Loge(OR(alim|logt=1)" aliment -1 +1 aliment*logement 0 -1 0 +1 / exp; "Loge(OR(aliment))" aliment -1 +1 / exp; "Loge(OR(logement))" logement -1 +1 / exp; TAB . 2.17: Le code SASr du modèle ((couleur = logement+aliment+aliment*logement)) Les deux premières instructions ((estimate)) estiment les odds ratio partiels de l’alimentation pour les animaux en cases collectives d’une part et en cases individuelles d’autre part. Attention à l’ordre des coefficients du terme d’interaction, ils dépendent de l’ordre d’écriture des facteurs dans l’instruction ((class)). Le facteur qui varie en premier est le plus à droite. Ici l’ordre est le suivant : Aliment=0 Logement=0 Aliment=1 Logement=1 Logement=0 Logement=1 la qualité d’ajustement On note que le modèle contient autant de paramètres, 4, (µ, α1 , θ1 , γ11 ) que de profils. On dit que le modèle est ((saturé)). C’est ce qu’indiquent les déviances égales à zéro (tableau 2.18). Criteria For Assessing Goodness Of Fit Criterion DF Value Deviance 0 0.0000 Scaled Deviance 0 0.0000 Pearson Chi-Square 0 0.0000 Scaled Pearson X2 0 0.0000 Log Likelihood -48.5779 Value/DF . . . . TAB . 2.18: Les déviances Les probabilités prédites pour les 4 profils seront égales aux probabilités observées. On ne pourra pas tester une hétérogénéité du risque de coloration intra profil. 102 L’étude de l’association entre variables binaires (Lopez, C.) Les tests de type 1 Le tableau suivant 2.19 fournit les tests successifs, ((logement)), ((aliment)) et ((logement ∗ aliment)). LR Statistics For Type 1 Analysis Source Deviance DF Chi-Square Pr > ChiSq modèles Intercept 5.1423 µ logement 4.6383 1 0.50 0.4778 aliment 0.0140 1 4.62 0.0315 µ+Logement µ+Logement+Aliment aliment*logement 0.0000 1 0.01 0.9057 µ+Logement x Aliment TAB . 2.19: Les tests de type1 • Avant de considérer le test ajusté de l’alimentation il nous faut examiner l’interaction ((alimentation ∗ logement)). Le test est réalisé en comparant la déviance du modèle saturé ((logement+aliment+aliment ∗ logement)) à 4 paramètres (désigné dans le tableau précédant par ((Logement x Aliment))) à celle du π(x,z) = µ + αx + θz à 3 paramètres. La différence modèle sans l’interaction,((logement+aliment)), ln 1−π(x,z) des déviances suit, sous l’hypothèse d’absence d’interaction, un Chi-deux à 4-3 = 1 degré de liberté. Ici la différence (0,0140 - 0,000 = 0,0140) n’est pas significative (p=0,9057). C’est le test d’interaction de Paul et Donner cité dans l’analyse avec FREQ. • Le test de l’alimentation ajusté du logement est réalisé en comparant la déviance du modèle ((logement)) à π(z) = µ+θz à celle du modèle ((logement + alimentation)). La différence de déviance 2 paramètres, ln 1−π(z) (4,6383 - 0,0140=4,6243) suit un Chi-deux à 3-2=1 degré de liberté sous l’hypothèse d’absence d’effet de l’alimentation. On conclut à un effet significatif (p=0,0315). La statistique de test (χ2 =4,62 est très proche de la statistique de Mantel-Haenszel, χ2MH =4,44). • Enfin le test du type de logement est obtenu en comparant la déviance associée au modèle ((nul)) à 1 π paramètre (((intercept))), ln 1−π = µ, correspondant à un risque de gras coloré identique pour les 2 types d’alimentation à celle associée au modèle ((logement)). La différence des déviances (5,1423 - 4,6383 = 0,504) suit sous l’hypothèse d’absence d’effet logement un Chi-deux à (2-1)=1 degré de liberté. Ce test est non significatif (p=0,4778). Cette analyse confirme l’effet de l’alimentation sur la probabilité d’avoir un gras coloré et permet d’affirmer que l’effet de l’alimentation en continu est le même quel que soit le type de logement. Elle ne met pas en évidence d’effet du type de logement. 103 L’étude de l’association entre variables binaires (Lopez, C.) Remarque : Les tests de type 3 Il existe un autre type de tests, les tests de ((type 3)), qui testent l’effet de chaque variable en présence des autres variables. Ainsi l’alimentation serait testée en comparant les vraisemblances associées aux 2 modèles suivant : M1= µ+ Logement+ + Logement∗Alimention M2= µ+ Logement+ Alimentation + Logement∗Alimention Sous l’hypothèse d’absence d’effet de l’alimentation la différences des déviances associées à chacun de ces 2 modèles suit un Chi-deux avec comme degrés de liberté la différence entre les nombres de paramètres associés à chacun des 2 modèles. Contrairement aux tests de type 1 les résultats de ces tests ne dépendent pas de l’ordre d’introduction des effets dans le modèle. Ces tests sont plutôt adaptés aux cas où plusieurs variables explicatives sont introduites et où tous les effets sont étudiés. Ce n’est pas la situation où nous nous sommes placés pour l’étude du gras. Nous avons en effet considéré le facteur ((Logement)) comme un facteur secondaire dont on voulait seulement contrôler l’effet dans l’étude du facteur principal qui est l’alimentation. Les moyennes ajustées Le tableau 2.20 présente les moyennes ajustées des 3 effets testés en échelle Logit, (η̂(x, z)). Celles qui correspondent aux termes d’interaction sont les Logit observés des proportions de carcasses à gras coloré par profil ((alimentation x logement)). Ainsi pour le profil ((aliment=0 et logement=0)) l’odds de la couleur rosé est 10/10 soit un Logit égal à η̂(0, 0) = 0, 00. De même pour le profil ((aliment=1 et logement=0)) l’odds est 15/5 = 3, le Logit vaut η̂(1, 0) = ln(3) = 1, 0986 et ainsi de suite. Les moyennes des types d’alimentation ajustées du logement sont les moyennes arithmétiques des Logits observés sur les deux profils de logement correspondant à chaque type d’alimentation donné. 104 L’étude de l’association entre variables binaires (Lopez, C.) Effect aliment aliment logement logement aliment*logement aliment*logement aliment*logement aliment*logement aliment 0 1 0 0 1 1 Least Squares Means Standard logement Estimate Error DF Chi-Square Pr > ChiSq Confidence Limits 0,2027 0,3195 1 0,4 0,5257 -0,4235 0,829 1,2425 0,3805 1 10,66 0,0011 0,4967 1,9882 0 0,5493 0,3416 1 2,59 0,1078 -0,1201 1,2188 1 0,8959 0,3608 1 6,16 0,013 0,1886 1,6031 0 0 0,4472 1 0 1 -0,8765 0,8765 1 0,4055 0,4564 1 0,79 0,3744 -0,4891 1,3001 0 1,0986 0,5164 1 4,53 0,0334 0,0865 2,1107 1 1,3863 0,559 1 6,15 0,0131 0,2906 2,4819 TAB . 2.20: Les moyennes ajustées Ainsi pour l’alimentation non continue le risque ajusté du logement en échelle Logit est : η̂(0, .) = η̂(0, 0) + η̂(0, 1) 2 0,4055 = 0, 2027 η̂(0, .) = 0,0000+ 2 soit Ces moyennes ajustées sont intéressantes car elles permettent de récupérer les estimations des probabilités 14 π(x,z) de chaque profil {x,z} à l’aide de l’expression : π̂(x, z) = exp (η̂(x, z)) 1 + exp (η̂(x, z)) On obtient également l’intervalle de confiance de la probabilité prédite en appliquant la même formule aux bornes de l’intervalle de confiance des moyennes ajustées, présentes dans le tableau précédent sous la rubrique ((Confidence Limits)). Ainsi la probabilité pour une carcasse d’avoir un gras coloré pour une alimentation non continue est : π̂(0) = e0,2027 exp(η̂(0, .)) = = 0, 55 1 + exp(η̂(0, .)) 1 + e0,2027 14. Ces prédictions peuvent également être obtenues à l’aide des options ((predicted)) et ((obstat)) de l’instruction ((model)). On a aussi la possibilité de les stocker dans un fichier à l’aide de l’instruction ((output out=’nom_de_fichier’ predicted=’nom_de_variable’;)) 105 L’étude de l’association entre variables binaires (Lopez, C.) On retrouve le pourcentage observé p(0) = 55% avec un intervalle de confiance au niveau 95% estimé à : IC(π̂(0)) = e0,8290 e−0,4235 ; = [0, 40 ; 0,70] 1 + e−0,4235 1 + e0,8290 Les odds ratio conditionnels et ajustés Les estimations des odds ratio de l’alimention conditionnellement au type de logement (soulignés) ainsi que leur intervalle de confiance figurent dans le tableau 2.21. On retrouve les résultats calculés page 99. Contrast Estimate Results Estimate Standard Error Confidence Limits Label Loge(OR(alim|logt=0) 1.0986 0.6831 -0.2403 2.4375 Exp(Loge(OR(alim|logt=0)) 3.0000 2.0494 0.7864 11.4447 Loge(OR(alim|logt=1) 0.9808 0.7217 -0.4337 2.3953 Exp(Loge(OR(alim|logt=1)) 2.6667 1.9245 0.6481 10.9716 Loge(OR(aliment)) 1.0397 0.4969 0.0659 2.0136 Exp(Loge(OR(aliment))) 2.8284 1.4053 1.0681 7.4899 Loge(OR(logement)) 0.3466 0.4969 -0.6273 1.3204 Exp(Loge(OR(logement))) 1.4142 0.7027 0.5341 3.7450 Chi-Square Pr > ChiSq 2.59 0.1078 1.85 0.1741 4.38 0.0364 0.49 0.4855 TAB . 2.21: Les odds ratio de l’alimentation conditionnellement au type de logement L’odds ratio de l’alimentation ajusté du logement est alors la moyenne géométrique des odds ratio conditionnels. q c c c OR(alimentation|logement) = OR(alimentation|logement = 0) ∗ OR(alimentation|logement = 1), p c 3, 000 ∗ 2, 667 = 2, 8284 OR(alimentation|logement) = On trouve un résultat très proche de ceux produits par FREQ, page 100. 7 Conclusion Le modèle logistique permet d’étendre l’étude de la liaison entre deux variables binaires à la prise en compte de plusieurs variables binaires explicatives d’une réponse binaire. Le modèle utilisé est un modèle de régression (ou d’analyse de variance) mais la nature binaire de la réponse nécessite de modéliser une transformation g de la probabilité π(x) associée à l’une des 2 modalités de la réponse. La transformation associée au modèle logistique utilisé dans notre étude est la transformation logistique. 106 L’étude de l’association entre variables binaires (Lopez, C.) g(π(x)) = ln π(x) (1 − π(x)) Ce modèle fait partie d’un ensemble de modèles regroupés sous le terme ((Modèle Linéaire Généralisé)) . Les paramètres du modèles posés permettent d’estimer les effets spécifiques (ajustés) de chacune des variables explicatives. L’interprétation des paramètres dépend de la transformation g choisie . • Avec la transformée logistique les paramètres du modèle s’interprètent comme des logarithmes de odds ratio 15 . • Avec la transformation Log népérien, g(π(x)) = ln(π(x)), les paramètres s’interprètent comme des logarithmes de risques relatifs. • Si nous ne transformons pas la réponse (fonction g ((identité))), g(π(x)) = π(x)), les paramètres s’interprètent comme des risques en excès. Le choix entre les transformations dépend du contexte. L’analyse directe sur les pourcentages sans transformation préalable peut être employée lorsque les pourcentages observés ne sont pas trop éloignés de 0,50 et que les échantillons sont ((confortables)). Une simple analyse de variance (par exemple ((GLM)) dans SASr ) fait l’affaire. Si par contre les pourcentages observés sont très faibles ou très proches de 1, l’analyse sans transformation est à déconseiller. L’analyse sur les logarithmes des pourcentages peut s’envisager mais elle peut réserver des surprises au niveau des intervalles de confiance (des bornes inférieures à zéro ou supérieures à 1). Enfin le protocole peut rendre non pertinentes l’analyse sur transformée logarithmique et l’analyse directe sur les données (cf. les différents types d’enquêtes). Seuls les paramètres fournis par la transformation logistique sont toujours interprétables. Au final le modèle logistique semble être le modèle le plus adapté à la nature binaire de la réponse analysée malgré l’expression peu naturelle du risque en échelle ((odds)) qu’il nécessite. 15. à un coefficient près suivant que les variables explicatives sont considérées comme des variables quantitatives ou qualitatives 107 L’étude de l’association entre variables binaires (Lopez, C.) L’analyse logistique peut être étendue à la prise en compte de variables explicatives qualitatives, ordinales ou nominales. Les odds ratio se définissent alors à partir d’une classe de la variable explicative, prise comme référence. Enfin l’analyse logistique se généralise à l’explication d’une réponse qualitative. C’est l’analyse logistique généralisée. Un cas particulièrement important est celui où la réponse est ordinale. L’analyse en ((Logit cumulés)) permet de prendre en compte le caractère ordonné des modalités de réponse (Agresti, [1]). 108 Analyse d’un pourcentage (Lavialle, O.) Chapitre 3 Analyse d’un pourcentage Lavialle, O. ENITA de Bordeaux - 1, Cours du Général de Gaulle - BP 201, 33175 Gradignan cedex [email protected] 1 introduction Les données à traiter se présentent parfois sous la forme de proportions ou de pourcentages pour lesquels on ne dispose pas de l’information concernant le nombre total d’individus observés (i.e. le dénominateur des proportions). Les exemples relevant de cette situation sont nombreux : proportion de la surface d’une feuille attaquée par une maladie fongique, pourcentage d’une récolte pour différente catégories de qualité (sans avoir accès au nombre d’individus), pourcentage de matière grasse mesurée chez un animal... Nous allons développer un tel exemple en expliquant la conséquence de la non connaissance du dénominateur des proportions sur les estimations des variances liées au modèle. L’introduction d’un facteur de surdispersion nous permettra d’estimer le modèle en utilisant une démarche très voisine de celle utilisée pour une variable binomiale classique. 109 Analyse d’un pourcentage (Lavialle, O.) 2 essai phytosanitaire - présentation de l’exemple Le tableau 3.1 regroupe les données d’un essai phytosanitaire sur fraisier portant sur des produits anti-oïdium. L’objectif est de comparer l’efficacité de différentes stratégies de lutte : un produit A, utilisé classiquement est considéré comme référence (PA) ; le même produit est testé avec une cadence variable suivant un modèle de prévision d’attaque oïdium (PAPREV) ; une nouvelle molécule est également testée (PB). Enfin, une modalité non traitée est utilisée comme témoin de contamination (TEM). Le dispositif est un dispositif en bloc complet avec 4 blocs comportant chacun les 4 modalités testées. Chacune des 16 Parcelles élémentaires est constituée de 20 fraisiers. Traitement bloc psur f PB 1 3.99 PB 2 3.70 PB 3 5.10 PB 4 2.87 PA 1 7.61 PA 2 3.16 PA 3 4.02 PA 4 6.59 PAPREV 1 1.99 PAPREV 2 0.62 PAPREV 3 0.64 PAPREV 4 1.37 TEM 1 26.70 TEM 2 34.14 TEM 3 13.84 TEM 4 26.24 TAB . 3.1: données de l’essai porte-greffe Le suivi des contaminations foliaires est réalisé par notation de la surface recouverte par les fructifications de 110 Analyse d’un pourcentage (Lavialle, O.) l’oïdium sur 20 feuilles choisies au hasard sur chaque parcelle élémentaire. Ensuite, l’efficacité des traitements est mesurée par la fréquence d’attaques (pourcentage de feuilles touchées) et par l’intensité (Surface moyenne touchée). Nous nous intéressons uniquement au traitement de la variable "intensité". Pour chaque unité expérimentale, la réponse Y est obtenue sur 20 feuilles : c’est une estimation de la proportion (0-100%) de surface tachée de la parcelle. Nous disposons d’une réponse qui est le rapport entre surface attaquée et surface totale. Cependant, la notion "d’individu" n’est pas présente et l’écriture sous forme d’un rapport yi = ri /ni où r est un nombre de "succès" et n un nombre d’observations est impossible. La conséquence générale de ceci est un manque d’information sur la variance de la réponse qui dépend directement de n. 111 Analyse d’un pourcentage (Lavialle, O.) 3 SAS 3.1 Utilité du lien logit Création de la table PGM _______________________________________________________________________ Data oidium; input Traitement $ bloc $ psurf; datalines; PB 1 3.99 PB 2 3.70 PB 3 5.10 PB 4 2.87 PA 1 7.61 PA 2 3.16 PA 3 4.02 PA 4 6.59 PAPREV 1 1.99 PAPREV 2 0.62 PAPREV 3 0.64 PAPREV 4 1.37 TEM 1 26.7 TEM 2 34.14 TEM 3 13.84 TEM 4 26.24 ; run; ________________________________________________________________________PGM Le lien logit est une fonction de lien naturelle pour les données binomiales dans la mesure où il assure que les valeurs prédites seront comprises entre 0 et 1 (100 %) et qu’il permet de stabiliser les variances. Pour illustrer l’intérêt du lien logit sur la stabilisation des variances, nous pouvons visualiser la dispersion des valeurs observées et des logits correspondant à chaque observation. PGM _______________________________________________________________________ Proc sort data=oidium ; 112 Analyse d’un pourcentage (Lavialle, O.) by traitement; run; Proc means; class Traitement; var psurf; output out=moysurf(where=(_type_=1)) mean=m; run; Data oidium; merge oidium moysurf(keep=Traitement m); by Traitement; ecart=psurf-m; run; Proc gplot; axis1 label=("moyenne des traitements"); axis2 label=("pourcentage de surface attaqué"); axis3 label=("logit(surface)"); plot psurf*m /vref=0 haxis=axis1 vaxis=axis2; plot logit*m /vref=0 haxis=axis1 vaxis=axis3; run; quit; ________________________________________________________________________PGM La Figure 3.1 illustre la relation entre la variance des observations et la moyenne des traitements avant et après transformation 1 . La fonction logit permet de rendre comparable les dispersions des valeurs au sein des 4 traitements quelque soit leur moyenne. 1. faire ces représentations revient à négliger l’effet des blocs. 113 Analyse d’un pourcentage (Lavialle, O.) Nous utiliserons dans la suite une modélisation de type logit qui est associée de manière générale à une variable réponse de type binomial. F IG . 3.1: Relation entre la dispersion des valeurs des traitements et leur moyenne. Valeurs initiales et logits correspondants 3.2 Estimation du modèle avec introduction d’un facteur de surdispersion Les données expérimentales sont traitées au moyen de la procédure GENMOD Notons Y, la variable réponse. Dans le cas d’une loi binomiale, Y se présente sous la forme du rapport : Y= r n où n représente le nombre d’observations et r le nombre de "succès". Dans notre cas, pour chaque observation, nous disposons d’une réponse yi qui est le rapport entre surface attaquée et surface totale. Cependant, la notion "d’individu" n’est pas présente : les ni et les ri ne sont pas définis. Pour autant, le modèle réclame une présentation sous la forme r/n. La réponse étant exprimée en pourcentage, nous posons r=psurf et nous fixons arbitrairement n à 100 sachant que cette valeur ne représente aucunement le nombre d’observations effectuées dans chaque parcelle élémentaire. Ne pas connaitre n, c’est ne pas connaitre "l’échelle" à laquelle ont été réalisées les observations. En effet, nous aurions pu exprimer les réponses en 114 Analyse d’un pourcentage (Lavialle, O.) proportion (de 0 à 1) et non plus en pourcentage, n aurait alors été choisi égal à 1. PGM _______________________________________________________________________ Data oidium; set oidium; n=100; run; Proc genmod; class traitement ; model surface/n = traitement bloc / scale=D type3; contrast ’trait contre témoin’ traitement 1 1 1 -3; contrast ’A contre B’ traitement 1 0 -1 0; contrast ’B+A contre prévision’ traitement 1 -2 1 0; lsmeans traitement /diff; run; ________________________________________________________________________PGM L’écriture r/n dans l’instruction model permet de spécifier que la réponse est binomiale. Le lien Logit est alors sélectionné par défaut. La distribution binomiale réclame une valeur entière pour r. Ce n’est pas le cas de notre modèle et bien que les calculs soient effectués, SAS retourne le message : ___________________________________________________________________________________ NOTE: Non-integer response values have been detected for the Binomial distribution. ___________________________________________________________________________________ Pour une loi binomiale, la variance de la réponse s’écrit : V (Y ) = p(1 − p)/n 115 Analyse d’un pourcentage (Lavialle, O.) où p représente l’espérance de Y. Cette variance de Y est directement liée au nombre d’observations effectuées pour obtenir une réponse yi . Dans notre cas, ne connaissant pas n, l’estimation de la dispersion de notre modèle ne peut être effectuée ; les mesures de déviance ou du χ2 de Pearson n’ont également plus de sens lorsque les ni ne sont pas définis. En pratique, la conséquence est la suivante : un des critères de bon ajustement du modèle consiste à vérifier que le rapport entre le χ2 de Pearson (ou la déviance) et le nombre de degrés de liberté est proche de 1. Dans le cas où les effectifs ne sont pas connus, ces rapports peuvent être très différents de 1. Le modèle apparaît alors de manière artificielle surdispersé ( χ2Pearson nddl >> 1) ou sous-dispersé ( χ2Pearson nddl << 1). Une manière simple de modéliser cette situation est d’écrire la variance de la réponse sous la forme : V (Y ) = φp(1 − p)/n Le terme φ est appelé facteur de surdispersion. L’option SCALE= dans l’instruction MODEL permet de fixer le facteur de surdispersion. Si SCALE=D est spécifié, SAS fixe la valeur de φ égale à la déviance du modèle divisée par le nombre de dégrés de liberté. Par suite, le modèle est ajusté de manière très classique et les paramètres estimés seront inchangés avec ou sans facteur de surdispersion. Par contre les variances sont multipliées par φ, la déviance et le χ2 de Pearson étant divisés par φ. La rapport entre la déviance ainsi ajustée et le nombre de ddl (DF en anglais) est égal à 1 et l’ensemble des statistiques d’ajustement du modèle ainsi reparamétré sont calées sur les valeurs attendues 2 . 3.3 Interprétation Ajustement du modèle : Comme attendu précédemment, l’introduction d’un facteur de surdispersion a conduit à caler la déviance sur le nombre de degrés de liberté du modèle. En l’occurence dans cet exemple, la déviance initiale n’était pas très éloignée de 9, le nombre de degrés de liberté (DF). Le modèle a cependant introduit un facteur φ = Deviance/DF = 0,9788. La déviance et le χ2 après ajustement (Scaled Deviance,Scaled Pearson X2) 2. La deviance est une différence de fonctions de log-vraisemblance. Notons que la fonction obtenue en divisant une fonction de log-vraisemblance par un facteur de surdspersion ne débouche pas sur une nouvelle fonction de log-vraisemmblance. Le résultat obtenu est appelé fonction de quasi-vraisemblance. L’étude de ce type de fonction et ses diverses utilisations dépasse largement le cadre de cet ouvrage. Le lecteur intéressé pourra consulter l’ouvrage de McCullagh et Nelder [23] ou encore les travaux de Wedderburn [31] ou cox [11]. 116 Analyse d’un pourcentage (Lavialle, O.) et la log-vraissemblance du modèle ont donc étaient divisés par ce paramètre. Sortie _______________________________________________________________________ Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 9 8.8089 0.9788 Scaled Deviance 9 9.0000 1.0000 Pearson Chi-Square 9 9.0799 1.0089 Scaled Pearson X2 9 9.2768 1.0308 Log Likelihood -405.4821 Algorithm converged. _________________________________________________________________________Sortie La suite de la sortie concerne l’estimation des effets. Par défaut, le traitement "TEM" et le Bloc 4 sont choisis comme référence. Le terme constant (intercept) est donc l’estimation de la moyenne pour le témoin du bloc 4. Pour chaque paramètre, l’erreur standard est fournie. Cette erreur a été calculée en intégrant la correction du facteur de surdispersion, les estimations des paramètres étant inchangées. Les intervalles de confiance de Wald associés aux estimations sont fournis. Lorsque ces intervalles contiennent la valeur nulle, l’estimation est jugée non significative. Un test de Wald de la nullité de chaque paramètre est fournit et permet d’aboutir aux mêmes conclusions. 117 Analyse d’un pourcentage (Lavialle, O.) La ligne "scale" donne le paramètre d’échelle. ce paramètre σ n’est autre que la racine carrée du facteur de √ √ surdispersion introduit pour ajuster la déviance. σ = φ = 0, 9788 = 0, 9893 Sortie _______________________________________________________________________ Analysis Of Parameter Estimates standard Wald 95% Confidence Limits Parameter DF Estimate Error Intercept 1 -1.0333 0.1938 -1.4130 -0.6535 28.44 <.0001 Traitement PA 1 -1.7998 0.2484 -2.2867 -1.3130 52.50 <.0001 Traitement PAPREV 1 -3.3776 0.4772 -4.3128 -2.4423 50.10 <.0001 Traitement PB 1 -2.1270 0.2800 -2.6757 -1.5782 57.71 <.0001 Traitement TEM 0 0.0000 0.0000 0.0000 0.0000 . bloc 1 1 0.1050 0.2527 -0.3904 0.6003 0.17 0.6779 bloc 2 1 0.1464 0.2512 -0.3460 0.6389 0.34 0.5600 bloc 3 1 -0.5402 0.2843 -1.0974 0.0170 3.61 0.0574 bloc 4 0 0.0000 0.0000 0.0000 0.0000 . 0 0.9893 0.0000 0.9893 0.9893 Scale Chi-2 Pr > ChiSq . . NOTE: The scale parameter was estimated by the square root of DEVIANCE/DF. _________________________________________________________________________Sortie Par rapport à la référence (Témoin), les paramètres associés à l’ensemble des autres traitements (PA, PAPREV et PB) sont significativement différents de 0. Les estimations sont négatives : respectivement -1.8 pour PA, -3.38 pour PAPREV et -2.12 pour PB. Nous démontrons donc l’efficacité des traitements par rapport au traitement témoin. 118 Analyse d’un pourcentage (Lavialle, O.) Les effets du terrain (blocs) sont beaucoup moins marqués. Nous ne mettons pas en évidence d’effet significatif entre les blocs 1, 2 ou 3 et le bloc 4. Cependant, notons la moindre attaque observée dans le bloc 3. Il semble que cette différence soit en partie due au fait que le témoin a été beaucoup moins attaqué dans ce bloc. Statistiques liées aux rapports de vraisemblance : elles sont calculées pour chaque facteur apparaissant dans le modèle. La statistique peut être calculée pour une analyse de Type 1 ou de Type 3. Deux tests sont proposés par SAS : Un test consiste à calculer la différence entre D0 et D+ les déviances respectives du modèle sans le facteur testé et avec le facteur testé. La distribution asymptotique de cet écart de déviance 3 est une loi du χ2 à m-1 degrés de liberté où m est le nombre de modalités du facteur. Une seconde statistique est proposée : cette statistique F dont la distribution asymptotique est une distribution 0 −D+ de Ficher-Snédécor est calculée par F D φ(m−1) . Pour l’erreur de Type 1, les facteurs sont testés dans l’ordre de leur saisie dans le modèle. Pour l’erreur de Type 3, le test est réalisé entre le modèle complet (déviance D+ ) et le modèle amputé du facteur testé (D0 ). Sortie _______________________________________________________________________ LR Statistics For Type 1 Analysis Source Deviance NDF DDF F Pr > F Chi-2 Pr > ChiSq Intercept 176.5966 Traitement 16.3741 3 9 54.57 <.0001 163.70 <.0001 8.8089 3 9 2.58 0.1186 7.73 0.0520 bloc 3. Un écart de déviance est, par définition, assimilable à un rapport de vraisemblance des modèles. 119 Analyse d’un pourcentage (Lavialle, O.) LR Statistics For Type 3 Analysis Source NDF DDF F Pr > F Chi-2 Pr > ChiSq Traitement 3 9 54.84 <.0001 164.51 <.0001 bloc 3 9 2.58 0.1186 7.73 0.0520 _________________________________________________________________________Sortie Le facteur bloc étant introduit en dernier, les probabilités associées aux tests de type 1 ou 3 sont identiques. Nous retrouvons un effet non significatif au seuil 0,05. Nous ne mettons pas d’effet bloc en évidence. Le faible niveau de probabilité nous incitera cependant à être vigilant sur un éventuel effet terrain lors de futures mises en place d’essais expérimentaux dans les mêmes conditions. Les probabilités associées au test du facteur traitement confirment les observations réalisées sur les paramètres du modèle. Le facteur traitement est très hautement significatif (p < 0.0001) en grande partie du fait de l’efficacité des traitements comparativement au témoin. LSMEANS : Les tableaux suivants regroupent les moyennes estimées pour les modalités du facteur traitement ainsi qu’un test de significativité des différences observées entre les traitements. Ces deux tableaux sont le résultat de l’instruction (LSMEANS traitement /diff;) de PROC GENMOD. Cette instruction demande l’affichage des estimations pour les caractères qualitatifs listés (ici, uniquement le traitement). L’option diff permet d’obtenir un test sur l’ensemble des différences. Les moyennes au sens des moindres carrés sont directement issues des paramètres du modèle. Un test de nullité des moyennes est effectué. Ce test n’a que très peu d’intérêt dans notre cas : tester la nullité d’un logit équivaut 120 Analyse d’un pourcentage (Lavialle, O.) à tester si la valeur du pourcentage de surface attaquée est égal à 50 %, ce qui ne présente absolument aucun intérêt technique. Les tests sur les différences sont plus instructifs puisqu’ils conduisent à conclure sur l’efficacité relative des traitements. Sortie _______________________________________________________________________ Least Squares Means Standard Effect Traitement Estimate Error DF Chi-2 Pr > ChiSq Traitement PA -2.9053 0.2214 1 172.23 <.0001 Traitement PAPREV -4.4831 0.4637 1 93.46 <.0001 Traitement PB -3.2325 0.2563 1 159.00 <.0001 Traitement TEM -1.1055 0.1155 1 91.62 <.0001 Differences of Least Squares Means Standard Effect Traitement -Traitement Estimate Error DF Chi-2 Pr > ChiSq Traitement PA PAPREV 1.5777 0.5128 1 9.47 0.0021 Traitement PA PB 0.3272 0.3372 1 0.94 0.3319 Traitement PA TEM -1.7998 0.2484 1 52.50 <.0001 121 Analyse d’un pourcentage (Lavialle, O.) Traitement PAPREV PB -1.2506 0.5288 1 5.59 0.0180 Traitement PAPREV TEM -3.3776 0.4772 1 50.10 <.0001 Traitement PB TEM -2.1270 0.2800 1 57.71 <.0001 _________________________________________________________________________Sortie Dans l’exemple, les différences sont toutes significatives au risque 0.05 mise à part le différence entre les produits A et B. Le signe de l’estimation nous permet de visualiser rapidement le sens de la différence. Lorsque l’estimation est négative, le traitement cité à gauche conduit à un pourcentage inférieur : il est donc plus efficace. De l’ensemble de ce tableau nous déduisons que le traitement fondé sur le modèle de prévision (PAPREV) est le plus efficace, suivi des traitements PA et PB qui sont comparables. Le témoin est très significativement plus attaqué. Tests des contrastes : La définition de contrastes permet d’opérer des comparaisons spécifiques entre les modalités testées. Les contrastes sont définis a priori dans la procédure GENMOD. Chaque contraste est une fonction linéaire des effets dont nous testons l’égalité à 0. __________________________________________________________ contrast ’trait contre témoin’ traitement 1 1 1 -3; contrast ’A contre B’ traitement 1 0 -1 0; contrast ’B+A contre prévision’ traitement 1 -2 1 0; __________________________________________________________ Chaque instruction est composée d’une étiquette (exemple : ’trait contre témoin’), du nom du facteur testé puis d’un vecteur de valeurs donnant le poids associé à chaque modalité dans la fonction linéaire (exemple 1 1 1 -3). La somme des poids est nécessairement nulle Le premier contraste permet ici de comparer l’ensemble des 3 traitements (munis d’un poids de 1) au témoin seul (muni donc d’un poids de -3). Les tests utilisés sont fondés 122 Analyse d’un pourcentage (Lavialle, O.) sur les rapports de vraisemblance comme pour l’analyse des effets des facteurs. Sortie _______________________________________________________________________ Contrast Results Contrast NDF DDF F Pr > F Chi-2 Pr > ChiSq Type trait contre témoin 1 9 159.79 <.0001 159.79 <.0001 LR A contre B 1 9 0.95 0.3546 0.95 0.3291 LR B+A contre prévision 1 9 11.46 0.0081 11.46 0.0007 LR _________________________________________________________________________Sortie Le premier constraste demandé oppose les traitements au témoin. La probabilité (p <0.0001) confirme l’efficacité démontrée des traitements. Le contraste entre produit A et B produit un résultat comparable au test réalisé sur les LSmeans : il n’y a pas de mise en évidence d’une différence d’efficacité entre les deux produits. Enfin le dernier contraste confirme l’efficacité de la stratégie de prévision par rapport aux deux produits utilisés classiquement. 4 Conclusion Dans ce chapitre, nous avons abordé le problème du traitement de données de pourcentage lorsque le nombre d’observations par unité expérimentale n’est pas défini. L’impossibilité de parvenir à une estimation fiable de la variance du phénomène nous conduit à utiliser une procédure incluant un paramètre d’échelle dans la variance du modèle. Une fois ce paramètre introduit, l’interprétation du modèle est similaire à une interprétation d’un modèle fondé sur une distribution binomiale très classique. 123 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Chapitre 4 Le modèle multinomial nominal Chabanet, C.(1) & Dessaint, F.(2) (1) : INRA - UMR INRA-ENESAD : Arômes 17 rue Sully, BP 86510 - 21065 DIJON Cedex [email protected] (2) : INRA - UMR INRA-ENESAD : UB Biologie et Gestion des Adventices 17 rue Sully, BP 86510 - 21065 DIJON Cedex [email protected] 1 Introduction : exemple (( carcasses )) Dans de nombreux pays de l’Union Européenne, la teneur en viande maigre d’une carcasse de porc est évaluée à partir d’épaisseurs tissulaires mesurées en différents sites sur la carcasse. Les méthodes d’évaluation de la teneur en viande maigre ne tiennent en revanche pas compte du génotype, exposant ainsi la prédiction à un biais entre les différents génotypes. Une manière de réduire le biais passe par la construction d’un modèle de prédiction du génotype par les épaisseurs tissulaires. 125 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) La variable à expliquer est ici le génotype de la carcasse, variable qualitative nominale, dont les quatre modalités sont les types génétiques notées g1 (P : Piétrain), g2 (LWP : LargeWhite x Piétrain), g3 (PAL : Penar-Lan), g4 (LWLF : LargeWhite x Landrace Français). La variable explicative est une épaisseur de muscle (en mm), elle a été découpée en 9 classes de manière à pouvoir regrouper les données dans un petit tableau (Tableau 4.1) et à faciliter la saisie des données au lecteur désirant reproduire l’analyse avec le logiciel de son choix 1 . L’unité d’échantillonnage est ici la carcasse, sur laquelle on observe l’une des modalités g1, g2, g3 Type génétique ou g4 (le génotype prend l’une de ces modalités et une seule). On appelle réponse le type génétique muscle g1 : P g2 : LWP g3 : PAL g4 : LWLF observé. On dispose d’autant de réponses que de 44,5 0 37 10 17 50,0 0 34 14 5 représentée par un quadruplet du type (1,0,0,0) pour 52,0 1 54 23 8 les carcasses présentant la modalité g1, (0,1,0,0) pour 54,0 3 52 23 6 56,0 3 54 34 7 58,0 3 44 20 1 60,0 4 23 12 2 Dans le tableau de données (Tableau 4.1), les ré- 62,0 7 23 8 0 ponses sont présentées de manière groupée, par classe 66,5 19 25 6 0 carcasses (ici, 582). Les réponses sont indépendantes les unes des autres 2 . Chaque réponse est celles ayant la modalité g2, (0,0,1,0) pour celles ayant la modalité g3 et (0,0,0,1) pour les carcasses du type g4. d’épaisseur de muscle (le centre de chaque classe TAB . 4.1: données ((carcasses)) : effectifs observés est reporté dans la colonne muscle). Par exemple, pour la première classe d’épaisseur de muscle (centre de classe = 44,5), on a observé 0 carcasse de type g1, 37 de type g2, 10 de type g3 et 17 de type g4. Le tableau de données se présente donc sous la forme d’un tableau de contingence. On cherche à modéliser le génotype et plus particulièrement les probabilités pour une carcasse de présenter les différentes modalités g1, g2, g3 et g4 en fonction de l’épaisseur de muscle. 1. Le découpage en classe de l’épaisseur de muscle est réalisé à des fins pédagogiques. Dans une analyse réelle, l’épaisseur de muscle n’aurait pas été découpée en classes, mais utilisée telle quelle, sous forme de variable continue. 2. le génotype d’une carcasse est indépendant du génotype d’une autre carcasse. 126 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Type génétique muscle g1 : P g2 : LWP g3 : PAL g4 : LWLF 44,5 0 57,81 15,63 26,56 50,0 0 64,15 26,42 9,43 52,0 1,16 62,79 26,74 9,30 54,0 3,57 61,90 27,38 7,14 56,0 3,06 55,10 34,69 7,14 58,0 4,41 64,71 29,41 1,47 60,0 9,76 56,10 29,27 4,88 62,0 18,42 60,53 21,05 0 66,5 38,00 50,00 12,00 0 TAB . 4.2: données ((carcasses)) : proportions observées 2 Où le modèle linéaire généralisé est incontournable L’utilisateur qui ne connaîtrait pas le modèle linéaire généralisé pourrait être tenté de réaliser quatre régressions linéaires simples pour modéliser les proportions associées aux différentes modalités du génotype (Tableau 4.2) en fonction de l’épaisseur de muscle par quatre droites. Une telle analyse pose au moins deux problèmes, tous les deux détectables sur le graphe des résidus en fonction des probabilités prédites, réalisé pour le type génétique g1 (Figure 4.1). D’une part certaines probabilités prédites sont négatives ! (de l’ordre de -0.10 ici, elles pourraient être supérieures à 1 pour d’autres jeux de données). D’autre part, la structuration des résidus en fonction des probabilités prédites est très marquée, avec des résidus positifs, puis négatifs, et enfin positifs. Cette structuration vient de la forme de la liaison entre probabilité et épaisseur de muscle, qui est loin d’être linéaire (Figure 4.2). L’utilisateur qui se bornerait à présenter (et ne regarderait que) les paramètres estimés d’un tel modèle passerait à côté de ces problèmes. Par contre l’examen du graphique des proportions observées en fonction de l’épaisseur de muscle, ou du graphique des résidus en fonction des probabilités prédites lui ferait inévitablement suspecter des problèmes. Moralité : rien ne vaut des représentations graphiques des données brutes et des résidus ! 127 0.05 0.00 −0.05 résidus 0.10 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) −0.10 0.00 0.10 0.20 probabilités prédites F IG . 4.1: Ce qu’il ne faut pas faire : une régression linéaire simple par type génétique. Résidus en fonction des probabilités prédites, pour le type génétique g1. 3 Modèle multinomial nominal La probabilité associée à chacun des types génétiques est dépendante de l’épaisseur de muscle. On souhaite prédire le génotype d’une carcasse à partir de l’épaisseur de muscle, donc estimer la probabilité associée à chaque type génétique pour chaque classe d’épaisseur, et son intervalle de confiance. L’utilisation du modèle pour prédire le génotype d’une nouvelle carcasse suppose implicitement que cette carcasse est issue d’une population dont la composition est similaire à celle de l’étude (7% de type génétique g1, 59% de type génétique g2, 26% de type génétique g3, 8% de type génétique g4). On souhaite modéliser la façon dont varient les probabilités πg1 , πg2 , πg3 , πg4 , associées à chacune des modalités g1, g2, g3, g4 en fonction de l’épaisseur de muscle. On pourrait penser réaliser trois modélisations – une modélisation associée à chacun des types génétiques g1, g2, g3 – puis en déduire la probabilité associée au type génétique g4 (la somme des probabilités étant égale à un). Ceci pourrait se faire à l’aide de trois modèles logistiques (modèles linéaires généralisés, loi binomiale, lien logit). 128 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Cependant, il est préférable de n’utiliser qu’un seul modèle, pour obtenir un modèle plus simple 3 , donc plus précis, et pour pouvoir imposer la contrainte πg1 + πg2 + πg3 + πg4 = 1. Pour ce faire, on utilisera la loi multinomiale qui est une extension de la loi binomiale au cas de plus de deux modalités, et une généralisation du π lien logit, pour définir le modèle utilisé. On utilisera la fonction de lien définie par 4 log( πJj ) où J désigne l’une des modalités de la variable à expliquer. Cette écriture correspond à une généralisation du logit défini précéπ demment par log( 1−πj j ) au cas d’une variable à plus de 2 modalités et pour laquelle on choisit une modalité de référence, la modalité J. Selon les auteurs, ce modèle est appelé ’modèle multinomial’, ’modèle multinomial pour variable à catégories non ordonnées’, ’modèle logit généralisé’ [29], ’baseline-category logit model’ [2] [1]. Notons (n1 , n2 , n3 , n4 ) le quadruplet des nombres de carcasses associées aux modalités g1, g2, g3, g4, pour une classe d’épaisseur de muscle donnée. Si les observations peuvent être supposées indépendantes les unes des autres (c’est le cas) et si les carcasses ont toutes les mêmes probabilités πg1 , πg2 , πg3 , πg4 (c’est le cas si la population est homogène – cette hypothèse peut être remise en cause si les proportions varient selon les régions par exemple–), alors le quadruplet (n1 , n2 , n3 , n4 ) suit une loi multinomiale de paramètres (n, p ), avec n = n1 + n2 + n3 + n4 et p = (πg1 , πg2 , πg3 , πg4 ). Si l’on note x la variable explicative ’épaisseur de muscle’ et si on choisit la modalité g4 comme modalité de référence, le modèle s’écrit : πg1 = θg1 + βg1 x log πg4 πg2 log πg4 = θg2 + βg2 x log πg3 = θ + β x πg4 g3 g3 ou encore 5 3. ayant un plus petit nombre de paramètres (plus parcimonieux). 4. notation : log(x) signifie ln(x) et représente le logarithme népérien de x (réciproque de la fonction exponentielle). π 5. On peut aussi poser le modèle : log( 1−πj j ) = θ j + β j x j = g1, g2, g3, g4. Il s’agit d’un modèle équivalent défini avec une autre fonction de lien; dans le premier cas, la modalité g4 est prise comme référence, alors que dans le second cas, toutes les autres modalités servent de référence, aucune n’étant privilégiée. Ces modèles ont des paramétrisations différentes, correspondant à des contraintes d’identifiabilité différentes (nullité du paramètre associé à la dernière modalité ou nullité de la somme des paramètres associés aux 129 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) log πj πg4 = θj +βj x j = g1, g2, g3 (4.1) avec πg1 + πg2 + πg3 + πg4 = 1. Ce modèle suppose un effet 6 linéaire de l’épaisseur de muscle sur le logit généralisé des probabilités associées aux différentes modalités. 4 Mise en œuvre sous SAS: exemple ((carcasses)) La mise en œuvre a été réalisée sous SAS/Windows (version 8.2) avec la procédure utiliser d’autres procédures comme la procédure 4.1 LOGISTIC . On peut aussi CATMOD 7 . Lecture des données Le fichier de données est celui présenté dans le Tableau 4.1 auquel on a ajouté une variable supplémentaire, somme, qui correspond à la somme des effectifs par classe d’épaisseur de muscle. PGM Data Analyse; length Gene $3; input muscle somme @; do i=1 to 4; Gene=compress(’g’||i); input poids @; output; end; drop i; différentes modalités). Les déviances, estimations, résidus, nombre de paramètres sont identiques, seule l’interprétation des paramètres est différente. 6. c’est un abus de langage : il serait plus juste de dire que le logit généralisé est lié linéairement à l’épaisseur de muscle. Le terme effet sera employé dans la suite. Il doit être compris au sens statistique, mais pas au sens d’une interprétation causale. 7. c’est la procédure à utiliser avec la version 8.1. 130 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) datalines; 44.5 64 0 37 10 17 50.0 53 0 34 14 5 52.0 86 1 54 23 8 54.0 84 3 52 23 6 56.0 98 3 54 34 7 58.0 68 3 44 20 1 60.0 41 4 23 12 2 62.0 38 7 23 8 0 66.5 50 19 25 6 0 ; run; PGM L’effectif total par classe d’épaisseur de muscle varie de 38 (classe de centre 62.0) à 98 (classe de centre 56.0). Quatre cases de ce tableau ont un effectif nul 8 lié au caractère aléatoire de l’échantillonnage et à des probabilités faibles d’échantillonner des individus possédant ces caractéristiques. 4.2 Choix du modèle L’analyse des données commence par la visualisation des relations entre les proportions associées à chaque génotype et l’épaisseur de muscle. On visualise aussi la relation entre les logits généralisés des proportions et l’épaisseur de muscle, pour apprécier la vraisemblance de la linéarité de la liaison (linéarité ’supposée a priori par le modèle’). Les logits généralisés n’étant pas calculables pour des proportions égales à 0 ou 1, on utilise une expression 8. ces valeurs nulles résultent d’une taille d’échantillon petite et de probabilités faibles, elles sont à différencier des valeurs nulles liées aux cas impossibles (zéros structurels). Les premières peuvent être estimées par une probabilité différente de 0 alors que les secondes sont par définition égales à 0. 131 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) légèrement modifiée appelée logits empiriques 9 . PGM Data Analyse; set Analyse; proba=poids/somme; logitE=log((poids+.5)/(somme-poids+.5)); run; PGM La variable proba contient les proportions observées pour les différents types génétiques et les différentes classes d’épaisseur de muscle et la variable logitE, les valeurs du logit empirique. La Figure 4.2a donne une idée du type de relations entre les proportions observées des différentes modalités de la variable génotype et de l’épaisseur de muscle. Globalement, on peut noter que la proportion observée de carcasses de type g1 augmente avec l’épaisseur de muscle et que le phénomène est inverse pour la proportion de carcasses de type g4. Le type g2 semble assez stable et apparaît donc comme non lié à l’épaisseur de muscle. Enfin, la proportion de carcasses de type g3 passe par un maximum pour les classes centrales d’épaisseur de muscle (ce maximum correspond à des effectifs plus élevés pour ces classes d’épaisseur de muscle). Ces tendances se retrouvent sur le graphiques des logits empiriques (Figure 4.2b). Compte tenu de ces graphiques, on choisit le génotype g2 (25% piétrain) comme référence : c’est à la fois le génotype le plus fréquent (proportion supérieure à 0.5) et un génotype qui ne parait pas lié à une épaisseur de muscle particulière (Figure 4.2). Le modèle retenu est de la forme πj log πg2 = θj +βj x pour j = g1 , g3 , g4 (4.2) 9. les logits empiriques (logitE) sont ici définis par rapport à l’ensemble des modalités g1, g2, g3, g4 et non par rapport à la modalité g4. Ils sont obtenus en ajoutant 0.5 aux effectifs du numérateur et du dénominateur : n j + 0.5 π j + 0.5/n logitE(π j ) = log = log , pour j = g1 , g2 , g3 , g4 . n − n j + 0.5 1 − π j + 0.5/n 132 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) (a) (b) F IG . 4.2: Exemple ’carcasse’ : vérification a priori de la linéarité de l’effet épaisseur de muscle : (a) proportions en fonction de l’épaisseur de muscle; (b) logit empirique en fonction de l’épaisseur de muscle avec π j la probabilité associée au type génétique j. 4.3 Estimation Par défaut, c’est la dernière modalité de la variable à expliquer qui est choisie comme référence pour la définition des logits généralisés. On peut cependant choisir une autre modalité en utilisant l’option ref= dans l’instruction model. La fonction de lien à utiliser est indiquée avec l’option link=glogit. L’instruction output out= indique à SAS de construire une table avec les valeurs prédites (Prob=) et les bornes de l’intervalle de confiance (lower= et upper=). Cette table sera utilisée plus loin. PGM Proc logistic data=Analyse; 133 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) freq poids; model Gene(ref="g2" order=data)= Muscle/ link=glogit corrb; output out=Pred(where=(Gene=_LEVEL_)) Prob=Pred lower=inf upper=sup; run; PGM La sortie de SAS est découpée en plusieurs objets que l’on retrouve dans la fenêtre Résultats. Le premier objet a comme intitulé Model Information (objet : ModelInfo). Il fournit des informations globales sur la table utilisée, les variables qui entrent dans l’analyse, le lien utilisé (generalized logit) et la technique d’optimisation. Sortie The LOGISTIC Procedure Model Information Data Set WORK.ANALYSE Response Variable Gene Number of Response Levels 4 Number of Observations 32 Frequency Variable poids Sum of Frequencies 582 Model generalized logit Optimization Technique Fisher’s scoring Sortie Le nombre d’observations indiqué par SAS (ligne Number of Observations) est de 32. Ce chiffre correspond, pour notre exemple, au nombre de cases du tableau de données (Tableau 4.1) : 9 lignes × 4 colonnes = 36 moins les 4 cases d’effectif nul. Le nombre d’individus, ici le nombre de carcasses, est donné par la ligne Sum of Frequencies. L’objet suivant — Response Profile (objet : ResponseProfile) — donne les modalités et les fréquences de la variable réponse (Gene). Les modalités sont ici classées dans l’ordre de constitution de la table SAS (ce clas- sement est obtenu avec l’option order=data dans l’instruction model Gene(ref="g2" order=data)= ...). Sans cette option, les modalités sont classées par ordre alphabétique. 134 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) La modalité de référence est aussi rappelée : (g2). Sortie Response Profile Ordered Value Total Gene Frequency 1 g1 40 2 g2 346 3 g3 150 4 g4 46 Logits modeled use Gene=’g2’ as the reference category. NOTE: 4 observations having zero frequencies or weights were excluded since they do not contribute to the analysis. Sortie Une note rappelle que 4 des cases du tableau de données sont vides. Les logits généralisés utilisés ici sont log (πg1 /πg2 ), log (πg3 /πg2 ) et log (πg4 /πg2 ). L’objet suivant — Convergence Status (objet : ConvergenceStatus) — n’a que peu d’intérêt sauf lorsque la convergence n’est pas atteinte. Il indique que le processus itératif s’est bien déroulé. Dans certaines situations, la convergence n’est pas atteinte et on ne peut pas estimer les paramètres. Sortie Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Sortie 135 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Plus intéressant est l’objet suivant — Fit Statistics (objet : FitStatistics). Il donne 3 quantités qui permettent d’apprécier la qualité d’ajustement du modèle proposé par rapport au ’modèle nul’ (modèle sans aucune variable explicative, réduit au terme constant, en fait J −1 termes constants). La dernière valeur, (-2 Log L), correspond à la logvraisemblance du modèle avec et sans les variables explicatives. Les deux autres valeurs correspondent successivement au critère d’Akaike (AIC) et de Schwartz (SC). Le modèle nul (le plus simple) postule que les probabilités associées aux différents génotypes sont constantes, indépendantes de la classe d’épaisseur de muscle et égales aux proportions observées. Il s’écrit πj log πg2 = αj pour j = g1 , g3 , g4 Il a 3 paramètres αg1 , αg3 et αg4 et comme valeur −2LogL = 1214, 3 (colonne Intercept Only). Le modèle testé suppose un effet de l’épaisseur du muscle. Il s’écrit log πj πg2 = θj +βj x pour j = g1 , g3 , g4 Il a 6 paramètres θg1 , θg3 et θg4 , βg1 , βg3 et βg4 et une valeur de −2LogL = 1111, 357 (colonne Intercept and Covariates). La différence de −2LogL entre les 2 modèles est de 1214, 3 − 1111, 357 = 102.9433 pour 3 paramètres en plus dans le second modèle. Cette différence est hautement significative et indique qu’il y a bien un effet de l’épaisseur du muscle. Sortie Model Fit Statistics Intercept Criterion AIC Intercept and Only Covariates 1220.300 1123.357 136 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) SC 1233.399 1149.556 -2 Log L 1214.300 1111.357 Sortie Global Tests (objet : GlobalTests). Les tests proposés visent tous les trois à comparer le modèle candidat au modèle nul (test de l’hypothèse d’absence d’effet des variables explicatives). Le premier test, Likelihood Ratio, est un test du rapport de vraisemblance, le second est un test du score, et le dernier un test de Wald. Tous les trois sont significatifs (P < 0, 0001). Ces trois tests sont des test globaux (Testing Global Null Hypothesis: BETA=0) . Ils testent la significativité de l’ensemble des variables explicatives. Sortie Testing Global Null Hypothesis: BETA=0 Test Chi-Square Likelihood Ratio DF Pr > ChiSq 102.9433 3 <.0001 Score 93.9682 3 <.0001 Wald 78.7769 3 <.0001 Sortie Type III Test (objet : TypeIII). On retrouve le test de Wald vu précédemment. Si on avait plusieurs variables explicatives, on aurait autant de lignes que de variables. Sortie Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq muscle 3 78.7769 <.0001 Sortie 137 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Parameter Estimates (objet : ParameterEstimates). Cette partie de la sortie donne les valeurs des paramètres estimés et le test de Wald de la nullité de chaque paramètre. Sortie Analysis of Maximum Likelihood Estimates Parameter Gene Intercept Standard Wald DF Estimate Error Chi-Square Pr > ChiSq g1 1 -18.0521 2.3429 59.3672 <.0001 Intercept g3 1 -1.1170 1.0099 1.2232 0.2687 Intercept g4 1 6.5624 1.6225 16.3588 <.0001 muscle g1 1 0.2705 0.0381 50.3680 <.0001 muscle g3 1 0.00511 0.0183 0.0783 0.7796 muscle g4 1 -0.1631 0.0317 26.5427 <.0001 Sortie Dans notre modèle, on a 6 paramètres, soit : Intercept g1 : b θg1 = −18, 052, Intercept g3 : b θg3 = −1, 117, Intercept g4 : b θg4 = 6, 562, muscle g1 : b βg1 = 0, 270, muscle g3 : b βg3 = 0, 005, muscle g4 : b βg4 = −0, 163. Les paramètres b θg1 , b θg3 et b θg4 ne sont pas interprétables ici. Ils correspondent à une valeur de logit généralisé pour muscle=0 (valeur en dehors du domaine de validité du modèle). On verra plus loin que l’on peut interpréter ces paramètres lorsque l’on centre la variable explicative. 138 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Le paramètre b βg1 est significativement positif : cela signifie que la probabilité associée au génotype g1 ("Piétrain") augmente significativement avec l’épaisseur de muscle (ceci parce que la probabilité associée à la modalité de référence, "LargeWhite × Piétrain", ne varie pas avec l’épaisseur de muscle). Le paramètre b βg est 4 significativement négatif : la probabilité associée au génotype g4 ("LargeWhite × Landrace Français") diminue significativement avec l’épaisseur de muscle. Le paramètre b βg n’est pas significatif : la probabilité associée aux 3 génotypes "Pen-ar-Lan" est indépendante de l’épaisseur de muscle. On trouve ensuite dans la sortie la matrice de corrélation entre les paramètres — Correlation Matrix (objet : CorrB). Cette sortie est liée à l’option corrb de l’instruction model . . . . Sortie Estimated Correlation Matrix Intercept_ Intercept_ Intercept_ g1 g3 g4 muscle_g1 muscle_g3 muscle_g4 Intercept_g1 1.0000 0.1350 0.0236 -0.9968 -0.1346 -0.0195 Intercept_g3 0.1350 1.0000 0.1830 -0.1494 -0.9953 -0.1690 Intercept_g4 0.0236 0.1830 1.0000 -0.0286 -0.1825 -0.9949 muscle_g1 -0.9968 -0.1494 -0.0286 1.0000 0.1504 0.0247 muscle_g3 -0.1346 -0.9953 -0.1825 0.1504 1.0000 0.1701 muscle_g4 -0.0195 -0.1690 -0.9949 0.0247 0.1701 1.0000 Variable Sortie Les paramètres relatifs à un même type génétique, θ j et β j , sont fortement corrélés 10 . 4.4 Validation La représentation des proportions observées et des probabilités estimées montre que l’ajustement parait correct (Figure 4.3a). Les probabilités estimées sont calculées selon l’expression ci-dessous. 10. Cette corrélation diminue énormément si l’on centre la variable muscle. Les estimations des paramètres θ j et β j (intercept et pente pour un génotype) sont alors moins dépendantes l’une de l’autre, elles peuvent être interprétées indépendamment l’une de l’autre. Autrement dit, on peut interpréter indépendamment l’un de l’autre la pente et l’ordonnée au centre du domaine de variation du régresseur, mais pas la pente et l’ordonnée à l’origine. 139 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) 40 45 50 55 60 65 70 (a) (b) F IG . 4.3: Exemple ((carcasse)) : proportions associées aux différents génotypes, en fonction de l’épaisseur de muscle. Les courbes correspondent aux probabilités estimées sans (a) ou avec (b) les intervalles de confiance à 95%. b πj = exp(b θj +b β j x) exp(b θj +b β j x) = b b 1 + ∑h=g1 ,g3 ,g4 exp(θh + βh x) ∑h=g1 ,g2 ,g3 ,g4 exp(b θh + b βh x) (4.3) Le modèle prédit une décroissance de la probabilité d’avoir une carcasse de type g4 lorsque l’épaisseur de muscle augmente. Cette diminution s’accompagne d’une augmentation de la probabilité d’avoir une carcasse de type g1. Pour chacune des probabilités estimées, il est aussi possible de calculer un intervalle de confiance. La représentation des ces intervalles de confiance est donnée par la Figure 4.3b. 140 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) Les bornes de ces intervalles 11 sont donnés par les options lower= et upper= dans l’instruction output out=. PGM output out=Pred(where=(Gene=_LEVEL_)) Prob=Pred lower=inf upper=sup; PGM On peut aussi calculer des résidus de Pearson 12 e πj −b πj p b π j (1 − b π j )/n et les représenter en fonction du régresseur et/ou en fonction des probabilités prédites. La table utilisée, textttPred a été obtenue précédemment lors de l’exécution de la procédure LOGISTIC. PGM Data Pred; set Pred; ResiduStd=(Proba-Pred)/(sqrt(Pred*(1-Pred)/somme)); keep Muscle Gene Proba Pred ResiduStd Inf Sup; run; PGM Les deux représentations (Figure 4.4) confirment l’adéquation du modèle: les résidus sont répartis aléatoirement autour de zéro, avec une variance constante, sans structure particulière. 11. Les intervalles de confiance ainsi calculé sont symétriques. Il est préférable de baser la calcul des intervalles de confiance sur une approximation normale du prédicteur linéaire : les intervalles sont symétriques dans l’ échelle du prédicteur. En appliquant la fonction réciproque de la fonction de lien à la valeur prédite et aux bornes de l’intervalle de confiance, on obtient des intervalles de confiance disymétriques. 12. b π j sont les probabilités estimées et e π j sont les proportions observées. 141 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) (a) (b) F IG . 4.4: Exemple ((carcasse)) : résidus de Pearson en fonction (a) de l’épaisseur de muscle; (b) des probabilités prédites. 142 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) 4.5 Interprétation Les valeurs prédites sont contenues dans la table Pred ainsi que les bornes des intervalles de confiance à 95%. PGM Proc print data=Pred noobs; var muscle Gene Pred; run; PGM Pour chaque classe d’épaisseur de muscle, le modèle fournit les probabilités, pour une carcasse, d’appartenir à l’un ou l’autre des génotypes. Ainsi, pour une carcasse dont l’épaisseur de muscle est inférieure à 49mm, la probabilité d’être du génotype g1 est de 0,00127, du génotype g2 de 0,55275, du génotype g3 de 0,21478 et du génotype g4 de 0,26120. Autrement dit, pour une épaisseur de muscle inférieure à 49mm, on a une probabilité d’environ 50% d’être en présence d’une carcasse de type g2 pour environ 25% que ce soit une carcasse de type g3 ou g4, et très peu de chance que ce soit une carcasse de type g1 (mais ce n’est pas impossible 13 ). Sortie ------------------------------------------------Gene ------------------------------------------------------g1 g2 g3 g4 ------------------------------------------------------muscle ------------------------------------------------------44.5 0.0013 0.5228 0.2148 0.2612 ------------------------------------------------------50 0.0066 0.6108 0.2581 0.1245 ------------------------------------------------------52 0.0116 0.6279 0.2681 0.0924 ------------------------------------------------------54 0.0203 0.6372 0.2748 0.0676 ------------------------------------------------------56 0.0349 0.6382 0.2781 0.0489 ------------------------------------------------------13. Dans l’échantillon de départ, on n’a aucune carcasse de ce type: effectif=0. 143 Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.) 58 0.0591 0.6292 0.2770 0.0348 ------------------------------------------------------60 0.0980 0.6076 0.2702 0.0242 ------------------------------------------------------62 0.1578 0.5698 0.2560 0.0164 ------------------------------------------------------66.5 0.3883 0.4151 0.1908 0.0057 ------------------------------------------------------Sortie L’interprétation de ces valeurs ponctuelles est à nuancer par les intervalles de confiance. 5 Récapitulatif des commandes Proc logistic data=Analyse; freq poids; model Gene(ref="g2" order=data)= Muscle/ link=glogit corrb; output out=Pred(where=(Gene=_LEVEL_)) Prob=Pred lower=inf upper=sup; run; 144 Régression logistique avec la procédure LOGISTIC (Brun, T.) Chapitre 5 Régression logistique avec la procédure LOGISTIC Brun, T. ACTA Informatique 149, rue de Bercy - 75595 Paris Cedex 12 [email protected] 1 Les données utilisées Les données que nous allons utiliser proviennent d’un essai zootechnique réalisé dans des élevages bovins conventionnels inscrits au Contrôle laitier dans le sud-ouest de la France 1 . Pour étudier l’incidence de l’apport quotidien de méthionine protégée (14 g/VL/jour) sur les performances de production laitière 121 élevages ont été suivis pendant 4 mois consécutifs dans la période allant de novembre 1997 à mars 1998. Les élevages ont été répartis par tirage au sort en deux groupes. Les éleveurs d’un groupe distribuent de la méthionine en complément de la ration habituellement utilisée dans l’élevage; les éleveurs de l’autre groupe, qui sert de témoin, se contentent de distribuer la ration habituellement utilisée dans l’élevage. 1. Ces données sont la propriété de l’Institut de l’Élevage. 145 Régression logistique avec la procédure LOGISTIC (Brun, T.) Dans la suite de ce document nous nous intéresserons uniquement à l’évolution du taux protéique après 30 jours d’administration de la méthionine. Cette différence entre taux moyen de l’élevage après 30 jours et taux moyen au démarrage de l’essai sera désormais appelée (( delta TP )) et notée ∆TP. Nous chercherons à expliquer une variable binaire qui vaut 1 si le ∆TP de l’élevage est supérieur à 1, 7 g et 0 sinon. Cette valeur de 1, 7 g correspond à un seuil économique intéressant pour l’élevage. Le tableau croisé entre la variable ∆TP et le traitement figure ci-dessous (tableau 5.1, page 146). Delta TP à 30 jours Traitement ∆TP ≤ 1,7 ∆TP > 1,7 Méthionine 29 32 61 Témoin 46 14 60 Total 75 46 121 Total TAB . 5.1: Croisement entre ∆TP et traitement Les vingt variables potentiellement explicatives dont on va étudier l’influence sur l’évolution du taux protéique sont présentées ci-après (tableau 5.2, page 147). La première partie du chapitre (§ 2) présente l’utilisation de la régression logistique pas à pas pour sélectionner un groupe de variables explicatives parmi ces 20 variables. La seconde partie du chapitre (§ 3) présente l’étude du pouvoir explicatif du modèle sélectionné lors de la première partie par la régression logistique pas à pas. Le modèle étudié sera alors le suivant: P(∆TP > 1,7 | X) log P(∆TP ≤ 1,7 | X) p = β0 + ∑ βj Xj où p ≤ 20 j=1 Dans les deux parties les analyses seront réalisées par la procédure LOGISTIC de la version 8.2 du logiciel SASr . 146 Régression logistique avec la procédure LOGISTIC (Brun, T.) Variable Description DensitePDIE Densité PDIE dans la ration de base (g PDIE / kg MS) DensitePDIN Densité PDIN dans la ration de base (g PDIN / kg MS) DensiteUFL Densité énergétique dans la ration de base (UFL / kg MS) EnsilageHerbe Ensilage d’herbe (% MS) EnsilageMais Ensilage de maïs (% MS) Foin Foin (% MS) Fibro Part de concentré dans la matière sèche (% MS) Base % de concentrés fermiers CLysine % Lysine digestible apportée par les concentrés CMethionine % Méthionine digestible apportée par les concentrés ApportLysine Apport moyen en Lysine digestible (% PDIE) ApportMethionine Apport moyen en Méthionine digestible (% PDIE) MStotale Apport total de matière sèche (kg MS / VL / j) NoteIngestion Note d’ingestion (0 à 20) Traitement Apport de méthionine (0 = non / 1 = oui) ETroupeauLB Effet troupeau Lait brut (campagne 1997) ETroupeauTP Effet troupeau Taux protéique (campagne 1997) DeltaLB Accroissement du lait pendant les 30 premiers jours (kg / VL / j) StadeLactation Stade moyen de lactation du troupeau (j) TPinitial Taux protéique initial moyen de troupeau TAB . 5.2: Variables explicatives 2 2.1 La régression stepwise avec la procédure LOGISTIC Le programme SAS Le programme ci-après (tableau 5.3, page 149) utilise la procédure LOGISTIC [29] du logiciel SASr avec une méthode pas à pas pour rechercher les variables explicatives parmi les variables décrites dans le tableau 5.2. Pour utiliser la procédure LOGISTIC il est nécessaire que la variable à expliquer DeltaTP, la variable réponse, 147 Régression logistique avec la procédure LOGISTIC (Brun, T.) soit codée sous une forme binaire et que les variables explicatives soient des variables numériques. Or dans la table des données initiale la variable DeltaTP est une variable continue qui contient les valeurs des écarts en TP et la variable Groupe qui indique s’il y a utilisation du complément en méthionine sur l’élevage est une chaîne de caractères à deux modalités "Méthionine" et "Témoin". Les deux étapes — procédure FORMAT et étape DATA — qui précèdent la procédure LOGISTIC servent à mettre les données sous une forme utilisable par cette procédure. La procédure FORMAT [26] crée deux formats, un format de lecture Trait avec l’instruction INVALUE et un format d’écriture DeltaTP avec l’instruction VALUE. Lors de l’étape DATA [27] le format de lecture Trait permet de créer une variable numérique binaire Traitement à partir de la variable chaîne de caractère Groupe. Cette variable numérique pourra être utilisée comme variable explicative par la procédure LOGISTIC 2 Le format d’écriture DeltaTP permet de considérer la variable continue DeltaTP comme une variable binaire dans la procédure LOGISTIC à l’aide de l’instruction FORMAT DeltaTP DeltaTP. 3 . 2. La contrainte de la création d’une variable numérique binaire Traitement à partir de la variable Groupe a été levée à partir de la version 8 de SASr . Depuis cette version la nouvelle instruction CLASS permet de travailler directement avec la variable Groupe. Le programme du tableau 5.3 peut alors être remplacé par le programme équivalent: PROC FORMAT ; VALUE DeltaTP RUN ; LOW-1.7="0" 1.7<-HIGH="1" ; PROC LOGISTIC DATA=L.DeltaTP DESCENDING ; CLASS Groupe ; MODEL DeltaTP = DensitePDIE DensitePDIN DensiteUFL EnsilageHerbe EnsilageMais Foin Fibro Base CLysine CMethionine ApportLysine ApportMethionine MStotale NoteIngestion Groupe ETroupeauLB ETroupeauTP DeltaLB StadeLactation TPinitial / SELECTION=STEPWISE SLE=0.15 SLS=0.15 DETAILS ; FORMAT DeltaTP DeltaTP. ; RUN ; Avec l’instruction CLASS, c’est par défaut la plus petite valeur de la variable qualitative qui est prise comme modalité d’intérêt. Dans notre cas ce sera bien la modalité souhaitée de la variable Groupe c’est-à-dire la valeur "Méthionine". Il est possible de modifier ce choix par défaut en utilisant l’option la plus appropriée parmi les options DESCENDING, ORDER ou REF= de l’instruction CLASS. 3. En l’absence de l’instruction FORMAT DeltaTP DeltaTP. la procédure LOGISTIC ajusterait un modèle en logits cumulés où chaque valeur distincte de la variable continue DeltaTP serait considérée comme une modalité d’une variable qualitative. 148 Régression logistique avec la procédure LOGISTIC (Brun, T.) * Définition du format associé à la variation de TP ; PROC FORMAT ; INVALUE Trait "Méthionine"=1 "Témoin"=0 ; VALUE DeltaTP LOW-1.7="0" 1.7<-HIGH="1" ; RUN ; * Génération de l’indicatrice de traitement ; DATA DeltaTP ; SET L.DeltaTP ; Traitement=INPUT(Groupe,Trait.) ; RUN ; PROC LOGISTIC DATA=DeltaTP DESCENDING ; MODEL DeltaTP = DensitePDIE DensitePDIN DensiteUFL EnsilageHerbe EnsilageMais Foin Fibro Base CLysine CMethionine ApportLysine ApportMethionine MStotale NoteIngestion Traitement ETroupeauLB ETroupeauTP DeltaLB StadeLactation TPinitial / SELECTION=STEPWISE SLE=0.15 SLS=0.15 DETAILS ; FORMAT DeltaTP DeltaTP. ; RUN ; TAB . 5.3: Code SAS – Procédure LOGISTIC (( stepwise )) L’utilisation de l’option DESCENDING dans l’instruction PROC LOGISTIC est nécessaire pour prédire la valeur la plus élevée, soit la valeur 1, de la variable DeltaTP. Le modèle ajusté est alors le suivant: p P(∆TP > 1,7 | X) log = β0 + ∑ βj Xj P(∆TP ≤ 1,7 | X) j=1 Par défaut la procédure LOGISTIC privilégie la plus petite valeur de la variable à expliquer. En l’absence de l’option DESCENDING la procédure modéliserait la probabilité que la variable DeltaTP soit égale à 0; soit le modèle: P(∆TP ≤ 1,7 | X) log P(∆TP > 1,7 | X) p = β0 + ∑ βj Xj j=1 Les signes des coefficients estimés seraient alors inversés. L’option SELECTION=STEPWISE de l’instruction MODEL précise la méthode de régression pas à pas souhaitée, ici la méthode (( stepwise )). La procédure commence par ajuster un modèle avec la seule constante β0 , cette étape est appelée étape 0. 149 Régression logistique avec la procédure LOGISTIC (Brun, T.) A l’étape suivante, dite étape 1, la variable la plus explicative en présence de la constante est introduite. Le processus d’introduction se poursuit de la même manière au fil des étapes; à une étape donnée la procédure LOGISTIC introduit la variable la plus explicative en présence des variables introduites à l’étape précédente. Le processus d’introduction des variables est ascendant, il est le même que celui de la méthode ascendante, qui peut être demandée par l’option SELECTION=FORWARD. Les deux méthodes diffèrent toutefois. La méthode ascendante ne remet jamais en cause la présence d’une variable dans le modèle, une fois introduite une variable y reste. En revanche la méthode (( stepwise )) remet en cause la présence d’une variable. A une étape donnée, après avoir introduit la variable la plus explicative en présence des variables introduites à l’étape précédente, la procédure LOGISTIC vérifie s’il n’y a pas de variables sans pouvoir explicatif dans le nouvel ensemble de variables explicatives. Un processus d’élimination descendant est alors utilisé. Il est le même que celui de la méthode descendante, qui peut être demandée par l’option SELECTION=BACKWARD. Si certaines variables n’ont plus de pouvoir explicatif, la variable la moins explicative parmi celles-ci est retirée du modèle. Ce processus d’élimination peut se poursuivre ; une autre variable peut être retirée du nouvel ensemble selon le même principe. Une étape de la méthode (( stepwise )) peut donc conduire à un modèle avec moins de variables que le modèle de l’étape précédente. Le processus (( stepwise )) s’arrête si la procédure LOGISTIC ne trouve plus de variable ayant un pouvoir explicatif à introduire ou si la variable candidate à l’introduction est la seule éliminée par le processus d’élimination (on est en présence d’une boucle sans fin). Les options SLENTRY et SLSTAY (abrégées dans le programme du tableau 5.3 par SLE et SLS) servent à donner les seuils en terme de probabilité pour introduire une variable explicative (option SLENTRY=) ou enlever une variable explicative (option SLSTAY=). Ce sont les valeurs de ces options qui permettent à la procédure de décider si une variable a un pouvoir explicatif. Le test du score ((( Score Test ))) sur les variables non encore introduites dans le modèle est utilisé pour décider de l’introduction d’une variable. Le test de Wald sur le coefficient de la variable est utilisé pour décider de l’élimination d’une variable. Par défaut les deux seuils utilisés par l’instruction MODEL sont à 0.05 c’est-à-dire à la probabilité de 5 %. L’option DETAILS demande des sorties détaillées à chaque étape du processus pas à pas 4 . 4. En l’absence de cette option DETAILS la procédure LOGISTIC ne produit que les tableaux Model Fit Statistics, Testing Global Null Hypothesis: BETA=0 et Residual Chi-Square Test. 150 Régression logistique avec la procédure LOGISTIC (Brun, T.) 2.2 Les sorties de la procédure LOGISTIC La procédure LOGISTIC précise d’abord qu’elle est la modalité d’intérêt de la variable DeltaTP, d’où le message ci-dessous: Probability modeled is DeltaTP=’1’. qui permet de vérifier que la modalité d’intérêt est bien celle attendue. La procédure LOGISTIC sort ensuite un état pour chaque étape du processus pas à pas (§ 2.2 et 2.2). Enfin, lorsque la procédure ne trouve plus de variable explicative à introduire, elle produit en complément un tableau récapitulatif des variables retenues aux différentes étapes (§ 2.2). L’étape 0 La première partie des sorties est l’étape 0, libellée Step 0 dans les sorties de la procédure. Elle correspond au modèle avec uniquement la constante β0 appelée Intercept, d’où le titre ci-dessous: Step 0. Intercept entered: Les sorties de cette étape 0 sont plus réduites que celles des autres étapes. L’estimation β̂0 (-0,4888) du coefficient β0 figure dans la colonne Estimate du tableau Analysis of Maximum Likelihood Estimates (tableau 5.4, page 152). L’écart type de l’estimation figure dans la colonne Standard Error. La statistique de Wald permettant le test à zéro du coefficient figure dans la colonne Wald Chi-Square; la probabilité du test se trouvant dans la colonne Pr >ChiSq. On rejette l’hypothèse de nullité quand la probabilité est petite; ce qui est le cas (0,0090) dans le tableau 5.4. Tester β0 = 0 revient à tester que le pourcentage d’élevages ayant un ∆TP > 1,7 est égal au pourcentage d’élevages ayant un ∆TP ≤ 1,7. 151 Régression logistique avec la procédure LOGISTIC (Brun, T.) Analysis of Maximum Likelihood Estimates Parameter Intercept DF Estimate Standard Error Wald Chi-Square Pr > ChiSq 1 -0.4888 0.1873 6.8136 0.0090 TAB . 5.4: Etape 0 – Estimateurs du maximum de vraisemblance Le tableau Residual Chi-Square Test (tableau 5.5, page 152) permet de décider s’il y a des variables significativement explicatives parmi les p variables potentiellement explicatives qu’il reste à introduire dans le modèle. Residual Chi-Square Test Chi-Square DF Pr > ChiSq 44.9164 20 0.0011 TAB . 5.5: Etape 0 – Test du Khi-deux résiduel Il présente le test de l’hypothèse H0 : β1 = β2 = · · · = βp = 0, c’est-à-dire (( les coefficients de toutes les variables explicatives sont nuls )), contre l’hypothèse H1 : ∃ j , βj 6= 0, c’est-à-dire (( il existe au moins une variable explicative qui a un coefficient non nul )). La statistique utilisée, appelée khi-deux résiduel, est une statistique de score calculée à partir des dérivées partielles du logarithme de la vraisemblance. Elle suit une loi du khi-deux à p degrés de liberté (ici p=20) sous l’hypothèse H0 . Son estimation figure dans la colonne Chi-Square. On rejette l’hypothèse H0 de nullité quand la probabilité du test se trouvant dans la colonne Pr>ChiSq est petite; ce qui est le cas (0,0011) dans le tableau 5.5. Le tableau libellé Analysis of Effects Not in the Model (tableau 5.6, page 153) donne un test du pouvoir explicatif de chaque variable explicative ne figurant pas encore dans le modèle. Pour une variable donnée, c’est-à-dire une ligne du tableau, une statistique de score est obtenue en comparant le khi-deux résiduel du modèle comprenant cette variable et les variables déjà présentes à l’étape précédente et le khi-deux résiduel du modèle avec uniquement les variables déjà présentes à l’étape précédente. Cette statistique suit une loi du khi-deux à 1 degré de liberté sous l’hypothèse H0 de nullité du coefficient de la variable ajoutée. Son estimation figure dans la colonne Score Chi-Square. On rejette l’hypothèse H0 de nullité 152 Régression logistique avec la procédure LOGISTIC (Brun, T.) quand la probabilité du test se trouvant dans la colonne Pr >ChiSq est petite. Analysis of Effects Not in the Model DF Score Chi-Square Pr > ChiSq DensitePDIE 1 0.8106 0.3680 DensitePDIN 1 0.5503 0.4582 DensiteUFL 1 4.8940 0.0269 EnsilageHerbe 1 4.2214 0.0399 EnsilageMais 1 5.0846 0.0241 Foin 1 1.2251 0.2684 Fibro 1 0.0027 0.9588 Base 1 0.2952 0.5869 CLysine 1 0.7077 0.4002 CMethionine 1 0.3688 0.5437 ApportLysine 1 0.9542 0.3286 ApportMethionine 1 0.0077 0.9303 MStotale 1 2.5063 0.1134 NoteIngestion 1 4.3983 0.0360 Traitement 1 10.8893 0.0010 ETroupeauLB 1 1.2738 0.2591 ETroupeauTP 1 6.1019 0.0135 DeltaLB 1 2.3202 0.1277 StadeLactation 1 0.0145 0.9042 TPinitial 1 5.3801 0.0204 Effect TAB . 5.6: Etape 0 – Critères absents du modèle A l’étape 0 ce tableau présente donc à chaque ligne une comparaison entre le modèle avec la variable de la ligne et la constante et le modèle avec la seule constante. Sur le tableau 5.6 de la page 153 on peut voir que la variable Traitement va être introduite à l’étape suivante car elle est celle qui a la plus grande valeur de khi-deux (10,8893) et la probabilité (0,0010), qui est donc la plus petite, est inférieure au seuil SLENTRY utilisée par la procédure LOGISTIC. C’est la variable la plus (( corrélée )) à la probabilité d’avoir un ∆TP > 1,7. 153 Régression logistique avec la procédure LOGISTIC (Brun, T.) L’étape 1 L’étape 1, libellée Step 1, correspond au modèle de l’étape 0 avec en plus la variable Traitement, d’où le titre ci-dessous: Step 1. Effect Traitement entered: A partir de l’étape 1 on trouve, en plus des tableaux déjà vus à l’étape 0, de nouveaux tableaux dans les sorties de la procédure LOGISTIC. Le tableau Testing Global Null Hypothesis: BETA=0 (tableau 5.7, page 154) donne un test global du modèle. L’hypothèse nulle est que toutes les variables explicatives ont des coefficients égaux à 0. Rejeter cette hypothèse revient à conclure qu’il y a au moins un coefficient non nul, donc que le modèle a un pouvoir explicatif. Dans le cas particulier de l’étape 1 ce test est identique à celui de la ligne Traitement du tableau Analysis of Effects Not in the Model de l’étape 0 (tableau 5.6, page 153). On retrouve donc la même valeur (10,8893) à la ligne libellée Score du tableau 5.7: Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 11.1140 1 0.0009 Score 10.8893 1 0.0010 Wald 10.4405 1 0.0012 TAB . 5.7: Etape 1 – Test global du modèle En plus du test du score deux autres tests asymptotiquement équivalents sont proposés. Le test du rapport des vraisemblances est à la ligne libellée Likelihood Ratio et le test de Wald est à la ligne libellée Wald. Le schéma ci-après (figure 5.1, page 155), où L désigne la vraisemblance, illustre ces 3 tests: Le test du rapport des vraisemblances compare la vraisemblance maximale, c’est-à-dire calculée en β̂1 , à la vraisemblance calculée sous l’hypothèse nulle, c’est-à-dire calculée en β1 = 0. 154 Régression logistique avec la procédure LOGISTIC (Brun, T.) log L(ȕ) rapport des vraisemblances test du score 0 ȕ ȕ̂ 1 Wald F IG . 5.1: Etape 1 – 3 tests possibles Le test du score travaille sur une dérivée partielle de la log-vraisemblance donc si la pente en β1 = 0 est nulle on peut considérer la vraisemblance comme maximale en ce point. Le test de Wald teste l’hypothèse H0 : β1 = 0 en utilisant une approximation normale pour la loi de β1 sous l’hypothèse H0 . C’est donc un résultat asymptotique : β̂1 σ(β̂1 ) ∼ χ2 (1) Le tableau libellé Model Fit Statistics (tableau 5.8, page 156) donne le critère d’Akaike (ligne AIC), le critère de Schwarz (ligne SC) et le logarithme de la vraisemblance multiplié par -2 (ligne -2 Log L). Les critères AIC et SC sont tous deux construits à partir du logarithme de la vraisemblance. Ils sont calculés à partir des formules: • critère d’Akaike: AIC = −2 log L + 2 k 155 Régression logistique avec la procédure LOGISTIC (Brun, T.) Model Fit Statistics Intercept Only Intercept and Covariates AIC 162.723 153.609 SC 165.519 159.201 -2 Log L 160.723 149.609 Criterion TAB . 5.8: Etape 1 – Critères d’ajustement où k est le nombre de paramètres estimés (k=p+1), • critère de Schwarz: SC = −2 log L + k log (n) où k est le nombre de paramètres estimés (k=p+1) et n l’effectif de l’échantillon. Dans les deux cas le logarithme de la vraisemblance est d’autant plus pénalisé qu’il y a de paramètres dans le modèle. On choisira le modèle qui a le plus petit critère. La colonne Intercept and Covariates donne les critères du modèle tandis que la colonne Intercept Only donne les critères calculés pour le modèle avec la seule constante. Le tableau libellé Analysis of Maximum Likelihood Estimates (tableau 5.9, page 156) donne, comme dans l’étape 0, les estimations des paramètres βi du modèle et les tests de ces paramètres à 0. Analysis of Maximum Likelihood Estimates DF Estimate Standard Error Wald Chi-Square Pr > ChiSq Intercept 1 -1.1896 0.3052 15.1888 <.0001 Traitement 1 1.2880 0.3986 10.4405 0.0012 Parameter TAB . 5.9: Etape 1 – Estimateurs du maximum de vraisemblance Le tableau Analysis of Maximum Likelihood Estimates est complété par le tableau libellé Odds Ratio Estimates (tableau 5.10, page 157). 156 Régression logistique avec la procédure LOGISTIC (Brun, T.) La valeur 3,626 figurant dans la colonne Point Estimate du tableau 5.10 est l’exponentielle de l’estimation 1,2880 qui figure dans le tableau 5.9. Odds Ratio Estimates Effect Traitement Point Estimate 3.626 95% Wald Confidence Limits 1.660 7.919 TAB . 5.10: Etape 1 – Odds ratios estimés P (∆TP > 1,7 | X) = β0 + β1 X1 où X1 (ici la variable Traitement) P (∆TP ≤ 1,7 | X) est une variable binaire, un facteur de risque, dont la modalité à risque est 1. On ajuste donc le logarithme d’un Le modèle ajusté à cette étape est log odds. L’odds ratio est le rapport entre l’odds avec 1 comme modalité à risque et l’odds avec 0 comme modalité à risque. Le logarithme de l’odds ratio vaut β1 comme la différence entre β0 + β1 X1 pour X1 = 1 et β0 + β1 X1 pour X1 = 0. En passant à l’exponentielle on obtient une estimation de l’odds ratio à partir de l’estimation de β1 . Le risque d’avoir un ∆TP supérieur à 1, 7 g en présence de la modalité 1 de la variable Traitement est 3,626 plus important que le risque d’avoir un ∆TP supérieur à 1, 7 g en présence de la modalité 0 de la variable Traitement. Lorsque la variable explicative Xi n’est pas une variable binaire mais une variable continue l’odds ratio estimé correspond au rapport de risque pour un accroissement d’une unité de la variable explicative. Pour avoir l’odds ratio correspondant à un accroissement de c unités, on élève la valeur du tableau à la puissance c. Lorsque la variable est nominale à plus de deux modalités, la procédure permet de paramétrer le facteur de risque de plusieurs façons pour une même modalité à risque. Ces différentes options sont trop longues à détailler dans le cadre de ce document. On consultera donc la documentation de la procédure LOGISTIC [29] et les exemples qui y figurent pour interpréter l’odds ratio dans ce cas. Le tableau Analysis of Effects in Model (tableau 5.11, page 158), qui se trouve entre le tableau Residual Chi Square Test et le tableau Analysis of Effects Not in the Model, donne le test de Wald qui permet de conclure 157 Régression logistique avec la procédure LOGISTIC (Brun, T.) que la variable potentiellement explicative Traitement peut rester dans le modèle. Analysis of Effects in Model Effect Traitement DF Wald Chi-Square Pr > ChiSq 1 10.4405 0.0012 TAB . 5.11: Etape 1 – Critères présents dans le modèle C’est la conclusion de la partie (( backward )) de l’étape. Enfin le tableau Analysis of Effects Not in the Model (tableau 5.12, page 159) permet de voir que la variable ETroupeauTP va être introduite à l’étape suivante. Le tableau récapitulatif Toutes les étapes produisent des états de sortie comparables à ceux de l’étape 1. Lorsque la sélection des variables explicatives est terminée la procédure LOGISTIC indique qu’il n’y a plus de variable significativement explicative à ajouter par un message du type: No (additional) effects met the 0.15 significance level for entry into the model. Elle termine ses sorties par le tableau Summary of Stepwise Selection (tableau 5.13, page 160) qui résume les différentes étapes d’introduction des variables et donne les variables retenues dans le modèle. Ce tableau donne les 6 variables explicatives sélectionnées par le processus (( stepwise )). Les variables sont listées selon leur ordre d’introduction dans le modèle. La probabilité de la colonne Pr >ChiSq donne le degré de signification d’une variable ajustée de toutes celles qui la précèdent dans le modèle. Les sorties de la dernière étape (la sixième dans notre exemple) de la régression (( stepwise )) fournissent de nombreux indicateurs sur l’ajustement du modèle. Toutefois la procédure LOGISTIC offre d’autres options de l’instruction MODEL qui permettent d’affiner l’étude d’un modèle et de mieux juger de sa qualité de prédiction. 158 Régression logistique avec la procédure LOGISTIC (Brun, T.) Analysis of Effects Not in the Model DF Score Chi-Square Pr > ChiSq DensitePDIE 1 0.6833 0.4085 DensitePDIN 1 0.3890 0.5328 DensiteUFL 1 5.3270 0.0210 EnsilageHerbe 1 5.5695 0.0183 EnsilageMais 1 6.2189 0.0126 Foin 1 1.0355 0.3089 Fibro 1 0.0924 0.7612 Base 1 0.2518 0.6158 CLysine 1 1.1081 0.2925 CMethionine 1 0.7661 0.3814 ApportLysine 1 0.4990 0.4799 ApportMethionine 1 0.0186 0.8917 MStotale 1 4.2184 0.0400 NoteIngestion 1 3.4686 0.0625 ETroupeauLB 1 0.8872 0.3462 ETroupeauTP 1 7.0934 0.0077 DeltaLB 1 2.9645 0.0851 StadeLactation 1 0.0874 0.7675 TPinitial 1 3.0906 0.0787 Effect TAB . 5.12: Etape 1 – Critères absents du modèle Ces options produisent des sorties trop volumineuses pour qu’il soit pertinent de les utiliser systématiquement avec une méthode pas à pas. Nous allons donc nous intéresser dans la partie suivante du document aux sorties obtenues à l’aide de ces options sur le modèle retenu. 159 Régression logistique avec la procédure LOGISTIC (Brun, T.) Summary of Stepwise Selection Step Effect Entered DF Number In Score Chi-Square Wald Chi-Square Pr > ChiSq Removed 1 Traitement 1 1 10.8893 . 0.0010 2 ETroupeauTP 1 2 7.0934 . 0.0077 3 TPinitial 1 3 9.5797 . 0.0020 4 StadeLactation 1 4 9.3116 . 0.0023 5 NoteIngestion 1 5 5.8744 . 0.0154 6 EnsilageMais 1 6 3.5455 . 0.0597 TAB . 5.13: Tableau récapitulatif de la régression logistique (( stepwise )) 3 3.1 Le modèle final Les variables retenues Les six variables retenues pour expliquer que ∆TP soit supérieur à 1, 7 g sont listées ci-après (tableau 5.14, page 160). Variable Description EnsilageMais Ensilage de maïs (% MS) NoteIngestion Note d’ingestion (0 à 20) Traitement Apport de méthionine (0 = non / 1 = oui) ETroupeauTP Effet troupeau Taux protéique (campagne 1997) StadeLactation Stade moyen de lactation du troupeau (j) TPinitial Taux protéique initial moyen de troupeau TAB . 5.14: Variables explicatives retenues par la régression logistique (( stepwise )) 3.2 Le programme SAS La procédure LOGISTIC ci-après (tableau 5.15, page 161) permet l’étude détaillée du modèle retenu: 160 Régression logistique avec la procédure LOGISTIC (Brun, T.) * Etude du modèle final sur l’indicatrice de Delta TP > 1,7 g/kg ; PROC LOGISTIC DATA=DeltaTP DESCENDING ; MODEL DeltaTP = Traitement ETroupeauTP TPinitial StadeLactation NoteIngestion EnsilageMais / RSQUARE CLODDS=PL LACKFIT CTABLE PEVENT=0.233 OUTROC=Roc INFLUENCE IPLOTS ; UNITS Traitement=1 ETroupeauTP=SD TPinitial=SD StadeLactation=SD NoteIngestion=SD EnsilageMais=SD ; FORMAT DeltaTP DeltaTP. ; RUN ; TAB . 5.15: Code SAS – Procédure LOGISTIC finale 3.3 Les sorties de la procédure LOGISTIC Le coefficient R2 L’option RSQUARE de l’instruction MODEL (tableau 5.15, page 161) demande le calcul du coefficient R2 qui figure dans le tableau 5.17 (page 161). Dans les sorties ce tableau se trouve intercalé entre les tableaux Model Fit Statistics (tableau 5.16, page 161) et Testing Global Null Hypothesis: BETA=0 (tableau 5.18, page 162) comme on peut le voir ci-après. Model Fit Statistics Intercept Only Intercept and Covariates AIC 162.723 126.585 SC 165.519 146.156 -2 Log L 160.723 112.585 Criterion TAB . 5.16: Modèle final – Critères d’ajustement R-Square 0.3282 Max-rescaled R-Square TAB . 5.17: Modèle final – R2 161 0.4465 Régression logistique avec la procédure LOGISTIC (Brun, T.) Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 48.1378 6 <.0001 Score 40.1284 6 <.0001 Wald 28.4386 6 <.0001 TAB . 5.18: Modèle final – Test global du modèle Le coefficient R2 est un indicateur de qualité de prédiction du modèle, ce qui est différent des critères qui testent la qualité de l’ajustement du modèle. Il se calcule [?] à partir de la vraisemblance L (0) du modèle avec la seule constante et de la vraisemblance L β̂ du modèle étudié à l’aide de la formule: 2/n L (0) R2 = 1 − L β̂ où n désigne l’effectif de l’échantillon. Il est basé sur la statistique du khi-deux du rapport des vraisemblances donnée dans le tableau Testing Global Null Hypothesis: BETA=0 à la ligne Likelihood Ratio (ici 48,1378). En notant LR2 cette statistique on retrouve la valeur de R2 (ici 0,3282) donnée par la procédure LOGISTIC à l’aide de la formule : LR2 2 R = 1 − exp − n Ce coefficient R2 est homogène au coefficient R2 utilisé en régression linéaire qui se déduit des mêmes formules quand on utilise le maximum de vraisemblance. Toutefois le R2 de la régression logistique ne peut être interprété comme une part de variance expliquée par les variables du modèle et n’est pas borné par la valeur 1. 2/n La borne supérieure R2max vaut 1 − L (0) . On a: 2/n R2 ≤ R2max = 1 − L (0) <1 En divisant le coefficient R2 par sa borne supérieure R2max on obtient le coefficient R̃2 proposé par Nagelkerke [?], soit: R̃2 = R2 ≤1 R2max 162 Régression logistique avec la procédure LOGISTIC (Brun, T.) Ce coefficient R̃2 est appelé Max-rescaled R-Square dans les sorties de la procédure LOGISTIC. Intervalles de confiance des odds ratios L’option CLODDS=PL de l’instruction MODEL (tableau 5.15, page 161) demande le calcul d’intervalles de confiance pour les odds ratios. Ces intervalles présentés dans le tableau Profile Likelihood Confidence Interval for Adjusted Odds Ratios (tableau 5.20, page 164) sont différents de ceux produits par défaut dans le tableau Odds Ratio Estimates (tableau 5.19, page 163) car ils sont basés sur la vraisemblance (PL abrège Profile Likelihood) et non sur l’approximation de Wald. L’option CLODDS=WALD donnerait les intervalles obtenus par la méthode de Wald. Les odds ratios présents dans la colonne Estimate du tableau Profile Likelihood Confidence Interval for Adjusted Odds Ratios ne sont pas tous égaux à ceux du tableau Odds Ratio Estimates car ils ne sont pas tous calculés pour un accroissement d’une unité de la variable explicative mais pour l’accroissement déclaré dans la colonne Unit. Cet accroissement a été fixé par l’instruction complémentaire UNITS où le mot SD signifie un accroissement d’un écart type (SD pour Standard Deviation). Odds Ratio Estimates Effect Point Estimate 95% Wald Confidence Limits Traitement 3.321 1.294 8.523 ETroupeauTP 3.795 1.858 7.754 TPinitial 0.389 0.241 0.628 StadeLactation 1.021 1.005 1.039 NoteIngestion 0.844 0.733 0.971 EnsilageMais 1.022 0.998 1.046 TAB . 5.19: Modèle final – Odds ratios estimés On retrouve l’odds ratio du tableau Profile Likelihood Confidence Interval for Adjusted Odds Ratios en élevant l’odds ratio du tableau Odds Ratio Estimates à la puissance donnée par la colonne Unit. 163 Régression logistique avec la procédure LOGISTIC (Brun, T.) Profile Likelihood Confidence Interval for Adjusted Odds Ratios Effect Unit Estimate 95% Confidence Limits Traitement 1.0000 3.321 1.316 8.793 ETroupeauTP 0.9101 3.366 1.842 6.855 TPinitial 1.7261 0.196 0.079 0.422 StadeLactation 39.1897 2.302 1.230 4.607 NoteIngestion 3.5401 0.548 0.324 0.884 EnsilageMais 25.1619 1.726 1.003 3.297 TAB . 5.20: Modèle final – Intervalles de confiance des odds ratios On conclura donc que la probabilité d’avoir un ∆TP supérieur à 1, 7 g: c OR – est supérieure dans le groupe méthionine 3,321 – augmente avec l’effet troupeau 3,795 avec la part d’ensilage de maïs 1,022 avec le stade de lactation 1,021 quand le TP initial augmente 0,389 quand la note d’ingestion augmente 0,844 – diminue Qualité d’ajustement – Test de Hosmer et Lemeshow Les tests présentés dans le tableau Testing Global Null Hypothesis: BETA=0 permettent de décider si le modèle ajusté a un pouvoir explicatif ((( le modèle est-il significativement différent du modèle avec la seule constante ? ))) mais ne permettent pas de tester si le modèle s’ajuste correctement aux données ((( la différence entre la variable prédite et la variable observée est-elle significative? ))). Pour répondre à cette deuxième question on souhaite comparer la déviance du modèle ajusté à la déviance du modèle dit (( saturé )) qui explique parfaitement les données. Malheureusement ce test d’une différence de déviance à l’aide d’une loi du khi-deux n’a de sens que si on travaille sur des données agrégées. 164 Régression logistique avec la procédure LOGISTIC (Brun, T.) Dans le cas de données individuelles (en particulier dans le cas où certaines variables explicatives sont quantitatives) cette différence vaut -2 fois la log-vraisemblance du modèle ajusté car la log-vraisemblance du modèle saturé est nulle mais le test n’a pas de sens car la déviance ne suit pas une distribution du khi-deux. C’est pourquoi la procédure LOGISTIC n’associe pas de test dans le tableau Model Fit Statistics à la valeur –2 Log L qui correspond à la déviance du modèle étudié (112,585 dans le tableau 5.16 de la page 161). L’utilisation d’un khi-deux de Pearson pour comparer les valeurs observées et les probabilités prédites par le modèle n’a pas plus d’intérêt dans le cas des données individuelles car, comme la déviance, cette statistique ne suit pas une distribution du khi-deux. Dans le cas où toutes les variables explicatives sont qualitatives l’option AGGREGATE de l’instruction MODEL utilisée conjointement avec l’option SCALE= permet de calculer une déviance (et un khi-deux de Pearson) sur la table des données agrégées. Pour que ces statistiques soient utilisables il faut qu’il y ait des effectifs suffisants pour les différents profils issus du croisement des variables explicatives. Dans le cas où certaines variables explicatives sont quantitatives (ou dans le cas où il n’y a pas de répétition pour les profils issus du croisement de variables explicatives qualitatives), la seule possibilité pour tester la qualité de l’ajustement est le test de Hosmer et Lemeshow [17]. C’est l’option LACKFIT de l’instruction MODEL (tableau 5.15, page 161) qui demande le calcul de la statistique de Hosmer et Lemeshow. Ce test n’est utilisable que pour une variable réponse binaire ; il est construit selon le principe suivant. La probabilité π̂x de la modalité d’intérêt de la variable réponse binaire est estimée à partir du modèle pour chaque donnée individuelle. Toutes ces probabilités prédites sont ensuite ordonnées par valeur croissante et réparties en approximativement 10 groupes. La procédure essaie de construire des groupes d’effectif m = int 0,10 · n + 1 2 où int désigne la partie entière et n le nombre de données individuelles (ou observations). Les groupes ne sont pas tous exactement d’effectif m car n n’est pas obligatoirement un multiple de m et parce qu’on ne met pas dans plusieurs groupes des observations ayant un même profil sur toutes les variables explicatives. Le nombre minimal de groupes nécessaires pour construire la statistique de Hosmer et Lemeshow est 3. Pour chaque groupe i, on calcule l’effectif observé Oi et l’effectif attendu Ei pour la modalité d’intérêt de la variable réponse. L’effectif attendu du groupe Ei est la somme des probabilités estimées des observations de ce 165 Régression logistique avec la procédure LOGISTIC (Brun, T.) groupe. On compare la répartition observée et la répartition attendue par une statistique du khi-deux de Pearson χ2HL donnée par la formule : (Oi − Ei )2 i=1 ni π̄i (1 − π̄i ) g χ2HL = ∑ où g désigne le nombre de groupes, ni l’effectif du groupe i (ni ∼ = m), Oi l’effectif observé et Ei = ∑ π̂x = ni π̄i x∈i ! 1 l’effectif attendu π̄i = ∑ π̂x . ni x∈i La statistique χ2HL suit, sous l’hypothèse H0 d’adéquation entre les données observées et les données ajustées, une loi du khi-deux dont le nombre de degrés de liberté est le nombre de groupes diminué de 2, soit g-2. Ce résultat acquis par simulation n’est valable que s’il n’y a pas de répétition pour les profils issus du croisement de variables explicatives. Ce test d’ajustement est le seul disponible avec ce type de données ; il est donc souvent utilisé mais ne semble pas très puissant [4]. Les deux tableaux produits par l’option LACKFIT de l’instruction MODEL figurent ci-après. Le premier tableau est intitulé Partition for the Hosmer and Lemeshow Test (tableau 5.21, page 167). Il donne la répartition des observations dans les 10 groupes (colonne Group) dont les effectifs ni figurent dans la colonne Total. Les effectifs observés Oi (colonne Observed) et estimés Ei par le modèle (colonne Expected) utilisés pour le calcul de χ2HL figurent dans la partie DeltaTP = 1 qui correspond à la modalité d’intérêt de la variable réponse DeltaTP. Le second tableau est intitulé Hosmer and Lemeshow Goodness-of-Fit Test (tableau 5.22, page 167). Il donne l’estimation de la statistique χ2HL , le khi-deux de Hosmer et Lemeshow à 8 (10-2) degrés de liberté, qui vaut 8,9763 (colonne Chi-Square). La probabilité (colonne Pr >ChiSq) d’avoir un khi-deux supérieur à 8,9763 sous l’hypothèse d’adéquation entre les données observées et les données ajustées est suffisamment élevée (0,3443) pour qu’on ne rejette pas cette hypothèse H0 . 166 Régression logistique avec la procédure LOGISTIC (Brun, T.) Partition for the Hosmer and Lemeshow Test Group π̂x croissants y Total DeltaTP = 1 DeltaTP = 0 Observed Expected Observed Expected 1 12 0 0.36 12 11.64 2 12 0 0.75 12 11.25 3 12 1 1.48 11 10.52 4 12 4 2.33 8 9.67 5 12 3 2.93 9 9.07 6 12 5 4.07 7 7.93 7 12 8 6.10 4 5.90 8 12 4 7.34 8 4.66 9 12 10 9.04 2 2.96 10 13 11 11.59 2 1.41 TAB . 5.21: Modèle final – Partition pour le test de Hosmer et Lemeshow Hosmer and Lemeshow Goodness-of-Fit Test Chi-Square DF Pr > ChiSq 8.9763 8 0.3443 TAB . 5.22: Modèle final – Test de Hosmer et Lemeshow Qualité de classement L’option CTABLE de l’instruction MODEL (tableau 5.15, page 161) demande la sortie d’un tableau de classements. Ce tableau est construit selon le principe suivant. Pour chaque observation une probabilité de l’événement d’intérêt est prédite avec le modèle ajusté. Si cette probabilité prédite dépasse une probabilité seuil, l’observation est considérée comme ayant eu l’événement d’intérêt ((( event ))), sinon elle est considérée comme n’ayant pas eu l’événement d’intérêt ((( non event ))). En croisant les réponses observées et les réponses prédites, on obtient un tableau 2 x 2 d’effectifs à partir duquel on peut calculer des indicateurs de la qualité du classement. Ce sont les tableaux obtenus pour différentes valeurs de la probabilité seuil que produit l’option CTABLE. 167 Régression logistique avec la procédure LOGISTIC (Brun, T.) Dans notre exemple chaque élevage i a un profil xi sur les variables explicatives. A partir de ce profil on peut estimer à l’aide du modèle la probabilité π̂i pour l’élevage d’avoir un ∆TP supérieur à 1, 7 g; soit: e xi β̂ 0 π̂i = P̂ (∆TP > 1,7 | xi ) = 1 + e xi β̂ 0 Pour une probabilité seuil PS donnée, on utilise la règle de classement suivante: – si P̂ (∆TP > 1,7 | xi ) > PS , l’élevage est considéré comme ayant un ∆TP supérieur à 1, 7 g, – sinon l’élevage est considéré comme ayant un ∆TP inférieur ou égal à 1, 7 g. En réalité la procédure LOGISTIC n’utilise pas les probabilités π̂i calculées sur tous les élevages de l’étude car utiliser les mêmes observations pour ajuster le modèle et estimer l’erreur de classement conduit à des estimations biaisées des taux d’erreur de classement. La technique utilisée classiquement pour réduire ce biais consiste à ajuster le modèle sans l’observation dont on veut estimer la probabilité et à estimer ensuite la probabilité à l’aide de cette nouvelle estimation des paramètres du modèle. L’inconvénient de cette technique est la nécessité d’ajuster un modèle pour chaque observation ce qui peut être prohibitif en terme de temps de calcul. La procédure LOGISTIC contourne ce problème en calculant une estimation π̂∗i de la probabilité sans l’observation i à partir des paramètres du modèle ajusté sur toutes les observations. Ce sont ces probabilités estimées π̂∗i qui sont utilisées pour construire les tableaux produits par l’option CTABLE. Le tableau ci-après (tableau 5.23, page 168) donne le croisement de la répartition observée et de la répartition prédite pour une probabilité seuil PS égale à 0,50: Evénement prédit ∆TP > 1,7 ∆TP ≤ 1,7 Evénement ∆TP > 1,7 28 18 46 observé ∆TP ≤ 1,7 15 60 75 121 TAB . 5.23: Modèle final – Croisement entre répartition observée et répartition prédite De ce tableau d’effectifs il est possible déduire une sensibilité et une spécificité. 168 Régression logistique avec la procédure LOGISTIC (Brun, T.) La sensibilité S b est la capacité à prédire un événement d’intérêt correctement. C’est la probabilité que le modèle classe dans la catégorie (( ∆TP supérieur à 1, 7 g )) un élevage où a été observé un ∆TP supérieur à 1, 7 g; soit: S b = P (∆TP > 1,7 prédit | ∆TP > 1,7 observé ) S b est estimée par la proportion des élevages classés dans la catégorie ∆TP > 1,7 parmi ceux qui appartiennent à cette catégorie. La spécificité S p est la capacité à prédire l’absence de l’événement d’intérêt correctement. C’est la probabilité que le modèle classe dans la catégorie (( ∆TP inférieur ou égal à 1, 7 g )) un élevage où a été observé un ∆TP inférieur ou égal à 1, 7 g; soit: S p = P (∆TP ≤ 1,7 prédit | ∆TP ≤ 1,7 observé) S p est estimée par la proportion des élevages classés dans la catégorie ∆TP ≤ 1,7 parmi ceux qui appartiennent à cette catégorie. Les deux estimations figurent dans le tableau ci-après (tableau 5.24, page 169): Evénement prédit ∆TP > 1,7 ∆TP ≤ 1,7 Evénement ∆TP > 1,7 28 18 46 → Ŝ b = 28/46 = 60,9 % observé ∆TP ≤ 1,7 15 60 75 → Ŝ p = 60/75 = 80,0 % 121 TAB . 5.24: Modèle final – Estimation de la sensibilité et de la spécificité La procédure calcule également le taux de bien classés, le taux de faux positifs et le taux de faux négatifs 5 . Le taux de bien classés peut être estimé à partir des effectifs du tableau ci-dessus comme P̂BC = (28 + 60) /121 = 72,7 %. 5. La sensibilité est parfois notée 1 − β où β, appelée probabilité de faux négatif, est la probabilité qu’un événement d’intérêt observé sur un sujet ne soit prédit pas pour ce sujet [5]. La spécificité est parfois notée 1 − α où α, appelée probabilité de faux positif, est la probabilité qu’un événement d’intérêt soit prédit pour un sujet sur lequel il n’a pas été observé. On se gardera de confondre ces probabilités de faux négatif et de faux positif avec les taux de faux négatifs et de faux positifs proposés par la procédure LOGISTIC. Ce ne sont pas des estimations des mêmes probabilités. 169 Régression logistique avec la procédure LOGISTIC (Brun, T.) Le taux de faux positifs PF+ est la probabilité de trouver des élevages où a été observé un ∆TP inférieur ou égal à 1, 7 g parmi ceux que le modèle classe dans la catégorie (( ∆TP supérieur à 1, 7 g )) ; soit : PF+ = P (∆TP ≤ 1,7 observé | ∆TP > 1,7 prédit) La proportion des élevages de la catégorie ∆TP ≤ 1,7 parmi ceux qui sont classés dans la catégorie ∆TP > 1,7 calculée à partir des effectifs du tableau 5.24 donne comme estimation P̂F+ = 15/ (28 + 15) = 34,9 % . Le taux de faux négatifs PF− est la probabilité de trouver des élevages où a été observé un ∆TP supérieur à 1, 7 g parmi ceux que le modèle classe dans la catégorie (( ∆TP inférieur ou égal à 1, 7 g )) ; soit : PF− = P (∆TP > 1,7 observé | ∆TP ≤ 1,7 prédit) La proportion des élevages de la catégorie ∆TP > 1,7 parmi ceux qui sont classés dans la catégorie ∆TP ≤ 1,7 calculée à partir des effectifs du tableau 5.24 donne comme estimation P̂F− = 18/ (18 + 60) = 23,1 % . Les estimations calculées ci-dessus estiment des probabilités conditionnelles qui dépendent toutes de la probabilité d’observer un élevage avec un ∆TP > 1,7 dans la population de référence. Elles sont biaisées car elles sont calculées en utilisant comme estimation de la probabilité la proportion observée dans l’échantillon. Cette probabilité d’observer un élevage avec un ∆TP > 1,7 est appelée probabilité a priori ((( prior probability ))) dans la documentation SAS [29]. C’est sa valeur qui est déclarée par l’option PEVENT= de l’instruction MODEL. Quand l’option PEVENT= n’est pas précisée dans l’instruction MODEL la procédure LOGISTIC utilise la proportion observée dans l’échantillon; pour notre exemple elle utiliserait 46/121 = 38,0 % comme valeur de la probabilité a priori ce qui conduirait au tableau Classification Table ci-après (tableau 5.25, page 170). Classification Table Correct Incorrect Percentages Prob Level Event NonEvent Event NonEvent Correct Sensitivity Specificity False POS False NEG 0.500 28 60 15 18 72.7 60.9 80.0 34.9 23.1 TAB . 5.25: Modèle final – Tableau de classement avec probabilité a priori de 38 % La probabilité seuil PS utilisée (ici 50 %) est donnée dans la colonne Prob Level, les effectifs de bien classés figurent dans le groupe de deux colonnes libellé Correct, les effectifs de mal classés dans le groupe de deux 170 Régression logistique avec la procédure LOGISTIC (Brun, T.) colonnes libellé Incorrect. La colonne Event correspond à l’événement d’intérêt c’est-à-dire ∆TP > 1,7 et la colonne Non-Event à l’événement ∆TP ≤ 1,7. Les estimations des probabilités se trouvent dans le groupe de colonnes libellé Percentages. Le taux de bien classés se trouve dans la colonne Correct, la sensibilité dans la colonne Sensitivity, la spécificité dans la colonne Specificity, le taux de faux positifs dans la colonne False POS et le taux de faux négatifs dans la colonne False NEG. On retrouve bien dans le tableau 5.25 les valeurs calculées précédemment. Dans le cas de notre exemple la probabilité d’observer un élevage avec un ∆TP > 1,7 a été estimée sur les 60 élevages qui n’utilisent pas de complément en méthionine (les témoins). Ceci permet d’utiliser cette probabilité de 23,3 % (14/60) dans l’option PEVENT= de l’instruction MODEL (tableau 5.15, page 161). Cette option PEVENT=0.233 conduit au tableau Classification Table ci-après (tableau 5.26, page 171) où les estimations des taux de bien classés (75,5 %), de faux positifs (52,0 %) et de faux négatifs (12,9 %) sont différentes de celles du tableau 5.25 (page 170). La probabilité a priori utilisée figure dans la colonne supplémentaire libellée Prob Event qui a été ajoutée à la gauche du tableau 5.26. Classification Table Correct Incorrect Percentages Prob Event Prob Level Event NonEvent Event NonEvent Correct Sensitivity Specificity False POS False NEG 0.233 0.500 28 60 15 18 75.5 60.9 80.0 52.0 12.9 TAB . 5.26: Modèle final – Tableau de classement avec probabilité a priori de 23,3 % Ces estimations sont calculées à partir des formules des probabilités suivantes: PBC = S p (1 − π) + S b πb PF+ 1 − S p (1 − π) = 1 − Sp + Sb − 1 − Sp π PF− = (1 − S b ) π Sp − Sb − 1 − Sp π où π désigne la probabilité a priori P (∆TP > 1,7). 171 Régression logistique avec la procédure LOGISTIC (Brun, T.) Avec l’estimation π̂ = 14 60 46 28 14 on trouve bien P̂BC = · + · = 75,5 % comme estimation du taux de bien 60 75 60 46 60 classés. Le nombre de lignes du tableau Classification Table dépend du nombre de probabilités seuil PS que l’on souhaite examiner. La liste des valeurs de PS peut être imposée par l’option PPROB= de l’instruction MODEL. En imposant PPROB=0.5 on obtient une seule ligne de résultats de classement comme dans les deux tableaux listés ci-avant. Lorsque l’option PPROB= n’est pas utilisée la procédure va de la plus petite probabilité estimée à la plus grande probabilité estimée par pas de 0,02. C’est pourquoi le programme utilisé ici produit 50 lignes pour PS variant de 0,00 (probabilité estimée 0,0029) à 0,98 (probabilité estimée 0.9736) par pas de 0,02. Ces calculs effectués pour diverses probabilités seuil permettent de déterminer une valeur de probabilité seuil conduisant à une erreur de prédiction acceptable lorsqu’on utilise le modèle ajusté pour prédire si un nouvel élevage va avoir un ∆TP > 1,7 s’il utilise un complément en méthionine. L’outil d’aide pour ce choix de probabilité seuil est une représentation graphique, c’est la courbe ROC. La courbe ROC Le terme (( courbe ROC )) (de l’anglais (( Receiver Operating Characteristic ))) peut se traduire par courbe des caractéristiques d’efficacité. Il désigne une représentation graphique de la sensibilité en fonction de un moins la spécificité. Cette courbe permet d’étudier comment varie S b , la proportion d’événements d’intérêt prédits correctement, re lativement à 1 − S p , la proportion d’événements d’intérêt prédits à tort. On dit usuellement qu’elle représente la variation de la (( proportion de vrais positifs )) en fonction de la (( proportion de faux positifs )) 6 . L’option OUTROC= de l’instruction MODEL (tableau 5.15, page 161) demande la création d’une table SAS contenant les données permettant de construire une courbe ROC 7 . 6. Les termes (( proportion de vrais positifs )) et (( proportion de faux positifs )) utilisés ici n’ont pas le même sens que les taux de faux positifs et de faux négatifs estimés par la procédure LOGISTIC. Ils sont homogènes avec les définitions de la sensibilité et de la spécificité données dans la note 5, page 169. 7. Dans la version 8 de SASr la procédure LOGISTIC ne produit pas directement un graphique. Il est nécessaire d’utiliser la procédure GPLOT de SAS/GRAPHr sur la table de sortie produite par l’option OUTROC de l’instruction MODEL de la procédure LOGISTIC pour obtenir le graphique. 172 Régression logistique avec la procédure LOGISTIC (Brun, T.) La procédure GPLOT [28] du module SAS/GRAPHr utilise cette table de données pour produire la courbe ROC ci-après (figure 5.2, page 173). Le programme utilisé se trouve dans le tableau 5.27 (page 174). 1.0 0.9 0.8 0.7 Sensibilité 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1−Spécificité F IG . 5.2: Modèle final – Courbe ROC Chaque point de la courbe ROC correspond à une probabilité seuil différente. Plus la courbe ROC est incurvée vers le haut plus le modèle est prédictif ; on parle alors de modèle pertinent. L’aire sous la courbe est appelée (( pertinence )) et sa valeur (0,845) est donnée par la ligne libellée c dans le tableau Association of Predicted Probabilities and Observed Responses. Si le graphique est une droite (la première bissectrice) le modèle a 50 % de chances de conduire à la bonne prédiction ; un tirage au sort serait alors aussi efficace. Dans notre exemple on veut pouvoir conseiller à un maximum d’éleveurs de compléter en méthionine de façon à apporter un plus à un maximum de (( bons éleveurs )), on souhaite a priori la sensibilité la plus élevée possible. Dans la version 9.1 de SASr l’utilisation de l’instruction expérimentale ODS GRAPHICS permet d’obtenir ce graphique avec la seule procédure LOGISTIC. 173 Régression logistique avec la procédure LOGISTIC (Brun, T.) FILENAME Fieps "RocColor.eps" ; GOPTIONS RESET=ALL DEVICE=PSEPSFFC GSFNAME=Fieps GSFMODE=REPLACE HSIZE=16 CM VSIZE=16 CM HTEXT=1 FTEXT="Helvetica" ; SYMBOL1 C=RED I=JOIN V=NONE ; AXIS1 C=BLUE LENGTH=13.3 CM ORDER=(0 TO 1 BY 0.1) OFFSET=(0.2 CM,0) LABEL=("1-Spécificité") ; AXIS2 C=BLUE LENGTH=13.3 CM ORDER=(0 TO 1 BY 0.1) OFFSET=(0,0.2 CM) LABEL=(A=90 "Sensibilité") ; PROC GPLOT DATA=Roc ; PLOT _SENSIT_*_1MSPEC_ / HAXIS=AXIS1 VAXIS=AXIS2 ; RUN ; QUIT ; FILENAME Fieps ; TAB . 5.27: Modèle final – Code SAS – Courbe ROC Toutefois, comme 1 − S p , la proportion d’événements ∆TP > 1,7 prédits à tort, augmente avec S b , la proportion d’événements ∆TP > 1,7 prédits correctement, on ne peut pas prendre une valeur trop élevée pour cette sensibilité S b car on conseillerait alors à trop d’éleveurs un complément en méthionine qui ne serait pas synonyme de gain conséquent en TP en dépit d’un investissement financier supplémentaire. On peut donc envisager de choisir une sensibilité entre 0,70 et 0,75 qui va permettre de favoriser un nombre important de bons éleveurs tout en ne donnant pas trop (entre 0,20 et 0,25) de conseil de complémentation en méthionine non suivi d’effet significatif sur le TP. Mais on peut voir sur la table de sortie de la procédure LOGISTIC, dont une partie est listée dans le tableau 5.28 (page 175), qu’un tel choix correspond à une probabilité seuil inférieure à 50 %. En ligne 53 pour S b = 0,76 et 1 − S p = 0,24 on a une probabilité de 0,34. Avec notre modèle on ne pourra pas utiliser une sensibilité supérieure à la valeur de 60,9 % donnée dans les précédents tableaux sans avoir une probabilité seuil inférieure à 50 %. 174 Régression logistique avec la procédure LOGISTIC (Brun, T.) Obs _PROB_ _POS_ _NEG_ _FALPOS_ _FALNEG_ _SENSIT_ _1MSPEC_ 49 0.45215 33 59 16 13 0.71739 0.21333 50 0.39054 33 58 17 13 0.71739 0.22667 51 0.37714 34 58 17 12 0.73913 0.22667 52 0.36961 34 57 18 12 0.73913 0.24000 53 0.34414 35 57 18 11 0.76087 0.24000 54 0.33373 36 57 18 10 0.78261 0.24000 55 0.33170 36 56 19 10 0.78261 0.25333 56 0.33119 36 55 20 10 0.78261 0.26667 57 0.33027 36 54 21 10 0.78261 0.28000 TAB . 5.28: Modèle final – Extrait de la table de sortie ROC Les diagnostics L’option INFLUENCE de l’instruction MODEL (tableau 5.15, page 161) produit le tableau libellé Regression Diagnostics qui donne plusieurs indicateurs permettant d’étudier l’influence de chaque observation sur l’estimation du modèle. La procédure LOGISTIC fournit ainsi pour chaque observation: – deux types de résidus libellés Pearson Residual et Deviance Residual, – la quantité libellée Hat Matrix Diagonal, – la quantité libellée DfBeta pour chaque paramètre du modèle, – les deux indicateurs C et CBAR libellés Confidence Interval Displacement C et Confidence Interval Displacement Cbar, – les indicateurs DIFDEV et DIFCHSQ libellés Delta Deviance et Delta Chi Square. Les résidus donnent la contribution de l’observation au khi-deux de Pearson pour le Pearson Residual et au khi-deux de la déviance pour le Deviance Residual. Ils indiquent quelles sont les observations les moins bien ajustées par le modèle. 175 Régression logistique avec la procédure LOGISTIC (Brun, T.) L’indicateur Hat Matrix Diagonal mesure la dispersion des observations par rapport à l’espace des variables explicatives. Les valeurs élevées indiquent des valeurs extrêmes. Toutefois quand la probabilité prédite d’une observation est trop faible (inférieure à 0,1) ou trop élevée (supérieure à 0,9) l’indicateur peut avoir une petite valeur ; il n’est donc pas un indicateur fiable dans ce cas. Les indicateurs DfBeta donnent pour chaque paramètre βj (j = 0, · · · p) du modèle la différence entre l’estimation avec l’observation et l’estimation sans l’observation. Ces différences sont standardisées c’est-à-dire divisées par l’écart type de l’estimation avec l’observation. Elles permettent de détecter les observations qui rendent l’estimation d’un paramètre instable. Les indicateurs Confidence Interval Displacement C et Confidence Interval Displacement Cbar sont des indicateurs d’influence de l’observation sur l’estimation des paramètres basés sur la même idée que la distance de Cook en régression linéaire. Les indicateurs Delta Deviance et Delta Chi Square donnent le changement qu’apporte la suppression de l’observation à la déviance et au khi-deux de Pearson. Ce sont aussi des indicateurs d’observations mal ajustées. Les sorties produites par l’option INFLUENCE sont très volumineuses car il y a un calcul de tous les indicateurs pour chaque observation, il y a autant d’indicateurs DfBeta qu’il y a de paramètres estimés dans le modèle et la valeur de chaque indicateur est accompagnée d’un graphique permettant de repérer rapidement les observations qui posent problème dans l’ajustement du modèle. On trouvera ci-après les sorties produites pour les 10 premières observations (tableaux 5.29 et 5.30, pages 177 et 178). L’observation 8 présente une valeur élevée pour de nombreux indicateurs, c’est donc une observation qui est mal ajustée par le modèle. 176 Régression logistique avec la procédure LOGISTIC (Brun, T.) Regression Diagnostics Covariates Case Number 1 2 3 4 5 6 7 8 9 10 Traitement ETroupeau TP TPinitial Stade Lactation Note Ingestion Ensilage Mais 1.0000 0 0 1.0000 0 1.0000 0 0 1.0000 1.0000 28.7900 30.7900 32.4700 31.4700 28.5900 28.8900 31.3900 30.4900 30.2900 29.6900 31.5950 31.6000 35.9737 33.4158 29.3273 30.9636 30.2300 29.3571 28.8947 31.5917 145.4 171.8 172.8 165.9 158.5 175.5 83.6000 103.2 94.4211 180.7 8.0000 13.0000 18.0000 14.0000 13.0000 11.0000 16.0000 9.0000 15.0000 11.0000 0 0 0 0 0 0 0 0 10.3000 23.1000 Pearson Residual Case Number Value 1 2 3 4 5 6 7 8 9 10 -0.1802 -0.3243 -0.0833 -0.3403 -0.1901 -0.2772 -0.2805 1.9278 -0.6300 -0.4768 Deviance Residual (1 unit = 0.35) -8 -4 0 2 4 6 8 | | | | | | | | | | *| *| * *| *| *| *| | * | *| | | | | | | | * | | | Value -0.2528 -0.4473 -0.1176 -0.4682 -0.2664 -0.3848 -0.3892 1.7613 -0.8176 -0.6401 (1 unit = 0.26) -8 -4 0 2 4 6 8 | | | | | | | | | | *| * | * * | *| *| *| | * | * | | | | | | | | * | | | Hat Matrix Diagonal Case Number Value 1 2 3 4 5 6 7 8 9 10 0.0402 0.0819 0.0121 0.0939 0.0449 0.0764 0.0747 0.1748 0.1553 0.0924 Case Number Traitement DfBeta Value 1 2 3 4 5 6 7 8 9 10 -0.00425 0.0298 0.00153 -0.0251 0.0139 -0.0111 0.0289 -0.3433 -0.0285 -0.0360 Intercept DfBeta Value (1 unit = 0.01) 0 2 4 6 8 12 16 | | | * | | | | | | | * * * * * * * | | | | | | | *| * | | (1 unit = 0.04) -8 -4 0 2 4 6 8 | | | | | | | |* | | * |* * *| * * |* | *| *| | | | | | | | | | | -0.0186 -0.00769 0.00301 0.0239 -0.0261 -0.0407 0.00280 0.2044 -0.0712 -0.0679 ETroupeau TP DfBeta Value 0.0211 -0.00683 0.000243 -0.00560 0.0164 0.0350 -0.0104 0.0979 -0.00178 0.0540 (1 unit = 0.07) -8 -4 0 2 4 6 8 | | | | | | | | | | * * * * * *| * | *| *| * | | | | | | | | | | (1 unit = 0.06) -8 -4 0 2 4 6 8 | | | | | | | | | | * * * * * |* * | * * |* TAB . 5.29: Modèle final – Diagnostics 1ière partie 177 | | | | | | | | | | Régression logistique avec la procédure LOGISTIC (Brun, T.) Regression Diagnostics Case Number TPinitial DfBeta Value 1 2 3 4 5 6 7 8 9 10 -0.0137 0.0115 -0.00459 -0.0284 0.00394 -0.00891 0.00231 -0.2494 0.0623 -0.00849 Case Number Note Ingestion DfBeta Value 1 2 3 4 5 6 7 8 9 10 0.00477 -0.00633 -0.00361 -0.0182 -0.00443 0.000157 -0.0204 -0.2326 -0.0534 0.0101 (1 unit = 0.05) -8 -4 0 2 4 6 8 | | | | | | | | | | * * * * *| * * * | |* * | | | | | | | | | | (1 unit = 0.06) -8 -4 0 2 4 6 8 | | | | | | | | | | * * * * * * * | * *| * | | | | | | | | | | Stade Lactation DfBeta Value 0.00649 -0.0243 0.00186 -0.00322 -0.00591 -0.0116 0.0180 0.00913 0.0149 -0.0347 Ensilage Mais DfBeta Value Value 1 2 3 4 5 6 7 8 9 10 0.00142 0.0102 0.000086 0.0132 0.00178 0.00688 0.00687 0.9540 0.0864 0.0255 (1 unit = 0.06) 0 2 4 6 8 12 16 |* |* |* |* |* |* |* | | * |* | | | | | | | *| | | 0.0243 0.0906 0.00729 0.1067 0.0265 0.0606 0.0606 -0.6821 0.1973 0.1141 Value 1 2 3 4 5 6 7 8 9 10 0.0652 0.2094 0.0139 0.2312 0.0727 0.1545 0.1578 3.8893 0.7414 0.4328 | | | | | | | | | | | | | | | | | |* | | * |* * |* * |* |* | | * |* | | | | | | | | | | (1 unit = 0.05) 0 2 4 6 8 12 16 Value 0.00136 0.00938 0.000085 0.0120 0.00170 0.00636 0.00635 0.7872 0.0730 0.0231 |* |* |* |* |* |* |* | | * |* | | | | | | | *| | | Delta Chi-Square (1 unit = 0.29) 0 2 4 6 8 12 16 |* | * |* | * |* | * | * | | * | * * *| * * * * * * * *| Confidence Interval Displacement CBar Delta Deviance Case Number | | | | | | | | | | (1 unit = 0.09) -8 -4 0 2 4 6 8 Confidence Interval Displacement C Case Number (1 unit = 0.05) -8 -4 0 2 4 6 8 | | | | | | | * | | | Value 0.0338 0.1146 0.00702 0.1278 0.0378 0.0832 0.0850 4.5035 0.4698 0.2505 (1 unit = 0.5) 0 2 4 6 8 12 16 |* |* |* |* |* |* |* | | * | * * | | | | | | | | | | TAB . 5.30: Modèle final – Diagnostics 2ième partie 178 Régression logistique avec la procédure LOGISTIC (Brun, T.) Il est possible d’obtenir des sorties un peu moins volumineuses en n’utilisant que l’option IPLOTS de l’instruction MODEL (tableau 5.15, page 161). Cette option produit des graphiques des indicateurs de diagnostic avec en abscisse le numéro d’observation (libellé Case Number INDEX) et en ordonnée l’indicateur. Quelques exemples de graphiques obtenus par cette option figurent ci-après (tableau 5.31, page 180). On peut ainsi repérer les quelques observations (en particulier l’observation 8 déjà signalée auparavant) mal ajustées par le modèle. 179 Régression logistique avec la procédure LOGISTIC (Brun, T.) P e a r s o n R e s i d u a l RESCHI 4 2 0 -2 -4 Index Plot of Pearson Residuals ResChi versus Index -------+----+----+----+----+----+----+----+----+----+----+----+----+----+------| | + + | | | * | | | + * + * | | | * * * * | | ** * ** *** * ** | + * * * * * * * * * * * * + | * * ** **** ** * * * *** ** * ** * * * * * * | | * * * * * * | | * | + * + | | | | | | + + -------+----+----+----+----+----+----+----+----+----+----+----+----+----+------0 5 10 15 20 25 30 35 40 45 50 55 60 65 Case Number P e a r s o n R e s i d u a l RESCHI 4 2 0 -2 -4 INDEX Index Plot of Pearson Residuals ResChi versus Index -------+----+----+----+----+----+----+----+----+----+----+----+----+----+------| | + + | | | | | | + * * * * * + | * * * * * | | * * * * * * * | | * * * * * ** * * | + * * * * * ** + | * * * * ** ** * ** * * | | * * * * * | | * * * | + + | * * | | | | | + + -------+----+----+----+----+----+----+----+----+----+----+----+----+----+------65 70 75 80 85 90 95 100 105 110 115 120 125 130 Case Number INDEX TAB . 5.31: Modèle final – Nuages de points obtenus par l’option IPLOTS 180 Modèle log-linéaire pour les données de comptage (Gozé, É.) Chapitre 6 Modèle log-linéaire pour les données de comptage Gozé, É. CIRAD-CA, Centre de Coopération Internationale en Recherche Agronomique pour le développement, Bâtiment 7, Bureau 11, TA 70/09, Avenue d’Agropolis - 34398 Montpellier cedex 5 [email protected] Résumé Nous proposons ici un exemple d’analyse de données de comptage de défauts dans la fibre de coton, les points collants. Le but est de déterminer les conditions optimales d’humidité de l’air pour le comptage de ces défauts. Obtenues dans le cadre d’une expérimentation planifiée à deux facteurs étudiés croisés, les données présentent une distribution discrète, dont la variance augmente avec l’espérance. Nous montrons que le modèle linéaire ne permet pas une analyse satisfaisante. Une transformation de variable ne permet pas de proposer un modèle simple, sans interaction, dans une échelle où la variance résiduelle serait homogène. A partir d’hypothèses simples sur la répartition spatiale des points collants, se justifie le choix d’un modèle log-linéaire, où les effets des deux facteurs sont multiplicatifs. Conditionnellement à ces effets, les données suivent une loi de Poisson, si toutefois les points collants se répartissent au hasard dans le coton. On présente aussi des variantes où la loi conditionnelle est plus dispersée. 181 Modèle log-linéaire pour les données de comptage (Gozé, É.) 1 Introduction Les cotons collants ont commencé à causer de graves incidents dans les usines de filature dans les années 1980 : enroulement des nappes de coton autour des cardes, et encrassement des continus à filer provoquant des ruptures de fil. Ce collage est provoqué par des insectes, qui polluent la fibre de coton par leurs déjections sucrées. Ces excrétions prennent la forme de billes de miellat qui parsèment la fibre. Elles sont quasiment invisibles à l’oeil nu. Le procédé de thermodétection a été inventé au Cirad en 1985 pour quantifier ce défaut qui affecte certains cotons plus que d’autres. Le procédé consiste à révéler ces déjections collantes par chauffage d’un échantillon de coton de masse donnée entre deux feuilles d’aluminium. Les billes sucrées fondent avec l’humidité de l’air ambiant, et collent au métal, en retenant avec elles quelques fibres de coton. Une fois le reste l’échantillon débarrassé à l’aide d’une brosse, ces fibres emprisonnées par les billes collantes permettent de les mettre en évidence sous forme de points de quelques millimètres. Ces points collants sont comptés et le résultat enregistré. Le but de cette expérience est de déterminer les conditions ambiantes d’humidité relative qui permettent la révélation la plus précise du collage, et de déterminer des corrections à apporter aux comptages, pour les cas où ces conditions seraient impossibles à atteindre. Des observations préliminaires ont montré une influence de l’humidité relative de l’air sur les mesures réalisées avec ce procédé, avec des comptages maximaux vers 55% d’humidité. Une expérience planifiée a été entreprise pour déterminer d’une part, si il existait une humidité permettant la révélation la plus complète du collage, et d’autre part si on pouvait proposer des corrections au cas où cette humidité relative serait impossible à atteindre, comme cela peut arriver, par exemple, dans des usines non équipées en laboratoires climatisés. A l’attention de celles-ci, on a voulu essayer une enceinte à conditionner, sorte de boîte climatisée permettant d’amener les échantillons à l’humidité désirée. 2 Dispositif expérimental et données Onze lots de coton (on dira 11 cotons) ont été choisis pour former une gamme de potentiel collant la plus large possible. Leur collage a été mesuré à cinq humidités relatives différentes : 35, 45, 55, 65 et 75%. L’enceinte à conditionner, placée à 35% d’humidité extérieure, a été réglée pour obtenir 65% à l’intérieur. Cette expérience est à deux facteurs croisés, le coton avec 11 modalités, et l’humidité avec 6 conditions dif182 Modèle log-linéaire pour les données de comptage (Gozé, É.) férentes. Les changements d’humidité ambiante n’étant pas faciles à obtenir rapidement, toutes les mesures faites à un même taux d’humidité ont été réalisées le même jour. Chacun de ces jours, on a procédé à trois thermodétections indépendantes par coton, les 11 cotons × 3 répétitions = 33 échantillons se succédant dans un ordre aléatoire. Dans ce dispositif, le facteur humidité n’est donc pas randomisé. Dans ce laboratoire à l’atmosphère contrôlée, on a considéré que les causes majeures de variations aléatoires étaient les fluctuations d’échantillonnage des points collants à l’intérieur des lots de coton, les autres causes éventuelles étant d’importance négligeable. On néglige alors le facteur journée, confondu avec le facteur humidité, et on analyse les résultats comme s’il s’agissait d’un dispositif factoriel complètement randomisé. Les données figurent dans le tableau 6.1. 3 L’analyse de variance des comptages, et ses limites Il peut sembler naturel, à l’issue d’une expérience planifiée, de procéder à une analyse de variance. Avec un dispositif factoriel, on peut tester l’effet de chacun des facteurs, et l’interaction. Nous allons voir que sur ces données, l’analyse de variance n’est pas bien adaptée à la situation. Elle a été réalisée avec la procédure glm de Sas/Stat. proc format; value pc_hum 1="35%+E" 2="35%" 3="45%" 4="55%" 5="65%" 6="75%" ; run; data hum; infile ’hum.dat’; input HUM coton rep col; 183 Modèle log-linéaire pour les données de comptage (Gozé, É.) Humidité relative 35% 35% 45% 55% 65% 75% +Enceinte coton rep 1 1 9 2 7 18 14 8 2 17 8 8 26 11 11 3 15 12 11 20 28 3 1 24 13 14 33 29 8 2 18 7 16 23 21 19 3 24 7 25 25 29 3 1 73 42 72 106 80 35 2 134 28 56 93 80 20 3 90 33 73 106 121 61 1 21 11 18 24 28 3 2 32 11 12 30 33 5 3 12 12 24 19 24 8 1 140 59 140 149 172 66 2 200 131 110 147 188 46 3 170 107 101 179 146 72 1 49 21 36 70 54 21 2 68 25 33 72 65 36 3 .. . 37 .. . 14 .. . 48 .. . 60 .. . 81 .. . 28 .. . 2 3 4 5 6 .. . TAB . 6.1: Nombre de points collants par échantillon dans l’expérimentation humidité x coton 184 Modèle log-linéaire pour les données de comptage (Gozé, É.) Humidité relative 35%+Enceinte 35% 45% 55% 65% 75% répétition répétition répétition répétition répétition répétition 1 2 3 1 2 3 1 9 17 2 24 18 3 73 134 1 2 3 1 2 3 1 2 3 1 2 3 15 2 8 12 24 13 7 7 7 8 11 18 26 20 14 11 28 8 11 3 14 16 25 33 23 25 29 21 29 8 19 90 42 28 33 72 3 56 73 106 93 106 80 80 121 35 20 61 coton 4 21 32 12 11 11 12 18 12 24 24 30 19 28 33 24 3 5 8 5 140 200 170 59 131 107 140 110 101 149 147 179 172 188 146 66 46 72 6 49 68 37 21 25 14 36 33 48 70 72 60 54 65 81 21 36 28 7 21 20 28 10 11 10 15 21 9 25 26 29 28 28 33 9 14 11 8 53 39 37 13 18 17 31 29 37 40 28 52 39 40 34 21 21 17 28 9 51 90 55 12 8 23 28 35 28 52 43 60 42 64 55 29 36 10 3 5 1 4 1 1 6 3 8 3 3 5 6 5 9 2 3 2 11 38 44 38 24 24 16 18 36 18 31 29 33 30 49 36 25 12 30 TAB . 6.2: Nombre de points collants par échantillon dans l’expérimentation humidité x coton format hum pc_hum.; run; proc glm data=hum; class hum coton; model col=hum coton hum*coton/ss1 ss3 ; /* sauvegarde des résidus et des valeurs prédites pour les diagnostics sur les résidus */ output out=predglm r=res_col p=xbeta_col; /* sauvegarde des moyennes ajustées pour le tracé d’un graphique décrivant l’interaction */ lsmeans coton/out=lsmeans1; lsmeans hum*coton/out=lsmeans2; run; quit; Les diagnostics préliminaires revèlent de mauvaises conditions pour une analyse de variance. L’examen de l’histogramme (figure 6.1) montre un excès d’observations proches de 0, et un autre excès d’observations de valeur absolue supérieure à 25, alors que les flancs de l’histogramme sont creusés : on dit que les queues de la distribution sont "‘lourdes"’, ou encore que la distribution des résidus est plus aplatie que celle d’une variable 185 Modèle log-linéaire pour les données de comptage (Gozé, É.) gaussienne. Le graphique quantile permet de juger plus facilement de cette distorsion : les résidus y sont croisés avec la valeur qu’ils devraient prendre si ils suivaient exactement une loi gaussienne, c’est à dire les quantiles d’une loi normale. Si les résidus sont bien gaussiens, les points du graphique sont alignés. Ici au contraire les valeurs les plus extrêmes s’écartent nettement d’une droite. L’aplatissement excessif de la distribution est souvent le fait d’une variance résiduelle hétérogène, que l’on peut mettre ici en évidence figure 6.2(a) : on constate que la dispersion des résidus croît en fonction de la prédiction. 60 40 50 p o u r c e n t 20 40 r é s i d u 30 20 0 20 10 0 40 40 32 24 16 8 0 résidu 8 16 24 32 3 2 1 0 1 2 3 Normal Quantiles (a) (b) F IG . 6.1: Mise en évidence d’une distribution trop aplatie des résidus de l’analyse de variance, traduisant une hétérogénéité de la variance résiduelle : (a) histogramme et densité d’une loi gaussienne; (b) graphique quantile (qqplot) Si malgré ces mauvaises conditions on examine tout de même les résultats de l’analyse de variance, on s’aperçoit d’une interaction significative (P< 0.0001) : l’effet de l’humidité ne serait donc pas le même pour chaque coton. Si une des humidités donne un collage maximal, on n’est donc pas certain que ce soit vrai pour tous les cotons ; de plus, à supposer que ce soit vrai, on ne peut pas proposer de corrections valables pour tous les cotons. En fait, un simple graphique nous montre que cette interaction est du type multiplicatif, qu’une transformation logarithme pourrait annuler (figure 6.2(b)). Cette interaction peut être interprétée comme un artéfact, le modèle d’analyse de variance n’étant pas adapté à la situation. 186 Modèle log-linéaire pour les données de comptage (Gozé, É.) 40 collage moyen par coton et par humidité 180 30 20 résidu 10 0 10 20 30 150 120 90 60 30 40 0 0 20 40 60 80 100 120 140 160 180 0 prédiction 20 40 60 80 100 120 140 collage moyen par coton (a) (b) F IG . 6.2: (a) mise en évidence d’une hétérogénéité de variance en croisant les résidus de l’analyse de variance avec les valeurs prédites (b) mise en évidence d’une interaction multiplicative en croisant les valeurs moyennes par coton et par humidité avec la valeur moyenne par coton Toutes ces considérations nous amènent à repartir du phénomène étudié pour proposer une autre analyse. 4 Retour sur le phénomène étudié et justification d’un modèle log-linéaire Quelques hypothèses simples sur la répartition des points collants dans les échantillons de coton permettent de déduire la loi de probabilité de leurs comptages. Le raisonnement est le même que celui qu’on utilise pour la répartition dans l’espace de plants, de ravageurs, etc. Les comptages sont ici obtenus sur une surface donnée d’un voile de coton ou d’un ensemble de feuilles. Les défauts comptés peuvent prendre n’importe quelle position sur le voile ou les feuilles. Dans ces conditions, si les défauts sont répartis au hasard indépendamment les uns des autres avec une densité d, leur nombre dans un échantillon de surface s suit une loi de Poisson d’espérance µ = ds (figure 6.3(a)). La 187 Modèle log-linéaire pour les données de comptage (Gozé, É.) variance de la loi de Poisson est égale à son espérance. D’autres répartitions spatiales génèrent d’autres distributions d’échantillonnage. En dehors de répartitions dites régulières, elles sont souvent la source d’une surdispersion par rapport à la loi de Poisson, c’est à dire d’une variance supérieure à l’espérance. Plusieurs causes peuvent générer une loi de probabilité différente de la loi de Poisson. Une cause possible est une distribution dite contagieuse, où les points se répartissent en agrégats, plutôt qu’indépendamment les uns des autres. Quand les agrégats sont eux-mêmes répartis au hasard, et de manière indépendante, leur nombre par échantillon suit une loi de Poisson d’espérance λ. Si le nombre de points par agrégat suit également une loi de Poisson d’espérance ϕ (figure 6.3(b)), le nombre de points par échantillon suit une loi de Neyman type A, d’espérance µ=λϕ et de variance λϕ(1+ϕ) [12],p.64 [19],p.328. Enfin, si d’un traitement à l’autre varie seulement l’espérance λ du nombre d’agrégats, et pas celle du nombre de points par agrégat (ϕ est indépendant du traitement), la loi de probabilité est surdispersée par rapport à la loi de Poisson, d’un facteur constant φ = (1+ϕ). (a) (b) (c) F IG . 6.3: Comparaison de trois répartitions spatiales de points (a) répartition au hasard : le nombre de points par échantillon suit une loi de Poisson (b) répartition en agrégats : le nombre de points par échantillon suit une loi de (c) densité non homogène : le nombre de points par échantillon suit une loi binomiale Une autre cause possible de surdispersion est l’inhomogénéité : la densité d, au lieu d’être constante, peut varier aléatoirement et de façon continue à l’intérieur de la surface à échantillonner (figure 6.3(c)). Si la densité suit une loi Gamma, et que conditionnellement à cette densité les défauts sont répartis au hasard et indépendamment, le nombre de défauts par échantillon suit une loi binomiale négative, d’espérance µ et de variance V = µ + µ2 /k 188 Modèle log-linéaire pour les données de comptage (Gozé, É.) Loi Paramètres Espérance Variance Variance Espérance Poisson µ µ µ 1 Neyman type A λ ϕ µ = λϕ λϕ(1 + ϕ) 1+ϕ µ µ + µ2 /k 1 + µ/k Binomiale négative µ k CV (%) q 100 1µ q 100 1+ϕ µ q 1 100 µ + 1k TAB . 6.3: Relation entre moyenne et variance pour quelques lois de probabilité courantes [19]. A la différence de la loi de Neyman type A, le rapport entre moyenne et variance n’est pas constant, mais croît avec l’espérance. D’autres répartitions spatiales peuvent également conduire à une loi d’échantillonnage binomiale négative. En pratique on n’observe que rarement la répartition spatiale, et le plus souvent les comptages par échantillon seulement. Ces trois lois théoriques (Poisson, Neyman type A et binomiale négative), connues pour correspondre à des situations simples, sont alors de simples repères pour la recherche d’une loi de probabilité empirique. Un critère important à respecter pour le choix de cette loi est la relation moyenne-variance, c’est à dire entre moyenne des prédictions et variance des écarts à la prédiction (ou résidus). Les relations entre moyenne et variance pour ces trois lois sont listées au tableau 6.3. De ce tableau, on peut tirer deux principes : – la variance et le coefficient de variation, souvent utilisés pour juger de la qualité des mesures, ne sont plus des repères valables pour les comptages, car ils sont fonction de l’espérance. Seul le rapport variance/espérance est constant pour la loi de Poisson. – la précision relative, mesurée par le coefficient de variation, s’améliore toujours quand la moyenne augmente, quelle que soit la loi envisagée. Par conséquent, on va rechercher les conditions de mesure qui maximisent l’espérance du nombre de points comptés. 4.1 Modèle multiplicatif de l’espérance du comptage On va considérer que chaque coton possède un potentiel de collage, que l’on peut quantifier par une densité de billes de miellat. Suivant l’humidité, une proportion plus ou moins grande de ces billes va être révélée par la thermodétection. Si on appelle i le coton, j l’humidité, et k la répétition, l’espérance Yi jk du nombre de points révélés peut s’écrire : 189 Modèle log-linéaire pour les données de comptage (Gozé, É.) E(Yi jk ) = µi β j (6.1) ou encore, pour introduire une symétrie entre les deux facteurs : E(Yi jk ) = µαi β j (6.2) avec αi l’effet coton et β j l’effet humidité. On peut se ramener à un modèle additif en passant au logarithme : Log(E(Yi jk )) = m + ai + b j 4.2 (6.3) Loi du comptage, connaissant son espérance (loi conditionnelle) Les comptages sont obtenus sur des échantillons de même masse, issus de lots de fibre dont on ne connaît pas l’homogénéité. On ne peut donc pas préjuger de la distribution de probabilité des comptages, mais les lois de Poisson, de Neyman type A et binomiale négative sont des candidats plausibles. Ce qui va nous permettre de choisir parmi eux est la relation entre moyenne et variance. Dans le meilleur des cas, les points collants sont répartis au hasard. La loi de Yi jk , connaissant son espérance λi jk , est alors une loi de Poisson : Yi jk ≡ P (λi jk ) conditionnellement à λi jk = E(Yi jk ) 4.3 (6.4) Modèle log-linéaire Le modèle multiplicatif (6.3) et la loi conditionnelle (6.4) définissent un modèle linéaire généralisé, plus précisément un modèle log-linéaire. On remarque que le logarithme est la fonction de lien canonique associée à la loi de Poisson. Le choix du lien canonique plutôt qu’un autre donne de bonnes propriétés mathématiques au modèle. Mais il ne garantit pas qu’il soit bien adapté à la réalité dans toutes les situations, même si le lien canonique donne souvent de bons modèles dans la pratique. 190 Modèle log-linéaire pour les données de comptage (Gozé, É.) 5 Pourquoi pas une transformation de variable? Une pratique courante, pour les données de comptage, est l’analyse de variance, après une transformation choisie pour stabiliser la variance résiduelle ou pour rendre le modèle additif (autrement dit supprimer l’interaction). D’après nos hypothèses simples sur la répartition spatiale, c’est une transformation racine carrée qui convient pour stabiliser la variance, puisque notre loi conditionnelle est la loi de Poisson. Mais d’un autre côté c’est la transformation logarithme qui permet de se ramener à un modèle additif [?]. Aucune transformation ne peut donc convenir pour ces deux fonctions (nous le vérifierons plus loin sur les données). Or l’absence d’interaction est souhaitable pour deux raisons, l’une plutôt théorique et l’autre pratique. 1. Sur le plan théorique, il est nécessaire de résumer les données avec un nombre minimum de paramètres, en suivant le principe de parcimonie. Or un modèle sans interaction a nettement moins de paramètres qu’un modèle avec interaction ; à qualité égale d’ajustement, il lui est donc préférable car il donnera des estimations plus précises, et plus robustes par rapport à des erreurs isolées. 2. Sur le plan pratique, un modèle avec interaction ne pourra s’appliquer qu’aux cotons objets de l’expérimentation ; or le but de celle-ci est d’obtenir des coefficients de correction applicables à n’importe quel coton ; la présence d’une interaction restreint la portée des résultats au point de les rendre inutilisables. Une transformation racine carrée serait convenable pour un essai à un seul facteur, pour lequel le problème de l’interaction ne se pose pas. Elle permettrait alors de stabiliser la variance des erreurs, mais pas de les rendre approximativement gaussiennes : c’est une transformation Y 2/3 qui serait la plus appropriée pour rendre leur distribution symétrique. La stabilisation de la variance étant plus importante que la normalité de la loi des erreurs, c’est la transformation racine carrée qui serait alors applicable. En essayant plusieurs transformations de variables sur cet exemple, vérifions qu’on ne peut à la fois stabiliser la variance et annuler l’interaction. Le caractère répétitif de l’opération nous incite a écrire une macro sas pour les deux opérations suivantes : 1. Un graphique permet de juger visuellement d’une liaison entre la dispersion des résidus et les valeurs prédites. 2. Une variante du test de [15] permet de confirmer ou non l’existence de cette liaison. Elle consiste à faire la régression des valeurs absolues des résidus sur les valeurs prédites. 191 Modèle log-linéaire pour les données de comptage (Gozé, É.) Le test de l’interaction coton × humidité est le test classique de l’analyse de variance, que l’on applique même si la variance est hétérogène. Les résultats des deux tests sont listés au tableau 6.4. %macro resxpred(fichier,residu,pred); symbol1 v=dot h=0.1 cm i=none ; AXIS1 LABEL = (’predits’) MINOR = none; AXIS2 LABEL = (’résidu’) MINOR = none; PROC GPLOT DATA = &fichier; PLOT &residu*&pred=1 / frame haxis = axis1 vaxis = axis2; RUN; QUIT; /* test de Glejser*/ data &fichier; set &fichier; abs&residu=abs(&residu); run; proc reg data=&fichier; model abs&residu=&pred; run;quit; %mend resxpred; /* 4 analyses de variance sur 4 fonctions différentes du nombre de points collants */ /* identité, racine carrée, racine cubique et logarithme */ proc glm data=hum; class hum coton; model col rac_col rac3_col log_col=hum coton hum*coton/ss1 ss3 ; output out=predglm r=res_col res_rac_col res_rac3_col res_log_col p=xbeta_col xbeta_rac_col xbeta_rac3_col xbeta_log_col; lsmeans coton/out=lsmeans1; lsmeans hum*coton/out=lsmeans2; run;quit; /* 4 tests sur les résidus */ 192 Modèle log-linéaire pour les données de comptage (Gozé, É.) Hétéroscédasticité Interaction Test de Glejser Test F t(196) Pr >t F(50,132) Pr >F 11.36 <0.0001 4.31 <0.0001 3.88 0.0001 2.30 <0.0001 √ 3 0.51 0.6139 1.73 0.0072 Log -6.58 <0.0001 1.26 0.1494 Transformation aucune √ TAB . 6.4: Essai de différentes transformations de variables avant analyse de variance : tests d’homogénéité de variance et d’interaction coton x humidité %resxpred(predglm,res_col,xbeta_col); %resxpred(predglm,res_rac_col,xbeta_rac_col); %resxpred(predglm,res_rac3_col,xbeta_rac3_col); %resxpred(predglm,res_log_col,xbeta_log_col); Une transformation racine carrée ne suffit pas à stabiliser la variance résiduelle, une transformation racine cubique est nécessaire. C’est le signe que la variance est plus que proportionnelle à la moyenne. La transformation logarithme suffit à rendre non significative l’interaction, ce qui confirme notre hypothèse de départ de modèle multiplicatif. Mais elle ne permet pas de stabiliser en même temps la variance des erreurs : celle ci devient décroissante avec la prédiction (le t du test de Glejser est négatif). Nous avons ici un exemple pratique des limites théoriques de la transformation de variable : facile à mettre en œuvre, et bien adaptée pour un modèle à un seul facteur, elle ne l’est plus avec deux facteurs, car elle ne permet pas à la fois d’annuler l’interaction et de stabiliser la variance. Il est apparemment impossible de trouver une transformation qui permette à la fois de stabiliser la variance et d’éliminer l’artéfact d’interaction. Par conséquent, nous nous tournons vers le modèle linéaire généralisé, qui permet de choisir indépendamment d’une part l’échelle dans laquelle les effets sont additifs et d’autre part la loi de probabilité des observations, ou plus généralement la relation entre leur espérance et leur variance. 193 Modèle log-linéaire pour les données de comptage (Gozé, É.) 6 Ajustement d’un modèle log-linéaire et de ses variantes 6.1 Choix d’une relation entre moyenne et variance Nous avons utilisé à nouveau Sas/Stat, procédure genmod pour ajuster un modèle log-linéaire avec interaction coton x humidité. Pour cela, le programme déjà vu plus haut est modifié pour appeler la procédure genmod à la place de glm. La spécification du modèle est assez proche de celle de glm (ss1 et ss3 étant remplacés par type1 et type3 par exemple). En plus, on spécifie que la distribution conditionnelle est la distribution de Poisson. Les demandes de sorties de résidus et de moyennes ajustées sont différentes de celles de glm, elles font appel à l’output delivery system (ODS). Le graphique croisant résidus et valeurs prédites est obtenu en réutilisant la même macro qu’auparavant. title2 "MODELE LOG-LINEAIRE"; ods exclude obstats; ods output obstats=predpoisson; ods output lsmeans=lsmeanspoisson; proc genmod data=hum; class hum coton; model col=hum coton hum*coton/type1 type3 dist=poisson obstats; lsmeans coton hum*coton; run; title3 "RESIDUS DE DEVIANCE EN FONCTION DU PREDICTEUR LINEAIRE"; %resxpred(predpoisson,resdev,xbeta); Dans cette première analyse, la loi conditionnelle du comptage est la loi de Poisson. Examinons les critères d’ajustement (Goodness of fit). Le calcul de la vraisemblance montre une déviance 2,34 fois plus élevée que son nombre de degrés de liberté. Cette déviance est significativement plus grande qu’un chi2 à 132 ddl (P<0,001), la valeur critique est de 160 pour α=0,05. On a donc affaire à une loi de variance plus grande que celle de la loi de Poisson. Criteria For Assessing Goodness Of Fit 194 Modèle log-linéaire pour les données de comptage (Gozé, É.) Criterion DF Value Value/DF Deviance 132 309.1607 2.3421 Scaled Deviance 132 132.0000 1.0000 Pearson Chi-Square 132 307.1424 2.3268 Scaled Pearson X2 132 131.1383 0.9935 Log Likelihood 9849.2308 Cependant, la distribution des résidus de type déviance est approximativement normale, (figure 6.4a). La déviance importante n’est donc pas due à des observations particulières, mais à des écarts aux prédictions généralement plus grands que ceux que l’on attendrait d’une loi de Poisson. 0.4 d e d é v i a n c e 0.3 4 0.2 2 résidu de déviance r é s i d u 0 2 0.1 0 0.1 0.2 0.3 4 0.4 0.5 6 3 2 1 0 1 2 0 3 1 2 3 4 5 6 prédicteur lineaire Normal Quantiles (a) (b) F IG . 6.4: Résidus de déviance du modèle log-linéaire : (a) graphique quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la prédiction) Enfin, le croisement des résidus de déviance avec les valeurs prédites montre que leur dispersion croit légèrement avec la prédiction (figure 6.4b). On peut le confirmer avec le test de Glejser : la régression de la valeur absolue des résidus sur la valeur prédite, montre une pente positive (P < 0,0001). Ces résidus étant supposés de variance indépendante de la prédiction, cela montre que la variance des données augmente "trop" vite, 195 Modèle log-linéaire pour les données de comptage (Gozé, É.) du moins plus vite que celle de la loi de Poisson. Autrement dit, le rapport variance/moyenne croît avec la moyenne, comme pour la loi binomiale négative (alors qu’il est constamment égal à 1 pour la loi de Poisson). 3 d e d é v i a n c e 3 2 2 résidu de déviance r é s i d u 1 0 1 0 1 1 2 2 3 3 3 2 1 0 1 2 0 3 1 2 3 4 5 6 prédicteur lineaire Normal Quantiles (a) (b) F IG . 6.5: Résidus de déviance du modèle à lien logarithme et distribution binomiale négative : (a) graphique quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la prédiction) Conservant la fonction de lien logarithme, nous abandonnons la loi de Poisson pour une loi binomiale négative. Pour celà, nous changeons l’option /dist=poisson de l’ordre model par l’option /dist=negbin. Les résidus de déviance voient alors leur dispersion devenir indépendante de la valeur du prédicteur linéaire (figure 6.5b), le test de Glejser n’est plus significatif (P=0,7257) : la relation V = µ + µ2 /k rend correctement compte de l’évolution de la variance en fonction de la moyenne. La distribution des mêmes résidus reste approximativement gaussienne (figure 6.5a). Cependant, la déviance du modèle vaut encore 1,433 fois son nombre de degrés de liberté, elle reste significativement supérieure à un chi2 à 132 ddl (P < 0,0001, la valeur critique est 159 pour α=0,05). La spécification d’une loi binomiale négative ne suffit donc pas à expliquer toute la dispersion des données : la forme de la relation moyenne-variance est bien rendue, mais la variance est constamment sous-estimée d’un facteur 1,4333. Criteria For Assessing Goodness Of Fit 196 Modèle log-linéaire pour les données de comptage (Gozé, É.) Criterion DF Value Value/DF Deviance 132 189.1953 1.4333 Scaled Deviance 132 132.0000 1.0000 Pearson Chi-Square 132 186.8733 1.4157 Scaled Pearson X2 132 130.3799 0.9877 Log Likelihood 16107.6854 Il nous faut donc abandonner l’idée d’ajuster les données à une loi connue. Heureusement, le modèle linéaire généralisé ne s’applique pas seulement aux lois de la famille exponentielle, mais par extension à toute loi dont on connaît la relation entre moyenne et variance. Bien que déçus de ne pas avoir trouvé de loi de probabilité à ces comptages, nous pouvons mener à bien cette analyse : il suffit de spécifier que la variance conditionnelle est V = φ(µ + µ2 /k), φ étant un facteur d’échelle appelé surdispersion, qui sera estimé par le rapport entre la déviance et son nombre de degrés de liberté. Pour cela, nous ajoutons l’option /dscale à l’instruction model de genmod, pour obtenir le programme suivant : proc genmod data=hum; class hum coton; model col=hum coton hum*coton/type1 type3 dscale dist=negbin obstats; run; Comme on ne connaît plus la loi de probabilité des données, on ne connaît pas non plus leur vraisemblance. Celle-ci est alors remplacée par la quasi-vraisemblance, qui possède des propriétés analogues, et permet des calculs proches de ceux qu’on emploie pour la maximisation de la vraisemblance. Cette situation rappelle celle qui prévaut généralement pour le modèle linéaire, où la variance de l’erreur n’est pas connue à l’avance, mais estimée à partir des données. Les conséquences de l’estimation de la surdispersion sont les mêmes que celles de l’estimation de la variance de l’erreur : l’adéquation du modèle ne peut plus être testée avec la déviance. De plus, les tests des effets se font maintenant par des F de Fisher plutôt que par des chi2. 197 Modèle log-linéaire pour les données de comptage (Gozé, É.) 6.2 Choix d’un modèle pour l’espérance : élimination de l’interaction Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 132 189.1953 1.4333 Scaled Deviance 132 132.0000 1.0000 Pearson Chi-Square 132 186.8733 1.4157 Scaled Pearson X2 132 130.3799 0.9877 Log Likelihood 16107.6854 LR Statistics For Type 1 Analysis 2*Log Source Likelihood Intercept 45598.5488 HUM ChiNum DF Den DF F Value Pr > F Square Pr > ChiSq 45632.0141 5 132 4.67 0.0006 23.35 0.0003 coton 46097.8166 10 132 32.50 <.0001 324.99 <.0001 HUM*coton 46174.2179 50 132 1.07 0.3789 53.30 0.3483 LR Statistics For Type 3 Analysis ChiSource Num DF Den DF F Value Pr > F Square Pr > ChiSq 5 132 4.22 0.0014 0.00 1.0000 coton 10 132 1.94 0.0454 0.00 1.0000 HUM*coton 50 132 0.23 1.0000 0.00 1.0000 HUM Sur cet exemple, les résultats sont incohérents : les statistiques de type 3 ne sont pas égales à celle de type 1 pour l’interaction hum*coton, alors que cet effet figure en dernier dans le modèle. De plus, la log-vraisemblance après introduction de ce dernier terme ne correspond pas à celle listée dans la rubrique "Goodness of Fit". Le dé198 Modèle log-linéaire pour les données de comptage (Gozé, É.) faut est éliminé à partir de la version 9 de Sas (source http://support.sas.com/techsup/unotes/SN/012/012578.html). Cette erreur se produit avec l’option /dist=negbin, pas avec /dist=poisson. Pour l’éviter, on peut reprogrammer la déviance de la loi binomiale négative. La valeur de k est maintenant fixée à la valeur estimée précédemment par maximum de vraisemblance, soit 1/k = 0.015588 1 . /* Reprogrammation de la loi binomiale négative */ /* celle préprogrammée donnant des résultats incohérents */ ods exclude obstats; ods output obstats=prednegbin0; proc genmod data=hum; class hum coton; a = _MEAN_; y = _RESP_; k = 1/0.015588 ; /* valeur estimée par max de vraisemblance sur ce jeu de données */ d = 2 * ( (y * log(y/a)) + ( (y+k)*log( (k+a)/(k+y) ) ) ); VARIANCE var = a + (a*a/k); DEVIANCE dev = d; model col=hum coton hum*coton/type1 type3 dscale link=log obstats; run; On retrouve la même déviance qu’auparavant, mais cette fois-ci, le test du dernier effet est bien cohérent entre le type 1 et le type 3; il montre l’absence d’interaction coton × humidité (P=0,1711). Dans l’échelle logarithme, l’humidité a bien un effet additif sur l’espérance de la mesure du collage, comme on l’avait supposé au départ. Bien que le plan d’expérience soit complet et équilibré, les tests de type 1 ne sont pas les mêmes que ceux de type 3 pour les effets simples , alors qu’ils seraient les mêmes en analyse de variance. Cela découle du fait qu’on a attribué à chaque observation un poids différent, étant donné que chaque observation a une variance différente dans l’échelle logarithme. LR Statistics For Type 1 Analysis ChiSource Deviance Num DF Den DF F Value 1. On peut vérifier que cette valeur maximise bien la vraisemblance 199 Pr > F Square Pr > ChiSq Modèle log-linéaire pour les données de comptage (Gozé, É.) Intercept 3762.2310 HUM 3171.3018 5 132 82.46 <.0001 412.29 <.0001 coton 277.7944 10 132 201.88 <.0001 2018.79 <.0001 HUM*coton 189.1937 50 132 1.24 0.1711 61.82 0.1220 LR Statistics For Type 3 Analysis ChiSource Num DF Den DF F Value Pr > F Square Pr > ChiSq 5 132 48.61 <.0001 243.04 <.0001 coton 10 132 189.59 <.0001 1895.87 <.0001 HUM*coton 50 132 1.24 0.1711 61.82 0.1220 HUM Nous avons besoin d’éliminer le terme d’interaction pour estimer les effets simples, afin de déterminer quelle est l’humidité optimale pour le comptage. Voici alors un extrait de la liste des paramètres. Standard Wald 95% Confidence Limits Parameter DF Estimate Error Intercept 1 2.8593 0.0845 2.6937 3.0249 HUM 35% 1 -0.0438 0.0802 -0.2009 0.1133 HUM 35%+E 1 0.7968 0.0732 0.6534 0.9402 HUM 45% 1 0.4297 0.0758 0.2811 0.5782 HUM 55% 1 0.8308 0.0731 0.6875 0.9741 HUM 65% 1 0.8640 0.0730 0.7209 1.0072 HUM 75% 0 0.0000 0.0000 0.0000 0.0000 coton 1 1 -0.8721 0.1083 -1.0844 -0.6598 coton 2 1 -0.4792 0.1004 -0.6760 -0.2823 coton 3 1 0.8635 0.0867 0.6935 1.0335 coton 4 1 -0.5167 0.1010 -0.7147 -0.3186 coton 5 1 1.4698 0.0843 1.3045 1.6351 coton 6 1 0.4006 0.0898 0.2245 0.5766 200 Modèle log-linéaire pour les données de comptage (Gozé, É.) coton 7 1 -0.4499 0.1000 -0.6458 -0.2540 coton 8 1 0.0466 0.0933 -0.1362 0.2294 coton 9 1 0.2996 0.0907 0.1219 0.4774 coton 10 1 -2.0455 0.1516 -2.3425 -1.7484 coton 11 0 0.0000 0.0000 0.0000 0.0000 1 0.0340 0.0073 0.0223 0.0518 Dispersion NOTE: The covariance matrix was multiplied by a factor of DEVIANCE/DOF. Ce tableau se lit de la façon suivante : l’humidité 75% sert de référence (son paramètre est nul). Par rapport à cette référence, le fait de mesurer le collage à 65% d’humidité augmente de 0,8640 le logarithme de l’espérance du comptage. Autrement dit, en moyenne, le nombre de points collants mesuré est multiplié par exp(0,8640)=2,37. Le maximum d’espérance est obtenu entre 55% et 65% d’humidité. Compte tenu des écarttypes d’estimation de ces paramètres, l’enceinte à conditionner ne donne pas de résultats significativement différents de ces maxima. 7 Discussion La loi de probabilité des comptages est plus dispersée que la loi de Poisson, ce qui montre que les points collants ne sont pas répartis indépendamment au hasard avec une densité constante. La loi n’est pas, comme la loi de Neyman type A, de surdispersion constante par rapport à la loi de Poisson. Ce n’est pas non plus une loi binomiale négative, mais une loi d’expression analytique inconnue. Une surdispersion constante par rapport à la loi binomiale négative donne un ajustement acceptable. Une autre étude menée plus tard avec un appareil automatisé a consisté à homogénéiser artificiellement des cotons. Elle a montré que se superposaient deux sortes d’hétérogénéité qui peuvent correspondre aux types décrits en introduction: on aurait en fait addition entre une première surdispersion constante et une deuxième identique à celle de la loi binomiale négative. Que le lecteur se rassure, le choix de la loi de probabilité n’était pas d’une grande importance dans cet exemple, dès l’instant qu’une surdispersion était prise en compte. En effet, l’ajustement d’un modèle log-linéaire avec surdispersion constante par rapport à la loi de Poisson donnait des résultats très proches de ceux qu’on a pu montrer ici. 201 Modèle log-linéaire pour les données de comptage (Gozé, É.) 8 Conclusion La variance de la loi des comptages étant un peu plus que proportionnelle à son espérance, la meilleure précision relative est atteinte en maximisant son espérance, c’est à dire en réalisant la révélation la plus complète possible des points collants. Les meilleures conditions de mesure du potentiel collant sont donc celles qui donnent l’espérance la plus élevée, soit 55 à 65% d’humidité 2 . L’enceinte à conditionner donne des mesures équivalentes. Ce résultat n’aurait pas pu être obtenu par analyse de variance, même après transformation de variable. 2. une expérience ultérieure a montré que les comptages étaient insensibles à l’humidité dans cet intervalle 202 Index Ajustement, voir Qualité d’ajustement Les différents types, 78 Akaike, voir Critère d’Akaike Estimation, 47 Maximum de vraisemblance, 49, 52 Classement, voir Qualité de classement Etape DATA, 132 Coefficient R2 , 145, 146 Cote, voir Odds Fonction de lien, 35, voir Transformations Courbe ROC, 156, 157 Définition, 34 Critère Goodness of Fit, voir Qualité d’ajustement d’Akaike, 139 de Schwarz, 139, 140 Hétérogénéité Déviance, 54, 55, 85, 103, 148, 149, 159, 160 dispersion (paramètre), 89 Analyse de la déviance, 55 sous-dispersion, 89 de type 1, 59 sur-dispersion, 89 résiduelle, 56 Hosmer, voir Test de Hosmer et Lemeshow totale, 56 Intervalle de confiance, 79–82, 86, 87, 105, 106 DATA, voir Etape DATA Discrimination, 62 Lemeshow, voir Test de Hosmer et Lemeshow Données Logit, 86, 89, 95, 96, 104, 105 agrégées, 30, 84, 90 logit cumulé, 108 binaires, 72, 90 Lois Données ((carcasses)), 22, 32, 42, 110, 111 Bernoulli, 27 Données ((comportement clients)), 23, 33, 47 binomiale, 30, 70 Données ((gras coloré)), 31 de Poisson, 33 Données ((mineurs)), 44 intensité, 33 Données ((promesse d’achat)), 20, 27, 29, 38, hypergéométrique, 72 60, 64 Loi conditionnelle, 18 Données ((tournesol)), 21, 30, 54, 56, 57, 59, 62 multinomiale, 113 groupées, 30 normale, 71 Enquêtes Lsmeans, voir Moyennes ajustées 203 Index LOGISTIC, 130–135, 137, 138, 141, 142, 144– Modèle Linéaire Généralisé, 17, 20, 35, 36, 48, 52, 147, 149, 152–154, 156, 158, 159 61, 107 instruction CLASS, 132 Modèles additif, 78 instruction FORMAT, 132, 144 analyse de la variance, 26 instruction UNITS, 144 log-linéaire, 46 option CLODDS, 144 logistique, 68, 83–85, 100, 106 option CTABLE, 144 à risques adjacents, 43 option DESCENDING, 132, 144 à risques proportionnels, 45 option DETAILS, 132 cumulatif, 43 option INFLUENCE, 144 multinomial, 42 option IPLOTS, 144, 163 séquentiel, 43 option LACKFIT, 144 Logit, 37 option OUTROC, 144, 156 modèle complet, 54 option PEVENT, 144 modèle nul, 54 option RSQUARE, 144 modèle saturé, 54 option SELECTION, 132 Modèle statistique, 18, 34 option SLENTRY, 132 multiplicatif, 78 option SLSTAY, 132 Probit, 40 Qualité régression linéaire, 26 d’ajustement, 88 sous-modèle, 57 d’ajustement, 140, 145, 146, 148–150 Moyennes ajustées, 104, 105 de classement, 151, 152, 154–156 intervalle de confiance, 105 R2 , voir Coefficient R2 Overdispersion, voir sur-dispersion Régression stepwise, 59, 131, 133, 134, 142 Prédicteur, 34, 35 Résidus, 61 linéaire, 34, 35 de la déviance, 62 Procédures Rapport FORMAT, 132 de cotes, voir Odds ratio instruction INVALUE, 132 des vraisemblances, voir Test du rapport des vraisemblances instruction VALUE, 132 Risques (mesures) FREQ, 68, 69, 72, 74, 81, 82, 85, 87, 90, 98, 103 Cote, 37 GENMOD, 68, 83, 84 logodds, 37 GPLOT, 156, 157 odds, 37, 77, 141 204 Test de Breslow-Day, 96, 97, 99 odds ratio, 39, 77, 78, 80, 81, 83, 86, 87, 95, 108, 141, 147 Test de Paul et Donner, 98, 99, 103 intervalle de confiance, 82, 87 Tests de comparaison de modèles emboîtés, 57 odds ratio ajusté, 98, 99, 106 Type1, 85 odds ratio de Mantel-Haenszel, 95 type3, 104 odds ratio partiels, 96, 102, 106 Wald, 86–88 variance, 80, 87 Transformations, 106 rapport des cotes, voir odds ratio Logit, 37 risque en excès, 76, 78, 79 Probit, 37 intervalle de confiance, 79 Underdispersion, voir sous-dispersion variance, 79 risque relatif, 76, 78, 79 Variables intervalle de confiance, 81 à expliquer, 18 variance, 79 à prédire, 18 ROC, voir Courbe ROC covariable, 25 Schwarz, voir Critère de Schwarz Définition, 17 Score, voir Test du score de comptage, 33, 46 Stepwise, voir Régression stepwise endogènes, 18 exogènes, 18 Tableau de contingence, 110 explicatives, 18 Tests facteur, 25 Asymptotiques, 70, 72, 74 facteur de confusion, 68 Chi-deux, 136, 137, 146, 148–150, 159, 160 nominale, 25, 42, 108, 110 Chi-deux avec correction de continuité, 72 ordinale, 25, 43, 68, 108 Chi-deux de Pearson, 70, 73, 89 prédictrices, 18 de comparison de modèles emboîtés, 53 qualitative, 110 de Hosmer et Lemeshow, 148–150 modalités, 25 de validité d’un modèle, 53 niveaux, 25 de Wald, 134, 135, 138, 139, 141 quantitative du score, 134, 138, 139 continue, 24 Fisher, 71, 74 discrète, 25 Mantel-Haenszel, 72 réponse, 18 Rapport des vraisemblances, 55, 72, 138 Type, 18, 24 Test usuel, 70, 72 Vraisemblance, 48, voir Test du rapport des vrai- Tests d’interaction semblances 205 Index Wald, voir Test de Wald 206 Bibliographie Bibliographie [1] Agresti A. (1990) : Categorical Data Analysis, Wiley, New-York. [2] Agresti, A. (1996) An Introduction to Categorical Data Analysis, Wiley, New York. [3] Albourie, J.M., Tourvieille, J., Tourvieille de Labrouhe, D. (1998) "Resistance to metalaxyl in isolates of the sunflower pathogen Plasmopara halstedii". Europ. J. Plant Pathol. 104, 235-242 [4] Allison P.D. (1999) : Logistic Regression Using the SASr System: Theory and application, SAS Institute Inc., Cary, NC, USA. [5] Bouyer J. et al. (1993) : Epidémiologie : Principes et méthodes quantitatives, Les Editions INSERM. [6] Breslow NE, Day NE (1980) : "Statistical Methods in Cancer Research. Volume 1. The Analysis of CaseControl Studies. "The Analysis of Case-Control Studies. IARC Scientific Publication No 32, International Agency for Research on Cancer, Lyon. [7] Cleveland, W.S., Grosse, E., and Shyu, W.M. (1992) : "Local regression models". In Chambers, J.M. and Hastie, T.J., editors, Statistical models in S, pages 309-376. Wadsworth and Brooks, Pacific Grove, California [8] Collett D. (1999) : Modelling Binary data, Chapman \& Hall/CRC [9] Cook, R. D. and Weisberg, S. (1982) : Residuals and Influence in Regression. Chapman and Hall, New York. 207 [10] Cox D.R. et Snell E.J. (1989) : Analysis of Binary Data , 2nd edition,Chapman \& Hall, London [11] Cox, C. (1996) : "Nonlinear quasi-likelihood models: applications to continuous proportions". Computational Statistics & Data Analysis 21, pp 449-461. [12] Diggle, P.J., 2003, “Statistical Analysis of Spatial Point Patterns, 2nd ed.” Arnold, London (GB) 159 p. [13] Dobson, A.J. (1990) : An introduction to generalized linear models. Chapman & Hall. [14] FPStat (2002) : Plan pour la formation à la statistique. Document du département Biométrie et Intelligence Artificielle de l’INRA. www.inra.fr/bia/T/FPstat/. [15] Glejser, H., 1969, “A New Test for Heteroskedasticity,” Journal of the American Statistical Association, 64, 316-323. [16] Grenet N. (1999) : "Etude de l’origine alimentaire et caractérisation des défauts de tenue et de couleur des gras d’agneaux. Rapport final du projet de recherche "Agriculture Demain" n° 95 G 0109. Compte rendu n° 9993215 [17] Hosmer D. W. et Lemeshow S. (1989) : Applied Logistic Regression, Wiley, New-York. [18] Jammal A., Allard R., Loslier G. (1988) : Dictionnaire d’Epidémiologie, Maloine S.A. 27, rue de l’école de médecine - 75006 Paris (France) [19] Johnson, N.L., Kotz, S., Kemp, A.W., 1992, “Univariate Discrete Distributions, 2nd ed.” Wiley, N.Y. (USA) 565 p. [20] Jones MP, O’Gorman TW, Lemke JH, Woolson RF (1989) : "A Monte Carlo investigation of homogeneity tests of the odds ratio under various sample size configurations". Biometrics 45, 171-181 [21] Katz D., Baptista J., Azen S.P., Pike M.C. (1978) : "Obtaining confidence intervals for the risk ratio in cohort studies" Biometrics 54, 469-474 [22] Mantel N. et Haenszel W. (1959) : "Statistical aspects of the analysis of data from retrospective studies of disease" Journal of the National cancer Institute 22, 719-748 208 Bibliographie [23] McCullagh P. et Nelder J.A. (1989) : Generalized Linear Models 2nd edition, Chapman & Hall, London [24] Nagelkerke N. J .D. (1991) : "A Note on a General Definition of the Coefficient of Determination" Biometrika, 78, 691-692. [25] Paul SR, Donner A. (1989) : "A comparison of tests of homogeneity of oddds ratios in k 2 x 2 tables." Stat Med 8, 1455-1468 [26] SAS Institute Inc. (1999) : SASr Procedures Guide, Version 8, Volumes 1 and 2, SAS Institute Inc., Cary, NC, USA. [27] SAS Institute Inc. (1999) : SASr Language Reference: Dictionary, Version 8, Volumes 1 and 2, SAS Institute Inc., Cary, NC, USA. [28] SAS Institute Inc. (1999) : SAS/GRAPHr Software: Reference, Version 8, Volumes 1 and 2, SAS Institute Inc., Cary, NC, USA. [29] SAS Institute Inc. (1999) - SAS/STATr User’s Guide, Version 8, Volumes 1, 2 and 3, SAS Institute Inc., Cary, NC, USA. [30] Wald A. (1943) : "Tests of statistical hypothesis concerning several parameters when the number of observations is large" Trans. Amer. Math. Soc 54: 426-482 [31] Wedderburn, R.W.M. (1974) : "Quasi-likelihood functions, generalized linear models and the GaussNewton method." Biometrika 61, pp 439-447. [32] Woolf B. (1955) : "On estimating the relationshipn between blood group and disease" Am. Human Gen. 19: 251-253 209