Annexe A - Institut de l`Elevage

publicité
Réseau thématique ACTA n° RT-03/03
GUIDE ILLUSTRE SUR LE
MODELE LINEAIRE GENERALISE
Annexe A au Rapport final
Décembre 2004
Pilote du réseau : Gérard Daumas
Institut Technique du Porc
La Motte au Vicomte, B.P. 35104 - 35651 LE RHEU CEDEX
Tél. 02 99 60 98 43 – Fax : 02.99.60.93.55 - Courriel : [email protected]
Table des matières
Table des matières
6
Liste des tableaux
11
Liste des figures
16
1
Introduction au modèle linéaire généralisé
17
1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.1
Conditions d’utilisation du modèle linéaire . . . . . . . . . . . . . . . . . . . . . . .
18
1.2
Quelques situations en dehors des limites du modèle linéaire . . . . . . . . . . . . . .
20
Les différents types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.1
Y est qualitative à deux modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.2
Y est qualitative à plus de deux modalités . . . . . . . . . . . . . . . . . . . . . . . .
32
2.3
Y est une variable de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Modèles statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.1
34
2
3
Prédicteur du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Table des matières
3.2
Fonction de lien et prédicteurs linéaires . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.3
Y est qualitative à deux modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3.4
Y est qualitative à plus de deux modalités . . . . . . . . . . . . . . . . . . . . . . . .
41
3.5
Y est une variable de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1
Première impression graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.2
Vraisemblance d’un modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.3
Maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
4.4
Propriétés des estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . .
52
Tests de validité et comparaison de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5.1
Déviance du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5.2
Test de la validité par rapport à un sous-modèle . . . . . . . . . . . . . . . . . . . . .
57
5.3
Sélection pas à pas du meilleur modèle . . . . . . . . . . . . . . . . . . . . . . . . .
59
5.4
Contributions individuelles à la déviance résiduelle . . . . . . . . . . . . . . . . . . .
61
6
Modèle logit et discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
7
Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
4
5
2
L’étude de l’association entre variables binaires
(Le modèle logistique avec GENMOD de SASr )
67
1
67
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
3
4
5
6
7
La comparaison de deux pourcentages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
2.1
Le test usuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
2.2
Un test exact, le test de FISHER . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
2.3
L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
Des mesures de l’association entre deux variables binaires . . . . . . . . . . . . . . . . . . .
76
3.1
Les définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.2
Les estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
3.3
L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
Le modèle logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
4.1
L’essai ((gras d’agneaux)), une première analyse sur données agrégées . . . . . . . . .
84
4.2
L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
La prise en compte d’un tiers facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
5.1
Le test de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
5.2
Condition d’utilisation du test de Mantel-Haenszel, le test d’interaction . . . . . . . .
96
5.3
L’analyse des données avec SASr . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
Le modèle logistique avec 2 variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . 101
6.1
un second modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2
L’analyse des données avec SASr
. . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3
Table des matières
3
Analyse d’un pourcentage
1
introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
2
essai phytosanitaire - présentation de l’exemple . . . . . . . . . . . . . . . . . . . . . . . . . 110
3
SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4
4
109
3.1
Utilité du lien logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.2
Estimation du modèle avec introduction d’un facteur de surdispersion . . . . . . . . . 114
3.3
Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Le modèle multinomial nominal
125
1
Introduction : exemple (( carcasses )) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
2
Où le modèle linéaire généralisé est incontournable . . . . . . . . . . . . . . . . . . . . . . . 127
3
Modèle multinomial nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4
Mise en œuvre sous SAS: exemple ((carcasses)) . . . . . . . . . . . . . . . . . . . . . . . . . 130
5
4.1
Lecture des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.2
Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.3
Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.4
Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.5
Interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Récapitulatif des commandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4
5
Régression logistique avec la procédure LOGISTIC
1
Les données utilisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
2
La régression stepwise avec la procédure LOGISTIC . . . . . . . . . . . . . . . . . . . . . . 147
3
6
145
2.1
Le programme SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
2.2
Les sorties de la procédure LOGISTIC . . . . . . . . . . . . . . . . . . . . . . . . . 151
Le modèle final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.1
Les variables retenues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.2
Le programme SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
3.3
Les sorties de la procédure LOGISTIC . . . . . . . . . . . . . . . . . . . . . . . . . 161
Modèle log-linéaire pour les données de comptage
181
1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
2
Dispositif expérimental et données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3
L’analyse de variance des comptages, et ses limites . . . . . . . . . . . . . . . . . . . . . . . 183
4
Retour sur le phénomène étudié et justification d’un modèle log-linéaire . . . . . . . . . . . . 187
4.1
Modèle multiplicatif de l’espérance du comptage . . . . . . . . . . . . . . . . . . . . 189
4.2
Loi du comptage, connaissant son espérance (loi conditionnelle) . . . . . . . . . . . . 190
4.3
Modèle log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
5
Pourquoi pas une transformation de variable? . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6
Ajustement d’un modèle log-linéaire et de ses variantes . . . . . . . . . . . . . . . . . . . . . 194
5
Table des matières
6.1
Choix d’une relation entre moyenne et variance . . . . . . . . . . . . . . . . . . . . . 194
6.2
Choix d’un modèle pour l’espérance : élimination de l’interaction . . . . . . . . . . . 198
7
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
8
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
Index
203
Index
203
Bibliographie
207
6
Liste des tableaux
1.1
Extrait de données d’intention d’achat. La promesse d’achat prend les valeurs 0 (lorsque le
sondé achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit) . . . . . . . . .
1.2
20
Nombre de plantules avec sporulations (dans des bacs de 7 plantules) pour différentes doses de
fongicide et différentes races de mildiou inoculé. . . . . . . . . . . . . . . . . . . . . . . . .
22
1.3
Épaisseur de muscle (en mm) et génotype de carcasses de porcs. . . . . . . . . . . . . . . . .
24
1.4
Extrait de données concernant le comportement de clients d’un magasin vendant du vin. . . .
26
1.5
Correspondance entre résultats détaillés et synthèse par dénombrement . . . . . . . . . . . . .
31
1.6
Nombres d’agneaux ayant un gras coloré. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
1.7
Ancienneté et état des poumons de 371 mineurs (McCullagh & Nelder, 1983). . . . . . . . . .
44
1.8
Estimation par la méthode du maximum de vraisemblance dans le cas des données d’intention
d’achat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Coefficients estimés du modèle complet pour les données (( tournesol )) . . . . . . . . . . . . .
56
1.10 Analyse de la déviance du modèle complet pour les données (( tournesol )) . . . . . . . . . . .
56
1.11 Analyse de la déviance du modèle avec interaction pour les données (( tournesol )). . . . . . . .
59
1.12 Descripteurs sensoriels des sandwichs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
1.9
7
Liste des tableaux
1.13 Sélection d’un sous-ensemble pertinent de descripteurs sensoriels. En italique, les probabilités
critiques conduisant à considérer que le modèle n’est pas intéressant. En gras, la probabilité
critique du modèle sélectionné. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
2.1
Les données de l’essai ((gras coloré)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
2.2
La répartition selon l’aliment et la couleur du gras . . . . . . . . . . . . . . . . . . . . . . . .
69
2.3
Les données binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
2.4
Les tests approchés avec FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
2.5
Le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
2.6
L’option cmh1 de FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
2.7
Les estimations de RR et OR dans FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
2.8
L’intervalle de confiance exact de OR dans FREQ . . . . . . . . . . . . . . . . . . . . . . . .
82
2.9
Les 4 profils d’animaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
2.10 Le code SASr du modèle ((couleur = aliment)) . . . . . . . . . . . . . . . . . . . . . . . . .
85
2.11 Le test du rapport de vraisemblance de l’effet ((alimentation)) . . . . . . . . . . . . . . . . . .
85
2.12 Les moyennes ajustées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
2.13 Estimation de l’odds ratio de l’alimentation . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
2.14 La qualité d’ajustement du modèle ((couleur=alimentation)) . . . . . . . . . . . . . . . . . . .
89
2.15 La prise en compte du logement avec FREQ . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
2.16 Le test d’interaction ((logement*aliment)) avec FREQ . . . . . . . . . . . . . . . . . . . . . . 100
2.17 Le code SASr du modèle ((couleur = logement+aliment+aliment*logement)) . . . . . . . . . 102
8
2.18 Les déviances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.19 Les tests de type1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.20 Les moyennes ajustées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2.21 Les odds ratio de l’alimentation conditionnellement au type de logement . . . . . . . . . . . . 106
3.1
données de l’essai porte-greffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.1
données ((carcasses)) : effectifs observés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.2
données ((carcasses)) : proportions observées . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.1
Croisement entre ∆TP et traitement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2
Variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
5.3
Code SAS – Procédure LOGISTIC (( stepwise )) . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.4
Etape 0 – Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 152
5.5
Etape 0 – Test du Khi-deux résiduel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5.6
Etape 0 – Critères absents du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.7
Etape 1 – Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.8
Etape 1 – Critères d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.9
Etape 1 – Estimateurs du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 156
5.10 Etape 1 – Odds ratios estimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.11 Etape 1 – Critères présents dans le modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
9
Liste des tableaux
5.12 Etape 1 – Critères absents du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.13 Tableau récapitulatif de la régression logistique (( stepwise )) . . . . . . . . . . . . . . . . . . 160
5.14 Variables explicatives retenues par la régression logistique (( stepwise )) . . . . . . . . . . . . 160
5.15 Code SAS – Procédure LOGISTIC finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.16 Modèle final – Critères d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.17 Modèle final – R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
5.18 Modèle final – Test global du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
5.19 Modèle final – Odds ratios estimés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
5.20 Modèle final – Intervalles de confiance des odds ratios . . . . . . . . . . . . . . . . . . . . . 164
5.21 Modèle final – Partition pour le test de Hosmer et Lemeshow . . . . . . . . . . . . . . . . . . 167
5.22 Modèle final – Test de Hosmer et Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
5.23 Modèle final – Croisement entre répartition observée et répartition prédite . . . . . . . . . . . 168
5.24 Modèle final – Estimation de la sensibilité et de la spécificité . . . . . . . . . . . . . . . . . . 169
5.25 Modèle final – Tableau de classement avec probabilité a priori de 38 % . . . . . . . . . . . . . 170
5.26 Modèle final – Tableau de classement avec probabilité a priori de 23,3 % . . . . . . . . . . . . 171
5.27 Modèle final – Code SAS – Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
5.28 Modèle final – Extrait de la table de sortie ROC . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.29 Modèle final – Diagnostics 1ière partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.30 Modèle final – Diagnostics 2ième partie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
10
5.31 Modèle final – Nuages de points obtenus par l’option IPLOTS . . . . . . . . . . . . . . . . . 180
6.1
Nombre de points collants par échantillon dans l’expérimentation humidité x coton . . . . . . 184
6.2
Nombre de points collants par échantillon dans l’expérimentation humidité x coton . . . . . . 185
6.3
Relation entre moyenne et variance pour quelques lois de probabilité courantes . . . . . . . . 189
6.4
Essai de différentes transformations de variables avant analyse de variance : tests d’homogénéité de variance et d’interaction coton x humidité . . . . . . . . . . . . . . . . . . . . . . . . 193
11
Table des figures
1.1
Variations de la teneur en viande maigre en fonction d’une épaisseur de gras (haut) et en fonction du sexe de la carcasse (bas). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
19
Lien entre les promesses d’achat et les notes hédoniques attribuées par 36 juges. La promesse
d’achat prend les valeurs 0 (lorsque le sondé achèterait le produit) ou N (lorsque le sondé
n’achèterait pas le produit). Notons que, pour éviter les superpositions de points, les valeurs de
note globale représentées sur le graphique sont légèrement modifiées par rapport aux valeurs
mesurées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
21
Proportion de plantules avec sporulations en fonction du logarithme de la dose (afin de visualiser toutes les mesures, le logarithme de la dose a été perturbé de manière aléatoire en chaque
point). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1.4
Type génétique et épaisseur de muscle de carcasses de porcs. . . . . . . . . . . . . . . . . . .
25
1.5
Nombre de bouteilles examinées par un client en fonction du logarithme de son temps de séjour
en magasin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
1.6
Types de variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
1.7
Relation entre variance et espérance d’une loi conditionnelle dans le cas où Y est qualitative à
deux modalités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
29
Liste des figures
1.8
Relation entre promesse d’achat et note hédonique. Pour chaque valeur de la note hédonique, la
proportion d’acheteurs potentiels du sandwich est représentée par un cercle. Pour éviter les superpositions de points, les valeurs de note globale représentées sur le graphique sont légèrement
modifiées par rapport aux valeurs mesurées. . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
Prédicteurs du modèle logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
1.10 Relation entre le logodds de la promesse d’achat et la note hédonique. . . . . . . . . . . . . .
38
1.11 Interprétation des paramètres de la surface de réponse. Dans tous les exemples, β0 = −5β1 . . .
39
1.12 Modèle logistique multinomial représentant le lien entre type génétique et épaisseur de muscle.
43
1.9
1.13 Ajustement du modèle à risques proportionnels aux données sur la maladie des poumons des
mineurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
1.14 Modèle log-linéaire pour les données de comportements de clients en magasin. . . . . . . . .
47
1.15 Comparaison de 2 modèles logit pour les données d’intention d’achat. . . . . . . . . . . . . .
50
1.16 Vraisemblance du modèle logit. Exemple des données d’intention d’achat . . . . . . . . . . .
51
1.17 Ajustement d’un modèle de régression logistique (courbe noire). Les courbes en gris sont les
limites d’un intervalle de confiance d’estimation de niveau 95 %. Exemple des données d’intention d’achat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
1.18 Ajustement du modèle saturé, du modèle complet et du modèle nul sur les données (( tournesol )). 55
1.19 Ajustement du modèle avec interaction (en haut) et du modèle sans interaction (en bas) sur les
données (( tournesol )). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
1.20 Détection de données mal ajustées (les points désignés par les les lettres (( R )) ou (( S )) selon la
race du mildiou) par l’analyse des résidus de la déviance. . . . . . . . . . . . . . . . . . . . .
63
1.21 Discrimination logit. Exemple des données d’intention d’achat. Les cercles désignent les données correctement affectées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
64
1.22 Choix de la meilleure valeur du seuil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
65
Relation entre la dispersion des valeurs des traitements et leur moyenne. Valeurs initiales et
logits correspondants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.1
Ce qu’il ne faut pas faire : une régression linéaire simple par type génétique. Résidus en fonction
des probabilités prédites, pour le type génétique g1. . . . . . . . . . . . . . . . . . . . . . . . 128
4.2
Exemple ’carcasse’ : vérification a priori de la linéarité de l’effet épaisseur de muscle : (a)
proportions en fonction de l’épaisseur de muscle; (b) logit empirique en fonction de l’épaisseur
de muscle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.3
Exemple ((carcasse)) : proportions associées aux différents génotypes, en fonction de l’épaisseur de muscle. Les courbes correspondent aux probabilités estimées sans (a) ou avec (b) les
intervalles de confiance à 95%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4.4
Exemple ((carcasse)) : résidus de Pearson en fonction (a) de l’épaisseur de muscle; (b) des probabilités prédites. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.1
Etape 1 – 3 tests possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.2
Modèle final – Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
6.1
Mise en évidence d’une distribution trop aplatie des résidus de l’analyse de variance, traduisant
une hétérogénéité de la variance résiduelle : (a) histogramme et densité d’une loi gaussienne;
(b) graphique quantile (qqplot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
6.2
(a) mise en évidence d’une hétérogénéité de variance en croisant les résidus de l’analyse de variance avec les valeurs prédites (b) mise en évidence d’une interaction multiplicative en croisant
les valeurs moyennes par coton et par humidité avec la valeur moyenne par coton . . . . . . . 187
6.3
Comparaison de trois répartitions spatiales de points
(a) répartition au hasard : le nombre de points par échantillon suit une loi de Poisson (b) répartition en agrégats : le nombre de points par échantillon suit une loi de
(c) densité non homogène : le nombre de points par échantillon suit une loi binomiale . . . . . 188
15
Liste des figures
6.4
Résidus de déviance du modèle log-linéaire : (a) graphique quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la prédiction) . . . . . . . . . . . . . . . . . . 195
6.5
Résidus de déviance du modèle à lien logarithme et distribution binomiale négative : (a) graphique quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la
prédiction) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
16
Introduction au modèle linéaire généralisé (Causeur, D.)
Chapitre 1
Introduction au modèle linéaire généralisé
Causeur, D.
Agrocampus Rennes
Laboratoire de Mathématiques Appliquées
65, rue de St-Brieuc, CS84215 - 35042 Rennes cedex
[email protected]
1
Introduction
Un des objectifs de cette introduction à la modélisation linéaire généralisée est de faire l’inventaire de questions
qu’il est important de se poser au moment d’entreprendre un traitement de données. Ces questions interviennent
donc à un stade de la démarche statistique où la réflexion sur la mesure du phénomène étudié a abouti à la définition d’un ensemble de caractéristiques pertinentes, appelées les variables du problème. Par exemple, dans
le contexte agricole et dans les problèmes de sélection végétale ou animale en particulier, il est classique de
retrouver parmi ces variables des mesures de rendement, d’autres caractérisant la qualité de l’environnement
ou encore des informations sur le génotype des plantes ou des animaux qui font l’objet de l’étude. On le voit,
toutes les variables n’ont pas le même statut : en effet, certaines d’entre elles, en l’occurence ici les mesures de
rendement, sont la cible de l’étude au sens où l’objectif de l’analyse est de comprendre comment ou pourquoi
17
Introduction au modèle linéaire généralisé (Causeur, D.)
ces quantités varient. Selon les domaines d’application et les logiciels, la terminologie diffère pour définir ces
variables : on choisit pour la suite le terme variables à expliquer plutôt que variables réponses, variables à prédire ou variables endogènes. Par opposition, d’autres variables, ici les informations d’ordre environnemental ou
génétique, apparaissent comme des sources de variabilité potentielles de ces variables à expliquer. Par analogie
avec le choix de vocabulaire justifié ci-dessus, on choisit d’appeler ces variables les variables explicatives
plutôt que prédictrices ou exogènes.
L’étude du lien entre les variables à expliquer et les variables explicatives passe maintenant par le choix d’une
méthode statistique adaptée à la nature de leurs relations. En fait, chacune de ces méthodes statistiques s’appuie
sur une représentation mathématique de ces relations, que l’on appelle le modèle statistique. Pour qu’il permette de mieux comprendre comment les variables à expliquer sont liées aux variables explicatives, il faut que
ce modèle soit d’une part un bon compte-rendu de la réalité et d’autre part une représentation simple, réduite à
l’essentiel, de cette réalité. Dans de nombreuses situations, les très populaires modèles linéaires de régression et
d’analyse de la variance présentent ces deux qualités : il ne trahissent pas la réalité et leur linéarité leur confère
une simplicité très attractive.
1.1
Conditions d’utilisation du modèle linéaire
L’utilisation des modèles linéaires est limitée à certaines conditions que l’on peut décrire à partir des exemples
représentés sur la figure 1.1. Les graphes de cette figure représentent les variations des mesures de teneur en
viande maigre (en kg de muscle par quintal) de 344 carcasses de porc selon les mesures d’une épaisseur de gras
(en mm) d’une part et selon le sexe de la carcasse d’autre part. La variable à expliquer commune à ces deux
exemples est la teneur en viande maigre. La variable explicative quant à elle est, selon le cas, soit l’épaisseur
de gras soit le sexe.
La 1ère condition d’application du modèle linéaire porte sur le type de la variable à expliquer. En l’occurence,
l’utilisation du modèle linéaire suppose que cette variable soit mesurable sur une échelle continue, à l’instar de
la teneur en viande maigre et de nombreux autres indicateurs de rendement.
La 2ème condition porte sur la distribution des valeurs de la variable à expliquer pour une valeur donnée de la
variable explicative. Cette distribution s’appelle la loi conditionnelle de la variable à expliquer connaissant la
variable explicative. Comme le montrent les courbes de densité de probabilité représentées sur les graphes de la
figure 1.1, pour une épaisseur de gras donnée ou pour un sexe donné, la teneur en viande maigre se répartit de
manière symétrique autour d’une position centrale. Plus précisément, la normalité de la loi conditionnelle est un
pré-requis à l’application du modèle linéaire. Bien évidemment, ces deux conditions d’application constituent
18
Introduction au modèle linéaire généralisé (Causeur, D.)
Teneur en viande maigre (kg/quintal)
65
60
55
50
8
10
12
14
16
18
Epaisseur de gras (mm)
Teneur en viande maigre (kg/quintal)
65
60
55
50
Femelle
Male
Sexe
F IG . 1.1: Variations de la teneur en viande maigre en fonction d’une épaisseur de gras (haut) et en fonction du
sexe de la carcasse (bas).
un préalable à l’utilisation du modèle linéaire mais ne suffisent pas à spécifier entièrement le modèle. Par
exemple, notons que l’utilisation du modèle linéaire suppose que l’écart-type de la loi conditionnelle soit le
même, quelque soit la valeur de la variable explicative. Pour reprendre l’exemple de la teneur en viande maigre,
ceci signifie que les dispersions des valeurs observées pour une épaisseur de gras donnée ne dépendent pas de
la valeur de cette épaisseur ou que les dispersions intra-sexes sont les mêmes.
19
Introduction au modèle linéaire généralisé (Causeur, D.)
La 1ère étape de l’analyse, déterminante dans le choix du modèle statistique, consiste donc à caractériser le
type de la variable à expliquer et la forme de la loi conditionnelle.
1.2
Quelques situations en dehors des limites du modèle linéaire
On présente quelques situations courantes échappant au domaine d’utilisation classique du modèle linéaire.
Afin d’apporter une réponse adaptée à chacune de ces situations, l’ensemble des modèles statistiques que nous
envisageons dans la suite étend celui des modèles linéaires. Toutefois, afin de préserver toute la souplesse d’interprétation des modèles linéaires, l’élargissement des conditions d’utilisation se limitera à un cadre préservant
une forme de linéarité du modèle : on parle alors de modèle linéaire généralisé.
Exemple : promesse d’achat d’un produit alimentaire. Le tableau 1.1 reproduit un extrait des résultats d’une
dégustation de sandwiches par 36 juges. Cet extrait se limite à deux variables : d’une part, la promesse d’achat
qui correspond à la réponse par oui (codée par la suite 1) ou non (codée 0) à la question (( achèteriez-vous ce
sandwich? )) et d’autre part, la note hédonique attribuée par le juge au produit sur une échelle entière allant de 1
à 10. L’objectif est ici d’étudier la relation entre la promesse d’achat, variable à expliquer, et la note hédonique,
variable explicative.
Promesse d’achat
Note globale
1
0
6
2
N
7
3
N
5
4
0
9
5
0
8
6
..
.
0
..
.
5
..
.
TAB . 1.1: Extrait de données d’intention d’achat. La promesse d’achat prend les valeurs 0 (lorsque le sondé
achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit)
Le graphique de la figure 1.2 représente le nuage des valeurs observées des notes hédoniques et promesses
d’achat. Comme dans le cas de la régression linéaire, ce type de graphique est traditionnellement utilisé, en
20
Introduction au modèle linéaire généralisé (Causeur, D.)
Promesse d’achat
O
N
0
1
2
3
4
5
6
7
8
9
10
Note hedonique
F IG . 1.2: Lien entre les promesses d’achat et les notes hédoniques attribuées par 36 juges. La promesse d’achat
prend les valeurs 0 (lorsque le sondé achèterait le produit) ou N (lorsque le sondé n’achèterait pas le produit).
Notons que, pour éviter les superpositions de points, les valeurs de note globale représentées sur le graphique
sont légèrement modifiées par rapport aux valeurs mesurées.
préalable à l’ajustement, pour décrire l’évolution des valeurs de la variable à expliquer en fonction de celles de
la variable explicative.
La forme du nuage de points, structuré en deux sous-nuages horizontaux, est liée à la nature de la variable à
expliquer, binaire. Il en résulte aussi qu’à l’évidence, faire le postulat que, pour une note hédonique donnée,
les valeurs de la variable à expliquer se répartissent selon une loi normale est en contradiction avec la réalité
observée. 2
Exemple : résistance du tournesol au mildiou. Les données dont un extrait est présenté dans le tableau 1.2
proviennent d’une expérience mise en place par l’équipe pathologie du tournesol, laboratoire INRA de pathologie et de mycologie de la station d’amélioration des plantes de Clermont-Ferrand (voir [3]) 1 . L’objectif de
l’expérience est d’étudier l’effet d’un traitement fongicide sur 2 races de mildiou, dont l’une, notée R, présente
une résistance au fongicide par mutation. L’expérience consiste à inoculer le champignon parasite à des groupes
de 7 plantules et à mesurer le nombre de plantules présentant des signes d’infection, à savoir une sporulation.
1. Cet exemple sert aussi d’illustration au chapitre consacré au modèle linéaire généralisé du plan de formation à la statistique
proposé par le département Biométrie et Intelligence Artificielle de l’INRA. (Voir [14])
21
Introduction au modèle linéaire généralisé (Causeur, D.)
Dans cet exemple, la variable à expliquer est la proportion de plantes avec sporulations par bac et les variables
explicatives sont d’une part la race du mildiou inoculé et d’autre part la dose de fongicide ou plus judicieusement, comme nous le verrons plus loin, le logarithme de la dose.
Groupe
Race
Dose
Sporulations
Proportion de
Nombre de plantules
sporulations
1
S
0,001
5
0.71
7
2
S
0,001
6
0.86
7
3
S
0,001
7
1.00
7
4
S
0,001
7
1.00
7
5
S
0,001
7
1.00
7
6
S
0,001
5
0.71
7
7
S
0,02
7
1.00
7
8
..
.
S
..
.
0,02
..
.
7
..
.
1.00
..
.
7
TAB . 1.2: Nombre de plantules avec sporulations (dans des bacs de 7 plantules) pour différentes doses de
fongicide et différentes races de mildiou inoculé.
Le graphique de la figure 1.3 montre l’évolution de la proportion de sporulations en fonction du logarithme de la
dose de fongicide. Il apparaît assez nettement sur ce graphique que les évolutions sont très différentes pour les
2 races de mildiou. D’autre part, le graphique met également bien en évidence la non-pertinence des postulats
du modèle linéaire, en particulier ceux concernant la normalité de la loi conditionnelle et l’homogénéité de sa
variance. 2
Exemple : lien entre génotype et épaisseur tissulaire. Dans de nombreux pays de l’Union Européenne, la
teneur en viande maigre d’une carcasse de porc est évaluée à partir d’épaisseurs tissulaires mesurées en différents sites sur la carcasse. Les méthodes d’évaluation de la teneur en viande maigre ne tiennent en revanche pas
compte du type génétique, exposant ainsi la prédiction à un biais entre les différents génotypes. Une manière de
réduire le biais passe par la construction d’un modèle de prédiction du génotype par les épaisseurs tissulaires.
La variable à expliquer est donc ici le génotype de la carcasse, variable qualitative nominale dont les modalités
sont notées LWP (LargeWhite × Piétrain), LWLF (LargeWhite × Landrace Français), PAL (Pen-ar-Lan) et P
22
Introduction au modèle linéaire généralisé (Causeur, D.)
Proportion de plantes avec sporulations
1.0
0.8
0.6
0.4
0.2
Race Sensible
Race Resistante
0.0
-8.5
-6.0
-3.5
-1.0
1.5
4.0
6.5
9.0
Logarithme de la dose de fongicide
F IG . 1.3: Proportion de plantules avec sporulations en fonction du logarithme de la dose (afin de visualiser
toutes les mesures, le logarithme de la dose a été perturbé de manière aléatoire en chaque point).
(Piétrain). La variable explicative est une épaisseur de muscle (en mm). Un extrait de données est fourni dans
le tableau 1.3 et le graphique de la figure 1.4 illustre ces données. Là encore, le nuage de points représenté sur
le graphique de la figure 1.4 ne ressemble pas au nuage elliptique propice à l’utilisation du modèle linéaire. Ces
données font l’objet d’une analyse détaillée dans le chapitre 4 2
Exemple : comportement de clients en magasin. Les chercheurs du département Marketing de Texas Tech
University s’intéressent à l’effet des conditions d’ambiance en magasin sur le comportement des clients. Pour
cela, ils mettent en place une expérience consistant à observer le comportement de clients d’un magasin commercialisant du vin, à travers la durée de présence dans le magasin, le nombre de fois qu’un client sort une
bouteille du rayonnage, le nombre de bouteilles achetées ... dans différentes conditions de luminosité (douce
ou forte) et de musique d’ambiance (classique ou pop). Un extrait des données est reproduit dans le tableau
1.4. Le graphique de la figure 1.5 illustre le lien entre le nombre de bouteilles examinées par un client et la
durée de son passage dans le magasin. Parmi les enseignements à tirer de ce graphique, il apparaît à l’évidence
que le nombre moyen de bouteilles examinées, mais aussi la dispersion de ce nombre, est d’autant plus grand
que la durée de séjour en magasin est longue. C’est notamment cette dernière remarque qui va à l’encontre des
hypothèses traditionnelles justifiant l’utilisation du modèle linéaire classique. 2
23
Introduction au modèle linéaire généralisé (Causeur, D.)
Epaisseur de
Génotype
muscle (en mm)
1
51.48
LWP
2
52.24
LWP
3
57.74
PAL
4
56.98
PAL
5
57.36
LWP
6
56.61
LWP
7
61.16
LWP
8
45.97
LWLF
9
55.09
LWLF
10
..
.
54.71
..
.
LWLF
..
.
TAB . 1.3: Épaisseur de muscle (en mm) et génotype de carcasses de porcs.
2
Les différents types de variables
Dans la suite, on utilise les notations traditionnelles du modèle linéaire : Y désigne la variable à expliquer et
x = (x(1) , x(2) , . . . , x(p) ) le vecteur des mesures des p variables explicatives. Le plus souvent, dans les exemples
illustratifs, on se limitera au cas d’une seule variable explicative.
Comme on l’a vu, il est important dans un premier temps d’identifier le type de la variable à expliquer avant
d’aller plus loin dans la démarche de modélisation. La typologie schématisée dans la figure 1.6 est relativement
standard. Elle met en avant deux grandes familles de variables :
• les variables quantitatives, que l’on mesure par des valeurs numériques. La teneur en viande maigre d’une
carcasse (en kg/quintal) et le nombre de cibles détruites par un fongicide sont deux exemples de variables
quantitatives. Remarquons que les valeurs prises par la teneur en viande maigre se répartissent sur un
intervalle continu : on dit que cette variable est quantitative continue. En revanche, les valeurs prises
par le nombre de cibles détruites étant cantonnées aux entiers naturels, on parle de variable quantitative
24
Introduction au modèle linéaire généralisé (Causeur, D.)
PAL
Type genetique
P
LWP
LWLF
45
50
55
60
65
70
Epaisseur de muscle (en mm)
F IG . 1.4: Type génétique et épaisseur de muscle de carcasses de porcs.
discrète.
• les variables qualitatives, que l’on ne peut mesurer par des valeurs numériques. La couleur d’un produit
alimentaire et son niveau de qualité (notée A, B, C, D) constituent deux exemples de variables qualitatives. Ici, les valeurs prises par la couleur ne peuvent a priori pas être rangées selon un ordre logique. On
parle alors de variable nominale et on appelle modalités les valeurs de cette variable. En revanche, les
valeurs prises par la qualité peuvent être rangées selon un ordre de qualité croissante ou décroissante. On
parle alors de variable ordinale et on appelle niveaux les valeurs de cette variable.
Remarquons que, si l’examen de la nature de la variable à expliquer est une étape fondamentale dans le choix
du modèle statistique, celui de la nature des variables explicatives est également très important. Lorsqu’une
variable explicative est qualitative, on l’appelle aussi facteur. De même, lorsqu’elle est quantitative, on utilise
parfois le terme covariable. Dans le cadre du modèle linéaire, lorsque toutes les variables explicatives sont
25
Introduction au modèle linéaire généralisé (Causeur, D.)
Luminosité
Musique
Durée
...
(minutes)
Client
Nombre de
Nombre de
Nombre de
bouteilles
bouteilles
bouteilles
examinées
extraites
achetées
1
Douce
Classique
2.0
...
0
0
0
2
Douce
Classique
1.0
...
0
0
0
3
Douce
Classique
0.5
...
0
0
0
4
Douce
Classique
2.3
...
16
0
0
5
Douce
Classique
2.2
...
1
1
0
6
Douce
Classique
1.7
...
1
0
0
7
Douce
Classique
42.7
...
11
3
1
8
Douce
Classique
3.0
...
0
0
0
9
..
.
Douce
..
.
Classique
..
.
0.7
..
.
...
..
.
0
..
.
0
..
.
0
..
.
TAB . 1.4: Extrait de données concernant le comportement de clients d’un magasin vendant du vin.
quantitatives, on parle de modèles de régression linéaire. A l’opposé, si toutes les variables explicatives sont
qualitatives, le modèle linéaire devient modèle d’analyse de la variance. L’extension que nous présentons par
la suite ne porte que sur la nature de la variable à expliquer : pour chaque type de variable, on retrouve donc
toute la gamme des modèles bien connus dans le cadre linéaire, de la régression à l’analyse de la variance.
Dans la suite, on passe en revue les différents types de variables à expliquer dans un ordre de complexité
croissante.
2.1 Y est qualitative à deux modalités
Quoiqu’en apparence très basique, cette situation est en fait assez fréquente. Par exemple, les sciences animales
et végétales sont de grandes consommatrices de ce type de modèle : la variable à expliquer peut alors être la
réussite ou non d’un traitement, la présence ou non d’un état de grossesse, etc.
26
Introduction au modèle linéaire généralisé (Causeur, D.)
Nombre de bouteilles examinees
20
15
10
5
0
0
1
2
3
4
5
Logarithme de la duree de sejour en magasin
F IG . 1.5: Nombre de bouteilles examinées par un client en fonction du logarithme de son temps de séjour en
magasin.
Dans la suite, par convention, les deux valeurs prises par la variable à expliquer sont 0 et 1. Dans de nombreuses
situations, la valeur 1 code la modalité (( positive )). Par exemple, si les états de la variable sont (( réussite )) et
(( échec )), le 1 code la valeur (( réussite )).
Exemple : promesse d’achat d’un produit alimentaire. Le tableau 1.1 illustre la forme générale sous laquelle
se présentent les données par un extrait des résultats d’une dégustation de sandwiches par n = 36 juges. Ici, la
variable à expliquer est la promesse d’achat qui correspond à la réponse par oui (codée par la suite 1) ou non
(codée 0) à la question (( achèteriez-vous ce sandwich? )) alors que la variable explicative est la note hédonique
x. 2
Pour une valeur donnée x des variables explicatives, la loi conditionnelle de Y est dite loi de Bernoulli et est
27
Introduction au modèle linéaire généralisé (Causeur, D.)
Types de variables
Variable qualitative
Nominale
Variable quantitative
Ordinale
Discrete
Continue
Nombre de
Teneur en viande
Couleur ∈
Qualite ∈
cibles detruites ∈
maigre ∈
{ bleu , rouge , vert }
{ A,B,C,D }
{ 0,1,2, ... }
{ 0,1,2, ... }
F IG . 1.6: Types de variables.
complètement définie par la relation suivante :
Px (Y = 1) = π(x),
où π(x) est une fonction des variables explicatives telle que, pour tout x, 0 ≤ π(x) ≤ 1.
Traditionnellement, π(x) et 1 − π(x) s’interprètent comme des Risques (mesures) : par exemple, si Y est le
résultat d’un traitement médical, ces deux quantités formalisent respectivement la probabilité de réussite codée
1 et le risque d’échec codé 0.
Notons que l’espérance et la variance de la loi conditionnelle se déduisent directement de π(x) :
Ex (Y ) = π(x),
Varx (Y ) = π(x) [1 − π(x)] .
On déduit en particulier des relations précédentes une propriété intéressante de la loi conditionnelle lorsque Y
est qualitative à 2 modalités : la variance de cette loi dépend de son espérance. La forme de la relation varianceespérance est décrite par le graphique de la figure 1.7. Il apparaît clairement sur ce graphique que, lorsque π(x)
28
Introduction au modèle linéaire généralisé (Causeur, D.)
est proche de 0 ou de 1, la variance de la loi conditionnelle est proche de 0, alors que celle-ci est maximale
lorsque π(x) est proche de 0.5.
0.00
0.05
conditionnelle
0.10
0.15
0.20
0.25
Variance de la loi
0.0
0.2
0.4
0.6
0.8
1.0
π(x)
F IG . 1.7: Relation entre variance et espérance d’une loi conditionnelle dans le cas où Y est qualitative à deux
modalités.
Exemple : promesse d’achat d’un produit alimentaire. Ici, π(x) est la probabilité qu’un acheteur ayant attribué la note x au produit l’achète. La propriété énoncée plus haut se traduit concrètement sur le graphique de la
figure 1.8 par le fait que :
• pour de faibles valeurs de x, π(x) est presque nulle et effectivement la valeur de Y varie alors très peu de
0,
• pour des valeurs x autour de 6, π(x) semble proche de 0.5 et alors les valeurs de Y se répartissent presqu’équitablement entre 0 et 1,
• pour des valeurs élevées de x, π(x) est presque égal à 1 et alors la valeur de Y varie très peu de 1. 2
Lorsqu’il est possible de contrôler, en conditions expérimentales par exemple, les valeurs prises par les variables
explicatives, alors on peut disposer de plusieurs valeurs de Y pour une même valeur de x. Dans ce cas, il est
tentant de mener l’étude, non pas à partir des valeurs binaires de Y correspondant aux résultats individuels,
mais plutôt à partir du dénombrement par valeur de x des résultats pour lesquels Y prend la valeur 1. En fait,
29
Introduction au modèle linéaire généralisé (Causeur, D.)
0.0
0.2
0.4
0.6
0.8
1.0
Promesse d’achat
2
4
6
8
10
Note hedonique
F IG . 1.8: Relation entre promesse d’achat et note hédonique. Pour chaque valeur de la note hédonique, la
proportion d’acheteurs potentiels du sandwich est représentée par un cercle. Pour éviter les superpositions de
points, les valeurs de note globale représentées sur le graphique sont légèrement modifiées par rapport aux
valeurs mesurées.
lorsque les unités statistiques sont indépendantes, il est équivalent de travailler sur les données individuelles et
sur les données ainsi groupées. Le tableau 1.5 illustre cette manière d’agréger les données : pour une valeur de
x fixée pour laquelle on dispose de nx répétitions de Y , Z désigne le nombre d’unités statistiques, parmi ces nx
répétitions, pour lesquelles Y prend la valeur 1.
Exemple : résistance du tournesol au mildiou. Dans cet exemple, on peut considérer que Y est qualitative à
deux modalités, à savoir l’observation ou non d’une sporulation sur une plantule. Comme pour chaque valeur
du couple (dose, race) on dispose de 7 mesures indépendantes de Y , il est aussi possible de considérer que
la variable à expliquer est le nombre de plantules présentant une sporulation dans chaque bac ou encore la
proportion de ces plantules. C’est ainsi que se présentent les données dans le tableau 1.2. 2
Pour une valeur x donnée des variables explicatives, si l’on peut considérer que les nx mesures de Y sont
indépendantes, alors la loi de Z est la loi binomiale notée de la manière suivante :
Z ∼ B [nx , π(x)] .
30
(1.1)
Introduction au modèle linéaire généralisé (Causeur, D.)
Données individuelles
Données groupées
(agrégées)
x
Y
1
0
1
2
0
1
3
0
0
4
0
0
5
1
1
6
1
0
7
1
0
8
2
1
9
2
1
10
..
.
2
..
.
1
..
.
x
Z
nx
0
2
4
1
1
3
2
..
.
3
..
.
3
⇒
TAB . 1.5: Correspondance entre résultats détaillés et synthèse par dénombrement
Ici aussi, l’espérance et la variance de la loi conditionnelle se déduisent directement de π(x) :
Ex (Z) = nx π(x),
Varx (Z) = nx π(x) [1 − π(x)] .
A l’instar de la représentation des données (( tournesol )) sur le graphique de la figure ??, une variante toute
aussi intuitive de l’agrégation des données consiste à résumer les informations individuelles par les proportions
Z/nx dont l’espérance et la variance conditionnelle sont données par :
Z
= π(x),
Ex
nx
Z
π(x) [1 − π(x)]
=
.
Varx
nx
nx
Exemple : l’essai gras coloré. Cet exemple est traité en détail dans le chapitre 2. Il concerne l’étude des effets
de l’alimentation et du mode de logement sur la couleur du gras d’agneaux (voir Grenet, 1999). Dans cette
31
Introduction au modèle linéaire généralisé (Causeur, D.)
étude, la variable à expliquer est la coloration du gras considérée comme binaire (0 = absence de coloration,
1 = présence d’une coloration) et les variables explicatives sont les modes d’alimentation et de logement,
toutes deux étant des variables qualitatives à 2 modalités. Le protocole expérimental prévoit la répartition de 80
agneaux en parts égales dans les quatre combinaisons possibles des modalités des variables explicatives. Les
résultats sont présentés dans le tableau 1.6.
Alimentation
Logement
Nombre d’agneaux
Effectif
à gras coloré
total
A1
L1
10
n11 = 20
A1
L2
12
n12 = 20
A2
L1
15
n21 = 20
A2
L2
16
n22 = 20
TAB . 1.6: Nombres d’agneaux ayant un gras coloré.
Lorsque les variables explicatives sont des facteurs, on préfère, comme dans le cas linéaire, à la notation fonctionnelle (1.1) la notation indicée suivante : pour le ième mode d’alimentation et le jème mode de logement,
Z ∼ B [ni j , πi j ] .
2
Que l’on étudie la relation entre Y et x à partir des données individuelles ou des données groupées, l’objet de la
modélisation est de mettre en avant une formulation réaliste de la fonction π(x). Les nombres nx , quant à eux,
sont connus de l’expérimentateur et nécessaires à la modélisation.
2.2 Y est qualitative à plus de deux modalités
Cette situation généralise la précédente. Notons C1 , C2 , . . . , CK les K modalités de la variable Y , alors la loi
conditionnelle de Y est décrite par les relations suivantes :
Px (Y = Ck ) = π(k) (x), k = 1, 2, . . . , K.
où, pour tout x, pour k = 1, 2, . . . , K, 0 ≤ π(k) (x) ≤ 1 et π(1) (x) + π(2) (x) + . . . + π(K) (x) = 1.
Exemple : lien entre génotype et épaisseur tissulaire. Dans les données du tableau 1.3, la variable à expliquer
32
Introduction au modèle linéaire généralisé (Causeur, D.)
est le génotype de la carcasse, variable qualitative nominale dont les modalités sont LWP (LargeWhite ×
Piétrain), LWLF (LargeWhite × Landrace Français), PAL (Pen-ar-Lan) et P (Piétrain). 2
Comme dans le cas où Y est une variable qualitative à 2 modalités, les données peuvent également se présenter
sous une forme groupée lorsque l’on dispose de plusieurs répétitions de Y pour une même valeur de x.
2.3 Y est une variable de comptage
Le dénombrement intervient dans de nombreuses situations de recueil d’information en sciences biologiques.
En particulier, en écologie, l’étude de la dynamique des populations peut s’appuyer sur le comptage, en différents lieux et à différents instants, d’individus, animaux ou plantes, présentant les mêmes caractéristiques.
La variable à expliquer est alors le nombre de ces individus et les variables explicatives sont par exemple des
caractéristiques environnementales du lieu du comptage. Sous certaines hypothèses de répartition uniforme des
individus dénombrés, hypothèses que nous ne discuterons pas ici, la variable à expliquer est distribuée selon
une loi de Poisson :
Y
∼ P [λ(x)] ,
où λ(x) ≥ 0 est appelée l’intensité de la loi de Poisson.
Comme dans les situations décrites plus haut, l’espérance et la variance de la loi conditionnelle sont ici aussi
liées fonctionnellement :
Ex (Y ) = Varx (Y ) = λ(x).
Cette relation entre espérance et variance traduit en pratique le fait que la dispersion des effectifs dénombrés
est d’autant plus grande que leur valeur moyenne est élevée.
Exemple : comportement de clients en magasin. Ici, la variable à expliquer est le nombre de bouteilles examinées par un client. Comme on le voit sur le graphique de la figure 1.5, la dispersion des nombres de bouteilles
examinées est d’autant plus grande que leur nombre moyen est grand. Dans cette situation, il est judicieux
de modéliser ce nombre par une loi de Poisson dont l’intensité est dépend de la durée du séjour du client en
magasin. 2
33
Introduction au modèle linéaire généralisé (Causeur, D.)
3
3.1
Modèles statistiques
Prédicteur du modèle
Lorsque la variable Y est quantitative continue, la modélisation du lien entre la variable à expliquer et les
variables explicatives par le modèle linéaire consiste essentiellement à décrire l’évolution de l’espérance de la
loi conditionnelle en fonction des valeurs des variables explicatives :
Ex (Y ) = β0 + β1 x(1) + β p x(p) ,
= L(x; β)
où β désigne l’ensemble des coefficients inconnus du modèle et L(x; β) est communément appelé le prédicteur
linéaire.
Dans le cas où Y est une variable de dénombrement, distribuée selon une loi de Poisson, appliquer la démarche
précédente pose un premier problème : si, dans le modèle linéaire, L(x; β) n’est en général pas l’objet de restrictions quant à sa plage de variations, l’espérance conditionnelle de Y est ici l’intensité de la loi de Poisson, ce qui
impose que le prédicteur soit aussi positif. De même, lorsque Y est une variable qualitative à deux modalités,
son espérance conditionnelle est une probabilité et le prédicteur doit en outre être inférieur à 1.
Enfin, lorsque Y est une variable qualitative à plus de deux modalités, la transposition directe de la démarche
mise en œuvre dans le cas du modèle linéaire se heurte à un problème fondamental : la notion d’espérance
conditionnelle n’a pas d’équivalent direct. Par conséquent, dans ce cas, la modélisation du lien porte directement
sur les probabilités de chacune des modalités :
Px (Y = Ck ) = π(k) (x), k = 1, . . . , K.
Ici, les fonctions π(k) que nous introduisons doivent naturellement satisfaire aux contraintes liées à la modélisation d’une probabilité, à savoir:
0 ≤ π(k) (x) ≤ 1, pour tout x,
π(1) (x) + π(2) (x) + . . . + π(K) (x) = 1, pour tout x.
3.2
Fonction de lien et prédicteurs linéaires
Examinons dans un premier temps le cas où Y est une variable qualitative à deux modalités, 0 pour l’échec et 1
pour la réussite, et x est la seule variable explicative, supposée dans un premier temps continue. Une forme très
34
Introduction au modèle linéaire généralisé (Causeur, D.)
générale du modèle du lien entre Y et x est le suivant :
Px (Y = 1) = π(x; β),
où π(x; β) est appelé le prédicteur du modèle.
Deux situations extrêmes et opposées peuvent illustrer, de manière schématique, l’étendue de la gamme des
possibilités dans l’étude du lien entre x et Y . D’une part, l’absence totale d’influence de x sur la probabilité
de réussite se traduit par Px (Y = 1) = π, où π est une constante. A l’opposé, une situation très simple d’une
dépendance totale entre la probabilité de réussite et x est la suivante:


 1 si x < x0
Px (Y = 1) =
,

 0 si x ≥ x0
(1.2)
où x0 est une valeur seuil au-delà de laquelle la probabilité de réussite est nulle. Ces deux situations extrêmes
sont illustrées par le graphe de la figure 1.9.
De la même manière que l’utilisation du modèle de régression linéaire simple correspond au choix délibérément
simplificateur d’un prédicteur ayant la forme d’une droite, les prédicteurs que nous considérerons ici se limitent
à un continuum de courbes allant de la fonction en escalier (1.2) à la fonction constante. Un exemple d’une telle
courbe, par nature en forme de (( S )), est donné sur un graphique de la figure 1.9.
Le problème de la modélisation linéaire généralisée est de composer d’une part, avec cette forme sigmoïdale
inhérente à la nature du problème et d’autre part, avec l’objectif d’une simplicité d’interprétation inspirée de la
modélisation linéaire classique. Pour cela, le prédicteur π(x; β) se définit de la manière suivante :
g [π(x; β)] = L(x; β),
(1.3)
où g est une fonction connue qui confère au prédicteur sa forme en (( S )) et L(x; β) = β0 + β1 x est le prédicteur
linéaire hérité de la modélisation linéaire. On appelle g la fonction de lien du modèle.
Dans le cas de plusieurs variables explicatives, la modélisation précédente se généralise naturellement par
extension du prédicteur linéaire L(x; β) = β0 +β1 x(1) +. . .+β p x p . D’autre part, dans le cas où Y est une variable
qualitative à K modalités, la modélisation décrite plus haut se généralise aussi par l’introduction de K − 1
(k)
(k)
(k)
(k)
prédicteurs linéaires L(x; β(k) ) = β0 + β1 x(1) + β2 x(2) + . . . + β p x(p) :
h
i
g π(k) (x) = L(x; β(k) ), k = 1, . . . , K − 1.
Remarquons aussi qu’à travers le prédicteur linéaire, qui fait la jonction entre la modélisation linéaire classique
et la modélisation linéaire généralisée, il est très facile de définir un modèle d’analyse de variance pour une
35
1.0
1.0
0.8
0.8
P(Y=1)
P(Y=1)
Introduction au modèle linéaire généralisé (Causeur, D.)
0.6
0.4
0.6
0.4
0.2
0.2
0.0
0.0
1
3
5
7
9
1
3
x
Px (Y = 1) =
5
7
9
x


 1 si x < x0
Px (Y = 1) = π

 0 si x ≥ x0
1.0
P ( Y =1 )
0.8
0.6
0.4
0.2
0.0
0
2
4
6
8
10
x
Px (Y = 1) = π(x; β)
F IG . 1.9: Prédicteurs du modèle logit
variable Y qualitative. Par exemple, si Y est qualitative à 2 modalités, le modèle d’analyse de la variance additif
à deux facteurs prend la forme suivante :
g [πi j ] = µ + αi + β j ,
avec les contraintes d’estimabilité habituelles sur les paramètres du modèle.
36
Introduction au modèle linéaire généralisé (Causeur, D.)
3.3 Y est qualitative à deux modalités
On se limite dans un premier temps au cas d’une variable à expliquer qualitative à deux modalités, codées
par commodité 0 et 1. D’après l’expression (1.3), le choix du prédicteur n’est subordonné qu’au choix de la
fonction de lien. Dans la suite, on se limite à la présentation de deux de ces prédicteurs : le modèle logit et
modèle probit.
Le modèle logit
Le modèle logit correspond au choix suivant de la fonction de lien :
u
g(u) = ln
,
1−u
= logit(u).
Par conséquent, le modèle logit définit la relation suivante entre Px (Y = 1) et x :
logit (Px (Y = 1)) = L(x; β),
Px (Y = 1)
= L(x; β).
ln
1 − Px (Y = 1)
Cette modélisation met donc en avant le rapport entre la probabilité de réussite et le risque d’échec, que l’on
désigne par le terme cote ou plus souvent par sa version anglo-américaine odds :
odds(x) =
Px (Y = 1)
.
1 − Px (Y = 1)
Dans le cas où Y est le résultat d’un traitement médical, si, pour une valeur de x donnée, la cote vaut 10, le
traitement a alors 10 fois plus de chances de réussir que d’échouer. Choisir le modèle logit revient donc à opter
pour un modèle linéaire du logarithme de la cote, aussi appelé logodds :
ln [odds(x)] = L(x; β),
logodds(x) = L(x; β).
Le choix de cette forme de fonction de lien est en partie motivé par des considérations d’ordre théorique qui
donnent à la régression logistique le statut de modèle (( canonique )) ou (( naturel )) parmi tous les modèles
possibles pour variables qualitatives. Cependant, l’exposé des arguments de théorie statistique qui sous-tendent
cette propriété dépasse largement le cadre de cette introduction. Le lecteur désireux de parfaire sa connaissance
théorique pourra assouvir sa curiosité en lisant l’ouvrage de [13] par exemple.
37
Introduction au modèle linéaire généralisé (Causeur, D.)
Exemple : promesse d’achat d’un produit alimentaire. Sur le graphique de la figure 1.8, le lien sigmoïdal entre la promesse d’achat et la note hédonique est matérialisé par la ligne brisée joignant les proportions
d’acheteurs calculées pour chaque note hédonique. Afin de confirmer la pertinence du lien logit, le graphique
de la figure 1.10 représente le lien entre ces mêmes proportions après transformation logit et la note hédonique.
Ce graphique met bien en avant la linéarité du lien entre le logodds et la note hédonique et permet même une
évaluation visuelle des paramètres : β0 ≈ −8 et β1 ≈ 1.5. 2
-2
-1
0
1
2
3
Logodds de la promesse d’achat
2
4
6
8
10
Note hedonique
F IG . 1.10: Relation entre le logodds de la promesse d’achat et la note hédonique.
Interprétation des paramètres
L’introduction dans l’écriture du modèle d’une non-linéarité, par l’intermédiaire de la fonction de lien, rend
l’interprétation des coefficients de la régression logistique moins immédiate que dans le cas de la régression
linéaire. Dans le cas simple où x est la seule variable explicative et qu’elle est continue, il est cependant facile de
vérifier que cette courbe de régression passe par le point d’abscisse x = −β0 /β1 et d’ordonnée Px (Y = 1) = 0.5.
Quelques calculs supplémentaires, ceux des dérivées premières et secondes de la surface de réponse, permettent
aussi de voir, que ce point est également le seul point d’inflexion de la courbe de régression logistique. Enfin,
il est intéressant de remarquer que le paramètre β1 peut être vu comme un coefficient de pente au même titre
que dans le cas de la régression linéaire. En effet, la fonction de lien étant une fonction croissante, le sens de
variation de la courbe de régression logistique est également celui de β0 + β1 x : si β1 > 0, alors la courbe de
régression est croissante et inversement, si β1 < 0, la courbe de régression est décroissante. D’autre part, plus
38
Introduction au modèle linéaire généralisé (Causeur, D.)
la valeur absolue de β1 est grande, plus la pente au point d’inflexion est grande. Pour reprendre les exemples
extrêmes représentés par les graphes de la figure 1.9, la surface de réponse en escalier correspond au cas limite
où |β1 | → +∞, et, à l’opposé, la surface de réponse horizontale correspond au cas où |β1 | = 0. Les graphiques
de la figure 1.11 illustrent ces propriétés de la surface de réponse par quelques exemples.
-90
P(Y=1)
0.0
0.2
0.0
0.2
0.4
0.6
P(Y=1)
0.8
1.0
0.8
1.0
0.8
1.0
0.0
0.2
0.0
0.2
0.0
0.2
0.4
0.6
0.8
1.0
0.8
1.0
0.8
1.0
0
0.2
0
0.0
2
2
x
6
6
β 1 = -5
4
x
β1 = 0
4
8
8
10
10
P(Y=1)
0.4
0.6
P(Y=1)
0.4
0.6
0
0
2
2
x
6
6
β 1 = -3
4
x
β1 = 1
4
8
8
10
10
P(Y=1)
0.4
0.6
P(Y=1)
0.4
0.6
0
0
2
2
6
6
β 1 = -1
4
x
x
β1 = 5
4
8
8
10
10
F IG . 1.11: Interprétation des paramètres de la surface de réponse. Dans tous les exemples, β0 = −5β1 .
Odds ratio
L’analyse du lien entre Y et les variables explicatives est ramené à l’étude des variations de l’odds, ou du
logodds, en fonction de ces variables explicatives. C’est dans cet objectif qu’il peut être intéressant d’étudier le
rapport des odds entre deux situations caractérisées par des valeurs différentes des variables explicatives, aussi
39
Introduction au modèle linéaire généralisé (Causeur, D.)
appelé risque relatif ou odds ratio, pour rester homogène dans le choix de la langue du spécialiste :
OR(x, x0 ) =
=
odds(x)
,
odds(x0 )
Px (Y = 1)Px0 (Y = 0)
.
Px (Y = 0)Px0 (Y = 1)
Lorsque les variables explicatives sont quantitatives, il est fréquent de se limiter à l’examen d’odds ratio un
peu particuliers, notés OR j , pour lesquels x0 est égal à x sauf pour une des variables explicatives, la jème, où
x0 prend la valeur de x plus une unité. Il est facile de vérifier que, dans ce cas, OR j = exp(β j ). Pour chaque
variable, OR j mesure donc l’impact d’une variation de une unité de la jème variable (toutes choses égales par
ailleurs) sur l’évolution de Px (Y = 1). Par exemple, si Y désigne le résultat d’un traitement et si OR1 = 10, alors
on peut dire que lorsque la 1ère variable explicative augmente de 1 unité (toutes choses égales par ailleurs),
les chances de réussite du traitement sont multipliées par 10. Dans la pratique, OR j est donc aussi considéré
comme un indicateur de l’influence de la jème variable sur les variations de la variable à expliquer.
Lorsque les variables explicatives sont qualitatives, les odds ratio permettent de la même manière de comparer
les risques entre différentes combinaisons des modalités de ces variables. Dans l’exemple introduit plus haut
de la couleur du gras d’agneau, on distingue 4 combinaisons possibles des modalités des variables Logement et
Alimentation. La comparaison des risques de coloration du gras entre deux de ces combinaisons de modalités
peut donc s’appuyer sur le calcul du rapport des odds associés à chaque combinaison de modalités.
Le modèle probit
Toute la pertinence des arguments théoriques avancés pour le choix de la fonction de lien ne suffit parfois pas
à convaincre les utilisateurs de ce type de modèle. Ainsi, dans de nombreux domaines d’applications et sous
couvert d’arguments d’une pertinence aussi peu discutable, d’autres modèles ont émergé, associés à d’autres
choix de fonctions de lien. Parce que nous ne prétendons pas à l’exhaustivité, nous avons choisi de ne présenter
que l’un d’entre eux, très classique : le modèle probit.
Ce modèle est particulièrement naturel lorsque la variable binaire Y dont on peut observer les réalisations n’est
que l’expression simplifiée d’une autre variable continue Y ∗ impossible à observer, parfois seulement conceptuelle. Par exemple, dans un contexte médical, une problématique classique est le classement d’un patient dans
le système de catégories (( malade )) et (( sain )). Bien entendu, ce classement n’est que l’expression simplifiée
d’une variable quantifiant le niveau de santé d’un patient, variable qui n’est soit pas directement mesurable, soit
la synthèse d’informations diverses concernant le patient.
40
Introduction au modèle linéaire généralisé (Causeur, D.)
Supposons donc que cette variable Y ∗ soit distribuée selon une loi normale d’espérance α0 + α1 x et d’écart-type
σ, où x est une variable explicative. La variable observable Y est donc définie de la manière suivante :


 1 si Y ∗ ≤ s
Y =
,

 0 si Y ∗ > s
où s désigne une valeur seuil.
Dans ce contexte,
Px (Y = 1) = Px (Y ∗ ≤ s),
∗
Y − α0 − α1 x s − α0 − α1 x
≤
,
= Px
σ
σ
s − α0 − α1 x
= Φ
,
σ
où Φ est la fonction de répartition de la loi normale centrée réduite. Par conséquent, si on pose β0 = (s − α0 )/σ
et β1 = −α1 /σ,
Px (Y = 1) = Φ (β0 + β1 x) ,
Φ−1 [Px (Y = 1)] = β0 + β1 x,
où Φ−1 est la fonction de quantile de la loi normale centrée réduite.
Dans le cas d’une variable binaire qui correspond à l’expression simplifiée d’une variable distribuée selon une
loi normale, une fonction de lien naturelle est donc la fonction Φ−1 .
De manière plus pragmatique, le choix d’une fonction de lien dépend beaucoup plus des habitudes inhérentes
au domaine dans lequel on travaille et du logiciel de traitement de données que l’on a choisi que de justifications
théoriques. Dans la grande majorité des cas, les ajustements selon un modèle ou un autre ne diffèrent d’ailleurs
que très peu. Pour ces raisons, dans la suite, on se recentre sur le modèle logit mais son extension au modèle
probit ou à tout autre modèle de régression pour variables binaires ne pose aucun nouveau problème conceptuel.
3.4 Y est qualitative à plus de deux modalités
Dans cette section, on suppose que Y est une variable à K modalités, notées C1 , C2 , . . . , CK . Comme nous
le mentionnons plus haut, il faut distinguer ici deux situations de nature différente : le cas où Y est qualitative
nominale et le cas où Y est qualitative ordinale.
41
Introduction au modèle linéaire généralisé (Causeur, D.)
Y est qualitative nominale
Dans le cas où Y a 2 modalités, le fait que le modèle s’appuie sur une représentation linéaire du logodds impose
d’une certaine manière la modalité 0 comme une valeur de référence. En effet, l’analyse de Px (Y = 1) à travers
l’odds est fondé sur une comparaison avec le risque que Y = 0. Par extension, nous allons ici aussi choisir
une modalité de référence. Pour fixer les idées et les notations, on décide dans la suite que cette modalité de
référence est CK . En pratique, il n’est pas inutile de s’autoriser quelques minutes de réflexion sur le choix
de cette modalité de référence. En effet, ce choix conditionne l’interprétation des résultats du traitement. En
particulier, dans le cas où une modalité peut être considérée comme une valeur témoin, cette modalité s’impose
naturellement comme une référence.
Le modèle se présente donc comme un ensemble de K − 1 modèles logit pour les K − 1 couples de modalités
(C j ,CK ), j = 1, . . . , K − 1 :
ln [Px (Y = C1 )/Px (Y = CK )] = L(x; β(1) ),
ln [Px (Y = C2 )/Px (Y = CK )] = L(x; β(2) ),
..
..
.
.
ln [Px (Y = CK−1 )/Px (Y = CK )] = L(x; β(K−1) ).
Ce modèle est traditionnellement appelé le modèle logistique multinomial.
La présentation suivante du modèle est équivalente et met en avant de manière plus directe les équations modélisant l’évolution des probabilités Px (Y = C j ) en fonction de x :
exp L(x; β(1) )
,
Px (Y = C1 ) =
1 + exp L(x; β(1) ) + . . . + exp L(x; β(K−1) )
exp L(x; β(2) )
,
Px (Y = C2 ) =
1 + exp L(x; β(1) ) + . . . + exp L(x; β(K−1) )
..
..
.
.
exp L(x; β(K−1) )
,
Px (Y = CK−1 ) =
1 + exp L(x; β(1) ) + . . . + exp L(x; β(K−1) )
1
.
Px (Y = CK ) =
(1)
1 + exp L(x; β ) + . . . + exp L(x; β(K−1) )
Exemple : lien entre génotype et épaisseur tissulaire. Après ajustement des paramètres du modèle de régression logistique présenté ci-dessus, le graphique de la figure 1.12 montre l’évolution des probabilités des
différents types génétiques en fonction de l’épaisseur de muscle. 2
42
1.0
Introduction au modèle linéaire généralisé (Causeur, D.)
0.0
0.2
0.4
0.6
0.8
LWP
P
PAL
LWLF
40
45
50
55
60
65
70
Epaisseur de muscle (mm)
F IG . 1.12: Modèle logistique multinomial représentant le lien entre type génétique et épaisseur de muscle.
Y est qualitative ordinale
On suppose ici qu’il existe un ordre naturel entre les modalités de la variable Y . Par convention, on considère
que C1 ≤ C2 ≤ . . . ≤ CK . Il existe plusieurs manières de prendre en compte cet ordre dans la modélisation selon
la nature des relations entre les modalités. On recense essentiellement 3 types de modèles :
• le modèle à risques adjacents : la cote d’une modalité est calculée par rapport à la modalité suivante.
• le modèle séquentiel : la cote d’une modalité est calculée par rapport aux modalités supérieures.
• le modèle cumulatif : le risque que la variable à expliquer soit inférieure à une modalité est calculé par
rapport aux modalités supérieures.
43
Introduction au modèle linéaire généralisé (Causeur, D.)
Nous présentons ici de manière plus détaillé le modèle cumulatif :
ln [Px (Y ≤ C1 )/Px (Y > C1 )] = L(x; β(1) ),
ln [Px (Y ≤ C2 )/Px (Y > C2 )] = L(x; β(2) ),
..
..
.
.
ln [Px (Y ≤ CK−1 )/Px (Y > CK−1 )] = L(x; β(K−1) ).
Exemple : maladie du poumon chez les mineurs (McCullah & Nelder, 1983). On s’intéresse à la relation
entre l’état d’avancement d’une maladie des poumons touchant des mineurs et l’ancienneté de ces mineurs au
travail. Le diagnostic de la gravité de la maladie se fonde sur l’examen d’une radio des poumons et conclut à
l’état normal, moyennement atteint ou sévèrement atteint des poumons. Les données sont issues de l’examen
de 371 mineurs et reproduites dans le tableau 1.7. Notons qu’elles se présentent sous la forme de données
groupées. Ces données sont traitées en détail dans le chapitre ??.
Ancienneté (années)
État des poumons
Normal
Moyen
Sévère
5.8
98
0
0
15.0
51
2
1
21.5
34
6
3
27.5
35
5
8
33.5
32
10
9
39.5
23
7
8
46.0
12
6
10
51.5
4
2
5
TAB . 1.7: Ancienneté et état des poumons de 371 mineurs (McCullagh & Nelder, 1983).
Dans cette situation, la variable à expliquer Y est l’état d’avancement de la maladie, variable qualitative à 3
modalités ordonnées, et la variable explicative est l’ancienneté x, variable quantitative continue. Le modèle
44
Introduction au modèle linéaire généralisé (Causeur, D.)
cumulatif s’écrit donc ici de la manière suivante :
Px (Y = normal)
(1)
(1)
= β0 + β1 x,
ln
Px (Y = moyen) + Px (Y = sévère)
Px (Y = normal) + Px (Y = moyen)
(2)
(2)
ln
= β0 + β1 x.
Px (Y = sévère)
(1)
(2)
Il est important de remarquer que, sous cette forme, sans contrainte particulière sur β1 et β1 , il est possible
(1)
(1)
(2)
(2)
que les prédicteur linéaires β0 + β1 x et β0 + β1 x se croisent et qu’alors, pour certaines valeurs de x, on ait :
Px (Y = normal)
Px (Y = normal) + Px (Y = moyen)
ln
> ln
,
Px (Y = moyen) + Px (Y = sévère)
Px (Y = sévère)
Px (Y = normal)
Px (Y = normal) + Px (Y = moyen)
>
.
Px (Y = moyen) + Px (Y = sévère)
Px (Y = sévère)
Or, à l’évidence,
Px (Y = normal) + Px (Y = moyen)
Px (Y = sévère)
≥
Px (Y = normal) + Px (Y = moyen)
.
Px (Y = moyen) + Px (Y = sévère)
(1)
(2)
Par conséquent, sans contrainte particulière sur les coefficients de pente β1 et β1 , il est possible que :
Px (Y = normal)
Px (Y = normal) + Px (Y = moyen)
>
,
Px (Y = moyen) + Px (Y = sévère)
Px (Y = moyen) + Px (Y = sévère)
Px (Y = normal) > Px (Y = normal) + Px (Y = moyen),
ce qui est manifestement fâcheux.
Une manière de contourner ce problème consiste à contraindre les coefficients de pente du modèle à être les
(1)
(2)
mêmes pour les 2 prédicteurs linéaires : β1 = β1 = β. Dans certaines situations, cette contrainte de parallélisme entre les prédicteurs linéaires peut apparaître comme une solution radicale au problème d’intersection des
prédicteurs linéaires qui peut prêter à discussions. Ici, elle conduit au graphique de la figure 1.13 représentant
l’évolution des risques en fonction de l’ancienneté.
Sous cette nouvelle contrainte, notons que les logarithmes des rapports des risques relatifs pour deux valeurs x1
et x2 de l’ancienneté sont proportionnels à l’écart x1 − x2 :
Px2 (Y = normal)
Px1 (Y = normal)
= β [x1 − x2 ] ,
ln
Px1 (Y = moyen) + Px1 (Y = sévère) Px2 (Y = moyen) + Px2 (Y = sévère)
Px1 (Y = normal) + Px1 (Y = moyen) Px2 (Y = normal) + Px2 (Y = moyen)
ln
= β [x1 − x2 ] .2
Px1 (Y = sévère)
Px2 (Y = sévère)
De manière générale, lorsque le modèle cumulatif est simplifié par l’hypothèse d’égalité des pentes des prédicteurs linéaires, on parle de modèle à risques proportionnels.
45
0.8
1.0
Introduction au modèle linéaire généralisé (Causeur, D.)
0.0
0.2
0.4
0.6
Normal
Moyen
Severe
1.5
2.0
2.5
3.0
3.5
4.0
Log de l’anciennete
F IG . 1.13: Ajustement du modèle à risques proportionnels aux données sur la maladie des poumons des mineurs.
3.5 Y est une variable de comptage
Dans cette section, Y est distribuée selon une loi de Poisson dont on modélise l’intensité par l’intermédiaire de
la fonction de lien logarithme, garantissant le fait que l’intensité soit positive :
ln [λ(x; β)] = L(x; β).
Le modèle précédent est appelé modèle log-linéaire.
Comme nous l’avons mentionné dans le cadre du modèle pour variable qualitative à 2 modalités, ce choix de
fonction de lien est également motivé par des arguments d’ordre théorique. D’ailleurs, de la même manière que
la fonction de lien probit peut être préférée à la fonction de lien logit, la plupart des logiciels proposent ici aussi
d’autre choix de fonction de lien que le logarithme.
46
Introduction au modèle linéaire généralisé (Causeur, D.)
Exemple : comportement de clients en magasin. Si Y désigne le nombre de bouteilles examinées par un client
pendant son séjour au magasin et x le logarithme de la durée de ce séjour, alors on propose le modèle suivant,
formalisant le lien entre Y et x :
ln [Ex (Y )] = β0 + β1 x,
ln [λ(x; β)] = β0 + β1 x.
Le graphique de la figure 1.14 illustre le lien entre le nombre de bouteilles examinées par un client et la durée
de son séjour dans le magasin par l’ajustement du modèle précédent. 2
0
5
10
15
20
Nombre de bouteilles examinees
0
1
2
3
4
5
Logarithme de la duree du sejour
F IG . 1.14: Modèle log-linéaire pour les données de comportements de clients en magasin.
4
Estimation des paramètres
La procédure d’estimation des paramètres consiste à attribuer des valeurs aux paramètres du modèle, à partir de
l’observation conjointe des variables explicatives et de la variable à expliquer. Comme dans le cas plus connu
du modèle linéaire, ces paramètres sont ici aussi les coefficients de prédicteurs linéaires.
47
Introduction au modèle linéaire généralisé (Causeur, D.)
4.1
Première impression graphique
Dans les situations les plus simples, il est intéressant de faire précéder la phase d’estimation des paramètres du
modèle par l’élaboration de quelques graphiques. Par exemple, les graphiques des figures 1.2 et 1.3 représentent
chacun un nuage de points d’abscisse la valeur de la variable explicative et d’ordonnée la valeur de la variable
à expliquer. Comme dans le cas de la régression linéaire, ce type de graphique est traditionnellement utilisé,
préalablement à l’ajustement, pour décrire l’évolution des valeurs de Y en fonction de celles de x. Il peut par
exemple suggérer d’utiliser un autre modèle que le modèle logit si le prédicteur sigmoïdal apparaît irréaliste.
4.2
Vraisemblance d’un modèle
Dans le cas du modèle linéaire, les estimateurs sont obtenus par minimisation d’un critère, celui des moindres
carrés, défini comme une distance entre les données observées et le modèle ajusté. Dans le contexte du modèle
linéaire généralisé, la procédure d’estimation repose également sur l’optimisation d’un critère, appelé vraisemblance du modèle, que l’on peut aussi décrire intuitivement comme une mesure d’adéquation entre les valeurs
des paramètres et les données observées.
Illustrons cette notion de vraisemblance à partir de l’exemple des données d’intention d’achat représentées sur
le graphique de la figure 1.2. Comme on l’a vu précédemment, le modèle adapté à la description du lien entre
la promesse d’achat, Y codée 1 si le dégustateur est prêt à acheter le sandwich et 0 sinon, et la note hédonique,
x variable quantitative, est le modèle logit défini comme suit :
logit [Px (Y = 1)] = β0 + β1 x,
ou encore :
Px (Y = 1) =
exp(β0 + β1 x)
.
1 + exp(β0 + β1 x)
Ce modèle permet en particulier de calculer, pour chaque valeur possible des paramètres (β0 , β1 ) et chaque
valeur xi de la note hédonique dans l’échantillon, la probabilité que la promesse d’achat Yi associée prenne la
valeur yi = 0 ou 1 :
Pxi (Yi = yi ) =



exp(β0 +β1 xi )
1+exp(β0 +β1 xi )

 1 − exp(β0 +β1 xi )
1+exp(β0 +β1 xi )
si
yi = 1
si yi = 0.
Plus généralement, il est donc possible, pour chaque valeur possible des paramètres (β0 , β1 ), de calculer la
probabilité d’une configuration de données (xi , yi )i=1,...,n quelconque :
Px (Y1 = y1 ,Y2 = y2 , . . . ,Yn = yn ) = Px1 (Y1 = y1 )Px2 (Y2 = y2 ) . . . Pxn (Yn = yn ).
48
Introduction au modèle linéaire généralisé (Causeur, D.)
En particulier, par ce mode de calcul, on peut associer à chaque valeur des paramètres (β0 , β1 ) la probabilité,
notée V (β), de la configuration de données telle qu’effectivement observée et représentée sur le graphique de
la figure 1.2 : (x1 = 6, y1 = 1), (x2 = 7, y2 = 0), (x3 = 5, y3 = 0), (x4 = 9, y4 = 1), . . ..
Illustrons l’intérêt de ce calcul : on a donné plus haut une estimation visuelle des paramètres β0 et β1 à partir
du graphique de la figure 1.11. Rappelons que nous avions déduit de ce graphique que β0 ≈ −8 et β1 ≈ 1.5.
On peut maintenant mesurer la pertinence de ces approximations par le calcul de V (−8, 1.5) = 2.88.10−28 . La
très faible valeur de cette probabilité ne doit pas surprendre : elle s’obtient par le produit de n = 36 probabilités,
dont certaines proches de 0. Toutefois, pour se ramener à une échelle de valeurs moins extraordinaires, il est
d’usage de retenir comme mesure de l’adéquation entre les valeurs des paramètres et les données le logarithme
de V (β), ici −63.41. Si maintenant on réalise le même calcul pour une autre valeur des paramètres, par exemple
β0 = −4, β1 = 1.5, alors on obtient −210.70. On en déduit que la première approximation visuelle, β0 = −8
et β1 = 1.5, est plus en adéquation avec les observations que la deuxième proposition (β0 = −4, β1 = 1.5), ce
qui est confirmé par le graphique de la figure 1.15 représentant les modèles pour ces deux jeux de paramètres.
On appelle V (β) la vraisemblance du modèle. Le graphique de la figure 1.16 montre l’évolution de V (β) en
fonction de β dans le cas des données d’intention d’achat.
4.3
Maximisation de la vraisemblance
Ayant choisi de mesurer l’adéquation d’un modèle aux données par la vraisemblance, il est naturel de calculer
l’estimateur β̂ de β par maximisation de la vraisemblance :
β̂ = arg max V (β)
β
On dit alors que β̂ est l’estimateur du maximum de vraisemblance de β.
A l’image de la représentation graphique de la figure 1.16, la vraisemblance du modèle est à l’évidence une
fonction continue et même dérivable des paramètres, ce qui en théorie définit un cadre idéal à la recherche des
points maximaux. Toutefois, la complexité analytique de cette vraisemblance rend le plus souvent impossible
le calcul de formes explicites d’estimateurs. Les techniques de maximisation mises en œuvre dans les logiciels
de traitement statistique des données s’appuient en fait sur des algorithmes itératifs convergeant vers les estimateurs du maximum de vraisemblance. Il faut donc être indulgent avec son logiciel préféré de traitement de
données : si le modèle contient un trop grand nombre (l’appréciation du terme (( trop )) dépend du logiciel, de la
performance de la machine, ...) de paramètres, il n’est pas rare que l’algorithme itératif renonce à donner une
estimation de ces paramètres. La présentation des algorithmes d’estimation et de leurs propriétés dépassent les
49
Introduction au modèle linéaire généralisé (Causeur, D.)
1.0
Promesse d’achat
0.6
0.8
β 0 = - 4, β 1 = 1.5
0.0
0.2
0.4
β 0 = -8 , β 1 = 1.5
2
4
6
8
10
Note hedonique
F IG . 1.15: Comparaison de 2 modèles logit pour les données d’intention d’achat.
objectifs de cette introduction. Mais, là aussi, le lecteur frustré par le manque d’ambition affiché par les auteurs
pourra se reporter avantageusement à [23].
Le tableau 1.8 reproduit un extrait du listage des résultats de l’ajustement d’un modèle logit aux données
d’intention d’achat. Outre l’estimation des coefficients, il faut noter qu’une information concernant la bonne
marche de l’algorithme d’estimation est aussi proposée. Ici, cette information se limite au nombre d’étapes de
l’algorithme avant convergence. Le graphique de la figure 1.17 présente le tracé de la surface de réponse ajustée
par la méthode du maximum de vraisemblance, dans le cas des données d’intention d’achat.
50
1e0
Vraisemblance
5
25
25 2e-25 3e-25 4e-2 5e-
Introduction au modèle linéaire généralisé (Causeur, D.)
1.
7
1.
6
5
1.
6
-7
1.
5
-8
5
β1
1.
5
-9
1.
4
5
1.
4
-10
β0
-11
F IG . 1.16: Vraisemblance du modèle logit. Exemple des données d’intention d’achat
Coefficients:
Value Std. Error
(Intercept) -9.187662
globale
1.543768
t value
1.6574553 -5.543234
0.2647332
5.831412
Number of Fisher Scoring Iterations: 5
TAB . 1.8: Estimation par la méthode du maximum de vraisemblance dans le cas des données d’intention
d’achat.
51
Introduction au modèle linéaire généralisé (Causeur, D.)
F IG . 1.17: Ajustement d’un modèle de régression logistique (courbe noire). Les courbes en gris sont les limites
d’un intervalle de confiance d’estimation de niveau 95 %. Exemple des données d’intention d’achat.
4.4
Propriétés des estimateurs du maximum de vraisemblance
La méthode du maximum de vraisemblance n’est pas propre au modèle linéaire généralisé. C’est même d’une
certaine manière la méthode d’estimation de référence s’il on en juge par la diversité des situations dans lesquelles elle est utilisée. Cette notoriété est pour une grande part liée au fait que, de manière générale, les
estimateurs du maximum de vraisemblance ont de bonnes propriétés statistiques. Le lecteur avide de connaissances plus approfondies (celui auquel on fait référence depuis le début et qui a déjà lu courageusement et
minutieusement citedobson et [23]) aura trouvé par exemple des réponses à ses questions sur la théorie du
maximum de vraisemblance dans le livre de [13].
Dans le cas présent, on retient de cette théorie du maximum de vraisemblance que, lorsque la taille n de l’échan52
Introduction au modèle linéaire généralisé (Causeur, D.)
tillon est suffisamment grande, on peut affirmer que les estimateurs sont distribués approximativement selon
une loi normale centrée sur les paramètres qu’ils estiment et dont il est possible de calculer la variance. Ceci
explique que, dans le cas des données d’intention d’achat, le tableau 1.8 donne une estimation des écarts-types
de β̂0 et β̂1 . Les conséquences pratiques de ces calculs sont nombreuses : tests de la nullité des paramètres,
calculs d’intervalles de confiance, etc. Ainsi, le listage du tableau 1.8 donne par exemple les valeurs de statistiques de Student dont on sait qu’elles sont utiles aux tests de nullité des paramètres. Le graphique de la figure
1.17 fournit également le tracé des bornes inférieures et supérieures de l’intervalle de confiance d’ajustement
de niveau 95% ainsi calculé.
Dans le cas du modèle logit avec une seule variable explicative quantitative, on montre par exemple que :
" s
#
1
β̂1 − β1 ∼ N 0,
(1.4)
s2π Sx2
où s2π = ∑ni=1 πi (1 − πi ), Sx2 = ∑ni=1 pi (xi − m1 )2 est une variance pondérée des valeurs xi et m1 = ∑ni=1 pi xi est
une moyenne pondérée des valeurs xi . Les poids (pi )i=1,...,n , positifs et tels que ∑ni=1 pi = 1, sont ici définis de
la manière suivante :
pi =
πi (1 − πi )
.
n
∑i=1 πi (1 − πi )
Ils donnent donc une importance plus grande aux points pour lesquels πi est proche de 0.5, à savoir les points
les plus proches de l’inflexion de la surface de réponse. Comme dans le cas de la régression linéaire simple, il
découle de l’expression (1.4) que l’écart-type des estimateurs est d’autant plus faible, et donc la précision de
l’estimation d’autant meilleure, que les valeurs xi sont dispersées.
5
Tests de validité et comparaison de modèles
Une des questions récurrentes lorsque l’on a ajusté un modèle porte sur l’existence effective ou non d’une
relation entre Y et les variables explicatives. Pour reprendre l’exemple simple du modèle logit avec une seule
variable explicative quantitative, le problème soulevé peut se ramener à la question suivante : compte tenu de
l’information dont on dispose, peut-on considérer que le prédicteur du modèle diffère significativement de la
droite horizontale ? Dans un contexte statistique, on formalise traditionnellement ce type de problème par le
test d’hypothèses suivant :


 H0 : x n0 a pas d0 influence sur Y

 H1 : x a une influence sur Y
53
Introduction au modèle linéaire généralisé (Causeur, D.)
Il s’agit donc ici de comparer deux modèles emboîtés : le modèle avec coefficients de pente non-nuls (sous H1 ),
que l’on appelle aussi modèle complet, et le modèle avec tous les coefficients de pente nuls (sous H0 ), que
l’on appelle aussi modèle nul. Une stratégie intuitive consiste à comparer ces deux modèles sur la base d’une
mesure de la qualité de leur ajustement aux données.
Exemple : résistance du tournesol au mildiou. Ici, la variable à expliquer est le taux de sporulations dans des
bacs de 7 plantules et les variables explicatives sont d’une part le logarithme de la dose de fongicide, variable
quantitative, et d’autre part la race du mildiou, variable qualitative à 2 modalités. Si πi (x) désigne la probabilité
de sporulation pour un mildiou de race i (i = 1 pour la race résistante, i = 2 pour la race sensible) et une log-dose
x, alors le modèle complet est le suivant :
logit [πi (x)] = µ + αi + [β + δi ] x,
(1.5)
où α2 = δ2 = 0. Notons que l’on peut préférer les contraintes suivantes : α1 + α2 = δ1 + δ2 = 0, même si elles ne
traduisent pas le fait que la race sensible (( S )) est, d’une certaine manière, une modalité (( témoin )). Le modèle
nul fait état d’une absence de relations entre la probabilité de sporulation d’une part et la race du mildiou et la
dose de fongicide d’autre part :
logit [πi (x)] = µ.
Remarquons que valider le modèle complet sur la base d’une comparaison avec le modèle nul est par nature
une approche minimaliste puisqu’elle se fonde sur la mesure de ce que le modèle complet apporte par rapport
à un sous-modèle trivial. Ici, grâce aux répétitions dont on dispose pour chaque valeur de la dose de fongicide,
il est aussi possible de comparer le modèle complet à un sur-modèle, appelé modèle saturé dans lequel il y a
autant de paramètres que de combinaisons dose × race :
logit [πi (x)] = µi (x).
Par opposition avec la comparaison au modèle nul, cette nouvelle approche consiste à mesurer la diminution de
la qualité de l’ajustement par le modèle complet par rapport au sur-modèle le plus paramétré. Le graphique de
la figure 1.18 représente l’ajustement de ces trois modèles. 2
5.1
Déviance du modèle
Comme nous l’avons déjà mentionné auparavant, la vraisemblance V (β) constitue une mesure pertinente de
l’adéquation entre un modèle de paramètre β et des données. Les vraisemblances maximisées V1 et V0 du modèle complet et du modèle nul respectivement sont donc des indicateurs naturels de la qualité de leur ajustement.
54
0.6
Modele sature
Modele nul
0.4
Modele complet
0.0
0.2
Proportion de sporulations
0.8
1.0
Introduction au modèle linéaire généralisé (Causeur, D.)
-6
-4
-2
0
2
4
6
8
Logarithme de la dose
F IG . 1.18: Ajustement du modèle saturé, du modèle complet et du modèle nul sur les données (( tournesol )).
On compare alors les modèles par le rapport entre les vraisemblances des deux modèles :
RV =
V0
.
V1
(1.6)
Plus précisément, il découle des propriétés des estimateurs du maximum de vraisemblance que, sous l’hypothèse nulle et pour de grandes valeurs de n, on peut considérer qu’approximativement −2 ln RV ∼ χ2k−1 , où k
est le nombre de paramètres du modèle complet. Cette propriété permet la construction de la stratégie de test et
l’évaluation des risques d’erreurs.
La quantité −2 ln RV, que nous noterons D , est appelée déviance du modèle. Lorsque cette déviance est proche
de 0, la statistique RV est proche de 1 et donc le modèle complet n’est pas plus intéressant que le modèle nul.
Inversement, une grande valeur de D indique une statistique RV proche de 0, et consécutivement, incite à
considérer que le modèle complet est plus intéressant que le modèle nul.
Par analogie avec la décomposition de la variance à l’origine des tests de validité des modèles de régression
linéaire, on peut parler ici d’équation d’analyse de la déviance :
V0 =
V0
V,
V1 1
−2 ln V = −2
ln RV} −2 ln V1 ,
| {z
| {z }
| {z }0
D
D0
D0 = D + Dr ,
55
Dr
Introduction au modèle linéaire généralisé (Causeur, D.)
où D0 est appelée déviance du modèle nul, ou déviance totale, et Dr est appelée déviance résiduelle. L’interprétation de cette équation d’analyse de la déviance est analogue à celle de l’équation d’analyse de la variance
d’un modèle de régression linéaire : la validité du modèle se lit dans la répartition de la déviance totale entre la
déviance du modèle et la déviance résiduelle.
On peut également considérer qu’approximativement, lorsque la taille de l’échantillon est suffisamment grande,
Dr ∼ χ2n−k−1 .
Exemple : résistance du tournesol au mildiou. Un extrait du listage des résultats de l’ajustement du modèle
(1.5) aux données ((tournesol)) est fourni dans le tableau 1.9. Le tableau 1.10 reproduit une table d’analyse de
la déviance du modèle complet. Comme le graphique de la figure 1.3 le laissait penser, la probabilité critique
dans la table d’analyse de la déviance conduit à considérer que le modèle complet est informatif. 2
Coefficients
Effets
Estimation
Écart-type
Student
Probabilité critique
µ
-1.065
0.213
-5.003
2.304e-6
α1
6.720
0.803
8.37
2.796e-13
β
-0.812
0.089
-9.113
6.439e-15
δ1
-0.0686
0.149
-0.460
6.464e-1
TAB . 1.9: Coefficients estimés du modèle complet pour les données (( tournesol ))
Analyse de la déviance
Déviance
Degré de liberté
Modèle nul
836.739
107
Modèle complet
689.422
3
Résiduelle
147.316
104
Probabilité critique
0
TAB . 1.10: Analyse de la déviance du modèle complet pour les données (( tournesol ))
56
Introduction au modèle linéaire généralisé (Causeur, D.)
5.2
Test de la validité par rapport à un sous-modèle
Lorsque le test précédent a conclu au fait que le modèle complet était intéressant, une analyse plus détaillée
consiste à tester l’intérêt du modèle complet non plus par rapport au modèle nul mais par rapport à un sousmodèle. Supposons par exemple que le modèle complet, noté M p soit fondé sur p variables explicatives
x(1) , x(2) , . . . , x(p) et qu’un sous-modèle particulièrement intéressant, noté Mq ne soit basé que sur q de ces
p variables explicatives, par exemple x(1) , x(2) , . . . , x(q) . On dit alors que Mq est un sous-modèle de M p . La
problématique peut alors se résumer en un test d’hypothèses :


 H0 : M p est aussi intressant que Mq

 H1 : M p est plus intressant que Mq
En d’autres termes, sous l’hypothèse nulle, les coefficients de pente des variables x(q+1) , x(q+2) , . . . , x(p) dans
le prédicteur linéaire de M p sont non-nuls alors que sous l’hypothèse alternative, ils sont nuls.
Exemple : résistance du tournesol au mildiou. Si πi (x) désigne la probabilité de sporulation pour un mildiou
de race i (i = 1 pour la race résistante, i = 2 pour la race sensible) et une log-dose x, alors le modèle complet,
noté M2 , est le suivant :
logit [πi (x)] = µ + αi + [β + δi ] x,
où α2 = δ2 = 0. Dans ce modèle, on suppose qu’il peut y avoir un effet de l’interaction entre la race et la dose
de fongicide : en d’autres termes, le lien entre la probabilité de sporulation et la dose de fongicide prend une
forme différente selon que la race du mildiou est sensible ou résistante. Un sous-modèle intéressant, que l’on
note M1 , est le modèle sans interaction obtenu par δ1 = 0 :
logit [πi (x)] = µ + αi + βx.
Le modèle M1 suppose lui que les prédicteurs pour les races sensible et résistante sont parallèles. Le test de la
validité de M2 par rapport à M1 est donc un test de l’interaction dose × race. Le graphique de la figure 1.19
représente l’ajustement de ces deux modèles. Le peu de différences entre les ajustements des deux modèles
laisse entrevoir l’issue du test de comparaison de ceux-ci. 2
Comme pour le test de validité par rapport au modèle nul, on compare le modèle complet et son sous-modèle à
partir du rapport entre leur vraisemblance, notées respectivement V p et Vq :
RV p|q =
57
Vq
.
Vp
Introduction au modèle linéaire généralisé (Causeur, D.)
0.4
0.6
0.8
1.0
Proportion de sporulations
0.0
0.2
Race R
Race S
-6
-4
-2
0
2
4
6
8
4
6
8
Logarithme de la dose
0.4
0.6
0.8
1.0
Proportion de sporulations
0.0
0.2
Race R
Race S
-6
-4
-2
0
2
Logarithme de la dose
F IG . 1.19: Ajustement du modèle avec interaction (en haut) et du modèle sans interaction (en bas) sur les
données (( tournesol )).
Sous l’hypothèse nulle, et si la taille de l’échantillon est suffisamment grande, cette statistique est approximativement distribuée selon la loi χ2p−q , ce qui permet de construire la stratégie de décision et d’évaluer les risques
d’erreurs.
58
Introduction au modèle linéaire généralisé (Causeur, D.)
L’équation d’analyse de la déviance prend ici la forme suivante :
V0 =
V0 Vq
V ,
Vq V p p
−2 ln V0 = −2 ln RVq −2 ln RV p|q −2 ln V p ,
| {z }
| {z } | {z } | {z }
D0
Dq
D p|q
Dr
D0 = Dq + D p|q + Dr ,
où Dq est la déviance du modèle Mq D p|q est la déviance mesurant le gain d’ajustement que permet le modèle
M p par rapport au modèle Mq . Notons que, par comparaison avec l’équation d’analyse de la déviance du modèle
complet, on retrouve la déviance du modèle M p par Dq + D p|q . Remarquons aussi que ce type d’analyse de la
déviance donne lieu à des tests séquentiels de validité des modèles : Dq permet de tester la validité du sousmodèle et D p|q la validité du modèle complet par rapport au sous-modèle. Dans ce cas, on parle d’analyse de
la déviance de type 1.
Exemple : résistance du tournesol au mildiou. Le tableau 1.11 donne les éléments pour l’analyse de la déviance de type 1 du modèle complet. A l’évidence, il amène à conclure qu’il n’y a pas d’effet de l’interaction
dose × race. 2
Analyse de la déviance
Déviance
Degré de liberté
Modèle nul
836.739
107
Modèle sans interaction
689.21
2
0
Modèle avec interaction
0.21
1
0.64
147.316
104
Résiduelle
Probabilité critique
TAB . 1.11: Analyse de la déviance du modèle avec interaction pour les données (( tournesol )).
5.3
Sélection pas à pas du meilleur modèle
La mise en œuvre de cette méthode dans un cas concret fait l’objet du chapitre 6. Cette méthode est pré Une
application intéressante des tests de validité d’un modèle par rapport à un sous-modèle est la construction d’une
procédure de choix d’un sous-ensemble pertinent de variables explicatives parmi les p variables disponibles
59
Introduction au modèle linéaire généralisé (Causeur, D.)
x(1) , x(2) , . . . , x(p) . Une manière de considérer cette procédure est la suivante : on commence par comparer tous
les modèles construit à partir d’une seule variable explicative sur la base de leur déviance. Parmi les modèles
pour lesquels le test de validité conduit à penser qu’ils sont intéressants, on retient alors la variable explicative
correspondant au modèle de plus grande déviance, donc s’ajustant le mieux. On opère maintenant de la même
manière avec les p − 1 modèles à deux variables explicatives, dont la première déjà retenue. On reproduit
l’opération jusqu’à ce que l’ajout d’une nouvelle variable ne conduise pas à un gain d’ajustement significatif,
au sens du test d’analyse de la déviance.
Exemple : promesse d’achat d’un produit alimentaire. On s’intéresse ici à la mise en évidence de descripteurs sensoriels qui favoriseraient l’intention d’achat. En plus de la promesse d’achat et de la note hédonique,
on dispose pour cela d’évaluations sensorielles des sandwichs, selon différents descripteurs, par les juges, sur
une échelle de note allant de 0 à 10. La liste des descripteurs sensoriels est fourni dans le tableau 1.12.
On reporte dans le tableau 1.13 les probabilités critiques des tests séquentiels de la validité des modèles
construits sur chacun des descripteurs sensoriels. La procédure pas à pas conduit à retenir comme descripteurs sensoriels influençant la promesse d’achat en premier lieu la qualité de la garniture en bouche, ensuite la
qualité du pain en bouche et enfin la pertinence de l’association des ingrédients. 2
Variable
Definition
x(1)
Impression visuelle
x(2)
Appétance
x(3)
Qualité du pain en bouche
x(4)
Originalité du pain
x(5)
Quantité de garniture
x(6)
Qualité de la garniture en bouche
x(7)
Originalité de la garniture
x(8)
Pertinence de l’association des
ingrédients de la garniture
TAB . 1.12: Descripteurs sensoriels des sandwichs.
60
Introduction au modèle linéaire généralisé (Causeur, D.)
Variable
Modèle à une
Modèle à 2
Modèle à 3
Modèle à 4
variable explicative
variables explicatives
variables explicatives
variables explicatives
dont x(6)
dont x(6) et x(3)
dont x(6) , x(3) et x(8)
x(1)
1.7e-2
1.4e-1
4.2e-1
5.6e-1
x(2)
1.2e-4
4.0e-2
2.8e-1
3.7e-1
x(3)
4.9e-6
1.0e-3
x(4)
7.8e-1
9.6e-1
2.7e-1
2.0e-1
x(5)
6.1e-1
8.8e-1
8.6e-1
8.2e-1
x(6)
5.4e-10
x(7)
7.7e-3
4.6e-1
3.3e-1
6.9e-1
x(8)
1.8e-7
1.1e-2
1.7e-1
TAB . 1.13: Sélection d’un sous-ensemble pertinent de descripteurs sensoriels. En italique, les probabilités
critiques conduisant à considérer que le modèle n’est pas intéressant. En gras, la probabilité critique du modèle
sélectionné.
5.4
Contributions individuelles à la déviance résiduelle
Cette étape de l’analyse des données par le modèle linéaire généralisé peut être vue comme le pendant du
traditionnel examen des résidus de l’ajustement lorsque l’on utilise le modèle linéaire classique. Elle apporte
souvent un éclairage nouveau sur la qualité de l’ajustement, en particulier lorsque le test de validité amène à
remettre en cause la pertinence du modèle. D’autre part, elle permet aussi un diagnostic individuel de l’adéquation d’une donnée à un modèle. Dans le cas du modèle linéaire classique, le calcul des résidus par l’écart entre
les valeurs observées de Y et leur valeur ajustée par le modèle fait l’objet d’un consensus. En revanche, dans le
cadre du modèle linéaire généralisé, on trouve plusiseurs définition des résidus d’ajustement. On se limite ici à
la présentation d’un de ces types de résidus dont la définition est cohérente avec les arguments avancés pour le
choix de la procédure d’estimation et de la stratégie du test de la validité du modèle.
Dans la suite, on illustre le calcul de ces résidus dans le cadre du modèle logit. Dans un premier temps, exami61
Introduction au modèle linéaire généralisé (Causeur, D.)
nons plus en détail l’expression de la déviance résiduelle d’un modèle de vraisemblance V :
Dr = −2 ln V ,
n
=
∑ |−2 ln
i=1
P̂xi (Yi = yi ) ,
{z
}
di2
où P̂xi (Yi = yi ) est la probabilité, calculée par le modèle ajusté, que l’on observe la valeur yi de la variable à
expliquer lorsque la variable explicative prend la valeur xi . Par conséquent, cette probabilité mesure le degré
d’adéquation, pour la ième donnée de l’échantillon, entre la valeur observée yi de la variable à expliquer et sa
valeur ajustée par le modèle. De plus, si on note ε̃i = di lorsque yi est plus petit que sa valeur ajustée et ε̃i = −di
lorsque yi est plus grand que sa valeur ajustée, alors ε̃i peut être vu comme une mesure de la contribution de la
ième donnée à la déviance résiduelle. Les valeurs ε̃i , i = 1, . . . , n, sont appelées résidus de la déviance et sont
distribuées selon une loi normale centrée réduite, de sorte que la stratégie de détection de données mal ajustées
est similaire à celle utilisée dans le cadre du modèle linéaire classique.
Exemple : résistance du tournesol au mildiou. Les graphiques de la figure 1.20 illustrent ici le calcul des
résidus de la déviance.
6
Modèle logit et discrimination
Outre les contributions importantes à l’étude de l’influence de variables explicatives sur une variable binaire que
permet le modèle logit, son utilisation s’inscrit souvent dans une problématique de discrimination. Il s’agit alors
de construire des règles de décision basées sur la connaissance des variables explicatives et visant à affecter
une donnée à la classe définie par Y = 0 où à celle définie par Y = 1. Dans le contexte du modèle de régression
logistique, la prédiction, telle qu’elle a été définie par exemple dans le cas du modèle de régression linéaire, se
ramène à une affectation à l’une ou l’autre des classes définies par les valeurs de Y .
Supposons donc que nous ne connaissions d’un individu statistique que la valeur x0 de la variable explicative,
que donc la valeur Y0 de Y ne soit pas observée, et que nous souhaitions, à partir de cette information, affecter
cet individu soit à la classe définie par Y0 = 0, soit à celle définie par Y0 = 1. Le modèle logit nous permet dans
un premier temps d’estimer la probabilité π0 = Px0 (Y0 = 1) :
g(π̂0 ) = β̂0 + β̂1 x0 .
Le principe de la stratégie de discrimination est alors de considérer que si π̂0 dépasse un seuil s, alors la valeur
62
Introduction au modèle linéaire généralisé (Causeur, D.)
Residus de la deviance
4
R
Race R
Race S
SS
-2
0
2
RR
RR
RR
-4
S
R
-6
-4
-2
0
2
4
6
8
Logarithme de la dose de fongicide
1.0
Proportion de sporulations
RR
R
0.8
SS
R
0.4
0.6
S
0.0
0.2
Race R
Race S
RRRR
-6
-4
-2
0
2
4
6
8
Logarithme de la dose de fongicide
F IG . 1.20: Détection de données mal ajustées (les points désignés par les les lettres (( R )) ou (( S )) selon la race
du mildiou) par l’analyse des résidus de la déviance.
prédite Ŷ0 de Y0 est 1, sinon Ŷ0 = 0. En d’autres termes :


 si π̂0 > s alors Ŷ0 = 1

 si π̂0 ≤ s alors Ŷ0 = 0
63
.
Introduction au modèle linéaire généralisé (Causeur, D.)
Exemple : promesse d’achat d’un produit alimentaire. Le graphique de la figure 1.21 illustre la stratégie
logit de discrimination. Pour cet exemple, la valeur du seuil s est arbitrairement fixée à 0.3. Une manière simple
de mesurer la pertinence de ce choix est de comptabiliser les erreurs d’affectations observées sur l’échantillon.
Ces erreurs sont de deux types : soit une donnée a été affectée à la classe Y = 0 alors que la valeur observée
de Y est 1, soit une donnée a été affectée à la classe Y = 1 alors que la valeur observée de Y est 0. Ces deux
types d’erreurs sont recensées sur le graphique. En l’occurence, pour ce choix particulier de seuil, le taux
d’affectations correctes s’élève à 79.02% : parmi les personnes n’ayant pas l’intention d’acheter le produit,
55.36% ont été bien classées et parmi les personnes ayant l’intention d’acheter le produit, 94.25% ont été bien
0
Promesse d’achat
1
classées.
2
3
4
5
6
7
8
9
10
Note globale
F IG . 1.21: Discrimination logit. Exemple des données d’intention d’achat. Les cercles désignent les données
correctement affectées.
Ces taux d’affectations correctes servent de support à la détermination d’une valeur pertinente du seuil s. On
choisit par exemple la valeur du seuil pour laquelle le taux d’affectations correctes global est le plus fort. Le graphique de la figure 1.22, appelé graphique de capabilité, représente l’évolution des différents taux d’affectations
correctes en fonction de s et permet donc un choix rapide de la meilleure valeur du seuil. 2
7
Bilan
64
Introduction au modèle linéaire généralisé (Causeur, D.)
F IG . 1.22: Choix de la meilleure valeur du seuil
65
L’étude de l’association entre variables binaires (Lopez, C.)
Chapitre 2
L’étude de l’association entre variables binaires
(Le modèle logistique avec GENMOD de SASr )
Lopez, C.
Service Biométrie - Institut de l’Élevage 149, rue de Bercy - 75595 Paris Cedex 12
[email protected]
1
Introduction
On est souvent dans la situation de décrire et de tenter de prédire les variations d’une variable-réponse binaire à
partir de une ou plusieurs autres variables. La réponse est généralement représentée sous la forme d’un codage
en 0/1, la valeur 1 exprimant la possession d’une certaine caractéristique (succès à une épreuve, production
d’un certain type de produit, présence d’une maladie donnée ...). La nature particulière de la réponse nécessite
l’utilisation de méthodes appropriées. Nous allons illustrer certaines de ces méthodes lorsque les variables
explicatives de la réponse sont elles mêmes binaires à partir d’un exemple sur l’influence de facteurs de conduite
d’élevage vis-à-vis de la coloration du gras de carcasses d’agneaux.
67
L’étude de l’association entre variables binaires (Lopez, C.)
L’objectif de cette étude de cas
Après avoir rappelé les tests usuels d’association entre deux variables binaires et la prise en compte d’un
facteur de confusion 1 , nous montrerons comment le modèle logistique généralise l’étude à la prise en compte
de plusieurs variables binaires explicatives.
Les analyses sont faites avec les procédures ((FREQ)) et ((GENMOD)) du logiciel SASr (version 8.2).
Nous allons commencer par présenter succinctement l’étude de cas ((gras coloré)).
L’essai ((Gras coloré))
Un essai a été réalisé portant sur l’effet de deux types d’accès à l’alimentation, accès à l’auge en continu
(aliment=1) ou non (aliment=0), sur l’aptitude pour des agneaux de faire du gras plus ou moins coloré [Grenet [16]]. La coloration du gras a été appréciée selon une échelle ordinale à 4 niveaux, de 1=((gras blanc ferme)) à
4=((gras jaune huileux)). La carcasse de chaque animal a été codée en ((couleur=1)) selon que le gras est classé
dans les catégories 3 ou 4 (on parlera alors de gras ((coloré))) ou en ((couleur=0)) s’il est classé dans les catégories
1 ou 2 (gras ((non coloré))).
le type de logement des animaux, en cases collectives (logement=0) ou individuelles (logement=1) a été
contrôlé dans le dispositif expérimental car pouvant avoir une incidence sur le risque d’obtenir des gras plus
colorés.
On veut savoir si l’alimentation non limitée modifie le risque de coloration du gras et si cet effet dépend du type
de logement. L’effet du type de logement intéresse les zootechniciens mais c’est un facteur secondaire dans
notre étude.
Les 80 agneaux utilisés ont été répartis par tirage au sort entre les 4 modalités expérimentales {Aliment x
Logement} à raison de 20 animaux par groupe. Les agneaux sont tous de sexe mâle.
Le tableau 2.1 présente les données obtenues.
1. Dans l’étude de l’effet d’une variable X sur une variable-réponse Y, on appelle ((facteur de confusion)) une variable Z ((corrélée))
au facteur X et explicative de Y conditionnellement à X.
68
L’étude de l’association entre variables binaires (Lopez, C.)
Logement = 0
couleur
aliment
0
1
Total
0
10
5
15
1
10
15
25
Total
20
20
40
1
12
16
28
Total
20
20
40
Logement = 1
couleur
aliment
0
1
Total
0
8
4
12
TAB . 2.1: Les données de l’essai ((gras coloré))
2
La comparaison de deux pourcentages
Nous allons pour l’instant simplifier le protocole en supposant que l’on a constitué par tirage au sort deux
groupes expérimentaux de n=40 agneaux, un groupe soumis à une alimentation en continu (x=1) et un second
groupe soumis à une alimentation limitée (((non continue)), x = 0) considérée comme conduite alimentaire de
référence. La variable codant la couleur (((couleur)) dans la table (2.1)) sera désignée par l’indicatrice ((y)) dans
les traitements statistiques. On désignera par n le nombre d’animaux par type d’alimentation (n=40) et par N le
nombre total d’individus (N = 80).
On désigne par π(0) la probabilité d’avoir un gras coloré pour une alimentation limitée et π(1) la probabilité
d’avoir un gras coloré lorsque l’alimentation est donnée en continu.
L’examen des résultats des 2 lots expérimentaux (tableau 2.2) indique une estimation de la probabilité d’avoir
un gras coloré, p(1), égale à 77,5% (31/40) lorsque l’alimentation est donnée en continu contre une estimation,
p(0), de 55,0% (22/40) lorsqu’elle est limitée.
ALIMENT
COULEUR
0
TOTAL
1
0
18
22
40
1
9
31
40
Total
27
53
80
TAB . 2.2: La répartition selon l’aliment et la couleur du gras
69
L’étude de l’association entre variables binaires (Lopez, C.)
2.1
Le test usuel
L’analyse d’un tel tableau de données ne présente pas de difficultés particulière. Nous sommes dans la situation
classique de la comparaison de 2 probabilités. La statistique de test est :
2
p(1) − p(0)
2
χ = p
2p(.)(1 − p(.))/n
(2.1)
où p(.) est l’estimation du risque de gras coloré sous l’hypothèse d’absence d’effet de l’alimentation. Ce risque
est estimé par la proportion de gras coloré sur l’ensemble de toutes les carcasses,
hypothèse,
χ2
suit une loi de Chi-deux à 1 degré de liberté (((ddl))). Ici
χ2
(22+31)
80 =0,6625.
Sous cette
= 4, 5283. Une telle valeur est
supérieure au seuil à 5% d’un Chi-deux à 1 ddl (χ2(1) = 3, 841). La probabilité d’obtenir un tel résultat si le type
d’alimentation est sans effet sur la coloration du gras est p=0,0333. On conclut à un effet du type d’alimentation.
L’alimentation donnée en continu augmente significativement le risque de gras coloré.
On peut exprimer différemment la statistique (2.1) en l’interprétant comme une mesure de l’écart entre le tableau observé 2.2 et la
répartition que l’on observerait en moyenne si l’alimentation n’influait pas le risque de gras coloré (les marges du tableau 2.2 étant
fixées). La statistique précédente s’écrit alors :
χ = ∑∑
2
x
y
2
n(x, y) − c(x, y)
c(x, y)
où n(x, y) désigne le nombre de carcasses dans le groupe ((x)) (x=0, 1) ayant une couleur de gras ((y)) (y=0, 1) et c(x, y) désigne l’effectif
théorique correspondant sous l’hypothèse d’absence d’effet de l’alimentation.
c(x, y) =
n
∗ n(., y)
N
où n(.,y) désigne le nombre total de carcasses ayant un gras de couleur ((y)). C’est la statistique ((Chi-deux de Pearson)).
Le test précédent est en fait un test approché, exact si l’on disposait d’un très grand nombre d’animaux (on parle
de test ((asymptotique))). Pour un nombre d’animaux fixé n la distribution d’échantillonnage du pourcentage
de carcasses présentant un gras coloré suit une distribution ((binomiale)) si l’on peut considérer les agneaux
comme des individus indépendants provenant d’une population où le risque de coloration du gras est identique
pour tous les animaux (population homogène vis-à-vis du risque). C’est ce que l’on suppose pour chacune des
populations définies par les 2 types d’alimentation. Cette loi statistique a pour moyenne π(x), la probabilité de
gras coloré dans la population considérée et pour variance π(x)(1 − π(x))/n.
70
L’étude de l’association entre variables binaires (Lopez, C.)
Lorsque les échantillons sont ((grands)) les lois binomiales ne sont pas trop différentes de distributions ((normales))
de même moyenne et variance que la distribution binomiale. La statistique de test (2.1) suit alors approximativement une distribution normale centrée réduite sous l’hypothèse d’absence d’effet du type d’alimentation sur
la coloration du gras, d’où le test (2.1).
Que veut dire un échantillon grand?
On sait que la distribution d’échantillonnage d’un pourcentage sous une loi binomiale est d’autant plus proche
d’une distribution d’allure normale 2 que la probabilité π est proche de 1/2 et que la taille n de l’échantillon est
grande.
On considère généralement que cette double condition est remplie lorsque nπ et n(1 − π) sont tous les deux
supérieurs à 5. Dans notre exemple la probabilité π considérée est celle sous l’hypothèse d’absence d’effet
de l’alimentation. Elle est estimée par la proportion p(.) de carcasses colorées sur l’ensemble des 2 groupes.
On vérifie que les conditions précédentes sont remplies pour les deux populations étudiées (np(.) = 26, 5 et
n(1 − p(.)) = 13, 5).
Lorsque l’une de ces deux conditions n’est pas remplie les distributions binomiales ne suivent que très approximativement des lois normales. Leurs variances π(1 − π)/n ne peuvent plus être considérées comme à peu près
constantes et la statistique de test (2.1) ne peut être utilisée.
Il existe en fait un test exact approprié à cette situation, le test de Fisher. Nous allons le décrire maintenant.
2.2
Un test exact, le test de FISHER
Ce test suppose fixées les marges du tableau 2.2 (on dit que l’on raisonne conditionnellement aux marges). On
recense alors toutes les tables donnant des écarts entre les 2 proportions de gras coloré supérieurs ou égaux en
valeur absolue à celui observé 3 . C’est le cas de la table suivante:
ALIMENT
COULEUR
TOTAL
0
0
19
1
21
40
1
8
32
40
Total
27
53
80
2. Elle ne sera jamais rigoureusement normale car c’est une distribution discrète (cf. chapitre 1)
3. Si 2 groupes expérimentaux sont déséquilibrés en effectif on recense les tables donnant des degrés de signification inférieurs ou
égaux à celui observé.
71
L’étude de l’association entre variables binaires (Lopez, C.)
On sait calculer la probabilité d’observer une table donnée sous l’hypothèse d’un risque de coloration du gras
indépendant du type d’alimentation 4 .
Le principe du test consiste alors à comparer à 0,05 la somme, Ps , des probabilités de toutes les tables ayant
une probabilité inférieure ou égale à celle de la table observée. Si Ps est inférieur à 0,05 on conclut à un effet
de l’alimentation.
L’application de ce test aux données de l’essai ((gras coloré)) indique une probabilité cumulée Ps de 0,0576 à la
limite de signification.
Ce test ainsi que le test usuel (entre autres) sont proposés par la procédure FREQ de SASr que nous allons
présenter maintenant.
2.3
L’analyse des données avec SASr
La procédure FREQ s’écrit :
proc freq data=s.gras;
table aliment*y/ chisq;
run;
Le fichier analysé (((s.gras))) est le tableau des réponses individuelles des 80 agneaux où pour chaque animal
la couleur du gras est codée par une variable indicatrice, y=0 pour blanc et y=1 pour rosé. Le tableau 2.3
représente les données pour les 24 premiers agneaux du fichier.
Le test usuel (Chi-deux de Pearson) figure dans le tableau 2.4 sous la rubrique ((Chi-Square)). On retrouve le
résultat de la statistique de test (équation (2.1)). Trois autres test asymptotiques figurent également, le test du
rapport des vraisemblances (((Likelihood Ratio Chi-Square))), le test Chi-deux avec correction de continuité
(((Continuity Adj. Chi-Square))) et le test de Mantel-Haenszel.
1. Le test du rapport des vraisemblances mesure l’écart entre les résultats observés et les écarts théoriques
selon une certaine échelle de mesure sous l’hypothèse d’absence d’effet de l’alimentation . Nous le reverrons
4. Pr(Table) =
n(x=0)!n(x=1)!n(y=0)!n(y=1)!
n(x=0,y=0)!n(x=0,y=1)!n(x=1,y=0)!n(x=1,y=1)!N!
où n(x = 0) désigne le nombre total d’animaux ayant eu une alimenta-
tion limitée, n(y = 1) représente le nombre total d’agneaux ayant un gras coloré, n(x = 1, y = 0) est le nombre d’animaux ayant reçu une
alimentation en continu et n’ayant pas de gras coloré... et N désigne le nombre total de données. m! désigne le produit des m premiers
entiers (m! = 1 ∗ 2 ∗ 3 . . . ∗ (m − 1) ∗ m). Ainsi la probabilité d’observer la table 2.2 est égale à : Pr(Table) =
72
40!40!27!53!
18!22!9!31!80!
= 0, 0202
L’étude de l’association entre variables binaires (Lopez, C.)
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
logement aliment
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
1
0
1
y
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
0
0
0
0
TAB . 2.3: Les données binaires
au moment où nous aborderons le modèle Logistique. La statistique de test s’écrit :
G2 = 2 ∑ ∑ n(x, y) ∗ ln
x
y
n(x, y)
c(x, y)
Elle vaut G2 =4,5939 et est significative (p=0,0321).
2. Le test Chi-deux avec correction de continuité est le test Chi-deux usuel où l’on a tenu compte du caractère
discret de la proportion de carcasses colorées. La statistique de test s’écrit :
χAdj = ∑ ∑
2
x
y
|n(x, y) − c(x, y)| − 1/2
c(x, y)
2
Elle est égale à χ2Adj = 3, 5579, à la limite de signification (p=0,0586).
3. Le test de Mantel-Haenszel est l’approximation normale du test exact de Fisher. La statistique de test est
sensiblement égale à la statistique usuelle (Chi-deux de Pearson) :
73
L’étude de l’association entre variables binaires (Lopez, C.)
χ2MH = χ2 ∗
N −1
N
Elle est égale à χ2MH = 4, 4717, significative (p=0,0345).
Statistic
DF
Value
Prob
Chi-Square
1
4,5283
0,0333
Likelihood Ratio Chi-Square
1
4,5939
0,0321
Continuity Adj. Chi-Square
1
3,5779
0,0586
Mantel-Haenszel Chi-Square
1
4,4717
0,0345
Phi Coefficient
0,2379
Contingency Coefficient
0,2315
Cramer's V
0,2379
TAB . 2.4: Les tests approchés avec FREQ
Nous ne commenterons pas les 3 statistiques suivantes du tableau 2.4 qui sont des indicateurs de mesure d’association entre variables binaires. Ils ont une valeur essentiellement descriptive et sortent du cadre de la présente
étude de cas.
Le test exact de Fisher est affiché dans le tableau suivant 2.5. Le test étant bilatéral 5 il faut regarder le résultat
((Two-sided Pr<=P)). La probabilité d’observer un écart entre les 2 pourcentages de gras colorés supérieur ou
égal, en valeur absolue, à celui obtenu est égal à 0,0576.
Fisher's Exact Test
Cell (1,1) Frequency (F)
Left-sided Pr <= F
Right-sided Pr >= F
18
0,9914
0,0288
Table Probability (P)
Two-sided Pr <= P
0,0202
0,0576
TAB . 2.5: Le test de Fisher
En conclusion les tests montrent un effet du type d’alimentation (à la limite de signification pour le test exact et
pour le test avec correction de continuité). L’alimentation en continu semble accroître le risque d’avoir un gras
de carcasse coloré.
Remarque: L’écart entre le degré de signification du test exact (p=0,0576) et celui des tests asymptotiques, le
test usuel (((Chi-Square)), p=0,0333), le test du rapport des vraisemblances (((Likelihood Ratio Chi-Square)),
5. on ne sait pas a priori si l’alimentation en continu est à risque ou au contraire protège du risque d’avoir un gras coloré
74
L’étude de l’association entre variables binaires (Lopez, C.)
p=0,0321) et l’approximation ((normale)) du test exact (((Mantel-Haenszel Chi-Square)), p=0,0345) s’explique
par l’approximation d’une distribution discrète par une distribution continue. C’est la raison pour laquelle
le test qui introduit une correction de continuité (((Continuity Adj. Chi-Square)), p=0,0586) a un degré de
signification plus proche de celui fourni par le test exact.
On peut obtenir les tests exacts pour les statistiques ((Chi-Square)), ((Likelihood Ratio Chi-Square)) et ((MantelHaenszel Chi-Square)) en rajoutant l’instruction :
exact chisq lrchi mhchi;
On obtient alors naturellement le degré de signification du test exact de Fisher.
Une fois établi l’effet du type d’alimentation, il est intéressant de quantifier l’accroissement du risque induit
par l’alimentation en continu. Les statistiques de tests ne sont pas adaptées pour une telle estimation. Elles
testent l’existence d’une association entre alimentation et coloration du gras mais pas son intensité (ainsi si on
multiplie par une constante k les cellules du tableau 2.2 des données observées le Chi-deux usuel est multiplié
par k alors que l’intensité de la liaison entre ((alimentation)) et ((couleur du gras)) est la même).
Il existe une variété importante de mesures de liaison. Nous allons présenter succinctement trois mesures. Nous
verrons qu’elles correspondent à deux façons différentes d’exprimer la liaison entre les deux variables binaires.
Nous caractériserons leurs estimations et montrerons qu’une des trois mesures est toujours estimable quelle que
soit le type d’étude entreprise. C’est l’objet du chapitre suivant.
75
L’étude de l’association entre variables binaires (Lopez, C.)
3
Des mesures de l’association entre deux variables binaires
Les tableaux suivant présentent : les probabilités de gras coloré conditionnellement au type d’alimentation et
marginalement, la notation des échantillons et les échantillons observés.
y=0
y=1
y=0
y=1
x=0
1 − π(0)
π(0)
x=1
1 − π(1)
1−π
1
n(0, 0)
n(0, 1)
π(1)
1
n(1, 0)
π
1
n(+, 0)
((Les probabilités))
3.1
y=0
y=1
n(0,+)
18
22
40
n(1, 1)
n(1,+)
9
31
40
n(+, 1)
N
27
53
80
((notations des échantillons))
((Les échantillons observés))
Les définitions
Le risque en excès
Une première façon de caractériser l’intensité de l’association entre le type d’alimentation et la couleur du
gras consiste à exprimer l’accroissement de risque pour les animaux alimentés en continu par rapport à ceux
recevant une alimentation limitée (groupe de référence), c’est le risque en excès (((Excess Risk))).
ER = π(1) − π(0)
c=
Il est estimé sur notre exemple par : ER
31
40
(2.2)
− 22
40 = 0, 775 − 0, 550 = 0, 225.
Le risque estimé de gras coloré avec une alimentation en continu est supérieur de 22,5 % au risque estimé avec
une alimentation limitée.
Le risque relatif
Une deuxième façon de caractériser la mesure d’association consiste à exprimer l’accroissement du risque de
gras coloré pour l’alimentation en continu en proportion du risque pour le groupe de référence. On définit alors
le risque relatif (((Relative Risk))) comme le ratio :
76
L’étude de l’association entre variables binaires (Lopez, C.)
RR =
c=
Il est estimé sur notre exemple par : RR
31/40
22/40
=
0,775
0,550
π(1)
π(0)
(2.3)
= 1, 409.
Le risque estimé de gras coloré avec une alimentation en continu est 1,41 fois supérieur au risque estimé avec
une alimentation limitée soit une augmentation relative de 41%.
L’Odds Ratio
Une troisième façon de caractériser la mesure d’association consiste à exprimer l’accroissement du risque de
gras coloré pour l’alimentation en continu relativement au risque pour le groupe de référence comme pour le
risque relatif mais à partir d’un indicateur de risque particulier, le ((Odds)).
Le odds associé à une probabilité π donnée est : odds(π) =
π
1−π
L’odds de la probabilité π varie comme π. Quand π = 0 l’odds est nul et il augmente indéfiniment lorsque π
s’approche de 1.
L’odds ratio ou ((rapport des cotes)) 6 est alors le rapport de l’odds pour l’alimentation en continu à celui de
l’alimentation limitée.
OR =
π(1)/(1 − π(1))
π(0)/(1 − π(0))
(2.4)
Il est estimé sur notre exemple par :
c =
OR
31 9
40 / 40
22 18
40 / 40
=
31/9
= 2, 818
22/18
(2.5)
Le risque estimé de gras coloré avec une alimentation en continu est 2,8 fois supérieur en ((échelle Odds)) au
risque estimé avec une alimentation limitée .
6. Ce terme emprunté aux courses hippiques est contesté [18], il serait plus correct de l’appeler ((rapport des chances)) ou ((rapport
des risques))
77
L’étude de l’association entre variables binaires (Lopez, C.)
On constate que les trois mesures d’associations donnent des résultats différents . . .
En fait ces trois mesures sont associées à deux modélisations différentes de l’effet du type d’alimentation sur
la probabilité de gras coloré, une modélisation additive pour le risque en excès et multiplicative pour le risque
relatif et l’odds ratio.
Le choix entre ces mesures ne peut être guidé que par des considérations propres aux problèmes étudiés. Cependant la stabilité de la mesure lorsque la relation est étudiée dans des populations différentes ou dans une
même population en fonction de caractéristiques propres aux individus (par exemple le type de logement dans
notre étude) est l’argument essentiel. Les modèles multiplicatifs vérifient beaucoup mieux cette propriété que
les modèles additifs.
Une autre raison (empirique celle-ci) en faveur des modèles multiplicatifs est la propriété de l’odds ratio d’être
estimable quel que soit le type d’étude réalisée 7 .
Enfin, dernier argument militant en faveur du odds ratio malgré son interprétation moins immédiate, on verra
quand nous introduirons le modèle logistique que les paramètres de ce modèle sont des odds ratio en échelle
Loge .
Nous allons caractériser maintenant les estimations de ces trois mesures d’association ainsi que leurs précisions.
7. Les différents types d’enquêtes : Dans l’étude sur le gras, le nombre d’animaux soumis aux deux types d’alimentation (le
facteur étudié) est contrôlé par l’expérimentateur. On appelle ce type d’étude ((études ou enquêtes de type II)). C’est toujours le
cas en situation expérimentale. On rencontre également ce type de situation dans des contextes d’observations (enquêtes), ce sont les
enquêtes ((cohortes))ou encore enquêtes ((prospectives)), en épidémiologie notamment. Il existe deux autres types d’enquêtes dans le
contexte d’observation, les enquêtes de type I où seul le nombre total d’individus est fixé a priori, ce sont les enquêtes ((échantillons
représentatifs)) ou encore enquêtes ((transversales)) et les ((enquêtes de type III)) où la répartition de la variable-réponse est contrôlée,
ce sont les enquêtes ((cas-témoins)) ou encore enquêtes ((rétrospectives)). Le risque en excès et le risque relatif sont estimables dans
les enquêtes de type I et II mais pas dans les enquêtes de type III à la différence de l’odds ratio qui est estimable quel que soit le type
d’enquête.
78
L’étude de l’association entre variables binaires (Lopez, C.)
3.2
Les estimations
Le risque en excès
• L’estimation du risque en excès et de sa précision ne posent pas de problème particulier. Il est estimé par
d − π(0).
d
c = π(1)
la différence des proportions observées, ER
[=
c (ER)
• Sa variance est estimée par : var
d
d
π(1)∗(1−
π(1))
n(1,+)
π(0))
+ π(0)∗(1−
(cf. le tableau ((notations des échann(0,+)
d
d
tillons)))
c=
• Le risque en excès est estimé à sur notre exemple par : ER
variance estimée égale à :
31
40
− 22
40 = 0, 775 − 0, 550 = 0, 225 avec une
1 18 22 1 9 31 ∗
∗
+
= (0, 103)2
40 40 40
40 40 40
• On en déduit un intervalle de confiance approché :
IC(ER) = 0, 225 − 1, 96 ∗ 0, 103 ; 0, 225 + 1, 96 ∗ 0, 103 = 0, 024 ; 0, 426
L’intervalle de confiance ne contient pas zéro ce qui est conforme avec le résultat du test usuel (2.1).
Le risque relatif
• Le risque relatif est quantifié par le rapport des proportions estimant les probabilités π(0) et π(1) :
d π(0).
d
c = π(1)/
RR
• Une estimation approchée de sa variance est obtenue en posant que le logarithme du risque relatif estimé
c est alors approximativement égale à (Katz
suit une distribution normale. La variance estimée de ln(RR)
et al [21]):
c '
c
var(ln(
RR))
d
d
1
1
(1 − π(1))
(1 − π(0))
+
∗
∗
d
d
n(1, +)
n(0, +)
π(1)
π(0)
L’intervalle de confiance de ln(RR) au niveau 95% est égal à :
c − 1, 96 ∗ var(ln(
c ; ln(RR)
c + 1, 96 ∗ var(ln(
c
c
c
IC ln(RR) = ln(RR)
RR))
RR))
On déduit un intervalle de confiance approché de RR en appliquant la transformation exponentielle aux
bornes de l’intervalle de confiance de ln(RR).
79
L’étude de l’association entre variables binaires (Lopez, C.)
c =
• Le risque relatif est estimé sur notre exemple par : RR
31/40
22/40
=
0,775
0,550
= 1, 409. Le logarithme népérien
correspondant est égal 0,343. La variance correspondante vaut
c '
c
var(ln(
RR))
1 9/40
1 18/40
∗
+ ∗
= (0, 166)2
40 31/40 40 22/40
• On en déduit l’intervalle de confiance approché :
IC ln(RR) = 0, 343 − 1, 96 ∗ 0, 166 ; 0, 343 + 1, 96 ∗ 0, 166 = 0, 017 ; 0, 669
et celui de RR :
IC(RR) = e0,017 ; e0,669 = 1, 017 ; 1, 953
L’odds ratio
• L’estimation de l’odds ratio est donnée, comme nous l’avons vu précédemment, par le rapport des estimations des odds.
d
d
c = π(1)/(1 − π(1)
OR
d
d
π(0)/(1
− π(0)
• Woolf [32] a proposé une méthode d’estimation de sa variance qui, comme pour le risque relatif, est
obtenue en posant que le logarithme de l’odds ratio estimé suit une distribution normale. La variance de
c est alors approximativement estimée par :
ln(OR)
c '
c
var(ln(
OR))
1
1
1
1
+
+
+
n(1, 1) n(1, 0) n(0, 0) n(0, 1)
31
9
/
c = 40 40 = 31/9 = 2, 818, soit un
. Dans l’étude sur la coloration du gras l’odds ratio est estimé à OR
22 18
22/18
/
40 40
logarithme de 1,036.
La variance correspondante est la somme des inverses des effectifs n(x ; y) :
c '
c
var(ln(
OR))
1
1
1
1
+
+
+
n(1, 1) n(1, 0) n(0, 0) n(0, 1)
soit
c '
c
var(ln(
OR))
1
1
1
1
+ + +
= (0, 494)2
31 9 22 18
• On en déduit l’intervalle de confiance approché :
IC ln(OR) = 1, 036 − 1, 96 ∗ 0, 494 ; 1, 036 + 1, 96 ∗ 0, 494 = 0, 067 ; 2, 005
et celui de OR :
IC(OR) = e0,067 ; e2,005 = 1, 069 ; 7, 426
80
L’étude de l’association entre variables binaires (Lopez, C.)
Nous allons maintenant voir comment l’on retrouve ces résultats avec la procédure FREQ de SASr .
3.3
L’analyse des données avec SASr
Pour obtenir les estimations du risque relatif et de l’odds ratio il rajouter l’option ((cmh1)) dans l’instruction
((table)) de la procédure FREQ. Le code SASr s’écrit :
proc freq data=s.gras;
table aliment*y/ chisq cmh1;
run;
TAB . 2.6: L’option cmh1 de FREQ
Les résultats figurent dans le tableau 2.7 suivant :
Estimates of the Relative Risk (Row1/Row2)
Type of Study
Value 95% Confidence Limits
Case-Control (Odds Ratio)
2.8182
1.0695
7.4261
Cohort (Col1 Risk)
Cohort (Col2 Risk)
2.0000
0.7097
1.0240
0.5121
3.9063
0.9835
Odds
Ratio
Study)
TAB
. 2.7:(Case-Control
Les estimations
de RR et OR dans FREQ
Odds Ratio
2.8182
c = 2, 818 ainsi que son intervalle de confiance au niveau 95%.
On retrouve l’estimationAsymptotic
de l’odds Conf
ratio,Limits
OR
95% Lower Conf Limit
95% Upper Conf Limit
1.0695
7.4261
En ce qui concerne le risque relatif le calcul réalisé par FREQ dépend du codage des variables. FREQ fournit
Exact Conf
Limits
les estimations de deux risques
relatifs
correspondant chacun à une des deux modalités de couleur prise comme
référence.
95% Lower Conf Limit
95% Upper Conf Limit
0.9719
8.4507
((Col1 Risk)) est le ratio du risque de la première colonne (couleur=0) pour la ligne 1 (x=0) par rapport à la
18/40
deuxième ligne (x=1), Col1Risk =
= 2, 00.
9/40
((Col2 Risk)) est le ratio du risque de la deuxième colonne (couleur=1) pour la ligne 1 (x=0) par rapport à la
22/40
= 0, 71.
deuxième ligne (x=1), Col2Risk =
31/40
Le risque relatif RR qui nous intéresse est alors l’inverse de ((Col1 Risk)). On retrouve son intervalle de
confiance en prenant les inverses des bornes de celui de ((Col1 Risk)).
81
L’étude de l’association entre variables binaires (Lopez, C.)
Lorsque la réponse (la couleur dans notre exemple) et la variable explicative (le type d’alimentation) sont
codées en 0/1 avec la modalité ((1)) codant l’évènement d’intérêt (la coloration) et la modalité ((à risque))
(l’alimentation en continu), une façon de ne pas avoir à se casser la tête consiste à trier le fichier par valeurs
décroissantes de la réponse et de la variable explicative et à rajouter l’option order=data dans l’instruction
((proc FREQ)) du code SASr .
L’option ((cmh1)) fournit également l’intervalle de confiance approché du odds ratio.
ICa (OR) = 1, 070 ; 7, 426
L’intervalle de confiance exact peut être obtenu en rajoutant l’instruction
Estimates of the Relative Risk (Row1/Row2)
Type of Study exact OR;
Value 95% Confidence Limits
Case-Control (Odds Ratio)
Cohort (Col1 Risk)
SASr fournit alors la sortie suivante : Cohort (Col2 Risk)
2.8182
2.0000
1.0695
1.0240
7.4261
3.9063
0.7097
0.5121
0.9835
Odds Ratio (Case-Control Study)
Odds Ratio
2.8182
Asymptotic Conf Limits
95% Lower Conf Limit
95% Upper Conf Limit
1.0695
7.4261
Exact Conf Limits
95% Lower Conf Limit
95% Upper Conf Limit
0.9719
8.4507
TAB . 2.8: L’intervalle de confiance exact de OR dans FREQ
L’intervalle ICe (OR) = 0, 972 ; 8, 451 est plus étendu que l’intervalle précédent. On remarque que 1 est compris dans l’intervalle ce qui est conforme avec le résultat du test de Fisher.
Nous allons voir maintenant comment l’analyse avec le modèle logistique permet de retrouver une partie de ces
résultats.
82
L’étude de l’association entre variables binaires (Lopez, C.)
4
Le modèle logistique
Une façon de modéliser l’effet de l’alimentation consiste à poser un modèle d’analyse de variance sur le logarithme du odds de coloration du gras.
ln
π(x) ≡ η(x) = µ + αx
1 − π(x)
(2.6)
où αx désigne l’écart (en échelle Log népérien du odds) du risque de gras coloré pour l’alimentation x par
rapport au risque moyen µ sur les 2 types d’alimentation.
Ce modèle est sur-paramétré (3 paramètres µ, α0 et α1 pour 2 probabilités π(0), π(1)). On pose alors les
contraintes habituelles : α0 + α1 = 0. On a ainsi 2 paramètres à estimer, µ et α1 .
L’effet de l’alimentation est alors mesuré par l’écart α1 − α0 = 2α1 .
π(1)
π(0)
2α1 = ln
− ln
1 − π(1)
1 − π(0)
C’est l’odds ratio de l’alimentation en échelle Log.
Le paramètre d’intérêt du modèle logistique, 2α1 est le Log de l’odds ratio.
L’odds ratio estimé s’écrit :
#
p(1) (1 − p(1))
2α̂1 = ln
p(0) (1 − p(0))
"
donnant ainsi une interprétation du paramètre α̂1 : α̂1 =
p
OR(alimentation) 8
8. On prendra garde que cette expression n’est valable que lorsque la variable explicative binaire X est introduite comme variable
qualitative, on verra qu’elle figure alors dans l’instruction ((class)) de GENMOD. Lorsque X n’est pas déclarée dans cette instruction
π(x) elle est considérée comme variable quantitative, le modèle (2.6) s’écrit alors ln
= β0 + β1 x. Le paramètre β1 est alors le
1 − π(x)
logarithme de l’odds ratio.
83
L’étude de l’association entre variables binaires (Lopez, C.)
4.1
L’essai ((gras d’agneaux)), une première analyse sur données agrégées
Les données de l’essai ((gras coloré)) sont présentées dans le tableau 2.9 sous la forme de 4 profils correspondant
aux 2 x 2 modalités des facteurs ((alimentation)) et ((logement)).
obs
logement
aliment
y
n
1
0
0
10
20
2
0
1
15
20
3
1
0
12
20
4
1
1
16
20
TAB . 2.9: Les 4 profils d’animaux
La colonne désignée par ((y)) représente le nombre d’agneaux qui ont un gras de carcasse coloré parmi les
animaux d’un profil donné (en nombre ((n))). Ainsi 10 animaux sur 20, logés en cases collectives (indicatrice de
logement=0) et recevant une alimentation en discontinu (indicatrice d’alimentation=0), ont un gras coloré.
Nous appellerons par la suite données ((agrégées)) ou ((groupées)) de telles structures de données.
Remarque: Pour cette première analyse on aurait pu tout aussi bien représenter les données en ne tenant pas
compte du type de logement. La table analysée aurait alors été formée par deux lignes correspondant aux 2
types d’alimentation.
On va voir que le fichier structuré suivant les 4 profils {alimentation ∗ logement} va permettre de tester la
qualité du modèle logistique ce que ne permet pas la structuration des données sur le seul facteur {logement}.
4.2
L’analyse des données avec SASr
La procédure GENMOD de SASr permet d’analyser des modèles logistiques et de façon plus générale de
traiter des réponses aléatoires Y appartenant à la famille ((exponentielle)) (cf. l’introduction (D. Causeur)).
Le code SASr s’écrit :
On notera l’expression du modèle où le pourcentage d’animaux ayant une carcasse colorée apparaît explicitement dans l’expression ((y/n)). Ce type de modèle est appelé par SASr ((events/trials)). Il est réservé aux
réponses binomiales. Nous l’appellerons par la suite ((modèle sur données agrégées)).
84
L’étude de l’association entre variables binaires (Lopez, C.)
proc genmod
title2
title3
class
model
lsmeans
estimate
run;
data=s.profils;
"Analyse du fichier des données regroupées";
"effet de l'alimentation";
aliment;
y/n = aliment / dist=binomial type1;
aliment / cl;
"Loge(OR(aliment))" aliment -1 +1 / exp;
TAB . 2.10: Le code SASr du modèle ((couleur = aliment))
L’option ((dist=binomial)) indique que l’on pose une distribution binomiale pour chacun des 2 pourcentages.
A cette distribution est associée la transformée Logistique (option ’((link=Logit)) non mentionnée car c’est la
transformation par défaut).
Le test de l’alimentation
L’option ((type1)) de l’instruction ((model)) affiche le test de signification de l’alimentation vis-à-vis du risque de
coloration du gras (tableau 2.11). Il est basé sur un écart, la ((Déviance)) , calculé à partir de la ((vraisemblance))
des données sous les 2 lois binomiales, écart d’autant plus grand que la variable introduite (l’alimentation)
est explicative des variations du risque de coloration du gras. Cette statistique suit une loi de Chi-deux à ν =
2 − 1 = 1 degré de liberté 9 si l’alimentation est sans effet sur la coloration du gras. C’est la statistique de test
du ((rapport des vraisemblances)), ((Likelihood Ratio)) (LR).
L’alimentation accroît la déviance d’une quantité 0,5484 significative (χ2LR = 4, 59 , p=0,0321). On retrouve
le test donné par la procédure ((FREQ)) sous le nom ((likelihood Ratio Chi-Square)) (encore appelé test ((G2 ))).
Source
Intercept
aliment
LR Statistics For Type 1 Analysis
Deviance
DF Chi-Square
5.1423
0.5484
1
4.59
Pr > ChiSq
0.0321
TAB . 2.11: Le test du rapport de vraisemblance de l’effet ((alimentation))
9. (ν = nombre de paramètres (µ, α1 ) du modèle (2.6) - nombre de paramètres du modèle sans l’alimentation (µ))
85
L’étude de l’association entre variables binaires (Lopez, C.)
Les moyennes ajustées
L’instruction ((lsmeans)) affiche les valeurs des estimations des Logits des pourcentages de gras colorés par
classe d’alimentation, η(x), accompagnées de l’estimation de leurs intervalles de confiance (((CL))) (tableau 2.12).
Effect
aliment
Estimate
Standard
Error
DF
ChiSquare
Pr > ChiSq Confidence Limits
aliment
0
0,2007
0,3178
1
0,4
0,5278
-0,4222
0,8236
aliment
1
1,2368
0,3786
1
10,67
0,0011
0,4946
1,9789
TAB . 2.12: Les moyennes ajustées
Ainsi pour l’alimentation non continue l’odds de gras coloré, π(0) (1 − π(0)), est estimé par le ratio 22 40 18 40 =
b(0) = ln(1,22) = 0,2007. De même en présence d’alimentation continue le Logit du risque
1, 22 soit le Logit η
b(1) = ln(31/9) = 1,2368.
de gras coloré en échelle Logit est estimé par la valeur η
On peut calculer les probabilités de coloration du gras prédites par le modèle (2.6) pour chaque type d’alimentation à l’aide de l’expression :
π̂(x) =
eηb(x)
1 + eηb(x)
(2.7)
Les probabilités prédites sont naturellement égales aux probabilités observées.
π̂(0) =
eηb(0)
e0,2007
e1,2368
eηb(1)
=
=
=
0,
550
;
π̂(1)
=
= 0, 775
1 + eηb(0) 1 + e0,2007
1 + eηb(1) 1 + e1,2368
Les statistiques ((Chi square)) sont des statistiques de Wald testant à zéro les ((lsmeans)). Elles sont accompagnées de l’estimation au risque 5% des intervalles de confiance correspondants. Ces deux tests ne sont pas
intéressants, ils testent que les Logit des probabilités de gras coloré sont significativement différents de zéro
c’est-à-dire si ces probabilités sont significativement différentes de 50% dans chaque classe d’alimentation.
Les contrastes
L’écart δ̂ = η̂(1)− η̂(0) = 1, 2368−0, 2007 = 1, 0361 fourni par l’instruction ((estimate)) (tableau 2.13) est l’estimation de l’odds ratio en échelle Loge . Il quantifie le rapport de risque d’avoir un gras coloré avec une alimen86
L’étude de l’association entre variables binaires (Lopez, C.)
tation en continue par rapport à une alimentation non continue. L’odds ratio est alors égal à exp η̂(1) − η̂(0) =
e1,0361 soit OR(alim) = 2,8182.
On retrouve l’estimation fournie par la procédure FREQ.
Cette estimation du odds ratio peut être obtenue directement à l’aide de l’option ((exp)) .
Elle figure dans le tableau 2.13 à la ligne ((Exp(Loge(OR(aliment))))) accompagnée de son intervalle de confiance.
Estimate
Standard
Error
Loge(OR(aliment))
1,0361
0,4943
0,0672
2,005
Exp(Loge(OR(aliment)))
2,8182
1,3932
1,0695
7,4261
Label
Confidence Limits
ChiSquare Pr > ChiSq
4,39
0,0361
TAB . 2.13: Estimation de l’odds ratio de l’alimentation
La variance du Log de l’odds ratio est estimée par la somme des inverses des effectifs :
c
c
var(ln(
OR(alim)))
=
1
1
1
1
+ + +
= (0, 4943)2
18 22 9 31
Le test à zéro du log de l’odds ratio affiché est celui basé sur la statistique de Wald [30]
2
χWald
=
δ̂2
var(δ̂)
=
1, 0361
0, 4943
2
= 4, 39
.
Ce test donne un résultat légèrement différent de la statistique du maximum de vraisemblance affichée par
l’option ((type1)) de l’instruction ((model)), χ2LR = 4,59.
La statistique de Wald peut être utilisée lorsque les échantillons sont de tailles importantes et cela d’autant plus
que les probabilités {π(x) ; 1-π(x)} sont proches de 1/2. Lorsque les effectifs sont très importants elle donne
des résultats proches de ceux fournis par la statistique du rapport des vraisemblances.
On obtient une valeur approchée de l’intervalle de confiance de l’odds ratio au niveau 95% à partir de l’intervalle
de confiance du Log de l’odds ratio. On retrouve l’intervalle de confiance fourni par la procédure FREQ (tableau
2.7).
OR(alim)inf = e0,0672 = 1, 0695
;
87
OR(alim)sup = e2,0050 = 7, 4261
L’étude de l’association entre variables binaires (Lopez, C.)
En conclusion l’alimentation continue des agneaux accroît significativement le risque d’avoir un gras coloré par rapport à l’alimentation donnée en discontinu. Le rapport de risques, estimé à 2,82, a 95 chances
sur 100 d’être compris entre 1,07 et 7,43.
Remarque: Le test classique de comparaison des 2 pourcentages de carcasses colorées (χ2(1) = 4, 53 , (p=0,0333))
donne ici un résultat très proche du test du rapport de vraisemblance et de Wald. Cela est dû au fait que les
pourcentages observés de carcasses à gras coloré ( 55% et 77,5%) sont relativement proches de 50%. Les distributions d’échantillonnage des pourcentages peuvent être considérées comme approximativement normales
avec des variances qui varient peu, 22 ∗ 18/403 = (0, 079)2 et 31 ∗ 9/403 = (0, 066)2 ).
La qualité d’ajustement du modèle 10
Le fichier analysé est constitué de 4 profils générés par les 2 types de logement croisés avec les 2 types d’alimentation. Le modèle (2.6) a 2 paramètres, la constante µ et α1 . On dit que le modèle est ((non saturé)), il reste
2 degrés de liberté. On dispose en fait de 2 estimations du risque de gras coloré π(x) pour un type d’alimentation
((x)) donnée, une par type de logement. Ces répétitions vont nous servir à tester la qualité du modèle.
Le modèle (2.6) suppose que tous les agneaux soumis à une alimentation donnée ont le même risque, π(x). Or
cela peut s’avérer faux si les animaux soumis à une même alimentation sont différents sur certaines caractéristiques elles mêmes susceptibles de jouer sur la coloration du gras. Le type de logement, en particulier pourrait
générer une variabilité du risque de gras coloré . . .
Une façon de vérifier cela consiste à regarder les écarts entre les probabilités de gras coloré par type d’alimentation et de logement et les probabilités prédites. Ainsi pour l’alimentation en continu (x=1) les deux proportions
de gras coloré par type de logement, 15/20=0,75 (logement=0) et 16/20=0,80 (logement=1), sont proches de
la probabilité prédite, 0,775 11 . De même pour l’alimentation limitée (x=0) les deux proportions, 10/20=0,50
(logement=0) et 12/20=0,60 (logement=1), sont peu différentes de la probabilité prédite, 0,55.
Les probabilités estimées semblent relativement homogènes.
On peut évaluer globalement l’hétérogénéité des 4 probabilités par alimentation ∗ logement à l’aide des statis10. Pour un développement détaillé de cette partie se référer à Collett [8].
11. La probabilité prédite est la moyenne des 2 proportions intra type de logement pondérées par les effectifs dans les classes de
logement.
88
L’étude de l’association entre variables binaires (Lopez, C.)
tiques proposées par la table 2.14.
Les statistiques ((Deviance)) et ((Pearson Chi-Square)) sont deux mesures de la dispersion des estimations des
écarts des probabilités de coloration du gras, conditionnelles à l’alimentation et au logement, aux probabilités
prédites par le modèle (2.6).
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
2
0,5484
0,2742
Scaled Deviance
2
0,5484
0,2742
Pearson Chi-Square
2
0,5474
0,2737
Scaled Pearson X2
2
0,5474
0,2737
Log Likelihood
-48,8521
TAB . 2.14: La qualité d’ajustement du modèle ((couleur=alimentation))
Si le modèle ajuste correctement les données, les dispersions sont faibles et ces deux statistiques suivent chacune une distribution de Chi-deux avec comme degrés de liberté le nombre total de données diminué du nombre
de paramètres du modèle, ici ν = 4 − 2 = 2. Leurs espérances mathématiques sont alors égales aux degrés de
liberté ν et les rapports des statistiques à leurs degrés de liberté sont sensiblement égaux à 1. Ce rapport est
appelé ((paramètre de dispersion)) et désigné par le symbole φ.
Si par contre les populations définies par le modèle sont hétérogènes vis-à-vis du risque, φ est différent de 1.
S’il est supérieur à 1 on parlera de ((sur-dispersion)) (((overdispersion))) . S’il est inférieur à 1 on parlera de
((sous-dispersion)) (((underdispersion))) . Dans ces deux situations les variances des estimations des probabilités
π(x) ne sont plus celles de lois binomiales, elles sont pondérées par le paramètre de dispersion φ et les tests
sont biaisés.
var(π̂(x)) =
π(x)(1 − π(x))
∗φ
n(x)
où n(x) désigne le nombre de données d’individus de la population définie par ((x)).
Les estimations du paramètre φ dans notre étude sont très proches, 0,2742 pour la statistique de Pearson, 0,2737
pour celle de la déviance.
Un moyen de tenir compte de cette hétérogénéité consiste à introduire l’option ((scale=Pearson)) ou ((scale=Deviance)) dans l’instruction model. Les écarts-types des estimations des Logit de π(x) sont alors multipliés
p
par (φ) (appelé ((scale))) et les statistiques de tests des effets des variables explicatives sont divisées par φ.
89
L’étude de l’association entre variables binaires (Lopez, C.)
Dans notre exemple l’étroitesse des pourcentages conditionnels {logement ∗ alimentation} par type d’alimentation ne justifie pas une telle correction.
Remarques :
1. L’analyse du modèle (2.6) peut être réalisée sur le fichier de données binaires (table 2.3). Les résultats
sont les mêmes . . . sauf les statistiques de qualités d’ajustement qui n’ont plus de sens.
2. Une telle analyse n’aurait pas pu être possible si l’on avait analysé le tableau des données agrégées
uniquement selon l’alimentation. Nous n’aurions eu que 2 populations, une par type d’alimentation marginalement sur le logement. Le modèle (2.6) aurait été saturé et il n’y aurait pas eu d’écarts au modèle.
Cela n’a rien de choquant. Si l’on n’a pas d’informations sur des facteurs susceptibles d’induire une variabilité
des probabilités étudiées ou si l’on considère a priori que les populations étudiées sont homogènes vis-à-vis de
ces probabilités il n’y a aucune raison de structurer les individus selon d’autres facteurs. Dans le cas contraire,
si on suspecte une hétérogénéité sans avoir les facteurs qui pourraient la générer, on a intérêt à la tester.
Si par contre l’on dispose de ces facteurs on peut les introduire dans le modèle. C’est ce que l’on va faire maintenant avec la variable ((logement)).
Avant de modifier le modèle logistique (2.6) nous allons montrer comment utiliser la procédure FREQ pour
introduire une variable explicative supplémentaire dont l’étude ne nous intéresse pas en soi mais dont on veut
tenir compte pour :
1. tester une interaction entre la variable explicative étudiée et la variable supplémentaire
2. corriger du biais éventuel dû à la variable supplémentaire
Cela pourrait être le cas dans notre étude pour le facteur ((logement)) 12 .
12. la randomisation faite suggère plutôt que le logement est un facteur étudié au même titre que l’alimentation. Nous le considérerons
comme facteur ((contrôlé)) pour les besoins de la présentation.
90
L’étude de l’association entre variables binaires (Lopez, C.)
5
La prise en compte d’un tiers facteur
Un second facteur, le type de logement, a été pris en compte dans l’étude sur le gras d’agneaux. L’étude
précédente n’a pas intégré cette seconde variable dans les analyses réalisées.
Quelles sont les conséquences de sa non prise en compte?
Tout d’abord on ne peut répondre à la question de savoir si l’effet du type d’alimentation sur le risque de
coloration du gras dépend du type de logement (interaction ((alimentation ∗ logement))). Mais, de plus, sa non
prise en compte fournit une mesure biaisée de l’effet de l’alimentation .
Le biais peut être particulièrement important en situation d’observation comme va le montrer l’exemple fictif
suivant.
Supposons qu’une enquête ait été réalisée en élevages sur les 2 types d’alimentation précédents. Les animaux
se répartissent en 2 groupes de 100 animaux avec les résultats suivants :
y=0
y=1
x=0
48
52
100
x=1
29
71
100
77
123
200
L’analyse de cette table conclut à un effet de l’alimentation en continu avec un odds ratio estimé à 2,26.
Le croisement du sexe des animaux avec la couleur du gras indique un risque plus élevé pour les mâles avec un
odds ratio de 24,75 (le sexe est codé par l’indicatrice : z=0 (femelle) ; z=1 (mâle)).
y=0
y=1
z=0
66
24
90
z=1
11
99
110
77
123
200
Croisement ((sexe ∗ couleur))
z=0
z=1
x=0
60
40
100
x=1
30
70
100
100
110
200
Croisement ((aliment ∗ sexe))
91
L’étude de l’association entre variables binaires (Lopez, C.)
Négliger cet effet sexe nous amène à conclure à un effet de l’alimentation qui n’existe pas !!
En effet l’étude de l’effet de l’alimentation à sexe fixé montre clairement une absence d’effet avec un odds ratio
conditionnel égal à 1.
z=0
y=0
y=1
x=0
44
16
x=1
22
66
z=1
y=0
y=1
60
x=0
4
36
40
8
30
x=1
7
63
70
24
90
11
99
110
Croisement ((alimentation ∗ couleur(z=0)))
Croisement ((alimentation ∗ couleur(z=1)))
c = 0) = 8/22 = 1
OR(z
16/44
c = 1) = 63/7 = 1
OR(z
36/4
Le biais est, ici, extrême car les mâles (dont on sait qu’ils ont une couleur de gras plus marqué) sont surreprésentés dans le groupe alimenté en continu (70 contre 40). Le biais existe aussi lorsque les effectifs sont
contrôlés sur le facteur de confusion ((Z)) comme nous allons le voir à propos du type de logement.
5.1
Le test de Mantel-Haenszel
On désignera par Z l’indicatrice de logement, z=0 pour un logement en cases collectives et z=1 pour un logement en cases individuelles. On supposera que Z a q classes ou ((strates)).
Pour tester l’effet spécifique de l’alimentation, c’est-à-dire à niveau fixé du type de logement, on procède de de
la façon suivante.
Pour des répartitions des animaux suivant le type de logement et l’alimentation égales à celles observées et supposées fixées on étudie, dans chaque strate de logement, le nombre d’événements ((gras coloré et alimentation
en continu)) (y=1 et x=1), noté nz (1, 1).
92
L’étude de l’association entre variables binaires (Lopez, C.)
z
y=0
y=1
x=0
nz (0, 0)
nz (0, 1)
nz (0, +)
x=1
nz (1, 0)
nz (1, 1)
nz (1, +)
nz (+, 0)
nz (+, 1)
nz
Les notations dans la classe de logement z
1- Sous l’hypothèse d’absence d’effet de X sur Y , le nombre total de carcasses à gras coloré dans la strate ((z)),
nz (+, 1), se répartit en moyenne entre les 2 types de logement au prorata du nombre d’animaux par groupe.
nz (1, 1) est alors en moyenne égal à:
mz (1, 1) = nz (+, 1) ∗
nz (1, +)
nz
On peut montrer que nz (1, 1) a pour variance 13 :
vz (1, 1) =
nz (+, 0) ∗ nz (+, 1) ∗ nz (0, +) ∗ nz (1, +)
n2z ∗ (nz − 1)
13. nz (1, 1) suit conditionnellement aux marges du tableau de contingence X∗ Y de la strate ((z)) une distribution Hypergéométrique.
93
L’étude de l’association entre variables binaires (Lopez, C.)
Les tableaux suivant présentent les effectifs observées et ceux attendus en moyenne sous l’hypothèse d’absence
d’effet de l’alimentation à type de logement fixé.
z=0
y=0
y=1
x=0
10
10
x=1
5
15
z=0
y=0
y=1
20
x=0
7,5
12,5
20
15
20
x=1
7,5
12,5
20
25
40
15
25
40
((effectifs observés (z=0)))
((effectifs attendus (z=0)))
z=1
y=0
y=1
z=1
y=0
y=1
x=0
8
12
20
x=0
6
14
20
x=1
4
16
20
x=1
6
14
20
12
28
40
12
28
40
((effectifs observés (z=1)))
((effectifs attendus (z=1)))
2- L’écart entre le nombre total de carcasses à gras coloré observé, n(1, 1), sur les 2 types de logement et le total
des effectifs attendus en moyenne, ∑z mz (1, 1), va permettre de tester si l’effet de l’alimentation reste significatif
à logement fixé. Cet écart sera ((grand)) si X a un effet sur Y et ((petit)) sinon.
On montre alors que la statistique
2
∑z nz (1, 1) − ∑z mz (1, 1)
QMH =
∑z vz (1, 1)
suit une distribution de χ2 à 1 degré de liberté si l’alimentation est sans effet sur la coloration du gras. C’est la
statistique de Mantel-Haenszel [22].
. Le nombre total de carcasses colorées observé avec l’alimentation en continu est n(1, 1) = (15 + 16) = 31, le
nombre que l’on devrait observer en moyenne est m(1, 1) = (12, 5 + 14) = 26, 5. La variance d’échantillonnage
de n(1, 1) est :
94
L’étude de l’association entre variables binaires (Lopez, C.)
v(1, 1) = ∑z vz (1, 1) =
15 ∗ 25 ∗ 20 ∗ 20 12 ∗ 28 ∗ 20 ∗ 20
+
= 4, 558
402 ∗ 39
402 ∗ 39
La statistique de Mantel-Haenszel est égale à :
2
31 − 26, 5
QMH =
= 4, 443
4, 558
On conclut à un effet significatif (p=0,035) de l’alimentation à type de logement fixé (on dit ((ajusté du logement))).
3- L’odds ratio quantifiant la liaison entre le facteur X et la réponse Y ajustée du facteur de confusion Z est alors
estimé par l’expression suivante [Mantel-Haenszel, [22]] :
nz (1, 1) ∗ nz (0, 0) nz
∑
z
c MH =
OR
∑z nz (0, 1) ∗ nz (1, 0) nz
. L’odds ratio de l’alimentation ajusté du logement est égal à :
c MH = 15 ∗ 10/40 + 16 ∗ 8/40 = 2, 837
OR
5 ∗ 10/40 + 16 ∗ 8/40
L’estimateur ((Logit))
Un autre estimateur de l’odds ratio entre X et Y ajusté de Z est également proposé, l’estimateur ((LOGIT)). Il
est plus naturel à comprendre car s’exprimant comme une moyenne pondérée des estimations des logarithmes
des odds ratio par niveau de la variable Z (ORz ). Le coefficient de pondération étant l’inverse de la variance des
Logarithmes des odds ratio intra niveau de Z.
c
c L = ∑z wz ∗ ln(ORz )
OR
∑z wz
avec
c z) =
var ln(OR
;
wz =
1
c z)
var ln(OR
1
1
1
1
+
+
+
nz (0, 0) nz (0, 1) nz (1, 0) nz (1, 1)
95
L’étude de l’association entre variables binaires (Lopez, C.)
. L’estimation LOGIT de l’odds ratio ajusté de l’alimentation donne la même estimation que celle de MantelHaenszel :
1
1
1
1
+ + +
= 0, 4667
10 10 5 15
;
w−1
1 =
c 0 ) = ln 15 ∗ 10 = 1, 0986
ln(OR
5 ∗ 10
;
c 1 ) = ln 16 ∗ 8 = 0, 9808
lnOR
4 ∗ 12
w−1
0 =
1
1
1
1
+ + +
= 0, 5208
8 12 4 16
1
1
∗ 1, 0986 +
∗ 0, 9808
0, 4667
0, 5208
c
ln(ORL ) =
= 1, 0429
1
1
+
0, 4667 0, 5208
c L = e1,0429 = 2, 837
OR
5.2
Condition d’utilisation du test de Mantel-Haenszel, le test d’interaction
Le test précédent n’a de sens que si la liaison entre X et Y est la même dans chacune des classes de Z. On dit
alors qu’il n’y a pas d’interaction entre X et Z.
Cela signifie que les odds ratio ORz sont les mêmes pour toutes les strates z. Si cette supposition n’est pas
vérifiée il est déconseillé de se baser sur ces statistiques pour juger de l’effet spécifique de X sur Y .
C’est le cas par exemple si les odds ratio intra strate s’inversent d’une classe z à l’autre, X jouant un rôle
protecteur pour certains niveaux de Z et étant à risque pour d’autres niveaux. Dans ce cas la statistique QMH
peut être très petite sur l’ensemble des strates de Z et traduire un manque d’effet moyen de X qui ne restitue
absolument par la diversité des situations suivant le niveau de Z.
Cette hypothèse d’absence d’interaction peut être testée, c’est ce que nous allons décrire maintenant.
Un test d’interaction, le test de Breslow-Day [6]
Le principe du test consiste à calculer la valeur attendue mz (1, 1) dans chaque classe z sous l’hypothèse que
l’odds ratio entre X et Y est la même dans chaque strate.
96
L’étude de l’association entre variables binaires (Lopez, C.)
ORz = OR quel que soit z
L’odds ratio OR est estimé par l’odds ratio de Mantel-Haenszel.
Si l’alimentation est sans effet sur la coloration du gras dans la classe z, la valeur attendue mz (1, 1) doit alors
vérifier l’équation :
mz (1, 1) mz (1, 0)
c MH
= OR
mz (0, 0) mz (0, 1)
(2.8)
pour chacune des classes z, où mz (x, y) désigne l’effectif moyen attendu dans la classe {X=x ; Y=y} .
Dans cette équation seule la valeur de mz (1, 1) est la seule quantité inconnue puisque l’on raisonne à marges
fixées. Les relations suivantes :
mz (1, 0) = nz (1, +) − mz (1, 1)
mz (0, 1) = nz (+, 1) − mz (1, 1)
mz (0, 0) = nz − nz (1, +) − nz (+, 1) + mz (1, 1)
c MH en fonction de mz (1, 1). Une fois obtenue la valeur de mz (1, 1) on calcule les
permettent d’exprimer OR
autres valeurs attendues, mz (x, y), à l’aide des relations précédentes. Le calcul est ainsi réalisé pour toutes les
classes z.
La statistique de Breslow-Day est alors :
QBD = ∑z ∑x ∑y
2
nz (x, y) − mz (x, y)
mz (x, y)
On montre que QBD suit approximativement une distribution du Chi-deux à q-1 degrés de liberté (où q est le
nombre de strates) sous l’hypothèse nulle d’égalité des odds ratio intra strate.
Il faut noter que si le test de Mantel-Haenszel nécessite d’avoir des effectifs importants sur l’ensemble des q
classes de Z, le test de Breslow-Day suppose des effectifs importants dans chaque strate ce qui peut limiter
sérieusement sa validité notamment lorsque l’on a beaucoup de strates.
97
L’étude de l’association entre variables binaires (Lopez, C.)
Un second test d’interaction, le test de Paul et Donner [20]
Ce second test est réalisé à partir des estimations Logit des odds ratio intra strate.
c z , en échelle logarithmique. On calcule la variance
Il est basé sur la différence des odds ratio intra strate, OR
c z ), le coefficient de pondération étant l’inverse de la variance des ln(OR
c z)
pondérée des ln(OR
2
cL
c z − ln OR
IL = ∑ wz ∗ ln OR
z
Sous l’hypothèse d’absence d’interaction entre X et Z, IL suit une distribution de Chi-deux avec (q-1) degrés de
liberté.
Il faut souligner que ce test est peu puissant, c’est-à-dire que sa capacité à détecter des hétérogénéités d’odds
ratio est assez faible [Jones et al.,[20]].
En pratique le test d’interaction doit précéder l’estimation de l’odds ratio ajusté du facteur Z. Cette
estimation n’est réellement interprétable qu’en absence d’interaction ou lorsque les odds ratio intra
strate sont légèrement différents et tous supérieurs ou tous inférieurs à 1 (interaction de type ((synergie))).
Nous allons maintenant analyser les données ((gras coloré)) à l’aide de la procédure FREQ dans un premier
temps puis nous comparerons aux résultats obtenus avec le modèle logistique.
98
L’étude de l’association entre variables binaires (Lopez, C.)
5.3
L’analyse des données avec SASr
Le tableau suivant représente les pourcentages de carcasses colorées par type d’alimentation pour chacun des 2
logements ainsi que les odds ratio par type de logement.
z=0
z=1
x=0
10
20
= 0, 50
12
20
= 0, 60
x=1
15
20
= 0, 75
16
20
= 0, 80
ORz
15/5
10/10
= 3, 00
16/4
12/8
= 2, 67
Les 2 odds ratio conditionnels sont assez proches, ce qui laisse présager une absence d’interaction.
Le code SASr s’écrit :
proc freq data=s.gras;
title1 "aliment ajusté du logement";
table logement*aliment*y/ chisq cmh1;
run;
TAB . 2.15: La prise en compte du logement avec FREQ
Les 3 variables logement, aliment et couleur figurent dans l’instruction ((table)) avec la variable ((logement)) en
premier. L’option ((cmh1)) indique à SASr que l’on veut ajuster sur cette variable.
Les résultats (tableau 2.16) indiquent, comme on s’y attendait, une absence d’interaction (test de Breslow-Day,
χ2BD = 0, 0141, p = 0, 9056). Le test de Paul et Donner (non calculé par FREQ) fournit le même résultat. Les
c MH = 2,8367 et
deux estimations de l’odds ratio de l’alimentation ajusté du logement sont très proches, OR
c L = 2,8376. On retrouve le résultat calculé précédemment. La statistique de Mantel-Haenszel, χ2 = 4, 443
OR
MH
(statistique ((Nonzero Correlation))), assure que l’alimentation ajustée du logement a un effet significatif sur le
risque de coloration du gras (p = 0, 035).
On remarque que l’odds ratio ajusté est très proche de l’odds ratio estimé sans tenir compte du logement
c = 2, 82). Cela signifie que le type de logement des animaux n’a pas d’influence sur la coloration du gras.
(OR
99
L’étude de l’association entre variables binaires (Lopez, C.)
Summary Statistics for aliment by couleur
Controlling for logement
Cochran-Mantel-Haenszel Statistics (Based on Table Scores)
Alternative
Statistic Hypothesis
DF
Value
1 Nonzero Correlation
1
4.4430
Prob
0.0350
Estimates of the Common Relative Risk (Row1/Row2)
Type of Study
Method
Value
95% Confidence Limits
Case-Control
Mantel-Haenszel
2.8367
1.0728
7.5009
(Odds Ratio)
Logit
2.8376
1.0731
7.5031
Cohort
Mantel-Haenszel
2.0000
1.0258
3.8994
(Col1 Risk)
Logit
2.0000
1.0266
3.8965
Cohort
Mantel-Haenszel
0.7097
0.5125
0.9826
(Col2 Risk)
Logit
0.7149
0.5175
0.9874
Breslow-Day Test for
Homogeneity of the Odds Ratios
Chi-Square
DF
Pr > ChiSq
0.0141
1
0.9056
TAB . 2.16: Le test d’interaction ((logement*aliment)) avec FREQ
Nous allons montrer maintenant comment refaire cette analyse en utilisant le modèle logistique.
100
L’étude de l’association entre variables binaires (Lopez, C.)
6
Le modèle logistique avec 2 variables explicatives
6.1
un second modèle
Le risque, exprimé en échelle Logit, s’écrit en fonction des indicatrices de logement, d’alimentation ainsi que
de leur interaction :
π(x, z) ln
≡ η(x, z) = µ + αx + θz + γxz
1 − π(x, z)
(2.9)
où :
1. π(x,z) désigne la probabilité de gras coloré conditionnellement à l’alimentation x et au logement z,
2. µ désigne le risque moyen de gras coloré en échelle Logit
3. αx désigne l’écart dû à l’alimentation x,
4. θz désigne l’écart dû au logement z,
5. γxz désigne l’écart d’interaction ((alimentation x logement)).
avec les contraintes habituelles sur les paramètres :
α0 + α1 = 0
θ0 + θ1 = 0
γ00 + γ01 = 0
γ10 + γ11 = 0
6.2
γ00 + γ10 = 0
γ01 + γ11 = 0
L’analyse des données avec SASr
Le code SASr correspondant à l’analyse de ce modèle s’écrit
L’option ((type 1)) de l’instruction ((model)) indique que l’on veut tester les différents effets de façon séquentielle, dans l’ordre : 1/ le logement, 2/ l’alimentation ajustée du logement et 3/ l’interaction ((alimentation ∗
logement)) ajustée du logement et de l’alimentation. Cette option est nécessaire pour faire les ajustements adéquats.
101
L’étude de l’association entre variables binaires (Lopez, C.)
proc genmod
title1
title2
class
model
lsmeans
estimate
estimate
estimate
estimate
run;
data=s.profils;
"effet de l'alimentation et du type du logement";
"interaction alimentation x logement présente";
aliment logement;
y/n = logement aliment aliment*logement / dist=binomial type1;
aliment logement aliment*logement / cl;
"Loge(OR(alim|logt=0)"
aliment -1 +1 aliment*logement -1 0 +1 0 / exp;
"Loge(OR(alim|logt=1)"
aliment -1 +1 aliment*logement 0 -1 0 +1 / exp;
"Loge(OR(aliment))"
aliment -1 +1 / exp;
"Loge(OR(logement))"
logement -1 +1 / exp;
TAB . 2.17: Le code SASr du modèle ((couleur = logement+aliment+aliment*logement))
Les deux premières instructions ((estimate)) estiment les odds ratio partiels de l’alimentation pour les animaux
en cases collectives d’une part et en cases individuelles d’autre part.
Attention à l’ordre des coefficients du terme d’interaction, ils dépendent de l’ordre d’écriture des facteurs dans
l’instruction ((class)). Le facteur qui varie en premier est le plus à droite. Ici l’ordre est le suivant :
Aliment=0
Logement=0
Aliment=1
Logement=1
Logement=0
Logement=1
la qualité d’ajustement
On note que le modèle contient autant de paramètres, 4, (µ, α1 , θ1 , γ11 ) que de profils. On dit que le modèle est
((saturé)). C’est ce qu’indiquent les déviances égales à zéro (tableau 2.18).
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Deviance
0
0.0000
Scaled Deviance
0
0.0000
Pearson Chi-Square
0
0.0000
Scaled Pearson X2
0
0.0000
Log Likelihood
-48.5779
Value/DF
.
.
.
.
TAB . 2.18: Les déviances
Les probabilités prédites pour les 4 profils seront égales aux probabilités observées. On ne pourra pas tester une
hétérogénéité du risque de coloration intra profil.
102
L’étude de l’association entre variables binaires (Lopez, C.)
Les tests de type 1
Le tableau suivant 2.19 fournit les tests successifs, ((logement)), ((aliment)) et ((logement ∗ aliment)).
LR Statistics For Type 1 Analysis
Source
Deviance
DF Chi-Square
Pr > ChiSq
modèles
Intercept
5.1423
µ
logement
4.6383
1
0.50
0.4778
aliment
0.0140
1
4.62
0.0315
µ+Logement
µ+Logement+Aliment
aliment*logement
0.0000
1
0.01
0.9057
µ+Logement x Aliment
TAB . 2.19: Les tests de type1
• Avant de considérer le test ajusté de l’alimentation il nous faut examiner l’interaction ((alimentation ∗
logement)). Le test est réalisé en comparant la déviance du modèle saturé ((logement+aliment+aliment
∗ logement)) à 4 paramètres (désigné dans le tableau précédant par ((Logement x Aliment))) à celle du
π(x,z) = µ + αx + θz à 3 paramètres. La différence
modèle sans l’interaction,((logement+aliment)), ln 1−π(x,z)
des déviances suit, sous l’hypothèse d’absence d’interaction, un Chi-deux à 4-3 = 1 degré de liberté. Ici
la différence (0,0140 - 0,000 = 0,0140) n’est pas significative (p=0,9057).
C’est le test d’interaction de Paul et Donner cité dans l’analyse avec FREQ.
• Le test de l’alimentation ajusté du logement est réalisé en comparant la déviance du modèle ((logement)) à
π(z) = µ+θz à celle du modèle ((logement + alimentation)). La différence de déviance
2 paramètres, ln 1−π(z)
(4,6383 - 0,0140=4,6243) suit un Chi-deux à 3-2=1 degré de liberté sous l’hypothèse d’absence d’effet
de l’alimentation. On conclut à un effet significatif (p=0,0315). La statistique de test (χ2 =4,62 est très
proche de la statistique de Mantel-Haenszel, χ2MH =4,44).
• Enfin le test du type de logement est obtenu en comparant la déviance associée au modèle ((nul)) à 1
π
paramètre (((intercept))), ln 1−π
= µ, correspondant à un risque de gras coloré identique pour les 2 types
d’alimentation à celle associée au modèle ((logement)). La différence des déviances (5,1423 - 4,6383 =
0,504) suit sous l’hypothèse d’absence d’effet logement un Chi-deux à (2-1)=1 degré de liberté. Ce test
est non significatif (p=0,4778).
Cette analyse confirme l’effet de l’alimentation sur la probabilité d’avoir un gras coloré et permet d’affirmer que l’effet de l’alimentation en continu est le même quel que soit le type de logement. Elle ne met
pas en évidence d’effet du type de logement.
103
L’étude de l’association entre variables binaires (Lopez, C.)
Remarque : Les tests de type 3
Il existe un autre type de tests, les tests de ((type 3)), qui testent l’effet de chaque variable en présence des autres
variables.
Ainsi l’alimentation serait testée en comparant les vraisemblances associées aux 2 modèles suivant :
M1= µ+ Logement+
+ Logement∗Alimention
M2= µ+ Logement+ Alimentation + Logement∗Alimention
Sous l’hypothèse d’absence d’effet de l’alimentation la différences des déviances associées à chacun de ces 2
modèles suit un Chi-deux avec comme degrés de liberté la différence entre les nombres de paramètres associés
à chacun des 2 modèles.
Contrairement aux tests de type 1 les résultats de ces tests ne dépendent pas de l’ordre d’introduction des effets
dans le modèle.
Ces tests sont plutôt adaptés aux cas où plusieurs variables explicatives sont introduites et où tous les effets
sont étudiés. Ce n’est pas la situation où nous nous sommes placés pour l’étude du gras. Nous avons en effet
considéré le facteur ((Logement)) comme un facteur secondaire dont on voulait seulement contrôler l’effet dans
l’étude du facteur principal qui est l’alimentation.
Les moyennes ajustées
Le tableau 2.20 présente les moyennes ajustées des 3 effets testés en échelle Logit, (η̂(x, z)). Celles qui correspondent aux termes d’interaction sont les Logit observés des proportions de carcasses à gras coloré par profil
((alimentation x logement)).
Ainsi pour le profil ((aliment=0 et logement=0)) l’odds de la couleur rosé est 10/10 soit un Logit égal à η̂(0, 0) =
0, 00. De même pour le profil ((aliment=1 et logement=0)) l’odds est 15/5 = 3, le Logit vaut η̂(1, 0) = ln(3) =
1, 0986 et ainsi de suite.
Les moyennes des types d’alimentation ajustées du logement sont les moyennes arithmétiques des Logits observés sur les deux profils de logement correspondant à chaque type d’alimentation donné.
104
L’étude de l’association entre variables binaires (Lopez, C.)
Effect
aliment
aliment
logement
logement
aliment*logement
aliment*logement
aliment*logement
aliment*logement
aliment
0
1
0
0
1
1
Least Squares Means
Standard
logement Estimate
Error
DF Chi-Square Pr > ChiSq Confidence Limits
0,2027
0,3195
1
0,4
0,5257 -0,4235
0,829
1,2425
0,3805
1
10,66
0,0011
0,4967
1,9882
0
0,5493
0,3416
1
2,59
0,1078 -0,1201
1,2188
1
0,8959
0,3608
1
6,16
0,013
0,1886
1,6031
0
0
0,4472
1
0
1 -0,8765
0,8765
1
0,4055
0,4564
1
0,79
0,3744 -0,4891
1,3001
0
1,0986
0,5164
1
4,53
0,0334
0,0865
2,1107
1
1,3863
0,559
1
6,15
0,0131
0,2906
2,4819
TAB . 2.20: Les moyennes ajustées
Ainsi pour l’alimentation non continue le risque ajusté du logement en échelle Logit est :
η̂(0, .) =
η̂(0, 0) + η̂(0, 1)
2
0,4055 = 0, 2027
η̂(0, .) = 0,0000+
2
soit
Ces moyennes ajustées sont intéressantes car elles permettent de récupérer les estimations des probabilités 14
π(x,z) de chaque profil {x,z} à l’aide de l’expression :
π̂(x, z) =
exp (η̂(x, z))
1 + exp (η̂(x, z))
On obtient également l’intervalle de confiance de la probabilité prédite en appliquant la même formule aux
bornes de l’intervalle de confiance des moyennes ajustées, présentes dans le tableau précédent sous la rubrique
((Confidence Limits)).
Ainsi la probabilité pour une carcasse d’avoir un gras coloré pour une alimentation non continue est :
π̂(0) =
e0,2027
exp(η̂(0, .))
=
= 0, 55
1 + exp(η̂(0, .)) 1 + e0,2027
14. Ces prédictions peuvent également être obtenues à l’aide des options ((predicted)) et ((obstat)) de l’instruction ((model)). On a aussi
la possibilité de les stocker dans un fichier à l’aide de l’instruction ((output out=’nom_de_fichier’ predicted=’nom_de_variable’;))
105
L’étude de l’association entre variables binaires (Lopez, C.)
On retrouve le pourcentage observé p(0) = 55% avec un intervalle de confiance au niveau 95% estimé à :
IC(π̂(0)) =
e0,8290
e−0,4235
;
= [0, 40 ; 0,70]
1 + e−0,4235 1 + e0,8290
Les odds ratio conditionnels et ajustés Les estimations des odds ratio de l’alimention conditionnellement au
type de logement (soulignés) ainsi que leur intervalle de confiance figurent dans le tableau 2.21. On retrouve
les résultats calculés page 99.
Contrast Estimate Results
Estimate Standard Error
Confidence Limits
Label
Loge(OR(alim|logt=0)
1.0986
0.6831
-0.2403
2.4375
Exp(Loge(OR(alim|logt=0))
3.0000
2.0494
0.7864
11.4447
Loge(OR(alim|logt=1)
0.9808
0.7217
-0.4337
2.3953
Exp(Loge(OR(alim|logt=1))
2.6667
1.9245
0.6481
10.9716
Loge(OR(aliment))
1.0397
0.4969
0.0659
2.0136
Exp(Loge(OR(aliment)))
2.8284
1.4053
1.0681
7.4899
Loge(OR(logement))
0.3466
0.4969
-0.6273
1.3204
Exp(Loge(OR(logement)))
1.4142
0.7027
0.5341
3.7450
Chi-Square
Pr > ChiSq
2.59
0.1078
1.85
0.1741
4.38
0.0364
0.49
0.4855
TAB . 2.21: Les odds ratio de l’alimentation conditionnellement au type de logement
L’odds ratio de l’alimentation ajusté du logement est alors la moyenne géométrique des odds ratio conditionnels.
q
c
c
c
OR(alimentation|logement)
=
OR(alimentation|logement
= 0) ∗ OR(alimentation|logement
= 1),
p
c
3, 000 ∗ 2, 667 = 2, 8284
OR(alimentation|logement)
=
On trouve un résultat très proche de ceux produits par FREQ, page 100.
7
Conclusion
Le modèle logistique permet d’étendre l’étude de la liaison entre deux variables binaires à la prise en compte
de plusieurs variables binaires explicatives d’une réponse binaire.
Le modèle utilisé est un modèle de régression (ou d’analyse de variance) mais la nature binaire de la réponse
nécessite de modéliser une transformation g de la probabilité π(x) associée à l’une des 2 modalités de la réponse.
La transformation associée au modèle logistique utilisé dans notre étude est la transformation logistique.
106
L’étude de l’association entre variables binaires (Lopez, C.)
g(π(x)) = ln
π(x) (1 − π(x))
Ce modèle fait partie d’un ensemble de modèles regroupés sous le terme ((Modèle Linéaire Généralisé)) .
Les paramètres du modèles posés permettent d’estimer les effets spécifiques (ajustés) de chacune des variables
explicatives. L’interprétation des paramètres dépend de la transformation g choisie .
• Avec la transformée logistique les paramètres du modèle s’interprètent comme des logarithmes de odds
ratio 15 .
• Avec la transformation Log népérien, g(π(x)) = ln(π(x)), les paramètres s’interprètent comme des
logarithmes de risques relatifs.
• Si nous ne transformons pas la réponse (fonction g ((identité))), g(π(x)) = π(x)), les paramètres s’interprètent comme des risques en excès.
Le choix entre les transformations dépend du contexte.
L’analyse directe sur les pourcentages sans transformation préalable peut être employée lorsque les pourcentages observés ne sont pas trop éloignés de 0,50 et que les échantillons sont ((confortables)). Une simple analyse
de variance (par exemple ((GLM)) dans SASr ) fait l’affaire. Si par contre les pourcentages observés sont très
faibles ou très proches de 1, l’analyse sans transformation est à déconseiller.
L’analyse sur les logarithmes des pourcentages peut s’envisager mais elle peut réserver des surprises au niveau
des intervalles de confiance (des bornes inférieures à zéro ou supérieures à 1).
Enfin le protocole peut rendre non pertinentes l’analyse sur transformée logarithmique et l’analyse directe sur
les données (cf. les différents types d’enquêtes). Seuls les paramètres fournis par la transformation logistique
sont toujours interprétables.
Au final le modèle logistique semble être le modèle le plus adapté à la nature binaire de la réponse analysée
malgré l’expression peu naturelle du risque en échelle ((odds)) qu’il nécessite.
15. à un coefficient près suivant que les variables explicatives sont considérées comme des variables quantitatives ou qualitatives
107
L’étude de l’association entre variables binaires (Lopez, C.)
L’analyse logistique peut être étendue à la prise en compte de variables explicatives qualitatives, ordinales ou
nominales. Les odds ratio se définissent alors à partir d’une classe de la variable explicative, prise comme
référence.
Enfin l’analyse logistique se généralise à l’explication d’une réponse qualitative. C’est l’analyse logistique généralisée. Un cas particulièrement important est celui où la réponse est ordinale. L’analyse en ((Logit cumulés))
permet de prendre en compte le caractère ordonné des modalités de réponse (Agresti, [1]).
108
Analyse d’un pourcentage (Lavialle, O.)
Chapitre 3
Analyse d’un pourcentage
Lavialle, O.
ENITA de Bordeaux - 1, Cours du Général de Gaulle - BP 201, 33175 Gradignan cedex
[email protected]
1
introduction
Les données à traiter se présentent parfois sous la forme de proportions ou de pourcentages pour lesquels
on ne dispose pas de l’information concernant le nombre total d’individus observés (i.e. le dénominateur des
proportions). Les exemples relevant de cette situation sont nombreux : proportion de la surface d’une feuille
attaquée par une maladie fongique, pourcentage d’une récolte pour différente catégories de qualité (sans avoir
accès au nombre d’individus), pourcentage de matière grasse mesurée chez un animal...
Nous allons développer un tel exemple en expliquant la conséquence de la non connaissance du dénominateur
des proportions sur les estimations des variances liées au modèle. L’introduction d’un facteur de surdispersion
nous permettra d’estimer le modèle en utilisant une démarche très voisine de celle utilisée pour une variable
binomiale classique.
109
Analyse d’un pourcentage (Lavialle, O.)
2
essai phytosanitaire - présentation de l’exemple
Le tableau 3.1 regroupe les données d’un essai phytosanitaire sur fraisier portant sur des produits anti-oïdium.
L’objectif est de comparer l’efficacité de différentes stratégies de lutte : un produit A, utilisé classiquement est
considéré comme référence (PA) ; le même produit est testé avec une cadence variable suivant un modèle de
prévision d’attaque oïdium (PAPREV) ; une nouvelle molécule est également testée (PB). Enfin, une modalité
non traitée est utilisée comme témoin de contamination (TEM). Le dispositif est un dispositif en bloc complet
avec 4 blocs comportant chacun les 4 modalités testées. Chacune des 16 Parcelles élémentaires est constituée
de 20 fraisiers.
Traitement
bloc
psur f
PB
1
3.99
PB
2
3.70
PB
3
5.10
PB
4
2.87
PA
1
7.61
PA
2
3.16
PA
3
4.02
PA
4
6.59
PAPREV
1
1.99
PAPREV
2
0.62
PAPREV
3
0.64
PAPREV
4
1.37
TEM
1
26.70
TEM
2
34.14
TEM
3
13.84
TEM
4
26.24
TAB . 3.1: données de l’essai porte-greffe
Le suivi des contaminations foliaires est réalisé par notation de la surface recouverte par les fructifications de
110
Analyse d’un pourcentage (Lavialle, O.)
l’oïdium sur 20 feuilles choisies au hasard sur chaque parcelle élémentaire. Ensuite, l’efficacité des traitements
est mesurée par la fréquence d’attaques (pourcentage de feuilles touchées) et par l’intensité (Surface moyenne
touchée). Nous nous intéressons uniquement au traitement de la variable "intensité".
Pour chaque unité expérimentale, la réponse Y est obtenue sur 20 feuilles : c’est une estimation de la proportion
(0-100%) de surface tachée de la parcelle. Nous disposons d’une réponse qui est le rapport entre surface attaquée
et surface totale. Cependant, la notion "d’individu" n’est pas présente et l’écriture sous forme d’un rapport
yi = ri /ni où r est un nombre de "succès" et n un nombre d’observations est impossible. La conséquence
générale de ceci est un manque d’information sur la variance de la réponse qui dépend directement de n.
111
Analyse d’un pourcentage (Lavialle, O.)
3
SAS
3.1
Utilité du lien logit
Création de la table
PGM _______________________________________________________________________
Data oidium;
input Traitement $ bloc $
psurf;
datalines;
PB
1
3.99
PB
2
3.70
PB
3
5.10
PB
4
2.87
PA
1
7.61
PA
2
3.16
PA
3
4.02
PA
4
6.59
PAPREV
1
1.99
PAPREV
2
0.62
PAPREV
3
0.64
PAPREV
4
1.37
TEM
1
26.7
TEM
2
34.14
TEM
3
13.84
TEM
4
26.24
;
run;
________________________________________________________________________PGM
Le lien logit est une fonction de lien naturelle pour les données binomiales dans la mesure où il assure que les
valeurs prédites seront comprises entre 0 et 1 (100 %) et qu’il permet de stabiliser les variances.
Pour illustrer l’intérêt du lien logit sur la stabilisation des variances, nous pouvons visualiser la dispersion des
valeurs observées et des logits correspondant à chaque observation.
PGM _______________________________________________________________________
Proc sort data=oidium ;
112
Analyse d’un pourcentage (Lavialle, O.)
by traitement;
run;
Proc means;
class Traitement;
var psurf;
output out=moysurf(where=(_type_=1)) mean=m;
run;
Data oidium;
merge oidium moysurf(keep=Traitement m);
by Traitement;
ecart=psurf-m;
run;
Proc gplot;
axis1 label=("moyenne des traitements");
axis2 label=("pourcentage de surface attaqué");
axis3 label=("logit(surface)");
plot psurf*m /vref=0 haxis=axis1 vaxis=axis2;
plot logit*m /vref=0 haxis=axis1 vaxis=axis3;
run;
quit;
________________________________________________________________________PGM
La Figure 3.1 illustre la relation entre la variance des observations et la moyenne des traitements avant et
après transformation 1 . La fonction logit permet de rendre comparable les dispersions des valeurs au sein des 4
traitements quelque soit leur moyenne.
1. faire ces représentations revient à négliger l’effet des blocs.
113
Analyse d’un pourcentage (Lavialle, O.)
Nous utiliserons dans la suite une modélisation de type logit qui est associée de manière générale à une variable
réponse de type binomial.
F IG . 3.1: Relation entre la dispersion des valeurs des traitements et leur moyenne. Valeurs initiales et logits
correspondants
3.2
Estimation du modèle avec introduction d’un facteur de surdispersion
Les données expérimentales sont traitées au moyen de la procédure GENMOD
Notons Y, la variable réponse. Dans le cas d’une loi binomiale, Y se présente sous la forme du rapport :
Y=
r
n
où n représente le nombre d’observations et r le nombre de "succès".
Dans notre cas, pour chaque observation, nous disposons d’une réponse yi qui est le rapport entre surface
attaquée et surface totale. Cependant, la notion "d’individu" n’est pas présente : les ni et les ri ne sont pas
définis.
Pour autant, le modèle réclame une présentation sous la forme r/n. La réponse étant exprimée en pourcentage,
nous posons r=psurf et nous fixons arbitrairement n à 100 sachant que cette valeur ne représente aucunement le
nombre d’observations effectuées dans chaque parcelle élémentaire. Ne pas connaitre n, c’est ne pas connaitre
"l’échelle" à laquelle ont été réalisées les observations. En effet, nous aurions pu exprimer les réponses en
114
Analyse d’un pourcentage (Lavialle, O.)
proportion (de 0 à 1) et non plus en pourcentage, n aurait alors été choisi égal à 1.
PGM _______________________________________________________________________
Data oidium;
set oidium;
n=100;
run;
Proc genmod;
class traitement ;
model surface/n = traitement bloc /
scale=D
type3;
contrast ’trait contre témoin’ traitement 1 1 1 -3;
contrast ’A contre B’ traitement 1 0 -1 0;
contrast ’B+A contre prévision’ traitement 1 -2 1 0;
lsmeans traitement /diff;
run;
________________________________________________________________________PGM
L’écriture r/n dans l’instruction model permet de spécifier que la réponse est binomiale. Le lien Logit est alors
sélectionné par défaut. La distribution binomiale réclame une valeur entière pour r. Ce n’est pas le cas de notre
modèle et bien que les calculs soient effectués, SAS retourne le message :
___________________________________________________________________________________
NOTE: Non-integer response values have been detected for the Binomial distribution.
___________________________________________________________________________________
Pour une loi binomiale, la variance de la réponse s’écrit :
V (Y ) = p(1 − p)/n
115
Analyse d’un pourcentage (Lavialle, O.)
où p représente l’espérance de Y. Cette variance de Y est directement liée au nombre d’observations effectuées
pour obtenir une réponse yi . Dans notre cas, ne connaissant pas n, l’estimation de la dispersion de notre modèle
ne peut être effectuée ; les mesures de déviance ou du χ2 de Pearson n’ont également plus de sens lorsque les
ni ne sont pas définis.
En pratique, la conséquence est la suivante : un des critères de bon ajustement du modèle consiste à vérifier que
le rapport entre le χ2 de Pearson (ou la déviance) et le nombre de degrés de liberté est proche de 1. Dans le cas
où les effectifs ne sont pas connus, ces rapports peuvent être très différents de 1. Le modèle apparaît alors de
manière artificielle surdispersé (
χ2Pearson
nddl
>> 1) ou sous-dispersé (
χ2Pearson
nddl
<< 1).
Une manière simple de modéliser cette situation est d’écrire la variance de la réponse sous la forme :
V (Y ) = φp(1 − p)/n
Le terme φ est appelé facteur de surdispersion.
L’option SCALE= dans l’instruction MODEL permet de fixer le facteur de surdispersion. Si SCALE=D est
spécifié, SAS fixe la valeur de φ égale à la déviance du modèle divisée par le nombre de dégrés de liberté.
Par suite, le modèle est ajusté de manière très classique et les paramètres estimés seront inchangés avec ou
sans facteur de surdispersion. Par contre les variances sont multipliées par φ, la déviance et le χ2 de Pearson
étant divisés par φ. La rapport entre la déviance ainsi ajustée et le nombre de ddl (DF en anglais) est égal à 1 et
l’ensemble des statistiques d’ajustement du modèle ainsi reparamétré sont calées sur les valeurs attendues 2 .
3.3
Interprétation
Ajustement du modèle : Comme attendu précédemment, l’introduction d’un facteur de surdispersion a conduit
à caler la déviance sur le nombre de degrés de liberté du modèle. En l’occurence dans cet exemple, la déviance
initiale n’était pas très éloignée de 9, le nombre de degrés de liberté (DF). Le modèle a cependant introduit un
facteur φ = Deviance/DF = 0,9788. La déviance et le χ2 après ajustement (Scaled Deviance,Scaled Pearson X2)
2. La deviance est une différence de fonctions de log-vraisemblance. Notons que la fonction obtenue en divisant une fonction de
log-vraisemblance par un facteur de surdspersion ne débouche pas sur une nouvelle fonction de log-vraisemmblance. Le résultat obtenu
est appelé fonction de quasi-vraisemblance. L’étude de ce type de fonction et ses diverses utilisations dépasse largement le cadre de cet
ouvrage. Le lecteur intéressé pourra consulter l’ouvrage de McCullagh et Nelder [23] ou encore les travaux de Wedderburn [31] ou cox
[11].
116
Analyse d’un pourcentage (Lavialle, O.)
et la log-vraissemblance du modèle ont donc étaient divisés par ce paramètre.
Sortie _______________________________________________________________________
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
9
8.8089
0.9788
Scaled Deviance
9
9.0000
1.0000
Pearson Chi-Square
9
9.0799
1.0089
Scaled Pearson X2
9
9.2768
1.0308
Log Likelihood
-405.4821
Algorithm converged.
_________________________________________________________________________Sortie
La suite de la sortie concerne l’estimation des effets. Par défaut, le traitement "TEM" et le Bloc 4 sont choisis
comme référence. Le terme constant (intercept) est donc l’estimation de la moyenne pour le témoin du bloc 4.
Pour chaque paramètre, l’erreur standard est fournie. Cette erreur a été calculée en intégrant la correction du
facteur de surdispersion, les estimations des paramètres étant inchangées. Les intervalles de confiance de Wald
associés aux estimations sont fournis. Lorsque ces intervalles contiennent la valeur nulle, l’estimation est jugée
non significative. Un test de Wald de la nullité de chaque paramètre est fournit et permet d’aboutir aux mêmes
conclusions.
117
Analyse d’un pourcentage (Lavialle, O.)
La ligne "scale" donne le paramètre d’échelle. ce paramètre σ n’est autre que la racine carrée du facteur de
√
√
surdispersion introduit pour ajuster la déviance. σ = φ = 0, 9788 = 0, 9893
Sortie _______________________________________________________________________
Analysis Of Parameter Estimates
standard
Wald 95% Confidence
Limits
Parameter
DF
Estimate
Error
Intercept
1
-1.0333
0.1938
-1.4130
-0.6535
28.44
<.0001
Traitement PA
1
-1.7998
0.2484
-2.2867
-1.3130
52.50
<.0001
Traitement PAPREV
1
-3.3776
0.4772
-4.3128
-2.4423
50.10
<.0001
Traitement PB
1
-2.1270
0.2800
-2.6757
-1.5782
57.71
<.0001
Traitement TEM
0
0.0000
0.0000
0.0000
0.0000
.
bloc
1
1
0.1050
0.2527
-0.3904
0.6003
0.17
0.6779
bloc
2
1
0.1464
0.2512
-0.3460
0.6389
0.34
0.5600
bloc
3
1
-0.5402
0.2843
-1.0974
0.0170
3.61
0.0574
bloc
4
0
0.0000
0.0000
0.0000
0.0000
.
0
0.9893
0.0000
0.9893
0.9893
Scale
Chi-2
Pr > ChiSq
.
.
NOTE: The scale parameter was estimated by the square root of DEVIANCE/DF.
_________________________________________________________________________Sortie
Par rapport à la référence (Témoin), les paramètres associés à l’ensemble des autres traitements (PA, PAPREV
et PB) sont significativement différents de 0. Les estimations sont négatives : respectivement -1.8 pour PA, -3.38
pour PAPREV et -2.12 pour PB. Nous démontrons donc l’efficacité des traitements par rapport au traitement
témoin.
118
Analyse d’un pourcentage (Lavialle, O.)
Les effets du terrain (blocs) sont beaucoup moins marqués. Nous ne mettons pas en évidence d’effet significatif
entre les blocs 1, 2 ou 3 et le bloc 4. Cependant, notons la moindre attaque observée dans le bloc 3. Il semble
que cette différence soit en partie due au fait que le témoin a été beaucoup moins attaqué dans ce bloc.
Statistiques liées aux rapports de vraisemblance : elles sont calculées pour chaque facteur apparaissant dans le
modèle. La statistique peut être calculée pour une analyse de Type 1 ou de Type 3.
Deux tests sont proposés par SAS : Un test consiste à calculer la différence entre D0 et D+ les déviances
respectives du modèle sans le facteur testé et avec le facteur testé. La distribution asymptotique de cet écart de
déviance 3 est une loi du χ2 à m-1 degrés de liberté où m est le nombre de modalités du facteur.
Une seconde statistique est proposée : cette statistique F dont la distribution asymptotique est une distribution
0 −D+
de Ficher-Snédécor est calculée par F D
φ(m−1) .
Pour l’erreur de Type 1, les facteurs sont testés dans l’ordre de leur saisie dans le modèle. Pour l’erreur de Type
3, le test est réalisé entre le modèle complet (déviance D+ ) et le modèle amputé du facteur testé (D0 ).
Sortie _______________________________________________________________________
LR Statistics For Type 1 Analysis
Source
Deviance
NDF
DDF
F
Pr > F
Chi-2
Pr > ChiSq
Intercept
176.5966
Traitement
16.3741
3
9
54.57
<.0001
163.70
<.0001
8.8089
3
9
2.58
0.1186
7.73
0.0520
bloc
3. Un écart de déviance est, par définition, assimilable à un rapport de vraisemblance des modèles.
119
Analyse d’un pourcentage (Lavialle, O.)
LR Statistics For Type 3 Analysis
Source
NDF
DDF
F
Pr > F
Chi-2
Pr > ChiSq
Traitement
3
9
54.84
<.0001
164.51
<.0001
bloc
3
9
2.58
0.1186
7.73
0.0520
_________________________________________________________________________Sortie
Le facteur bloc étant introduit en dernier, les probabilités associées aux tests de type 1 ou 3 sont identiques.
Nous retrouvons un effet non significatif au seuil 0,05. Nous ne mettons pas d’effet bloc en évidence. Le faible
niveau de probabilité nous incitera cependant à être vigilant sur un éventuel effet terrain lors de futures mises
en place d’essais expérimentaux dans les mêmes conditions.
Les probabilités associées au test du facteur traitement confirment les observations réalisées sur les paramètres
du modèle. Le facteur traitement est très hautement significatif (p < 0.0001) en grande partie du fait de l’efficacité des traitements comparativement au témoin.
LSMEANS : Les tableaux suivants regroupent les moyennes estimées pour les modalités du facteur traitement
ainsi qu’un test de significativité des différences observées entre les traitements. Ces deux tableaux sont le
résultat de l’instruction (LSMEANS traitement /diff;) de PROC GENMOD.
Cette instruction demande l’affichage des estimations pour les caractères qualitatifs listés (ici, uniquement le
traitement). L’option diff permet d’obtenir un test sur l’ensemble des différences.
Les moyennes au sens des moindres carrés sont directement issues des paramètres du modèle. Un test de nullité
des moyennes est effectué. Ce test n’a que très peu d’intérêt dans notre cas : tester la nullité d’un logit équivaut
120
Analyse d’un pourcentage (Lavialle, O.)
à tester si la valeur du pourcentage de surface attaquée est égal à 50 %, ce qui ne présente absolument aucun
intérêt technique.
Les tests sur les différences sont plus instructifs puisqu’ils conduisent à conclure sur l’efficacité relative des
traitements.
Sortie _______________________________________________________________________
Least Squares Means
Standard
Effect
Traitement
Estimate
Error
DF
Chi-2
Pr > ChiSq
Traitement
PA
-2.9053
0.2214
1
172.23
<.0001
Traitement
PAPREV
-4.4831
0.4637
1
93.46
<.0001
Traitement
PB
-3.2325
0.2563
1
159.00
<.0001
Traitement
TEM
-1.1055
0.1155
1
91.62
<.0001
Differences of Least Squares Means
Standard
Effect
Traitement -Traitement
Estimate
Error
DF
Chi-2
Pr > ChiSq
Traitement
PA
PAPREV
1.5777
0.5128
1
9.47
0.0021
Traitement
PA
PB
0.3272
0.3372
1
0.94
0.3319
Traitement
PA
TEM
-1.7998
0.2484
1
52.50
<.0001
121
Analyse d’un pourcentage (Lavialle, O.)
Traitement
PAPREV
PB
-1.2506
0.5288
1
5.59
0.0180
Traitement
PAPREV
TEM
-3.3776
0.4772
1
50.10
<.0001
Traitement
PB
TEM
-2.1270
0.2800
1
57.71
<.0001
_________________________________________________________________________Sortie
Dans l’exemple, les différences sont toutes significatives au risque 0.05 mise à part le différence entre les
produits A et B. Le signe de l’estimation nous permet de visualiser rapidement le sens de la différence. Lorsque
l’estimation est négative, le traitement cité à gauche conduit à un pourcentage inférieur : il est donc plus efficace.
De l’ensemble de ce tableau nous déduisons que le traitement fondé sur le modèle de prévision (PAPREV) est
le plus efficace, suivi des traitements PA et PB qui sont comparables. Le témoin est très significativement plus
attaqué.
Tests des contrastes : La définition de contrastes permet d’opérer des comparaisons spécifiques entre les modalités testées. Les contrastes sont définis a priori dans la procédure GENMOD. Chaque contraste est une fonction
linéaire des effets dont nous testons l’égalité à 0.
__________________________________________________________
contrast ’trait contre témoin’ traitement 1 1 1 -3;
contrast ’A contre B’ traitement 1 0 -1 0;
contrast ’B+A contre prévision’ traitement 1 -2 1 0;
__________________________________________________________
Chaque instruction est composée d’une étiquette (exemple : ’trait contre témoin’), du nom du facteur testé puis
d’un vecteur de valeurs donnant le poids associé à chaque modalité dans la fonction linéaire (exemple 1 1 1 -3).
La somme des poids est nécessairement nulle Le premier contraste permet ici de comparer l’ensemble des 3
traitements (munis d’un poids de 1) au témoin seul (muni donc d’un poids de -3). Les tests utilisés sont fondés
122
Analyse d’un pourcentage (Lavialle, O.)
sur les rapports de vraisemblance comme pour l’analyse des effets des facteurs.
Sortie _______________________________________________________________________
Contrast Results
Contrast
NDF
DDF
F
Pr > F
Chi-2
Pr > ChiSq Type
trait contre témoin
1
9
159.79
<.0001
159.79
<.0001
LR
A contre B
1
9
0.95
0.3546
0.95
0.3291
LR
B+A contre prévision
1
9
11.46
0.0081
11.46
0.0007
LR
_________________________________________________________________________Sortie
Le premier constraste demandé oppose les traitements au témoin. La probabilité (p <0.0001) confirme l’efficacité démontrée des traitements. Le contraste entre produit A et B produit un résultat comparable au test
réalisé sur les LSmeans : il n’y a pas de mise en évidence d’une différence d’efficacité entre les deux produits.
Enfin le dernier contraste confirme l’efficacité de la stratégie de prévision par rapport aux deux produits utilisés
classiquement.
4
Conclusion
Dans ce chapitre, nous avons abordé le problème du traitement de données de pourcentage lorsque le nombre
d’observations par unité expérimentale n’est pas défini. L’impossibilité de parvenir à une estimation fiable de la
variance du phénomène nous conduit à utiliser une procédure incluant un paramètre d’échelle dans la variance
du modèle. Une fois ce paramètre introduit, l’interprétation du modèle est similaire à une interprétation d’un
modèle fondé sur une distribution binomiale très classique.
123
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Chapitre 4
Le modèle multinomial nominal
Chabanet, C.(1) & Dessaint, F.(2)
(1) :
INRA - UMR INRA-ENESAD : Arômes
17 rue Sully, BP 86510 - 21065 DIJON Cedex
[email protected]
(2) :
INRA - UMR INRA-ENESAD : UB Biologie et Gestion des Adventices
17 rue Sully, BP 86510 - 21065 DIJON Cedex
[email protected]
1
Introduction : exemple (( carcasses ))
Dans de nombreux pays de l’Union Européenne, la teneur en viande maigre d’une carcasse de porc est évaluée
à partir d’épaisseurs tissulaires mesurées en différents sites sur la carcasse. Les méthodes d’évaluation de la
teneur en viande maigre ne tiennent en revanche pas compte du génotype, exposant ainsi la prédiction à un
biais entre les différents génotypes. Une manière de réduire le biais passe par la construction d’un modèle de
prédiction du génotype par les épaisseurs tissulaires.
125
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
La variable à expliquer est ici le génotype de la carcasse, variable qualitative nominale, dont les quatre
modalités sont les types génétiques notées g1 (P : Piétrain), g2 (LWP : LargeWhite x Piétrain), g3 (PAL : Penar-Lan), g4 (LWLF : LargeWhite x Landrace Français). La variable explicative est une épaisseur de muscle
(en mm), elle a été découpée en 9 classes de manière à pouvoir regrouper les données dans un petit tableau
(Tableau 4.1) et à faciliter la saisie des données au lecteur désirant reproduire l’analyse avec le logiciel de son
choix 1 .
L’unité d’échantillonnage est ici la carcasse, sur
laquelle on observe l’une des modalités g1, g2, g3
Type génétique
ou g4 (le génotype prend l’une de ces modalités et
une seule). On appelle réponse le type génétique
muscle
g1 : P
g2 : LWP
g3 : PAL
g4 : LWLF
observé. On dispose d’autant de réponses que de
44,5
0
37
10
17
50,0
0
34
14
5
représentée par un quadruplet du type (1,0,0,0) pour
52,0
1
54
23
8
les carcasses présentant la modalité g1, (0,1,0,0) pour
54,0
3
52
23
6
56,0
3
54
34
7
58,0
3
44
20
1
60,0
4
23
12
2
Dans le tableau de données (Tableau 4.1), les ré-
62,0
7
23
8
0
ponses sont présentées de manière groupée, par classe
66,5
19
25
6
0
carcasses (ici, 582). Les réponses sont indépendantes les unes des autres 2 . Chaque réponse est
celles ayant la modalité g2, (0,0,1,0) pour celles
ayant la modalité g3 et (0,0,0,1) pour les carcasses
du type g4.
d’épaisseur de muscle (le centre de chaque classe
TAB . 4.1: données ((carcasses)) : effectifs observés
est reporté dans la colonne muscle). Par exemple,
pour la première classe d’épaisseur de muscle (centre de classe = 44,5), on a observé 0 carcasse de type g1, 37
de type g2, 10 de type g3 et 17 de type g4. Le tableau de données se présente donc sous la forme d’un tableau
de contingence. On cherche à modéliser le génotype et plus particulièrement les probabilités pour une carcasse
de présenter les différentes modalités g1, g2, g3 et g4 en fonction de l’épaisseur de muscle.
1. Le découpage en classe de l’épaisseur de muscle est réalisé à des fins pédagogiques. Dans une analyse réelle, l’épaisseur de
muscle n’aurait pas été découpée en classes, mais utilisée telle quelle, sous forme de variable continue.
2. le génotype d’une carcasse est indépendant du génotype d’une autre carcasse.
126
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Type génétique
muscle
g1 : P
g2 : LWP
g3 : PAL
g4 : LWLF
44,5
0
57,81
15,63
26,56
50,0
0
64,15
26,42
9,43
52,0
1,16
62,79
26,74
9,30
54,0
3,57
61,90
27,38
7,14
56,0
3,06
55,10
34,69
7,14
58,0
4,41
64,71
29,41
1,47
60,0
9,76
56,10
29,27
4,88
62,0
18,42
60,53
21,05
0
66,5
38,00
50,00
12,00
0
TAB . 4.2: données ((carcasses)) : proportions observées
2
Où le modèle linéaire généralisé est incontournable
L’utilisateur qui ne connaîtrait pas le modèle linéaire généralisé pourrait être tenté de réaliser quatre régressions
linéaires simples pour modéliser les proportions associées aux différentes modalités du génotype (Tableau 4.2)
en fonction de l’épaisseur de muscle par quatre droites. Une telle analyse pose au moins deux problèmes,
tous les deux détectables sur le graphe des résidus en fonction des probabilités prédites, réalisé pour le type
génétique g1 (Figure 4.1). D’une part certaines probabilités prédites sont négatives ! (de l’ordre de -0.10 ici,
elles pourraient être supérieures à 1 pour d’autres jeux de données). D’autre part, la structuration des résidus
en fonction des probabilités prédites est très marquée, avec des résidus positifs, puis négatifs, et enfin positifs.
Cette structuration vient de la forme de la liaison entre probabilité et épaisseur de muscle, qui est loin d’être
linéaire (Figure 4.2).
L’utilisateur qui se bornerait à présenter (et ne regarderait que) les paramètres estimés d’un tel modèle passerait
à côté de ces problèmes. Par contre l’examen du graphique des proportions observées en fonction de l’épaisseur
de muscle, ou du graphique des résidus en fonction des probabilités prédites lui ferait inévitablement suspecter
des problèmes. Moralité : rien ne vaut des représentations graphiques des données brutes et des résidus !
127
0.05
0.00
−0.05
résidus
0.10
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
−0.10
0.00
0.10
0.20
probabilités prédites
F IG . 4.1: Ce qu’il ne faut pas faire : une régression linéaire simple par type génétique. Résidus en fonction des
probabilités prédites, pour le type génétique g1.
3
Modèle multinomial nominal
La probabilité associée à chacun des types génétiques est dépendante de l’épaisseur de muscle. On souhaite
prédire le génotype d’une carcasse à partir de l’épaisseur de muscle, donc estimer la probabilité associée à
chaque type génétique pour chaque classe d’épaisseur, et son intervalle de confiance. L’utilisation du modèle
pour prédire le génotype d’une nouvelle carcasse suppose implicitement que cette carcasse est issue d’une
population dont la composition est similaire à celle de l’étude (7% de type génétique g1, 59% de type génétique
g2, 26% de type génétique g3, 8% de type génétique g4).
On souhaite modéliser la façon dont varient les probabilités πg1 , πg2 , πg3 , πg4 , associées à chacune des modalités
g1, g2, g3, g4 en fonction de l’épaisseur de muscle. On pourrait penser réaliser trois modélisations – une
modélisation associée à chacun des types génétiques g1, g2, g3 – puis en déduire la probabilité associée au
type génétique g4 (la somme des probabilités étant égale à un). Ceci pourrait se faire à l’aide de trois modèles
logistiques (modèles linéaires généralisés, loi binomiale, lien logit).
128
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Cependant, il est préférable de n’utiliser qu’un seul modèle, pour obtenir un modèle plus simple 3 , donc plus
précis, et pour pouvoir imposer la contrainte πg1 + πg2 + πg3 + πg4 = 1. Pour ce faire, on utilisera la loi multinomiale qui est une extension de la loi binomiale au cas de plus de deux modalités, et une généralisation du
π
lien logit, pour définir le modèle utilisé. On utilisera la fonction de lien définie par 4 log( πJj ) où J désigne l’une
des modalités de la variable à expliquer. Cette écriture correspond à une généralisation du logit défini précéπ
demment par log( 1−πj j ) au cas d’une variable à plus de 2 modalités et pour laquelle on choisit une modalité de
référence, la modalité J. Selon les auteurs, ce modèle est appelé ’modèle multinomial’, ’modèle multinomial
pour variable à catégories non ordonnées’, ’modèle logit généralisé’ [29], ’baseline-category logit model’ [2]
[1].
Notons (n1 , n2 , n3 , n4 ) le quadruplet des nombres de carcasses associées aux modalités g1, g2, g3, g4, pour
une classe d’épaisseur de muscle donnée. Si les observations peuvent être supposées indépendantes les unes
des autres (c’est le cas) et si les carcasses ont toutes les mêmes probabilités πg1 , πg2 , πg3 , πg4 (c’est le cas
si la population est homogène – cette hypothèse peut être remise en cause si les proportions varient selon les
régions par exemple–), alors le quadruplet (n1 , n2 , n3 , n4 ) suit une loi multinomiale de paramètres (n, p ), avec
n = n1 + n2 + n3 + n4 et p = (πg1 , πg2 , πg3 , πg4 ).
Si l’on note x la variable explicative ’épaisseur de muscle’ et si on choisit la modalité g4 comme modalité de
référence, le modèle s’écrit :

πg1


= θg1 + βg1 x
log πg4










πg2
log
πg4 = θg2 + βg2 x











 log πg3 = θ + β x
πg4
g3
g3
ou encore 5
3. ayant un plus petit nombre de paramètres (plus parcimonieux).
4. notation : log(x) signifie ln(x) et représente le logarithme népérien de x (réciproque de la fonction exponentielle).
π
5. On peut aussi poser le modèle : log( 1−πj j ) = θ j + β j x j = g1, g2, g3, g4. Il s’agit d’un modèle équivalent défini avec une autre
fonction de lien; dans le premier cas, la modalité g4 est prise comme référence, alors que dans le second cas, toutes les autres modalités
servent de référence, aucune n’étant privilégiée. Ces modèles ont des paramétrisations différentes, correspondant à des contraintes
d’identifiabilité différentes (nullité du paramètre associé à la dernière modalité ou nullité de la somme des paramètres associés aux
129
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
log
πj
πg4
= θj +βj x
j = g1, g2, g3
(4.1)
avec πg1 + πg2 + πg3 + πg4 = 1.
Ce modèle suppose un effet 6 linéaire de l’épaisseur de muscle sur le logit généralisé des probabilités associées
aux différentes modalités.
4
Mise en œuvre sous SAS: exemple ((carcasses))
La mise en œuvre a été réalisée sous SAS/Windows (version 8.2) avec la procédure
utiliser d’autres procédures comme la procédure
4.1
LOGISTIC .
On peut aussi
CATMOD 7 .
Lecture des données
Le fichier de données est celui présenté dans le Tableau 4.1 auquel on a ajouté une variable supplémentaire,
somme, qui correspond à la somme des effectifs par classe d’épaisseur de muscle.
PGM
Data Analyse;
length Gene $3;
input muscle somme @;
do i=1 to 4;
Gene=compress(’g’||i);
input poids @;
output;
end;
drop i;
différentes modalités). Les déviances, estimations, résidus, nombre de paramètres sont identiques, seule l’interprétation des paramètres
est différente.
6. c’est un abus de langage : il serait plus juste de dire que le logit généralisé est lié linéairement à l’épaisseur de muscle. Le terme
effet sera employé dans la suite. Il doit être compris au sens statistique, mais pas au sens d’une interprétation causale.
7. c’est la procédure à utiliser avec la version 8.1.
130
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
datalines;
44.5
64
0 37 10 17
50.0
53
0 34 14
5
52.0
86
1 54 23
8
54.0
84
3 52 23
6
56.0
98
3 54 34
7
58.0
68
3 44 20
1
60.0
41
4 23 12
2
62.0
38
7 23
8
0
66.5
50 19 25
6
0
;
run;
PGM
L’effectif total par classe d’épaisseur de muscle varie de 38 (classe de centre 62.0) à 98 (classe de centre 56.0).
Quatre cases de ce tableau ont un effectif nul 8 lié au caractère aléatoire de l’échantillonnage et à des probabilités
faibles d’échantillonner des individus possédant ces caractéristiques.
4.2
Choix du modèle
L’analyse des données commence par la visualisation des relations entre les proportions associées à chaque
génotype et l’épaisseur de muscle. On visualise aussi la relation entre les logits généralisés des proportions et
l’épaisseur de muscle, pour apprécier la vraisemblance de la linéarité de la liaison (linéarité ’supposée a priori
par le modèle’).
Les logits généralisés n’étant pas calculables pour des proportions égales à 0 ou 1, on utilise une expression
8. ces valeurs nulles résultent d’une taille d’échantillon petite et de probabilités faibles, elles sont à différencier des valeurs nulles
liées aux cas impossibles (zéros structurels). Les premières peuvent être estimées par une probabilité différente de 0 alors que les
secondes sont par définition égales à 0.
131
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
légèrement modifiée appelée logits empiriques 9 .
PGM
Data Analyse;
set Analyse;
proba=poids/somme;
logitE=log((poids+.5)/(somme-poids+.5));
run;
PGM
La variable proba contient les proportions observées pour les différents types génétiques et les différentes
classes d’épaisseur de muscle et la variable logitE, les valeurs du logit empirique.
La Figure 4.2a donne une idée du type de relations entre les proportions observées des différentes modalités de
la variable génotype et de l’épaisseur de muscle.
Globalement, on peut noter que la proportion observée de carcasses de type g1 augmente avec l’épaisseur
de muscle et que le phénomène est inverse pour la proportion de carcasses de type g4. Le type g2 semble
assez stable et apparaît donc comme non lié à l’épaisseur de muscle. Enfin, la proportion de carcasses de type
g3 passe par un maximum pour les classes centrales d’épaisseur de muscle (ce maximum correspond à des
effectifs plus élevés pour ces classes d’épaisseur de muscle). Ces tendances se retrouvent sur le graphiques des
logits empiriques (Figure 4.2b).
Compte tenu de ces graphiques, on choisit le génotype g2 (25% piétrain) comme référence : c’est à la fois le
génotype le plus fréquent (proportion supérieure à 0.5) et un génotype qui ne parait pas lié à une épaisseur de
muscle particulière (Figure 4.2).
Le modèle retenu est de la forme
πj
log
πg2
= θj +βj x
pour j = g1 , g3 , g4
(4.2)
9. les logits empiriques (logitE) sont ici définis par rapport à l’ensemble des modalités g1, g2, g3, g4 et non par rapport à la modalité
g4. Ils sont obtenus en ajoutant 0.5 aux effectifs du numérateur et du dénominateur :
n j + 0.5
π j + 0.5/n
logitE(π j ) = log
= log
, pour j = g1 , g2 , g3 , g4 .
n − n j + 0.5
1 − π j + 0.5/n
132
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
(a)
(b)
F IG . 4.2: Exemple ’carcasse’ : vérification a priori de la linéarité de l’effet épaisseur de muscle : (a) proportions
en fonction de l’épaisseur de muscle; (b) logit empirique en fonction de l’épaisseur de muscle
avec π j la probabilité associée au type génétique j.
4.3
Estimation
Par défaut, c’est la dernière modalité de la variable à expliquer qui est choisie comme référence pour la définition des logits généralisés. On peut cependant choisir une autre modalité en utilisant l’option ref= dans
l’instruction model. La fonction de lien à utiliser est indiquée avec l’option link=glogit.
L’instruction output out= indique à SAS de construire une table avec les valeurs prédites (Prob=) et les bornes
de l’intervalle de confiance (lower= et upper=). Cette table sera utilisée plus loin.
PGM
Proc logistic data=Analyse;
133
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
freq poids;
model Gene(ref="g2" order=data)= Muscle/ link=glogit corrb;
output out=Pred(where=(Gene=_LEVEL_)) Prob=Pred lower=inf upper=sup;
run;
PGM
La sortie de SAS est découpée en plusieurs objets que l’on retrouve dans la fenêtre Résultats. Le premier objet a
comme intitulé Model Information (objet : ModelInfo). Il fournit des informations globales sur la table utilisée,
les variables qui entrent dans l’analyse, le lien utilisé (generalized logit) et la technique d’optimisation.
Sortie
The LOGISTIC Procedure
Model Information
Data Set
WORK.ANALYSE
Response Variable
Gene
Number of Response Levels
4
Number of Observations
32
Frequency Variable
poids
Sum of Frequencies
582
Model
generalized logit
Optimization Technique
Fisher’s scoring
Sortie
Le nombre d’observations indiqué par
SAS
(ligne Number of Observations) est de 32. Ce chiffre correspond,
pour notre exemple, au nombre de cases du tableau de données (Tableau 4.1) : 9 lignes × 4 colonnes = 36
moins les 4 cases d’effectif nul. Le nombre d’individus, ici le nombre de carcasses, est donné par la ligne Sum
of Frequencies.
L’objet suivant — Response Profile (objet : ResponseProfile) — donne les modalités et les fréquences de la
variable réponse (Gene). Les modalités sont ici classées dans l’ordre de constitution de la table
SAS
(ce clas-
sement est obtenu avec l’option order=data dans l’instruction model Gene(ref="g2" order=data)= ...).
Sans cette option, les modalités sont classées par ordre alphabétique.
134
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
La modalité de référence est aussi rappelée : (g2).
Sortie
Response Profile
Ordered
Value
Total
Gene
Frequency
1
g1
40
2
g2
346
3
g3
150
4
g4
46
Logits modeled use Gene=’g2’ as the reference category.
NOTE: 4 observations having zero frequencies or weights were excluded since they do
not contribute to the analysis.
Sortie
Une note rappelle que 4 des cases du tableau de données sont vides.
Les logits généralisés utilisés ici sont log (πg1 /πg2 ), log (πg3 /πg2 ) et log (πg4 /πg2 ).
L’objet suivant — Convergence Status (objet : ConvergenceStatus) — n’a que peu d’intérêt sauf lorsque la
convergence n’est pas atteinte. Il indique que le processus itératif s’est bien déroulé. Dans certaines situations,
la convergence n’est pas atteinte et on ne peut pas estimer les paramètres.
Sortie
Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied.
Sortie
135
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Plus intéressant est l’objet suivant — Fit Statistics (objet : FitStatistics). Il donne 3 quantités qui permettent
d’apprécier la qualité d’ajustement du modèle proposé par rapport au ’modèle nul’ (modèle sans aucune variable
explicative, réduit au terme constant, en fait J −1 termes constants). La dernière valeur, (-2 Log L), correspond
à la logvraisemblance du modèle avec et sans les variables explicatives. Les deux autres valeurs correspondent
successivement au critère d’Akaike (AIC) et de Schwartz (SC).
Le modèle nul (le plus simple) postule que les probabilités associées aux différents génotypes sont constantes,
indépendantes de la classe d’épaisseur de muscle et égales aux proportions observées. Il s’écrit
πj
log
πg2
= αj
pour j = g1 , g3 , g4
Il a 3 paramètres αg1 , αg3 et αg4 et comme valeur −2LogL = 1214, 3 (colonne Intercept Only).
Le modèle testé suppose un effet de l’épaisseur du muscle. Il s’écrit
log
πj
πg2
= θj +βj x
pour j = g1 , g3 , g4
Il a 6 paramètres θg1 , θg3 et θg4 , βg1 , βg3 et βg4 et une valeur de −2LogL = 1111, 357 (colonne Intercept and
Covariates).
La différence de −2LogL entre les 2 modèles est de 1214, 3 − 1111, 357 = 102.9433 pour 3 paramètres en
plus dans le second modèle. Cette différence est hautement significative et indique qu’il y a bien un effet de
l’épaisseur du muscle.
Sortie
Model Fit Statistics
Intercept
Criterion
AIC
Intercept
and
Only
Covariates
1220.300
1123.357
136
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
SC
1233.399
1149.556
-2 Log L
1214.300
1111.357
Sortie
Global Tests (objet : GlobalTests). Les tests proposés visent tous les trois à comparer le modèle candidat au
modèle nul (test de l’hypothèse d’absence d’effet des variables explicatives).
Le premier test, Likelihood Ratio, est un test du rapport de vraisemblance, le second est un test du score, et le
dernier un test de Wald. Tous les trois sont significatifs (P < 0, 0001). Ces trois tests sont des test globaux (Testing Global Null Hypothesis: BETA=0) . Ils testent la significativité de l’ensemble des variables explicatives.
Sortie
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square
Likelihood Ratio
DF
Pr > ChiSq
102.9433
3
<.0001
Score
93.9682
3
<.0001
Wald
78.7769
3
<.0001
Sortie
Type III Test (objet : TypeIII). On retrouve le test de Wald vu précédemment. Si on avait plusieurs variables
explicatives, on aurait autant de lignes que de variables.
Sortie
Type III Analysis of Effects
Wald
Effect
DF
Chi-Square
Pr > ChiSq
muscle
3
78.7769
<.0001
Sortie
137
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Parameter Estimates (objet : ParameterEstimates). Cette partie de la sortie donne les valeurs des paramètres
estimés et le test de Wald de la nullité de chaque paramètre.
Sortie
Analysis of Maximum Likelihood Estimates
Parameter
Gene
Intercept
Standard
Wald
DF
Estimate
Error
Chi-Square
Pr > ChiSq
g1
1
-18.0521
2.3429
59.3672
<.0001
Intercept
g3
1
-1.1170
1.0099
1.2232
0.2687
Intercept
g4
1
6.5624
1.6225
16.3588
<.0001
muscle
g1
1
0.2705
0.0381
50.3680
<.0001
muscle
g3
1
0.00511
0.0183
0.0783
0.7796
muscle
g4
1
-0.1631
0.0317
26.5427
<.0001
Sortie
Dans notre modèle, on a 6 paramètres, soit :
Intercept g1 : b
θg1 = −18, 052,
Intercept g3 : b
θg3 = −1, 117,
Intercept g4 : b
θg4 = 6, 562,
muscle g1 : b
βg1 = 0, 270,
muscle g3 : b
βg3 = 0, 005,
muscle g4 : b
βg4 = −0, 163.
Les paramètres b
θg1 , b
θg3 et b
θg4 ne sont pas interprétables ici. Ils correspondent à une valeur de logit généralisé
pour muscle=0 (valeur en dehors du domaine de validité du modèle). On verra plus loin que l’on peut interpréter
ces paramètres lorsque l’on centre la variable explicative.
138
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Le paramètre b
βg1 est significativement positif : cela signifie que la probabilité associée au génotype g1 ("Piétrain") augmente significativement avec l’épaisseur de muscle (ceci parce que la probabilité associée à la modalité de référence, "LargeWhite × Piétrain", ne varie pas avec l’épaisseur de muscle). Le paramètre b
βg est
4
significativement négatif : la probabilité associée au génotype g4 ("LargeWhite × Landrace Français") diminue
significativement avec l’épaisseur de muscle. Le paramètre b
βg n’est pas significatif : la probabilité associée aux
3
génotypes "Pen-ar-Lan" est indépendante de l’épaisseur de muscle.
On trouve ensuite dans la sortie la matrice de corrélation entre les paramètres — Correlation Matrix (objet :
CorrB). Cette sortie est liée à l’option corrb de l’instruction model . . . .
Sortie
Estimated Correlation Matrix
Intercept_
Intercept_
Intercept_
g1
g3
g4
muscle_g1
muscle_g3
muscle_g4
Intercept_g1
1.0000
0.1350
0.0236
-0.9968
-0.1346
-0.0195
Intercept_g3
0.1350
1.0000
0.1830
-0.1494
-0.9953
-0.1690
Intercept_g4
0.0236
0.1830
1.0000
-0.0286
-0.1825
-0.9949
muscle_g1
-0.9968
-0.1494
-0.0286
1.0000
0.1504
0.0247
muscle_g3
-0.1346
-0.9953
-0.1825
0.1504
1.0000
0.1701
muscle_g4
-0.0195
-0.1690
-0.9949
0.0247
0.1701
1.0000
Variable
Sortie
Les paramètres relatifs à un même type génétique, θ j et β j , sont fortement corrélés 10 .
4.4
Validation
La représentation des proportions observées et des probabilités estimées montre que l’ajustement parait correct
(Figure 4.3a). Les probabilités estimées sont calculées selon l’expression ci-dessous.
10. Cette corrélation diminue énormément si l’on centre la variable muscle. Les estimations des paramètres θ j et β j (intercept et pente
pour un génotype) sont alors moins dépendantes l’une de l’autre, elles peuvent être interprétées indépendamment l’une de l’autre. Autrement dit, on peut interpréter indépendamment l’un de l’autre la pente et l’ordonnée au centre du domaine de variation du régresseur,
mais pas la pente et l’ordonnée à l’origine.
139
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
40
45
50
55
60
65
70
(a)
(b)
F IG . 4.3: Exemple ((carcasse)) : proportions associées aux différents génotypes, en fonction de l’épaisseur de
muscle. Les courbes correspondent aux probabilités estimées sans (a) ou avec (b) les intervalles de confiance
à 95%.
b
πj =
exp(b
θj +b
β j x)
exp(b
θj +b
β j x)
=
b
b
1 + ∑h=g1 ,g3 ,g4 exp(θh + βh x) ∑h=g1 ,g2 ,g3 ,g4 exp(b
θh + b
βh x)
(4.3)
Le modèle prédit une décroissance de la probabilité d’avoir une carcasse de type g4 lorsque l’épaisseur de
muscle augmente. Cette diminution s’accompagne d’une augmentation de la probabilité d’avoir une carcasse
de type g1.
Pour chacune des probabilités estimées, il est aussi possible de calculer un intervalle de confiance. La représentation des ces intervalles de confiance est donnée par la Figure 4.3b.
140
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
Les bornes de ces intervalles 11 sont donnés par les options lower= et upper= dans l’instruction output out=.
PGM
output out=Pred(where=(Gene=_LEVEL_)) Prob=Pred lower=inf upper=sup;
PGM
On peut aussi calculer des résidus de Pearson 12
e
πj −b
πj
p
b
π j (1 − b
π j )/n
et les représenter en fonction du régresseur et/ou en fonction des probabilités prédites.
La table utilisée, textttPred a été obtenue précédemment lors de l’exécution de la procédure LOGISTIC.
PGM
Data Pred;
set Pred;
ResiduStd=(Proba-Pred)/(sqrt(Pred*(1-Pred)/somme));
keep Muscle Gene Proba Pred ResiduStd Inf Sup;
run;
PGM
Les deux représentations (Figure 4.4) confirment l’adéquation du modèle: les résidus sont répartis aléatoirement
autour de zéro, avec une variance constante, sans structure particulière.
11. Les intervalles de confiance ainsi calculé sont symétriques. Il est préférable de baser la calcul des intervalles de confiance sur une
approximation normale du prédicteur linéaire : les intervalles sont symétriques dans l’ échelle du prédicteur. En appliquant la fonction
réciproque de la fonction de lien à la valeur prédite et aux bornes de l’intervalle de confiance, on obtient des intervalles de confiance
disymétriques.
12. b
π j sont les probabilités estimées et e
π j sont les proportions observées.
141
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
(a)
(b)
F IG . 4.4: Exemple ((carcasse)) : résidus de Pearson en fonction (a) de l’épaisseur de muscle; (b) des probabilités
prédites.
142
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
4.5
Interprétation
Les valeurs prédites sont contenues dans la table Pred ainsi que les bornes des intervalles de confiance à 95%.
PGM
Proc print data=Pred noobs;
var muscle Gene Pred;
run;
PGM
Pour chaque classe d’épaisseur de muscle, le modèle fournit les probabilités, pour une carcasse, d’appartenir
à l’un ou l’autre des génotypes. Ainsi, pour une carcasse dont l’épaisseur de muscle est inférieure à 49mm, la
probabilité d’être du génotype g1 est de 0,00127, du génotype g2 de 0,55275, du génotype g3 de 0,21478 et du
génotype g4 de 0,26120. Autrement dit, pour une épaisseur de muscle inférieure à 49mm, on a une probabilité
d’environ 50% d’être en présence d’une carcasse de type g2 pour environ 25% que ce soit une carcasse de type
g3 ou g4, et très peu de chance que ce soit une carcasse de type g1 (mais ce n’est pas impossible 13 ).
Sortie
------------------------------------------------Gene
------------------------------------------------------g1
g2
g3
g4
------------------------------------------------------muscle
------------------------------------------------------44.5
0.0013
0.5228
0.2148
0.2612
------------------------------------------------------50
0.0066
0.6108
0.2581
0.1245
------------------------------------------------------52
0.0116
0.6279
0.2681
0.0924
------------------------------------------------------54
0.0203
0.6372
0.2748
0.0676
------------------------------------------------------56
0.0349
0.6382
0.2781
0.0489
------------------------------------------------------13. Dans l’échantillon de départ, on n’a aucune carcasse de ce type: effectif=0.
143
Le modèle multinomial nominal (Chabanet, C. & Dessaint, F.)
58
0.0591
0.6292
0.2770
0.0348
------------------------------------------------------60
0.0980
0.6076
0.2702
0.0242
------------------------------------------------------62
0.1578
0.5698
0.2560
0.0164
------------------------------------------------------66.5
0.3883
0.4151
0.1908
0.0057
------------------------------------------------------Sortie
L’interprétation de ces valeurs ponctuelles est à nuancer par les intervalles de confiance.
5
Récapitulatif des commandes
Proc logistic data=Analyse;
freq poids;
model Gene(ref="g2" order=data)= Muscle/ link=glogit corrb;
output out=Pred(where=(Gene=_LEVEL_)) Prob=Pred lower=inf upper=sup;
run;
144
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Chapitre 5
Régression logistique avec la procédure LOGISTIC
Brun, T.
ACTA Informatique 149, rue de Bercy - 75595 Paris Cedex 12
[email protected]
1
Les données utilisées
Les données que nous allons utiliser proviennent d’un essai zootechnique réalisé dans des élevages bovins
conventionnels inscrits au Contrôle laitier dans le sud-ouest de la France 1 .
Pour étudier l’incidence de l’apport quotidien de méthionine protégée (14 g/VL/jour) sur les performances de
production laitière 121 élevages ont été suivis pendant 4 mois consécutifs dans la période allant de novembre
1997 à mars 1998. Les élevages ont été répartis par tirage au sort en deux groupes.
Les éleveurs d’un groupe distribuent de la méthionine en complément de la ration habituellement utilisée dans
l’élevage; les éleveurs de l’autre groupe, qui sert de témoin, se contentent de distribuer la ration habituellement
utilisée dans l’élevage.
1. Ces données sont la propriété de l’Institut de l’Élevage.
145
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Dans la suite de ce document nous nous intéresserons uniquement à l’évolution du taux protéique après 30 jours
d’administration de la méthionine. Cette différence entre taux moyen de l’élevage après 30 jours et taux moyen
au démarrage de l’essai sera désormais appelée (( delta TP )) et notée ∆TP.
Nous chercherons à expliquer une variable binaire qui vaut 1 si le ∆TP de l’élevage est supérieur à 1, 7 g et 0
sinon. Cette valeur de 1, 7 g correspond à un seuil économique intéressant pour l’élevage.
Le tableau croisé entre la variable ∆TP et le traitement figure ci-dessous (tableau 5.1, page 146).
Delta TP à 30 jours
Traitement
∆TP ≤ 1,7
∆TP > 1,7
Méthionine
29
32
61
Témoin
46
14
60
Total
75
46
121
Total
TAB . 5.1: Croisement entre ∆TP et traitement
Les vingt variables potentiellement explicatives dont on va étudier l’influence sur l’évolution du taux protéique
sont présentées ci-après (tableau 5.2, page 147).
La première partie du chapitre (§ 2) présente l’utilisation de la régression logistique pas à pas pour sélectionner
un groupe de variables explicatives parmi ces 20 variables.
La seconde partie du chapitre (§ 3) présente l’étude du pouvoir explicatif du modèle sélectionné lors de la
première partie par la régression logistique pas à pas.
Le modèle étudié sera alors le suivant:
P(∆TP > 1,7 | X)
log
P(∆TP ≤ 1,7 | X)
p
= β0 + ∑ βj Xj
où p ≤ 20
j=1
Dans les deux parties les analyses seront réalisées par la procédure LOGISTIC de la version 8.2 du logiciel
SASr .
146
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Variable
Description
DensitePDIE
Densité PDIE dans la ration de base (g PDIE / kg MS)
DensitePDIN
Densité PDIN dans la ration de base (g PDIN / kg MS)
DensiteUFL
Densité énergétique dans la ration de base (UFL / kg MS)
EnsilageHerbe
Ensilage d’herbe (% MS)
EnsilageMais
Ensilage de maïs (% MS)
Foin
Foin (% MS)
Fibro
Part de concentré dans la matière sèche (% MS)
Base
% de concentrés fermiers
CLysine
% Lysine digestible apportée par les concentrés
CMethionine
% Méthionine digestible apportée par les concentrés
ApportLysine
Apport moyen en Lysine digestible (% PDIE)
ApportMethionine
Apport moyen en Méthionine digestible (% PDIE)
MStotale
Apport total de matière sèche (kg MS / VL / j)
NoteIngestion
Note d’ingestion (0 à 20)
Traitement
Apport de méthionine (0 = non / 1 = oui)
ETroupeauLB
Effet troupeau Lait brut (campagne 1997)
ETroupeauTP
Effet troupeau Taux protéique (campagne 1997)
DeltaLB
Accroissement du lait pendant les 30 premiers jours (kg / VL / j)
StadeLactation
Stade moyen de lactation du troupeau (j)
TPinitial
Taux protéique initial moyen de troupeau
TAB . 5.2: Variables explicatives
2
2.1
La régression stepwise avec la procédure LOGISTIC
Le programme SAS
Le programme ci-après (tableau 5.3, page 149) utilise la procédure LOGISTIC [29] du logiciel SASr avec une
méthode pas à pas pour rechercher les variables explicatives parmi les variables décrites dans le tableau 5.2.
Pour utiliser la procédure LOGISTIC il est nécessaire que la variable à expliquer DeltaTP, la variable réponse,
147
Régression logistique avec la procédure LOGISTIC (Brun, T.)
soit codée sous une forme binaire et que les variables explicatives soient des variables numériques. Or dans la
table des données initiale la variable DeltaTP est une variable continue qui contient les valeurs des écarts en
TP et la variable Groupe qui indique s’il y a utilisation du complément en méthionine sur l’élevage est une
chaîne de caractères à deux modalités "Méthionine" et "Témoin".
Les deux étapes — procédure FORMAT et étape DATA — qui précèdent la procédure LOGISTIC servent à
mettre les données sous une forme utilisable par cette procédure.
La procédure FORMAT [26] crée deux formats, un format de lecture Trait avec l’instruction INVALUE et un
format d’écriture DeltaTP avec l’instruction VALUE.
Lors de l’étape DATA [27] le format de lecture Trait permet de créer une variable numérique binaire Traitement à partir de la variable chaîne de caractère Groupe. Cette variable numérique pourra être utilisée comme
variable explicative par la procédure LOGISTIC
2
Le format d’écriture DeltaTP permet de considérer la variable continue DeltaTP comme une variable binaire
dans la procédure LOGISTIC à l’aide de l’instruction FORMAT DeltaTP DeltaTP. 3 .
2. La contrainte de la création d’une variable numérique binaire Traitement à partir de la variable Groupe a été levée à partir de la
version 8 de SASr .
Depuis cette version la nouvelle instruction CLASS permet de travailler directement avec la variable Groupe. Le programme du
tableau 5.3 peut alors être remplacé par le programme équivalent:
PROC FORMAT ;
VALUE DeltaTP
RUN ;
LOW-1.7="0"
1.7<-HIGH="1" ;
PROC LOGISTIC DATA=L.DeltaTP DESCENDING ;
CLASS Groupe ;
MODEL DeltaTP = DensitePDIE DensitePDIN DensiteUFL EnsilageHerbe EnsilageMais Foin
Fibro Base CLysine CMethionine ApportLysine ApportMethionine MStotale
NoteIngestion Groupe ETroupeauLB ETroupeauTP DeltaLB StadeLactation
TPinitial / SELECTION=STEPWISE SLE=0.15 SLS=0.15 DETAILS ;
FORMAT DeltaTP DeltaTP. ;
RUN ;
Avec l’instruction CLASS, c’est par défaut la plus petite valeur de la variable qualitative qui est prise comme modalité d’intérêt. Dans
notre cas ce sera bien la modalité souhaitée de la variable Groupe c’est-à-dire la valeur "Méthionine".
Il est possible de modifier ce choix par défaut en utilisant l’option la plus appropriée parmi les options DESCENDING, ORDER ou
REF= de l’instruction CLASS.
3. En l’absence de l’instruction FORMAT DeltaTP DeltaTP. la procédure LOGISTIC ajusterait un modèle en logits cumulés où
chaque valeur distincte de la variable continue DeltaTP serait considérée comme une modalité d’une variable qualitative.
148
Régression logistique avec la procédure LOGISTIC (Brun, T.)
* Définition du format associé à la variation de TP ;
PROC FORMAT ;
INVALUE Trait "Méthionine"=1 "Témoin"=0 ;
VALUE DeltaTP LOW-1.7="0" 1.7<-HIGH="1" ;
RUN ;
* Génération de l’indicatrice de traitement ;
DATA DeltaTP ;
SET L.DeltaTP ;
Traitement=INPUT(Groupe,Trait.) ;
RUN ;
PROC LOGISTIC DATA=DeltaTP DESCENDING ;
MODEL DeltaTP = DensitePDIE DensitePDIN DensiteUFL EnsilageHerbe
EnsilageMais Foin Fibro Base CLysine CMethionine
ApportLysine ApportMethionine MStotale
NoteIngestion Traitement ETroupeauLB ETroupeauTP
DeltaLB StadeLactation TPinitial
/ SELECTION=STEPWISE SLE=0.15 SLS=0.15 DETAILS ;
FORMAT DeltaTP DeltaTP. ;
RUN ;
TAB . 5.3: Code SAS – Procédure LOGISTIC (( stepwise ))
L’utilisation de l’option DESCENDING dans l’instruction PROC LOGISTIC est nécessaire pour prédire la
valeur la plus élevée, soit la valeur 1, de la variable DeltaTP. Le modèle ajusté est alors le suivant:
p
P(∆TP > 1,7 | X)
log
= β0 + ∑ βj Xj
P(∆TP ≤ 1,7 | X)
j=1
Par défaut la procédure LOGISTIC privilégie la plus petite valeur de la variable à expliquer. En l’absence de
l’option DESCENDING la procédure modéliserait la probabilité que la variable DeltaTP soit égale à 0; soit le
modèle:
P(∆TP ≤ 1,7 | X)
log
P(∆TP > 1,7 | X)
p
= β0 + ∑ βj Xj
j=1
Les signes des coefficients estimés seraient alors inversés.
L’option SELECTION=STEPWISE de l’instruction MODEL précise la méthode de régression pas à pas
souhaitée, ici la méthode (( stepwise )).
La procédure commence par ajuster un modèle avec la seule constante β0 , cette étape est appelée étape 0.
149
Régression logistique avec la procédure LOGISTIC (Brun, T.)
A l’étape suivante, dite étape 1, la variable la plus explicative en présence de la constante est introduite. Le
processus d’introduction se poursuit de la même manière au fil des étapes; à une étape donnée la procédure
LOGISTIC introduit la variable la plus explicative en présence des variables introduites à l’étape précédente.
Le processus d’introduction des variables est ascendant, il est le même que celui de la méthode ascendante, qui
peut être demandée par l’option SELECTION=FORWARD. Les deux méthodes diffèrent toutefois. La méthode
ascendante ne remet jamais en cause la présence d’une variable dans le modèle, une fois introduite une variable
y reste. En revanche la méthode (( stepwise )) remet en cause la présence d’une variable.
A une étape donnée, après avoir introduit la variable la plus explicative en présence des variables introduites
à l’étape précédente, la procédure LOGISTIC vérifie s’il n’y a pas de variables sans pouvoir explicatif dans
le nouvel ensemble de variables explicatives. Un processus d’élimination descendant est alors utilisé. Il est le
même que celui de la méthode descendante, qui peut être demandée par l’option SELECTION=BACKWARD.
Si certaines variables n’ont plus de pouvoir explicatif, la variable la moins explicative parmi celles-ci est retirée du modèle. Ce processus d’élimination peut se poursuivre ; une autre variable peut être retirée du nouvel
ensemble selon le même principe. Une étape de la méthode (( stepwise )) peut donc conduire à un modèle avec
moins de variables que le modèle de l’étape précédente.
Le processus (( stepwise )) s’arrête si la procédure LOGISTIC ne trouve plus de variable ayant un pouvoir explicatif à introduire ou si la variable candidate à l’introduction est la seule éliminée par le processus d’élimination
(on est en présence d’une boucle sans fin).
Les options SLENTRY et SLSTAY (abrégées dans le programme du tableau 5.3 par SLE et SLS) servent
à donner les seuils en terme de probabilité pour introduire une variable explicative (option SLENTRY=) ou
enlever une variable explicative (option SLSTAY=). Ce sont les valeurs de ces options qui permettent à la
procédure de décider si une variable a un pouvoir explicatif. Le test du score ((( Score Test ))) sur les variables
non encore introduites dans le modèle est utilisé pour décider de l’introduction d’une variable. Le test de Wald
sur le coefficient de la variable est utilisé pour décider de l’élimination d’une variable. Par défaut les deux seuils
utilisés par l’instruction MODEL sont à 0.05 c’est-à-dire à la probabilité de 5 %.
L’option DETAILS demande des sorties détaillées à chaque étape du processus pas à pas 4 .
4. En l’absence de cette option DETAILS la procédure LOGISTIC ne produit que les tableaux Model Fit Statistics, Testing Global
Null Hypothesis: BETA=0 et Residual Chi-Square Test.
150
Régression logistique avec la procédure LOGISTIC (Brun, T.)
2.2
Les sorties de la procédure LOGISTIC
La procédure LOGISTIC précise d’abord qu’elle est la modalité d’intérêt de la variable DeltaTP, d’où le message ci-dessous:
Probability modeled is DeltaTP=’1’.
qui permet de vérifier que la modalité d’intérêt est bien celle attendue.
La procédure LOGISTIC sort ensuite un état pour chaque étape du processus pas à pas (§ 2.2 et 2.2).
Enfin, lorsque la procédure ne trouve plus de variable explicative à introduire, elle produit en complément un
tableau récapitulatif des variables retenues aux différentes étapes (§ 2.2).
L’étape 0
La première partie des sorties est l’étape 0, libellée Step 0 dans les sorties de la procédure. Elle correspond au
modèle avec uniquement la constante β0 appelée Intercept, d’où le titre ci-dessous:
Step 0. Intercept entered:
Les sorties de cette étape 0 sont plus réduites que celles des autres étapes.
L’estimation β̂0 (-0,4888) du coefficient β0 figure dans la colonne Estimate du tableau Analysis of Maximum
Likelihood Estimates (tableau 5.4, page 152). L’écart type de l’estimation figure dans la colonne Standard
Error.
La statistique de Wald permettant le test à zéro du coefficient figure dans la colonne Wald Chi-Square; la
probabilité du test se trouvant dans la colonne Pr >ChiSq.
On rejette l’hypothèse de nullité quand la probabilité est petite; ce qui est le cas (0,0090) dans le tableau 5.4.
Tester β0 = 0 revient à tester que le pourcentage d’élevages ayant un ∆TP > 1,7 est égal au pourcentage d’élevages ayant un ∆TP ≤ 1,7.
151
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Analysis of Maximum Likelihood Estimates
Parameter
Intercept
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
1
-0.4888
0.1873
6.8136
0.0090
TAB . 5.4: Etape 0 – Estimateurs du maximum de vraisemblance
Le tableau Residual Chi-Square Test (tableau 5.5, page 152) permet de décider s’il y a des variables significativement explicatives parmi les p variables potentiellement explicatives qu’il reste à introduire dans le modèle.
Residual Chi-Square Test
Chi-Square
DF
Pr > ChiSq
44.9164
20
0.0011
TAB . 5.5: Etape 0 – Test du Khi-deux résiduel
Il présente le test de l’hypothèse H0 : β1 = β2 = · · · = βp = 0, c’est-à-dire (( les coefficients de toutes les
variables explicatives sont nuls )), contre l’hypothèse H1 : ∃ j ,
βj 6= 0, c’est-à-dire (( il existe au moins une
variable explicative qui a un coefficient non nul )).
La statistique utilisée, appelée khi-deux résiduel, est une statistique de score calculée à partir des dérivées
partielles du logarithme de la vraisemblance. Elle suit une loi du khi-deux à p degrés de liberté (ici p=20) sous
l’hypothèse H0 . Son estimation figure dans la colonne Chi-Square.
On rejette l’hypothèse H0 de nullité quand la probabilité du test se trouvant dans la colonne Pr>ChiSq est
petite; ce qui est le cas (0,0011) dans le tableau 5.5.
Le tableau libellé Analysis of Effects Not in the Model (tableau 5.6, page 153) donne un test du pouvoir
explicatif de chaque variable explicative ne figurant pas encore dans le modèle.
Pour une variable donnée, c’est-à-dire une ligne du tableau, une statistique de score est obtenue en comparant
le khi-deux résiduel du modèle comprenant cette variable et les variables déjà présentes à l’étape précédente
et le khi-deux résiduel du modèle avec uniquement les variables déjà présentes à l’étape précédente. Cette
statistique suit une loi du khi-deux à 1 degré de liberté sous l’hypothèse H0 de nullité du coefficient de la
variable ajoutée. Son estimation figure dans la colonne Score Chi-Square. On rejette l’hypothèse H0 de nullité
152
Régression logistique avec la procédure LOGISTIC (Brun, T.)
quand la probabilité du test se trouvant dans la colonne Pr >ChiSq est petite.
Analysis of Effects Not in the Model
DF
Score
Chi-Square
Pr > ChiSq
DensitePDIE
1
0.8106
0.3680
DensitePDIN
1
0.5503
0.4582
DensiteUFL
1
4.8940
0.0269
EnsilageHerbe
1
4.2214
0.0399
EnsilageMais
1
5.0846
0.0241
Foin
1
1.2251
0.2684
Fibro
1
0.0027
0.9588
Base
1
0.2952
0.5869
CLysine
1
0.7077
0.4002
CMethionine
1
0.3688
0.5437
ApportLysine
1
0.9542
0.3286
ApportMethionine
1
0.0077
0.9303
MStotale
1
2.5063
0.1134
NoteIngestion
1
4.3983
0.0360
Traitement
1
10.8893
0.0010
ETroupeauLB
1
1.2738
0.2591
ETroupeauTP
1
6.1019
0.0135
DeltaLB
1
2.3202
0.1277
StadeLactation
1
0.0145
0.9042
TPinitial
1
5.3801
0.0204
Effect
TAB . 5.6: Etape 0 – Critères absents du modèle
A l’étape 0 ce tableau présente donc à chaque ligne une comparaison entre le modèle avec la variable de la
ligne et la constante et le modèle avec la seule constante.
Sur le tableau 5.6 de la page 153 on peut voir que la variable Traitement va être introduite à l’étape suivante
car elle est celle qui a la plus grande valeur de khi-deux (10,8893) et la probabilité (0,0010), qui est donc la
plus petite, est inférieure au seuil SLENTRY utilisée par la procédure LOGISTIC. C’est la variable la plus
(( corrélée )) à la probabilité d’avoir un ∆TP > 1,7.
153
Régression logistique avec la procédure LOGISTIC (Brun, T.)
L’étape 1
L’étape 1, libellée Step 1, correspond au modèle de l’étape 0 avec en plus la variable Traitement, d’où le titre
ci-dessous:
Step 1. Effect Traitement entered:
A partir de l’étape 1 on trouve, en plus des tableaux déjà vus à l’étape 0, de nouveaux tableaux dans les sorties
de la procédure LOGISTIC.
Le tableau Testing Global Null Hypothesis: BETA=0 (tableau 5.7, page 154) donne un test global du modèle.
L’hypothèse nulle est que toutes les variables explicatives ont des coefficients égaux à 0. Rejeter cette hypothèse
revient à conclure qu’il y a au moins un coefficient non nul, donc que le modèle a un pouvoir explicatif.
Dans le cas particulier de l’étape 1 ce test est identique à celui de la ligne Traitement du tableau Analysis of
Effects Not in the Model de l’étape 0 (tableau 5.6, page 153). On retrouve donc la même valeur (10,8893) à la
ligne libellée Score du tableau 5.7:
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square
DF
Pr > ChiSq
Likelihood Ratio
11.1140
1
0.0009
Score
10.8893
1
0.0010
Wald
10.4405
1
0.0012
TAB . 5.7: Etape 1 – Test global du modèle
En plus du test du score deux autres tests asymptotiquement équivalents sont proposés. Le test du rapport des
vraisemblances est à la ligne libellée Likelihood Ratio et le test de Wald est à la ligne libellée Wald.
Le schéma ci-après (figure 5.1, page 155), où L désigne la vraisemblance, illustre ces 3 tests:
Le test du rapport des vraisemblances compare la vraisemblance maximale, c’est-à-dire calculée en β̂1 , à la
vraisemblance calculée sous l’hypothèse nulle, c’est-à-dire calculée en β1 = 0.
154
Régression logistique avec la procédure LOGISTIC (Brun, T.)
log L(ȕ)
rapport des
vraisemblances
test du
score
0
ȕ
ȕ̂ 1
Wald
F IG . 5.1: Etape 1 – 3 tests possibles
Le test du score travaille sur une dérivée partielle de la log-vraisemblance donc si la pente en β1 = 0 est nulle
on peut considérer la vraisemblance comme maximale en ce point.
Le test de Wald teste l’hypothèse H0 : β1 = 0 en utilisant une approximation normale pour la loi de β1 sous
l’hypothèse H0 . C’est donc un résultat asymptotique :
β̂1
σ(β̂1 )
∼ χ2 (1)
Le tableau libellé Model Fit Statistics (tableau 5.8, page 156) donne le critère d’Akaike (ligne AIC), le critère
de Schwarz (ligne SC) et le logarithme de la vraisemblance multiplié par -2 (ligne -2 Log L).
Les critères AIC et SC sont tous deux construits à partir du logarithme de la vraisemblance.
Ils sont calculés à partir des formules:
•
critère d’Akaike:
AIC = −2 log L + 2 k
155
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Model Fit Statistics
Intercept
Only
Intercept
and
Covariates
AIC
162.723
153.609
SC
165.519
159.201
-2 Log L
160.723
149.609
Criterion
TAB . 5.8: Etape 1 – Critères d’ajustement
où k est le nombre de paramètres estimés (k=p+1),
• critère de Schwarz:
SC = −2 log L + k log (n)
où k est le nombre de paramètres estimés (k=p+1) et n l’effectif de l’échantillon.
Dans les deux cas le logarithme de la vraisemblance est d’autant plus pénalisé qu’il y a de paramètres dans
le modèle. On choisira le modèle qui a le plus petit critère. La colonne Intercept and Covariates donne les
critères du modèle tandis que la colonne Intercept Only donne les critères calculés pour le modèle avec la
seule constante.
Le tableau libellé Analysis of Maximum Likelihood Estimates (tableau 5.9, page 156) donne, comme dans
l’étape 0, les estimations des paramètres βi du modèle et les tests de ces paramètres à 0.
Analysis of Maximum Likelihood Estimates
DF
Estimate
Standard
Error
Wald
Chi-Square
Pr > ChiSq
Intercept
1
-1.1896
0.3052
15.1888
<.0001
Traitement
1
1.2880
0.3986
10.4405
0.0012
Parameter
TAB . 5.9: Etape 1 – Estimateurs du maximum de vraisemblance
Le tableau Analysis of Maximum Likelihood Estimates est complété par le tableau libellé Odds Ratio Estimates (tableau 5.10, page 157).
156
Régression logistique avec la procédure LOGISTIC (Brun, T.)
La valeur 3,626 figurant dans la colonne Point Estimate du tableau 5.10 est l’exponentielle de l’estimation
1,2880 qui figure dans le tableau 5.9.
Odds Ratio Estimates
Effect
Traitement
Point
Estimate
3.626
95% Wald
Confidence
Limits
1.660
7.919
TAB . 5.10: Etape 1 – Odds ratios estimés
P (∆TP > 1,7 | X)
= β0 + β1 X1 où X1 (ici la variable Traitement)
P (∆TP ≤ 1,7 | X)
est une variable binaire, un facteur de risque, dont la modalité à risque est 1. On ajuste donc le logarithme d’un
Le modèle ajusté à cette étape est log
odds.
L’odds ratio est le rapport entre l’odds avec 1 comme modalité à risque et l’odds avec 0 comme modalité à
risque. Le logarithme de l’odds ratio vaut β1 comme la différence entre β0 + β1 X1 pour X1 = 1 et β0 + β1 X1
pour X1 = 0. En passant à l’exponentielle on obtient une estimation de l’odds ratio à partir de l’estimation de
β1 .
Le risque d’avoir un ∆TP supérieur à 1, 7 g en présence de la modalité 1 de la variable Traitement est 3,626
plus important que le risque d’avoir un ∆TP supérieur à 1, 7 g en présence de la modalité 0 de la variable
Traitement.
Lorsque la variable explicative Xi n’est pas une variable binaire mais une variable continue l’odds ratio estimé
correspond au rapport de risque pour un accroissement d’une unité de la variable explicative. Pour avoir l’odds
ratio correspondant à un accroissement de c unités, on élève la valeur du tableau à la puissance c.
Lorsque la variable est nominale à plus de deux modalités, la procédure permet de paramétrer le facteur de
risque de plusieurs façons pour une même modalité à risque. Ces différentes options sont trop longues à détailler
dans le cadre de ce document. On consultera donc la documentation de la procédure LOGISTIC [29] et les
exemples qui y figurent pour interpréter l’odds ratio dans ce cas.
Le tableau Analysis of Effects in Model (tableau 5.11, page 158), qui se trouve entre le tableau Residual Chi
Square Test et le tableau Analysis of Effects Not in the Model, donne le test de Wald qui permet de conclure
157
Régression logistique avec la procédure LOGISTIC (Brun, T.)
que la variable potentiellement explicative Traitement peut rester dans le modèle.
Analysis of Effects in Model
Effect
Traitement
DF
Wald
Chi-Square
Pr > ChiSq
1
10.4405
0.0012
TAB . 5.11: Etape 1 – Critères présents dans le modèle
C’est la conclusion de la partie (( backward )) de l’étape.
Enfin le tableau Analysis of Effects Not in the Model (tableau 5.12, page 159) permet de voir que la variable
ETroupeauTP va être introduite à l’étape suivante.
Le tableau récapitulatif
Toutes les étapes produisent des états de sortie comparables à ceux de l’étape 1.
Lorsque la sélection des variables explicatives est terminée la procédure LOGISTIC indique qu’il n’y a plus de
variable significativement explicative à ajouter par un message du type:
No (additional) effects met the 0.15 significance level for entry into the model.
Elle termine ses sorties par le tableau Summary of Stepwise Selection (tableau 5.13, page 160) qui résume les
différentes étapes d’introduction des variables et donne les variables retenues dans le modèle.
Ce tableau donne les 6 variables explicatives sélectionnées par le processus (( stepwise )). Les variables sont
listées selon leur ordre d’introduction dans le modèle.
La probabilité de la colonne Pr >ChiSq donne le degré de signification d’une variable ajustée de toutes celles
qui la précèdent dans le modèle.
Les sorties de la dernière étape (la sixième dans notre exemple) de la régression (( stepwise )) fournissent de
nombreux indicateurs sur l’ajustement du modèle. Toutefois la procédure LOGISTIC offre d’autres options de
l’instruction MODEL qui permettent d’affiner l’étude d’un modèle et de mieux juger de sa qualité de prédiction.
158
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Analysis of Effects Not in the Model
DF
Score
Chi-Square
Pr > ChiSq
DensitePDIE
1
0.6833
0.4085
DensitePDIN
1
0.3890
0.5328
DensiteUFL
1
5.3270
0.0210
EnsilageHerbe
1
5.5695
0.0183
EnsilageMais
1
6.2189
0.0126
Foin
1
1.0355
0.3089
Fibro
1
0.0924
0.7612
Base
1
0.2518
0.6158
CLysine
1
1.1081
0.2925
CMethionine
1
0.7661
0.3814
ApportLysine
1
0.4990
0.4799
ApportMethionine
1
0.0186
0.8917
MStotale
1
4.2184
0.0400
NoteIngestion
1
3.4686
0.0625
ETroupeauLB
1
0.8872
0.3462
ETroupeauTP
1
7.0934
0.0077
DeltaLB
1
2.9645
0.0851
StadeLactation
1
0.0874
0.7675
TPinitial
1
3.0906
0.0787
Effect
TAB . 5.12: Etape 1 – Critères absents du modèle
Ces options produisent des sorties trop volumineuses pour qu’il soit pertinent de les utiliser systématiquement
avec une méthode pas à pas. Nous allons donc nous intéresser dans la partie suivante du document aux sorties
obtenues à l’aide de ces options sur le modèle retenu.
159
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Summary of Stepwise Selection
Step
Effect
Entered
DF
Number
In
Score
Chi-Square
Wald
Chi-Square
Pr > ChiSq
Removed
1
Traitement
1
1
10.8893
.
0.0010
2
ETroupeauTP
1
2
7.0934
.
0.0077
3
TPinitial
1
3
9.5797
.
0.0020
4
StadeLactation
1
4
9.3116
.
0.0023
5
NoteIngestion
1
5
5.8744
.
0.0154
6
EnsilageMais
1
6
3.5455
.
0.0597
TAB . 5.13: Tableau récapitulatif de la régression logistique (( stepwise ))
3
3.1
Le modèle final
Les variables retenues
Les six variables retenues pour expliquer que ∆TP soit supérieur à 1, 7 g sont listées ci-après (tableau 5.14,
page 160).
Variable
Description
EnsilageMais
Ensilage de maïs (% MS)
NoteIngestion
Note d’ingestion (0 à 20)
Traitement
Apport de méthionine (0 = non / 1 = oui)
ETroupeauTP
Effet troupeau Taux protéique (campagne 1997)
StadeLactation
Stade moyen de lactation du troupeau (j)
TPinitial
Taux protéique initial moyen de troupeau
TAB . 5.14: Variables explicatives retenues par la régression logistique (( stepwise ))
3.2
Le programme SAS
La procédure LOGISTIC ci-après (tableau 5.15, page 161) permet l’étude détaillée du modèle retenu:
160
Régression logistique avec la procédure LOGISTIC (Brun, T.)
* Etude du modèle final sur l’indicatrice de Delta TP > 1,7 g/kg ;
PROC LOGISTIC DATA=DeltaTP DESCENDING ;
MODEL DeltaTP = Traitement ETroupeauTP TPinitial StadeLactation
NoteIngestion EnsilageMais
/ RSQUARE CLODDS=PL LACKFIT CTABLE PEVENT=0.233
OUTROC=Roc INFLUENCE IPLOTS ;
UNITS Traitement=1 ETroupeauTP=SD TPinitial=SD StadeLactation=SD
NoteIngestion=SD EnsilageMais=SD ;
FORMAT DeltaTP DeltaTP. ;
RUN ;
TAB . 5.15: Code SAS – Procédure LOGISTIC finale
3.3
Les sorties de la procédure LOGISTIC
Le coefficient R2
L’option RSQUARE de l’instruction MODEL (tableau 5.15, page 161) demande le calcul du coefficient R2 qui
figure dans le tableau 5.17 (page 161). Dans les sorties ce tableau se trouve intercalé entre les tableaux Model
Fit Statistics (tableau 5.16, page 161) et Testing Global Null Hypothesis: BETA=0 (tableau 5.18, page 162)
comme on peut le voir ci-après.
Model Fit Statistics
Intercept
Only
Intercept
and
Covariates
AIC
162.723
126.585
SC
165.519
146.156
-2 Log L
160.723
112.585
Criterion
TAB . 5.16: Modèle final – Critères d’ajustement
R-Square
0.3282
Max-rescaled R-Square
TAB . 5.17: Modèle final – R2
161
0.4465
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Testing Global Null Hypothesis: BETA=0
Test
Chi-Square
DF
Pr > ChiSq
Likelihood Ratio
48.1378
6
<.0001
Score
40.1284
6
<.0001
Wald
28.4386
6
<.0001
TAB . 5.18: Modèle final – Test global du modèle
Le coefficient R2 est un indicateur de qualité de prédiction du modèle, ce qui est différent des critères qui testent
la qualité de l’ajustement du modèle.
Il se calcule [?] à partir de la vraisemblance L (0) du modèle avec la seule constante et de la vraisemblance
L β̂ du modèle étudié à l’aide de la formule:

2/n
L (0)
R2 = 1 −  
L β̂
où n désigne l’effectif de l’échantillon.
Il est basé sur la statistique du khi-deux du rapport des vraisemblances donnée dans le tableau Testing Global Null Hypothesis: BETA=0 à la ligne Likelihood Ratio (ici 48,1378). En notant LR2 cette statistique on
retrouve la valeur de R2 (ici 0,3282) donnée par la procédure LOGISTIC à l’aide de la formule :
LR2
2
R = 1 − exp −
n
Ce coefficient R2 est homogène au coefficient R2 utilisé en régression linéaire qui se déduit des mêmes formules
quand on utilise le maximum de vraisemblance. Toutefois le R2 de la régression logistique ne peut être interprété
comme une part de variance expliquée par les variables du modèle et n’est pas borné par la valeur 1.
2/n
La borne supérieure R2max vaut 1 − L (0)
. On a:
2/n
R2 ≤ R2max = 1 − L (0)
<1
En divisant le coefficient R2 par sa borne supérieure R2max on obtient le coefficient R̃2 proposé par Nagelkerke [?], soit:
R̃2 =
R2
≤1
R2max
162
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Ce coefficient R̃2 est appelé Max-rescaled R-Square dans les sorties de la procédure LOGISTIC.
Intervalles de confiance des odds ratios
L’option CLODDS=PL de l’instruction MODEL (tableau 5.15, page 161) demande le calcul d’intervalles
de confiance pour les odds ratios. Ces intervalles présentés dans le tableau Profile Likelihood Confidence
Interval for Adjusted Odds Ratios (tableau 5.20, page 164) sont différents de ceux produits par défaut dans
le tableau Odds Ratio Estimates (tableau 5.19, page 163) car ils sont basés sur la vraisemblance (PL abrège
Profile Likelihood) et non sur l’approximation de Wald. L’option CLODDS=WALD donnerait les intervalles
obtenus par la méthode de Wald.
Les odds ratios présents dans la colonne Estimate du tableau Profile Likelihood Confidence Interval for
Adjusted Odds Ratios ne sont pas tous égaux à ceux du tableau Odds Ratio Estimates car ils ne sont pas tous
calculés pour un accroissement d’une unité de la variable explicative mais pour l’accroissement déclaré dans la
colonne Unit. Cet accroissement a été fixé par l’instruction complémentaire UNITS où le mot SD signifie un
accroissement d’un écart type (SD pour Standard Deviation).
Odds Ratio Estimates
Effect
Point
Estimate
95% Wald
Confidence
Limits
Traitement
3.321
1.294
8.523
ETroupeauTP
3.795
1.858
7.754
TPinitial
0.389
0.241
0.628
StadeLactation
1.021
1.005
1.039
NoteIngestion
0.844
0.733
0.971
EnsilageMais
1.022
0.998
1.046
TAB . 5.19: Modèle final – Odds ratios estimés
On retrouve l’odds ratio du tableau Profile Likelihood Confidence Interval for Adjusted Odds Ratios en
élevant l’odds ratio du tableau Odds Ratio Estimates à la puissance donnée par la colonne Unit.
163
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Profile Likelihood Confidence Interval for Adjusted Odds Ratios
Effect
Unit
Estimate
95% Confidence Limits
Traitement
1.0000
3.321
1.316
8.793
ETroupeauTP
0.9101
3.366
1.842
6.855
TPinitial
1.7261
0.196
0.079
0.422
StadeLactation
39.1897
2.302
1.230
4.607
NoteIngestion
3.5401
0.548
0.324
0.884
EnsilageMais
25.1619
1.726
1.003
3.297
TAB . 5.20: Modèle final – Intervalles de confiance des odds ratios
On conclura donc que la probabilité d’avoir un ∆TP supérieur à 1, 7 g:
c
OR
–
est supérieure dans le groupe méthionine
3,321
–
augmente
avec l’effet troupeau
3,795
avec la part d’ensilage de maïs
1,022
avec le stade de lactation
1,021
quand le TP initial augmente
0,389
quand la note d’ingestion augmente
0,844
–
diminue
Qualité d’ajustement – Test de Hosmer et Lemeshow
Les tests présentés dans le tableau Testing Global Null Hypothesis: BETA=0 permettent de décider si le
modèle ajusté a un pouvoir explicatif ((( le modèle est-il significativement différent du modèle avec la seule
constante ? ))) mais ne permettent pas de tester si le modèle s’ajuste correctement aux données ((( la différence
entre la variable prédite et la variable observée est-elle significative? ))).
Pour répondre à cette deuxième question on souhaite comparer la déviance du modèle ajusté à la déviance du
modèle dit (( saturé )) qui explique parfaitement les données.
Malheureusement ce test d’une différence de déviance à l’aide d’une loi du khi-deux n’a de sens que si on
travaille sur des données agrégées.
164
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Dans le cas de données individuelles (en particulier dans le cas où certaines variables explicatives sont quantitatives) cette différence vaut -2 fois la log-vraisemblance du modèle ajusté car la log-vraisemblance du modèle
saturé est nulle mais le test n’a pas de sens car la déviance ne suit pas une distribution du khi-deux. C’est pourquoi la procédure LOGISTIC n’associe pas de test dans le tableau Model Fit Statistics à la valeur –2 Log L
qui correspond à la déviance du modèle étudié (112,585 dans le tableau 5.16 de la page 161).
L’utilisation d’un khi-deux de Pearson pour comparer les valeurs observées et les probabilités prédites par le
modèle n’a pas plus d’intérêt dans le cas des données individuelles car, comme la déviance, cette statistique ne
suit pas une distribution du khi-deux.
Dans le cas où toutes les variables explicatives sont qualitatives l’option AGGREGATE de l’instruction MODEL utilisée conjointement avec l’option SCALE= permet de calculer une déviance (et un khi-deux de Pearson)
sur la table des données agrégées. Pour que ces statistiques soient utilisables il faut qu’il y ait des effectifs suffisants pour les différents profils issus du croisement des variables explicatives.
Dans le cas où certaines variables explicatives sont quantitatives (ou dans le cas où il n’y a pas de répétition
pour les profils issus du croisement de variables explicatives qualitatives), la seule possibilité pour tester la
qualité de l’ajustement est le test de Hosmer et Lemeshow [17].
C’est l’option LACKFIT de l’instruction MODEL (tableau 5.15, page 161) qui demande le calcul de la statistique de Hosmer et Lemeshow.
Ce test n’est utilisable que pour une variable réponse binaire ; il est construit selon le principe suivant.
La probabilité π̂x de la modalité d’intérêt de la variable réponse binaire est estimée à partir du modèle pour
chaque donnée individuelle. Toutes ces probabilités prédites sont ensuite ordonnées par valeur croissante et
réparties en approximativement 10 groupes.
La procédure essaie de construire des groupes d’effectif m = int 0,10 · n + 1 2 où int désigne la partie entière
et n le nombre de données individuelles (ou observations). Les groupes ne sont pas tous exactement d’effectif
m car n n’est pas obligatoirement un multiple de m et parce qu’on ne met pas dans plusieurs groupes des observations ayant un même profil sur toutes les variables explicatives. Le nombre minimal de groupes nécessaires
pour construire la statistique de Hosmer et Lemeshow est 3.
Pour chaque groupe i, on calcule l’effectif observé Oi et l’effectif attendu Ei pour la modalité d’intérêt de la
variable réponse. L’effectif attendu du groupe Ei est la somme des probabilités estimées des observations de ce
165
Régression logistique avec la procédure LOGISTIC (Brun, T.)
groupe.
On compare la répartition observée et la répartition attendue par une statistique du khi-deux de Pearson χ2HL
donnée par la formule :
(Oi − Ei )2
i=1 ni π̄i (1 − π̄i )
g
χ2HL = ∑
où g désigne le nombre de groupes, ni l’effectif du groupe i (ni ∼
= m), Oi l’effectif observé et Ei = ∑ π̂x = ni π̄i
x∈i
!
1
l’effectif attendu π̄i = ∑ π̂x .
ni x∈i
La statistique χ2HL suit, sous l’hypothèse H0 d’adéquation entre les données observées et les données ajustées,
une loi du khi-deux dont le nombre de degrés de liberté est le nombre de groupes diminué de 2, soit g-2.
Ce résultat acquis par simulation n’est valable que s’il n’y a pas de répétition pour les profils issus du croisement
de variables explicatives.
Ce test d’ajustement est le seul disponible avec ce type de données ; il est donc souvent utilisé mais ne semble
pas très puissant [4].
Les deux tableaux produits par l’option LACKFIT de l’instruction MODEL figurent ci-après.
Le premier tableau est intitulé Partition for the Hosmer and Lemeshow Test (tableau 5.21, page 167). Il
donne la répartition des observations dans les 10 groupes (colonne Group) dont les effectifs ni figurent dans la
colonne Total.
Les effectifs observés Oi (colonne Observed) et estimés Ei par le modèle (colonne Expected) utilisés pour le
calcul de χ2HL figurent dans la partie DeltaTP = 1 qui correspond à la modalité d’intérêt de la variable réponse
DeltaTP.
Le second tableau est intitulé Hosmer and Lemeshow Goodness-of-Fit Test (tableau 5.22, page 167). Il donne
l’estimation de la statistique χ2HL , le khi-deux de Hosmer et Lemeshow à 8 (10-2) degrés de liberté, qui vaut
8,9763 (colonne Chi-Square).
La probabilité (colonne Pr >ChiSq) d’avoir un khi-deux supérieur à 8,9763 sous l’hypothèse d’adéquation
entre les données observées et les données ajustées est suffisamment élevée (0,3443) pour qu’on ne rejette pas
cette hypothèse H0 .
166
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Partition for the Hosmer and Lemeshow Test
Group
π̂x croissants




y
Total
DeltaTP = 1
DeltaTP = 0
Observed
Expected
Observed
Expected
1
12
0
0.36
12
11.64
2
12
0
0.75
12
11.25
3
12
1
1.48
11
10.52
4
12
4
2.33
8
9.67
5
12
3
2.93
9
9.07
6
12
5
4.07
7
7.93
7
12
8
6.10
4
5.90
8
12
4
7.34
8
4.66
9
12
10
9.04
2
2.96
10
13
11
11.59
2
1.41
TAB . 5.21: Modèle final – Partition pour le test de Hosmer et Lemeshow
Hosmer and Lemeshow
Goodness-of-Fit Test
Chi-Square
DF
Pr > ChiSq
8.9763
8
0.3443
TAB . 5.22: Modèle final – Test de Hosmer et Lemeshow
Qualité de classement
L’option CTABLE de l’instruction MODEL (tableau 5.15, page 161) demande la sortie d’un tableau de classements. Ce tableau est construit selon le principe suivant.
Pour chaque observation une probabilité de l’événement d’intérêt est prédite avec le modèle ajusté. Si cette
probabilité prédite dépasse une probabilité seuil, l’observation est considérée comme ayant eu l’événement
d’intérêt ((( event ))), sinon elle est considérée comme n’ayant pas eu l’événement d’intérêt ((( non event ))). En
croisant les réponses observées et les réponses prédites, on obtient un tableau 2 x 2 d’effectifs à partir duquel on
peut calculer des indicateurs de la qualité du classement. Ce sont les tableaux obtenus pour différentes valeurs
de la probabilité seuil que produit l’option CTABLE.
167
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Dans notre exemple chaque élevage i a un profil xi sur les variables explicatives. A partir de ce profil on peut
estimer à l’aide du modèle la probabilité π̂i pour l’élevage d’avoir un ∆TP supérieur à 1, 7 g; soit:
e xi β̂
0
π̂i = P̂ (∆TP > 1,7 | xi ) =
1 + e xi β̂
0
Pour une probabilité seuil PS donnée, on utilise la règle de classement suivante:
– si P̂ (∆TP > 1,7 | xi ) > PS , l’élevage est considéré comme ayant un ∆TP supérieur à 1, 7 g,
– sinon l’élevage est considéré comme ayant un ∆TP inférieur ou égal à 1, 7 g.
En réalité la procédure LOGISTIC n’utilise pas les probabilités π̂i calculées sur tous les élevages de l’étude
car utiliser les mêmes observations pour ajuster le modèle et estimer l’erreur de classement conduit à des estimations biaisées des taux d’erreur de classement. La technique utilisée classiquement pour réduire ce biais
consiste à ajuster le modèle sans l’observation dont on veut estimer la probabilité et à estimer ensuite la probabilité à l’aide de cette nouvelle estimation des paramètres du modèle. L’inconvénient de cette technique est la
nécessité d’ajuster un modèle pour chaque observation ce qui peut être prohibitif en terme de temps de calcul.
La procédure LOGISTIC contourne ce problème en calculant une estimation π̂∗i de la probabilité sans l’observation i à partir des paramètres du modèle ajusté sur toutes les observations. Ce sont ces probabilités estimées
π̂∗i qui sont utilisées pour construire les tableaux produits par l’option CTABLE.
Le tableau ci-après (tableau 5.23, page 168) donne le croisement de la répartition observée et de la répartition
prédite pour une probabilité seuil PS égale à 0,50:
Evénement prédit
∆TP > 1,7
∆TP ≤ 1,7
Evénement
∆TP > 1,7
28
18
46
observé
∆TP ≤ 1,7
15
60
75
121
TAB . 5.23: Modèle final – Croisement entre répartition observée et répartition prédite
De ce tableau d’effectifs il est possible déduire une sensibilité et une spécificité.
168
Régression logistique avec la procédure LOGISTIC (Brun, T.)
La sensibilité S b est la capacité à prédire un événement d’intérêt correctement. C’est la probabilité que le
modèle classe dans la catégorie (( ∆TP supérieur à 1, 7 g )) un élevage où a été observé un ∆TP supérieur à
1, 7 g; soit:
S b = P (∆TP > 1,7 prédit | ∆TP > 1,7 observé )
S b est estimée par la proportion des élevages classés dans la catégorie ∆TP > 1,7 parmi ceux qui appartiennent
à cette catégorie.
La spécificité S p est la capacité à prédire l’absence de l’événement d’intérêt correctement. C’est la probabilité
que le modèle classe dans la catégorie (( ∆TP inférieur ou égal à 1, 7 g )) un élevage où a été observé un ∆TP
inférieur ou égal à 1, 7 g; soit:
S p = P (∆TP ≤ 1,7 prédit | ∆TP ≤ 1,7 observé)
S p est estimée par la proportion des élevages classés dans la catégorie ∆TP ≤ 1,7 parmi ceux qui appartiennent
à cette catégorie.
Les deux estimations figurent dans le tableau ci-après (tableau 5.24, page 169):
Evénement prédit
∆TP > 1,7
∆TP ≤ 1,7
Evénement
∆TP > 1,7
28
18
46
→
Ŝ b = 28/46 = 60,9 %
observé
∆TP ≤ 1,7
15
60
75
→
Ŝ p = 60/75 = 80,0 %
121
TAB . 5.24: Modèle final – Estimation de la sensibilité et de la spécificité
La procédure calcule également le taux de bien classés, le taux de faux positifs et le taux de faux négatifs 5 .
Le taux de bien classés peut être estimé à partir des effectifs du tableau ci-dessus comme P̂BC = (28 + 60) /121 =
72,7 %.
5. La sensibilité est parfois notée 1 − β où β, appelée probabilité de faux négatif, est la probabilité qu’un événement d’intérêt observé
sur un sujet ne soit prédit pas pour ce sujet [5].
La spécificité est parfois notée 1 − α où α, appelée probabilité de faux positif, est la probabilité qu’un événement d’intérêt soit prédit
pour un sujet sur lequel il n’a pas été observé.
On se gardera de confondre ces probabilités de faux négatif et de faux positif avec les taux de faux négatifs et de faux positifs proposés
par la procédure LOGISTIC. Ce ne sont pas des estimations des mêmes probabilités.
169
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Le taux de faux positifs PF+ est la probabilité de trouver des élevages où a été observé un ∆TP inférieur ou égal
à 1, 7 g parmi ceux que le modèle classe dans la catégorie (( ∆TP supérieur à 1, 7 g )) ; soit :
PF+ = P (∆TP ≤ 1,7 observé | ∆TP > 1,7 prédit)
La proportion des élevages de la catégorie ∆TP ≤ 1,7 parmi ceux qui sont classés dans la catégorie ∆TP > 1,7
calculée à partir des effectifs du tableau 5.24 donne comme estimation P̂F+ = 15/ (28 + 15) = 34,9 % .
Le taux de faux négatifs PF− est la probabilité de trouver des élevages où a été observé un ∆TP supérieur à
1, 7 g parmi ceux que le modèle classe dans la catégorie (( ∆TP inférieur ou égal à 1, 7 g )) ; soit :
PF− = P (∆TP > 1,7 observé | ∆TP ≤ 1,7 prédit)
La proportion des élevages de la catégorie ∆TP > 1,7 parmi ceux qui sont classés dans la catégorie ∆TP ≤ 1,7
calculée à partir des effectifs du tableau 5.24 donne comme estimation P̂F− = 18/ (18 + 60) = 23,1 % .
Les estimations calculées ci-dessus estiment des probabilités conditionnelles qui dépendent toutes de la probabilité d’observer un élevage avec un ∆TP > 1,7 dans la population de référence. Elles sont biaisées car elles
sont calculées en utilisant comme estimation de la probabilité la proportion observée dans l’échantillon.
Cette probabilité d’observer un élevage avec un ∆TP > 1,7 est appelée probabilité a priori ((( prior probability )))
dans la documentation SAS [29]. C’est sa valeur qui est déclarée par l’option PEVENT= de l’instruction
MODEL.
Quand l’option PEVENT= n’est pas précisée dans l’instruction MODEL la procédure LOGISTIC utilise la
proportion observée dans l’échantillon; pour notre exemple elle utiliserait 46/121 = 38,0 % comme valeur de
la probabilité a priori ce qui conduirait au tableau Classification Table ci-après (tableau 5.25, page 170).
Classification Table
Correct
Incorrect
Percentages
Prob
Level
Event
NonEvent
Event
NonEvent
Correct
Sensitivity
Specificity
False
POS
False
NEG
0.500
28
60
15
18
72.7
60.9
80.0
34.9
23.1
TAB . 5.25: Modèle final – Tableau de classement avec probabilité a priori de 38 %
La probabilité seuil PS utilisée (ici 50 %) est donnée dans la colonne Prob Level, les effectifs de bien classés
figurent dans le groupe de deux colonnes libellé Correct, les effectifs de mal classés dans le groupe de deux
170
Régression logistique avec la procédure LOGISTIC (Brun, T.)
colonnes libellé Incorrect. La colonne Event correspond à l’événement d’intérêt c’est-à-dire ∆TP > 1,7 et la
colonne Non-Event à l’événement ∆TP ≤ 1,7. Les estimations des probabilités se trouvent dans le groupe de
colonnes libellé Percentages. Le taux de bien classés se trouve dans la colonne Correct, la sensibilité dans la
colonne Sensitivity, la spécificité dans la colonne Specificity, le taux de faux positifs dans la colonne False
POS et le taux de faux négatifs dans la colonne False NEG.
On retrouve bien dans le tableau 5.25 les valeurs calculées précédemment.
Dans le cas de notre exemple la probabilité d’observer un élevage avec un ∆TP > 1,7 a été estimée sur les 60
élevages qui n’utilisent pas de complément en méthionine (les témoins). Ceci permet d’utiliser cette probabilité
de 23,3 % (14/60) dans l’option PEVENT= de l’instruction MODEL (tableau 5.15, page 161).
Cette option PEVENT=0.233 conduit au tableau Classification Table ci-après (tableau 5.26, page 171) où les
estimations des taux de bien classés (75,5 %), de faux positifs (52,0 %) et de faux négatifs (12,9 %) sont différentes de celles du tableau 5.25 (page 170). La probabilité a priori utilisée figure dans la colonne supplémentaire
libellée Prob Event qui a été ajoutée à la gauche du tableau 5.26.
Classification Table
Correct
Incorrect
Percentages
Prob
Event
Prob
Level
Event
NonEvent
Event
NonEvent
Correct
Sensitivity
Specificity
False
POS
False
NEG
0.233
0.500
28
60
15
18
75.5
60.9
80.0
52.0
12.9
TAB . 5.26: Modèle final – Tableau de classement avec probabilité a priori de 23,3 %
Ces estimations sont calculées à partir des formules des probabilités suivantes:
PBC = S p (1 − π) + S b πb
PF+
1 − S p (1 − π)
=
1 − Sp + Sb − 1 − Sp π
PF− =
(1 − S b ) π
Sp − Sb − 1 − Sp π
où π désigne la probabilité a priori P (∆TP > 1,7).
171
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Avec l’estimation π̂ =
14
60 46 28 14
on trouve bien P̂BC =
· + ·
= 75,5 % comme estimation du taux de bien
60
75 60 46 60
classés.
Le nombre de lignes du tableau Classification Table dépend du nombre de probabilités seuil PS que l’on
souhaite examiner. La liste des valeurs de PS peut être imposée par l’option PPROB= de l’instruction MODEL.
En imposant PPROB=0.5 on obtient une seule ligne de résultats de classement comme dans les deux tableaux
listés ci-avant. Lorsque l’option PPROB= n’est pas utilisée la procédure va de la plus petite probabilité estimée
à la plus grande probabilité estimée par pas de 0,02. C’est pourquoi le programme utilisé ici produit 50 lignes
pour PS variant de 0,00 (probabilité estimée 0,0029) à 0,98 (probabilité estimée 0.9736) par pas de 0,02.
Ces calculs effectués pour diverses probabilités seuil permettent de déterminer une valeur de probabilité seuil
conduisant à une erreur de prédiction acceptable lorsqu’on utilise le modèle ajusté pour prédire si un nouvel
élevage va avoir un ∆TP > 1,7 s’il utilise un complément en méthionine.
L’outil d’aide pour ce choix de probabilité seuil est une représentation graphique, c’est la courbe ROC.
La courbe ROC
Le terme (( courbe ROC )) (de l’anglais (( Receiver Operating Characteristic ))) peut se traduire par courbe des
caractéristiques d’efficacité. Il désigne une représentation graphique de la sensibilité en fonction de un moins
la spécificité.
Cette courbe permet d’étudier comment varie S b , la proportion d’événements d’intérêt prédits correctement, re
lativement à 1 − S p , la proportion d’événements d’intérêt prédits à tort. On dit usuellement qu’elle représente
la variation de la (( proportion de vrais positifs )) en fonction de la (( proportion de faux positifs )) 6 .
L’option OUTROC= de l’instruction MODEL (tableau 5.15, page 161) demande la création d’une table SAS
contenant les données permettant de construire une courbe ROC 7 .
6. Les termes (( proportion de vrais positifs )) et (( proportion de faux positifs )) utilisés ici n’ont pas le même sens que les taux de
faux positifs et de faux négatifs estimés par la procédure LOGISTIC. Ils sont homogènes avec les définitions de la sensibilité et de la
spécificité données dans la note 5, page 169.
7. Dans la version 8 de SASr la procédure LOGISTIC ne produit pas directement un graphique. Il est nécessaire d’utiliser la
procédure GPLOT de SAS/GRAPHr sur la table de sortie produite par l’option OUTROC de l’instruction MODEL de la procédure
LOGISTIC pour obtenir le graphique.
172
Régression logistique avec la procédure LOGISTIC (Brun, T.)
La procédure GPLOT [28] du module SAS/GRAPHr utilise cette table de données pour produire la courbe
ROC ci-après (figure 5.2, page 173). Le programme utilisé se trouve dans le tableau 5.27 (page 174).
1.0
0.9
0.8
0.7
Sensibilité
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1−Spécificité
F IG . 5.2: Modèle final – Courbe ROC
Chaque point de la courbe ROC correspond à une probabilité seuil différente. Plus la courbe ROC est incurvée
vers le haut plus le modèle est prédictif ; on parle alors de modèle pertinent. L’aire sous la courbe est appelée
(( pertinence )) et sa valeur (0,845) est donnée par la ligne libellée c dans le tableau Association of Predicted
Probabilities and Observed Responses. Si le graphique est une droite (la première bissectrice) le modèle a
50 % de chances de conduire à la bonne prédiction ; un tirage au sort serait alors aussi efficace.
Dans notre exemple on veut pouvoir conseiller à un maximum d’éleveurs de compléter en méthionine de façon
à apporter un plus à un maximum de (( bons éleveurs )), on souhaite a priori la sensibilité la plus élevée possible.
Dans la version 9.1 de SASr l’utilisation de l’instruction expérimentale ODS GRAPHICS permet d’obtenir ce graphique avec la seule
procédure LOGISTIC.
173
Régression logistique avec la procédure LOGISTIC (Brun, T.)
FILENAME Fieps "RocColor.eps" ;
GOPTIONS RESET=ALL DEVICE=PSEPSFFC GSFNAME=Fieps GSFMODE=REPLACE
HSIZE=16 CM VSIZE=16 CM HTEXT=1 FTEXT="Helvetica" ;
SYMBOL1 C=RED I=JOIN V=NONE ;
AXIS1 C=BLUE LENGTH=13.3 CM ORDER=(0 TO 1 BY 0.1) OFFSET=(0.2 CM,0)
LABEL=("1-Spécificité") ;
AXIS2 C=BLUE LENGTH=13.3 CM ORDER=(0 TO 1 BY 0.1) OFFSET=(0,0.2 CM)
LABEL=(A=90 "Sensibilité") ;
PROC GPLOT DATA=Roc ;
PLOT _SENSIT_*_1MSPEC_ / HAXIS=AXIS1 VAXIS=AXIS2 ;
RUN ;
QUIT ;
FILENAME Fieps ;
TAB . 5.27: Modèle final – Code SAS – Courbe ROC
Toutefois, comme 1 − S p , la proportion d’événements ∆TP > 1,7 prédits à tort, augmente avec S b , la proportion d’événements ∆TP > 1,7 prédits correctement, on ne peut pas prendre une valeur trop élevée pour
cette sensibilité S b car on conseillerait alors à trop d’éleveurs un complément en méthionine qui ne serait pas
synonyme de gain conséquent en TP en dépit d’un investissement financier supplémentaire.
On peut donc envisager de choisir une sensibilité entre 0,70 et 0,75 qui va permettre de favoriser un nombre
important de bons éleveurs tout en ne donnant pas trop (entre 0,20 et 0,25) de conseil de complémentation en
méthionine non suivi d’effet significatif sur le TP.
Mais on peut voir sur la table de sortie de la procédure LOGISTIC, dont une partie est listée dans le tableau 5.28
(page 175), qu’un tel choix correspond à une probabilité seuil inférieure à 50 %. En ligne 53 pour S b = 0,76 et
1 − S p = 0,24 on a une probabilité de 0,34.
Avec notre modèle on ne pourra pas utiliser une sensibilité supérieure à la valeur de 60,9 % donnée dans les
précédents tableaux sans avoir une probabilité seuil inférieure à 50 %.
174
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Obs
_PROB_
_POS_
_NEG_
_FALPOS_
_FALNEG_
_SENSIT_
_1MSPEC_
49
0.45215
33
59
16
13
0.71739
0.21333
50
0.39054
33
58
17
13
0.71739
0.22667
51
0.37714
34
58
17
12
0.73913
0.22667
52
0.36961
34
57
18
12
0.73913
0.24000
53
0.34414
35
57
18
11
0.76087
0.24000
54
0.33373
36
57
18
10
0.78261
0.24000
55
0.33170
36
56
19
10
0.78261
0.25333
56
0.33119
36
55
20
10
0.78261
0.26667
57
0.33027
36
54
21
10
0.78261
0.28000
TAB . 5.28: Modèle final – Extrait de la table de sortie ROC
Les diagnostics
L’option INFLUENCE de l’instruction MODEL (tableau 5.15, page 161) produit le tableau libellé Regression Diagnostics qui donne plusieurs indicateurs permettant d’étudier l’influence de chaque observation sur
l’estimation du modèle.
La procédure LOGISTIC fournit ainsi pour chaque observation:
– deux types de résidus libellés Pearson Residual et Deviance Residual,
– la quantité libellée Hat Matrix Diagonal,
– la quantité libellée DfBeta pour chaque paramètre du modèle,
– les deux indicateurs C et CBAR libellés Confidence Interval Displacement C et Confidence Interval
Displacement Cbar,
– les indicateurs DIFDEV et DIFCHSQ libellés Delta Deviance et Delta Chi Square.
Les résidus donnent la contribution de l’observation au khi-deux de Pearson pour le Pearson Residual et au
khi-deux de la déviance pour le Deviance Residual. Ils indiquent quelles sont les observations les moins bien
ajustées par le modèle.
175
Régression logistique avec la procédure LOGISTIC (Brun, T.)
L’indicateur Hat Matrix Diagonal mesure la dispersion des observations par rapport à l’espace des variables
explicatives. Les valeurs élevées indiquent des valeurs extrêmes. Toutefois quand la probabilité prédite d’une
observation est trop faible (inférieure à 0,1) ou trop élevée (supérieure à 0,9) l’indicateur peut avoir une petite
valeur ; il n’est donc pas un indicateur fiable dans ce cas.
Les indicateurs DfBeta donnent pour chaque paramètre βj (j = 0, · · · p) du modèle la différence entre l’estimation avec l’observation et l’estimation sans l’observation. Ces différences sont standardisées c’est-à-dire
divisées par l’écart type de l’estimation avec l’observation. Elles permettent de détecter les observations qui
rendent l’estimation d’un paramètre instable.
Les indicateurs Confidence Interval Displacement C et Confidence Interval Displacement Cbar sont des
indicateurs d’influence de l’observation sur l’estimation des paramètres basés sur la même idée que la distance
de Cook en régression linéaire.
Les indicateurs Delta Deviance et Delta Chi Square donnent le changement qu’apporte la suppression de
l’observation à la déviance et au khi-deux de Pearson. Ce sont aussi des indicateurs d’observations mal ajustées.
Les sorties produites par l’option INFLUENCE sont très volumineuses car il y a un calcul de tous les indicateurs
pour chaque observation, il y a autant d’indicateurs DfBeta qu’il y a de paramètres estimés dans le modèle et la
valeur de chaque indicateur est accompagnée d’un graphique permettant de repérer rapidement les observations
qui posent problème dans l’ajustement du modèle.
On trouvera ci-après les sorties produites pour les 10 premières observations (tableaux 5.29 et 5.30, pages 177
et 178). L’observation 8 présente une valeur élevée pour de nombreux indicateurs, c’est donc une observation
qui est mal ajustée par le modèle.
176
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Regression Diagnostics
Covariates
Case
Number
1
2
3
4
5
6
7
8
9
10
Traitement
ETroupeau
TP
TPinitial
Stade
Lactation
Note
Ingestion
Ensilage
Mais
1.0000
0
0
1.0000
0
1.0000
0
0
1.0000
1.0000
28.7900
30.7900
32.4700
31.4700
28.5900
28.8900
31.3900
30.4900
30.2900
29.6900
31.5950
31.6000
35.9737
33.4158
29.3273
30.9636
30.2300
29.3571
28.8947
31.5917
145.4
171.8
172.8
165.9
158.5
175.5
83.6000
103.2
94.4211
180.7
8.0000
13.0000
18.0000
14.0000
13.0000
11.0000
16.0000
9.0000
15.0000
11.0000
0
0
0
0
0
0
0
0
10.3000
23.1000
Pearson Residual
Case
Number
Value
1
2
3
4
5
6
7
8
9
10
-0.1802
-0.3243
-0.0833
-0.3403
-0.1901
-0.2772
-0.2805
1.9278
-0.6300
-0.4768
Deviance Residual
(1 unit = 0.35)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|
|
|
*|
*|
*
*|
*|
*|
*|
|
* |
*|
|
|
|
|
|
|
|
* |
|
|
Value
-0.2528
-0.4473
-0.1176
-0.4682
-0.2664
-0.3848
-0.3892
1.7613
-0.8176
-0.6401
(1 unit = 0.26)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|
|
|
*|
* |
*
* |
*|
*|
*|
|
* |
* |
|
|
|
|
|
|
|
* |
|
|
Hat Matrix Diagonal
Case
Number
Value
1
2
3
4
5
6
7
8
9
10
0.0402
0.0819
0.0121
0.0939
0.0449
0.0764
0.0747
0.1748
0.1553
0.0924
Case
Number
Traitement
DfBeta
Value
1
2
3
4
5
6
7
8
9
10
-0.00425
0.0298
0.00153
-0.0251
0.0139
-0.0111
0.0289
-0.3433
-0.0285
-0.0360
Intercept
DfBeta
Value
(1 unit = 0.01)
0 2 4 6 8 12 16
|
|
| *
|
|
|
|
|
|
|
*
*
*
*
*
*
*
|
|
|
|
|
|
|
*|
* |
|
(1 unit = 0.04)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|*
|
|
*
|*
*
*|
*
*
|*
|
*|
*|
|
|
|
|
|
|
|
|
|
|
-0.0186
-0.00769
0.00301
0.0239
-0.0261
-0.0407
0.00280
0.2044
-0.0712
-0.0679
ETroupeau
TP
DfBeta
Value
0.0211
-0.00683
0.000243
-0.00560
0.0164
0.0350
-0.0104
0.0979
-0.00178
0.0540
(1 unit = 0.07)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|
|
|
*
*
*
*
*
*|
*
|
*|
*|
*
|
|
|
|
|
|
|
|
|
|
(1 unit = 0.06)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|
|
|
*
*
*
*
*
|*
*
| *
*
|*
TAB . 5.29: Modèle final – Diagnostics 1ière partie
177
|
|
|
|
|
|
|
|
|
|
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Regression Diagnostics
Case
Number
TPinitial
DfBeta
Value
1
2
3
4
5
6
7
8
9
10
-0.0137
0.0115
-0.00459
-0.0284
0.00394
-0.00891
0.00231
-0.2494
0.0623
-0.00849
Case
Number
Note
Ingestion
DfBeta
Value
1
2
3
4
5
6
7
8
9
10
0.00477
-0.00633
-0.00361
-0.0182
-0.00443
0.000157
-0.0204
-0.2326
-0.0534
0.0101
(1 unit = 0.05)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|
|
|
*
*
*
*
*|
*
*
*
|
|*
*
|
|
|
|
|
|
|
|
|
|
(1 unit = 0.06)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
|
|
|
*
*
*
*
*
*
*
|
*
*|
*
|
|
|
|
|
|
|
|
|
|
Stade
Lactation
DfBeta
Value
0.00649
-0.0243
0.00186
-0.00322
-0.00591
-0.0116
0.0180
0.00913
0.0149
-0.0347
Ensilage
Mais
DfBeta
Value
Value
1
2
3
4
5
6
7
8
9
10
0.00142
0.0102
0.000086
0.0132
0.00178
0.00688
0.00687
0.9540
0.0864
0.0255
(1 unit = 0.06)
0 2 4 6 8 12 16
|*
|*
|*
|*
|*
|*
|*
|
| *
|*
|
|
|
|
|
|
|
*|
|
|
0.0243
0.0906
0.00729
0.1067
0.0265
0.0606
0.0606
-0.6821
0.1973
0.1141
Value
1
2
3
4
5
6
7
8
9
10
0.0652
0.2094
0.0139
0.2312
0.0727
0.1545
0.1578
3.8893
0.7414
0.4328
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|*
|
|
*
|*
*
|*
*
|*
|*
|
| *
|*
|
|
|
|
|
|
|
|
|
|
(1 unit = 0.05)
0 2 4 6 8 12 16
Value
0.00136
0.00938
0.000085
0.0120
0.00170
0.00636
0.00635
0.7872
0.0730
0.0231
|*
|*
|*
|*
|*
|*
|*
|
| *
|*
|
|
|
|
|
|
|
*|
|
|
Delta Chi-Square
(1 unit = 0.29)
0 2 4 6 8 12 16
|*
| *
|*
| *
|*
| *
| *
|
|
*
| *
*
*|
*
*
*
*
*
*
*
*|
Confidence Interval
Displacement CBar
Delta Deviance
Case
Number
|
|
|
|
|
|
|
|
|
|
(1 unit = 0.09)
-8 -4 0 2 4 6 8
Confidence Interval Displacement C
Case
Number
(1 unit = 0.05)
-8 -4 0 2 4 6 8
|
|
|
|
|
|
|
* |
|
|
Value
0.0338
0.1146
0.00702
0.1278
0.0378
0.0832
0.0850
4.5035
0.4698
0.2505
(1 unit = 0.5)
0 2 4 6 8 12 16
|*
|*
|*
|*
|*
|*
|*
|
| *
| *
*
|
|
|
|
|
|
|
|
|
|
TAB . 5.30: Modèle final – Diagnostics 2ième partie
178
Régression logistique avec la procédure LOGISTIC (Brun, T.)
Il est possible d’obtenir des sorties un peu moins volumineuses en n’utilisant que l’option IPLOTS de l’instruction MODEL (tableau 5.15, page 161). Cette option produit des graphiques des indicateurs de diagnostic
avec en abscisse le numéro d’observation (libellé Case Number INDEX) et en ordonnée l’indicateur.
Quelques exemples de graphiques obtenus par cette option figurent ci-après (tableau 5.31, page 180). On peut
ainsi repérer les quelques observations (en particulier l’observation 8 déjà signalée auparavant) mal ajustées par
le modèle.
179
Régression logistique avec la procédure LOGISTIC (Brun, T.)
P
e
a
r
s
o
n
R
e
s
i
d
u
a
l
RESCHI
4
2
0
-2
-4
Index Plot of Pearson Residuals
ResChi versus Index
-------+----+----+----+----+----+----+----+----+----+----+----+----+----+------|
|
+
+
|
|
|
*
|
|
|
+
*
+
*
|
|
|
*
*
*
*
|
|
**
*
** ***
*
**
|
+
* * *
* * *
* * *
*
* *
+
|
* * ** ****
**
* * * *** ** * ** *
*
* *
* *
|
|
*
*
*
*
* *
|
|
*
|
+
*
+
|
|
|
|
|
|
+
+
-------+----+----+----+----+----+----+----+----+----+----+----+----+----+------0
5
10
15
20
25
30
35
40
45
50
55
60
65
Case Number
P
e
a
r
s
o
n
R
e
s
i
d
u
a
l
RESCHI
4
2
0
-2
-4
INDEX
Index Plot of Pearson Residuals
ResChi versus Index
-------+----+----+----+----+----+----+----+----+----+----+----+----+----+------|
|
+
+
|
|
|
|
|
|
+
*
*
*
*
*
+
|
*
*
* *
*
|
|
* * *
*
*
*
*
|
|
*
* *
* *
**
*
*
|
+
*
* *
*
*
**
+
|
* *
*
*
**
** *
**
*
*
|
|
*
*
*
* *
|
|
*
*
*
|
+
+
|
*
*
|
|
|
|
|
+
+
-------+----+----+----+----+----+----+----+----+----+----+----+----+----+------65
70
75
80
85
90
95
100 105 110 115 120 125 130
Case Number
INDEX
TAB . 5.31: Modèle final – Nuages de points obtenus par l’option IPLOTS
180
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Chapitre 6
Modèle log-linéaire pour les données de comptage
Gozé, É.
CIRAD-CA, Centre de Coopération Internationale en Recherche Agronomique pour le développement,
Bâtiment 7, Bureau 11, TA 70/09, Avenue d’Agropolis - 34398 Montpellier cedex 5
[email protected]
Résumé
Nous proposons ici un exemple d’analyse de données de comptage de défauts dans la fibre de coton, les points
collants. Le but est de déterminer les conditions optimales d’humidité de l’air pour le comptage de ces défauts.
Obtenues dans le cadre d’une expérimentation planifiée à deux facteurs étudiés croisés, les données présentent
une distribution discrète, dont la variance augmente avec l’espérance. Nous montrons que le modèle linéaire ne
permet pas une analyse satisfaisante. Une transformation de variable ne permet pas de proposer un modèle
simple, sans interaction, dans une échelle où la variance résiduelle serait homogène.
A partir d’hypothèses simples sur la répartition spatiale des points collants, se justifie le choix d’un modèle
log-linéaire, où les effets des deux facteurs sont multiplicatifs. Conditionnellement à ces effets, les données
suivent une loi de Poisson, si toutefois les points collants se répartissent au hasard dans le coton. On présente
aussi des variantes où la loi conditionnelle est plus dispersée.
181
Modèle log-linéaire pour les données de comptage (Gozé, É.)
1
Introduction
Les cotons collants ont commencé à causer de graves incidents dans les usines de filature dans les années 1980 :
enroulement des nappes de coton autour des cardes, et encrassement des continus à filer provoquant des ruptures
de fil. Ce collage est provoqué par des insectes, qui polluent la fibre de coton par leurs déjections sucrées. Ces
excrétions prennent la forme de billes de miellat qui parsèment la fibre. Elles sont quasiment invisibles à l’oeil
nu.
Le procédé de thermodétection a été inventé au Cirad en 1985 pour quantifier ce défaut qui affecte certains
cotons plus que d’autres. Le procédé consiste à révéler ces déjections collantes par chauffage d’un échantillon
de coton de masse donnée entre deux feuilles d’aluminium. Les billes sucrées fondent avec l’humidité de l’air
ambiant, et collent au métal, en retenant avec elles quelques fibres de coton. Une fois le reste l’échantillon
débarrassé à l’aide d’une brosse, ces fibres emprisonnées par les billes collantes permettent de les mettre en
évidence sous forme de points de quelques millimètres. Ces points collants sont comptés et le résultat enregistré.
Le but de cette expérience est de déterminer les conditions ambiantes d’humidité relative qui permettent la
révélation la plus précise du collage, et de déterminer des corrections à apporter aux comptages, pour les cas
où ces conditions seraient impossibles à atteindre.
Des observations préliminaires ont montré une influence de l’humidité relative de l’air sur les mesures réalisées
avec ce procédé, avec des comptages maximaux vers 55% d’humidité. Une expérience planifiée a été entreprise
pour déterminer d’une part, si il existait une humidité permettant la révélation la plus complète du collage, et
d’autre part si on pouvait proposer des corrections au cas où cette humidité relative serait impossible à atteindre,
comme cela peut arriver, par exemple, dans des usines non équipées en laboratoires climatisés. A l’attention
de celles-ci, on a voulu essayer une enceinte à conditionner, sorte de boîte climatisée permettant d’amener les
échantillons à l’humidité désirée.
2
Dispositif expérimental et données
Onze lots de coton (on dira 11 cotons) ont été choisis pour former une gamme de potentiel collant la plus large
possible. Leur collage a été mesuré à cinq humidités relatives différentes : 35, 45, 55, 65 et 75%. L’enceinte à
conditionner, placée à 35% d’humidité extérieure, a été réglée pour obtenir 65% à l’intérieur.
Cette expérience est à deux facteurs croisés, le coton avec 11 modalités, et l’humidité avec 6 conditions dif182
Modèle log-linéaire pour les données de comptage (Gozé, É.)
férentes. Les changements d’humidité ambiante n’étant pas faciles à obtenir rapidement, toutes les mesures
faites à un même taux d’humidité ont été réalisées le même jour. Chacun de ces jours, on a procédé à trois
thermodétections indépendantes par coton, les 11 cotons × 3 répétitions = 33 échantillons se succédant dans
un ordre aléatoire.
Dans ce dispositif, le facteur humidité n’est donc pas randomisé. Dans ce laboratoire à l’atmosphère contrôlée,
on a considéré que les causes majeures de variations aléatoires étaient les fluctuations d’échantillonnage des
points collants à l’intérieur des lots de coton, les autres causes éventuelles étant d’importance négligeable.
On néglige alors le facteur journée, confondu avec le facteur humidité, et on analyse les résultats comme s’il
s’agissait d’un dispositif factoriel complètement randomisé.
Les données figurent dans le tableau 6.1.
3
L’analyse de variance des comptages, et ses limites
Il peut sembler naturel, à l’issue d’une expérience planifiée, de procéder à une analyse de variance. Avec un
dispositif factoriel, on peut tester l’effet de chacun des facteurs, et l’interaction. Nous allons voir que sur ces
données, l’analyse de variance n’est pas bien adaptée à la situation. Elle a été réalisée avec la procédure glm de
Sas/Stat.
proc format;
value pc_hum
1="35%+E"
2="35%"
3="45%"
4="55%"
5="65%"
6="75%"
;
run;
data hum;
infile ’hum.dat’;
input HUM coton rep col;
183
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Humidité relative
35%
35%
45%
55%
65%
75%
+Enceinte
coton
rep
1
1
9
2
7
18
14
8
2
17
8
8
26
11
11
3
15
12
11
20
28
3
1
24
13
14
33
29
8
2
18
7
16
23
21
19
3
24
7
25
25
29
3
1
73
42
72
106
80
35
2
134
28
56
93
80
20
3
90
33
73
106
121
61
1
21
11
18
24
28
3
2
32
11
12
30
33
5
3
12
12
24
19
24
8
1
140
59
140
149
172
66
2
200
131
110
147
188
46
3
170
107
101
179
146
72
1
49
21
36
70
54
21
2
68
25
33
72
65
36
3
..
.
37
..
.
14
..
.
48
..
.
60
..
.
81
..
.
28
..
.
2
3
4
5
6
..
.
TAB . 6.1: Nombre de points collants par échantillon dans l’expérimentation humidité x coton
184
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Humidité relative
35%+Enceinte
35%
45%
55%
65%
75%
répétition
répétition
répétition
répétition
répétition
répétition
1
2
3
1
2
3
1
9
17
2
24
18
3
73
134
1
2
3
1
2
3
1
2
3
1
2
3
15
2
8
12
24
13
7
7
7
8
11
18
26
20
14
11
28
8
11
3
14
16
25
33
23
25
29
21
29
8
19
90
42
28
33
72
3
56
73
106
93
106
80
80
121
35
20
61
coton
4
21
32
12
11
11
12
18
12
24
24
30
19
28
33
24
3
5
8
5
140
200
170
59
131
107
140
110
101
149
147
179
172
188
146
66
46
72
6
49
68
37
21
25
14
36
33
48
70
72
60
54
65
81
21
36
28
7
21
20
28
10
11
10
15
21
9
25
26
29
28
28
33
9
14
11
8
53
39
37
13
18
17
31
29
37
40
28
52
39
40
34
21
21
17
28
9
51
90
55
12
8
23
28
35
28
52
43
60
42
64
55
29
36
10
3
5
1
4
1
1
6
3
8
3
3
5
6
5
9
2
3
2
11
38
44
38
24
24
16
18
36
18
31
29
33
30
49
36
25
12
30
TAB . 6.2: Nombre de points collants par échantillon dans l’expérimentation humidité x coton
format hum pc_hum.;
run;
proc glm data=hum;
class hum coton;
model col=hum coton hum*coton/ss1 ss3 ;
/* sauvegarde des résidus et des valeurs prédites pour les diagnostics sur les résidus */
output out=predglm r=res_col p=xbeta_col;
/* sauvegarde des moyennes ajustées pour le tracé d’un graphique décrivant l’interaction */
lsmeans coton/out=lsmeans1;
lsmeans hum*coton/out=lsmeans2;
run;
quit;
Les diagnostics préliminaires revèlent de mauvaises conditions pour une analyse de variance. L’examen de
l’histogramme (figure 6.1) montre un excès d’observations proches de 0, et un autre excès d’observations de
valeur absolue supérieure à 25, alors que les flancs de l’histogramme sont creusés : on dit que les queues de la
distribution sont "‘lourdes"’, ou encore que la distribution des résidus est plus aplatie que celle d’une variable
185
Modèle log-linéaire pour les données de comptage (Gozé, É.)
gaussienne. Le graphique quantile permet de juger plus facilement de cette distorsion : les résidus y sont croisés
avec la valeur qu’ils devraient prendre si ils suivaient exactement une loi gaussienne, c’est à dire les quantiles
d’une loi normale. Si les résidus sont bien gaussiens, les points du graphique sont alignés. Ici au contraire les
valeurs les plus extrêmes s’écartent nettement d’une droite.
L’aplatissement excessif de la distribution est souvent le fait d’une variance résiduelle hétérogène, que l’on peut
mettre ici en évidence figure 6.2(a) : on constate que la dispersion des résidus croît en fonction de la prédiction.
60
40
50
p
o
u
r
c
e
n
t
20
40
r
é
s
i
d
u
30
20
0
20
10
0
40
40 32 24 16
8
0
résidu
8
16
24
32
3
2
1
0
1
2
3
Normal Quantiles
(a)
(b)
F IG . 6.1: Mise en évidence d’une distribution trop aplatie des résidus de l’analyse de variance, traduisant
une hétérogénéité de la variance résiduelle : (a) histogramme et densité d’une loi gaussienne; (b) graphique
quantile (qqplot)
Si malgré ces mauvaises conditions on examine tout de même les résultats de l’analyse de variance, on s’aperçoit d’une interaction significative (P< 0.0001) : l’effet de l’humidité ne serait donc pas le même pour chaque
coton. Si une des humidités donne un collage maximal, on n’est donc pas certain que ce soit vrai pour tous
les cotons ; de plus, à supposer que ce soit vrai, on ne peut pas proposer de corrections valables pour tous les
cotons.
En fait, un simple graphique nous montre que cette interaction est du type multiplicatif, qu’une transformation
logarithme pourrait annuler (figure 6.2(b)). Cette interaction peut être interprétée comme un artéfact, le modèle
d’analyse de variance n’étant pas adapté à la situation.
186
Modèle log-linéaire pour les données de comptage (Gozé, É.)
40
collage moyen par coton et par humidité
180
30
20
résidu
10
0
10
20
30
150
120
90
60
30
40
0
0
20
40
60
80
100 120 140 160 180
0
prédiction
20
40
60
80
100
120
140
collage moyen par coton
(a)
(b)
F IG . 6.2: (a) mise en évidence d’une hétérogénéité de variance en croisant les résidus de l’analyse de variance
avec les valeurs prédites (b) mise en évidence d’une interaction multiplicative en croisant les valeurs moyennes
par coton et par humidité avec la valeur moyenne par coton
Toutes ces considérations nous amènent à repartir du phénomène étudié pour proposer une autre analyse.
4
Retour sur le phénomène étudié et justification d’un modèle log-linéaire
Quelques hypothèses simples sur la répartition des points collants dans les échantillons de coton permettent de
déduire la loi de probabilité de leurs comptages. Le raisonnement est le même que celui qu’on utilise pour la
répartition dans l’espace de plants, de ravageurs, etc.
Les comptages sont ici obtenus sur une surface donnée d’un voile de coton ou d’un ensemble de feuilles. Les
défauts comptés peuvent prendre n’importe quelle position sur le voile ou les feuilles.
Dans ces conditions, si les défauts sont répartis au hasard indépendamment les uns des autres avec une densité d,
leur nombre dans un échantillon de surface s suit une loi de Poisson d’espérance µ = ds (figure 6.3(a)). La
187
Modèle log-linéaire pour les données de comptage (Gozé, É.)
variance de la loi de Poisson est égale à son espérance.
D’autres répartitions spatiales génèrent d’autres distributions d’échantillonnage. En dehors de répartitions dites
régulières, elles sont souvent la source d’une surdispersion par rapport à la loi de Poisson, c’est à dire d’une
variance supérieure à l’espérance.
Plusieurs causes peuvent générer une loi de probabilité différente de la loi de Poisson. Une cause possible est
une distribution dite contagieuse, où les points se répartissent en agrégats, plutôt qu’indépendamment les uns
des autres. Quand les agrégats sont eux-mêmes répartis au hasard, et de manière indépendante, leur nombre
par échantillon suit une loi de Poisson d’espérance λ. Si le nombre de points par agrégat suit également une
loi de Poisson d’espérance ϕ (figure 6.3(b)), le nombre de points par échantillon suit une loi de Neyman type
A, d’espérance µ=λϕ et de variance λϕ(1+ϕ) [12],p.64 [19],p.328. Enfin, si d’un traitement à l’autre varie
seulement l’espérance λ du nombre d’agrégats, et pas celle du nombre de points par agrégat (ϕ est indépendant
du traitement), la loi de probabilité est surdispersée par rapport à la loi de Poisson, d’un facteur constant φ =
(1+ϕ).
(a)
(b)
(c)
F IG . 6.3: Comparaison de trois répartitions spatiales de points
(a) répartition au hasard : le nombre de points par échantillon suit une loi de Poisson (b) répartition en agrégats : le nombre de points par échantillon suit une loi de
(c) densité non homogène : le nombre de points par échantillon suit une loi binomiale
Une autre cause possible de surdispersion est l’inhomogénéité : la densité d, au lieu d’être constante, peut varier
aléatoirement et de façon continue à l’intérieur de la surface à échantillonner (figure 6.3(c)). Si la densité suit
une loi Gamma, et que conditionnellement à cette densité les défauts sont répartis au hasard et indépendamment,
le nombre de défauts par échantillon suit une loi binomiale négative, d’espérance µ et de variance V = µ + µ2 /k
188
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Loi
Paramètres Espérance Variance
Variance
Espérance
Poisson
µ
µ
µ
1
Neyman type A
λ ϕ
µ = λϕ
λϕ(1 + ϕ)
1+ϕ
µ
µ + µ2 /k
1 + µ/k
Binomiale négative µ k
CV (%)
q
100 1µ
q
100 1+ϕ
µ
q
1
100 µ + 1k
TAB . 6.3: Relation entre moyenne et variance pour quelques lois de probabilité courantes
[19]. A la différence de la loi de Neyman type A, le rapport entre moyenne et variance n’est pas constant, mais
croît avec l’espérance. D’autres répartitions spatiales peuvent également conduire à une loi d’échantillonnage
binomiale négative.
En pratique on n’observe que rarement la répartition spatiale, et le plus souvent les comptages par échantillon
seulement. Ces trois lois théoriques (Poisson, Neyman type A et binomiale négative), connues pour correspondre à des situations simples, sont alors de simples repères pour la recherche d’une loi de probabilité empirique. Un critère important à respecter pour le choix de cette loi est la relation moyenne-variance, c’est à dire
entre moyenne des prédictions et variance des écarts à la prédiction (ou résidus). Les relations entre moyenne
et variance pour ces trois lois sont listées au tableau 6.3. De ce tableau, on peut tirer deux principes :
– la variance et le coefficient de variation, souvent utilisés pour juger de la qualité des mesures, ne sont
plus des repères valables pour les comptages, car ils sont fonction de l’espérance. Seul le rapport variance/espérance est constant pour la loi de Poisson.
– la précision relative, mesurée par le coefficient de variation, s’améliore toujours quand la moyenne augmente, quelle que soit la loi envisagée. Par conséquent, on va rechercher les conditions de mesure qui
maximisent l’espérance du nombre de points comptés.
4.1
Modèle multiplicatif de l’espérance du comptage
On va considérer que chaque coton possède un potentiel de collage, que l’on peut quantifier par une densité de
billes de miellat. Suivant l’humidité, une proportion plus ou moins grande de ces billes va être révélée par la
thermodétection. Si on appelle i le coton, j l’humidité, et k la répétition, l’espérance Yi jk du nombre de points
révélés peut s’écrire :
189
Modèle log-linéaire pour les données de comptage (Gozé, É.)
E(Yi jk ) = µi β j
(6.1)
ou encore, pour introduire une symétrie entre les deux facteurs :
E(Yi jk ) = µαi β j
(6.2)
avec αi l’effet coton et β j l’effet humidité.
On peut se ramener à un modèle additif en passant au logarithme :
Log(E(Yi jk )) = m + ai + b j
4.2
(6.3)
Loi du comptage, connaissant son espérance (loi conditionnelle)
Les comptages sont obtenus sur des échantillons de même masse, issus de lots de fibre dont on ne connaît pas
l’homogénéité. On ne peut donc pas préjuger de la distribution de probabilité des comptages, mais les lois de
Poisson, de Neyman type A et binomiale négative sont des candidats plausibles. Ce qui va nous permettre de
choisir parmi eux est la relation entre moyenne et variance.
Dans le meilleur des cas, les points collants sont répartis au hasard. La loi de Yi jk , connaissant son espérance
λi jk , est alors une loi de Poisson :
Yi jk ≡ P (λi jk ) conditionnellement à λi jk = E(Yi jk )
4.3
(6.4)
Modèle log-linéaire
Le modèle multiplicatif (6.3) et la loi conditionnelle (6.4) définissent un modèle linéaire généralisé, plus précisément un modèle log-linéaire.
On remarque que le logarithme est la fonction de lien canonique associée à la loi de Poisson. Le choix du lien
canonique plutôt qu’un autre donne de bonnes propriétés mathématiques au modèle. Mais il ne garantit pas
qu’il soit bien adapté à la réalité dans toutes les situations, même si le lien canonique donne souvent de bons
modèles dans la pratique.
190
Modèle log-linéaire pour les données de comptage (Gozé, É.)
5
Pourquoi pas une transformation de variable?
Une pratique courante, pour les données de comptage, est l’analyse de variance, après une transformation choisie pour stabiliser la variance résiduelle ou pour rendre le modèle additif (autrement dit supprimer l’interaction).
D’après nos hypothèses simples sur la répartition spatiale, c’est une transformation racine carrée qui convient
pour stabiliser la variance, puisque notre loi conditionnelle est la loi de Poisson. Mais d’un autre côté c’est la
transformation logarithme qui permet de se ramener à un modèle additif [?]. Aucune transformation ne peut
donc convenir pour ces deux fonctions (nous le vérifierons plus loin sur les données).
Or l’absence d’interaction est souhaitable pour deux raisons, l’une plutôt théorique et l’autre pratique.
1. Sur le plan théorique, il est nécessaire de résumer les données avec un nombre minimum de paramètres,
en suivant le principe de parcimonie. Or un modèle sans interaction a nettement moins de paramètres
qu’un modèle avec interaction ; à qualité égale d’ajustement, il lui est donc préférable car il donnera des
estimations plus précises, et plus robustes par rapport à des erreurs isolées.
2. Sur le plan pratique, un modèle avec interaction ne pourra s’appliquer qu’aux cotons objets de l’expérimentation ; or le but de celle-ci est d’obtenir des coefficients de correction applicables à n’importe quel
coton ; la présence d’une interaction restreint la portée des résultats au point de les rendre inutilisables.
Une transformation racine carrée serait convenable pour un essai à un seul facteur, pour lequel le problème de
l’interaction ne se pose pas. Elle permettrait alors de stabiliser la variance des erreurs, mais pas de les rendre
approximativement gaussiennes : c’est une transformation Y 2/3 qui serait la plus appropriée pour rendre leur
distribution symétrique. La stabilisation de la variance étant plus importante que la normalité de la loi des
erreurs, c’est la transformation racine carrée qui serait alors applicable.
En essayant plusieurs transformations de variables sur cet exemple, vérifions qu’on ne peut à la fois stabiliser
la variance et annuler l’interaction. Le caractère répétitif de l’opération nous incite a écrire une macro sas pour
les deux opérations suivantes :
1. Un graphique permet de juger visuellement d’une liaison entre la dispersion des résidus et les valeurs
prédites.
2. Une variante du test de [15] permet de confirmer ou non l’existence de cette liaison. Elle consiste à faire
la régression des valeurs absolues des résidus sur les valeurs prédites.
191
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Le test de l’interaction coton × humidité est le test classique de l’analyse de variance, que l’on applique même
si la variance est hétérogène. Les résultats des deux tests sont listés au tableau 6.4.
%macro resxpred(fichier,residu,pred);
symbol1 v=dot h=0.1 cm i=none ;
AXIS1 LABEL = (’predits’) MINOR = none;
AXIS2 LABEL = (’résidu’)
MINOR = none;
PROC GPLOT DATA = &fichier;
PLOT &residu*&pred=1 / frame haxis = axis1 vaxis = axis2;
RUN;
QUIT;
/* test de Glejser*/
data &fichier;
set &fichier;
abs&residu=abs(&residu);
run;
proc reg data=&fichier;
model abs&residu=&pred;
run;quit;
%mend resxpred;
/* 4 analyses de variance sur 4 fonctions différentes du nombre de points collants */
/* identité, racine carrée, racine cubique et logarithme */
proc glm data=hum;
class hum coton;
model col rac_col rac3_col log_col=hum coton hum*coton/ss1 ss3 ;
output out=predglm r=res_col
res_rac_col
res_rac3_col
res_log_col
p=xbeta_col xbeta_rac_col xbeta_rac3_col xbeta_log_col;
lsmeans coton/out=lsmeans1;
lsmeans hum*coton/out=lsmeans2;
run;quit;
/* 4 tests sur les résidus */
192
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Hétéroscédasticité
Interaction
Test de Glejser
Test F
t(196)
Pr >t
F(50,132)
Pr >F
11.36
<0.0001
4.31
<0.0001
3.88
0.0001
2.30
<0.0001
√
3
0.51
0.6139
1.73
0.0072
Log
-6.58
<0.0001
1.26
0.1494
Transformation
aucune
√
TAB . 6.4: Essai de différentes transformations de variables avant analyse de variance : tests d’homogénéité de
variance et d’interaction coton x humidité
%resxpred(predglm,res_col,xbeta_col);
%resxpred(predglm,res_rac_col,xbeta_rac_col);
%resxpred(predglm,res_rac3_col,xbeta_rac3_col);
%resxpred(predglm,res_log_col,xbeta_log_col);
Une transformation racine carrée ne suffit pas à stabiliser la variance résiduelle, une transformation racine
cubique est nécessaire. C’est le signe que la variance est plus que proportionnelle à la moyenne.
La transformation logarithme suffit à rendre non significative l’interaction, ce qui confirme notre hypothèse de
départ de modèle multiplicatif. Mais elle ne permet pas de stabiliser en même temps la variance des erreurs :
celle ci devient décroissante avec la prédiction (le t du test de Glejser est négatif).
Nous avons ici un exemple pratique des limites théoriques de la transformation de variable : facile à mettre en
œuvre, et bien adaptée pour un modèle à un seul facteur, elle ne l’est plus avec deux facteurs, car elle ne permet
pas à la fois d’annuler l’interaction et de stabiliser la variance.
Il est apparemment impossible de trouver une transformation qui permette à la fois de stabiliser la variance et
d’éliminer l’artéfact d’interaction. Par conséquent, nous nous tournons vers le modèle linéaire généralisé, qui
permet de choisir indépendamment d’une part l’échelle dans laquelle les effets sont additifs et d’autre part la
loi de probabilité des observations, ou plus généralement la relation entre leur espérance et leur variance.
193
Modèle log-linéaire pour les données de comptage (Gozé, É.)
6
Ajustement d’un modèle log-linéaire et de ses variantes
6.1
Choix d’une relation entre moyenne et variance
Nous avons utilisé à nouveau Sas/Stat, procédure genmod pour ajuster un modèle log-linéaire avec interaction
coton x humidité. Pour cela, le programme déjà vu plus haut est modifié pour appeler la procédure genmod à la
place de glm. La spécification du modèle est assez proche de celle de glm (ss1 et ss3 étant remplacés par type1
et type3 par exemple). En plus, on spécifie que la distribution conditionnelle est la distribution de Poisson. Les
demandes de sorties de résidus et de moyennes ajustées sont différentes de celles de glm, elles font appel à
l’output delivery system (ODS). Le graphique croisant résidus et valeurs prédites est obtenu en réutilisant la
même macro qu’auparavant.
title2 "MODELE LOG-LINEAIRE";
ods exclude obstats;
ods output obstats=predpoisson;
ods output lsmeans=lsmeanspoisson;
proc genmod data=hum;
class hum coton;
model col=hum coton hum*coton/type1 type3 dist=poisson obstats;
lsmeans coton hum*coton;
run;
title3 "RESIDUS DE DEVIANCE EN FONCTION DU PREDICTEUR LINEAIRE";
%resxpred(predpoisson,resdev,xbeta);
Dans cette première analyse, la loi conditionnelle du comptage est la loi de Poisson. Examinons les critères
d’ajustement (Goodness of fit).
Le calcul de la vraisemblance montre une déviance 2,34 fois plus élevée que son nombre de degrés de liberté.
Cette déviance est significativement plus grande qu’un chi2 à 132 ddl (P<0,001), la valeur critique est de 160
pour α=0,05. On a donc affaire à une loi de variance plus grande que celle de la loi de Poisson.
Criteria For Assessing Goodness Of Fit
194
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Criterion
DF
Value
Value/DF
Deviance
132
309.1607
2.3421
Scaled Deviance
132
132.0000
1.0000
Pearson Chi-Square
132
307.1424
2.3268
Scaled Pearson X2
132
131.1383
0.9935
Log Likelihood
9849.2308
Cependant, la distribution des résidus de type déviance est approximativement normale, (figure 6.4a). La déviance importante n’est donc pas due à des observations particulières, mais à des écarts aux prédictions généralement plus grands que ceux que l’on attendrait d’une loi de Poisson.
0.4
d
e
d
é
v
i
a
n
c
e
0.3
4
0.2
2
résidu de déviance
r
é
s
i
d
u
0
2
0.1
0
0.1
0.2
0.3
4
0.4
0.5
6
3
2
1
0
1
2
0
3
1
2
3
4
5
6
prédicteur lineaire
Normal Quantiles
(a)
(b)
F IG . 6.4: Résidus de déviance du modèle log-linéaire : (a) graphique quantile normal(qqplot) (b) croisement
avec le prédicteur linéaire (logarithme de la prédiction)
Enfin, le croisement des résidus de déviance avec les valeurs prédites montre que leur dispersion croit légèrement avec la prédiction (figure 6.4b). On peut le confirmer avec le test de Glejser : la régression de la valeur
absolue des résidus sur la valeur prédite, montre une pente positive (P < 0,0001). Ces résidus étant supposés de variance indépendante de la prédiction, cela montre que la variance des données augmente "trop" vite,
195
Modèle log-linéaire pour les données de comptage (Gozé, É.)
du moins plus vite que celle de la loi de Poisson. Autrement dit, le rapport variance/moyenne croît avec la
moyenne, comme pour la loi binomiale négative (alors qu’il est constamment égal à 1 pour la loi de Poisson).
3
d
e
d
é
v
i
a
n
c
e
3
2
2
résidu de déviance
r
é
s
i
d
u
1
0
1
0
1
1
2
2
3
3
3
2
1
0
1
2
0
3
1
2
3
4
5
6
prédicteur lineaire
Normal Quantiles
(a)
(b)
F IG . 6.5: Résidus de déviance du modèle à lien logarithme et distribution binomiale négative : (a) graphique
quantile normal(qqplot) (b) croisement avec le prédicteur linéaire (logarithme de la prédiction)
Conservant la fonction de lien logarithme, nous abandonnons la loi de Poisson pour une loi binomiale négative.
Pour celà, nous changeons l’option /dist=poisson de l’ordre model par l’option /dist=negbin. Les résidus
de déviance voient alors leur dispersion devenir indépendante de la valeur du prédicteur linéaire (figure 6.5b), le
test de Glejser n’est plus significatif (P=0,7257) : la relation V = µ + µ2 /k rend correctement compte de l’évolution de la variance en fonction de la moyenne. La distribution des mêmes résidus reste approximativement
gaussienne (figure 6.5a).
Cependant, la déviance du modèle vaut encore 1,433 fois son nombre de degrés de liberté, elle reste significativement supérieure à un chi2 à 132 ddl (P < 0,0001, la valeur critique est 159 pour α=0,05). La spécification
d’une loi binomiale négative ne suffit donc pas à expliquer toute la dispersion des données : la forme de la relation moyenne-variance est bien rendue, mais la variance est constamment sous-estimée d’un facteur 1,4333.
Criteria For Assessing Goodness Of Fit
196
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Criterion
DF
Value
Value/DF
Deviance
132
189.1953
1.4333
Scaled Deviance
132
132.0000
1.0000
Pearson Chi-Square
132
186.8733
1.4157
Scaled Pearson X2
132
130.3799
0.9877
Log Likelihood
16107.6854
Il nous faut donc abandonner l’idée d’ajuster les données à une loi connue. Heureusement, le modèle linéaire
généralisé ne s’applique pas seulement aux lois de la famille exponentielle, mais par extension à toute loi dont
on connaît la relation entre moyenne et variance. Bien que déçus de ne pas avoir trouvé de loi de probabilité
à ces comptages, nous pouvons mener à bien cette analyse : il suffit de spécifier que la variance conditionnelle
est V = φ(µ + µ2 /k), φ étant un facteur d’échelle appelé surdispersion, qui sera estimé par le rapport entre la
déviance et son nombre de degrés de liberté. Pour cela, nous ajoutons l’option /dscale à l’instruction model
de genmod, pour obtenir le programme suivant :
proc genmod data=hum;
class hum coton;
model col=hum coton hum*coton/type1 type3 dscale dist=negbin obstats;
run;
Comme on ne connaît plus la loi de probabilité des données, on ne connaît pas non plus leur vraisemblance.
Celle-ci est alors remplacée par la quasi-vraisemblance, qui possède des propriétés analogues, et permet des
calculs proches de ceux qu’on emploie pour la maximisation de la vraisemblance.
Cette situation rappelle celle qui prévaut généralement pour le modèle linéaire, où la variance de l’erreur n’est
pas connue à l’avance, mais estimée à partir des données. Les conséquences de l’estimation de la surdispersion
sont les mêmes que celles de l’estimation de la variance de l’erreur : l’adéquation du modèle ne peut plus être
testée avec la déviance. De plus, les tests des effets se font maintenant par des F de Fisher plutôt que par des
chi2.
197
Modèle log-linéaire pour les données de comptage (Gozé, É.)
6.2
Choix d’un modèle pour l’espérance : élimination de l’interaction
Criteria For Assessing Goodness Of Fit
Criterion
DF
Value
Value/DF
Deviance
132
189.1953
1.4333
Scaled Deviance
132
132.0000
1.0000
Pearson Chi-Square
132
186.8733
1.4157
Scaled Pearson X2
132
130.3799
0.9877
Log Likelihood
16107.6854
LR Statistics For Type 1 Analysis
2*Log
Source
Likelihood
Intercept
45598.5488
HUM
ChiNum DF
Den DF
F Value
Pr > F
Square
Pr > ChiSq
45632.0141
5
132
4.67
0.0006
23.35
0.0003
coton
46097.8166
10
132
32.50
<.0001
324.99
<.0001
HUM*coton
46174.2179
50
132
1.07
0.3789
53.30
0.3483
LR Statistics For Type 3 Analysis
ChiSource
Num DF
Den DF
F Value
Pr > F
Square
Pr > ChiSq
5
132
4.22
0.0014
0.00
1.0000
coton
10
132
1.94
0.0454
0.00
1.0000
HUM*coton
50
132
0.23
1.0000
0.00
1.0000
HUM
Sur cet exemple, les résultats sont incohérents : les statistiques de type 3 ne sont pas égales à celle de type 1
pour l’interaction hum*coton, alors que cet effet figure en dernier dans le modèle. De plus, la log-vraisemblance
après introduction de ce dernier terme ne correspond pas à celle listée dans la rubrique "Goodness of Fit". Le dé198
Modèle log-linéaire pour les données de comptage (Gozé, É.)
faut est éliminé à partir de la version 9 de Sas (source http://support.sas.com/techsup/unotes/SN/012/012578.html).
Cette erreur se produit avec l’option /dist=negbin, pas avec /dist=poisson. Pour l’éviter, on peut reprogrammer la déviance de la loi binomiale négative. La valeur de k est maintenant fixée à la valeur estimée
précédemment par maximum de vraisemblance, soit 1/k = 0.015588 1 .
/* Reprogrammation de la loi binomiale négative
*/
/* celle préprogrammée donnant des résultats incohérents */
ods exclude obstats;
ods output obstats=prednegbin0;
proc genmod data=hum;
class hum coton;
a = _MEAN_;
y = _RESP_;
k = 1/0.015588 ; /* valeur estimée par max de vraisemblance sur ce jeu de données */
d = 2 * ( (y * log(y/a)) + ( (y+k)*log( (k+a)/(k+y) ) ) );
VARIANCE var = a + (a*a/k);
DEVIANCE dev = d;
model col=hum coton hum*coton/type1 type3 dscale link=log obstats;
run;
On retrouve la même déviance qu’auparavant, mais cette fois-ci, le test du dernier effet est bien cohérent entre
le type 1 et le type 3; il montre l’absence d’interaction coton × humidité (P=0,1711). Dans l’échelle logarithme,
l’humidité a bien un effet additif sur l’espérance de la mesure du collage, comme on l’avait supposé au départ.
Bien que le plan d’expérience soit complet et équilibré, les tests de type 1 ne sont pas les mêmes que ceux
de type 3 pour les effets simples , alors qu’ils seraient les mêmes en analyse de variance. Cela découle du fait
qu’on a attribué à chaque observation un poids différent, étant donné que chaque observation a une variance
différente dans l’échelle logarithme.
LR Statistics For Type 1 Analysis
ChiSource
Deviance
Num DF
Den DF
F Value
1. On peut vérifier que cette valeur maximise bien la vraisemblance
199
Pr > F
Square
Pr > ChiSq
Modèle log-linéaire pour les données de comptage (Gozé, É.)
Intercept
3762.2310
HUM
3171.3018
5
132
82.46
<.0001
412.29
<.0001
coton
277.7944
10
132
201.88
<.0001
2018.79
<.0001
HUM*coton
189.1937
50
132
1.24
0.1711
61.82
0.1220
LR Statistics For Type 3 Analysis
ChiSource
Num DF
Den DF
F Value
Pr > F
Square
Pr > ChiSq
5
132
48.61
<.0001
243.04
<.0001
coton
10
132
189.59
<.0001
1895.87
<.0001
HUM*coton
50
132
1.24
0.1711
61.82
0.1220
HUM
Nous avons besoin d’éliminer le terme d’interaction pour estimer les effets simples, afin de déterminer quelle
est l’humidité optimale pour le comptage. Voici alors un extrait de la liste des paramètres.
Standard
Wald 95% Confidence
Limits
Parameter
DF
Estimate
Error
Intercept
1
2.8593
0.0845
2.6937
3.0249
HUM
35%
1
-0.0438
0.0802
-0.2009
0.1133
HUM
35%+E
1
0.7968
0.0732
0.6534
0.9402
HUM
45%
1
0.4297
0.0758
0.2811
0.5782
HUM
55%
1
0.8308
0.0731
0.6875
0.9741
HUM
65%
1
0.8640
0.0730
0.7209
1.0072
HUM
75%
0
0.0000
0.0000
0.0000
0.0000
coton
1
1
-0.8721
0.1083
-1.0844
-0.6598
coton
2
1
-0.4792
0.1004
-0.6760
-0.2823
coton
3
1
0.8635
0.0867
0.6935
1.0335
coton
4
1
-0.5167
0.1010
-0.7147
-0.3186
coton
5
1
1.4698
0.0843
1.3045
1.6351
coton
6
1
0.4006
0.0898
0.2245
0.5766
200
Modèle log-linéaire pour les données de comptage (Gozé, É.)
coton
7
1
-0.4499
0.1000
-0.6458
-0.2540
coton
8
1
0.0466
0.0933
-0.1362
0.2294
coton
9
1
0.2996
0.0907
0.1219
0.4774
coton
10
1
-2.0455
0.1516
-2.3425
-1.7484
coton
11
0
0.0000
0.0000
0.0000
0.0000
1
0.0340
0.0073
0.0223
0.0518
Dispersion
NOTE: The covariance matrix was multiplied by a factor of DEVIANCE/DOF.
Ce tableau se lit de la façon suivante : l’humidité 75% sert de référence (son paramètre est nul). Par rapport à cette référence, le fait de mesurer le collage à 65% d’humidité augmente de 0,8640 le logarithme de
l’espérance du comptage. Autrement dit, en moyenne, le nombre de points collants mesuré est multiplié par
exp(0,8640)=2,37. Le maximum d’espérance est obtenu entre 55% et 65% d’humidité. Compte tenu des écarttypes d’estimation de ces paramètres, l’enceinte à conditionner ne donne pas de résultats significativement
différents de ces maxima.
7
Discussion
La loi de probabilité des comptages est plus dispersée que la loi de Poisson, ce qui montre que les points
collants ne sont pas répartis indépendamment au hasard avec une densité constante. La loi n’est pas, comme la
loi de Neyman type A, de surdispersion constante par rapport à la loi de Poisson. Ce n’est pas non plus une loi
binomiale négative, mais une loi d’expression analytique inconnue. Une surdispersion constante par rapport à
la loi binomiale négative donne un ajustement acceptable.
Une autre étude menée plus tard avec un appareil automatisé a consisté à homogénéiser artificiellement des
cotons. Elle a montré que se superposaient deux sortes d’hétérogénéité qui peuvent correspondre aux types
décrits en introduction: on aurait en fait addition entre une première surdispersion constante et une deuxième
identique à celle de la loi binomiale négative.
Que le lecteur se rassure, le choix de la loi de probabilité n’était pas d’une grande importance dans cet exemple,
dès l’instant qu’une surdispersion était prise en compte. En effet, l’ajustement d’un modèle log-linéaire avec
surdispersion constante par rapport à la loi de Poisson donnait des résultats très proches de ceux qu’on a pu
montrer ici.
201
Modèle log-linéaire pour les données de comptage (Gozé, É.)
8
Conclusion
La variance de la loi des comptages étant un peu plus que proportionnelle à son espérance, la meilleure précision
relative est atteinte en maximisant son espérance, c’est à dire en réalisant la révélation la plus complète possible
des points collants. Les meilleures conditions de mesure du potentiel collant sont donc celles qui donnent l’espérance la plus élevée, soit 55 à 65% d’humidité 2 . L’enceinte à conditionner donne des mesures équivalentes.
Ce résultat n’aurait pas pu être obtenu par analyse de variance, même après transformation de variable.
2. une expérience ultérieure a montré que les comptages étaient insensibles à l’humidité dans cet intervalle
202
Index
Ajustement, voir Qualité d’ajustement
Les différents types, 78
Akaike, voir Critère d’Akaike
Estimation, 47
Maximum de vraisemblance, 49, 52
Classement, voir Qualité de classement
Etape DATA, 132
Coefficient R2 , 145, 146
Cote, voir Odds
Fonction de lien, 35, voir Transformations
Courbe ROC, 156, 157
Définition, 34
Critère
Goodness of Fit, voir Qualité d’ajustement
d’Akaike, 139
de Schwarz, 139, 140
Hétérogénéité
Déviance, 54, 55, 85, 103, 148, 149, 159, 160
dispersion (paramètre), 89
Analyse de la déviance, 55
sous-dispersion, 89
de type 1, 59
sur-dispersion, 89
résiduelle, 56
Hosmer, voir Test de Hosmer et Lemeshow
totale, 56
Intervalle de confiance, 79–82, 86, 87, 105, 106
DATA, voir Etape DATA
Discrimination, 62
Lemeshow, voir Test de Hosmer et Lemeshow
Données
Logit, 86, 89, 95, 96, 104, 105
agrégées, 30, 84, 90
logit cumulé, 108
binaires, 72, 90
Lois
Données ((carcasses)), 22, 32, 42, 110, 111
Bernoulli, 27
Données ((comportement clients)), 23, 33, 47
binomiale, 30, 70
Données ((gras coloré)), 31
de Poisson, 33
Données ((mineurs)), 44
intensité, 33
Données ((promesse d’achat)), 20, 27, 29, 38,
hypergéométrique, 72
60, 64
Loi conditionnelle, 18
Données ((tournesol)), 21, 30, 54, 56, 57, 59, 62
multinomiale, 113
groupées, 30
normale, 71
Enquêtes
Lsmeans, voir Moyennes ajustées
203
Index
LOGISTIC, 130–135, 137, 138, 141, 142, 144–
Modèle Linéaire Généralisé, 17, 20, 35, 36, 48, 52,
147, 149, 152–154, 156, 158, 159
61, 107
instruction CLASS, 132
Modèles
additif, 78
instruction FORMAT, 132, 144
analyse de la variance, 26
instruction UNITS, 144
log-linéaire, 46
option CLODDS, 144
logistique, 68, 83–85, 100, 106
option CTABLE, 144
à risques adjacents, 43
option DESCENDING, 132, 144
à risques proportionnels, 45
option DETAILS, 132
cumulatif, 43
option INFLUENCE, 144
multinomial, 42
option IPLOTS, 144, 163
séquentiel, 43
option LACKFIT, 144
Logit, 37
option OUTROC, 144, 156
modèle complet, 54
option PEVENT, 144
modèle nul, 54
option RSQUARE, 144
modèle saturé, 54
option SELECTION, 132
Modèle statistique, 18, 34
option SLENTRY, 132
multiplicatif, 78
option SLSTAY, 132
Probit, 40
Qualité
régression linéaire, 26
d’ajustement, 88
sous-modèle, 57
d’ajustement, 140, 145, 146, 148–150
Moyennes ajustées, 104, 105
de classement, 151, 152, 154–156
intervalle de confiance, 105
R2 , voir Coefficient R2
Overdispersion, voir sur-dispersion
Régression stepwise, 59, 131, 133, 134, 142
Prédicteur, 34, 35
Résidus, 61
linéaire, 34, 35
de la déviance, 62
Procédures
Rapport
FORMAT, 132
de cotes, voir Odds ratio
instruction INVALUE, 132
des vraisemblances, voir Test du rapport des
vraisemblances
instruction VALUE, 132
Risques (mesures)
FREQ, 68, 69, 72, 74, 81, 82, 85, 87, 90, 98,
103
Cote, 37
GENMOD, 68, 83, 84
logodds, 37
GPLOT, 156, 157
odds, 37, 77, 141
204
Test de Breslow-Day, 96, 97, 99
odds ratio, 39, 77, 78, 80, 81, 83, 86, 87, 95,
108, 141, 147
Test de Paul et Donner, 98, 99, 103
intervalle de confiance, 82, 87
Tests de comparaison de modèles emboîtés, 57
odds ratio ajusté, 98, 99, 106
Type1, 85
odds ratio de Mantel-Haenszel, 95
type3, 104
odds ratio partiels, 96, 102, 106
Wald, 86–88
variance, 80, 87
Transformations, 106
rapport des cotes, voir odds ratio
Logit, 37
risque en excès, 76, 78, 79
Probit, 37
intervalle de confiance, 79
Underdispersion, voir sous-dispersion
variance, 79
risque relatif, 76, 78, 79
Variables
intervalle de confiance, 81
à expliquer, 18
variance, 79
à prédire, 18
ROC, voir Courbe ROC
covariable, 25
Schwarz, voir Critère de Schwarz
Définition, 17
Score, voir Test du score
de comptage, 33, 46
Stepwise, voir Régression stepwise
endogènes, 18
exogènes, 18
Tableau de contingence, 110
explicatives, 18
Tests
facteur, 25
Asymptotiques, 70, 72, 74
facteur de confusion, 68
Chi-deux, 136, 137, 146, 148–150, 159, 160
nominale, 25, 42, 108, 110
Chi-deux avec correction de continuité, 72
ordinale, 25, 43, 68, 108
Chi-deux de Pearson, 70, 73, 89
prédictrices, 18
de comparison de modèles emboîtés, 53
qualitative, 110
de Hosmer et Lemeshow, 148–150
modalités, 25
de validité d’un modèle, 53
niveaux, 25
de Wald, 134, 135, 138, 139, 141
quantitative
du score, 134, 138, 139
continue, 24
Fisher, 71, 74
discrète, 25
Mantel-Haenszel, 72
réponse, 18
Rapport des vraisemblances, 55, 72, 138
Type, 18, 24
Test usuel, 70, 72
Vraisemblance, 48, voir Test du rapport des vrai-
Tests d’interaction
semblances
205
Index
Wald, voir Test de Wald
206
Bibliographie
Bibliographie
[1] Agresti A. (1990) : Categorical Data Analysis, Wiley, New-York.
[2] Agresti, A. (1996) An Introduction to Categorical Data Analysis, Wiley, New York.
[3] Albourie, J.M., Tourvieille, J., Tourvieille de Labrouhe, D. (1998) "Resistance to metalaxyl in isolates of
the sunflower pathogen Plasmopara halstedii". Europ. J. Plant Pathol. 104, 235-242
[4] Allison P.D. (1999) : Logistic Regression Using the SASr System: Theory and application, SAS Institute
Inc., Cary, NC, USA.
[5] Bouyer J. et al. (1993) : Epidémiologie : Principes et méthodes quantitatives, Les Editions INSERM.
[6] Breslow NE, Day NE (1980) : "Statistical Methods in Cancer Research. Volume 1. The Analysis of CaseControl Studies. "The Analysis of Case-Control Studies. IARC Scientific Publication No 32, International
Agency for Research on Cancer, Lyon.
[7] Cleveland, W.S., Grosse, E., and Shyu, W.M. (1992) : "Local regression models". In Chambers, J.M.
and Hastie, T.J., editors, Statistical models in S, pages 309-376. Wadsworth and Brooks, Pacific Grove,
California
[8] Collett D. (1999) : Modelling Binary data, Chapman \& Hall/CRC
[9] Cook, R. D. and Weisberg, S. (1982) : Residuals and Influence in Regression. Chapman and Hall, New
York.
207
[10] Cox D.R. et Snell E.J. (1989) : Analysis of Binary Data , 2nd edition,Chapman \& Hall, London
[11] Cox, C. (1996) : "Nonlinear quasi-likelihood models: applications to continuous proportions". Computational Statistics & Data Analysis 21, pp 449-461.
[12] Diggle, P.J., 2003, “Statistical Analysis of Spatial Point Patterns, 2nd ed.” Arnold, London (GB) 159 p.
[13] Dobson, A.J. (1990) : An introduction to generalized linear models. Chapman & Hall.
[14] FPStat (2002) : Plan pour la formation à la statistique. Document du département Biométrie et Intelligence
Artificielle de l’INRA. www.inra.fr/bia/T/FPstat/.
[15] Glejser, H., 1969, “A New Test for Heteroskedasticity,” Journal of the American Statistical Association,
64, 316-323.
[16] Grenet N. (1999) : "Etude de l’origine alimentaire et caractérisation des défauts de tenue et de couleur des
gras d’agneaux. Rapport final du projet de recherche "Agriculture Demain" n° 95 G 0109. Compte rendu
n° 9993215
[17] Hosmer D. W. et Lemeshow S. (1989) : Applied Logistic Regression, Wiley, New-York.
[18] Jammal A., Allard R., Loslier G. (1988) : Dictionnaire d’Epidémiologie, Maloine S.A. 27, rue de l’école
de médecine - 75006 Paris (France)
[19] Johnson, N.L., Kotz, S., Kemp, A.W., 1992, “Univariate Discrete Distributions, 2nd ed.” Wiley, N.Y.
(USA) 565 p.
[20] Jones MP, O’Gorman TW, Lemke JH, Woolson RF (1989) : "A Monte Carlo investigation of homogeneity
tests of the odds ratio under various sample size configurations". Biometrics 45, 171-181
[21] Katz D., Baptista J., Azen S.P., Pike M.C. (1978) : "Obtaining confidence intervals for the risk ratio in
cohort studies" Biometrics 54, 469-474
[22] Mantel N. et Haenszel W. (1959) : "Statistical aspects of the analysis of data from retrospective studies of
disease" Journal of the National cancer Institute 22, 719-748
208
Bibliographie
[23] McCullagh P. et Nelder J.A. (1989) : Generalized Linear Models 2nd edition, Chapman & Hall, London
[24] Nagelkerke N. J .D. (1991) : "A Note on a General Definition of the Coefficient of Determination" Biometrika, 78, 691-692.
[25] Paul SR, Donner A. (1989) : "A comparison of tests of homogeneity of oddds ratios in k 2 x 2 tables." Stat
Med 8, 1455-1468
[26] SAS Institute Inc. (1999) : SASr Procedures Guide, Version 8, Volumes 1 and 2, SAS Institute Inc., Cary,
NC, USA.
[27] SAS Institute Inc. (1999) : SASr Language Reference: Dictionary, Version 8, Volumes 1 and 2, SAS
Institute Inc., Cary, NC, USA.
[28] SAS Institute Inc. (1999) : SAS/GRAPHr Software: Reference, Version 8, Volumes 1 and 2, SAS Institute
Inc., Cary, NC, USA.
[29] SAS Institute Inc. (1999) - SAS/STATr User’s Guide, Version 8, Volumes 1, 2 and 3, SAS Institute Inc.,
Cary, NC, USA.
[30] Wald A. (1943) : "Tests of statistical hypothesis concerning several parameters when the number of observations is large" Trans. Amer. Math. Soc 54: 426-482
[31] Wedderburn, R.W.M. (1974) : "Quasi-likelihood functions, generalized linear models and the GaussNewton method." Biometrika 61, pp 439-447.
[32] Woolf B. (1955) : "On estimating the relationshipn between blood group and disease" Am. Human Gen.
19: 251-253
209
Téléchargement