Régression logistique et modèle de Cox

publicité
Paris, SRLF Janvier 2009
Régression logistique et
modèle de Cox
Jean-François TIMSIT
Réanimation médicale
INSERM/UJF U823
CHU Albert Michallon
Grenoble
• 747 patients ventilés plus de 48 heures
• 153 au moins une PNVM
• Question:
– Parmi les variables age, sexe, utilisation de
cephalosporines dans les 48 premières heures
de VM lesquels sont des facteurs de risque de
PNVM??
Outcomes of VAP • CID 2004:38 (15 May) • 14
Les variables
•
•
•
•
•
•
DSREA: durée de séjour en réanimation
SEXMASC: sexe masculin
Age (année)
PN (0/1)
EOP/LOP (<7 j, >=7jours)
CEPHALO48: utilisation de céphalosporines dans
les 48 premières heures de séjour
Variable
: AGE
=
=
=
=
=
=
=
=
=
=
=
747
16,5257
100,0000
65,3941
64,3005 to 66,4878
68,7817
67,1589 to 69,7324
231,5221
15,2158
0,2327 (23,27%)
0,5571
Coefficient of Skewness
Coefficient of Kurtosis
=
=
-0,7248 (P<0,0001)
0,0229 (P=0,8308)
:
reject Normality (P<0,001)
95% Confidence Interval
27,5104 to 32,9601
250
32,1306 to 38,4000
40,3694 to 44,8183
53,6353 to 58,6242
200
75,5473 to 77,2365
80,5334 to 84,2325
150
84,7553 to 87,5371
87,1381 to 90,4577
Kolmogorov-Smirnov test
for Normal distribution
Percentiles
2,5
=
30,3368
5
=
34,7625
10
=
42,3387
25
=
56,4435
75
=
76,5914
90
=
82,3691
95
=
86,1684
97,5
=
88,6290
Frequency
Sample size
Lowest value
Highest value
Arithmetic mean
95% CI for the mean
Median
95% CI for the median
Variance
Standard deviation
Relative standard deviation
Standard error of the mean
100
50
0
0
10
20
30
40
50
AGE
60
70
80
90
100
Variable DS rea
Variable
: DSREA
350
=
=
=
=
=
=
=
=
=
=
=
747
2,0000
111,0000
16,4712
15,2883 to 17,6541
11,0000
10,0000 to 12,0000
271,2147
16,4686
0,9998 (99,98%)
0,6026
Coefficient of Skewness
Coefficient of Kurtosis
=
=
2,2130 (P<0,0001)
6,0827 (P<0,0001)
Frequency
Sample size
Lowest value
Highest value
Arithmetic mean
95% CI for the mean
Median
95% CI for the median
Variance
Standard deviation
Relative standard deviation
Standard error of the mean
300
250
200
150
100
50
0
0
10
20
30
40
50
60
dsrea
Kolmogorov-Smirnov test
for Normal distribution
(P<0,001)
Percentiles
2,5
=
5
=
10
=
25
=
75
=
90
=
95
=
97,5
=
2,0000
3,0000
3,0000
6,0000
21,0000
37,8000
51,1500
62,8250
:
reject Normality
95% Confidence Interval
2,0000 to 2,0000
2,0000 to 3,0000
3,0000 to 4,0000
5,0000 to 6,0000
19,0000 to 23,0000
33,0000 to 44,0000
45,0000 to 58,0000
57,0000 to 71,0353
70
80
90
100
110
120
Vous souhaitez présenter une première table avec les données des
groupes (avec et sans pneumonies): quels caractéristiques allez vous
garder pour l’age et la durée de séjour?
Moyenne (SD) pour les deux
Moyenne (SD) pour age et médiane (IQR) pour la DS
Moyenne (SD) pour DS et médiane (IQR) pour l’age
Médiane (IQR) pour les deux
Les deux
Comparaison age/PNobs
Test t de student
Sample 1
Variable : age
Select : pnobs=0
Sample size
=
594
Arithmetic mean
=
65,1734
95% CI for the mean
=
63,9445 to 66,4023
Standard deviation
=
15,2496
Standard error of the mean =
0,6257
-----------------------------------------------------------Sample 2
Variable : AGE
Select : pnobs=1
Sample size
=
153
Arithmetic mean
=
69,0523
95% CI for the mean
=
67,0019 to 71,1027
Standard deviation
=
12,8369
Standard error of the mean =
1,0378
-----------------------------------------------------------Independent samples t-test
F-test for equal variances P = 0,010
T-test (assuming equal variances)
Difference
= 3,8789
95% CI of difference
= 1,2466 to 6,5111
Test statistic t
= 2,893
Degrees of Freedom (DF)
= 745
Two-tailed probability P = 0,0039
Test de Mann Whitney
Sample 1
Variable : AGE
Select : pnobs=0
Sample size
=
594
Lowest value
=
17,0000
Highest value
=
93,0000
Median
=
69,0000
95% CI for the median
=
67,0000 to 70,0000
---------------------------------------------------------Sample 2
Variable : age
Select : pnobs=1
Sample size
=
153
Lowest value
=
25,0000
Highest value
=
100,0000
Median
=
70,0000
95% CI for the median
=
68,0000 to 73,0000
---------------------------------------------------------Mann-Whitney test (independent samples)
Average rank of first group = 364,4537
Average rank of second group = 411,0621
Large sample test statistic Z = 2,382441
Two-tailed probability P = 0,0172
Vous voulez comparer l’age en
fonction de PNVM
• Votre logiciel vous propose 2 tests et 2
sorties laquelle choisissez vous et pourquoi?
1.
2.
3.
4.
5.
Test t de Student car c’est le plus puissant
Test de Kruskal Wallis car c’est le plus puissant
Test t de Student car les effectifs sont supérieurs à 30
Test de Kruskal Wallis, car la normalité n’est pas vérifiée
Je sais pas
L’analyse univariée est jointe vous souhaitez
réaliser une analyse multivariée:
PNVM=0
PNVM=1
p
Age
69 (56-77)
70 (63-77)
0.017
SAPS II
50 (38-63)
48 (39-57)
0,14
Sexe masc.
352 (59%)
114 (75%)
0.0005
Cefalo48
136 (23%)
27 (18%)
0.16
Homme
Femme
PNVM
A=114
B=39
NON
C=352
D=242
OR=2.01
?
L’Odds ratio est :
1
Très proche du risque relatif
2
La probabilité de PNVM si homme sur la probabilité
de PNVM globale
3
La probabilité d’absence de PNVM si homme rapportée à la
probabilité d’absence de PNVM si femmes
4
La probabilité de PNVM si homme sur la probabilité de
PNVM si femme
5
Aucune des affirmations n’est vraie
Homme
Femme
PNVM
A=114
B=39
NON
C=352
D=242
Le risque relatif (RR) de PNVM est égal à la
probabilité de PNVM si homme rapportée à la
probabilité de PNVM si femme
RR=(A/A+C)/(B/B+D)=(114/466)/(39/281)= 1.71
L’odds ratio (0R) de décès est égal au rapport des
cotes X et Y
X=(proba de PNVM/homme)/(proba de pas de PNVM
/homme)
Y=(proba de PNVM/femme)/(proba de PNVM /femme)
OR=X/Y= (A/C)/(B/D)=AD/BC= 2.01
L’OR n’est proche du RR
que si le risque mesuré est très petit +++++
Adjustement using a magic
« multivariate model »
y
z
Truth universe in
your sample
x
Adjustement using a magic
« multivariate model »
y
z
x
Adjustement using a magic
« multivariate model »
y
z
x
Adjustement using a magic
« multivariate model »
y
z
x
Adjustement using a magic
« multivariate model »
y
z
x
Adjustement using a magic
« multivariate model »
y
z
Model using interactions and polynomes…
x
Validation using external samples
y
z
Other representative
sample of the truth
universe
x
Messages
• As many possible models as individuals (even
more!!)
• Parcimony decreases model discrimination but
improves external validity
 the statistical analyses should be precisely designed a
priori
 Primary and secondary analyses should be precisely
planned
Rules for multivariate models
• Select the model according to the end point
• Check for its hypotheses
• The explanatory variables should be
– Precisely defined
– Not related one to another
– Sufficiently frequent in both groups (problem
with perfect or quasi perfect discrimination)
L’analyse univariée est jointe vous souhaitez
réaliser une analyse multivariée:
PNVM=0
PNVM=1
p
Age
69 (56-77)
70 (63-77)
0.017
SAPS II
50 (38-63)
48 (39-57)
0,14
Sexe masc.
352 (59%)
114 (75%)
0.0005
Cefalo48
136 (23%)
27 (18%)
0.16
Que pensez vous de l’inclusion dans le
modèle de l’age et du SAPSII?
C’est logique
C’est illogique puisque le SAPS est NS
(comme cephalo)
C’est illogique puisque le SAPS comprend l’age
J’sais pas?
Utilisation de variables dans un
modele
• Dans un but exploratoire: (facteur de risque de quelque
chose), il vaut mieux utiliser des modèles « parcimonieux »
– Sélectionner des covariables associées avec la variable à expliquer
au seuil 0.05 voir 0.01 si vous testez beaucoup de variables ou
beaucoup de sujets
• Dans un but de prédiction, il vaut mieux introduire
largement les variables explicatives
– Covariables avec p<0.1 voir 0.20
– Variables retrouvées dans la littérature comme pronostique
– Procédure de sélection des variables: attention aux logiciels,
attention aux variables colinéaires
Vous choisissez une régression
logistique (une réponse fausse)
Ce modèle permet d’expliquer une variable binaire
(0/1) avec des variables qualitatives?
Ce modèle permet d’expliquer une variable binaire
(0/1) avec des variables quantitatives?
Ce modèle ne fait pas d’hypothèse sur la normalité des
variables explicatives
Ce modèle ne tient pas compte de la durée d’exposition
au risque
Ce modèle ne fait aucune hypothèse
Paramètre
Intercept
AGE
Analyse des estimations du maximum de vraisemblance
Erreur
Khi 2
DF
Estimation
std
de Wald
Pr >Khi2
1
1
-2.6357
0.0190
0.4629
0.00664
32.4281
8.2315
<.0001
0.0041
Estimations des rapports de cotes
Effet
Point
Estimate
95% Limites de confiance
de Wald
AGE
1.019
1.006
1.033
Association des probabilités prédites et des réponses observées
Percent Concordant
Percent Discordant
Percent Tied
Pairs
55.6
43.0
1.4
90882
Somers' D
Gamma
Tau-a
c
0.126
0.128
0.041
0.563
Age OR= 1.019 (1.006-1.033); p=0.0041
Age OR= 1.019 (1.006-1.033); p=0.0041
Que veux dire l’odds ratio pour l’age?
•
•
•
•
C’est l’ OR de PNVM entre les plus agés et les moins
agés
Ca veux rien dire??? J’ai appuyé sur les mauvaises
touches
c’est l’augmentation du risque par année: si l’age
augmente de 10 ans, l’OR est de 10.2 (10 X 1.02)
c’est l’augmentation du risque par année: si l’age
augmente de 10 ans, l’OR est de 1.22
?
Modèle logistique
Log (p/1-p)
pY
• Modèle de régression linéaire
– Y=  + X
– X est une variable quantitative ou discrète
– La variable à expliquer va de 0 à l’infini

0
• Comment expliquer une variable binaire avec un modèle de
régression?  Modèle logistique
– On transforme la variable de façon à avoir une réponse [0-1]
– Notion de Logit: Log (p/1-p)
– On a toujours: Probabilité p [0-1] alors que logit [-, + ]
– Log (p/1-p)) =  + X
– p= exp ( + X)/ (1+ exp( + X))
(ici p=proba (DC) varie de 0 à 1)
X
P PNVM x1  1 
1
exp  0  1 
1
P PNVM x1  0  
exp  0 
OR 
P E D 
1  P E D 

PED


1 P E D


P D E 
1  P D E 

P DE


1 P D E


logit P x1  1
logit P x1  0 
 exp 1 
où E = {X1=1} par exemple sexe masculin = OUI
et D = {événement}
Dans le modèle logistique, le coefficient de la régression est le logarithme de
l’odds ratio mesurant l ’association entre le test diagnostique et la maladie
Variables continues
PNVM x1n
POAP
1
exp01*n
PNVM x10
POAP
1
exp0 
PE D
PD E 
1PE D 1PD E  logit P x11n)
OR


exp1*n exp( 1)n
logit P x10
P ED
P DE
1P E D 1P D E








où E = {X1=n} par exemple rales crépitants = OUI
et D = {événement}
Dans le modèle logistique, le coefficient de la régression est le logarithme de
l’odds ratio mesurant l ’association entre le test diagnostique et la maladie
Pour les variables quantitatives il mesure l’OR d’une élévation de 1.
Catégorisation des variables
continues
Variables continues dans un modèle logistique
6
5
4
inf
0R
sup
3
2
1
0
age<56
56-69
69-77
>77
Age et PAVM: OR= 1.0310, p<10-4
Avant d’introduire une variable continue dans un modèle toujours regarder la
loglinéarité de cette variable+++
Choix des cut-points
• A déterminer a priori +++
– Sinon ils deviennent complétement dépendants de l’échantillon et
– surestiment systématiquement les résultats  validation externe
+++
– Risquent de conclure à tort à la significativité de la variable
• En fonction d’un seuil de la littérature ou en fonction de la
médiane
– La notion de cut-point est tout à fait non réaliste si age=54,43
ans!!!
• En 3 ou 4 ou 5 ou En fonction des quartiles de la
population
• En fonction des quartiles de survenue d’évènements
Altman DG Br J Cancer 1991; 64:975
On fait « tourner » le modèle
Propriétés du modèle logistique
• Calibration:
P(DC)
DC prédits (%)
Chi 2 de Hosmer Lemeshow: On coupe en 10
tranches d ’effectifs
identiques
On compare proba observés
et proba calculés pour
chaque tranche par un test
du Chi 2 (à 8 ddl)
SAPSII
DC observés (%)
Se
•
Discrimination
Capacité de p à séparer
pour un seuil donné les DCD
et les VV.
Courbes ROC: Construire
courbes Se / 1-Sp en faisant
varier le seuil de positivité
1
d






AUC

1-Sp
Calibration du modele
100%
90%
Probabilité prédite
80%
70%
60%
50%
40%
30%
20%
10%
0%
0%
10%
20%
30%
40%
50%
60%
70%
Probabilité observée
Test d'adéquation d'Hosmer et de Lemeshow
Khi 2
1.0645
DF
Pr > Khi 2
4
0.8999
80%
90%
100%
Courbe ROC
1
0,9
0,8
Sensibilité
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
1-spécificité
AUC-ROC=C statistique= 0.633
0,9
1
Variable DS rea
Variable
: DSREA
350
=
=
=
=
=
=
=
=
=
=
=
747
2,0000
111,0000
16,4712
15,2883 to 17,6541
11,0000
10,0000 to 12,0000
271,2147
16,4686
0,9998 (99,98%)
0,6026
Coefficient of Skewness
Coefficient of Kurtosis
=
=
2,2130 (P<0,0001)
6,0827 (P<0,0001)
Frequency
Sample size
Lowest value
Highest value
Arithmetic mean
95% CI for the mean
Median
95% CI for the median
Variance
Standard deviation
Relative standard deviation
Standard error of the mean
300
250
200
150
100
50
0
0
10
20
30
40
50
60
dsrea
Kolmogorov-Smirnov test
for Normal distribution
(P<0,001)
Percentiles
2,5
=
5
=
10
=
25
=
75
=
90
=
95
=
97,5
=
2,0000
3,0000
3,0000
6,0000
21,0000
37,8000
51,1500
62,8250
:
reject Normality
95% Confidence Interval
2,0000 to 2,0000
2,0000 to 3,0000
3,0000 to 4,0000
5,0000 to 6,0000
19,0000 to 23,0000
33,0000 to 44,0000
45,0000 to 58,0000
57,0000 to 71,0353
70
80
90
100
110
120
La durée de séjour est très différente entre
PNVM et les autres
PNVM=0
PNVM=1
p
Age
69 (56-77)
70 (63-77)
0.017
SAPS II
50 (38-63)
48 (39-57)
0,14
Sexe masc.
352 (59%)
114 (75%)
0.0005
Cefalo48
136 (23%)
27 (18%)
0.16
DS réa
9 (5-17)
22 (13-38)
<0.0001
La date de début de suivi
Est fixé à la date de ventilation mécanique
Est situé après 24 heures car le SAPS doit être
mesurable avant le début du suivi
Est situé à la 48eme heure car toutes les variables
doivent être mesurables avant
Est situé à l’acquisition de la PNVM (chez les
PNVM +)
Je ne sais pas
VI-PN=1
VI-PN=0
VNI-PN=1
VNI-PN=0
Intub.
VNI échec-PN=0
Intub.
VNI echec -PN=1
VNI
T=adm
Temps
Biais du temps passé (lead-time biais)
• Toutes les covariables fixes doivent être
mesurable à l’ensemble des temps de suivi
J3
Données censurées
PN
1
DC
2
DC
PN
3
DC
PN VV
4
5
6
VV
VV
J30
t
Principe des modèles pour
données censurées
Et Zi (0 +  1Age 56 +  2Sexe +  3cefalo48)
Hazard ratio et risque relatif
h
h
Le HR est le rapport des risques instantané en présence de
l’exposition et en son absence. Comme la prévalence de
l’événement à un instant t est petit c’est très proche du RR
Les patients sont censurés à la
sortie de réanimation ou à J30…
• C’est bien, car la censure n’est pas informative
• Peu importe le modèle ne fait aucune hypothèse
sur la censure
• Cela peu poser un problème de censure informative
• Cela est délétère puisque l’on ne tient pas compte
des durées de séjours longues et des PNVM très
tardives
• J’sais pas
Censure non informative
• Hypothèse de tous les modèles de survie++++
• Hypothèse que si un individu i est censuré au
temps t son risque d’événement au temps t+1 est
identique à celui des individus encore exposés au
temps t+1 ++++
• Censure, fixée à priori, non dépendant de l ’état du
patient au temps t…..
 Intérêt des modèles à risques compétitifs
 Cox
Vous pensez que l’utilisation de céphalosporine dans les 48
premières heures protègent de la PNVM, au moins précoce,
Cela va à l’encontre de la litérature..votre modèle…
Votre modèle (une réponse fausse)
1.
2.
3.
4.
5.
Est faux
Est juste…l’échantillon n’est pas représentatif des
populations explorées précédemment
Est juste, il faudra discuter ce résultat à partir d’autres
papiers cliniques
Ca ne s’applique que si la PNVM est précoce…ici le
risque mesuré est un risque global
Il y a peut être un problème de proportionnalité des
risques
Hypothèses des risques
proportionnels
Le risque de survenue d’une pneumonie nosocomiale à un
temps t est plus grand si l’age est > 57 ans, chez les hommes.
L’utilisation de céphalosporines dans les 48 premières heures
protège de la PNVM précoce mais ne protège pas de la PNVM
tardive (voire même l’augmente un peu)
Interactions
• Votre modèle suppose qu’il y a indépendance entre les
variables explicatives
• On doit aussi tester l’interaction entre les
covariables dans l’explication de l’effet
•  on crée des variables
– inter1=age56*sexe,inter2=age56*sexe;inter3=sexe*cefalo48;inter
4=age56*sexe*cefalo48;
Modèle logistique ou Cox: check list
• Choix du modèle
– censuré si temps d’exposition très variable et censure à priori non informative
• Choix de variables
–
–
–
–
non colinéaires (ou pas trop)
Pas de données manquantes
Bonne reproductibilité
Si quantitatif: log-linéarité des variables, sinon, transformation en variables
binaires (dummy) ou en classes, ne pas optimiser le seuil mais plutôt en
proportions égales
• Tester la proportionnalité des risques (Cox)
• Expliquer le mode de sélection des variables, ne pas laisser faire la machine
• Recherche des interactions entre les variables dans le modèle final (surtout si
elles sont cliniquement plausibles, définir a priori)
• Tester les propriétés du modèle (calibration et discrimination)
• Rapporter les méthodes utilisés et les étapes éventuelles…
Téléchargement