Épidémiologie étiologique prise en compte des facteurs de confusion Dr Julien Mancini [email protected] UMR1252 Sciences Economiques & Sociales de la Santé & Traitement de l’Information Médicale Faculté de Médecine de Marseille, Aix-Marseille Université Biais de confusion M E F Seul biais qui peut-être corrigé lors de l’analyse statistique stratification analyse multivariée : régression logistique 2 Stratification Exemple : enquête fictive On constate début 2004 une hausse brutale du nombre des malformations congénitales On suspecte rapidement 2 nouveaux traitements mis sur le marché en début d’année... 4 Fichier disponible 4 variables : Malformation : oui / non Age maternel Trt A (antihypertenseur) : oui / non Trt B (antalgique) : 0 / 10 / 100mg 5 Confusion ? ? Trt A Malformations Âge 6 Analyses univariées : Trt A Tableau croi sé antihypertenseur * Mal formation congénitale Trt A Risque de Malformation (p<0,001) ant ihy pert enseur non oui Tot al Ef f ec tif % dans ant ihy pert enseur Ef f ec tif % dans ant ihy pert enseur Ef f ec tif % dans ant ihy pert enseur Malf ormat ion congénit ale non oui 72 49 59, 5% 40, 5% 8 31 20, 5% 79, 5% 80 80 50, 0% 50, 0% Tot al 121 100,0% 39 100,0% 160 100,0% Tableau croisé age * antihypertenseur Prescrit chez les femmes de plus de 35 ans (p<0,001) age <35 >35 Tot al Ef f ec tif % dans age Ef f ec tif % dans age Ef f ec tif % dans age ant ihy pert enseur non oui 108 1 99, 1% ,9% 13 38 25, 5% 74, 5% 121 39 75, 6% 24, 4% Tot al 109 100,0% 51 100,0% 160 100,0% Tableau croisé age * Malformation congénitale Hors, le R de malformation est plus fréquent chez les femmes âgées (p<0,001) age <35 >35 Tot al Ef f ec tif % dans age Ef f ec tif % dans age Ef f ec tif % dans age Malf ormat ion congénit ale non oui 72 37 66, 1% 33, 9% 8 43 15, 7% 84, 3% 80 80 50, 0% 50, 0% Tot al 109 100,0% 51 100,0% 160 100,0% 7 Stratification Femmes < 35 ans : Quasi absence de prescription de A, pas d’effet Tableau croi sé antihypertenseur * Mal formation congénitale Femmes > 35 ans : Absence d’effet du traitement A (p=0,662) ant ihy pert enseur non oui Tot al Ef f ec tif % dans ant ihy pert enseur Ef f ec tif % dans ant ihy pert enseur Ef f ec tif % dans ant ihy pert enseur Malf ormat ion congénit ale non oui 71 37 65, 7% 34, 3% 1 0 100,0% ,0% 72 37 66, 1% 33, 9% Tot al 108 100,0% 1 100,0% 109 100,0% Tableau croi sé antihypertenseur * Mal formation congénitale ant ihy pert enseur non oui Tot al Ef f ec tif % dans ant ihy pert enseur Ef f ec tif % dans ant ihy pert enseur Ef f ec tif % dans ant ihy pert enseur Malf ormat ion congénit ale non oui 1 12 7, 7% 92, 3% 7 31 18, 4% 81, 6% 8 43 15, 7% 84, 3% Tot al 13 100,0% 38 100,0% 51 100,0% 8 Confusion ? Oui !!! Trt A Malformations Âge 9 Régression logistique Modèles multivariés Étudient les relations entre : 1 variable dépendante Y Et plusieurs var explicatives Xi On devrait plutôt employer le terme « multivariables » ou « multifactoriels » car une seule var. dépendante 11 Modélisation Remplace la « stratification » avantageusement dès qu’il y a plusieurs strates Suppose que la réalité soit « proche » de la modélisation Si on modélise une relation sous forme linéaire, les conclusions des analyses dépendront du bien-fondé de cette hypothèse de départ 12 Utilisation croissante (Horton NEJM 05) 13 Principaux modèles Variable dépendante Y = quantitative (normale) Régression linéaire multiple Variable dépendante Y = qualitative Binaire : Régression logistique 3 classes et + : Régression polytomique 3 classes et + ordonnées : Régression ordinale Variable dépendante Y = incidence instantanée (Données censurées (de survie)) Modèle de Cox 14 Régression logistique Très utilisée en épidémiologie Liens entre Maladie et Facteurs de risque +++ Étudie les relations entre : 1 variable expliquée Y (dépendante) binaire (0/1) Et 1 (RLog simple) ou plusieurs (Rlog multiple) var explicatives Xi Xi aussi bien qualitatives que quantitatives 15 Variable dépendante Y Le + souvent : Maladie = oui/non Toute var. binaire : Pronostic = favorable/défavorable Décès = oui/non … Toute var. quantitative dichotomisée : Hb <10 / 10 g/dl … 16 Modèle Probabilité d’être malade fonction de n différents facteurs de risque Xi : Y = P (M+ / X1, X2, …, Xn) 17 Fonction logistique P (M+ / X) = f(x) = 1 / [1+exp(-(+X)] Varie entre 0 et 1 (proba) f(x) 1 0 x 18 Fonction logit Logit(P) = Ln(Odd(P)) = Ln(P/(1-P)) Logit(P) = +X On peut écrire: Ln ([Odd(P(M+/X=x1))] / [Odd(P(M+/X= x0))]) = Ln (ORx1/x0) = (x1 - x0) Exposition E dichotomique : E1 = 1 et E0 = 0 on a : ORE1/E0 = exp() 19 Extension à plusieurs variables Modéle multiplicatif P (M+ / X1, X2, …, Xn) = 1 / [1+exp(-(+ΣiXi)] Ou : Logit(P) = + ΣiXi Exposition E (X1) dichotomique (0/1) Ln ORE = Logit P1 - Logit P0 = (++Σ1iXi) - (+Σ0iXi) = si les Xi sont fixés (i.e. Σ1=Σ0) ORE1/E0 ajusté sur X2, …, Xn = exp(1(E1 - E0)) = exp(1) 20 Estimation des paramètres et tests et estimés par la méthode du maximum de vraisemblance (V = proba d’observer l’échantillon) et qui maximisent la vraisemblance du modèle On peut alors tester les paramètres de 2 modèles emboités: H0 : OR = 1 ou = 0 Modèle 1 (V1) : Logit(P) = + 1X1 + 2X2 Modèle 2 (V2) : Logit(P) = ’ + ’1X1 + ’2X2 + ’3X3 ’3 significativement différent de 0 si V1 significativement inférieure à V2 Test : 2Ln(V1/V2) = 2Ln(V2) - 2Ln(V1) suit une loi du Chi² à 1 ddl 21 Codage des variables à k classes On doit recoder les variables à k classes en (k-1) variables binaire en 0/1 On peut ainsi interpréter les différents coefficients à partir d’une référence Codage standard (par défaut dans les logiciels de stats) : X Y1 Y2 Y3 0 0 0 0 1 1 0 0 2 0 1 0 3 0 0 1 22 Codage (E0 = ref) Modèle1 : Logit(P) = + E ORE2/E0 = exp((E2 - E0) = exp(2) = (ORE1/E0)² !!! Modèle 2 : Logit(P) = + 1X1 + 2X2 + 3X3 ORX2/X0 = exp(2(X2 - X0) = exp(2) E X1 X2 X3 0 0 0 0 1 1 0 0 2 0 1 0 3 0 0 1 23 Codage des variables quantitatives Soit tel quel : Suppose effet linéaire sans seuil de la var explicative Soit recodage en k classes : plus prudent interprétation plus facile Choix en fonction : De la vraisemblance des modèles, de l’adéquation du modèle aux observations De la facilité d’interprétation 24 Exemple : enquête fictive Régressions logistiques univariées : association significative entre trt A et malformation Variables dans l'équati on Etape a 1 a(1) Constante B 1, 739 -, 385 E.S. ,438 ,185 Wald 15, 794 4, 318 ddl 1 1 Signif . ,000 ,038 Exp(B) 5, 694 ,681 IC pour Exp(B) 95, 0% Inf érieur Supérieur 2, 415 13, 426 a. Variable(s) ent rées à l'ét ape 1 : a. association significative entre âge et malformation Variables dans l'équati on Etape a 1 age35(1) Constante B 2, 348 -, 666 E.S. ,435 ,202 Wald 29, 131 10, 832 ddl 1 1 Signif . ,000 ,001 Exp(B) 10, 459 ,514 IC pour Exp(B) 95, 0% Inf érieur Supérieur 4, 460 24, 532 a. Variable(s) ent rées à l'ét ape 1 : age35. 25 Exemple : enquête fictive (2) Régression logistique multivariée : Disparition de l’association significative entre trt A et malformation après ajustement sur l’âge Variables dans l'équati on Etape a 1 a(1) age35(1) Constante B -1,180 3, 301 -, 657 E.S. 1, 101 1, 057 ,203 Wald 1, 149 9, 762 10, 538 ddl 1 1 1 Signif . ,284 ,002 ,001 Exp(B) ,307 27, 153 ,518 IC pour Exp(B) 95, 0% Inf érieur Supérieur ,036 2, 659 3, 423 215,393 a. Variable(s) ent rées à l'ét ape 1 : a, age35. 26 Exemple : Lee SJ et al. Jama 2006: 295(7): 801-8 Recherche de facteurs indépendamment prédictifs de la mortalité à 4 ans, pour création d’un index Tous les facteurs inclus sont ici significativement liés à la mortalité car OR > 1 avec IC95% qui ne contient pas 1 27