Répétitions des tests statistiques Répétition des tests Plusieurs tests réalisés pour répondre à une même question – par exemple plusieurs critère de jugement Conclusion à un effet à partir du moment où il existe au moins un test significatif Le risque a de la conclusion est bien supérieure à 5% Inflation du risque alpha Rappel, avec un ttt. sans effet, – sur 100 tests, il y en aura 5 significatifs (en moyenne) 1 test Conclusion Contrôle parfait du risque alpha (5%) Conclusion Le risque de conclure à tort est > à 5% (seuil de 5%) Test 1 Test 2 Test 3 Test 4 A partir du moment où au moins 1 test est significatif Comparaisons multiples Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul Test 1 Risque de conclure à tort à une différence = 5% Test 2 Risque de conclure à tort à une différence = 5% Test 3 Risque de conclure à tort à une différence = 5% Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%. Test 4 Risque de conclure à tort à une différence = 5% Comparaisons multiples Avec un traitement sans efficacité en faisant 10 tests statistiques (p.e. 10 essais) nous avons 40% de risque de faire au moins une conclusion (à tort) a global 1 1 a k Nb de tests Risque alpha global 5 0.23 10 0.40 20 0.64 50 0.92 Critères de jugement Aspirine pour la prévention des événements cardiovasculaires Critères de jugement – – – – – – – mortalité totale Événements cardiovasculaires mortels ou non mortels DC cardiovasculaires Mort subite Infarctus Accident vasculaire cérébraux Interventions de revascularisation Risque alpha de conclure à tort à l'efficacité ? Critère de jugement principal • Décès de toute cause • Décès cardiovasculaire • Mort subite Critère principal • Décès de toute cause Critères secondaires • Infarctus • Décès cardiovasculaire • Accident vasculaire cérébraux • Mort subite • Chirurgie • Infarctus • Accident vasculaire cérébraux • Chirurgie Pas de définition de critère principal 7 tests statistiques Risque de conclure à tort à l ’efficacité du traitement = 30% Définition a priori d ’un critère principal Un seul test statistique Risque de conclure à tort à l ’efficacité du traitement = 5% Critère principal Conclusion que si le critère principal est significatif Critères secondaires : explicatifs Multiplicité des critères de jugement - Exemple In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’s triangle in the 60–69 y group, and upper and total radius in the 70–79 y group. Autres situations de répétition des tests mesures répétées au cours du temps Analyse en sous-groupes - Essai non concluant Essai 0.92 NS 1 Age<75 2 Age>75 0.92 0.95 NS NS 3 Hommes 4 Femmes 0.92 0.99 NS NS 5 Antécédents d'infarctus 6 Pas d'antécédents d'infarctus 0.87 1.03 NS NS 7 Prise d'aspirine 8 Pas d'aspirine 0.78 1.09 p<0.05 NS Limites- Multiplicité des tests 1 Age<75 2 Age>75 test 1 test 2 risque erreur 5% risque erreur 5% 3 Hommes 4 Femmes test 3 test 4 risque erreur 5% risque erreur 5% 5 Antécédents d'infarctus 6 Pas d'ATCD d'infarctus test 5 test 6 risque erreur 5% risque erreur 5% 7 Prise d'aspirine 8 Pas d'aspirine test 7 test 8 risque erreur 5% risque erreur 5% Analyses en sous groupes - Essai concluant Essai 0.78 p<0.05 1 Age<75 2 Age>75 0.65 0.90 p<0.01 NS 3 Hommes 4 Femmes 0.76 0.78 p<0.05 p<0.05 5 Antécédent d'infarctus 0.97 6 Pas d'antécédent d'infarctus 0.70 NS p<0.01 7 Diabétique 8 Non diabétique p<0.001 p<0.05 0.50 0.91 Analyses intermédiaires en cours d’essai, avant que tous les patients prévus aient été recrutés et/ou avant la fin de la période de suivi initialement prévue But arrêter prématurément – pour efficacité – pour toxicité – pour futilité Ajustement du seuil de signification Méthode de Bonferroni – Pour k comparaisons, le seuil ajusté est : – Pour k=3, saj = 5% / 3 = 1.67% – Quand a est petit, k 1 a 1 a k saj a k 1 1 a a k – Donc pour conserver un risque alpha global de 5% : k a k 0.05 a 0.05 k – Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice Ajustement du seuil de signification - 2 Méthode de Tukey saj a k – Pour k=3, saj = 5% / 1.73 = 2.89% Cas 1 Analyse intermédiaire 1 2 p = 0.10 p = 0.011 3 Analyse finale 3 analyses intermédiaires + 1 analyse finale = 4 comparaisons saj 5%/ 4 1.25% Arrêt prématuré de l’essai Cas 2 Analyse intermédiaire 1 2 3 Analyse finale p = 0.25 p = 0.08 p = 0.04 p = 0.01 Pas d’arrêt prématuré mais conclusion à l’efficacité Cas 3 Analyse intermédiaire 1 2 3 Analyse finale p = 0.42 p = 0.28 p = 0.12 p = 0.04 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj) Cas 4 Analyse intermédiaire 1 2 3 Analyse finale P = 0.89 p = 0.48 p = 0.25 p = 0.10 Résultat non significatif Essai 1 Essai 2 Infarctus mortels et non mortels p=0.03 p=0.001 infarctus non mortels p=0.05 p=0.010 décès par infarctus p=0.02 p=0.010 décès de toute cause p=0.06 p=0.03 Conclusion essai 1 – pas de démonstration de l'efficacité Conclusion essai 2 – démonstration de l'efficacité de manière statistiquement significative (p<0.05) – sur les 3 premiers critères de jugement Catalogue des tests statistiques Taille de l’échantillon Avec les échantillons de grandes tailles – les distributions des • • • • moyennes proportions différence de moyenne différence de proportions sont des distributions normales --> calcul simple de p et des IC Avec les échantillons de petites tailles (n<30) – ces distributions ne sont pas normales (en général) • (en général inconnues) – techniques spéciales dites "non paramétriques" Variable continue – Données : distribution normale • moyenne : distribution normale qq soit n – Données : distribution quelconque symétrique • moyenne : distribution normale qq n>30 – Données : distribution quelconque • moyenne : distribution normale qq n>100 Variable binaire – proportion : distribution normale qd n>30 Séries statistiques appariées 2 séries statistiques provenant de l'observation des mêmes sujets (unités statistiques) 2 méthodes de dosage de la glycémie A et B les 2 méthodes sont appliquées aux mêmes sujets – pour chaque patient : 2 valeurs, une avec chaque méthode – = 2 séries appariées 2 groupes de patients différents – méthode A utilisée avec le 1er grp – méthode B utilisée avec le 2e grp – = 2 séries non appariées Catalogue des tests statistiques Le test utilisé doit être précisé avec le résultat Un test pour chaque situation définie par : – type de la variable (continue, binaire) – petit ou grand effectif – séries appariées ou non Var. continues (comparaison des moyennes) – Séries non appariées • grand effectif – test t (test de Student), Test z • test non paramétrique – Test de Wilcoxon (Mann-Whitney) – Séries appariées • grand effectif – test t pour séries appariées (Student pour séries appariées) • test non paramétrique – Test de Wilcoxon pour séries appariées Var. binaires (comparaison des proportions) – Séries non appariées • grand effectif – Chi 2 2 ( ) • test non paramétrique – Test exact de Fisher – Séries appariées – test de McNemar Var. qualitative à plusieurs modalités – idem var. binaires