Test 2 - Université Lyon 1

publicité
Répétitions des tests statistiques
Répétition des tests
 Plusieurs tests réalisés pour répondre à une même
question
– par exemple plusieurs critère de jugement
 Conclusion à un effet à partir du moment où il existe au
moins un test significatif
 Le risque a de la conclusion est bien supérieure à 5%
 Inflation du risque alpha
 Rappel, avec un ttt. sans effet,
– sur 100 tests, il y en aura 5 significatifs (en moyenne)
1 test
Conclusion
Contrôle parfait du
risque alpha (5%)
Conclusion
Le risque de conclure à
tort est > à 5%
(seuil de 5%)
Test 1
Test 2
Test 3
Test 4
A partir du moment où
au moins 1 test est
significatif
Comparaisons multiples
Aux dés, la probabilité d ’obtenir un six est
plus forte avec 3 dés qu ’avec un seul
Test 1
Risque de
conclure à tort à
une différence
= 5%
Test 2
Risque de
conclure à tort à
une différence
= 5%
Test 3
Risque de
conclure à tort à
une différence
= 5%
Globalement, le risque de
conclure à tort à une différence
lors de ces 4 comparaisons est
bien plus important que 5%.
Test 4
Risque de
conclure à tort à
une différence
= 5%
Comparaisons multiples
 Avec un traitement sans efficacité
 en faisant 10 tests statistiques (p.e. 10 essais)
 nous avons 40% de risque de faire au moins une
conclusion (à tort)
a global  1  1  a 
k
Nb de tests
Risque alpha
global
5
0.23
10
0.40
20
0.64
50
0.92
Critères de jugement
 Aspirine pour la prévention des événements
cardiovasculaires
 Critères de jugement
–
–
–
–
–
–
–
mortalité totale
Événements cardiovasculaires mortels ou non mortels
DC cardiovasculaires
Mort subite
Infarctus
Accident vasculaire cérébraux
Interventions de revascularisation
 Risque alpha de conclure à tort à l'efficacité ?
Critère de jugement principal
• Décès de toute cause
• Décès cardiovasculaire
• Mort subite
Critère principal
• Décès de toute cause
Critères secondaires
• Infarctus
• Décès cardiovasculaire
• Accident vasculaire cérébraux
• Mort subite
• Chirurgie
• Infarctus
• Accident vasculaire cérébraux
• Chirurgie
Pas de définition
de critère principal
7 tests statistiques
Risque de conclure à
tort à l ’efficacité du
traitement = 30%
Définition a priori
d ’un critère principal
Un seul test statistique
Risque de conclure à
tort à l ’efficacité du
traitement = 5%
Critère principal
 Conclusion que si le critère principal est significatif
 Critères secondaires : explicatifs
Multiplicité des critères de
jugement - Exemple
In women, however (Table 2), a positive effect on
BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral neck and
the Ward’s
triangle in the 60–69 y group, and upper and total
radius in the 70–79 y group.
Autres situations de répétition des
tests
 mesures répétées au cours du temps
Analyse en sous-groupes - Essai
non concluant
Essai
0.92
NS
1 Age<75
2 Age>75
0.92
0.95
NS
NS
3 Hommes
4 Femmes
0.92
0.99
NS
NS
5 Antécédents d'infarctus
6 Pas d'antécédents d'infarctus
0.87
1.03
NS
NS
7 Prise d'aspirine
8 Pas d'aspirine
0.78
1.09
p<0.05
NS
Limites- Multiplicité des tests
1 Age<75
2 Age>75
test 1
test 2
risque erreur 5%
risque erreur 5%
3 Hommes
4 Femmes
test 3
test 4
risque erreur 5%
risque erreur 5%
5 Antécédents d'infarctus
6 Pas d'ATCD d'infarctus
test 5
test 6
risque erreur 5%
risque erreur 5%
7 Prise d'aspirine
8 Pas d'aspirine
test 7
test 8
risque erreur 5%
risque erreur 5%
Analyses en sous groupes - Essai
concluant
Essai
0.78
p<0.05
1 Age<75
2 Age>75
0.65
0.90
p<0.01
NS
3 Hommes
4 Femmes
0.76
0.78
p<0.05
p<0.05
5 Antécédent d'infarctus
0.97
6 Pas d'antécédent d'infarctus 0.70
NS
p<0.01
7 Diabétique
8 Non diabétique
p<0.001
p<0.05
0.50
0.91
Analyses intermédiaires
 en cours d’essai, avant que tous les patients prévus aient
été recrutés
 et/ou avant la fin de la période de suivi initialement prévue
 But arrêter prématurément
– pour efficacité
– pour toxicité
– pour futilité
Ajustement du seuil de
signification
 Méthode de Bonferroni
– Pour k comparaisons, le seuil ajusté est :
– Pour k=3, saj = 5% / 3 = 1.67%
– Quand a est petit,
k
1  a   1  a k
saj 
a
k
1  1  a   a k
– Donc pour conserver un risque alpha global de 5% :
k
a k  0.05
a
0.05
k
– Inconvénient : fait l’hypothèse d’une stricte indépendance des
variables testées  méthode conservatrice
Ajustement du seuil de
signification - 2
 Méthode de Tukey
saj 
a
k
– Pour k=3, saj = 5% / 1.73 = 2.89%
Cas 1
Analyse intermédiaire
1
2
p = 0.10
p = 0.011
3
Analyse
finale
 3 analyses intermédiaires + 1 analyse finale = 4
comparaisons
saj  5%/ 4  1.25%
 Arrêt prématuré de l’essai
Cas 2
Analyse intermédiaire
1
2
3
Analyse
finale
p = 0.25
p = 0.08
p = 0.04
p = 0.01
 Pas d’arrêt prématuré mais conclusion à l’efficacité
Cas 3
Analyse intermédiaire
1
2
3
Analyse
finale
p = 0.42
p = 0.28
p = 0.12
p = 0.04
 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
Cas 4
Analyse intermédiaire
1
2
3
Analyse
finale
P = 0.89
p = 0.48
p = 0.25
p = 0.10
 Résultat non significatif
Essai 1
Essai 2
Infarctus mortels et non mortels
p=0.03
p=0.001
infarctus non mortels
p=0.05
p=0.010
décès par infarctus
p=0.02
p=0.010
décès de toute cause
p=0.06
p=0.03
 Conclusion essai 1
– pas de démonstration de l'efficacité
 Conclusion essai 2
– démonstration de l'efficacité de manière statistiquement
significative (p<0.05)
– sur les 3 premiers critères de jugement
Catalogue des tests statistiques
Taille de l’échantillon
 Avec les échantillons de grandes tailles
– les distributions des
•
•
•
•
moyennes
proportions
différence de moyenne
différence de proportions
sont des distributions normales
--> calcul simple de p et des IC
 Avec les échantillons de petites tailles (n<30)
– ces distributions ne sont pas normales (en général)
• (en général inconnues)
– techniques spéciales dites "non paramétriques"
 Variable continue
– Données : distribution normale
• moyenne : distribution normale qq soit n
– Données : distribution quelconque symétrique
• moyenne : distribution normale qq n>30
– Données : distribution quelconque
• moyenne : distribution normale qq n>100
 Variable binaire
– proportion : distribution normale qd n>30
Séries statistiques appariées
 2 séries statistiques provenant de l'observation des mêmes
sujets (unités statistiques)
 2 méthodes de dosage de la glycémie A et B
 les 2 méthodes sont appliquées aux mêmes sujets
– pour chaque patient : 2 valeurs, une avec chaque méthode
– = 2 séries appariées
 2 groupes de patients différents
– méthode A utilisée avec le 1er grp
– méthode B utilisée avec le 2e grp
– = 2 séries non appariées
Catalogue des tests statistiques
 Le test utilisé doit être précisé avec le résultat
 Un test pour chaque situation définie par :
– type de la variable (continue, binaire)
– petit ou grand effectif
– séries appariées ou non
 Var. continues (comparaison des moyennes)
– Séries non appariées
• grand effectif
– test t (test de Student), Test z
• test non paramétrique
– Test de Wilcoxon
(Mann-Whitney)
– Séries appariées
• grand effectif
– test t pour séries appariées (Student pour séries appariées)
• test non paramétrique
– Test de Wilcoxon pour séries appariées
 Var. binaires (comparaison des proportions)
– Séries non appariées
• grand effectif
– Chi 2
2

( )
• test non paramétrique
– Test exact de Fisher
– Séries appariées
– test de McNemar
 Var. qualitative à plusieurs modalités
– idem var. binaires
Téléchargement