Powerpoint - Université Lyon 1

publicité
Risques d’erreur statistique et test
statistique
Origine de la problématique
Fluctuations aléatoires
Échantillon 1
48%
Obtenir pile à pile ou face
(Probabilité = 50%)
Échantillon 2
52%
Échantillon 3
50%
Échantillon 4
45%
Fluctuations aléatoires
Échantillon 1
9%
Même type de patients
(Probabilité d'AVC = 12%)
Échantillon 2
12%
Échantillon 3
16%
Échantillon 4
26%
Fluctuations aléatoires
d'échantillonnage
 Fortes pour des effectifs petits et moyens
 Faibles pour des grands effectifs
 Jamais nulles
 Conséquences pour la comparaison de 2 échantillons
– les proportions observées dans 2 échantillons peuvent être
différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même
 les FAE sont susceptibles de fausser les comparaisons
Conséquences des fluctuations
Effet du traitement = 0
Vrai risque = 10%
Vrai risque = 10%
Groupe T+
Groupe T-
Risque observé = 6%
Risque observé = 12%
Différence observée = -6%
Problématique des comparaisons
 Quand on ignore la réalité,
la différence observée de -6% est-elle ?
– une manifestation des fluctuations aléatoires,
donc due uniquement au hasard
– la traduction d’une réelle différence entre les deux groupes,
donc d’un effet non nul du traitement
 Comment départager ces 2 possibilités ?
 Solution : test statistique
.
But des comparaisons
 Quel est le but des comparaisons ?
Grp T
diff -6%
Conclure à
l'existence d'une
différence
Décider d'utiliser
le nouveau
traitement
Grp C
La conclusion doit être conforme à la réalité
mais elle se base uniquement sur l’observé
Effets des fluctuations dans une
comparaison
 Le hasard peut faire apparaître une différence qui n'existe
pas en réalité
 Inversement, le hasard peut réduire une différence qui
existe réellement
 donc 2 façons de fausser la conclusion
Risques d’erreur statistique
Risques de conclusions erronées
 Deux risques d'erreur
– Risque alpha
– Risque bêta
 Erreurs statistiques
– dues uniquement au hasard
Erreur statistique alpha
 Conclure à l'existence d'une différence qui n'existe pas en
réalité : faux positif
Échantillon 1
7.5%
Différence
non réelle
Vrai valeur
12%
Échantillon 2
15%
Erreur statistique bêta
 Ne pas conclure à une différence qui existe pourtant en
réalité : faux négatif
Vrai valeur
12%
Échantillon 1
15%
Fausse absence
de différence
Vrai valeur
19%
Échantillon 2
15%
Risques d'erreur statistiques
 Risque alpha : risque de conclure à une différence qui
n’existe pas
 Risque bêta : risque de ne pas mettre en évidence une
différence qui existe réellement
 Puissance : 1 - bêta : probabilité de mettre en évidence
une différence qui existe réellement
Application à l’essai
thérapeutique
 Risque alpha : considérer comme efficace un traitement
qui ne l’est pas
 Risque bêta : ne pas conclure alors que le traitement est
efficace
 Puissance : montrer l’efficacité d’un traitement réellement
efficace
Conclusion
Réalité
Différence
Erreur bêta
Différence
Pas de différence
Pas de différence
Erreur alpha
Tests statistiques
 Outils d'aide à la décision
 Principe
– conclure à une différence
– que si le risque de faire une erreur (de première espèce) est faible
 Quantification du risque d'erreur alpha
– à partir des données disponibles
 (Risque de commettre une erreur alpha = risque alpha)
Principe général
p1 = 7%
Quelle est la probabilité de commettre une erreur
si je conclus à partir de ces données
à l'existence d'une réelle différence
p0 = 13%
Probabilité faible
Probabilité forte
Conclusion
Pas de conclusion
Conclure à l'existence d'une différence que si le
risque de faire une conclusion erronée est faible
Démarche du test statistique
 Calcul de la probabilité p
 p : probabilité que "la différence observée soit due
uniquement au hasard"
 p représente le risque de faire une conclusion erronée si
l'on décidait de conclure
 p est une quantification du risque alpha
 On ne conclut que si ce risque d'erreur est suffisamment
petit
Seuil de risque
 Seuil de risque de conclusion erronée acceptable
– seuil de risque alpha = 5%
 p < 5%
– on prend le risque de conclure
 p > 5%
– on ne conclut pas
 < ou  ?
Signification statistique
Différence
observée
Test
Différence significative
p<0.05
Il est peu probable que la
différence observée soit due
au hasard
Différence non significative
p>0.05
La probabilité que la
différence observée soit due
au hasard est forte
Seuil de signification statistique
Le test statistique est un moyen
qui autorise à conclure à l'existence d'une différence
que si le risque de commettre une erreur est faible
 Risque d'erreur faible = 5% (en général)
– seuil de décision
 Contrôle du risque alpha
– mais le risque d'erreurs alpha persiste
– 100 essais avec un traitement sans efficacité
• conclusion à tort à l'efficacité dans 5 essais
Réalisation du test
 Calcul à partir des données de la probabilité de commettre
une erreur alpha = p
p = 0.04
p<5%  conclusion à l'existence
de la différence
parce que le risque de faire une
conclusion fausse est faible
p = 0.25
p>5%  impossible de conclure à
l'existence d'une différence
car si on concluait à une différence,
le risque d'erreur serait trop fort
p1 = 7%
p0 = 13%
p1 = 20%
p0 = 17%
P < 0.05
 En concluant à l'efficacité, on prend un risque de 5% de
faire une conclusion erronée
 5% est un risque d'erreur élevé
– en pratique 2 essais significatifs
– risque = 5% * 5% = 2.5/1000
Disparition du risque d'erreur
bêta
 Le risque bêta est incalculable
 Impossible de quantifier le risque d'erreur quand on fait
une conclusion d'absence de différence
– il est donc impossible de faire ce type de conclusion
– les tests permettent seulement de conclure à l'existence d'une
différence
– en cas de différence non signification
• impossible de conclure
• et ne permet surtout pas de conclure à l'absence de différence vu que
le risque d'erreur est inconnu
• "l'absence de preuve n'est pas la preuve de l'absence"
Différence non significative
Absence réelle
d'effet
Résultat
non significatif
?
Manque de
puissance
 Impossible de conclure
 Ne pas conclure à l’absence de différence
 «L’absence de preuve n’est pas la preuve de l’absence»
OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine
(T) chez des patientes traitées pour une pyélonéphrite aiguë
noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour
per os).
RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le
groupe
tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon
prédominante et tous les germes isolés étaient sensibles à la
ciprofloxacine
RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le
groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de
façon prédominante et tous les germes isolés étaient sensibles à la
ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le
groupe CIP + T et 4 dans le groupe CIP + P (non significatif).
CONCLUSION : L’administration d’une dose de tobramycine
n’améliore aucun paramètre clinique dans le traitement des
pyélonéphrites aiguës non compliquées traitées par de la
ciprofloxacine par voie orale.
Dualité entre test et intervalle de
confiance
définition des IC
 Intervalle qui a 95% de chance de contenir la vraie valeur
 il est raisonnable de parier que la vraie valeur est dans
l'intervalle (prob de 95%)
 il est peu probable (prob 5%)
– que la vraie valeur soit > à bs
– ou que la vraie valeur soit < à bi
– il est donc peu raisonnable de parier que la vraie valeur soit à
l'extérieur de l'IC
Intervalle de confiance
 Différence = -6%
 IC 95% = [-8%;-4%]
 L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie
valeur de la différence
 reflète l'incertitude de l'estimation
 Il n'est pas possible d'exclure que le vrai effet ne soit que
de -4%
– situation la pire
– efficacité plus faible que les -6% de l'estimation ponctuelle
 Ensemble des valeurs non statistiquement différentes du
résultats
p<0.05
NS
IC 95%
Résultat
observé
Relation entre IC et test
 IC d’une différence n'incluant pas 0
– [-10% ; -4%]
– la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero
est <=5%
– donc il est possible de conclure à une différence non nulle car le
risque d’erreur alpha est <=5%
= différence significative (au seuil de 5%)
 IC de la différence des risques incluant 0
– [-20% ; 20%]
= différence non significative
-5% [-10%,-2%]
P<0.05
-2% [-9%;+2%]
NS
0
Différence
Pertinence clinique
 Signification statistique
 pertinence clinique
 Réduction de mortalité de 25% à 12%, p<0.05
– réduction statistiquement significative
– pertinente cliniquement
 Réduction de mortalité de 2.3% à 2.1%, p<0.05
– réduction statistiquement significative
– peu pertinente cliniquement
Présentation théorique
Théorie des tests d'hypothèses
 Hypothèse nulle
– H0 : p1 - p0 = 0
(p1 = p0)
(le traitement n'a pas d'effet)
 Hypothèse alternative
– H1 : p1 - p0  0
(p1  p0)
(le traitement à un effet)
 Test statistique =
– retenir une de ces 2 hypothèses
– en fonction des données recueillies
 Risques d'erreur alpha et bêta
–  = Prob[ accepter H1 alors que H0 est vraie ]
–  = Prob[ accepter H0 alors que H1 est vraie ]
Rappel
H0 : p1 = p0
H1 : p1 <> p0
Calcul de p
 p = prob [ d'observer une différence au moins aussi
importante que ce que l'on a observé alors que H0 est
vraie ]
 soit z = p1 - p0 la différence entre les 2 prop. p1 et p0
 si H0 est vraie, z suit une loi normale (si n grand)
– moyenne 0 (H0)
– écart type

p1(1  p1 ) p0 (1  p0 )

n1
n0
– Principe du test : calculer la probabilité d'observer dans ce cas une
différence au moins aussi grande que celle qui a été effectivement
observée (par exemple 7% - 13% = -6%)
f(x)
Distribution de Z sous
l'hypothèses nulle
p = surface sous la courbe
Pr(Z  -6%)
-6%
z observé
0
z
 p quantifie le degré de désaccord entre l'hypothèse nulle et
ce qui a été observé
Rejet de l'hypothèse nulle H0
 Autre façon de réaliser un test
 But du test
– rejeter H0 ( p1 - p0 = 0 )
– pour accepter H1 ( p1 - p0  0 )
– rejeter H0  conclusion = diff. significative
– ne pas rejeter H0  conclusion = diff. non significative
– sans évaluation précise du p
 Limites de rejet
– valeurs de décision pour le rejet de H0
– valeurs de différences observées
– notées L (et -L)
-L
Rejet
0
PAS de rejet de H0
L
Diff observée
Rejet
 L est déterminé par le seuil  choisi (5%)
– par définition  = Prob [conclure si H0]
– Prob [ diff. observée <-L ou >L si H0] = 
2.5%
2.5%
-L
L
Différence z
 L défini les différences qui ont une probabilité faible d'être
observées sous l'hypothèse nulle
 L = 1.96 
– ( = écart type de la différence)
Rappel
Loi normale N(0,)
95 %
-1.96 
0
1.96 
x
– Exemple 1
• diff. observée z = -5%
• L = 7% pour alpha=5% (-L = -7%)
• pas de rejet de H0
– Exemple 2
•
•
•
•
diff. observée z = 12%
L = 7%
rejet de H0
conclusion : diff. significative au seuil de 5%
– Exemple 3
•
•
•
•
diff. observée z = -4%
L = 2% (-L = -2%)
rejet de H0
conclusion : diff. significative au seuil de 5%
 Possibilité de diff. significative aussi bien en cas de :
– différence positive (p1 > p0)
– différence négative (p1 < p0)
 Test bilatéral
Comparaison des 2 approches
 Rejet de l'hypothèse nulle
– calcul de L
– si diff. observée <-L ou diff. observée >L
 rejet de h0
 diff significative
– si
-L < diff observée < L
 pas de rejet de H0
 diff non significative
 Calcul de p
– si p<0.05  diff. significative
– si p>0.05  diff. non significative
 L dépend de
– alpha
– p1 p0
– n1 n0
Écart type de la différence (erreur standard)
 p dépend de
– différence observée
– p1 p0
Écart type de la différence (erreur standard)
– n1 n0
 Exemple :
– Diff. Observée = -5%
– approche par rejet de H0
• conclusion : diff. Significative
• le risque d'erreur encouru en concluant à la différence est < 5%
– approche par calcul de p
• résultat : p = 0.03
• prob de cette diff. soit due uniquement au hasard est de 0.03
• le risque d'erreur encouru en concluant à la différence est de 3%
Résumé
 Erreur alpha
– type d'erreur statistique
 Risque alpha
– risque de commettre une erreur alpha
 Seuil de la signification statistique
– valeur de risque alpha consenti
– en général 5%
 p
– quantification à partir des données observées du risque alpha
Erreurs d'interprétation
 p n’est pas la prob. de l’hypothèse nulle
– p est la prob. d’obtenir le résultat observé si H0 est vraie
 p n’est pas la prob. que le ttt. n’ait pas d’effet
– p est la prob. d’obtenir le résultat qui a été observé si le ttt. est en
réalité inefficace
 "obtenir le résultat observé" =
obtenir une diff. au moins aussi importante que le résultat observé
– cf. définition de p
– rappel : avec une VA continue, la prob d'une valeur est nulle
 p<0.05 ne signifie pas qu’il y a moins de 5% de chance
que le ttt. soit sans effet
 p<0.05 ne signifie pas qu’il y a 95% de chance que le ttt.
est un effet
– il y a moins de 5% de chance d’observer le résultat obtenu si le ttt.
est sans effet
 p n’est pas Pr(H0) ou 1-Pr(H1)
Bilatéral / unilatéral
traitement A > traitement B
Test
bilatéral
Diff. significative
Test
Diff. significative
unilatéral
0
traitement A < traitement B
Différence non significative
Diff. significative
Différence non significative
Valeur de la
différence
0,70
0,79
1
0,98
1,45
Risque rel
Test
bilatéral
Diff. significative
Test
unilatéral
Diff. significative
Différence non significative
Diff. significative
Différence non significative
Conséquences
 Un résultat NS en bilatéral peut être significatif en
unilatéral
 pas de choix a posteriori
Répétitions des tests statistiques
Répétition des tests
 Plusieurs tests réalisés pour répondre à une même
question
– par exemple plusieurs critère de jugement
 Conclusion à un effet à partir du moment où il existe au
moins un test significatif
 Le risque  de la conclusion est bien supérieure à 5%
 Inflation du risque alpha
 Rappel, avec un ttt. sans effet,
– sur 100 tests, il y en aura 5 significatifs (en moyenne)
1 test
Conclusion
Contrôle parfait du
risque alpha (5%)
Conclusion
Le risque de conclure à
tort est > à 5%
(seuil de 5%)
Test 1
Test 2
Test 3
Test 4
A partir du moment où
au moins 1 test est
significatif
Comparaisons multiples
Aux dés, la probabilité d ’obtenir un six est
plus forte avec 3 dés qu ’avec un seul
Test 1
Risque de
conclure à tort à
une différence
= 5%
Test 2
Risque de
conclure à tort à
une différence
= 5%
Test 3
Risque de
conclure à tort à
une différence
= 5%
Globalement, le risque de
conclure à tort à une différence
lors de ces 4 comparaisons est
bien plus important que 5%.
Test 4
Risque de
conclure à tort à
une différence
= 5%
Comparaisons multiples
 Avec un traitement sans efficacité
 en faisant 10 tests statistiques (p.e. 10 essais)
 nous avons 40% de risque de faire au moins une
conclusion (à tort)
 global  1  1   
k
Nb de tests
Risque alpha
global
5
0.23
10
0.40
20
0.64
50
0.92
Critères de jugement
 Aspirine pour la prévention des événements
cardiovasculaires
 Critères de jugement
–
–
–
–
–
–
–
mortalité totale
Événements cardiovasculaires mortels ou non mortels
DC cardiovasculaires
Mort subite
Infarctus
Accident vasculaire cérébraux
Interventions de revascularisation
 Risque alpha de conclure à tort à l'efficacité ?
Critère de jugement principal
• Décès de toute cause
• Décès cardiovasculaire
• Mort subite
Critère principal
• Décès de toute cause
Critères secondaires
• Infarctus
• Décès cardiovasculaire
• Accident vasculaire cérébraux
• Mort subite
• Chirurgie
• Infarctus
• Accident vasculaire cérébraux
• Chirurgie
Pas de définition
de critère principal
7 tests statistiques
Risque de conclure à
tort à l ’efficacité du
traitement = 30%
Définition a priori
d ’un critère principal
Un seul test statistique
Risque de conclure à
tort à l ’efficacité du
traitement = 5%
Critère principal
 Conclusion que si le critère principal est significatif
 Critères secondaires : explicatifs
Multiplicité des critères de
jugement - Exemple
In women, however (Table 2), a positive effect on
BMD was observed at several sites (mostly
trabecular bone zones), namely the femoral neck and
the Ward’s
triangle in the 60–69 y group, and upper and total
radius in the 70–79 y group.
Autres situations de répétition des
tests
 mesures répétées au cours du temps
Analyse en sous-groupes - Essai
non concluant
Essai
0.92
NS
1 Age<75
2 Age>75
0.92
0.95
NS
NS
3 Hommes
4 Femmes
0.92
0.99
NS
NS
5 Antécédents d'infarctus
6 Pas d'antécédents d'infarctus
0.87
1.03
NS
NS
7 Prise d'aspirine
8 Pas d'aspirine
0.78
1.09
p<0.05
NS
Limites- Multiplicité des tests
1 Age<75
2 Age>75
test 1
test 2
risque erreur 5%
risque erreur 5%
3 Hommes
4 Femmes
test 3
test 4
risque erreur 5%
risque erreur 5%
5 Antécédents d'infarctus
6 Pas d'ATCD d'infarctus
test 5
test 6
risque erreur 5%
risque erreur 5%
7 Prise d'aspirine
8 Pas d'aspirine
test 7
test 8
risque erreur 5%
risque erreur 5%
Analyses en sous groupes - Essai
concluant
Essai
0.78
p<0.05
1 Age<75
2 Age>75
0.65
0.90
p<0.01
NS
3 Hommes
4 Femmes
0.76
0.78
p<0.05
p<0.05
5 Antécédent d'infarctus
0.97
6 Pas d'antécédent d'infarctus 0.70
NS
p<0.01
7 Diabétique
8 Non diabétique
p<0.001
p<0.05
0.50
0.91
Analyses intermédiaires
 en cours d’essai, avant que tous les patients prévus aient
été recrutés
 et/ou avant la fin de la période de suivi initialement prévue
 But arrêter prématurément
– pour efficacité
– pour toxicité
– pour futilité
Ajustement du seuil de
signification
 Méthode de Bonferroni
– Pour k comparaisons, le seuil ajusté est :
– Pour k=3, saj = 5% / 3 = 1.67%
– Quand  est petit,
k
1     1   k
saj 

k
1  1      k
– Donc pour conserver un risque alpha global de 5% :
k
 k  0.05

0.05
k
– Inconvénient : fait l’hypothèse d’une stricte indépendance des
variables testées  méthode conservatrice
Ajustement du seuil de
signification - 2
 Méthode de Tukey
saj 

k
– Pour k=3, saj = 5% / 1.73 = 2.89%
Cas 1
Analyse intermédiaire
1
2
p = 0.10
p = 0.011
3
Analyse
finale
 3 analyses intermédiaires + 1 analyse finale = 4
comparaisons
saj  5%/ 4  1.25%
 Arrêt prématuré de l’essai
Cas 2
Analyse intermédiaire
1
2
3
Analyse
finale
p = 0.25
p = 0.08
p = 0.04
p = 0.01
 Pas d’arrêt prématuré mais conclusion à l’efficacité
Cas 3
Analyse intermédiaire
1
2
3
Analyse
finale
p = 0.42
p = 0.28
p = 0.12
p = 0.04
 Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
Cas 4
Analyse intermédiaire
1
2
3
Analyse
finale
P = 0.89
p = 0.48
p = 0.25
p = 0.10
 Résultat non significatif
Essai 1
Essai 2
Infarctus mortels et non mortels
p=0.03
p=0.001
infarctus non mortels
p=0.05
p=0.010
décès par infarctus
p=0.02
p=0.010
décès de toute cause
p=0.06
p=0.03
 Conclusion essai 1
– pas de démonstration de l'efficacité
 Conclusion essai 2
– démonstration de l'efficacité de manière statistiquement
significative (p<0.05)
– sur les 3 premiers critères de jugement
Catalogue des tests statistiques
Taille de l’échantillon
 Avec les échantillons de grandes tailles
– les distributions des
•
•
•
•
moyennes
proportions
différence de moyenne
différence de proportions
sont des distributions normales
--> calcul simple de p et des IC
 Avec les échantillons de petites tailles (n<30)
– ces distributions ne sont pas normales (en général)
• (en général inconnues)
– techniques spéciales dites "non paramétriques"
 Variable continue
– Données : distribution normale
• moyenne : distribution normale qq soit n
– Données : distribution quelconque symétrique
• moyenne : distribution normale qq n>30
– Données : distribution quelconque
• moyenne : distribution normale qq n>100
 Variable binaire
– proportion : distribution normale qd n>30
Séries statistiques appariées
 2 séries statistiques provenant de l'observation des mêmes
sujets (unités statistiques)
 2 méthodes de dosage de la glycémie A et B
 les 2 méthodes sont appliquées aux mêmes sujets
– pour chaque patient : 2 valeurs, une avec chaque méthode
– = 2 séries appariées
 2 groupes de patients différents
– méthode A utilisée avec le 1er grp
– méthode B utilisée avec le 2e grp
– = 2 séries non appariées
Catalogue des tests statistiques
 Le test utilisé doit être précisé avec le résultat
 Un test pour chaque situation définie par :
– type de la variable (continue, binaire)
– petit ou grand effectif
– séries appariées ou non
 Var. continues (comparaison des moyennes)
– Séries non appariées
• grand effectif
– test t (test de Student), Test z
• test non paramétrique
– Test de Wilcoxon
(Mann-Whitney)
– Séries appariées
• grand effectif
– test t pour séries appariées (Student pour séries appariées)
• test non paramétrique
– Test de Wilcoxon pour séries appariées
 Var. binaires (comparaison des proportions)
– Séries non appariées
• grand effectif
– Chi 2
2

( )
• test non paramétrique
– Test exact de Fisher
– Séries appariées
– test de McNemar
 Var. qualitative à plusieurs modalités
– idem var. binaires
Téléchargement