TADE : TESTS D`HYPOTHÈSES Une hypothèse statistique est une

publicité
TADE : TESTS D’HYPOTHÈSES
MARK ASCH
Une hypothèse statistique est une supposition concernant la distribution d’une
variable aléatoire. Par exemple, on suppose que la moyenne d’une distribution est
égale à 5. Un test d’hypothèse est une procédure dans laquelle un échantillon est
utilisé afin de découvrir si l’on peut accepter l’hypothèse (supposer qu’elle est vraie)
ou si l’on doit la rejeter (supposer qu’elle est fausse). Les tests sont très importants
dans la prise de décisions. Par exemple, dans la décision de mettre un nouveau médicament sur la marché à la suite des essais cliniques, dans la décision de distribuer
un lot de pièces fabriquées sur une chaîne de production (contrôle de qualité), etc.
Les sources typiques des hypothèses sont :
(1) Une exigence de qualité.
(2) Les valeurs d’une expérience précédente.
(3) Une théorie que l’on voudrais vérifier.
(4) Une conjecture basée sur des observations.
Nous risquons de commettre deux types d’erreurs dans un test d’hypothèse de
θ = θ0 contre θ = θ1 .
Erreur de Type I: L’hypothèse est vraie, mais elle est rejetée parce que
θ̂ > c . La probabilité d’une tel erreur est
P (Θ̂ > c)θ=θ0 = α
ou α est le niveau du test, c est la valeur critique et θ̂ est une valeur observée
de la variable aléatoire Θ̂ .
Erreur de type II: L’hypothèse est fausse, mais elle n’est pas rejetée parce
que θ̂ ≤ c . La probabilité d’une tel erreur est
P (Θ̂ ≤ c)θ=θ1 = β .
La puissance du test η = 1−β est la probabilité d’éviter une erreur de type II. Nous
voulons que la puissance soit élevée pour un bon test. Cependant, la condition que
α soit petit et que η soit grande est contradictoire. En réalité, nous sommes obligés
à trouver un compromis entre les deux.
En résumé : faire un test statistique, c’est choisir une hypothèse nulle, une statistique et une zone de rejet peu probable (p) quand l’hypothese nulle est vraie et
probable quand une hypothèse alternative precisée est vraie.
(1) Si la valeur calculée tombe dans la zone de rejet, on rejette l’hypothèse
nulle au profit de l’alternative. Si l’hypothèse nulle est fausse, tant mieux.
Si elle est vraie, on a commis une erreur de première espèce. La probabilité
Date: Janvier 2012.
Module TADE, EDSS, Université de Picardie Jules Verne.
1
TADE : TESTS D’HYPOTHÈSES
2
0.04
0.035
0.03
0.025
0.02
0.015
0.01
β
0.005
0
20
30
40
50
θ0
60
α
70
80
c
θ1
90
100
110
Figure 0.1. Test d’hypothèse entre H0 : θ = θ0 et H1 : θ = θ1
de se tromper est p. Si p est très faible, pas de problème. Si p n’est pas très
faible et qu’on risque sa tête, il vaut mieux réfléchir encore.
(2) Si la valeur calculée ne tombe pas dans la zone de rejet, on accepte l’hypothèse nulle. Si elle est vraie, tant mieux. Si elle est fausse, on a commis
une erreur de seconde espèce. Si on sait calculer son risque, on prend une
décision sérieuse. Si on n’a aucune idée du risque de se tromper, il vaut
mieux ne rien dire.
Exemple 1. Test pour la moyenne d’une distribution normale avec variance connue.
Soit X ∼ N (µ, σ 2 ) avec σ 2 = 9 . Avec un échantillon de taille n = 10 , tester l’hypothèse
H0 : µ = µ0 = 24
contre les trois alternatives
H1 : (i) µ > µ0 , (ii) µ < µ0 , (iii) µ 6= µ0
au niveau α = 0.05 .
Une estim\’{e} de la moyenne est
1
(X1 + ... + Xn ) .
n
Si l’hypothèse est vraie, X̄ est normale avecµ = 24 et σ 2 /n = 9 [démonstration
X̄ =
...]
Cas (i) :
P (X̄ > c)µ=24 = α = 0.05 , P (X̄ ≤ c)µ=24 = Φ
c − 24
√
0.9
c − 24
√
0.9
= 1.645 , c = 25.56 .
= 1 − α = 0.95
TADE : TESTS D’HYPOTHÈSES
3
Conclusion : si x̄ ≤ 25.56 , l’hypothèse n’est pas rejetée, si x̄ > 25.56, elle est rejetée.
La puissance du test est
η(µ) = P (X̄ > 25.56)µ = 1 − P (X̄ ≤ 25.56)µ
25.56 − µ
√
= 1 − Φ(26.94 − 1.05µ)
=1−Φ
0.9
Cas (ii) :
P (X̄ ≤ c)µ=24 = Φ
c − 24
√
0.9
= α = 0.05
c = 24 − 1.56 = 22.44
Conclusion : si x̄ ≥ 22.44 , l’hypothèse n’est pas rejetée, si x̄ < 22.44, elle est rejetée.
La puissance du test est
22.44 − µ
√
η(µ) = P (X̄ ≤ 22.44)µ = Φ
= Φ(23.65 − 1.05µ)
0.9
Cas (iii) : Vu que la loi normale est symétrique, nous choisissons c1 = 24 − k et
c2 = 24 + k , et nous calculons k a partir de
−k
k
−Φ √
= 1 − α = 0.95
P (24 − k ≤ X̄ ≤ 24 + k)µ=24 = Φ √
0.9
0.9
k
√
= 1.960 , k = 1.86
0.9
et donc
c1 = 22.14 , c2 = 25.86
Conclusion : si c1 ≤ x̄ ≤ c2 , l’hypothèse n’est pas rejetée. La puissance du test est
η(µ) = P (X̄ < 22.14)µ + P (X̄ > 25.86)µ
22.14 − µ
25.86 − µ
√
√
=1+Φ
−Φ
0.9
0.9
= 1 + Φ(23.34 − 1.05µ) − Φ(27.26 − 1.05µ)
Tests de Signification
Nous comparons le modèle avec les données afin de fournir une mesure de proximité, appelée la signification, ou la valeur-p. Cette comparaison dépend de la définition d’une statistique, s, dont la distribution d’échantillonage est complètement
définie par le modèle qui contient l’hypothèse nulle. Chaque ensemble de données
possible est identifié avec une valeur de la statistique, de telle façon que des valeurs
croissantes de la statistique impliquent un accord décroissant entre le modèle et les
données.
Définition. Pour une valeur observée, s0 , de la statistique s, la signification, ou la
valeur-p est la probabilité que s prenne une valeur supérieure ou égale à s0 ,
p0 = PH0 (s ≥ s0 ).
TADE : TESTS D’HYPOTHÈSES
4
Interprétation. Les consignes usuelles sont :
– si p0 > 0.05, alors les données sont présumées d’être consistantes avec le modèle
proposé et l’hypothèse est considérée comme étant raisonnable ;
– si 0.01 < p0 < 0.05, alors il y a des signes contre le modèle et on suppose
que le défaut possible dans le modèle est du à l’hypothèse expérimental qu’elle
contient ;
– si p0 < 0.01,alors il existe des signes forts contre le modèle, et donc contre
l’hypothèse expérimentale qu’elle contient.
Tests pour des petits échantillons
Ci-dessus, nous avons supposé que les échantillons étaient de taille suffisamment
grande pour que l’application de l’approximation normale soit valable (n > 30 ).
Pour des échantillons de taille n < 30 , appelés petits échantillons, cette approximation est mauvaise. Afin de construire des intervalles de confiance et des tests
d’hypothèse pour ces échantillons, nous utilisons trois distributions importantes :
la distribution t de Student, la distribution chi-deux et la distribution F .
Afin de calculer la distribution d’échantillon pour la différence entre deux variances (S12 − S22 ) on utilise la statistique S12 /S22 qui suit une loi F . Définissons la
statistique F par
N1 S12 /(N1 − 1)σ12
Sb2 /σ 2
F = 1 1 =
N2 S22 /(N2 − 1)σ22
Sb22 /σ22
alors F suit une loi F (ν1 , ν2 ) avec degrés de liberté ν1 = N1 − 1 et ν2 = N2 −
1. Nous utilisons des niveaux 5% et 1% afin de déterminer si la variance S1 est
significativement plus grande que S2 .
Téléchargement