1
Intervalles de confiance et tests d’hypothèses
TP7
I. Rappels théorique
- Supposons que la variable aléatoire que nous étudions (de type « scale » dans les notations
SPSS comme TR, taille, poids, QI, score …) possède une fonction de distribution qui
dépend d’un (ou plusieurs) paramètre(s) : F(x ;t)
Exemple : la loi Normale dépend des paramètres µ et s (la moyenne et l’écart-type); la loi
de Poisson dépend d’un seul paramètre ? (la moyenne = variance), la loi Gamma G dépend
de deux paramètres (a et b) etc.
- Supposons encore que l’on effectue n observations indépendantes de X.
Le ou les paramètres, généralement inconnus, peuvent être estimés à partir des n observations.
Exemple : dans le cas de la loi Normale, le paramètre µ (la moyenne) est estimée par :
=
== n
ii
x
n
Estx
1
1
.µ ; la variance s² est estimée par
=
== n
iixx
n
Ests1
22 )(
1
1
.²σ.
On dit que x est une estimation de la moyenne µ et que s² est une estimation de la variance s².
On remarque que ces estimations dépendent des valeurs de x
1, x
2, … x
n. En effet, un autre
ensemble d’observations aurait donné une autre estimation de µ (ou s²). La valeur numérique
obtenue pour l’estimation d’un paramètre dépend de l’échantillon tiré. Il est donc légitime de
considérer ces estimations comme des variables aléatoires. Nous parlerons alors d’estimateurs
du paramètre (en termes de notation on passe des minuscules - les observations - aux
majuscules - les variables aléatoires -).
Remarque : d’une manière générale, les valeurs types de l’échantillon (comme la variance,
l’indice de symétrie - skewness, ou d’aplatissement - kurtosis, la corrélation de Pearson dans
le cadre bidimensionnel etc.) peuvent être vus comme des variables aléatoires.
L’inférence statistique se propose d’étudier ces nouvelles variables aléatoires, leur
distribution exacte et asymptotique (quand n ?
).
La distribution d’échantillonnage étudiée dans le cadre du cours est celle de la moyenne :
=
=n
ii
X
n
X
1
1
On peut montrer que si la variable X est distribuée suivant une loi ),(σµN, alors X (la
distribution d’échantillonnage de la moyenne) est distribuée suivant une loi Normale
),(n
Nσ
µ. On parle de la distribution échantillonnage de la moyenne X.
L’écart type de cette distribution d’échantillonnage ( n
σ
) est appelé l’erreur type ou erreur
standard (standard error dans SPSS).
(1)
Remarques :
2
1) Dire que X est distribuée suivant une loi Normale ),(n
Nσ
µ est équivalent à dire que : la
variable centrée et réduite
n
xσ
µ
est distribuée suivant une loi N(0,1). (1’)
2) Si X n’est pas distribuée dans la population suivant une loi Normale, alors le résultat n’est
qu’asymptotiquement vrai (c.-à-d. quand n ?
) où µ et s sont la moyenne et l’écart-type
de la distribution inconnue.
3) Lorsque la distribution de X dans la population est normale, la distribution
échantillonnée de la moyenne
X
dépend de s la variance de la variable X dans la
population. Dans ce cas, de deux choses l’une : soit s est connu : et le résultat (1) est
directement exploitable, soit s est inconnu et nous devons remplacer s par son
estimation ; dans ce cas le résultat (1) ou (1’) doit être aménagé. Au lieu d’avoir (1’),
nous avons :
La variable centrée et réduite
n
s
x
µ
est distribuée suivant une loi de « Student » t
n-1
où n est le nombre d’observations dans l’échantillon (2)
La loi de Student « ressemble » à la loi Normale N(0,1) ; elle dépend du nombre de degrés
de liberté (n-1) (cfr. cours de BA2). Lorsque n > 60, la loi de Student (t60) se confond
presque avec la loi Normale N(0,1).
a) Intervalles de confiance
Lorsque l’on peut spécifier la distribution d’échantillonnage (exacte ou asymptotique) d’un
paramètre (ce qui est le cas ici pour la moyenne échantillon), nous pouvons préciser, à
partir de l’estimation que nous avons faite, une région dans laquelle il y a beaucoup de
chance de trouver la vraie valeur du paramètre inconnu de la distribution de X. Cette
région est appelée zone de confiance ou intervalle de confiance.
L’interprétation probabiliste de l’intervalle de confiance est la suivante : quel que soit le
paramètre t de la distribution de X, la probabilité que l’intervalle aléatoire (bi,bs) recouvre la
vraie valeur de t vaut (1 a) ; en d’autres termes, si, ayant calculé b
i, et b
s à partir des
données de l’échantillon x
1, x2, … xn, on affirme que la vraie valeur de t est située entre a et
b, on émet une proposition qui sera vraie dans (1 a)100 cas sur cent.
Les résultats - (1’) et (2) - permettent d’introduire la notion d’intervalle de confiance sur
une moyenne. Nous pouvons écrire lorsque est connue :
α
σµαα =
<
<1
2
1
2
1z
n
X
zP (3)
2
1α
zest le quantile d’ordre 2
1α
de la loi Normale N(0,1). Si a = 5 % alors
2
1α
z=1,96…
Si la variance est inconnue, alors nous devons utiliser la relation (2) pour obtenir :
α
µαα =
<
<1
2
1;1
2
1;1nn t
n
s
X
tP (4)
3
2
1;1α
n
test le quantile d’ordre 2
1α
de la loi de Student à n-1 degrés de liberté. Si a = 5 % et
n = 20 alors
2
1;1α
n
t=2,093…
A ce stade, les événements décrits dans les relations (3) et (4) peuvent se réécrire :
En écrivant l’événement entre crochets (3).
Si s est connu :
2
1
2
1αα σµ
<
<z
n
X
z
En isolant (au centre) µ (par calcul
algébrique élémentaire) :
n
zXµ
n
zXσσ αα 2
1
2
1+<<
En écrivant l’événement entre crochets (4)
Si s est inconnu :
2
1;1
2
1;1αα µ
<
<nn t
n
s
X
t
En isolant (au centre) µ (par calcul
algébrique élémentaire) :
n
s
tXµ
n
s
tXnn 2
1;1
2
1;1αα +<<
Ces relations définissent l’intervalle de confiance sur le paramètre µ :
+n
zX
n
zXσσ αα 2
1
2
1; si s est connu,
+n
s
tX
n
s
tXnn 2
1;1
2
1;1;αα sinon.
La longueur de l’intervalle vaut n
zσ
α
2
1
2
(ou n
s
tn2
1;1
2α
). Pour un niveau a donné cette
longueur diminuera avec une augmentation de la taille de l’échantillon.
SPSS permet de représenter l’intervalle de confiance sur une moyenne à l’aide du graphique
« Error bar » :
1
Groupe
174
172
170
168
166
164
162
95% CI TAILLE en CM
4
b) Test d’hypothèses
C’est toujours la relation (1’) ou (2) qui est utilisée lors d’un test d’hypothèse de conformité
sur µ.
Un test se caractérise par une hypothèse nulle H0 et une hypothèse alternative H1. L’hypothèse
nulle dans le cas d’un test bilatéral de conformité s’écrit :
H0 : µ = µ
0 où µ0 est une valeur fixée.
Lors de l’exécution d’un test, nous nous plaçons dans le cas ou l’hypothèse nulle est
vérifiée (µ = µ
0) :
Donc les relations (3) et (4) peuvent se réécrire :
En écrivant l’événement entre crochets (3)
Si s est connu :
2
1
0
2
1αα σ<
<z
n
µX
z
En isolant (au centre)
X
(par calcul
algébrique élémentaire) :
n
zµX
n
zµσσ αα 2
1
0
2
1
0+<<
la zone définie par :
+n
zµ
n
zµσσ αα 2
1
0
2
1
0;
est appelée zone d’acceptation de H
0. En
d’autres termes, si
X
(que l’on a obtenu
avec les données de l’échantillon) est
compris entre ces bornes, on ne rejettera
pas H0.
En écrivant l’événement entre crochets (4)
Si s est inconnu :
2
1;1
0
2
1;1αα µ
<
<nn t
n
s
X
t
En isolant (au centre)
X
(par calcul
algébrique élémentaire) :
n
s
tµX
n
s
tµnn 2
1;1
0
2
1;1
0αα +<<
la zone définie par :
+n
s
tµ
n
s
tµnn 2
1;1
0
2
1;1
0;αα
est appelée zone d’acceptation de H
0. En
d’autres termes, si
X
(que l’on a obtenu
avec les données de l’échantillon) est
compris entre ces bornes, on ne rejettera
pas H0.
5
On constate donc que les notions d’intervalle de confiance (IC) et de test d’hypothèse sont
étroitement liées.
Cependant l’IC fournit une information supplémentaire à celle du test d’hypothèse. Si l’on
rejette une hypothèse nulle µ = µ
0, on n’est pas plus avancé sur la valeur réelle du paramètre µ
inconnu. L’intervalle de confiance quant à lui fournit une plage de variation dans laquelle il y
a une forte probabilité de trouver la vraie valeur du paramètre inconnu.
La longueur de l’IC est la distance à laquelle il faut être de µ
0 pour avoir une puissance de test
de (1-a).
SPSS ne permet pas de représenter graphiquement la zone d’acceptation d’un test. Pour ce
faire XL offre plus de souplesse.
Voici, en XL, une représentation commune de l’IC et de la zone d’acceptation d’un test t de
conformité de moyenne : 10.169=Xet 170
0=µ. Les longueurs sont identiques mais l’intervalle
est centré sur x pour l’IC. Dans le cas des tests d’hypothèse, l’intervalle est centré sur µ
0 et
définit la zone d’acceptation. Si x tombe dans la zone d’acceptation, on ne rejette pas
170
0=µ.
En changeant la valeur de test : µ
0 = 160, nous obtenons le graphique suivant : les longueurs
d’intervalles n’ont pas changé (puisque n, s et a sont restés identiques) seul l’intervalle
d’acceptation à translaté vers le bas. x tombe maintenant en dehors de la zone d’acceptation
et nous pouvons rejeter l’hypothèse H0 : µ
0 = 160. Si l’hypothèse nulle est rejetée, nous avons
néanmoins, avec l’intervalle de confiance, une idée de l’endroit probable de la vraie valeur de
µ.
140
145
150
155
160
165
170
175
180
IC Test
140
145
150
155
160
165
170
175
180
IC Test
1 / 12 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !