MODULE 2 : Estimation par intervalle de confiance

publicité
Echantillonnage
M2
MODULE 2 : Estimation par intervalle de confiance
Il s’agit dans ce module de trouver une estimation par intervalle de confiance d’un paramètre θ,
c’est-à-dire de construire une « fourchette de valeurs numériques permettant de situer » θ avec
une probabilité 1 − α
1 − α = Pr ob[θ1 < θ < θ 2 ]
La démarche comprend deux étapes :
•
avant le tirage d’un échantillon de taille n, un estimateur θ̂ a été choisi et la loi de
•
après tirage, la valeur particulière t de θ̂ calculée à partir des données de l’échantillon
permet de déterminer les bornes g1( t ) et g2 ( t ) de l’intervalle de confiance recherché.
[
]
probabilité de θ̂ permet de construire un intervalle aléatoire noté g1( θˆ ), g2 ( θˆ )
susceptible de contenir la valeur du paramètre θ avec une probabilité 1-α fixée a priori ;
Les paramètres inconnus à estimer seront successivement la moyenne, la variance, la
proportion d’une population. Trois autres cas seront considérés : la différence de moyennes, le
rapport de variances et la différence de proportions relatives à deux populations.
Rappel du module 1
Paramètres de la population
La moyenne : m
Estimateurs dans l’échantillon
La moyenne dans un échantillon :
X : estimateur
x : valeur calculée
La variance : σ2
La variance dans un échantillon :
S2 : estimateur
s 2 : valeur calculée
Ŝ 2 : estimateur sans biais
Ŝ2 =
La proportion : p
n
S2
n −1
La proportion dans un échantillon :
F : estimateur
f : valeur calculée
M2Unité 1 : Principe de l’estimation par intervalle de confiance
Soit θ̂ l’estimateur d’un paramètre θ inconnu.
( )
θ̂ est une variable aléatoire dont la loi de probabilité notée L(θ̂ supposée connue dépend de
θ. Il est possible de trouver deux valeurs particulieres t1(θ) et t2 ( θ) telles que :
[
]
1 − α = Pr ob t1(θ) < θˆ < t 2 (θ)
EchM2.doc
1/21
Echantillonnage
M2
S’il est possible de réécrire le système d’inégalités en isolant θ, on peut déterminer un intervalle
dont les limites dépendent de θ̂ et tel que :
[
]
1 − α = Pr ob g1( θˆ ) < θ < g2 ( θˆ )
Ici, l’intervalle qui encadre θ est aléatoire et il possède la propriété de recouvrir la valeur θ dans
1 − α des cas. La prise en compte d’un échantillon particulier, c’est-à-dire d’une valeur
numérique particulière pour θ̂ , et donc pour g1( θˆ ) et g2 ( θˆ ) , permet d’obtenir une fourchette qui
a de « grandes » chances de « contenir » la valeur inconnue θ si 1-α est élevé.
[
]
[c1, c 2 ] ou [g1(θˆ ), g2 (θˆ )] est appelé intervalle de confiance,
1 − α = Pr ob g1(θˆ ) < θ < g2 ( θˆ ) = Pr ob[c1 < θ < c 2 ]
•
•
c1, c 2 sont les limites de confiance,
•
1 − α : degré de confiance ou degré de certitude.
Le principe de l’estimation par intervalle de confiance est de proposer
un encadrement d’un paramètre inconnu d’une population dont la loi,
elle, est connue.
α1 + α 2 = α
α1
1-α
α2
La probabilité α se répartit selon les cas soit à droite d’un certain seuil, soit à gauche, soit à
droite et à gauche simultanément.
On parlera :
•
d’intervalle bilatéral symétrique si : α1 = α 2 = α / 2
•
d’intervalle bilatéral si α1 ≠ 0 et α 2 ≠ 0 avec α 1 + α 2 = α
•
d’intervalle unilatéral à gauche si α 2 = 0
•
d’intervalle unilatéral à droite si α 1 = 0
Cette démarche appelle trois remarques :
•
la probabilté 1 − α est fixée conventionnellement a priori. Si 1 − α = 95% , cela signifie
que l’intervalle que l’on est susceptible de construire « tombera à côté » de θ (à droite
ou à gauche) dans 5% des cas. Si 1 − α = 99% , ce risque est moins important, mais
l’intervalle est plus large ;
•
lorsque l’estimateur θ̂ est sans biais, il est naturel de construire un intervalle centré sur
l’estimation ponctuelle obtenue pour θ ;
EchM2.doc
2/21
Echantillonnage
•
M2
( )
la détermination de la surface correspondant à la probabilité ( 1 − α ) fait intervenir les
paramètres permettant de caractériser la distribution de probabilité L(θ̂ . Si cette
distribution est par exemple normale, deux paramètres interviennent : m et σ.
M2Unité 2 : Estimation par intervalle de confiance de paramètres d’une
population
2.1 Estimation par intervalle de confiance de la moyenne d’une population
lorsque la variance de la population est connue
Le problème est le suivant : il faut encadrer m (moyenne de la population).
C'est-à-dire on recherche m1 et m2 telles que :
∃m1, m 2 ∈ ℜ tel les que 1 − α = prob[m1 < m < m 2 ]
On suppose que X obéit à une loi normale X ≡ N(m, σ ) avec σ connu
On prélève un échantillon IID de taille n


On sait que X ≡ N m, σ

 avec n la taille de l’échantillon (Cf module 1)
n
Si on forme la variable aléatoire normale centrée réduite U =
X−m
≡ N(0,1)
σ
n
Cas d’un intervalle bilatéral
Représentons graphiquement cette loi :
f(u)
α1
α2
1-α
u
0
uα1
u1−α 2
uα1 et u1−α 2 sont des valeurs lues dans la table1 de la loi normale centrée réduite.
A gauche de uα nous avons une probabilité α 1 d’où uα , à gauche de u1−α , on a une
1
1
2
probabilité cumulée de 1 − α 2 d’où u1−α 2
Ecrivons ce que représente graphiquement la probabilité : 1 − α
[
1 − α = Pr ob u α1 < U < u1− α2
]
Remplaçons U par sa valeur :
1
Note : on met en indice la valeur de la probabilité correspondant à la fonction de répartition
EchM2.doc
3/21
Echantillonnage
M2


X −m


< u1− α2 
1 − α = Pr ob u α1 <
σ


n


1 − α = Pr ob u α1 σ
< X − m < u1− α2 σ 
n
n



= prob u α1 σ
− X < −m < u1− α2 σ
− X
n
n






= Pr ob  X − u1− α2 σ
< m < X − u α1 σ 
n
n
 1442443
144244
3


m1
m2
Nous obtenons donc l’encadrement de m ; m est compris entre m1 et m2.
Cas particulier : intervalle bilatéral symétrique
Intervalle bilatéral symétrique si : α1 = α 2 = α / 2
Graphique 1
f(u)
α/2
α/2
1-α
uα / 2 = −u1−α / 2
u
uα / 2
= − u1−α / 2
0
u1−α / 2
= − uα / 2


1 − α = Pr ob  X − u1− α / 2 σ
< m < X − uα / 2 σ 
n
n

Comme u1− α / 2 = −u α / 2 on peut écrire :


1 − α = Pr ob  X − u1− α / 2 σ
< m < X + u1− α / 2 σ 
n
n

Ou encore :


1 − α = Pr ob  X + u α / 2 σ
< m < X − uα / 2 σ 
n
n

Ce qui revient à écrire :






1 − α = Pr ob m ∈  X ± u α / 2 σ   ou 1 − α = Pr ob m ∈  X ± u1− α / 2 σ  
n
n






Application :
EchM2.doc
4/21
Echantillonnage
M2
On cherche un intervalle de degré de confiance bilatéral symétrique à 95% de la moyenne
d’une population m. On sait que la variable aléatoire obéit à une loi normale dont l’écart type
(connu) est 2 : X ≡ N(m,2 ) . On prélève dans cette population un échantillon de taille n=100.


X ≡ N m, σ

n

α1 = α 2 = α / 2 = 2,5% (intervalle bilatéral symétrique)
uα / 2 =-1,96
u1−α / 2 =1,96


X−m


95% = Pr ob − 1,96 <
< 1,96
σ


n



= Pr ob m ∈  X ± u α / 2 σ  
n 


Supposons que dans l’échantillon la moyenne soit égale à 10 : x = 10
L’intervalle de confiance calculé est donc : (on le note : IC .95 )
IC.95 = [10 ± 1,96 2
100
] = [9,61 ; 10,39]
Il y a une probabilité de 95% que [9,61 ; 10,39] encadre la vraie valeur du paramètre m qui
demeure inconnu.
Détermination d’une borne supérieure
On cherche ici m2 tel que :
1 − α = Pr ob[m < m 2 ] = Pr ob[− m > −m 2 ]
 X − m X − m2 
= Pr ob X − m > X − m 2 = Pr ob 
>

σ n 
 σ n
[
]

X − m2 
= Pr ob U >

σ n 

Comme U ≡ N(0 ,1) on a 1 − α = Pr ob[U > U α ]
c'est-à-dire :
X −m

1 − α = Pr ob 
> Uα 

 σ n
[
n − X]
= Pr ob[m < X − U α σ n ]
= Pr ob − m > U α σ
Pour α = 5% on a U0,05 = −1,6449
Donc dans note exemple on a la Borne Supérieure suivante :
BS = 10 + 1,6449 2
10
= 10,32898 ≈ 10,33
Détermination d’une borne inférieure
Le problème est similaire au précédent, c'est-à-dire que l’on cherche m1 tel que :
EchM2.doc
5/21
Echantillonnage
M2
1 − α = Pr ob[m > m1 ] = Pr ob[− m < −m1 ]
 X − m X − m1 
X − m

= Pr ob 
<
< U1− α 
 = Pr ob 
σ n 
 σ n
 σ n

[
n − X]
= Pr ob[m > X − U1− α σ n ]
= Pr ob − m < U1− α σ
Application numérique : U1− α = U0,95 = 1,6449
La borne inférieure est donc : BI = 10 − 1,6449 2
10
= 9,767
2.2 Estimation par intervalle de confiance de la moyenne d’une population
lorsque la variance de la population est inconnue
Le problème est toujours le même : il faut encadrer m.
C'est-à-dire on recherche les m1 et m2 telles que :
∃m1, m 2 ∈ ℜ telles que 1 − α = prob[m1 < m < m 2 ]
X ≡ N(m, σ ) par hypothèse mais ici σ est inconnu


X ≡ N m, σ
 avec n la taille de l’échantillon
n

Lorsque σ est inconnu, on utilise la loi de Student. (Cf module 1)
X −m
≡ T(n − 1)
s
n −1
X−m
X−m
n
=
≡ T (n − 1) car Ŝ 2 =
S2
S
n
−
1
Ŝ
n −1
n
avec : S : estimateur biaisé de σ
Ŝ : estimateur sans biais de σ.
Cas d’un intervalle bilatéral
Représentons graphiquement cette loi :
f(T)
α1
α2
1-α
T(n-1)
t α1
EchM2.doc
0
t1−α2
6/21
Echantillonnage
M2
tα1 et t1−α2 sont des valeurs lues dans la table de Student. On met ici aussi en indice le seuil
de probabilité correspondant à la fonction de répartition.
Ecrivons ce que représente graphiquement la probabilité 1 − α :
[
1 − α = Pr ob t α1 < T(n − 1) < t1−α2
]
Remplaçons T(n-1) par son expression :


X −m


1 − α = Pr ob t α1 <
< t1− α 2 
S


n−1


= Pr ob t α1 S
< X − m < t1− α 2 S
n −1
n − 1



= Pr ob − X + t α1 S
< −m < t1− α 2 S
− X
n −1
n −1







1 − α = Pr ob  X − t 1− α2 S
< m < X − t α1 S
n4
−31
 1444244
14424n
4−31


m1
m2
Nous obtenons donc l’encadrement de m
Cas particulier : intervalle bilatéral symétrique
Graphique 2
f(T)
α1 = α 2 = α / 2
α/2
α/2
1-α
tα / 2
tα / 2 = −t1−α / 2
T(n-1)
0
t1−α / 2
= − t1−α / 2
= − tα / 2



1 − α = Pr ob m ∈  X ± t 1− α / 2 S
 
n
−
1





ou encore : 1 − α = Pr ob m ∈  X ± t α / 2 S



n − 1 
Intervalle unilatéral à droite
Dans ce cas, α 1 = 0 et α 2 = α
EchM2.doc
7/21
Echantillonnage
M2


 X −m

1 − α = Pr ob 
< t1− α 
S


n −1





= Pr ob m > X − t 1− α S
n4
−31

1444244


m1
Intervalle unilatéral à gauche
Dans ce cas, α 1 = α et α 2 = 0


 X−m



1 − α = Pr ob 
> t α  = Pr ob m < X − t α S
S
n − 1



n −1






= Pr ob m < X + t 1− α S
n
−
1

14442444
3


m2
2.3 Estimation par intervalle de confiance de la variance d’une population
Par hypothèse, X obéit toujours à une loi normale : X ≡ N(m, σ )
Le problème est le suivant : il faut encadrer σ , l’écart-type de la population qui est inconnu. On
recherche donc deux valeurs σ12 et σ 22 encadrant σ 2
[
∃σ12 , σ 22 ∈ ℜ / 1 − α = prob σ12 < σ 2 < σ 22
On sait que :
nS2
σ
]
≡ χ2 (n − 1) avec n la taille de l’échantillon. (Cf module 1)
2
Cas d’un intervalle bilatéral
Représentons graphiquement cette loi :
f(χ²)
α1
α2
1-α
0
χ2α
1
χ12−α
2
χ²(n-1)
χ2α et χ12−α sont deux valeurs lues dans la table de la loi du χ 2 . On met ici aussi en indice la
1
2
probabilité correspondant à la fonction de répartition
EchM2.doc
8/21
Echantillonnage
M2
Ecrivons ce que représente graphiquement la probabilité 1 − α :
2
1 − α = Pr ob χ α
< χ 2 (n − 1) < χ12− α 
2
 1
Remplaçons χ 2 (n − 1) par son expression :


nS2
1 − α = Pr ob χ 2α <
< χ12−α 
2
σ2
 1

 χ2
χ12−α 
1
α
1
2 
= Pr ob 
<
<
2 
 nS2 σ 2
nS 


 2

nS
nS2 
2

= Pr ob
>σ >
 χ2
χ12−α 
2 
 α1


nS2
nS2 
1 − α = Pr ob 
< σ2 <
 χ2
χ2α 
1 
 1−α2
Nous obtenons ici l’encadrement de σ 2
Cas particulier : intervalle bilatéral symétrique
f(χ²)
α/2
α/2
1-α
0
χ2α / 2
 nS2
nS2 
1 − α = Pr ob 
< σ2 <

2
χ2α / 2 
 χ1−α / 2

χ12− α / 2
χ²(n-1)

 nS 2
nS 2  

;
2
 χ2

 1− α / 2 χ α / 2  
2
ou encore : 1 − α = Pr ob σ ∈ 


NB : un χ 2 est toujours positif, donc une seule écriture des seuils.
intervalle unilatéral à droite
EchM2.doc
9/21
Echantillonnage
M2
 nS 2

 nS 2

1 − α = Pr ob 
< χ12− α  = Pr ob 
< σ2 
χ2

 σ 2

 1− α


nS 2 
= Pr ob σ 2 >

χ12− α 

intervalle unilatéral à gauche
 nS 2

 nS 2

1 − α = Pr ob 
> χ 2α  = Pr ob 
> σ2 
 χ 2α

 σ 2


nS 2 
= Pr ob σ 2 <

2 
χα


2.4 Estimation par intervalle de confiance d’une proportion d’une
population
Le problème est le suivant : il faut trouver un encadrement de p, c'est-à-dire on recherche deux
valeurs p1 et p 2 telles que
∃p1, p 2 / 1 − α = prob[p1 < p < p 2 ]



Or sait (Cf module 1) que F ≡ N p,
pq 
avec n la taille de l’échantillon prélevé.
n 
Donc si on forme la variable aléatoire normale centrée réduite, on obtient :
F−p
pq
n
≡ N(0,1)
Cas d’un intervalle bilatéral
Représentons graphiquement cette loi :
f(u)
α1
α2
1-α
u
uα1
0
u1−α 2
Ecrivons ce que représente graphiquement la probabilité 1 − α :
[
1 − α = Pr ob u α1 < U < u1−α2
]
Remplaçons U par sa valeur :
EchM2.doc
10/21
Echantillonnage
M2




F−p
1 − α = Pr ob uα1 <
< u1−α 2 


pq


n



pq
pq 
= Pr ob uα1
< F − p < u1−α 2

n
n 



pq
pq
= Pr ob uα1
− F < −p < u1−α2
− F
n
n





pq
pq 

1 − α = Pr ob F − u1− α2
< p < F − u α1
n
n
1442443
142
4 43
4


p
p
1
2


Nous obtenons donc l’encadrement de p, p compris entre deux valeurs p1 et p 2 .
Le problème ici est que p, la valeur que l’on encadre, se retrouve dans les bornes. Il existe trois
méthodes pour donner une valeur aux bornes :
1) Remplacer dans les bornes p et q par leur estimation :
On l’appelle la méthode des estimateurs :
p a pour estimateur sans biais F. E(p̂ ) = p
p → p̂ = F
q → q̂ = 1 − F
Remplaçons :

F(1 − F)
F(1 − F) 
< p < F − u α1
1 − α = Pr ob F − u1− α 2

n
n


Pour un intervalle bilatéral symétrique :

F(1 − F)
F(1 − F) 
1 − α = Pr ob F − u1−α / 2
< p < F − uα / 2

n
n




F(1 − F)  
= Pr ob p ∈ F ± u1−α / 2

n


 


Ou encore : 1 − α = Pr ob p ∈ F ± u α / 2


F(1 − F)  

n  
2) Remplacer dans les bornes pq par ¼ : méthode par excès :
Soit p l’estimation de F et q=1-p, le maximum de pq =
pq ≤ 1 ⇒
4
pq
≤
n
1
, on considère donc que
4
1
1
=
4n 2 n
L’intervalle de confiance bilatéral qui était :
EchM2.doc
11/21
Echantillonnage
M2

pq
pq 
1 − α = Pr ob F − u1− α 2
< p < F − uα1

n
n 

Devient alors :

1
1 
1 − α = Pr ob F − u1−α 2
< p < F − u α1

2 n
2 n

Cas d’un intervalle bilatéral symétrique :

pq
pq 
1 − α = Pr ob F − u1− α / 2
< p < F − uα / 2

n
n 

Comme u1−α / 2
pq
1
≤ u1−α / 2
n
2 n
L’intervalle bilatéral symétrique devient alors :


1 
Pr ob p ∈ F ± u1−α / 2
 ≥ 1 − α
2 n 


3) Méthode de l’ellipse :
Elle s’applique uniquement au cas d’un intervalle bilatéral symétrique et ne sera pas détaillée
ici. Elle utilise des abaques (courbes dans lesquelles on lit les valeurs des bornes)
2.5 Taille d’un échantillon et précision de l’estimation
2.5.1 Détermination de la taille d’un échantillon en fonction de la précision sur la
moyenne
Prenons le cas de l’intervalle bilatéral symétrique2 de la moyenne lorsque l’écart_type est
connu.




σ
σ 
On a 1 − α = Pr ob  X − u1 − α / 2
< m < X + u1− α / 2

n
n
1442443
1442443

m1
m2


Lorsque n augmente, la taille de l’intervalle [m1, m2 ] diminue. [m1, m2 ] dépend à la fois de 1-α
et de n.
Réécrivons l’intervalle :

σ
σ 
1 − α = Pr ob − u1− α / 2
< − X + m < u1− α / 2

n
n


σ 
= Pr ob  X − m < u1− α / 2

n

2
On ne peut pas utiliser la cas de l’intervalle bilatéral pour la recherche de la taille d’un
échantillon en fonction de la précision. Il faut obligatoirement un intervalle bilatéral symétrique.
EchM2.doc
12/21
Echantillonnage
M2
On cherche la valeur n telle que la précision sur la moyenne soit égale à C. Le précision sur la
moyenne est l’écart qui existe entre la moyenne d’échantillon et la moyenne de la population.
Il existe deux façons de la calculer :
•
[
]
Précision en valeur absolue
1 − α = Pr ob X − m ≤ C
[
Le problème est le suivant :
∃n * tel que 1 − α = Pr ob X − m < C
]
On a en outre :

σ 

1 − α = Pr ob  X − m < u1− α / 2
* 

n 
D’où X − m ≤ u1− α / 2
⇔ n * ≥ u12− α / 2
σ
n*
≤ C ⇒ n * ≥ u1− α / 2
σ
C
σ2
C2
Pour déterminer n*, il faut connaître u1−α / 2 , C et σ 2 . Si σ 2 n’est pas connu, on passe à la loi
de Student (on prend s 2 et t 1 − α / 2 ).
•
Précision en valeur relative
Le problème est le suivant :
 X −m

∃n * tel que 1 − α = Pr ob 
≤ C
 m



[
⇔ 1 − α = Pr ob X − m < Cm
]

De plus on dispose de : 1 − α = Pr ob  X − m < u1− α / 2

D’où : X − m ≤ u1− α / 2
σ
⇔ n * ≥ u12− α / 2 
 n*
Si
σ2
m
2
σ
n*
≤ Cm ⇒ n * ≥ u1− α / 2
σ 

n * 
σ
n*
 1

 C2
2
est inconnu, on tire un échantillon auxiliaire et on calcule x et s 2 .
2.5.2 Détermination de la taille d’un échantillon en fonction de la précision sur une
proportion
Le principe est le même que précédement
•
Précision en valeur absolue
EchM2.doc
13/21
Echantillonnage
M2
[
]
On cherche n* tel que : Pr ob F − p < C = 1 − α
n est la taille nécessaire pour que l’erreur sur l’estimation soit inférieure à C, avec une
probabilité égale à 1-α. De plus l’intervalle de confiance de la proportion est égal à :

pq
pq 
1 − α = Pr ob − u1− α / 2
< p − F < u1− α / 2


n*
n * 

pq 
1 − α = Pr ob  p − F ≤ u1− α / 2

n * 

D’où : p − F ≤ u1− α / 2
⇔ p − F ≤ u1− α / 2
⇒ n * ≥ u12− α / 2
•
pq
n*
1
2 n
*
≤C
≤ C si on utilise la méthode par excès.
1
4C 2
Précision en valeur relative
F−p

∃n * tel que 1 − α = Pr ob 
< C
 p


pq
pq 
1 − α = Pr ob F − u1− α / 2
< p < F + u1− α / 2

*
n
n * 

On a donc :


pq 


1 − α = Pr ob  p − F ≤ u1− α / 2
n * 



1 − α = Pr ob p − F ≤ Cp

[
]
D’où : p − F ≤ u1− α / 2
n * ≥ u1− α / 2
n * ≥ u12− α / 2
pq
n*
≤ Cp
pq
Cp
pq
2 2
C p
= u12− α / 2
1
4
C p
2 2
Si on utilise la méthode par excès.
M2Unité 3 : Estimation par intervalle de confiance de la différence et du
rapport de deux paramètres de deux populations tirées d’une loi normale :
cas de deux populations, deux échantillons
Hypothèse : nous avons deux variables aléatoires X1 et X2 obéissant à deux lois normales. On
prélève dans chacune des populations deux échantillons IID.
X1 ≡ N(m1, σ1) taille de l’échantillon prélevé : n1
EchM2.doc
14/21
Echantillonnage
M2
X2 ≡ N(m2, σ 2 ) taille de l’échantillon prélevé : n2
3.1 Intervalle de confiance de la différence de deux moyennes lorsque les
variances des deux populations sont connues
On cherche deux valeurs c et d telles que : 1 − α = Pr ob[c < m1 − m 2 < d]
(
)




On a vu que : X1 − X 2 ≡ N m1 − m 2 ;

σ12 σ 22 
+
σi connus. (Cf module 1)
n1 n 2 

D’où la variable aléatoire normale centrée réduite :
U=
(X1 − X2 ) − (m1 − m2 ) ≡ N(0,1)
σ12 σ 22
+
n1 n2
Comme dans le paragraphe précédent, on écrit ce que représente graphiquement la probabilité
1− α
Plaçons-nous dans le cas d’un intervalle bilatéral : α 1 + α 2 = α
f(u)
α2
α1
1-α
u
0
u α1
[
1 − α = Pr ob uα1 < U < u1− α2
u1− α2
]
Remplaçons U par sa valeur :






X − X 2 − (m1 − m 2 )
1 − α = Pr ob u α1 < 1
< u1− α2 


σ12 σ 22


+
n1 n 2



σ12 σ 22
σ12 σ 22 

= Pr ob u α1
+
< X1 − X 2 − (m1 − m 2 ) < u1− α2
+

n1 n 2
n1 n 2 


(
)
(
)

σ12 σ 22
σ12 σ 22
= Pr ob u α1
+
− X1 − X 2 < −(m1 − m 2 ) < u1− α2
+
− X1 − X 2

n1 n 2
n1 n 2

(
EchM2.doc
)
(

)

15/21
Echantillonnage
M2


σ12 σ 22
σ12 σ 22 

1 − α = Pr ob X1 − X 2 − u1− α 2
+
< m1 − m 2 < X1 − X 2 − u α1
+

n1 n 2
n1 n 2 


(
)
(
)
Cas d’un intervalle bilatéral symétrique : α1 = α 2 = α / 2
Graphique 1
f(u)
α/2
α/2
1-α
uα / 2 = −u1−α / 2
u
uα / 2
0
u1−α / 2
= − u1−α / 2
= − uα / 2



σ2 σ2 
1 − α = Pr ob (m1 − m2 ) ∈  X1 − X 2 ± u1−α / 2 1 + 2  

n1 n2  




(
)
avec ± u1 − α / 2 = ±u α / 2 et u1− α / 2 = −u α / 2
3.2 Intervalle de confiance de la différence de deux moyennes lorsque les
variances des deux populations sont inconnues
On cherche toujours c et d telles que 1 − α = Pr ob[c < m1 − m 2 < d]
(X1 − X2 ) − (m1 − m2 ) ≡ N(0,1) avec σ
1
σ12 σ 22
+
n1 n2
et σ 2 inconnus ici. On utilise donc la loi de Student
Par hypothèse : σ1 = σ 2 = σ
On a vu que (Cf Module 1)
(X1 − X2 ) − (m1 − m2 )
1
1
+
n1 n2
EchM2.doc
n1S12
+ n 2S 22
≡ T(n1 + n2 − 2)
n1 + n2 − 2
16/21
Echantillonnage
M2
f(T)
α1
α2
1-α
T(n-1)
0
t α1
t1−α2
Ecrivons ce que représente graphiquement la probabilité 1 − α et plaçons-nous dans le cas
d’un intervalle bilatéral : α 1 + α 2 = α
[
1 − α = Pr ob t α1 < T(n1 + n 2 − 2) < t1− α2



1 − α = Pr ob t α1 <






X1 − X 2 − (m1 − m2 )
< t1−α 2 
1
1 n1S12 + n2S 22

+

n1 n2 n1 + n2 − 2

(
)

1
1
+
1 − α = Pr ob t α1
n1 n2



1
1
1 − α = Pr ob t α1
+
n1 n2


n1S12 + n2S 22
1
1
< X1 − X2 − (m1 − m2 ) < t1− α 2
+
n1 + n 2 − 2
n1 n2
)
(
)
n1S12 + n2S22
1
1
− X1 − X2 < −(m1 − m2 ) < t1− α 2
+
n1 + n2 − 2
n1 n2

1
1
1 − α = Pr ob  X1 − X2 − t1− α 2
+
n1 n2


(
]
(
)

n1S12 + n2S22
− X1 − X2 
n1 + n2 − 2


n1S12 + n2S22
1
1
< (m1 − m2 ) < X1 − X2 − t α1
+
n1 + n 2 − 2
n1 n 2
(
)

n1S12 + n2S22 
n1 + n2 − 2 

(
)

n1S12 + n2S 22 
n1 + n2 − 2 

Cas d’un intervalle bilatéral symétrique : α1 = α 2 = α / 2
EchM2.doc
17/21
Echantillonnage
M2
f(T)
α1 = α 2 = α / 2
α/2
α/2
1-α
tα / 2 = −t1−α / 2
T(n-1)
tα / 2
0
t1−α / 2
= − t1−α / 2
= − tα / 2


1
1

+
1 − α = Pr ob (m1 − m 2 ) ∈  X1 − X 2 ± t 1−α / 2

n1 n 2


(
)

n1S12 + n 2 S 22  
n1 + n 2 − 2  
 
avec t α / 2 = −t1− α / 2 et t1− α / 2 = −t α / 2
3.3 Intervalle de confiance du rapport des variances de deux populations
normales




σ12
σ 22



On cherche b et c telles que : 1 − α = Pr ob b <
< c ou 1 − α = Pr ob b <
< c




σ 22
σ12




Rappels :
X1 ≡ N(m1, σ1) taille de l’échantillon n1
n1S12
X2 ≡ N(m2 , σ 2 ) taille de l’échantillon n2
F(n1,n 2 ) ≡
χ 2 (n1)
χ 2 (n 2 )
F(n1 − 1; n2 − 1) =
Comme Ŝ 2 =
EchM2.doc
n1
σ12
≡ χ 2 (n1 − 1) (Cf Module 1)
n2S 22
σ 22
Indépendants
≡ χ 2 (n2 − 1) (Cf Module 1)
(Cf Module 1)
n2
n1S12 σ 22 (n2 − 1)
⋅
⋅
(n1 − 1) σ12 n2S22
n
Ŝ 2 σ 2
S 2 ⇒ F(n1 − 1; n2 − 1) = 1 ⋅ 2
n −1
Ŝ 22 σ12
18/21
Echantillonnage
M2
f(F)
α1
α2
1-α
0
F
(n − 1,n2 − 1)
Fα 1
1
( n − 1,n − 1)
F1−1α 2
2
Plaçons nous dans le cas d’un intervalle bilatéral α 1 + α 2 = α et écrivons ce que représente
graphiquement la probabilité 1 − α :
[
1 − α = Pr ob Fα1 < F(n1 − 1; n2 − 1) < F1− α 2


Ŝ 2 σ 2
1 − α = Pr ob Fα1 < 1 2 < F1− α2 


Ŝ 22 σ12



Ŝ 22 σ 22
Ŝ 22 


1 − α = Pr ob Fα1
<
< F1− α2
2
2
2

Ŝ
Ŝ
σ
1
1
1

]
si on encadre
 2

Ŝ1
σ12 Ŝ12
1
1


ou 1 − α = Pr ob
 2 (n1 −1,n2 −1) < 2 < 2 (n1 −1,n2 −1) 
σ 2 Ŝ 2 F
 Ŝ 2 F1− α2

α1
Rappel : Fα1 (n1, n2 ) =
σ 22
σ12
si on encadre
σ12
σ 22
1
F1−α1 (n2 ,n1)
Autre méthode : on forme
F(n 2 − 1, n1 − 1) =
Ŝ 22 σ12
σ2
.
et on encadre directement 1
σ 22
Ŝ12 σ 22
Cas d’un intervalle bilatéral symétrique : α1 = α 2 = α / 2
f(F)
α/2
α/2
1-α
0
EchM2.doc
(n −1,n −1)
Fα /12 2
F
(n −1,n −1)
F1−1α / 2 2
19/21
Echantillonnage
M2

Ŝ2 σ2
Ŝ2 
1 − α = Pr ob Fα / 2 2 < 2 < F1−α / 2 2 
Ŝ12 σ12
Ŝ12 

 Ŝ 2

σ12 Ŝ12
1
1
1


<
<
ou 1 − α = Pr ob
 Ŝ 2 F(n1 −1,n2 −1) σ 2 Ŝ 2 F (n1 −1,n2 −1) 
2
2 α/2
 2 1− α / 2

3.4 Estimation par intervalle de confiance de la différence de deux
proportions
On cherche à déterminer deux valeurs c et d telles que : 1 − α = Pr ob[c < p1 − p 2 < d]
Nous avons deux populations dans lesquelles ont peut définir deux modalités A et A ayant
pour probabilités respectives p1 et q1 dans la population 1 (p2 et q2 dans la population 2)
Population
1
Population 2
Modalité A
p1
p2
Modalité A
1 − p1 = q1
1 − p2 = q2
p1 + q1 = 1
p 2 + q2 = 1
p1 et p2 inconnus.
On tire un échantillon dans chacune des populations : on définit alors deux variables aléatoires
F1 et F2.
Y
p̂1 = F1 F1 = 1
n1
p̂ 2 = F2 F2 =
Y2
n2
Rappels du module 1 :
(
Y1 ≡ B(n1,p1 ) → N n1p1, n1p1q1
)

pq 
F1 → N p1, 1 1 

n1 

Y2 ≡ B(n2 ,p 2 ) → N n2p2 , n2p 2q2
) F2 → N p2,

pq
p q
F1 − F2 → N p1 − p 2; 1 1 + 2 2

n1
n2





(

p 2q2
n2




Ecrivons ce que représente la probabilité 1 − α et plaçons nous dans le cadre d’un intervalle
bilatéral α 1 + α 2 = α :
[
1 − α = Pr ob u α1 < U < u1− α2
]
U ≡ N(0,1)




(F − F ) − (p1 − p2 ) < u 
1 − α = Pr ob uα1 < 1 2
1− α 2 

p1q1 p 2q2

+

n1
n2


EchM2.doc
20/21
Echantillonnage
M2

pq
p q
pq
p q
1 − α = Pr ob uα1 1 1 + 2 2 < (F1 − F2 ) − (p1 − p 2 ) < u1− α 2 1 1 + 2 2
n1
n2
n1
n2






pq
p q
pq
p q
1 − α = Pr ob uα1 1 1 + 2 2 − (F1 − F2 ) < −(p1 − p 2 ) < u1− α 2 1 1 + 2 2 − (F1 − F2 )
n1
n2
n1
n2




pq
p q
pq
p q
1 − α = Pr ob (F1 − F2 ) − u1− α 2 1 1 + 2 2 < p1 − p 2 < (F1 − F2 ) − uα1 1 1 + 2 2 − 
n1
n2
n1
n2


Il est possible d’utiliser les méthodes vues dans le paragraphe 2.4.
1) Remplacer dans les bornes p et q par leur estimation :
p1 → p̂1 = F1
p 2 → p̂ 2 = F2

F (1 − F1 ) F2 (1 − F2 )
F (1 − F1 ) F2 (1 − F2 ) 
1 − α = Pr ob (F1 − F2 ) − u1− α 2 1
+
< p1 − p 2 < (F1 − F2 ) − u α1 1
+

n1
n2
n1
n2


2) Remplacer dans les bornes pq par ¼ : méthode par excès :

1 1
1
1 1
1 
1 − α = Pr ob(F1 − F2 ) − u1−α 2
+
< p1 − p 2 < (F1 − F2 ) − uα1
+

2 n1 n2
2 n1 n2 

Pour un intervalle bilatéral symétrique :


F (1 − F1 ) F2 (1 − F2 )   : première méthode
1 − α = Pr ob(p1 − p 2 ) ∈ (F1 − F2 ) ± u1−α / 2 1
+

n1
n2

 



1 1
1
1 − α = Pr ob(p1 − p 2 ) ∈ (F1 − F2 ) ± u α / 2
+
2 n1 n 2


EchM2.doc

  : deuxième méthode
 
21/21
Téléchargement