Echantillonnage M2 MODULE 2 : Estimation par intervalle de confiance Il s’agit dans ce module de trouver une estimation par intervalle de confiance d’un paramètre θ, c’est-à-dire de construire une « fourchette de valeurs numériques permettant de situer » θ avec une probabilité 1 − α 1 − α = Pr ob[θ1 < θ < θ 2 ] La démarche comprend deux étapes : • avant le tirage d’un échantillon de taille n, un estimateur θ̂ a été choisi et la loi de • après tirage, la valeur particulière t de θ̂ calculée à partir des données de l’échantillon permet de déterminer les bornes g1( t ) et g2 ( t ) de l’intervalle de confiance recherché. [ ] probabilité de θ̂ permet de construire un intervalle aléatoire noté g1( θˆ ), g2 ( θˆ ) susceptible de contenir la valeur du paramètre θ avec une probabilité 1-α fixée a priori ; Les paramètres inconnus à estimer seront successivement la moyenne, la variance, la proportion d’une population. Trois autres cas seront considérés : la différence de moyennes, le rapport de variances et la différence de proportions relatives à deux populations. Rappel du module 1 Paramètres de la population La moyenne : m Estimateurs dans l’échantillon La moyenne dans un échantillon : X : estimateur x : valeur calculée La variance : σ2 La variance dans un échantillon : S2 : estimateur s 2 : valeur calculée Ŝ 2 : estimateur sans biais Ŝ2 = La proportion : p n S2 n −1 La proportion dans un échantillon : F : estimateur f : valeur calculée M2Unité 1 : Principe de l’estimation par intervalle de confiance Soit θ̂ l’estimateur d’un paramètre θ inconnu. ( ) θ̂ est une variable aléatoire dont la loi de probabilité notée L(θ̂ supposée connue dépend de θ. Il est possible de trouver deux valeurs particulieres t1(θ) et t2 ( θ) telles que : [ ] 1 − α = Pr ob t1(θ) < θˆ < t 2 (θ) EchM2.doc 1/21 Echantillonnage M2 S’il est possible de réécrire le système d’inégalités en isolant θ, on peut déterminer un intervalle dont les limites dépendent de θ̂ et tel que : [ ] 1 − α = Pr ob g1( θˆ ) < θ < g2 ( θˆ ) Ici, l’intervalle qui encadre θ est aléatoire et il possède la propriété de recouvrir la valeur θ dans 1 − α des cas. La prise en compte d’un échantillon particulier, c’est-à-dire d’une valeur numérique particulière pour θ̂ , et donc pour g1( θˆ ) et g2 ( θˆ ) , permet d’obtenir une fourchette qui a de « grandes » chances de « contenir » la valeur inconnue θ si 1-α est élevé. [ ] [c1, c 2 ] ou [g1(θˆ ), g2 (θˆ )] est appelé intervalle de confiance, 1 − α = Pr ob g1(θˆ ) < θ < g2 ( θˆ ) = Pr ob[c1 < θ < c 2 ] • • c1, c 2 sont les limites de confiance, • 1 − α : degré de confiance ou degré de certitude. Le principe de l’estimation par intervalle de confiance est de proposer un encadrement d’un paramètre inconnu d’une population dont la loi, elle, est connue. α1 + α 2 = α α1 1-α α2 La probabilité α se répartit selon les cas soit à droite d’un certain seuil, soit à gauche, soit à droite et à gauche simultanément. On parlera : • d’intervalle bilatéral symétrique si : α1 = α 2 = α / 2 • d’intervalle bilatéral si α1 ≠ 0 et α 2 ≠ 0 avec α 1 + α 2 = α • d’intervalle unilatéral à gauche si α 2 = 0 • d’intervalle unilatéral à droite si α 1 = 0 Cette démarche appelle trois remarques : • la probabilté 1 − α est fixée conventionnellement a priori. Si 1 − α = 95% , cela signifie que l’intervalle que l’on est susceptible de construire « tombera à côté » de θ (à droite ou à gauche) dans 5% des cas. Si 1 − α = 99% , ce risque est moins important, mais l’intervalle est plus large ; • lorsque l’estimateur θ̂ est sans biais, il est naturel de construire un intervalle centré sur l’estimation ponctuelle obtenue pour θ ; EchM2.doc 2/21 Echantillonnage • M2 ( ) la détermination de la surface correspondant à la probabilité ( 1 − α ) fait intervenir les paramètres permettant de caractériser la distribution de probabilité L(θ̂ . Si cette distribution est par exemple normale, deux paramètres interviennent : m et σ. M2Unité 2 : Estimation par intervalle de confiance de paramètres d’une population 2.1 Estimation par intervalle de confiance de la moyenne d’une population lorsque la variance de la population est connue Le problème est le suivant : il faut encadrer m (moyenne de la population). C'est-à-dire on recherche m1 et m2 telles que : ∃m1, m 2 ∈ ℜ tel les que 1 − α = prob[m1 < m < m 2 ] On suppose que X obéit à une loi normale X ≡ N(m, σ ) avec σ connu On prélève un échantillon IID de taille n On sait que X ≡ N m, σ avec n la taille de l’échantillon (Cf module 1) n Si on forme la variable aléatoire normale centrée réduite U = X−m ≡ N(0,1) σ n Cas d’un intervalle bilatéral Représentons graphiquement cette loi : f(u) α1 α2 1-α u 0 uα1 u1−α 2 uα1 et u1−α 2 sont des valeurs lues dans la table1 de la loi normale centrée réduite. A gauche de uα nous avons une probabilité α 1 d’où uα , à gauche de u1−α , on a une 1 1 2 probabilité cumulée de 1 − α 2 d’où u1−α 2 Ecrivons ce que représente graphiquement la probabilité : 1 − α [ 1 − α = Pr ob u α1 < U < u1− α2 ] Remplaçons U par sa valeur : 1 Note : on met en indice la valeur de la probabilité correspondant à la fonction de répartition EchM2.doc 3/21 Echantillonnage M2 X −m < u1− α2 1 − α = Pr ob u α1 < σ n 1 − α = Pr ob u α1 σ < X − m < u1− α2 σ n n = prob u α1 σ − X < −m < u1− α2 σ − X n n = Pr ob X − u1− α2 σ < m < X − u α1 σ n n 1442443 144244 3 m1 m2 Nous obtenons donc l’encadrement de m ; m est compris entre m1 et m2. Cas particulier : intervalle bilatéral symétrique Intervalle bilatéral symétrique si : α1 = α 2 = α / 2 Graphique 1 f(u) α/2 α/2 1-α uα / 2 = −u1−α / 2 u uα / 2 = − u1−α / 2 0 u1−α / 2 = − uα / 2 1 − α = Pr ob X − u1− α / 2 σ < m < X − uα / 2 σ n n Comme u1− α / 2 = −u α / 2 on peut écrire : 1 − α = Pr ob X − u1− α / 2 σ < m < X + u1− α / 2 σ n n Ou encore : 1 − α = Pr ob X + u α / 2 σ < m < X − uα / 2 σ n n Ce qui revient à écrire : 1 − α = Pr ob m ∈ X ± u α / 2 σ ou 1 − α = Pr ob m ∈ X ± u1− α / 2 σ n n Application : EchM2.doc 4/21 Echantillonnage M2 On cherche un intervalle de degré de confiance bilatéral symétrique à 95% de la moyenne d’une population m. On sait que la variable aléatoire obéit à une loi normale dont l’écart type (connu) est 2 : X ≡ N(m,2 ) . On prélève dans cette population un échantillon de taille n=100. X ≡ N m, σ n α1 = α 2 = α / 2 = 2,5% (intervalle bilatéral symétrique) uα / 2 =-1,96 u1−α / 2 =1,96 X−m 95% = Pr ob − 1,96 < < 1,96 σ n = Pr ob m ∈ X ± u α / 2 σ n Supposons que dans l’échantillon la moyenne soit égale à 10 : x = 10 L’intervalle de confiance calculé est donc : (on le note : IC .95 ) IC.95 = [10 ± 1,96 2 100 ] = [9,61 ; 10,39] Il y a une probabilité de 95% que [9,61 ; 10,39] encadre la vraie valeur du paramètre m qui demeure inconnu. Détermination d’une borne supérieure On cherche ici m2 tel que : 1 − α = Pr ob[m < m 2 ] = Pr ob[− m > −m 2 ] X − m X − m2 = Pr ob X − m > X − m 2 = Pr ob > σ n σ n [ ] X − m2 = Pr ob U > σ n Comme U ≡ N(0 ,1) on a 1 − α = Pr ob[U > U α ] c'est-à-dire : X −m 1 − α = Pr ob > Uα σ n [ n − X] = Pr ob[m < X − U α σ n ] = Pr ob − m > U α σ Pour α = 5% on a U0,05 = −1,6449 Donc dans note exemple on a la Borne Supérieure suivante : BS = 10 + 1,6449 2 10 = 10,32898 ≈ 10,33 Détermination d’une borne inférieure Le problème est similaire au précédent, c'est-à-dire que l’on cherche m1 tel que : EchM2.doc 5/21 Echantillonnage M2 1 − α = Pr ob[m > m1 ] = Pr ob[− m < −m1 ] X − m X − m1 X − m = Pr ob < < U1− α = Pr ob σ n σ n σ n [ n − X] = Pr ob[m > X − U1− α σ n ] = Pr ob − m < U1− α σ Application numérique : U1− α = U0,95 = 1,6449 La borne inférieure est donc : BI = 10 − 1,6449 2 10 = 9,767 2.2 Estimation par intervalle de confiance de la moyenne d’une population lorsque la variance de la population est inconnue Le problème est toujours le même : il faut encadrer m. C'est-à-dire on recherche les m1 et m2 telles que : ∃m1, m 2 ∈ ℜ telles que 1 − α = prob[m1 < m < m 2 ] X ≡ N(m, σ ) par hypothèse mais ici σ est inconnu X ≡ N m, σ avec n la taille de l’échantillon n Lorsque σ est inconnu, on utilise la loi de Student. (Cf module 1) X −m ≡ T(n − 1) s n −1 X−m X−m n = ≡ T (n − 1) car Ŝ 2 = S2 S n − 1 Ŝ n −1 n avec : S : estimateur biaisé de σ Ŝ : estimateur sans biais de σ. Cas d’un intervalle bilatéral Représentons graphiquement cette loi : f(T) α1 α2 1-α T(n-1) t α1 EchM2.doc 0 t1−α2 6/21 Echantillonnage M2 tα1 et t1−α2 sont des valeurs lues dans la table de Student. On met ici aussi en indice le seuil de probabilité correspondant à la fonction de répartition. Ecrivons ce que représente graphiquement la probabilité 1 − α : [ 1 − α = Pr ob t α1 < T(n − 1) < t1−α2 ] Remplaçons T(n-1) par son expression : X −m 1 − α = Pr ob t α1 < < t1− α 2 S n−1 = Pr ob t α1 S < X − m < t1− α 2 S n −1 n − 1 = Pr ob − X + t α1 S < −m < t1− α 2 S − X n −1 n −1 1 − α = Pr ob X − t 1− α2 S < m < X − t α1 S n4 −31 1444244 14424n 4−31 m1 m2 Nous obtenons donc l’encadrement de m Cas particulier : intervalle bilatéral symétrique Graphique 2 f(T) α1 = α 2 = α / 2 α/2 α/2 1-α tα / 2 tα / 2 = −t1−α / 2 T(n-1) 0 t1−α / 2 = − t1−α / 2 = − tα / 2 1 − α = Pr ob m ∈ X ± t 1− α / 2 S n − 1 ou encore : 1 − α = Pr ob m ∈ X ± t α / 2 S n − 1 Intervalle unilatéral à droite Dans ce cas, α 1 = 0 et α 2 = α EchM2.doc 7/21 Echantillonnage M2 X −m 1 − α = Pr ob < t1− α S n −1 = Pr ob m > X − t 1− α S n4 −31 1444244 m1 Intervalle unilatéral à gauche Dans ce cas, α 1 = α et α 2 = 0 X−m 1 − α = Pr ob > t α = Pr ob m < X − t α S S n − 1 n −1 = Pr ob m < X + t 1− α S n − 1 14442444 3 m2 2.3 Estimation par intervalle de confiance de la variance d’une population Par hypothèse, X obéit toujours à une loi normale : X ≡ N(m, σ ) Le problème est le suivant : il faut encadrer σ , l’écart-type de la population qui est inconnu. On recherche donc deux valeurs σ12 et σ 22 encadrant σ 2 [ ∃σ12 , σ 22 ∈ ℜ / 1 − α = prob σ12 < σ 2 < σ 22 On sait que : nS2 σ ] ≡ χ2 (n − 1) avec n la taille de l’échantillon. (Cf module 1) 2 Cas d’un intervalle bilatéral Représentons graphiquement cette loi : f(χ²) α1 α2 1-α 0 χ2α 1 χ12−α 2 χ²(n-1) χ2α et χ12−α sont deux valeurs lues dans la table de la loi du χ 2 . On met ici aussi en indice la 1 2 probabilité correspondant à la fonction de répartition EchM2.doc 8/21 Echantillonnage M2 Ecrivons ce que représente graphiquement la probabilité 1 − α : 2 1 − α = Pr ob χ α < χ 2 (n − 1) < χ12− α 2 1 Remplaçons χ 2 (n − 1) par son expression : nS2 1 − α = Pr ob χ 2α < < χ12−α 2 σ2 1 χ2 χ12−α 1 α 1 2 = Pr ob < < 2 nS2 σ 2 nS 2 nS nS2 2 = Pr ob >σ > χ2 χ12−α 2 α1 nS2 nS2 1 − α = Pr ob < σ2 < χ2 χ2α 1 1−α2 Nous obtenons ici l’encadrement de σ 2 Cas particulier : intervalle bilatéral symétrique f(χ²) α/2 α/2 1-α 0 χ2α / 2 nS2 nS2 1 − α = Pr ob < σ2 < 2 χ2α / 2 χ1−α / 2 χ12− α / 2 χ²(n-1) nS 2 nS 2 ; 2 χ2 1− α / 2 χ α / 2 2 ou encore : 1 − α = Pr ob σ ∈ NB : un χ 2 est toujours positif, donc une seule écriture des seuils. intervalle unilatéral à droite EchM2.doc 9/21 Echantillonnage M2 nS 2 nS 2 1 − α = Pr ob < χ12− α = Pr ob < σ2 χ2 σ 2 1− α nS 2 = Pr ob σ 2 > χ12− α intervalle unilatéral à gauche nS 2 nS 2 1 − α = Pr ob > χ 2α = Pr ob > σ2 χ 2α σ 2 nS 2 = Pr ob σ 2 < 2 χα 2.4 Estimation par intervalle de confiance d’une proportion d’une population Le problème est le suivant : il faut trouver un encadrement de p, c'est-à-dire on recherche deux valeurs p1 et p 2 telles que ∃p1, p 2 / 1 − α = prob[p1 < p < p 2 ] Or sait (Cf module 1) que F ≡ N p, pq avec n la taille de l’échantillon prélevé. n Donc si on forme la variable aléatoire normale centrée réduite, on obtient : F−p pq n ≡ N(0,1) Cas d’un intervalle bilatéral Représentons graphiquement cette loi : f(u) α1 α2 1-α u uα1 0 u1−α 2 Ecrivons ce que représente graphiquement la probabilité 1 − α : [ 1 − α = Pr ob u α1 < U < u1−α2 ] Remplaçons U par sa valeur : EchM2.doc 10/21 Echantillonnage M2 F−p 1 − α = Pr ob uα1 < < u1−α 2 pq n pq pq = Pr ob uα1 < F − p < u1−α 2 n n pq pq = Pr ob uα1 − F < −p < u1−α2 − F n n pq pq 1 − α = Pr ob F − u1− α2 < p < F − u α1 n n 1442443 142 4 43 4 p p 1 2 Nous obtenons donc l’encadrement de p, p compris entre deux valeurs p1 et p 2 . Le problème ici est que p, la valeur que l’on encadre, se retrouve dans les bornes. Il existe trois méthodes pour donner une valeur aux bornes : 1) Remplacer dans les bornes p et q par leur estimation : On l’appelle la méthode des estimateurs : p a pour estimateur sans biais F. E(p̂ ) = p p → p̂ = F q → q̂ = 1 − F Remplaçons : F(1 − F) F(1 − F) < p < F − u α1 1 − α = Pr ob F − u1− α 2 n n Pour un intervalle bilatéral symétrique : F(1 − F) F(1 − F) 1 − α = Pr ob F − u1−α / 2 < p < F − uα / 2 n n F(1 − F) = Pr ob p ∈ F ± u1−α / 2 n Ou encore : 1 − α = Pr ob p ∈ F ± u α / 2 F(1 − F) n 2) Remplacer dans les bornes pq par ¼ : méthode par excès : Soit p l’estimation de F et q=1-p, le maximum de pq = pq ≤ 1 ⇒ 4 pq ≤ n 1 , on considère donc que 4 1 1 = 4n 2 n L’intervalle de confiance bilatéral qui était : EchM2.doc 11/21 Echantillonnage M2 pq pq 1 − α = Pr ob F − u1− α 2 < p < F − uα1 n n Devient alors : 1 1 1 − α = Pr ob F − u1−α 2 < p < F − u α1 2 n 2 n Cas d’un intervalle bilatéral symétrique : pq pq 1 − α = Pr ob F − u1− α / 2 < p < F − uα / 2 n n Comme u1−α / 2 pq 1 ≤ u1−α / 2 n 2 n L’intervalle bilatéral symétrique devient alors : 1 Pr ob p ∈ F ± u1−α / 2 ≥ 1 − α 2 n 3) Méthode de l’ellipse : Elle s’applique uniquement au cas d’un intervalle bilatéral symétrique et ne sera pas détaillée ici. Elle utilise des abaques (courbes dans lesquelles on lit les valeurs des bornes) 2.5 Taille d’un échantillon et précision de l’estimation 2.5.1 Détermination de la taille d’un échantillon en fonction de la précision sur la moyenne Prenons le cas de l’intervalle bilatéral symétrique2 de la moyenne lorsque l’écart_type est connu. σ σ On a 1 − α = Pr ob X − u1 − α / 2 < m < X + u1− α / 2 n n 1442443 1442443 m1 m2 Lorsque n augmente, la taille de l’intervalle [m1, m2 ] diminue. [m1, m2 ] dépend à la fois de 1-α et de n. Réécrivons l’intervalle : σ σ 1 − α = Pr ob − u1− α / 2 < − X + m < u1− α / 2 n n σ = Pr ob X − m < u1− α / 2 n 2 On ne peut pas utiliser la cas de l’intervalle bilatéral pour la recherche de la taille d’un échantillon en fonction de la précision. Il faut obligatoirement un intervalle bilatéral symétrique. EchM2.doc 12/21 Echantillonnage M2 On cherche la valeur n telle que la précision sur la moyenne soit égale à C. Le précision sur la moyenne est l’écart qui existe entre la moyenne d’échantillon et la moyenne de la population. Il existe deux façons de la calculer : • [ ] Précision en valeur absolue 1 − α = Pr ob X − m ≤ C [ Le problème est le suivant : ∃n * tel que 1 − α = Pr ob X − m < C ] On a en outre : σ 1 − α = Pr ob X − m < u1− α / 2 * n D’où X − m ≤ u1− α / 2 ⇔ n * ≥ u12− α / 2 σ n* ≤ C ⇒ n * ≥ u1− α / 2 σ C σ2 C2 Pour déterminer n*, il faut connaître u1−α / 2 , C et σ 2 . Si σ 2 n’est pas connu, on passe à la loi de Student (on prend s 2 et t 1 − α / 2 ). • Précision en valeur relative Le problème est le suivant : X −m ∃n * tel que 1 − α = Pr ob ≤ C m [ ⇔ 1 − α = Pr ob X − m < Cm ] De plus on dispose de : 1 − α = Pr ob X − m < u1− α / 2 D’où : X − m ≤ u1− α / 2 σ ⇔ n * ≥ u12− α / 2 n* Si σ2 m 2 σ n* ≤ Cm ⇒ n * ≥ u1− α / 2 σ n * σ n* 1 C2 2 est inconnu, on tire un échantillon auxiliaire et on calcule x et s 2 . 2.5.2 Détermination de la taille d’un échantillon en fonction de la précision sur une proportion Le principe est le même que précédement • Précision en valeur absolue EchM2.doc 13/21 Echantillonnage M2 [ ] On cherche n* tel que : Pr ob F − p < C = 1 − α n est la taille nécessaire pour que l’erreur sur l’estimation soit inférieure à C, avec une probabilité égale à 1-α. De plus l’intervalle de confiance de la proportion est égal à : pq pq 1 − α = Pr ob − u1− α / 2 < p − F < u1− α / 2 n* n * pq 1 − α = Pr ob p − F ≤ u1− α / 2 n * D’où : p − F ≤ u1− α / 2 ⇔ p − F ≤ u1− α / 2 ⇒ n * ≥ u12− α / 2 • pq n* 1 2 n * ≤C ≤ C si on utilise la méthode par excès. 1 4C 2 Précision en valeur relative F−p ∃n * tel que 1 − α = Pr ob < C p pq pq 1 − α = Pr ob F − u1− α / 2 < p < F + u1− α / 2 * n n * On a donc : pq 1 − α = Pr ob p − F ≤ u1− α / 2 n * 1 − α = Pr ob p − F ≤ Cp [ ] D’où : p − F ≤ u1− α / 2 n * ≥ u1− α / 2 n * ≥ u12− α / 2 pq n* ≤ Cp pq Cp pq 2 2 C p = u12− α / 2 1 4 C p 2 2 Si on utilise la méthode par excès. M2Unité 3 : Estimation par intervalle de confiance de la différence et du rapport de deux paramètres de deux populations tirées d’une loi normale : cas de deux populations, deux échantillons Hypothèse : nous avons deux variables aléatoires X1 et X2 obéissant à deux lois normales. On prélève dans chacune des populations deux échantillons IID. X1 ≡ N(m1, σ1) taille de l’échantillon prélevé : n1 EchM2.doc 14/21 Echantillonnage M2 X2 ≡ N(m2, σ 2 ) taille de l’échantillon prélevé : n2 3.1 Intervalle de confiance de la différence de deux moyennes lorsque les variances des deux populations sont connues On cherche deux valeurs c et d telles que : 1 − α = Pr ob[c < m1 − m 2 < d] ( ) On a vu que : X1 − X 2 ≡ N m1 − m 2 ; σ12 σ 22 + σi connus. (Cf module 1) n1 n 2 D’où la variable aléatoire normale centrée réduite : U= (X1 − X2 ) − (m1 − m2 ) ≡ N(0,1) σ12 σ 22 + n1 n2 Comme dans le paragraphe précédent, on écrit ce que représente graphiquement la probabilité 1− α Plaçons-nous dans le cas d’un intervalle bilatéral : α 1 + α 2 = α f(u) α2 α1 1-α u 0 u α1 [ 1 − α = Pr ob uα1 < U < u1− α2 u1− α2 ] Remplaçons U par sa valeur : X − X 2 − (m1 − m 2 ) 1 − α = Pr ob u α1 < 1 < u1− α2 σ12 σ 22 + n1 n 2 σ12 σ 22 σ12 σ 22 = Pr ob u α1 + < X1 − X 2 − (m1 − m 2 ) < u1− α2 + n1 n 2 n1 n 2 ( ) ( ) σ12 σ 22 σ12 σ 22 = Pr ob u α1 + − X1 − X 2 < −(m1 − m 2 ) < u1− α2 + − X1 − X 2 n1 n 2 n1 n 2 ( EchM2.doc ) ( ) 15/21 Echantillonnage M2 σ12 σ 22 σ12 σ 22 1 − α = Pr ob X1 − X 2 − u1− α 2 + < m1 − m 2 < X1 − X 2 − u α1 + n1 n 2 n1 n 2 ( ) ( ) Cas d’un intervalle bilatéral symétrique : α1 = α 2 = α / 2 Graphique 1 f(u) α/2 α/2 1-α uα / 2 = −u1−α / 2 u uα / 2 0 u1−α / 2 = − u1−α / 2 = − uα / 2 σ2 σ2 1 − α = Pr ob (m1 − m2 ) ∈ X1 − X 2 ± u1−α / 2 1 + 2 n1 n2 ( ) avec ± u1 − α / 2 = ±u α / 2 et u1− α / 2 = −u α / 2 3.2 Intervalle de confiance de la différence de deux moyennes lorsque les variances des deux populations sont inconnues On cherche toujours c et d telles que 1 − α = Pr ob[c < m1 − m 2 < d] (X1 − X2 ) − (m1 − m2 ) ≡ N(0,1) avec σ 1 σ12 σ 22 + n1 n2 et σ 2 inconnus ici. On utilise donc la loi de Student Par hypothèse : σ1 = σ 2 = σ On a vu que (Cf Module 1) (X1 − X2 ) − (m1 − m2 ) 1 1 + n1 n2 EchM2.doc n1S12 + n 2S 22 ≡ T(n1 + n2 − 2) n1 + n2 − 2 16/21 Echantillonnage M2 f(T) α1 α2 1-α T(n-1) 0 t α1 t1−α2 Ecrivons ce que représente graphiquement la probabilité 1 − α et plaçons-nous dans le cas d’un intervalle bilatéral : α 1 + α 2 = α [ 1 − α = Pr ob t α1 < T(n1 + n 2 − 2) < t1− α2 1 − α = Pr ob t α1 < X1 − X 2 − (m1 − m2 ) < t1−α 2 1 1 n1S12 + n2S 22 + n1 n2 n1 + n2 − 2 ( ) 1 1 + 1 − α = Pr ob t α1 n1 n2 1 1 1 − α = Pr ob t α1 + n1 n2 n1S12 + n2S 22 1 1 < X1 − X2 − (m1 − m2 ) < t1− α 2 + n1 + n 2 − 2 n1 n2 ) ( ) n1S12 + n2S22 1 1 − X1 − X2 < −(m1 − m2 ) < t1− α 2 + n1 + n2 − 2 n1 n2 1 1 1 − α = Pr ob X1 − X2 − t1− α 2 + n1 n2 ( ] ( ) n1S12 + n2S22 − X1 − X2 n1 + n2 − 2 n1S12 + n2S22 1 1 < (m1 − m2 ) < X1 − X2 − t α1 + n1 + n 2 − 2 n1 n 2 ( ) n1S12 + n2S22 n1 + n2 − 2 ( ) n1S12 + n2S 22 n1 + n2 − 2 Cas d’un intervalle bilatéral symétrique : α1 = α 2 = α / 2 EchM2.doc 17/21 Echantillonnage M2 f(T) α1 = α 2 = α / 2 α/2 α/2 1-α tα / 2 = −t1−α / 2 T(n-1) tα / 2 0 t1−α / 2 = − t1−α / 2 = − tα / 2 1 1 + 1 − α = Pr ob (m1 − m 2 ) ∈ X1 − X 2 ± t 1−α / 2 n1 n 2 ( ) n1S12 + n 2 S 22 n1 + n 2 − 2 avec t α / 2 = −t1− α / 2 et t1− α / 2 = −t α / 2 3.3 Intervalle de confiance du rapport des variances de deux populations normales σ12 σ 22 On cherche b et c telles que : 1 − α = Pr ob b < < c ou 1 − α = Pr ob b < < c σ 22 σ12 Rappels : X1 ≡ N(m1, σ1) taille de l’échantillon n1 n1S12 X2 ≡ N(m2 , σ 2 ) taille de l’échantillon n2 F(n1,n 2 ) ≡ χ 2 (n1) χ 2 (n 2 ) F(n1 − 1; n2 − 1) = Comme Ŝ 2 = EchM2.doc n1 σ12 ≡ χ 2 (n1 − 1) (Cf Module 1) n2S 22 σ 22 Indépendants ≡ χ 2 (n2 − 1) (Cf Module 1) (Cf Module 1) n2 n1S12 σ 22 (n2 − 1) ⋅ ⋅ (n1 − 1) σ12 n2S22 n Ŝ 2 σ 2 S 2 ⇒ F(n1 − 1; n2 − 1) = 1 ⋅ 2 n −1 Ŝ 22 σ12 18/21 Echantillonnage M2 f(F) α1 α2 1-α 0 F (n − 1,n2 − 1) Fα 1 1 ( n − 1,n − 1) F1−1α 2 2 Plaçons nous dans le cas d’un intervalle bilatéral α 1 + α 2 = α et écrivons ce que représente graphiquement la probabilité 1 − α : [ 1 − α = Pr ob Fα1 < F(n1 − 1; n2 − 1) < F1− α 2 Ŝ 2 σ 2 1 − α = Pr ob Fα1 < 1 2 < F1− α2 Ŝ 22 σ12 Ŝ 22 σ 22 Ŝ 22 1 − α = Pr ob Fα1 < < F1− α2 2 2 2 Ŝ Ŝ σ 1 1 1 ] si on encadre 2 Ŝ1 σ12 Ŝ12 1 1 ou 1 − α = Pr ob 2 (n1 −1,n2 −1) < 2 < 2 (n1 −1,n2 −1) σ 2 Ŝ 2 F Ŝ 2 F1− α2 α1 Rappel : Fα1 (n1, n2 ) = σ 22 σ12 si on encadre σ12 σ 22 1 F1−α1 (n2 ,n1) Autre méthode : on forme F(n 2 − 1, n1 − 1) = Ŝ 22 σ12 σ2 . et on encadre directement 1 σ 22 Ŝ12 σ 22 Cas d’un intervalle bilatéral symétrique : α1 = α 2 = α / 2 f(F) α/2 α/2 1-α 0 EchM2.doc (n −1,n −1) Fα /12 2 F (n −1,n −1) F1−1α / 2 2 19/21 Echantillonnage M2 Ŝ2 σ2 Ŝ2 1 − α = Pr ob Fα / 2 2 < 2 < F1−α / 2 2 Ŝ12 σ12 Ŝ12 Ŝ 2 σ12 Ŝ12 1 1 1 < < ou 1 − α = Pr ob Ŝ 2 F(n1 −1,n2 −1) σ 2 Ŝ 2 F (n1 −1,n2 −1) 2 2 α/2 2 1− α / 2 3.4 Estimation par intervalle de confiance de la différence de deux proportions On cherche à déterminer deux valeurs c et d telles que : 1 − α = Pr ob[c < p1 − p 2 < d] Nous avons deux populations dans lesquelles ont peut définir deux modalités A et A ayant pour probabilités respectives p1 et q1 dans la population 1 (p2 et q2 dans la population 2) Population 1 Population 2 Modalité A p1 p2 Modalité A 1 − p1 = q1 1 − p2 = q2 p1 + q1 = 1 p 2 + q2 = 1 p1 et p2 inconnus. On tire un échantillon dans chacune des populations : on définit alors deux variables aléatoires F1 et F2. Y p̂1 = F1 F1 = 1 n1 p̂ 2 = F2 F2 = Y2 n2 Rappels du module 1 : ( Y1 ≡ B(n1,p1 ) → N n1p1, n1p1q1 ) pq F1 → N p1, 1 1 n1 Y2 ≡ B(n2 ,p 2 ) → N n2p2 , n2p 2q2 ) F2 → N p2, pq p q F1 − F2 → N p1 − p 2; 1 1 + 2 2 n1 n2 ( p 2q2 n2 Ecrivons ce que représente la probabilité 1 − α et plaçons nous dans le cadre d’un intervalle bilatéral α 1 + α 2 = α : [ 1 − α = Pr ob u α1 < U < u1− α2 ] U ≡ N(0,1) (F − F ) − (p1 − p2 ) < u 1 − α = Pr ob uα1 < 1 2 1− α 2 p1q1 p 2q2 + n1 n2 EchM2.doc 20/21 Echantillonnage M2 pq p q pq p q 1 − α = Pr ob uα1 1 1 + 2 2 < (F1 − F2 ) − (p1 − p 2 ) < u1− α 2 1 1 + 2 2 n1 n2 n1 n2 pq p q pq p q 1 − α = Pr ob uα1 1 1 + 2 2 − (F1 − F2 ) < −(p1 − p 2 ) < u1− α 2 1 1 + 2 2 − (F1 − F2 ) n1 n2 n1 n2 pq p q pq p q 1 − α = Pr ob (F1 − F2 ) − u1− α 2 1 1 + 2 2 < p1 − p 2 < (F1 − F2 ) − uα1 1 1 + 2 2 − n1 n2 n1 n2 Il est possible d’utiliser les méthodes vues dans le paragraphe 2.4. 1) Remplacer dans les bornes p et q par leur estimation : p1 → p̂1 = F1 p 2 → p̂ 2 = F2 F (1 − F1 ) F2 (1 − F2 ) F (1 − F1 ) F2 (1 − F2 ) 1 − α = Pr ob (F1 − F2 ) − u1− α 2 1 + < p1 − p 2 < (F1 − F2 ) − u α1 1 + n1 n2 n1 n2 2) Remplacer dans les bornes pq par ¼ : méthode par excès : 1 1 1 1 1 1 1 − α = Pr ob(F1 − F2 ) − u1−α 2 + < p1 − p 2 < (F1 − F2 ) − uα1 + 2 n1 n2 2 n1 n2 Pour un intervalle bilatéral symétrique : F (1 − F1 ) F2 (1 − F2 ) : première méthode 1 − α = Pr ob(p1 − p 2 ) ∈ (F1 − F2 ) ± u1−α / 2 1 + n1 n2 1 1 1 1 − α = Pr ob(p1 − p 2 ) ∈ (F1 − F2 ) ± u α / 2 + 2 n1 n 2 EchM2.doc : deuxième méthode 21/21