CHAPITRE 8 Estimation de paramètres 1. Distribution des moyennes des échantillons Dans ce chapitre, nous étudierons comment est distribué la moyenne de tous les échantillons de taille n possibles d’une certaine population. Soit une certaine v.a. X définie sur une population. Celle-ci peut être par exemple • la proportion de fumeurs • l’âge moyen de la population Puisque sonder toute la population peut être pénible, on peut opter pour un sondage c’est-à-dire de prendre un échantillon (une partie de la population) afin d’estimer soit une proportion ou une moyenne dans la population. Avant d’entrer dans les détails, revons sur certaines notations : Définition Exemple N Taille de la population Population du Qc = 7 000 000 X v.a. étudiée Âge d’un québécois µ moyenne de la population âge moyen des québécois σX écart type de la population écart type de l’âge des québécois n Taille d’un échantillon 100 québécois x̄ Moyenne de l’échantillon âge moyen dans l’échantillon s Écart type de l’échantillon écart type de l’âge moyen de l’échantillon L’idée ici est de se servir de x̄ afin d’estimer µ. Mais, à quel point est-ce que cette estimation est bonne et dans quelles conditions ? C’est ce que nous tenterons de découvrir dans ce chapitre. L’aspect le plus important afin de savoir si notre estimation est bonne est sans doute la taille de l’échantillon n. Exemple 8.1. Lors d’un examen sur 10, une classe de 20 personnes a obtenue les notes suivantes : 145 146 8. Estimation de paramètres SOLUTION Exemple fait en classe. Comme le montre l’exemple précédent, les x̄i sont importants. Définition 13. Soit une population de taille N . On définit la v.a X̄ : la distribution des moyennes de tous les échantillons de taille n. Théorème 8.1 (Théorème centrale limite). Soit une variable aléatoire X. Cas 1) Si X ∼ N (µ, σ), alors X̄ ∼ N σ2 µ, . n Cas 2) Si X a une espérance µ et de variance σ 2 , X n’est pas normalement distribué et n > 30, alors 2 σ • X̄ ≈ N µ, si la population est infinie ou si l’échantillon n est choisi avec2 remise. σ N −n • X̄ ≈ N µ, si la population est finie ou si l’échann N −1 tillon est choisi sans remise. 8.2. Estimation de la moyenne d’une population 147 IMPORTANT On considère qu’une population est infinie si N > 20n. Exemple 8.2. Le poids d’un rat de laboratoire est distribué normalement avec une moyenne de 228.6g avec un écart type de 17.8g. On prend au hasard 16 rats. Quelle est la probabilité que la moyenne des poids des 16 rats soit inférieure à 220g ? SOLUTION Posons X : le poids d’un rat de laboratoire. Nous avons que X ∼ N 228.6, 17.82 . 17.82 Nous avons X̄ la moyenne de poids de 16 rats. Alors, X̄ ∼ N 228.6, . 16 Nous cherchons P (X̄ < 220) = P Z< 220 − 228.6 17.8 √ 16 −8.6 =P Z < 4.45 = P (Z < −1.93) = 0.5 − P (0 < Z < 1.93) = 0.5 − 0.4732 = 0.0268 2. Estimation de la moyenne d’une population Soit {x1 , x2 , x3 , ..., xn } les n valeurs d’une variable aléatoire X d’un échantillon choisit aléatoirement. Nous sommes intéressés à estimer la valeur de la moyenne de la population entière, c’est-à-dire µ. Il existe deux façons d’estimer µ. Définition 14 (Estimation ponctuelle). Soit {x1 , x2 , x3 , ..., xn } les n valeurs d’une variable aléatoire X d’un échantillon. L’estimation ponctuelle de la moyenne de la population, notée µ̂, est donnée par µ̂ = x̄. Ce type d’estimation est le plus simple. Par contre, plus la taille de l’échantillon est petite, moins l’estimation sera réaliste. C’est pourquoi le deuxième type d’estimation est plus utilisé. Définition 15 (Estimation par intervalle de confiance). Soit {x1 , x2 , x3 , ..., xn } les n valeurs d’une variable aléatoire X d’un échantillon. L’estimation par intervalle de confiance de la moyenne de la population est donnée par µ ∈ [x̄ − M E, x̄ + M E] , avec une probabilité 1 − α Ici, M E est la marge d’erreur et 1 − α est le niveau de confiance. 148 8. Estimation de paramètres Regardons tout d’abord ce que signifie le niveau de confiance. Il s’agit de la probabilité que la moyenne de la population µ (qui est inconnue) soit dans l’intervalle de confiance IC. Mathématiquement, ceci revient à écrire P (x̄ − M E ≤ µ ≤ x̄ + M E) = 1 − α Il ne reste plus à déterminer comment calculer la marge d’erreur M E. Il est clair que la marge d’erreur dépend de la valeur de 1 − α. Plus cette valeur est proche de 1, plus la marge d’erreur sera grande pour s’assurer que µ soit dans l’intervalle et vice-versa. Regardons comment calculer M E dans le cas où X ∼ N µ, σ 2 . On sait la distribution des moyennes de échantillons de taille n, X̄, est σ X̄ ∼ N µ, √ . n On est intéressé à déterminer M E tel que P (µ − M e ≤ X̄ ≤ µ + M E) = 1 − α. Pour déterminer M E, nous devons utiliser la cote Z. Ainsi, µ − Me − µ µ − Me − µ √ √ ≤Z≤ σ/ n σ/ n −M E ME √ ≤Z≤ √ =P σ/ n σ/ n = 2P (0 ≤ Z ≤ Zα/2 ) = 1 − α, P (µ − M e ≤ X̄ ≤ µ + M E) = P où Zα/2 = ME √ σ/ n Ainsi, en déterminant Zα/2 , on obtient que σ M E = Zα/2 √ . n Ainsi, la probabilité que x̄ ∈ [µ − M e, µ + M E] est de 1 − α. Cependant, nous sommes intéressés à déterminer un intervalle pour µ. Le fait que x̄ ∈ [µ − M e, µ + M E] signifie que x̄ ≥ µ − M E et x̄ ≤ µ + M E. En isolant µ dans les deux inéquations, on obtient que x̄ + M E ≥ µ et x̄ − M E ≤ µ. D’où µ ∈ [x̄ − M E, x̄ + M E]. 8.2. Estimation de la moyenne d’une population 149 Exemple 8.3. Le résultat à un test psychométrique que l’on fait subir aux enfants d’âge préscolaire est une variable obéissant à une loi normale d’écart type 6. On prélève un échantillon au hasard de 144 enfant et on obtient un résultat moyen de 55. Faites une estimation par intervalle de confiance à 94%. SOLUTION allo le monde Malheureusement, il est rare que nous connaissons déjà σ ou que la population suive une loi normale. Le prochain théorème nous permettra de connaître la distribution de X̄ et ainsi de déterminer M E selon le cas. Théorème 8.2. Soit un échantillon de taille n. 2 2 σ σ et M E = zα/2 √ Cas 1) Si X ∼ N µ, σ , alors X̄ ∼ N µ, n n Cas 2) Si X est quelconque, σ M E = zα/2 √ n σ2 Cas 3) Si X est quelconque, σ2 s et M E = zα/2 √ n connue et n ≥ 30, alors X̄ ≈ N σ2 µ, n inconnue et n ≥ 30, alors X̄ ≈ N s2 µ, n et X̄ − µ √ ≈ Tn−1 Cas 4) Si X ∼ N µ, σ 2 , mais σ 2 inconnue et n < 30, alors s/ n s et M E = tn−1,α/2 √ n 150 8. Estimation de paramètres X̄ − µ √ ≈ Tn−1 . Tn−1 est une loi dite de s/ n Student de paramètre ν = n − 1. Nous pouvons trouver la valeur de tn−1,α/2 dans la table suivante : H HH α 0,005 0,010 0,025 0,050 0,100 H ν H H 1 63,6567 31,8205 12,7062 6,3138 3,0777 2 9,9248 6,9646 4,3027 2,9200 1,8856 3 5,8409 4,5407 3,1824 2,3534 1,6377 4 4,6041 3,7469 2,7764 2,1318 1,5332 5 4,0321 3,3649 2,5706 2,0150 1,4759 6 3,7074 3,1427 2,4469 1,9432 1,4398 7 3,4995 2,9980 2,3646 1,8946 1,4149 8 3,3554 2,8965 2,3060 1,8595 1,3968 9 3,2498 2,8214 2,2622 1,8331 1,3830 10 3,1693 2,7638 2,2281 1,8125 1,3722 11 3,1058 2,7181 2,2010 1,7959 1,3634 12 3,0545 2,6810 2,1788 1,7823 1,3562 13 3,0123 2,6503 2,1604 1,7709 1,3502 14 2,9768 2,6245 2,1448 1,7613 1,3450 15 2,9467 2,6025 2,1314 1,7531 1,3406 16 2,9208 2,5835 2,1199 1,7459 1,3368 17 2,8982 2,5669 2,1098 1,7396 1,3334 18 2,8784 2,5524 2,1009 1,7341 1,3304 19 2,8609 2,5395 2,0930 1,7291 1,3277 20 2,8453 2,5280 2,0860 1,7247 1,3253 21 2,8314 2,5176 2,0796 1,7207 1,3232 22 2,8188 2,5083 2,0739 1,7171 1,3212 23 2,8073 2,4999 2,0687 1,7139 1,3195 24 2,7969 2,4922 2,0639 1,7109 1,3178 25 2,7874 2,4851 2,0595 1,7081 1,3163 26 2,7787 2,4786 2,0555 1,7056 1,3150 27 2,7707 2,4727 2,0518 1,7033 1,3137 28 2,7633 2,4671 2,0484 1,7011 1,3125 29 2,7564 2,4620 2,0452 1,6991 1,3114 30 2,7500 2,4573 2,0423 1,6973 1,3104 40 2,7045 2,4233 2,0211 1,6839 1,3031 50 2,6778 2,4033 2,0086 1,6759 1,2987 60 2,6603 2,3901 2,0003 1,6706 1,2958 100 2,6259 2,3642 1,9840 1,6602 1,2901 500 2,5857 2,3338 1,9647 1,6479 1,2832 ∞ 2,5763 2,3267 1,9602 1,6450 1,2816 Dans le dernier cas, nous avons 8.2. Estimation de la moyenne d’une population 151 IMPORTANT Dans la table, α correspond à α/2. Regardons des exemples. Exemple 8.4. Trouver un intervalle de confiance à 95% sur le revenu moyen des femmes sachant que sur un échantillon de 100 femmes la moyenne est de 19502$ et l’écart-type est de 2000$. SOLUTION allo le monde Exemple 8.5. Virgile s’entraîne en courant 5km par jour et il note le temps nécessaire. Après 90 jours de course, il constate qu’en moyenne il prend 22.50 minutes pour parcourir 5km avec un écart-type de 2.40minutes. a) déterminez la moyenne de son temps de parcours avec une estimation ponctuelle. b) déterminez la moyenne de son temps de parcours avec un intervalle de confiance à 99%. SOLUTION allo le monde 152 8. Estimation de paramètres Réponses 165