ECHANTILLONNAGE-STATISTIQUE INFERENTIELLE Objectifs principaux : comprendre la loi faible des grandes nombres et le théorème central limite, connaitre les lois d’échantillonnage, savoir estimer une moyenne ou une fréquence, construire et utiliser un test de validité d’hypothèse. INTRODUCTION L’échantillonnage est l’étude des liens existant entre les paramètres (moyenne ou fréquence) des échantillons issus de la population et ceux de la population elle-même. C’est grâce à l’échantillonnage qu’on peut faire des statistiques inférentielles. - Pour prédire, dix jours avant l’élection, la proportion exacte des camerounais qui va voter pour tel ou tel candidat, il faudrait interroger tous les camerounais : c’est matériellement impossible. On interroge donc un échantillon d’environ mille personnes (sondage) et on en déduit une estimation de la proportion recherchée. - Une machine doit remplir des paquets de sucre de 1kg. Il est matériellement impossible de vérifier que la masse de chaque paquet est bien 1 kg. Alors pour contrôler le bon réglage de la machine, on étudie un échantillon de 50 paquets et on prendra une décision grâce aux tests d’hypothèses, cette théorie doit beaucoup au statisticien anglais KarlPearson. IECHANTILLONNAGE 1) Théorème dit : "loi faible des grands nombres" a) Etude d’un exemple : On lance un dé « normal » et on considère l’évènement A "j’obtiens un 6", on lance n fois le dé. Soit X1 la variable aléatoire de Bernoulli prenant la valeur 1 si le 6 apparait au 1er lancer et la valeur 5 sinon. - La variable aléatoire Sn = X1 + …………………….. + Xn est la variable aléatoire donnant le nombre d’apparitions du 6 au cours des n lancers. - La variable aléatoire n = 1 𝑛 Sn prend pour valeurs la fréquence d’apparition du 6 au cours des n 1 lancers. La variable Sn (somme de nVa de Bernoulli) suit la loi binomiale B (n, ) ; en utilisant les 6 propriétés de la somme de variables aléatoires, on obtient : E (Sn) = 1 5 6 36𝑛 E( n) = et V ( n) = ; d’où𝛿 ( n) = √ 𝑛 6 et V (Sn) = 5𝑛 36 , de même : 5 36𝑛 1 Lorsque n augmente et tend vers l’infini, E ( n) est toujours égale à tandis que l’écart type S (Xn) 6 tend vers 0. Donc, lorsque n tend vers l’infini, la probabilité pour que la fréquence de sortie de 6 soit très 1 proche de est de plus en plus proche de 1. 6 1 Autrement dit : ∀𝜀 ∈ IR++, P ( n- - ! < ℇ) tend vers 1 lorsque 6 n+ ∞. b) Loi faible des grands nombres : Théorème : Soient X1, ………….. ,Xn, n variables aléatoires indépendantes de même loi, définir sur Ω telle que E(Xi) = m et V (Xi) =𝛿². On définit lesvariablesaléatoiresSn = X1 + ………+ Xn et n 1 = Sn. 𝑛 Alors∀𝜀 ∈ 𝐼𝑅 ++, P ( n-E(x)) < 𝜀) tend vers 1 lorsque n +∞. Autrement dit : lim P ( n-E(X)/)= 1 ou Xn converge en probabilité vers 𝐸(𝑋). n + ∞. Ce théorème admis permet de faire le lien entre les statistiques et les probabilités. Il justifie surtout le fait que l’on peut choisir comme probabilité d’un évènement la fréquence statistique d’apparition de cet évènement lorsque le nombre d’expériences est très grand. On doit à jacques Bernoulli une démonstration de la loi faible des grands nombres. 2) Théorème central limite On parle également du théorème de la limite centrée : Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO Théorème Soit X1, ……………….,Xn ; n variables aléatoires indépendantes de même loi, définies sur Ω telle que E (Xi) = m et V (xi) = **² Pour n suffisamment grand, la variable aléatoire Suit approximativement la loi normaleN(m, 𝜎 √𝑛 n = 𝑋1+⋯+𝑋𝑛 𝑛 ). Remarque 1 : Du fait des propriétés admises concernant la somme desv.a suivant des lois normales, si les Xi suivent toutes la même loi normale N (m,𝜎) ; alors n = 𝑋+⋯……+𝑋𝑛 𝑛 suit la loi normale N (m ; 𝜎 √𝑛 ), quelque soit n ∈ 𝐼N. Note : si le Xi suivent une loi quelconque sans qu’il soit besoin de connaitre cette loi des Xi, (pourvu que ce soit la même pour toutes) alors, si n est suffisamment grand, N(m, 8 √𝑛 n = 𝑋1+⋯……….+𝑋 𝑛 𝑛 𝑠𝑢𝑖𝑡 approximativement ). Remarque 2 Nous savons que, pour n suffisamment grand, on peut remplacer les probabilités associées à la loi Binomiale B (n, p) par celles de la loi normale N (m, 𝛿) avec m = np et 𝛿 = √𝑛𝑝𝑞. L’approximation de la loi binomiale par la loi normale est un exemple d’application du théorème de la limite centrée. En effet, si X suit une loi binomiale B(n,p) , alors X est la somme de n v.a de Bernoulli suivant toutes la même loi de moyenne p et d’écart type √𝑝𝑞. Ainsi d’après le théorème de la limite centrée, pour n suffisant grand, 𝑋 𝑛 = 𝑋1+𝑋2+⋯…….+𝑋𝑛 𝑛 suit approximativement la loi N (p, √𝑝𝑞 √𝑛 ) ; ce qui est équivalent à : X = X1 + X2 + ………..+ Xn suit approximativement la loi normale N (np, √𝑛𝑝𝑞). 3) Distribution d’échantillonnage a) Principe L’échantillonnage consiste, connaissant les propriétés d’une population, à déterminer les propriétés des échantillons dans cette population. On ne considère ici que des échantillons aléatoires et des tirages effectués avec remise,pour que les tirages soient indépendants. Dans le cas où l’effectif de la population est grand,ce qui est très souvent le cas des populations que l’on étudie,on peut assimiler les tirages sans remise aux tirages avec remise. L’échantillon peut donc être considéré comme la réalisation d’une suite de n v.a indépendantes de même loi de probabilité. b) Distribution d’échantillonnage de moyennes On considère une population d’effectif N de moyenne m et d’écart type 𝛿.On prélève avec remise un échantillon aléatoire de taille n. L’observation de l’échantillon correspond à l’observation de n v.a X1, x2……………….,xn indépendants de même loi de moyenne m et d’écart type 𝛿. Soit la v.a = échantillon. D’après le théorème de la limite centrée, la loi de (m, 𝛿 √𝑛 𝑋1+⋯……+𝑋𝑛 𝑛 associée à cet peut être approchée par la loi normale N ). Théorème Soit une population d’effectif N ; de moyenne m et d’écart type 𝛿.On prélève un échantillon aléatoire de taille n. soit la v.a. qui associe à chaque échantillon sa moyenne. Alors , pour n suffisamment grand, la loi de peut être approchée par la loi normale N (m, 𝛿 √𝑛 ). Exemple Une production de 10 000 objets est réglée pour un poids moyen de 250 g et pour un écart type de 10g. On prélève 200 objets (tirage avec remise). Calculons la probabilité pour que la moyenne de l’échantillon soit comprise entre 249 g et 251 g. Solution Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO L’échantillon étant suffisamment grand, la loi d’échantillon moyenne 250 et d’écart type P (-√2 ≤ 𝑇 ≤ √2) où T = 10 √200 𝑋−250 √2 2 = √2 2 . Ainsi : P(249 < peut être approchée par la loi normale de −1 𝑥−250 2 √2 2 251) = P (-1 < – 250 <1) = p ( √2 < < 1 √2 2 )= suit la loi normale centrée réduite. Donc P (249 < < 251) = p (−√2 ≤ 𝑇 ≤ √2) = 2𝜋(1.414) -1 = 0.84 c)Distribution d’échantillonnage de fréquence Théorème : Soit une population d’effectif N dont N’ éléments possèdent lecaractère étudié. La fréquence du caractère étudié est P= 𝑁′ 𝑃 . Soit la v.aF donnant la fréquence du caractère étudié pour chaque échantillon aléatoire de taille n prélevé. Alors, pour n suffisamment grand, la loi de F peut êtreapprochée par la loi normale N √ (p, 𝑝(1−𝑝) 𝑛 ): Remarque Ce théorème est un cas particulier du précédent et on est ici dans le cas d’une approximation de la loi binomiale par la loi normale. Exemple Au cours d’une consultation électorale, le candidat d’un parti politique a recueilli 55% des suffrages exprimés. Calculons la probabilité d’avoir, dans un échantillon de taille 100 prélevé parmi les suffrages exprimés, moins de 50% des voix pour ce candidat. Solution La taille de l’échantillon étant suffisamment grande, F suit approximativement la loi N 0,05) Ainsi : p (F <0,5) = p (F – 0,55 <-0,05) = P ( 𝐹−0,55 0,05 (0,55 , < -1) = P ( T < -1) = 1- p ( T≤ 1) = 0,16. Remarque : Si X est la variable donnant le nombre d’éléments de l’échantillon ayant voté pour ce candidat, alors X soit la loi binomiale B (100 ; 0,55). X est une v.a discrète et F est donc aussi une v.a discrète qui prend pour valeurs les fractions 𝑘 100 où 0 ≤ k≤ 100. Pour avoir une valeur plus proche de la réalité, il faut faire une correction de continuité : P(F< 0,495) = P (F-0,55. < − 0,055) = p ( 𝐹−0,55 0,05 < −1,1) = p (T < -1,1) = 1- p (T<1,1) = 0,13. IISTATISTIQUE INFERENTIELLE : ESTIMATION 1) Principe Je ne connais pas la fréquence ou la moyenne d’un caractère d’une population donnée et j’essaie d’estimer en observant un échantillon. Par exemple, avant les élections on ne connait pas encore les résultats, mais on aimerait bien savoir … on ne peut pas interroger toute la population, alors les instituts spécialisés effectuent des sondages, i.einterrogent 1 000 personnes environ dans la population camerounaise et, à partir de là, ils évaluent les résultats que devraient obtenir les différents candidats. L’estimation peut se faire à l’aide d’un nombre qui estime celui recherché : c’est l’estimation ponctuelle, ou à l’aide d’un intervalle : c’est l’intervalle de confiance ou la fourchette. 2) Estimation d’une moyenne Je ne connais pas m (moyenne de la population) et généralement pas non plus 𝛿 (écart type de la population) et je cherche à les estimer à l’aide de la moyenne notée mi (ou ) et de l’écart type 𝛿 i (ou 𝛿 n) d’un échantillon. a) Estimation ponctuelle de m et 𝛿 Règle 1 Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO La moyenne d’un échantillon de taille n prélèvé au hasard dans une population est une bonne estimation ponctuelle de la moyenne m de la population. Règle 2 L’écart type 𝛿𝑛 d’un échantillon de taille n prélevé au hasard dans une population n’est pas une bonne 𝑛 estimation de l’écart type 𝛿 de la population. On admettra que le nombre √ 𝛿𝑛 est une bonne 𝑛−1 estimation ponctuelle de 𝛿. b) Estimation d’une moyenne par intervalle de confiance On considère la v.a X qui, à tout échantillon aléatoire de taille n associe sa moyenne et on suppose que les conditions sont réunies pour considérer que la loi X suit la loi N (n, 𝛿 √𝑛 ). Règle : L’intervalle centré sur la moyenne X de l’échantillon En effet, on a p(m-a<< 𝑚+a) = p (-a < -m<a) = p (-t< = p (-t ≤ 𝑇 ≤ 𝑡) = 2 𝜋 (t) -1, avec t = 𝑡𝛿 ,𝑥 + √𝑛 𝑥−𝑚 𝛿 √𝑛 𝑎 𝛿 √𝑛 𝑡𝛿 √𝑛 est l’intervalle de confiance 2𝜋 (𝑡) − 1. < 𝑡) i.e a = 𝑡𝛿 √𝑛 Exemple Si on suppose que 2 𝜋 (t) – 1 = 0.95, la moyenne de l’échantillon est une valeur prise par la v.a . elle est ou n’est pas dans l’intervalle m-𝛿, m +𝛿, mais on sait que du fait du calcul ci-dessus, 95% des moyennes des échantillons sont dans l’intervalle m-a, m +a, alors m sera de 95 % des intervalles du typex-a, +a. Si l’on dispose d’un échantillon, on dira que l’intervalle x-a, +a est un intervalle de confiance à 95% (plus generalement au niveau de confiance 2 𝜋 (t)-1) de la moyenne de la population. Conditions d’application Les résultats précédents sont valides si les conditions sont réunies pour considérer que la loi de suit la loi normaleN(n, 𝛿 √𝑛 ),càd si l’unedes 3 conditions suivantes sontréalisées : 1) La population suit une loi normale N (m, 𝛿) avec 𝛿 connu, quelque soit la taille de l’échantillon. 2) La population suit une loi normale N (m, 𝛿) avec 𝛿 inconnu, mais l’échantillon est de grande taille (sup à 30) et les résultats s’appliquent alors en prenant pour écart type son estimation ponctuelle. 3) La population suit une loi quelconque de moyenne m et d’écart type 𝛿 et l’échantillon est de grande taille (> à 50). Exemple : Pour mieux gérer les demandes de crédits de ses clients, le directeur d’une agence bancaire réalise une étude relative à la durée de traitement des dossiers. Un échantillon aléatoire non exhaustif de 50 dossiers traités a donné : Temps en minutes 0,10 10,20 20,30 30,40 40,50 50,60 Nombre de personnes 4 9 16 13 5 3 La moyenne de l’échantillon = 28 min. écart de l’échantillon 𝛿𝑛 = 12,69. On en déduit : estimation ponctuelle de la moyenne m de la population : 28 min. Estimation ponctuelle de l’écart type 𝛿 de la population: 𝑛 𝛿 n-1. = √ . 𝛿n = 12,82 𝑛−1 Intervalle de confiance de la moyenne au niveau de confiance de 95% Si est lav.a qui, à chaque échantillon de taille 50, associe la moyenne des durées de traitement des dossiers de l’échantillon, alors suit approximativement la loi normale N par son estimation 𝛿 n-1 = 12,82. On a p (m-a ≤ ≤ m+a) = p (-a ≤ 𝑋 − 𝑚 < 𝑎) = p (-t ≤ = p (-t≤ 𝑇 ≤ 𝑡) =0,95 ; avec t = −𝑚 𝛿 √50 (m, 𝛿 √50). ) On remplace𝛿 ≤ 𝑡)p (-a < -m<a) = p (-t< −𝑚 𝛿 √𝑛 < 𝑡) 𝑎 𝜎 √50 Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO 2𝜋 (t)-1 = 0,95 càd 𝜋 (t) = 0,975 → t = 1,96 et a = 𝑡 𝛿𝑛−1 √𝑛 = 3,55 D’où l’intervalle de confiance de la moyenne au niveau de confiance de 95 % (ou au seuil de 5%)est : x-a ; x +a, soit 28-3,55 ; 28 + 3,55, c a d 24, 45, 31, 55, Conclusion : on peut estimer que (et on est "sur à 95%") que la moyenne du temps passé dans l’agence pour le traitement d’un dossier est comprise entre 24,45 min et 31,55min. Remarque Avec d’autres échantillons de même effectif, on pourrait obtenir d’autres intervalles de confiance de cette moyenne avec le même coefficient de confiance (dans cet exemple 95%). 3)estimation d’une proportion a- Estimation Ponctuelle La proportion Pn du caractère dans un échantillon de taille n prélevé au hasard dans une population est une bonne estimation ponctuelle de la proportion P du caractère de la population. b-Estimation d’une proportion par intervalle de confiance On considère une population en proportion p (ou fréquence ou pourcentage), on considère la v.a F, qui à tout échantillon aléatoire de taille n associe la population du caractère considéré dans l’échantillon. On suppose que les conditions sont réunies pour considérer que la loi de F peut être approchée par la loi normale N (p, √ 𝑝(1−𝑝) 𝑛 ). Un calcul similaire à celui effectué précédemment pour l’estimation d’une moyenne nous amèneau résultat suivant : l’intervalle centré sur la proportion pn de l’échantillonpn – t √ 𝑝 (1−𝑝) 𝑛 , pn + t √ 𝑝 (1−𝑝) 𝑛 , est l’intervalle de confiance d’une proportion p de la population au niveau de confiance 2𝜋 (t) -1. mais, pour calculer √ 𝑝 (1−𝑝) 𝑛 , il faut connaitre p et c’est justement le paramètre qu’on cherche à estimer. Pour résoudre ce problème on peut prendre √ 𝑃𝑛 (1−𝑝) 𝑛 √ 𝑛 𝑛−1 =√ 𝑝 (1−𝑝n) 𝑛−1 . D’où la règle suivante : Règle : L’intervalle centré sur une proportion Pn de l’échantillon, Pn - t√ 𝑃𝑛 (1−𝑃𝑛 𝑛−1 , pn + t√ 𝑃𝑛 (1−𝑃𝑛 𝑛−1 est l’intervalle de confiance de proportion P de la population au niveau de confiance 2𝜋 (t) -1. Les conditions d’application de ce résultat sont réunies si l’échantillon est de grande taille (> à 50). Exemple : Dans un sondage effectué 15 jours avant le scrutin auprès de 1000 personnes choisis de façon aléatoire dans la ville de FOUMBAN , 458 personnes se déclarent favorables à la candidate Mme MBOMBO. La proportion d’électeur favorable à cette dame dans cette échantillon est de Pn = 45,8% L’estimation ponctuelle de la proportion d’électeurs favorable à Mme MBOMBO dans cette ville est de 45,8%. Déterminons l’intervalle de confiance au seuil de 5% de la proportion p d’électeurs qui vont voter pour Mme MBOMBO. On a : 2𝜋 (t) -1 = 0,95 𝜋 (t) = 0,975 t = 1,96 et t √ 𝑝 (1−𝑝) 𝑛−1 = 0,03 d’où l’intervalle de confiance de la proportion au niveau de confiance de 95% l’on au seuil de 5% est 0,428 ; 0,488. A partir du sondage effectué sur 1000 personnes, on peut estimer (avec un coefficient de confiance de 95% que le score de Mme MBOMBO sera dans la fourchette 0,428 ; 0,488. Confiance à 90%, risque de 10% : 2𝜋 (t) -1 = 0,9 𝜋 (t) = 0,95 t = 1,64 Confiance à 99 %, risque de 1% : 2𝜋 (t) -1 = 0,99 𝜋 (t) = 0,995 t = 2,58 IIISTATISTIQUE INFERENTIELLE : TESTS DE VALIDITE D’HYPOTHESE 1- Principe Je connais la valeur théorique de la moyenne ou de la proportion d’un certain caractère d’une population donnée et je vais vérifier que cette valeur est conforme à l’aide d’un échantillon. Par exemple, une machine est réglée pour produire des pièces par jour, il est bien évident qu’il est impossible (ce serait trop long et trop couteux) de vérifier toutes les pièces. Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO On prend donc, à la sortie de la machine, une cinquantaine ou une centaine de pièces au hasard et on les mesure. Imaginons que l’on mesure 10 pièces sur les 14 000, supposons qu’elles mesurent toutes 10 mm ; puis-je en déduire que toutes les piècessont bonnes ? Certes, non ! Il se pourrait que seules ces 10 pièces soient bonnes et 13990 autres sont mauvaises. C’est théoriquement possible, mais pratiquement impossible : la probabilité d’un tel évènement est nulle. Par contre, si on a une forte proportion de pièces mauvaises parmi les 10, il y a de grandes chances que la machine soit mal réglée et que beaucoup de pièces parmi les 14 000 soient mauvaises. 2- Test de conformité d’une moyenne : a) Etude générale On pense que la moyenne théorique de la population est m, je cherche à vérifier si cette valeur de m est exacte à l’aide d’un échantillon. On suppose que les conditions sont réunies pour considérer que la v.aXn qui à tout échantillon aléatoire de taille n associe la moyenne de cet échantillon suit la loi normale N (m, 𝛿 √𝑛 ).c a d que, soit X suit la loi normale N (m, 𝛿) ,soit l’échantillon est assez grand pour que le théorème central limite s’applique. Première étape Formuler l’hypothèse nulle H0 : cette hypothèse s’exprime dans les cas qui nous concernent sous forme d’une égalité. Par exemple m = 10. C’est l’hypothèse que celui qui fait le test croie vraie et qu’il ne rejettera que si elle est infirmée de l’expérience. Deuxième étape : Formuler l’hypothèse H1 : le choix de cette hypothèse détermine la région critique. Test bilatéral : si H1 est la négation de H0, cad m ≠10, alors le test est bilatéral et la région critique a la forme suivante : Zone d’acceptation de H0 Zone de rejet de H0 - 10 Région critique Test unilatéral à gauchhe : H1 : m >10, on a : Seuil critique Zone d’acceptation de H0 Zone de rejet H0 - Test unilatéral à droite : H1 : m> 20, on a Région critique 10 Zone de rejet de H0 Seuil critique Région critique 10 Zone de rejet de H0 Région critique Zone de rejet de H0 Région critique Zone de rejet de H0 Région critique Seuil critique Troisième étape : Après avoir choisi le seuil de signification 𝛼 du test (il est donné dans l’énoncé et vaut en général de 5% à 1%), déterminer alors la région critique, ou la zone d’acceptation du test qui est le complémentaire de la région critique. Cette détermination se fait à l’aide de la v.a X, qui sous l’hypothèse H0 suit la loi normale N (m, 𝛿 √𝑛 ). Quatrième étape Enoncer la règle de décision et conclure en vu des calculs effectués sur l’échantillon. b) Exemple de test de conformité d’une moyenne bilatérale Une machine emballe automatiquement et en série des paquets de beurre : cette machine est réglée pour que la masse d’un paquet de beurre suive une loi normale de moyenne 250 g avec un écart type de 1,7g. On voudrait vérifier si la masse moyenne m des paquets de beurre produits par la machine est bien effectivement de 250g, en supposant que le test est fait auseuil de 5% et que la taille de l’échantillon est de 50. Solution Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO - Hypothèse nulle H0 : m = 250 Hypothèse alternative H1 : m ≠ 250 Zone de rejet de H0 Zone de rejet de H0 Régionqu’on critique Région critique Considérons a choisi un échantillon de250 taille 50 . X est la v.a qui à chaque échantillon de taille 50 associe la moyenne des masse de l’échantillon ; alors X soit approximativement la loi normale N (250, 1,7 √50 ). Seuil critique Remarque L’on ne connait pas l’écart type de la population et si l’échantillon est suffisamment grand, on le remplace 𝑛 par son estimateur 𝛿𝑒 √ obtenu à partir de l’écart type 𝛿𝑒. 𝑛−1 - Déterminons l’intervalle d’acception du test : On a : P (m-a < X< m +a) = P (-a< X – m < a) = P-< = P (-t ≤ T ≤t)= 0,95,avec t= 𝑋−𝑚 𝛿 √50 <t 𝑎 𝛿 √50 Or 2 𝜋 (t) – 1 = 0,95 𝜋 (t) = 0,975 t = 1,96 et a = t 𝛿 √50 = 0,47 D’où l’intervalle d’acception du test est : m-a, m+a , càd : 250-0,47 ; 250 + 0,47 soit 249, 53 ; 250,47 - Règle de décision Si la moyenne de l’échantillon de 50 paquets de beurre est dans l’intervalle ci-dessus ,on accepte H0, sinon on la refuse. - Décision Considérons le tableau statistique suivant : Masse en g 247 48 249 250 252 Nombre de paquets 2 6 8 13 11 On a x = 250,24 ; ainsi x ∈259, 53 ; 250,47. Donc on accepte H0.on peut ainsi affirmer que, au risque de 5 %, la moyenne des paquets de beurre est bien de 250g. Remarque Dans le cas d’un test bilatéral, les calculs sont exactement les mêmes que lorsqu’on détermine un intervalle de confiance. Mais la démarche diffère. - Par exemple dans le cas de la recherche d’un intervalle de confiance à 95% on est amené à déterminer un réel a tel que P (m-a< X< m+a) = 0,95 ; X étant la v.a qui à chaque échantillon de taille n, associe la moyenne des masses de l’échantillon. - Si on ne connait pas la moyenne et qu’on cherche à estimer à l’aide d’un intervalle de confiance, l’intervalle cherché est (x –a, x+a ,x étant la moyenne de l’échantillon. - Si on veut vérifier que la moyenne est bien m et qu’on fait un test bilatéral pour le savoir, l’intervalle d’acceptation du test sera (m –a, m+a. c) Exemple de test de conformité d’une moyenne unilatérale à gauche Un grossiste a négocié l’achat d’un lot de poulets auprès d’une coopérative agricole. La masse moyenne des poulets qu’il doit recevoir est de 1,2 kg avec un écart type de 0,15 kg. Lors de la livraison, un contrôle réalisé sur un échantillon de 180 poulets tirés au hasard donne une moyenne x= 1,098 kg. Le grossiste doit-il, au vu de ces mesures sur cet échantillon, penser que la coopérative n’a pas respecté le contrat ? Solution Notons m la masse des poulets livrés, on va appeler - Hypothèses nulle H0 : m = 1,2kg - Hypothèses alternative H1 : m< 1,2kg La différence avec le 1er exemple est que l’hypothèse alternative n’est pas la négation de H0, en effet, si la masse moyenne des poulets est supérieure à 1,2 kg, on ne pense pas que le grossiste refuse la livraison, et qu’il ait des raisons de ne pas faire confiance à la coopérative. Soit X la v.a prenant pour valeur la moyenne des masses des échantillons de taille 180. Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO Alors, pour l’hypothèse H0, X suit la loi normale N (1,2, √ T= 0,15 180 ). Fixons à 2% le seuil de signification du test. Déterminons la région critique 𝑋−1,2 0,15 180 √ suit la loi N (0,1) On a ainsi : P (T< 𝑡) = 0,02 𝜋 (t) = 0,02 t = -2,05 𝛿 0,15 𝑛 180 Sachant que x + t √ = 1,2 – 2,05 √ = 1,17 ; on a P (X<1,17) = 0,02. Le seuil critique est donc 1,17 kg. - Règle de décision Cette règle est d’accepter H0 si la moyenne de l’échantillon est supérieure à 1,17 et de la rejeter dans le cas contraire. La moyenne des masses des poulets de l’échantillon était de 1,098 kg. Le grossiste va donc rejeter H0 et refuser ainsi la livraison. 3- Test de conformité d’une proportion a- Principe général On considère une population et un caractère de cette population en proportion p (en fréquence, ou pourcentage). On pense sue la proportion théorique du caractère dans la population est p et l’on cherche à vérifier si cette valeur de p est exacte à l’aide d’un échantillon. On considère la v.a F qui, a tout échantillon aléatoire de taille n associe la population du caractère considéré dans l’échantillon. Supposons que les conditions soient réunies pour considérer que la loi de F peut être rapprochée par la loiN(p, √ 𝑝(1−𝑝) 𝑛 ) - Première étape Formulation de l’hypothèse nulle H0 : cette hypothèse s’exprime dans les cas qui nous concernent, sous forme d’une égalité. Par exemple P = 0,7.c’est l’hypothèse que celui qui fait le test croit vraie et qu’il ne rejettera que si elle est infirmée par l’expérience. - Deuxième étape : Formulation de l’hypothèse H1 : le choix de cette hypothèse détermine la région critique : Test bilatéral : si H1 est la négation de H0,càd p≠ 0.7,alors le test est bilatéral et la région critique a la forme : Test unilatéral : si H1 s’ exprime sous la forme d’une inégalité, alors le test est unilatéral et la région critique dépend du sens de l’inégalité : Test unilatéral à gauche : si P < 0.7, on a : …………………………………………………………………………. Test unilatéral à droite :si p > 0.7, on a :Apres avoir choisi le seuil de signalisation & du test ; on peut alors déterminer la région critique, on la zone d’accoplat du test qui est complémentaire de la région critique. Cette détermination se fait à l’aide de la V-a X, qui sont l’hypothèse HO sont la loi normal Quatrieme étape Enoncer la règle de décision et conclure au vu des calculs effectués sur l’échantillon. b- EXEMPLE DE TEST DE CONFORMITE D’ UNE PROPORTION UNILATERALE A DROITE Un établissement scolaire utilise 25 ordinateurs de même modèle. Après 1000h de service, les ordinateurs ont connu au moins une défaillance. Le fournisseur déclare que moins de 10% des ordinateurs de ce type subissent une défaillance pendant les 1000 premières heures d’utilisation. Construisons un test unilatéral au seuil de 5% permettant de vérifier cette affirmation du fournisseur. SOLUTION : Soit F la v-a qui à tout échantillon aléatoire de 25 ordinateurs modèles associe le pourcentage d’ordinateurs de cet échantillon subissant au moins une défaillance pendant les 1000 premières heures d’utilisation.On suppose Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO 𝑝 (1−𝑝) que F suit la loi normale N (p ;√ 25 ) où p est le pourcentage d’ ordinateurs neufs de l’ensemble de la production subissant une défaillance pendant les 1000 premières heures d’utilisation. - Hypothèse nulle H0 : p = 0.1 (p≤ 0.1) Hypothèse alternative : p > 0.1 Test unilatéral : ********************************************** ********************************************************** 0.1 (1−0.5) Le test est fait au seuil de 5% et on a un échantillon de taille 25. l’écart type deFest :√ 25 = 0.06 Si F est la v-a qui à chaque échantillon de taille 25, associe la proportion de machines ayant une défaillance pendant les 1000 premières heures, alors F N N(0.1 0.06) détermination de la zone d’occupation du test (complémentaire de la région critique) P (F< p t a) = P (F-P < a) = p ( (𝑓−𝑝) 0.06 < 𝑡) = 0.95 avec t= 9 0.06 𝜋(t) = 0.99 t = 1.65 et a= 0.1 d’ où le seuil critique du test p= 0.2 et la zone d’acceptation du test est l’ensemble des valeurs inferieurs a 0.2 - Règle de décision:Si la proportion de l’échantillon des 25 machines est dans la zone ci-dessus, on accepte H0, sinon on la refuse. On a p= 0.16 donc on accepte H0 et on peut affirmer, au risque de 5%, que l’affirmation du fournisseur pour la proportion des ordinaires ayant une défaillance pendant les 1000 premières heures est vraie. 4) RISQUE DE 1ERE ESPECE –RISQUE DE 2E ESPECE : ETUDE D’UN EXEMPLE : Avant d’accepter de joue une partie de sinkenor( le célèbre jeu de dés) avec Nanard le flambeur, Gigi veut s’ assurer que le dé apporté par Nanard n’est pas truqué. Pour cela, il se propose de contrôler la fréquence d’apparition du 5 (très important dans ce jeu) lors d’une série de 400 heures de dés. - CONSTRUCTION D’UN TEST BILATERAL - H0 : P= (le dé n’étant pas truqué) - H1 : P ≠ 1 6 1 6 Si F est la v-a prenant pour valeur la fréquence d’apparition de 5 au cours des 400 lancers, alors sous H0, F suit 1 1 approximativement la loi normale( N ; √6 6 𝑋 5 6 400 ) Détermination de la zone d’acception du test ; au seuil de 5% : on a P (p- a < F< p +a) = 0.95; càd 𝑎 (𝐹−𝑝) P− < 𝛿 𝛿 < 𝑎 𝛿 = 0.95 ainsi 2𝜋( 𝑎 𝛿 ) − 1 = 0.95 , donc a= 0.036 d’où la zone d’acceptation du test est (p- a ; p +a) càd [0.130 ; 0.203]. REGLE DE DECISION : Si à l’issue des 400 lancers, la fréquence obtenue est dans l’intervalle [0.130 ; 0.203], il accepte hypothèse H0 ; sinon il la refuse. DECISION : Gigi effectue les 400 lancers il obtient 49 fois le 5 : Pe= 0.1225 Pe n’est pas dans l’intervalle [0.130 ; 0.203], Il rejette donc H0 et considère que le dé est truqué. Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO B) CHOIX D’UN AUTRE SEUIL : Si Gigi avait fait un test au seuil de 1%, l’intervalle d’acceptation serait alors [0.118 ; 0.215], alors Pe= 0.1225 ∈[0.118 ; 0.215] Gigi aurait accepté l’hypothèse H0 ; càd le dé n’est pas truqué. C) RISQUE 𝛼 ET RISQUE 𝛽: La décision d’accepter comme vraie H0 ou de rejeter H0 se fait au vu du résultat de l’expérience sur 400 lancers. On ne sait pas si H0 est vraie ou non. On peut se tromper et il y a deux risques de se tromper : -Il se peut que le dé ne soit effectivement pas truqué, mais que la fréquence obtenue ne soit pas dans l’intervalle [0.130 ; 0.203] et qu’alors il rejette H0 et considère le dé comme truqué alors qu’il ne l’est pas : c’est le risque de 1ere espèce ou risque𝛼 ;c’est aussi le seuil de signification du test.Ici on a : a= P ( F∈[0.130 ; 0.203]) = 0.05 =5% - Il se peut que le dé soit traqué, mais que la fréquence obtenue soit dans l’intervalle [0.130 ; 0.203] et qu’alors il accepte H0 et considère que le dé comme non truqué alors qu’il l’est : c’est le risque de deuxième espèce ou risque 𝛽. pour calculer ce risque, il nous fait connaitre la valeur de P. DECISION choix de H0 Pas d’erreur H0 est vraie Réalité Erreur de 2e espèce de probabilité 𝛽 H1 est vraie Choix de H1 Erreur de1ere espèce de probabilité 𝛼 Pas d’erreur D )CALCUL DE RISQUE 𝛽 On suppose queNanard a fait effectivement truquer le dé, de telle sorte que la fréquence de sortie du 5 soit P= 1 5 on a, sous l’hypothèse P= F N 1 5 1 ; √5 𝑋 4 5 400 1 5 , aussi pour 𝛼 = 5%, 𝛽= P (0.130 ≤ F < 0.203) = 0.579 Pour 𝛼=1%, 𝛽= P (0.118 ≤ F < 0.215) = 0.773 On constate sur cet exemple et nous admettons de manière générale que plus le risque 𝛼 est grand, plus le risque 𝛽 est petit et réciproquement.On constate également que le risque 𝛽 est nettement plus important que le risque 𝛼. e)DIMIINUTION DES RISQUES Pour un risque 𝛼 donné, on peut diminuer le risque 𝛽 en augmentant la taille de l’échantillon. Supposons que Gigi ait fait son première test (𝛼= 5%) avec un échantillon de 900 lancers. L’intervalle d’acceptation du test aurait été : [0.142 ; 0.191] en effet, sous H0, X suit la loi N ( P (p-a< F< p+ a) = 0.95 càd 𝑎 F−𝑝 𝑎 p (− < 𝜎 𝜎 < )= 0.95,ainsi 𝜎 𝑎 𝑎 𝜎 𝜎 1 6 1 𝑋 ; √6 5 6 900 2 𝜋 ( ) -1= 0.95 et = 1.96; donc a = 0.20 On a alors 𝛽= p (0.142< F < 0.191) d’ où sous l’hypothèse H1, F suit la loi N 1 5 1 𝑋 ; √5 4 5 400 ; on trouve 𝛽 = 0.255 Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO 5) TEST DE COMPARAISON a) comparaison de deux moyennes : Il s’agit de comparer deux populations, c’est à dire de déterminer si deux populations sont semblables ou sensiblement différentes par rapport à une caractéristique particulière.soit la v- a X1 qui a chaque échantillon de taille n1 de la population P1 associer la moyenne m1. on considère n1 suffisamment grand pour que X1 suive la loi normale N (M1 ; N (M2 ; 𝜎1 √𝑛1 𝜎2 √𝑛2 ) ;soit la v-a X2 m1 on considère N1 suffisamment soit pour Q X2 ) on suppose de plus que les deux v-a X1 et X2 sont indépendantes.on retrouve les 4 étapes : -Enoncé de l’hypothèse nulle H0 : m1=m2 - Enonce de l’hypothèse alternative H1 : par exemple m1≠m2 dans le cas d’ untestbilatéral. -Détermination de la zone d’acceptation du test(complémentaire de la région critique) :après avoir choisi le seuil de signification 𝛼 du test, on peut alors déterminer la région critique. Cette détermination se fait à l′ aidede la L’aide de la v.a D=X1-X 2 qui sous l’hypothèse H0 ,suit la loi normale de paramètres 0 et -Enoncé de la règle de décision et conclusion au vu des calculs effectués sur l’échantillon. Eléments de cours d’échantillonnage et statistique inférentielle par olivier ALIMA MBOUOMBOUO