1 - Programme de Seconde (juin 2009) Statistique et probabilités Statistique et probabilités 1 - Programme de Seconde (juin 2009) Statistique et probabilités Statistique et probabilités 2 - Échantillons 2.1 2.1- -Définitions Définitions Quand on doit décrire une population comportant un grand nombre d'individus, on ne peut pas ou on ne veut pas, en général pour des raisons économiques, en faire une étude exhaustive. Les observations ne portent alors que sur un nombre restreint d'individus à sélectionner selon un protocole expérimental. Les individus sélectionnés et leur ordre de sélection constituent un échantillon, leur nombre est la taille de l'échantillon. 2 - Échantillons 2.2 prélever un échantillon ? 2.2- -Comment Comment prélever un échantillon ? Lors d’une prise de décision à partir d‘un échantillon, pour que les résultats de la théorie des probabilités s'appliquent, il est important que l'échantillon soit prélevé au hasard. Chaque individu de la population doit avoir la même probabilité d'être sélectionné. échantillon aléatoire. 2 - Échantillons 2.2 - Comment prélever un échantillon ? Deux types d'échantillons : – Échantillons exhaustifs ou constitués sans remise – Échantillons non exhaustifs ou constitués avec remise Le programme de Seconde 2009 ne retient que ce type d'échantillons : "Un échantillon est constitué des résultats de n répétitions indépendantes de la même expérience". 2 - Échantillons 2.3 2.3- -Échantillonnage Échantillonnage L'échantillonnage est l'étude des distributions de fréquences de variables définies sur l’ensemble des échantillons (proportion, moyenne, variance…). 3 - Distribution de fréquences de la proportion d’échantillonnage 3.1 - Un premier exemple 3.1 - Un premier exemple On considère une population de 4 enfants : Adeline, Benjamin, Clara et David, d'âges respectifs 12, 13, 14 et 15 ans et on s'intéresse aux enfants de plus de 14 ans et demi. Il y en a une proportion p = 1/4 dans la population-mère. On constitue (avec remise) des échantillons de taille 3. On peut ainsi constituer 43=64 échantillons. 3 - Distribution de fréquences de la proportion d’échantillonnage 3.2 – D’autres situations similaires 3.2 – Des situations similaires Tirage d’une boule dans une urne contenant 1 boule blanche et 3 rouges Tirage d’une boule dans une urne contenant 100 boules blanches et 300 rouges Lancer d’un dé tétraédrique équilibré et obtention d'une des faces Roue de loterie dont un quart est peint en rouge et le reste en bleu et obtention du rouge … 3 - Distribution de fréquences de la proportion d’échantillonnage 3.3 - Exemples échantillons de taille 3 45% 40% fréquences 35% 30% 25% 20% 15% 10% 5% 0% 0 1/3 2/3 Proportion d'enfants de plus de 14 ans et demi 1 3 - Distribution de fréquences de la proportion d’échantillonnage 3.3 - Exemples échantillons de taille 10 30% fréquences 25% 20% 15% 10% 5% 0% 0 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 Proportion d'enfants de plus de 14 ans et demi 9/10 10/10 3 - Distribution de fréquences de la proportion d’échantillonnage 3.3 - Exemples échantillons de taille 30 18% 16% 12% 10% 8% 6% 4% 2% Proportion d'enfants de plus de 14 ans et demi 30/30 28/30 26/30 24/30 22/30 20/30 18/30 16/30 14/30 12/30 10/30 8/30 6/30 4/30 2/30 0% 0 fréquences 14% 3 - Distribution de fréquences de la proportion d’échantillonnage 3.3 - Exemples échantillons de taille 100 10% 9% 8% 6% 5% 4% 3% 2% 1% Proportion d'enfants de plus de 14 ans et demi 100/100 95/100 90/100 85/100 80/100 75/100 70/100 65/100 60/100 55/100 50/100 45/100 40/100 35/100 30/100 25/100 20/100 15/100 10/100 5/100 0% 0 fréquences 7% 3 - Distribution de fréquences de la proportion d’échantillonnage 3.4 – Quand n augmente Résultat 1 : Les proportions observées sont de plus en plus souvent proches de la proportion du caractère dans la population-mère lorsque la taille de l'échantillon n augmente. Résultat 2 : Lorsque n est grand la distribution de fréquence de la proportion d’échantillonnage s'approche d'une "distribution en cloche". 3 - Distribution de fréquences de la proportion d’échantillonnage 3.4 – Quand n augmente échantillons de taille 100 10% 9% 8% 6% 5% 4% 3% 2% Proportion d'enfants de plus de 14 ans et demi 96/100 91/100 86/100 81/100 76/100 71/100 66/100 61/100 56/100 51/100 46/100 41/100 36/100 31/100 26/100 21/100 16/100 11/100 0% 6/100 1% 1/100 fréquences 7% 4 - Intervalles de fluctuation 4.1 4.1- -Définition Définition L’intervalle de fluctuation d’une fréquence ou proportion à 95%, pour des échantillons de taille n, est l’intervalle : – d'amplitude minimale, – centré autour de p, proportion du caractère dans la population, – contenant la proportion observée sur un échantillon aléatoire de taille n, avec une probabilité au moins égale à 0,95. 4 - Intervalles de fluctuation 4.2 4.2- -Détermination Détermination Échantillons de taille 10 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : 5,6 % 1/10 18,8 % 2/10 28,2 % 3/10 25,0 % 4/10 14,6 % 5/10 5,8 % 6/10 1,6 % 7/30 0,3 % 8/10 0,0 % 9/10 0,0 % 10/10 0,0 % échantillons de taille 10 30% 25% fréquences p = 25 % 0/10 20% 15% 10% 5% 0% 0 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 Proportion d'enfants de plus de 14 ans et demi Distribution des fréquences 4 - Intervalles de fluctuation 4.2 - Détermination Échantillons de taille 10 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : 5,6 % 1/10 18,8 % 2/10 28,2 % 3/10 25,0 % 4/10 14,6 % 5/10 5,8 % 6/10 1,6 % 7/30 0,3 % 8/10 0,0 % 9/10 0,0 % 10/10 0,0 % échantillons de taille 10 30% 86,6 % pourcentage fréquences d'échantillons p = 25 % 0/10 25% 20% 15% 10% 5% 0% 0 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 Proportion d'enfants de plus de 14 ans et demi Distribution des fréquences 4 - Intervalles de fluctuation 4.2 - Détermination Échantillons de taille 10 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : 5,6 % 1/10 18,8 % 2/10 28,2 % 3/10 25,0 % 4/10 14,6 % 5/10 5,8 % 6/10 1,6 % 7/30 0,3 % 8/10 0,0 % 9/10 0,0 % 10/10 0,0 % échantillons de taille 10 30% 25% 98 % fréquences p = 25 % 0/10 20% 15% 10% 5% 0% 0 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 Proportion d'enfants de plus de 14 ans et demi Distribution des fréquences L'intervalle de fluctuation est [0 ; 0,5]. 4 - Intervalles de fluctuation 4.2 - Détermination Échantillons de taille 30 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : p = 25 % 0/30 0,0% 11/30 5,5% 21/30 0,0% 1/30 0,2% 12/30 2,9% 22/30 0,0% 2/30 0,9% 13/30 1,3% 23/30 0,0% 3/30 2,7% 14/30 0,5% 24/30 0,0% 4/30 6,0% 15/30 0,2% 25/30 0,0% 5/30 10,5% 16/30 0,1% 26/30 0,0% 6/30 14,5% 17/30 0,0% 27/30 0,0% 7/30 16,6% 18/30 0,0% 28/30 0,0% 8/30 15,9% 19/30 0,0% 29/30 0,0% 9/30 13,0% 20/30 0,0% 30/30 0,0% 10/30 9,1% 4 - Intervalles de fluctuation 4.2 - Détermination Échantillons de taille 30 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : p = 25 % 0/30 0,0% 11/30 5,5% 21/30 0,0% 1/30 0,2% 12/30 2,9% 22/30 0,0% 2/30 0,9% 13/30 1,3% 23/30 0,0% 3/30 2,7% 14/30 0,5% 24/30 0,0% 4/30 6,0% 15/30 0,2% 25/30 0,0% 5/30 10,5% 16/30 0,1% 26/30 0,0% 6/30 14,5% 17/30 0,0% 27/30 0,0% 7/30 16,6% 18/30 0,0% 28/30 0,0% 8/30 15,9% 19/30 0,0% 29/30 0,0% 9/30 13,0% 20/30 0,0% 30/30 0,0% 10/30 9,1% 96,7 % 4 - Intervalles de fluctuation 4.2 - Détermination échantillons de taille 30 18% 16% fréquences 14% 12% 10% 8% 6% 4% 2% Proportion d'enfants de plus de 14 ans et demi L'intervalle de fluctuation est [0,1 ; 0,4]. 30/30 28/30 26/30 24/30 22/30 20/30 18/30 16/30 14/30 12/30 10/30 8/30 6/30 4/30 2/30 0 0% 4 - Intervalles de fluctuation 4.2 - Détermination Échantillons de taille 100 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : 11/100 0,0% 21/100 6,3% 31/100 3,4% 12/100 0,1% 22/100 7,5% 32/100 2,5% 13/100 0,1% 23/100 8,5% 33/100 1,7% 14/100 0,3% 24/100 9,1% 34/100 1,1% 15/100 0,6% 25 % 25/100 9,2% 35/100 0,7% 16/100 1,0% 26/100 8,8% 36/100 0,4% 17/100 1,7% 27/30 8,1% 37/100 0,2% 18/100 2,5% 28/30 7,0% 38/100 0,1% 19/100 3,7% 29/100 5,8% 39/100 0,1% 20/100 4,9% 30/100 4,6% 40/100 0,0% 4 - Intervalles de fluctuation 4.2 - Détermination Échantillons de taille 100 issus d'une population contenant 1/4 d'enfants de plus de 14 ans et demi : 95,1 % 11/100 0,0% 21/100 6,3% 31/100 3,4% 12/100 0,1% 22/100 7,5% 32/100 2,5% 13/100 0,1% 23/100 8,5% 33/100 1,7% 14/100 0,3% 24/100 9,1% 34/100 1,1% 15/100 0,6% 25/100 9,2% 35/100 0,7% 16/100 1,0% 26/100 8,8% 36/100 0,4% 17/100 1,7% 27/30 8,1% 37/100 0,2% 18/100 2,5% 28/30 7,0% 38/100 0,1% 19/100 3,7% 29/100 5,8% 39/100 0,1% 20/100 4,9% 30/100 4,6% 40/100 0,0% 4 - Intervalles de fluctuation 4.2 - Détermination échantillons de taille 100 10% 9% 8% fréquences 7% 6% 5% 4% 3% 2% 1% Proportion d'enfants de plus de 14 ans et demi L'intervalle de fluctuation est [0,17 ; 0,33]. 100/100 95/100 90/100 85/100 80/100 75/100 70/100 65/100 60/100 55/100 50/100 45/100 40/100 35/100 30/100 25/100 20/100 15/100 10/100 5/100 0 0% 5 - Des mathématiques 5.1 – Espérance et variance de la moyenne d’échantillonnage Soit X1, X2,..., Xn une suite de n variables aléatoires indépendantes de même loi de probabilité admettant pour espérance mathématique m et pour écart-type s. _ 1 _ On pose : X = (X1 + X2 + ... + Xn). n _ s X a pour espérance m et pour écart-type . n 5 - Des mathématiques 5.2 théorèmes 5.2- -DesDes théorèmes Loi faible des grands nombres : _ Pour tout e > 0, P (|X - m | e ) tend vers 1 quand n tend vers l'infini. Théorème limite central : _ Alors pour n grand, la loi de la moyenne X peut être approchée par la loi normale de paramètres m et s . n 5 - Des mathématiques 5.3 - Application à la fréquence ou proportion d ’échantillonnage • Dans une population statistique, on s’intéresse à une propriété A. On tire un échantillon de taille n. Prenons pour variables Xi, les variables qui, à chaque échantillon, associent la valeur 1 si le i-ème individu possède la propriété A et 0 sinon. 1 _ • (X1 + X2 + ... + Xn) évalue la proportion de la n propriété A dans l’échantillon, notons-la F. 5 - Des mathématiques 5.3 - Application à la fréquence ou proportion d ’échantillonnage • Comme l’espérance mathématique des variables aléatoires Xi est égale à p, alors d’après la loi des grands nombres Pour tout e > 0, P (|F - p| e ) tend vers 1 quand n tend vers l'infini. • La probabilité que F prenne une valeur éloignée de p de moins d’un e fixé à l’avance tend vers 1 lorsque n tend vers l’infini. 5 - Des mathématiques 5.3 - Application à la fréquence ou proportion d ’échantillonnage • Comme l’espérance mathématique et l'écart-type des variables aléatoires Xi sont respectivement p et p (1 p) , d’après le théorème limite central : Pour n grand, la loi de F peut être approchée par la loi normale de paramètres p et p (1 p) . n 5 - Des mathématiques 5.4 -Intervalle de fluctuation d’une fréquence d’échantillonnage On cherche un réel a tel que P(p a F p + a) = 0,95 D'après le théorème limite central, pour n assez grand (n 25), la loi de la F peut être approchée par la loi normale de paramètres p et Alors la loi de p (1 p) . n Fp est approchée par la loi p (1 p) n normale centrée, réduite. 5 - Des mathématiques 5.4 -Intervalle de fluctuation d’une fréquence d’échantillonnage L'équation P(p a F p + a) = 0,95 devient : P a p (1 p) n La table de la loi normale centrée, réduite donne a p (1 p) n = 1,96 Fp p (1 p) n a = 0,95 p (1 p) n 95 % 5 - Des mathématiques 5.4 -Intervalle de fluctuation d’une fréquence d’échantillonnage L'intervalle de fluctuation est approché par : p 1,96 p (1 p) ; p + 1,96 n p (1 p) n Or 1,96 < 2 et pour 0,2 p 0,8, on a donc 0,4 p (1 p) 0,5 Ainsi 1,96 p (1 p) est compris entre 0,8 et 1. 5 - Des mathématiques 5.4 -Intervalle de fluctuation d’une fréquence d’échantillonnage Finalement l'intervalle de fluctuation au seuil de 95%, relatif aux échantillons de taille n, est approché par l’intervalle : p 1 1 ;p+ n n Remarque : Cet intervalle contient l'intervalle : p 1,96 p (1 p) ; p + 1,96 n p (1 p) n 6 - Estimation par intervalle de confiance 6.1 d'un abaque 6.1- -Construction Construction d'un abaque On constitue, avec remise, des échantillons de taille 40, dans une population. On considère une modalité d’un caractère qualitatif observée pour p =37 % des individus de la population. 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque On constitue, avec remise, des échantillons de taille 40, dans une population. On considère une modalité d’un caractère qualitatif observée pour p =37 % des individus de la population. L'intervalle de fluctuation au seuil de 95%, relatif aux échantillons de taille 40, est [0,22 ; 0,52]. 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque Représentation de l'intervalle au seuil de 95%, relatif aux échantillons de taille 40 pour p =0,37. 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque Représentation de l'intervalle au seuil de 95%, relatif aux échantillons de taille 40 pour p =0,37 et p =0,40. 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.1 - Construction d'un abaque 6 - Estimation par intervalle de confiance 6.2 - Utilisation de l'abaque 6.2 - Utilisation de l'abaque On souhaite estimer la proportion p (inconnue) d'individus présentant une propriété donnée dans une population statistique à partir d'un échantillon de taille 40 prélevé au hasard et sans remise. Supposons que la propriété est observée dans l'échantillon avec une fréquence de 60 %. On détermine ensuite les valeurs de p qui font en sorte que 0,6 appartienne à l'intervalle de fluctuation au seuil de 95 %, relatif aux échantillons de taille 40 associé à p . 6 - Estimation par intervalle de confiance 6.2 - Utilisation de l'abaque 6 - Estimation par intervalle de confiance 6.2 - Utilisation de l'abaque Intervalle à 95 % de confiance de p