BTS2 Statistiques inférentielles 2011-2012 Objectif On cherche le lien entre les propriétés d’un caractère sur une population de taille N et un échantillon de cette population de taille n. Présentation du problème Exemple 1 Un fabricant de pétards pour feux d’artifice désire connaître la proportion de pétards défectueux dans la production hebdomadaire qui est de 10 000 pétards. Doit-il faire griller ses 10 000 pétards pour connaître ce nombre ? Exemple 2 Une laiterie produit 1 million de yaourts par semaine. A la suite d’une rupture de la chaîne du froid dans la fabrication, il se produit une crainte de prolifération de la bactérie listéria monocytogene dans cette production. On estime que jusqu’à 5 % de la population peut être porteuse de listéria monocytogene dans les intestins, sans ressentir d’effets de maladie. Par mesure de précaution, la laiterie est prête à détruire cette production si la proportion de yaourts infectés dépasse 1 %. Doit-on analyser un à un tout les yaourts pour détecter cette présence ? (ce qui reviendrait encore plus cher qu’une destruction pure et simple). En décidant de prélever un échantillon de 100 yaourts pour lequel on détermine la proportion de yaourts infectés ; que nous indique ce résultat ? Par exemple, que dire si la proportion de yaourts infectés est égale à de 2% ? 1. Aurait-on obtenu le même pourcentage en prélevant un autre échantillon ? 2. La taille 100 de l’échantillon est-elle suffisante au vu de la taille de la production ? 3. Quelle confiance accorder au fait que cette analyse ait conduit à une proportion de 2 % ? 4. Aurait-on gagné en fiabilité si l’on avait analysé 500, 1 000, 10 000 yaourts ? Analyse d’un exemple Pour bien comprendre le phénomène analysons, en détail, un exemple avec une population réduite à 5 éléments et un échantillon de taille 2 : Ω = {2; 3; 6; 8; 11} Voir le fichier Excel joint : Après avoir activé les macro-commandes, consulter successivement les pages M0 , M1 , M2 , M3 , M4 . Ne pas oublier de cliquer sur le bouton Moyennes des feuilles M2 , M3 , M4 . 1 Bernard GAULT Lycée Blaise Pascal Segré Statistiques inférentielles BTS2 2011-2012 Phase 1 : Analyse ( Echantillonnage ) On connaît les caractéristiques de la population. On étudie les caractéristiques de l’échantillon. Fluctuation d’échantillonnage Population Effectif : N Moyenne : m Ecart type : σ Probabilité : p Echantillon Effectif : n Moyenne : me Ecart type : σe Probabilité : fe La simulation nous permet de constater des fluctuations des valeurs de me , σe et fe en fonction des échantillons : C’est la fluctuation d’échantillonnage. Si l’on calcule la moyenne de chacun des échantillons possibles de taille n alors : • La moyenne de ces moyennes des échantillons est égale à m. σ • L’écart type de ces moyennes des échantillons est égale à √ n Si l’on calcule la fréquence d’un caractère pour chacun des échantillons possibles de taille n alors : • La moyenne de ces fréquences des échantillons est égale à p. r pq • L’écart type de ces fréquences des échantillons est égale à n Si l’on calcule la variance de chacun des échantillons possibles de taille n alors : • La moyenne de ces variances des échantillons est égale à n−1 2 σ . n Remarque : Plus la taille de l’échantillon est grande, plus l’intervalle de fluctuation diminue. Lois limites Propriété 1 Etant donné une population de taille N sur laquelle on étudie un caractère de moyenne m et d’écart type σ. Lorsque l’on prélève des échantillons de taille n assez grand ( n ≥ 30 ), la loi d’échantillonnage des moyennes peut σ être approchée par la loi N (m; √ ) n Propriété 2 Etant donné une population de taille N sur laquelle on étudie un caractère de fréquence p. Lorsque l’on prélève des échantillons de taille n assez grand ( n ≥ 30 ), la loi d’échantillonnage des fréquences r pq √ peut être approchée par la loi N p; (rem : σ = pq) n 2 Bernard GAULT Lycée Blaise Pascal Segré Statistiques inférentielles BTS2 2011-2012 Propriété 3 Etant donné une population de taille N sur laquelle on étudie un caractère de moyenne m et d’écart type σ. Lorsque l’on prélève des échantillons de taille n assez grand ( n ≥ 30 ), la loi d’échantillonnage des variances peut n−1 2 σ être approchée par une loi de moyenne n Pour info : La loi d’échantillonnage des variances peut être approchée par une loi en khi-carré avec n − 1 degrés de liberté. Phase 2 : Estimation On connaît les caractéristiques de l’échantillon. On voudrait en déduire les caractéristiques de la population. Population Effectif : N Moyenne : m Ecart type : σ Probabilité : p Echantillon Effectif : n Moyenne : me Ecart type : σe Probabilité : fe Estimation Estimation ponctuelle La moyenne de l’échantillon est me , on estime alors que la moyenne de la population est m = me . La fréquence de l’échantillon est fe , on estime alors que la fréquence de la population est p = fe . L’écart type de l’échantillon est σe , on estime alors que l’écart type de la population est σ = 3 r n σe . n−1 Bernard GAULT Lycée Blaise Pascal Segré Statistiques inférentielles BTS2 2011-2012 Intervalle de confiance d’une moyenne Nous étudions un caractère d’une population dont la moyenne est m et l’écart type σ. La variable aléatoire X qui, à chaque échantillon de taille n associe sa moyenne, suit la loi N σ m; √ . n X−m suit la loi N (0; 1). σ √ n On se fixe un seuil de risque α ou un niveau de confiance 1 - α, on détermine alors le réel t tel que P (−t < T < t) = 1−α : La variable aléatoire centrée réduite T = Exemple : Les valeurs les plus courantes du niveau de confiance 1 − α et de t correspondantes sont données dans le tableau ci-dessous : 1−α t 99 % 98 % 95 % 90 % 2,58 2,33 1,96 1,645 α 2 2Π(t) − 1 −t t Or : −t < T < t ⇔ −t < α 2 X −m σ σ < t ↔ −t √ < X − m < t √ σ n n √ n Si l’on tire un échantillon, on obtient une valeur de X, la relation ci-dessus va nous permettre de déterminer un encadrement de la moyenne m de la population. X −m P (−t < T < t) ⇐⇒ P −t < < t = 1 − α ⇐⇒ P σ √ n σ σ X − t√ < m < X + t√ = 1 − α. n n Ce dernier intervalle s’appelle l’intervalle de confiance au seuil de risque de α ou au coefficient de confiance de 1 − α. Intervalle de confiance d’une fréquence Nous étudions un caractère d’une population dont la fréquence est p. La variable aléatoire X qui, à chaque échantillon de taille n associe sa fréquence, suit la loi N r pq p; . n X−p suit la loi N (0; 1). La variable aléatoire centrée réduite T = r pq n Soit α la probabilité, fixée à l’avance, pour que T n’appartienne pas à l’intervalle [−t; t], nous pouvons écrire : X −p P (−t < T < t) = 1 − α ⇐⇒ P −t < r pq < t = 1 − α ⇐⇒ P n r r pq pq = 1 − α. <p<X +t X −t n n Remarque : Comme la valeur de p est inconnue, on ne connaît donc pas l’écart type r fe (1 − fe ) son estimation ponctuelle n−1 4 r pq . On le remplace alors par n Bernard GAULT Lycée Blaise Pascal Segré