Statistiques inférentielles Objectif Présentation du problème

publicité
BTS2
Statistiques inférentielles
2011-2012
Objectif
On cherche le lien entre les propriétés d’un caractère sur une population de taille N et un échantillon de cette population
de taille n.
Présentation du problème
Exemple 1
Un fabricant de pétards pour feux d’artifice désire connaître la proportion de pétards défectueux dans la production
hebdomadaire qui est de 10 000 pétards. Doit-il faire griller ses 10 000 pétards pour connaître ce nombre ?
Exemple 2
Une laiterie produit 1 million de yaourts par semaine. A la suite d’une rupture de la chaîne du froid dans la fabrication,
il se produit une crainte de prolifération de la bactérie listéria monocytogene dans cette production.
On estime que jusqu’à 5 % de la population peut être porteuse de listéria monocytogene dans les intestins, sans
ressentir d’effets de maladie.
Par mesure de précaution, la laiterie est prête à détruire cette production si la proportion de yaourts infectés dépasse
1 %.
Doit-on analyser un à un tout les yaourts pour détecter cette présence ? (ce qui reviendrait encore plus cher qu’une
destruction pure et simple).
En décidant de prélever un échantillon de 100 yaourts pour lequel on détermine la proportion de yaourts infectés ; que
nous indique ce résultat ?
Par exemple, que dire si la proportion de yaourts infectés est égale à de 2% ?
1. Aurait-on obtenu le même pourcentage en prélevant un autre échantillon ?
2. La taille 100 de l’échantillon est-elle suffisante au vu de la taille de la production ?
3. Quelle confiance accorder au fait que cette analyse ait conduit à une proportion de 2 % ?
4. Aurait-on gagné en fiabilité si l’on avait analysé 500, 1 000, 10 000 yaourts ?
Analyse d’un exemple
Pour bien comprendre le phénomène analysons, en détail, un exemple avec une population réduite à 5 éléments et un
échantillon de taille 2 : Ω = {2; 3; 6; 8; 11}
Voir le fichier Excel joint : Après avoir activé les macro-commandes, consulter successivement les pages M0 , M1 , M2 ,
M3 , M4 .
Ne pas oublier de cliquer sur le bouton Moyennes des feuilles M2 , M3 , M4 .
1
Bernard GAULT Lycée Blaise Pascal Segré
Statistiques inférentielles
BTS2
2011-2012
Phase 1 : Analyse ( Echantillonnage )
On connaît les caractéristiques de la population. On étudie les caractéristiques de l’échantillon.
Fluctuation d’échantillonnage
Population
Effectif : N
Moyenne : m
Ecart type : σ
Probabilité : p
Echantillon
Effectif : n
Moyenne : me
Ecart type : σe
Probabilité : fe
La simulation nous permet de constater des fluctuations des valeurs de me , σe et fe en fonction des échantillons : C’est
la fluctuation d’échantillonnage.
Si l’on calcule la moyenne de chacun des échantillons possibles de taille n alors :
• La moyenne de ces moyennes des échantillons est égale à m.
σ
• L’écart type de ces moyennes des échantillons est égale à √
n
Si l’on calcule la fréquence d’un caractère pour chacun des échantillons possibles de taille n alors :
• La moyenne de ces fréquences des échantillons est égale à p.
r
pq
• L’écart type de ces fréquences des échantillons est égale à
n
Si l’on calcule la variance de chacun des échantillons possibles de taille n alors :
• La moyenne de ces variances des échantillons est égale à
n−1 2
σ .
n
Remarque : Plus la taille de l’échantillon est grande, plus l’intervalle de fluctuation diminue.
Lois limites
Propriété 1
Etant donné une population de taille N sur laquelle on étudie un caractère de moyenne m et d’écart type σ.
Lorsque l’on prélève des échantillons de taille n assez grand ( n ≥ 30 ), la loi d’échantillonnage des moyennes peut
σ
être approchée par la loi N (m; √ )
n
Propriété 2
Etant donné une population de taille N sur laquelle on étudie un caractère de fréquence p.
Lorsque l’on prélève des échantillons
de taille
n assez grand ( n ≥ 30 ), la loi d’échantillonnage des fréquences
r
pq
√
peut être approchée par la loi N p;
(rem : σ = pq)
n
2
Bernard GAULT Lycée Blaise Pascal Segré
Statistiques inférentielles
BTS2
2011-2012
Propriété 3
Etant donné une population de taille N sur laquelle on étudie un caractère de moyenne m et d’écart type σ.
Lorsque l’on prélève des échantillons de taille n assez grand ( n ≥ 30 ), la loi d’échantillonnage des variances peut
n−1 2
σ
être approchée par une loi de moyenne
n
Pour info : La loi d’échantillonnage des variances peut être approchée par une loi en khi-carré avec n − 1 degrés de
liberté.
Phase 2 : Estimation
On connaît les caractéristiques de l’échantillon. On voudrait en déduire les caractéristiques de la population.
Population
Effectif : N
Moyenne : m
Ecart type : σ
Probabilité : p
Echantillon
Effectif : n
Moyenne : me
Ecart type : σe
Probabilité : fe
Estimation
Estimation ponctuelle
La moyenne de l’échantillon est me , on estime alors que la moyenne de la population est m = me .
La fréquence de l’échantillon est fe , on estime alors que la fréquence de la population est p = fe .
L’écart type de l’échantillon est σe , on estime alors que l’écart type de la population est σ =
3
r
n
σe .
n−1
Bernard GAULT Lycée Blaise Pascal Segré
Statistiques inférentielles
BTS2
2011-2012
Intervalle de confiance d’une moyenne
Nous étudions un caractère d’une population dont la moyenne est m et l’écart type σ.
La variable aléatoire X qui, à chaque échantillon de taille n associe sa moyenne, suit la loi N
σ
m; √ .
n
X−m
suit la loi N (0; 1).
σ
√
n
On se fixe un seuil de risque α ou un niveau de confiance 1 - α, on détermine alors le réel t tel que P (−t < T < t) = 1−α :
La variable aléatoire centrée réduite T =
Exemple : Les valeurs les plus courantes du niveau de confiance 1 − α et de t correspondantes sont données dans le
tableau ci-dessous :
1−α
t
99 %
98 %
95 %
90 %
2,58
2,33
1,96
1,645
α
2
2Π(t) − 1
−t
t
Or : −t < T < t ⇔ −t <
α
2
X −m
σ
σ
< t ↔ −t √ < X − m < t √
σ
n
n
√
n
Si l’on tire un échantillon, on obtient une valeur de X, la relation ci-dessus va nous permettre de déterminer un
encadrement de la moyenne m de la population.


X −m


P (−t < T < t) ⇐⇒ P −t <
< t = 1 − α ⇐⇒ P
σ
√
n
σ
σ
X − t√ < m < X + t√
= 1 − α.
n
n
Ce dernier intervalle s’appelle l’intervalle de confiance au seuil de risque de α ou au coefficient de confiance de 1 − α.
Intervalle de confiance d’une fréquence
Nous étudions un caractère d’une population dont la fréquence est p.
La variable aléatoire X qui, à chaque échantillon de taille n associe sa fréquence, suit la loi N
r pq
p;
.
n
X−p
suit la loi N (0; 1).
La variable aléatoire centrée réduite T = r
pq
n
Soit α la probabilité, fixée à l’avance, pour que T n’appartienne pas à l’intervalle [−t; t], nous pouvons écrire :




X −p

P (−t < T < t) = 1 − α ⇐⇒ P 
−t < r pq < t = 1 − α ⇐⇒ P
n
r
r pq
pq
= 1 − α.
<p<X +t
X −t
n
n
Remarque : Comme la valeur de p est inconnue, on ne connaît donc pas l’écart type
r
fe (1 − fe )
son estimation ponctuelle
n−1
4
r
pq
. On le remplace alors par
n
Bernard GAULT Lycée Blaise Pascal Segré
Téléchargement