Atelier sur les statistiques dans le nouveau programme de seconde

publicité
Utilisation de la loi binomiale pour une prise de décision à partir d'une fréquence
1°) - Le contexte de travail
On est dans le cadre de la statistique inférentielle. L'inférence statistique consiste à induire les caractéristiques
inconnues d'une population à partir d'un échantillon issu de cette population. Elle est utilisée en particulier en
théorie de l'estimation (intervalle de confiance...) et en théorie des tests (tests d'hypothèse, tests d'adéquation...).
Un exemple : on travaille sur la proportion p d'électeurs favorables à un projet dans une commune.
On peut se poser deux types de problèmes :

test d'hypothèse : on cherche à savoir si p = 25 %, par exemple ;

estimation : on cherche à connaître p.
Les tests
Comment procéder ?
On étudie toute la production (recensement), on peut espérer avoir une connaissance précise de p. Mais cela peut
s'avérer long (la valeur de p pourra avoir changé entre temps) ou coûteux, voire impossible (lorsque l'étude est
destructrice de la population (yaourts contaminés).
On raisonne à partir d'un échantillon tiré au hasard, de taille n de la production.
Le principe :
Si l'hypothèse émise est vraie, on connaît la distribution d'échantillonnage de la fréquence Fn de défectueux dans
les échantillons. On connaît alors les valeurs de Fn les plus fréquemment observées selon certains critères.
On observe la valeur f de Fn pour un échantillon : on considère que le hasard fait bien les choses

si f ne fait pas partie des valeurs les plus fréquemment observées, on rejette l'hypothèse émise.

si f fait partie des valeurs les plus fréquemment observées, on n'est pas en mesure de rejeter l'hypothèse
émise.
Échantillons de taille 20
0,25
Probabilité
0,20
0,15
0,10
0,05
20/20
19/20
18/20
17/20
16/20
15/20
14/20
13/20
12/20
11/20
9/20
10/20
8/20
7/20
6/20
5/20
4/20
3/20
2/20
0
1/20
0,00
Fréquence dans l'échantillon
L'ensemble des valeurs les plus fréquemment observées constitue l'intervalle de fluctuation ; en général, on en
prend 95 %. Ce qui conduit à prendre une mauvaise décision pour 5 % des échantillons si l'hypothèse est vraie
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
1
Intervalles de fluctuation
On considère une population P contenant une sous-population A en proportion p. On tire au hasard (c'est-à-dire
avec équiprobabilité sur les individus de la population) et avec remise un échantillon de taille n dans P. un
échantillon de taille n dans P. On appelle Fn la fréquence d'échantillonnage, c'est-à-dire la variable aléatoire qui à
chaque échantillon associe la fréquence de A.
1°) - Définitions du programme de seconde 2009
Un échantillon de taille n est constitué des résultats de n répétitions indépendantes de la même expérience.
2°) - Les programmes de Premières L, ES et S
2°) - Les limites de la définition de l'intervalle de fluctuation du programme de seconde
a) - Un exemple
Considérons un échantillon de taille 20, constitué "au hasard" et avec remise dans une population contenant
une sous-population A en proportion p = Error!. On s'intéresse à la fréquence f d'éléments de A dans
l'échantillon, c'est l'observation de la variable aléatoire F20 sur l'échantillon.
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
2
20 F20 est distribué selon la loi binomiale de paramètres 20 et Error!.
Fréquence de A
dans l'échantillon
0/20
p=
Error!
Probabilité
0,003
1/20
0,021
2/20
0,067
3/20
0,134
4/20
5/20
6/20
0,190
0,202
0,169
7/20
0,112
8/20
0,061
9/20
0,027
10/20
0,010
11/20
12/20
13/20
14/20
15/20
16/20
17/20
18/20
19/20
20/20
0,003
0,001
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000



;0
561;



; ;0
807; ;



; ; ;0
935; ; ;



; ; ; ;0
983; ; ; ;



; ; ; ; ;0
999; ; ; ; ;
Échantillons de taille 20
0,25
Probabilité
0,20
0,15
0,10
0,05
0
1/20
2/20
3/20
4/20
5/20
6/20
7/20
8/20
9/20
10/20
11/20
12/20
13/20
14/20
15/20
16/20
17/20
18/20
19/20
20/20
0,00
Fréquence de A
La probabilité que F20 soit comprise entre Error!  Error! et Error! + Error! est environ 0,561. Cela
peut s'écrire aussi P Error! Error! 0,561 ou encore P Error! Error! 0,561.
On a aussi, par exemple :
P Error! = P Error! = P Error!
et de façon générale :
P Error! = P Error! avec 0,05  a < 0,1.
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
3
Échantillons de taille 20
0,25
Probabilité
0,20
0,15
0,10
0,05
0
1/20
2/20
3/20
4/20
5/20
6/20
7/20
8/20
9/20
10/20
11/20
12/20
13/20
14/20
15/20
16/20
17/20
18/20
19/20
20/20
0,00
Fréquence de A
La probabilité que F20 soit comprise entre Error!  Error! et Error! + Error! est environ 0,807.
Comme précédemment, on a : P Error! = P Error! avec 0,1  a < 0,15.
Échantillons de taille 20
0,25
Probabilité
0,20
0,15
0,10
0,05
0
1/20
2/20
3/20
4/20
5/20
6/20
7/20
8/20
9/20
10/20
11/20
12/20
13/20
14/20
15/20
16/20
17/20
18/20
19/20
20/20
0,00
Fréquence de A
La probabilité que F20 soit comprise entre Error!  Error! et Error! + Error! est environ 0,935.
Comme précédemment, on a : P Error! = P Error! avec 0,15  a < 0,2.
Échantillons de taille 20
0,25
Probabilité
0,20
0,15
0,10
0,05
0
1/20
2/20
3/20
4/20
5/20
6/20
7/20
8/20
9/20
10/20
11/20
12/20
13/20
14/20
15/20
16/20
17/20
18/20
19/20
20/20
0,00
Fréquence de A
La probabilité que F20 soit comprise entre Error!  Error! et Error! + Error! est environ 0,983.
Comme précédemment, on a : P Error! = P Error! avec 0,2  a < 0,25.
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
4
Échantillons de taille 20
0,25
Probabilité
0,20
0,15
0,10
0,05
0
1/20
2/20
3/20
4/20
5/20
6/20
7/20
8/20
9/20
10/20
11/20
12/20
13/20
14/20
15/20
16/20
17/20
18/20
19/20
20/20
0,00
Fréquence de A
La probabilité que F20 soit comprise entre Error!  Error! et Error! + Error! est environ 0,999.
Comme précédemment, on a : P Error! = P Error! avec 0,25  a < 0,3.
En résumé :

Pour tout réel a < 0,2, F20 appartient à l'intervalle Error! avec une probabilité strictement inférieure à
0,95.

Pour tout réel a  0,2, F20 appartient à l'intervalle Error! avec une probabilité strictement supérieure
à 0,95.
b) - Problèmes soulevés
On ne trouve aucun intervalle centré en Error! tel que la probabilité que F20 appartienne à cet intervalle soit
exactement 0,95. Pour cet exemple, il n'existe aucun intervalle correspondant à la définition d'intervalle de
fluctuation du programme de seconde - 2009.
Si, dans la définition :
L’intervalle de fluctuation au seuil de 95%, relatif aux échantillons de taille n, est l’intervalle centré autour
de p, proportion du caractère dans la population, où se situe, avec une probabilité égale à 0, 95, la
fréquence observée dans un échantillon de taille n.
on n'impose plus que la probabilité soit égale à 0,95 mais seulement qu'elle soit au moins égale à 0,95, on
obtient une infinité d'intervalles.
On est amené à proposer la définition suivante :
3°) - Définition
L’intervalle de fluctuation de Fn au niveau de probabilité de 95 %, est le plus petit intervalle de la forme
[p   ; p + ] tel que P(p    Fn  p + )  0,95
Remarque :
Pour notre exemple, l'intervalle de fluctuation de Fn au seuil de 95% est Error!, soit Error!.
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
5
4°) - Prise de décision
Le contexte de ce programme est celui la statistique inférentielle et plus particulièrement celui des
tests d'hypothèse.
On prend une décision concernant une population à partir de l'observation d'un échantillon.
Appliquons ce qui précède à deux exemples :
Exemple 1 (document ressources pour la classe de seconde - probabilités et statistique - juin 2009)
En 2000, dans le village de Xicun, en Chine, il est né 20 enfants, parmi lesquels 16 garçons. (Source : Washington
Post du 29 mai 2001.)
Peut-on considérer que cette répartition est le fruit du seul hasard ou bien doit suspecter un lien avec l’acquisition
dans ce village (en 1999) d’une machine à ultra-sons bon marché, permettant aux médecins de déterminer le sexe
du fœtus ?
On veut rejeter ou pas l'hypothèse que la distribution des sexes des 20 enfants nés en 2000 à Xicun est due au seul
hasard.
On considère que la variable aléatoire "sexe à la naissance" prend les deux valeurs Fille et Garçon avec la même
probabilité 0,5.
Dans ce cas, la variable aléatoire nombre de garçons dans un échantillon de 20 nouveau-nés suit la loi binomiale
de paramètres 20 et 0,5.
Le tableau présente les valeurs prises par F20 et leurs probabilités :
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
6
Nombre de garçons
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Fréquence de garçons
0
=
0
1/20
=
0,05
2/20
=
0,1
3/20
=
0,15
4/20
=
0,2
5/20
=
0,25
6/20
=
0,3
7/20
=
0,35
8/20
=
0,4
9/20
=
0,45
10/20
=
0,5
11/20
=
0,55
12/20
=
0,6
13/20
=
0,65
14/20
=
0,7
15/20
=
0,75
16/20
=
0,8
17/20
=
0,85
18/20
=
0,9
19/20
=
0,95
20/20
=
1
Probabilité
0,000
0,000
0,000
0,001
0,005
0,015
0,037
0,074
0,120
0,160
0,176
0,160
0,120
0,074
0,037
0,015
0,005
0,001
0,000
0,000
0,000
L'intervalle de fluctuation de F20 au niveau de probabilité 95 % est [0,3 ; 0,7].
Dans le classeur Naissances joint, on illustre la détermination de cet intervalle de fluctuation.
Dans l'échantillon de 20 enfants étudié, la fréquence de garçons est Error!, soit 0,8 qui n'appartient pas à
l'intervalle de fluctuation, on rejette l'hypothèse que le nombre de garçons de l'échantillon est dû au seul hasard.
On aurait aussi pu travailler en considérant que la variable aléatoire "sexe à la naissance" prend les deux valeurs
Fille et Garçon avec les probabilités respectives 0,48 et 0,52. L'intervalle de fluctuation obtenu est [0,29 ; 0,75].
Dans ce contexte, la conclusion est la même .
Exemple 2 (document ressources pour la classe de seconde - probabilités et statistique - juin 2009)
Dans la réserve indienne d’Aamjiwnaag, située au Canada à proximité d’industries chimiques, il est né entre 1999
et 2003, 132 enfants dont 46 garçons. (Sources : Science et Vie février 2006 – Environmenthal Health
Perspectives octobre 2005).
Peut-on considérer que cette répartition est le fruit du seul hasard ou doit suspecter l'impact d'usines chimiques
voisines utilisant des polluants chimiques influant sur le sex-ratio ?
On veut rejeter ou pas l'hypothèse que la distribution des sexes des 132 enfants nés entre 1999 et 2003 dans la
réserve indienne d’Aamjiwnaag est due au seul hasard.
On considère que la variable aléatoire "sexe à la naissance" prend les deux valeurs Fille et Garçon avec la même
probabilité 0,5.
Dans ce cas, la variable aléatoire nombre de garçons dans un échantillon de 132 nouveau-nés suit la loi binomiale
de paramètres 132 et 0,5.
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
7
L'intervalle de fluctuation de F132 au niveau de probabilité 95 % est Error! qui peut être approché par
[0,416 ; 0,584] (voir classeur Naissances).
Dans l'échantillon de 132 enfants étudié, la fréquence de garçons est Error!, soit environ 0,348 qui n'appartient
pas à l'intervalle de fluctuation, on rejette l'hypothèse que le nombre de garçons de l'échantillon est dû au seul
hasard.
L'approximation évoquée dans le programme de seconde 2009 mène au calcul Error! soit [0,412 ; 0,588].
Annexes
Annexe 1 : les lois binomiales
n  I; N et p  ]0, 1[.
Définition
Une variable aléatoire X suit la loi binomiale B (n , p) de paramètres n et p où n  I; N et p  ]0, 1[ lorsque sa loi
de probabilité est définie par P(X = k) = ( n;k ) pk (1  p)n  k pour k entier de l'intervalle [0 ; n].
Les lois binomiales interviennent dans la modélisation de n réalisations successives et indépendantes d'une
expérience aléatoire à exactement deux issues :

le succès avec la probabilité p

l'échec avec la probabilité 1  p.
La variable aléatoire donnant le nombre de succès suit la loi binomiale de paramètres n et p.
Espérance et variance
Si X suit la loi binomiale B (n , p), l'espérance de X est E(X) = n p et sa variance est V(X) = n p (1  p).
Annexe 2 : la formule Error!
Justifions l'approximation évoquée dans le programme de seconde 2009 :
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
8
D'après le théorème limite central, pour n assez grand (n  30) et p ni trop petit, ni trop grand (0,2  p  0,8),
la loi de n Fn peut être approchée par la loi normale de paramètres p et Error!, alors la loi de Error! est
approchée par la loi normale centrée, réduite. Cette loi est continue donc il existe un réel  tel que
P(p    Fn  p + ) = 0,95.
L'égalité P(p    Fn  p + ) = 0,95 devient PError! = 0,95.
La table de la loi normale centrée, réduite donne Error! Error! 1,96
95 %
- 1,96
1,96
L'intervalle de fluctuation est approché par : Error!
Or 1,96  2 et
p (1  p)  0,5, ainsi 1,96
p (1  p) est majoré par 1.
Finalement l'intervalle de fluctuation de Fn au niveau de probabilité de 95%, relatif aux échantillons de
taille n, est approché par l’intervalle : Error!.
Remarque : Cet intervalle contient l'intervalle Error!.
Matérialisation des approximations de l'intervalle de fluctuation pour p = 0,7 et n = 50
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
9
0,7
0,7 +
0,7 
Error!
0,7  1,96
B. Chaput - Journée de la Régionale APMEP 19 janvier 2011
0
7 (1  0,7);50
Error!
0,7 + 1,96
0
7 (1  0,7);50
10
Téléchargement