FORMATION NOUVEAUX PROGRAMMES de TERMINALE
Journées novembre 2012
Les statistiques inférentielles enseignées au Lycée
Problématique : On s’intéresse à un caractère d’une population que l’on ne peut pas recenser et on sonde cette population à l’aide
d’un échantillon.
Deux grandeurs entrent en jeu :
La proportion pour la population et la fréquence observée dans l’échantillon.
Deux questions :
Connaissant la proportion pour la population (p), peut-on prévoir la fréquence observée dans l’échantillon (f) ?
= Notion d’intervalle de fluctuation
Réciproquement, peut-on déduire de la fréquence observée dans l’échantillon (f) la proportion pour la
population (p) ?
= Notion d’intervalle de confiance
Avec le modèle probabiliste, on peut parvenir à répondre à ces deux questions sous certaines conditions au lycée :
Il faut que l’échantillon soit constitué en prélevant les individus au hasard et avec remise ou que le tirage soit assimilable à
un tirage avec remise (le rapport entre la taille de l’échantillon et la taille de la population doit être inférieur à 1%)
Il faut que la taille n de l’échantillon soit assez grande (plus de 25 en seconde ou plus de 30 en terminale.)
Il faut que la proportion de la population ne soit pas marginale (entre 20% et 80% en seconde, que nf ≥5 et n(1-f) ≥5 en
terminale).
Qu’est-ce que la fluctuation de l’échantillonnage ?
L’échantillonnage (étude statistique de la distribution des fréquences observées dans l’ensemble des échantillons de même taille)
permet de constater la fluctuation des fréquences et trouver une loi qui modélise cette fluctuation.
En réalisant plusieurs simulations sur des
échantillons de même taille n, on observe une
variation de la fréquence des individus
possédant le caractère étudié. On peut aussi
observer que ces fréquences sont distribuées
dans une sorte d’intervalle qui les contient
presque toutes (intervalle de fluctuation).
En réalisant de nouvelles simulations, pour
des valeurs de n de plus en plus grandes, on
observe que cet intervalle qui contient
presque toutes les valeurs est de moins en
moins large : On constate que la fluctuation
des fréquences diminue quand n augmente.
On considère que l’on peut
modéliser l’étude du caractère
de proportion p sur un
échantillon de taille n par n
répétitions d’une expérience
aléatoire pour laquelle on
observe le nombre
d’individus présentant ce
caractère.
On s’intéresse alors à la
variable aléatoire Xn qui
associe à chaque échantillon,
le nombre d’individus de
l’échantillon de taille n qui
possèdent le caractère.
La variable aléatoire Xn suit
une loi binomiale B(n ; p).
Si on s’intéresse aux
fréquences, c’est à dire à la
variable aléatoire Fn = Xn/n,
qui présente la même
distribution de probabilités
que Xn, on constate que leur
distribution se stabilise quand
la taille de l’échantillon
grandit.
On veut pouvoir passer du caractère discret de
la loi binomiale de première à une loi continue.
Pour cela on observe que si on centre et réduit la
loi binomiale Xn, en posant :
on obtient une loi Zn de moyenne 0, d’écart type
1.
Par un passage à l’histogramme, et en respectant
le fait que l’aire des rectangles doit être égale à
la probabilité, on observe que lorsque n devient
grand, la fonction de répartition de Zn tend vers
la fonction de répartition de la variable aléatoire
Z qui suit la loi normale N(0 ;1) dont la
fonction densité est f définie par :
C’est le théorème de Moivre-Laplace.
En conclusion, la loi de probabilité de Z est
donnée par : P(a ≤ Z ≤ b) qui est l’aire sous la
courbe Cf entre a et b.
Qu’est-ce que l’intervalle de fluctuation au seuil de 95% ?
Si 0,2 ≤ p ≤ 0,8, on admet que la fréquence
observée dans un échantillon de taille n (n ≥
25), a une probabilité voisine de 95% d’être
comprise entre
.
On s’en convainc en simulant des
expériences.
En calculant les probabilités
cumulées de la loi binomiale
(calculatrice ou tableur), on
détermine le plus petit entier
a tel que P(Xn ≤ a) > 0,025, et
le plus petit entier b tel que
P(Xn ≤ b) ≥ 0,975.
L’intervalle [a ; b] contient
alors au moins 95% des
fréquences observées.
Attention !
Dans le cas où np ≥ 5 et n(1 – p) ≥ 5, et n ≥ 30
c’est-à dire p
, on peut
approcher la loi binomiale par la loi normale et
définir l’intervalle asymptotique au seuil de 1-
α comme l’intervalle I tel que :