Modélisation – Simulation - Fluctuation d`échantillonnage Intervalle

publicité
Modélisation – Simulation - Fluctuation d’échantillonnage
Intervalle de fluctuation - Intervalle de confiance
Commentaire sur les oraux
Oral 2 - Thème 10 : Modélisation et simulation d'expériences aléatoires :
fluctuation d'échantillonnage
Aucun dossier sur ce thème n’a été proposé par le Jury du Capes. En revanche, des questions
sur la simulation sont posées dans le cadre d’autres dossiers. Les programmes de probabilités
et statistique ont été profondément modifiés depuis 2000.
Les programmes
Depuis la rentrée 2008, une introduction aux probabilités est proposée en 3ème.
Avant cette date, c’était seulement en première qu’étaient abordées « les probabilités » après
une introduction intuitive en seconde à l'aide de "simulation et fluctuation d'échantillonnage".
Depuis la rentrée 2009, le nouveau programme de seconde prend en compte l’introduction
aux probabilités faite en 3ème. La simulation et la fluctuation d’échantillonnage sont toujours
au programme mais l’accent est mis sur les notions d’intervalle de fluctuation d’une fréquence
d’échantillonnage à 95% et sur l’estimation par intervalle de confiance à 95% d’une
proportion.
La statistique inférentielle est constituée de trois parties :
- l’échantillonnage qui consiste à étudier les distributions de probabilités des variables
aléatoires dites d’échantillonnage,
- l’estimation ponctuelle ou par intervalle de confiance des paramètres de la population
ou du modèle probabiliste, enfin
- les tests statistiques (test d’adéquation à une loi de probabilité, test de comparaison
d’une moyenne ou d’une fréquence à une valeur donnée, test de comparaison de deux
moyennes ou de deux fréquences, …)
Les deux premières parties sont donc abordées en 2nde pour une « proportion ». L’objectif de
savoir interpréter les résultats d’un sondage avec la notion de fourchette de sondage
(intervalle de confiance) fait partie de la statistique du citoyen.
La troisième partie est abordée en terminale : test d’adéquation à une loi équirépartie.
Les nouveaux programmes de première pour la rentrée 2010 ne sont toujours pas sortis à ce
jour (avril 2010). L’introduction aux probabilités aura déjà été faite, la simulation et la
fluctuation d’échantillonnage auront déjà été étudiées l’année précédente. Il s’agit à présent de
« formaliser » la notion de distribution de probabilité et de modéliser des situations réelles.
Vocabulaire :
Modéliser une expérience aléatoire
Modéliser une expérience aléatoire, c'est trouver l'espace probabilisé associé (c'est-à-dire,
l'ensemble des résultats possibles et les probabilités associées).
Les nouveaux programmes utilisent le terme de "loi de probabilité" associée (cf. page 15 du
document d'accompagnement de première ES : "Remarque : nous avons choisi pour
l'enseignement secondaire d'employer le terme de loi de probabilité sur un ensemble, que
celle-ci soit ou non la loi d'une variable aléatoire."). On pourra aussi parler de "distribution de
Modélisation Echantillonnage – Commentaires pour les oraux.
Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/
p. 1/4
probabilité" qui est synonyme de "loi de probabilité" et plus proche de la notion de
"distribution de fréquences" vue en statistique.
Plutôt que trouver l'espace probabilisé associé, on devrait dire trouver "un" espace probabilisé
associé qui décrive "au mieux" l'expérience aléatoire. "Au mieux" signifie que, si l'on répète
un grand nombre de fois l'expérience aléatoire dans les mêmes conditions, la distribution de
fréquences observée sur les n premières expériences tend vers la "distribution de probabilité"
lorsque n augmente.
Exemple 1 :
On tire "au hasard" une boule dans une urne contenant trois boules indiscernables au
toucher, deux blanches et une noire et on s'intéresse à la couleur de la boule.
Deux modèles associés sont, avec des notations évidentes,
2
1
et
=
Ω {b, n} avec
=
P({b})
=
et P({n})
3
3
1
=
Ω ' {b1 , b2 , n} avec P =
'({b1}) P '({
=
b2 }) P=
'({n})
.
3
De fait le premier modèle est implicitement construit à partir du second. Les boules sont
indiscernables au toucher mais sont physiquement au nombre de trois et, par hypothèse, le
tirage se fait avec équiprobabilité. Ces deux modèles sont équivalents dans la mesure où ils
donnent les mêmes probabilités aux événements associés à l'expérience aléatoire.
L'événement "obtenir une blanche" s'écrit {b} dans le premier modèle et {b1 , b2 } dans le
2
2
deuxième et on a : P({b}) = et P '({b1 , b2 }) = .
3
3
Exemple 2
On tire au hasard dans une urne contenant des boules, indiscernables au toucher,
blanches ou noires. On ne connaît pas la proportion de boules blanches dans l'urne
mais l'on a l'autorisation de tirer 10 fois de suite avec remise et dans les mêmes
conditions une boule de l'urne. On obtient 3 blanches et 7 noires.
On propose alors la modélisation suivante
: Ω {b, n} avec
=
=
P({b}) 0.3
=
et P({n}) 0.7 ,
quitte à modifier le modèle si l'on peut recommencer des tirages et avoir des informations
supplémentaires.
Simuler une expérience aléatoire
« Simuler une expérience aléatoire, c'est choisir un modèle de cette expérience puis simuler ce
modèle ». Cf. les programmes de 1ère S et ES et le document « Simulation et
échantillonnage ».
Bien sûr, dans le langage courant, le mot "simulation" a un autre sens et même deux autres
sens : "faire semblant" (simuler un sentiment ou une maladie) et "remplacer une situation par
une autre plus simple donnant les mêmes résultats" (simulation de vol ou d'accidents).
On peut simuler une distribution de probabilité que l'on ne connaît pas et que l'on cherche à
"approcher" par simulation. C'est ce que l'on a fait dans l'exemple 2 ci-dessus. D'après le
programme de 1ère S : "On simulera des lois de probabilités simples obtenues comme images
d'une loi équirépartie par une variable aléatoire. La modélisation avec des lois ne découlant
pas d'une loi équirépartie est hors programme."
Modélisation Echantillonnage – Commentaires pour les oraux.
Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/
p. 2/4
Par exemple, la loi de probabilité de la v.a.r. X égale à la somme des points marqués par 3 dés
lancés simultanément est l'image par X de l'équiprobabilité sur {1,..., 6}3 . Il suffit de simuler
par exemple 1000 triplets de la loi équirépartie sur {1,..., 6}3 (c'est-à-dire 3000 observations de
la loi équirépartie sur {1,..., 6}3 que l'on répartit 3 par 3) et pour chaque triplet de calculer la
somme des 3 nombres obtenus pour obtenir la distribution de fréquences de cet échantillon de
taille 1000 de X et donc une approximation de la loi de probabilité de X.
Fluctuation d’échantillonnage
Version simulation (classe de 2nde) : lorsque l’on simule n fois une loi de probabilité
(Bernoulli de paramètre 1/3 ou loi uniforme discrète sur {1,…,6}), on obtient un « échantillon
de résultats de taille n » : on peut alors s’intéresser à la fréquence d’un événement appelé
« succès », appelée fréquence d’échantillonnage, ou à la moyenne des résultats obtenus,
appelée moyenne d’échantillonnage, …
Les valeurs prises par les variables d’échantillonnage sont différentes d’un échantillon de
taille n à un autre ; il s’agit de ce que l’on appelle la « fluctuation d’échantillonnage ».
Lorsque la taille de l’échantillon augmente, les fluctuations deviennent de plus en plus faibles
et tendent à se stabiliser autour de la fréquence de succès lors d’une expérience ou de la
moyenne de la loi de probabilité.
Version probabiliste : soit
une suite de v.a.r. indépendantes et de même loi de
probabilité d’espérance mathématique µ et d’écart-type σ. On pose :
. Cette
nouvelle v.a.r. est appelée « moyenne d’échantillonnage ». Elle a pour espérance
mathématique µ et pour écart-type
. La moyenne d’échantillonnage « converge » donc
vers µ lorsque la taille de l’échantillon augmente. De plus, sa loi de probabilité peut être
approchée par une loi normale de mêmes paramètres dès que la taille de l’échantillon est
suffisamment grande
Dans le cas où la loi de probabilité est une loi de Bernoulli de paramètre p (loi de l’indicatrice
du succès d’une épreuve de Bernoulli), alors µ = p et
, la moyenne
d’échantillonnage n’est autre que la « fréquence d’échantillonnage » (fréquence de succès sur
l’échantillon) et elle est notée .
Intervalle de fluctuation d’une fréquence d’échantillonnage à 95%
On sait que, pour toute variable aléatoire normale, 95% des valeurs sont comprises entre la
moyenne moins 2 écart-types et la moyenne plus 2 écart-types.
L’intervalle
est appelé « intervalle de fluctuation de
95% ». Lorsque p est compris entre 0.2 et 0.8 on peut approcher
l’intervalle de fluctuation de à 95% devient
.
à
par 1/2 et
Intervalle de confiance à 95% d’une proportion
On s’intéresse à une sous-population A d’une population finie dont la proportion par rapport à
la population est notée p. Lorsque l’on tire « au hasard » (c’est-à-dire avec équiprobabilité) un
individu de la population, la probabilité de succès (obtenir un individu de A) est p.
L’indicatrice de succès suit une loi de Bernoulli de paramètre p.
Modélisation Echantillonnage – Commentaires pour les oraux.
Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/
p. 3/4
Le tirage d’un échantillon de taille n avec équiprobabilité et avec remise peut être modélisé
par une suite de v.a.r. indépendantes et de même loi de Bernoulli de paramètre p (les
indicatrices de succès).
On convient d’assimiler un tirage sans remise à un tirage avec remise dès que le taux de
sondage (rapport de la taille de l’échantillon sur la taille de la population) est suffisamment
petit (inférieur à 0.1).
On tire au hasard avec remise un échantillon de taille n dans la population et on note f la
fréquence d’individus de A dans l’échantillon. On sait que f est une observation d’une variable
aléatoire dont l’espérance mathématique est p.
Une estimation ponctuelle de la proportion p de A dans la population est alors f (fréquence de
A dans l’échantillon).
On sait de plus que 95% des valeurs de sont à une distance de p inférieure ou égale à
(résultat du paragraphe précédent).
Une estimation par intervalle de confiance à 95% de la proportion p est
La procédure utilisée permet de dire que nous faisons erreur dans 5% des cas et que la
proportion p appartient bien à l’intervalle donné dans 95% des cas.
Modélisation Echantillonnage – Commentaires pour les oraux.
Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/
.
p. 4/4
Téléchargement