Modélisation – Simulation - Fluctuation d’échantillonnage Intervalle de fluctuation - Intervalle de confiance Commentaire sur les oraux Oral 2 - Thème 10 : Modélisation et simulation d'expériences aléatoires : fluctuation d'échantillonnage Aucun dossier sur ce thème n’a été proposé par le Jury du Capes. En revanche, des questions sur la simulation sont posées dans le cadre d’autres dossiers. Les programmes de probabilités et statistique ont été profondément modifiés depuis 2000. Les programmes Depuis la rentrée 2008, une introduction aux probabilités est proposée en 3ème. Avant cette date, c’était seulement en première qu’étaient abordées « les probabilités » après une introduction intuitive en seconde à l'aide de "simulation et fluctuation d'échantillonnage". Depuis la rentrée 2009, le nouveau programme de seconde prend en compte l’introduction aux probabilités faite en 3ème. La simulation et la fluctuation d’échantillonnage sont toujours au programme mais l’accent est mis sur les notions d’intervalle de fluctuation d’une fréquence d’échantillonnage à 95% et sur l’estimation par intervalle de confiance à 95% d’une proportion. La statistique inférentielle est constituée de trois parties : - l’échantillonnage qui consiste à étudier les distributions de probabilités des variables aléatoires dites d’échantillonnage, - l’estimation ponctuelle ou par intervalle de confiance des paramètres de la population ou du modèle probabiliste, enfin - les tests statistiques (test d’adéquation à une loi de probabilité, test de comparaison d’une moyenne ou d’une fréquence à une valeur donnée, test de comparaison de deux moyennes ou de deux fréquences, …) Les deux premières parties sont donc abordées en 2nde pour une « proportion ». L’objectif de savoir interpréter les résultats d’un sondage avec la notion de fourchette de sondage (intervalle de confiance) fait partie de la statistique du citoyen. La troisième partie est abordée en terminale : test d’adéquation à une loi équirépartie. Les nouveaux programmes de première pour la rentrée 2010 ne sont toujours pas sortis à ce jour (avril 2010). L’introduction aux probabilités aura déjà été faite, la simulation et la fluctuation d’échantillonnage auront déjà été étudiées l’année précédente. Il s’agit à présent de « formaliser » la notion de distribution de probabilité et de modéliser des situations réelles. Vocabulaire : Modéliser une expérience aléatoire Modéliser une expérience aléatoire, c'est trouver l'espace probabilisé associé (c'est-à-dire, l'ensemble des résultats possibles et les probabilités associées). Les nouveaux programmes utilisent le terme de "loi de probabilité" associée (cf. page 15 du document d'accompagnement de première ES : "Remarque : nous avons choisi pour l'enseignement secondaire d'employer le terme de loi de probabilité sur un ensemble, que celle-ci soit ou non la loi d'une variable aléatoire."). On pourra aussi parler de "distribution de Modélisation Echantillonnage – Commentaires pour les oraux. Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/ p. 1/4 probabilité" qui est synonyme de "loi de probabilité" et plus proche de la notion de "distribution de fréquences" vue en statistique. Plutôt que trouver l'espace probabilisé associé, on devrait dire trouver "un" espace probabilisé associé qui décrive "au mieux" l'expérience aléatoire. "Au mieux" signifie que, si l'on répète un grand nombre de fois l'expérience aléatoire dans les mêmes conditions, la distribution de fréquences observée sur les n premières expériences tend vers la "distribution de probabilité" lorsque n augmente. Exemple 1 : On tire "au hasard" une boule dans une urne contenant trois boules indiscernables au toucher, deux blanches et une noire et on s'intéresse à la couleur de la boule. Deux modèles associés sont, avec des notations évidentes, 2 1 et = Ω {b, n} avec = P({b}) = et P({n}) 3 3 1 = Ω ' {b1 , b2 , n} avec P = '({b1}) P '({ = b2 }) P= '({n}) . 3 De fait le premier modèle est implicitement construit à partir du second. Les boules sont indiscernables au toucher mais sont physiquement au nombre de trois et, par hypothèse, le tirage se fait avec équiprobabilité. Ces deux modèles sont équivalents dans la mesure où ils donnent les mêmes probabilités aux événements associés à l'expérience aléatoire. L'événement "obtenir une blanche" s'écrit {b} dans le premier modèle et {b1 , b2 } dans le 2 2 deuxième et on a : P({b}) = et P '({b1 , b2 }) = . 3 3 Exemple 2 On tire au hasard dans une urne contenant des boules, indiscernables au toucher, blanches ou noires. On ne connaît pas la proportion de boules blanches dans l'urne mais l'on a l'autorisation de tirer 10 fois de suite avec remise et dans les mêmes conditions une boule de l'urne. On obtient 3 blanches et 7 noires. On propose alors la modélisation suivante : Ω {b, n} avec = = P({b}) 0.3 = et P({n}) 0.7 , quitte à modifier le modèle si l'on peut recommencer des tirages et avoir des informations supplémentaires. Simuler une expérience aléatoire « Simuler une expérience aléatoire, c'est choisir un modèle de cette expérience puis simuler ce modèle ». Cf. les programmes de 1ère S et ES et le document « Simulation et échantillonnage ». Bien sûr, dans le langage courant, le mot "simulation" a un autre sens et même deux autres sens : "faire semblant" (simuler un sentiment ou une maladie) et "remplacer une situation par une autre plus simple donnant les mêmes résultats" (simulation de vol ou d'accidents). On peut simuler une distribution de probabilité que l'on ne connaît pas et que l'on cherche à "approcher" par simulation. C'est ce que l'on a fait dans l'exemple 2 ci-dessus. D'après le programme de 1ère S : "On simulera des lois de probabilités simples obtenues comme images d'une loi équirépartie par une variable aléatoire. La modélisation avec des lois ne découlant pas d'une loi équirépartie est hors programme." Modélisation Echantillonnage – Commentaires pour les oraux. Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/ p. 2/4 Par exemple, la loi de probabilité de la v.a.r. X égale à la somme des points marqués par 3 dés lancés simultanément est l'image par X de l'équiprobabilité sur {1,..., 6}3 . Il suffit de simuler par exemple 1000 triplets de la loi équirépartie sur {1,..., 6}3 (c'est-à-dire 3000 observations de la loi équirépartie sur {1,..., 6}3 que l'on répartit 3 par 3) et pour chaque triplet de calculer la somme des 3 nombres obtenus pour obtenir la distribution de fréquences de cet échantillon de taille 1000 de X et donc une approximation de la loi de probabilité de X. Fluctuation d’échantillonnage Version simulation (classe de 2nde) : lorsque l’on simule n fois une loi de probabilité (Bernoulli de paramètre 1/3 ou loi uniforme discrète sur {1,…,6}), on obtient un « échantillon de résultats de taille n » : on peut alors s’intéresser à la fréquence d’un événement appelé « succès », appelée fréquence d’échantillonnage, ou à la moyenne des résultats obtenus, appelée moyenne d’échantillonnage, … Les valeurs prises par les variables d’échantillonnage sont différentes d’un échantillon de taille n à un autre ; il s’agit de ce que l’on appelle la « fluctuation d’échantillonnage ». Lorsque la taille de l’échantillon augmente, les fluctuations deviennent de plus en plus faibles et tendent à se stabiliser autour de la fréquence de succès lors d’une expérience ou de la moyenne de la loi de probabilité. Version probabiliste : soit une suite de v.a.r. indépendantes et de même loi de probabilité d’espérance mathématique µ et d’écart-type σ. On pose : . Cette nouvelle v.a.r. est appelée « moyenne d’échantillonnage ». Elle a pour espérance mathématique µ et pour écart-type . La moyenne d’échantillonnage « converge » donc vers µ lorsque la taille de l’échantillon augmente. De plus, sa loi de probabilité peut être approchée par une loi normale de mêmes paramètres dès que la taille de l’échantillon est suffisamment grande Dans le cas où la loi de probabilité est une loi de Bernoulli de paramètre p (loi de l’indicatrice du succès d’une épreuve de Bernoulli), alors µ = p et , la moyenne d’échantillonnage n’est autre que la « fréquence d’échantillonnage » (fréquence de succès sur l’échantillon) et elle est notée . Intervalle de fluctuation d’une fréquence d’échantillonnage à 95% On sait que, pour toute variable aléatoire normale, 95% des valeurs sont comprises entre la moyenne moins 2 écart-types et la moyenne plus 2 écart-types. L’intervalle est appelé « intervalle de fluctuation de 95% ». Lorsque p est compris entre 0.2 et 0.8 on peut approcher l’intervalle de fluctuation de à 95% devient . à par 1/2 et Intervalle de confiance à 95% d’une proportion On s’intéresse à une sous-population A d’une population finie dont la proportion par rapport à la population est notée p. Lorsque l’on tire « au hasard » (c’est-à-dire avec équiprobabilité) un individu de la population, la probabilité de succès (obtenir un individu de A) est p. L’indicatrice de succès suit une loi de Bernoulli de paramètre p. Modélisation Echantillonnage – Commentaires pour les oraux. Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/ p. 3/4 Le tirage d’un échantillon de taille n avec équiprobabilité et avec remise peut être modélisé par une suite de v.a.r. indépendantes et de même loi de Bernoulli de paramètre p (les indicatrices de succès). On convient d’assimiler un tirage sans remise à un tirage avec remise dès que le taux de sondage (rapport de la taille de l’échantillon sur la taille de la population) est suffisamment petit (inférieur à 0.1). On tire au hasard avec remise un échantillon de taille n dans la population et on note f la fréquence d’individus de A dans l’échantillon. On sait que f est une observation d’une variable aléatoire dont l’espérance mathématique est p. Une estimation ponctuelle de la proportion p de A dans la population est alors f (fréquence de A dans l’échantillon). On sait de plus que 95% des valeurs de sont à une distance de p inférieure ou égale à (résultat du paragraphe précédent). Une estimation par intervalle de confiance à 95% de la proportion p est La procédure utilisée permet de dire que nous faisons erreur dans 5% des cas et que la proportion p appartient bien à l’intervalle donné dans 95% des cas. Modélisation Echantillonnage – Commentaires pour les oraux. Jeanne Fine – IUFM Midi-Pyrénées – http://finestat.free.fr/ . p. 4/4