Chapitre 9 Simulations, échantillonnage Activité 1. I. Simulation De quoi s’agit-il ? Certaines expériences aléatoires sont particulièrement longues à réaliser. Grâce à la calculatrice ou à l’ordinateur, il est souvent possible de les remplacer par des expériences « équivalentes », beaucoup plus rapides à effectuer et aussi moins coûteuses. Exemple 1: Supposons que l’on effectue des lancers avec une pièce équilibrée. On voudrait savoir combien de fois « pile » apparait lorsque l’on effectue 1 000 lancers. On peut bien évidemment effectuer les 1 000 lancers à la main, mais il est plus commode et plus rapide de remplacer cette expérience par la suivante : on fait sortir à la calculatrice ou à l’ordinateur mille fois l’un des nombres 0 ou 1, de manière équiprobable. Pour cela on utilise les fonctions ALEA et ENT avec la formule : ENT (2ALEA()). On associe le nombre 1 à « pile » et le nombre 0 à « face ». Un calcul élémentaire permet alors d’obtenir le nombre de « pile ». Exercice 1 : Simuler le lancer d’une pièce de monnaie répété 500 fois. On note 1 la face « Pile » et 0 la face « face ». Exercice 2 : Une urne contient 40% de boules blanches. On souhaite effectuer 1000 tirages, avec remise, d’une boule au hasard. Proposer une manière de simuler cette expérience sur l’ordinateur en utilisant le fait qu’il peut faire sortir au hasard chacun des dix nombres 1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9 et 10 de façon équiprobable. Vérifier la proportion de boules blanches sur votre échantillon de 1000 tirages. Exercices 1, 2, 3, 7 et 9p267. II. Introduction à l’échantillonnage Les sondages jouent un rôle important dans notre société. Il en est souvent question pour indiquer la cote de popularité d’hommes politiques, mais en réalité, ils interviennent aussi dans bien d’autres domaines, moins médiatiques, mais importants. A. De quoi s’agit-il ? On peut en résumer le principe de la manière suivante : dans une population contenant « un grand nombre » N d’individus, un pourcentage p de ces individus possède une certaine propriété P, par exemple, « ont l’intention de voter pour tel candidat ». Pour trouver p, on pourrait, en théorie, examiner tous les individus et compter ceux qui possède la propriété P. -1- Connaissant le nombre total d’individus, on en déduirait alors immédiatement le pourcentage p cherché. B. Estimation Dans la pratique, il est très difficile d’examiner tous les individus : cela nécessiterait trop de temps, trop d’argent. Parfois même, l’examen de tous les individus donnerait p, certes, mais la connaissance de p ne servirait à rien. En effet, par exemple, imaginons que l’on veuille connaitre, dans un lot de 10 000 ampoules, avant de les mettre en vente, le pourcentage p d’ampoules ayant une durée de vie supérieure à 1 500 heures. En allumant sans interruption chacune des 10 000 ampoules on verrait qu’elle est la durée de vie de chacune, et on en déduirait p. Mais alors, toutes les ampoules seraient abimées donc non commercialisables, et alors les calculs relatifs à ce lot seraient inutiles ! Dans la pratique, on ne considère donc qu’une partie de la population, contenant un nombre n d’éléments, n étant nettement inférieur au nombre total N d’éléments. On peut alors calculer, dans cette partie de la population, le pourcentage f d’individus ayant la propriété P. Si cette partie n’est pas « trop petite » on conçoit intuitivement que le pourcentage réel p, relatif à toute la population, devrait être « voisin » de f . Souvent on considère que n 25 et 0,2 p 0,8 permettent d’utiliser ce qui va être fait dans la suite du chapitre. C. Une certitude : jamais En effet, si par « malchance », la partie de la population choisie a des caractéristiques très distinctes de celle de la population totale, p et f peuvent ne pas être voisins. La théorie des probabilités et des statistiques permet d’obtenir, grâce à des calculs qui ne sont pas au programme de la classe de seconde, une estimation plus satisfaisante, faisant intervenir, cette fois, un intervalle de centre f susceptible de contenir p. III. Notion d’échantillon A. De quoi s’agit-il ? Définition : Un échantillon de taille n est constitué des résultats de n répétitions indépendantes de la même expérience. Lorsque l’on étudie une partie de la population, on dit que l’on étudie un échantillon. Le nombre d’individus formant l’échantillon est la taille de l’échantillon. B. Exemples Cas d’une urne : Un échantillon de taille n est constitué des résultats de n tirages avec remise. Notons que si les tirages s’effectuent sans remise, alors les tirages ne sont plus indépendants. En effet la composition de l’urne varie après chaque tirage. Cas d’un sondage : Supposons que l’on interroge n personnes dans une population totale de N personnes. A priori, il s’agit d’une situation analogue à un tirage sans remise dans une urne ; en effet, les personnes interrogées ne sont interrogées qu’une seule fois. Mais souvent n est tellement plus petit que N que l’on convient que cela correspond à un tirage avec remise. -2- Exemple 2: Pour un sondage, on sait que la proportion de personne ayant répondu « oui » était de 0,4. On sait donc que p = 0,4. Comment faire à l’aide d’un tableur pour simuler une telle enquête au près de 500 personnes ? Activité. IV. Fluctuation d’échantillon A. Exemple Reprenons l’exemple de l’urne dans laquelle la population de boules blanches est égale à p. Supposons que p est connue, par exemple p = 0,6. Voici les fréquences de boules blanches obtenues, par simulation, à partir de 20 échantillons, chacun de taille 100. 0,51 0,55 0,62 0,63 0,68 0,53 0,55 0,5 0,6 0,52 0,69 0,68 0,58 0,69 0,61 0,54 0,7 0,55 0,47 0,59 On constate sur cet exemple que les fréquences observées fluctuent. Ce phénomène est appelée fluctuation de l’échantillonnage. Plus précisément, on peut constater que, pour la plus part des échantillons, la fréquence de sortie d’une boule blanche se trouve dans l’intervalle [0,5 ; 0,7]. On dispose ainsi d’un ordre de grandeur du nombre d’échantillons dont la fréquence appartient à l’intervalle [0,5 ; 0,7]. Dans l’exemple, on peut vérifier qu’il y en a 19 sur 20, c'est-à-dire 95%. B. Propriété générale Les résultats observés dans l’exemple précédent sont en accord avec la propriété générale suivante, démontrée en théorie des probabilités et des statistiques ; mais pas cette année ! Propriété : La fréquence du caractère dans un échantillon de taille n appartient à l’intervalle : Error! , avec une probabilité d’au moins 95%. C. Intervalle de fluctuation Définition : Pour un échantillon de taille n, l’intervalle Error! est appelé intervalle de fluctuation de la fréquence f au seuil de 95%. Remarque : L’intervalle de fluctuation de la fréquence f au seuil de 95% ne dépend que de p et de la taille de l’échantillon n et non de la population totale. Exemple 3 : Dans l’exemple du paragraphe IV. A. ci-dessus, n = 100 et p = 0,6. Donc l’intervalle de fluctuation de f au seuil de 95% est l’intervalle [0,5 ; 0,7]. On a pu constater que pour 95% des échantillons considérés, la fréquence f se trouvait bien dans cet intervalle de fluctuation. Exercice 3 : -3- Une urne contient 20 boules, dont 9 rouges. On effectue des séries de 100 tirages avec remise et on relève, pour chaque série, le pourcentage de boules rouges. Quel est l’intervalle de fluctuation de f au seuil de 95% ? V. Prise de décision à partir d’un échantillon La connaissance de l’intervalle de fluctuation peut permettre de mieux analyser certaines situations. Une telle analyse statistique conduit parfois à des résultats surprenants, comme on va le voir dans l’exemple suivant. A. Méfions-nous des apparences Deux entreprises A et B recrutent dans une région où il y a autant de femmes que d’hommes. Dans l’entreprise A, il y a 100 employés dont 43 femmes et 57 hommes. Dans l’entreprise B, il y a 2 500 employés, dont 46% de femmes et 54% d’hommes. On peut être tenté de penser que l’entreprise B respecte mieux la parité homme-femme que l’entreprise A, où il n’y a que 43% de femmes. B. Une analyse statistique Statistiquement, on peut considérer que le critère de parité est respecté lorsque les résultats observés pourraient être obtenus par un choix au hasard des individus dans la population totale, quel que soit leur sexe. Puisqu’il y a autant d’hommes que des femmes dans la région considérée, nous sommes donc en présence d’un phénomène du même type qu’un tirage avec remise d’une urne avec p = 0,5. Dans l’entreprise A, l’intervalle de fluctuation au seuil de 95% est l’intervalle Error!, c'est-àdire [0,4 ; 0,6]. Dans l’entreprise B, l’intervalle de fluctuation au seuil de 95% est l’intervalle Error!, c'est-àdire environ l’intervalle [0,48 ; 0,52]. Ainsi, pour l’entreprise A, 43%, c'est-à-dire 0,43, est bien dans l’intervalle de fluctuation au seuil de 95%, alors que l’entreprise B, 46%, c'est-à-dire 0,46, ne l’est pas ! C. Une prise de décision à présent On peut traduire le fait que 0,46 ne se trouve pas dans l’intervalle de fluctuation de la manière suivante : si on considère le modèle accordant une probabilité égale d’obtenir un homme et une femme, la proportion de 46% s’observe dans moins de 5% des échantillons. On peut alors rejeter l’hypothèse que l’entreprise B respecte mieux la parité que l’entreprise A, contrairement aux apparences. Remarque : Quelle que soit la décision prise, il y a toujours le risque que ce ne soit pas la bonne décision dans 5% des cas. Exercice 4 : Reprenons le contexte de l’exemple ci-dessus. -4- Dans le cas ci-dessous, indiquer le pourcentage de femmes dans chaque entreprise, puis interpréter statistiquement la situation en procédant comme dans l’exemple précédent. Dans l’entreprise A, il y a 41 femmes sur 100 employés. Dans l’entreprise B, il y a 4 850 femmes sur 10 000 employés. Exercice 5 : Cette année, 55% des candidats qui ont passé un certain concours l’ont réussi. Voici les résultats obtenus par deux centres qui préparaient ce concours. Centre A : sur 100 personnes qui ont présenté ce concours, 46 l’ont réussi. Centre B : sur 2 500 personnes qui ont présenté ce concours, 1 271 l’ont réussi. 1. a. Quel est le pourcentage p1 de réussite pour le centre A ? b. Quel est le pourcentage p2 de réussite pour le centre B ? c. Lequel de ces deux centres a le mieux réussi ? 2. On assimile le centre A à un échantillon de taille n = 100 relevant du modèle de probabilité p = 0,55. Donner l’intervalle de la fluctuation de l’échantillonnage au seuil de 95%. Est-ce que p1 appartient à cet intervalle ? 3. On assimile le centre B à un échantillon de taille n = 2 500 relevant du modèle de probabilité p = 0,55. Donner l’intervalle de la fluctuation de l’échantillonnage au seuil de 95%. Est-ce que p2 appartient à cet intervalle ? 4. Conclure sur le centre qui est le plus représentatif du résultat national à ce concours. Exercice 13p268. Exercices 20 et 21p270. Exercice 30p272. Exercice 39p274. VI Estimation d’une proportion inconnue p à partir d’un échantillon On suppose cette fois que la proportion p n’est pas connue. On va voir comment les résultats concernant la fluctuation d’échantillonnage peuvent être utilisés pour obtenir une estimation d’un pourcentage p. Cette situation est celle que l’on rencontre dans un sondage. Exemple 4 : Supposons qu’une urne contienne des boules de différentes couleurs, dont p% sont blanches. Si ce pourcentage p est inconnu, on peut en obtenir une estimation en effectuant un certain nombre de tirages, avec remise, et en calculant la fréquence f d’apparition des boules blanches lors des tirages effectués. A. Propriété pour faire le lien Propriété : Soit a un réel positif. Les deux assertions sont équivalentes p [f – a ; f +a] f [p – a ; p +a] Démonstration : p [f – a; f +a] SSI f – a p f + a -5- SSI SSI SSI SSI SSI B. f–ap et f p +a et p–af et p – a f p +a f [p –a; p +a] pf+a p–af f p +a Conséquences Compte tenu de cette propriété, la propriété du paragraphe IV. B. peut être écrite sous la forme suivante : Propriété : Notons f la fréquence observée dans un échantillon de taille n et p le pourcentage que l’on veut estimer. Alors l’intervalle Error!, contient p avec une probabilité d’au moins 0,95. Définition : On dit que l’intervalle Error! est l’intervalle de confiance de p au niveau de confiance 0,95. On dit aussi « avec un risque de 5% ». Remarque : L’intervalle de confiance au niveau 0,95 de p ne dépend que de la taille de l’échantillon n et de f et non de la population totale. Exercice 6 : A l’aide d’un échantillon de taille n, on souhaite estimer un pourcentage p. On suppose que p [0,2 ; 0,8]. On note f la fréquence observée dans cet échantillon. Indiquer l’intervalle de confiance de p au niveau 0,95 dans chacun des cas suivants ; puis en utilisant ce qui précède en donner une signification statistique. 1. f = 0,45 et n = 100. 2. f = 0,46 et n = 400. 3. f = 0,3 et n = 1000. Exercice 7 : Un candidat à une élection effectue un sondage dans sa circonscription comportant 85 842 électeurs : sur 1 068 personnes interrogées, 550 déclarent vouloir voter pour ce candidat. Pour gagner l’élection au premier tour, un candidat doit obtenir plus de 50% des voix. Ce candidat affirme « Si les élections avaient eu lieu le jour du sondage et si les réponses au sondage étaient sincères, alors j’aurais été élu au premier tour. » Que penser de cette affirmation ? Exercices 15 et 16p268. Exercice 22p270. Exercices 26 et 27p271. Exercices 29 (1) et (3), 31 et 32p272. Exercices 34 et 37p273. Exercice 38p274. ANNEXES -6- Ne pas oublier le signe « = » !! =ALEA () : l’ordinateur retourne un nombre aléatoire compris entre 0 inclus et 1 exclu. =ENT(x) : l’ordinateur donne la partie entière de x ; c'est-à-dire qu’il ne conserve que ce qui est à gauche de la virgule lorsque le nombre est en écriture décimale. Par exemple ENT(3,5) = 3. La fonction qui donne un nombre au hasard x vérifiant 0 ie x < 1 est =ALEA () Pour avoir un nombre au hasard y vérifiant 0 ie y < 6 est =6*ALEA () Pour avoir un nombre entier au hasard t vérifiant 0 ie t ie 5 est =ENT (6*ALEA()) Pour avoir un nombre entier au hasard a vérifiant 1 ie a ie 6 est =ENT (6’ALEA()) +1 Pour simuler des nombres entiers de 0 à D on utilise la fonction =ENT (ALEA ()*(D+1)). Pour simuler des nombres entiers de a à a + D on utilise la fonction =ENT(ALEA()*(D+1))+a. =SI (test ; valeur si test positif ; valeur si test négatif) : L’ordinateur effectue un test qui renvoie une valeur s’il est positif et autre s’il est négatif. Par exemple SI (B2=4 ; 1 ; 0) on aura 1 si la cellule B2 est égale à 4 et 0 sinon. RESUMÉ L’intervalle de fluctuation au seuil de 95% est Error!. Il suffit ensuite de remplacer par les valeurs de p et de n, afin de savoir si f est dans l’intervalle. Si c’est le cas, alors on ne peut pas rejeter l’hypothèse que l’échantillon soit compatible avec le modèle envisagée. Si ce n’est pas le cas, alors on peut rejeter l’hypothèse que l’échantillon soit compatible avec le modèle. Quelque soit la décision prise, il y a toujours un risque de se tromper dans 5% des cas. Utilisation : Prendre une décision sur un échantillon en utilisant l’intervalle de fluctuation. L’intervalle de confiance au niveau 0,95 est Error!. Il suffit ensuite de remplacer par les valeurs de f et de n, afin d’estimer un intervalle dans lequel se trouve p. Utilisation : Estimer une proportion p inconnue du caractère d’une population à partir d’un échantillon. -7-