Document

publicité
Chapitre 9
Simulations, échantillonnage
Activité 1.
I.
Simulation
De quoi s’agit-il ?
Certaines expériences aléatoires sont particulièrement longues à réaliser. Grâce à la
calculatrice ou à l’ordinateur, il est souvent possible de les remplacer par des expériences
« équivalentes », beaucoup plus rapides à effectuer et aussi moins coûteuses.
Exemple 1:
Supposons que l’on effectue des lancers avec une pièce équilibrée. On voudrait savoir
combien de fois « pile » apparait lorsque l’on effectue 1 000 lancers. On peut bien
évidemment effectuer les 1 000 lancers à la main, mais il est plus commode et plus rapide de
remplacer cette expérience par la suivante : on fait sortir à la calculatrice ou à l’ordinateur
mille fois l’un des nombres 0 ou 1, de manière équiprobable. Pour cela on utilise les fonctions
ALEA et ENT avec la formule : ENT (2ALEA()). On associe le nombre 1 à « pile » et le
nombre 0 à « face ». Un calcul élémentaire permet alors d’obtenir le nombre de « pile ».
Exercice 1 :
Simuler le lancer d’une pièce de monnaie répété 500 fois. On note 1 la face « Pile » et 0 la
face « face ».
Exercice 2 :
Une urne contient 40% de boules blanches. On souhaite effectuer 1000 tirages, avec remise,
d’une boule au hasard.
Proposer une manière de simuler cette expérience sur l’ordinateur en utilisant le fait qu’il peut
faire sortir au hasard chacun des dix nombres 1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9 et 10 de façon
équiprobable. Vérifier la proportion de boules blanches sur votre échantillon de 1000 tirages.
Exercices 1, 2, 3, 7 et 9p267.
II. Introduction à l’échantillonnage
Les sondages jouent un rôle important dans notre société. Il en est souvent question pour
indiquer la cote de popularité d’hommes politiques, mais en réalité, ils interviennent aussi
dans bien d’autres domaines, moins médiatiques, mais importants.
A.
De quoi s’agit-il ?
On peut en résumer le principe de la manière suivante : dans une population contenant « un
grand nombre » N d’individus, un pourcentage p de ces individus possède une certaine
propriété P, par exemple, « ont l’intention de voter pour tel candidat ». Pour trouver p, on
pourrait, en théorie, examiner tous les individus et compter ceux qui possède la propriété P.
-1-
Connaissant le nombre total d’individus, on en déduirait alors immédiatement le pourcentage
p cherché.
B.
Estimation
Dans la pratique, il est très difficile d’examiner tous les individus : cela nécessiterait trop de
temps, trop d’argent. Parfois même, l’examen de tous les individus donnerait p, certes, mais la
connaissance de p ne servirait à rien.
En effet, par exemple, imaginons que l’on veuille connaitre, dans un lot de 10 000 ampoules,
avant de les mettre en vente, le pourcentage p d’ampoules ayant une durée de vie supérieure à
1 500 heures. En allumant sans interruption chacune des 10 000 ampoules on verrait qu’elle
est la durée de vie de chacune, et on en déduirait p. Mais alors, toutes les ampoules seraient
abimées donc non commercialisables, et alors les calculs relatifs à ce lot seraient inutiles !
Dans la pratique, on ne considère donc qu’une partie de la population, contenant un nombre n
d’éléments, n étant nettement inférieur au nombre total N d’éléments. On peut alors calculer,
dans cette partie de la population, le pourcentage f d’individus ayant la propriété P. Si cette
partie n’est pas « trop petite » on conçoit intuitivement que le pourcentage réel p, relatif à
toute la population, devrait être « voisin » de f .
Souvent on considère que n  25 et 0,2  p  0,8 permettent d’utiliser ce qui va être fait dans
la suite du chapitre.
C.
Une certitude : jamais
En effet, si par « malchance », la partie de la population choisie a des caractéristiques très
distinctes de celle de la population totale, p et f peuvent ne pas être voisins.
La théorie des probabilités et des statistiques permet d’obtenir, grâce à des calculs qui ne sont
pas au programme de la classe de seconde, une estimation plus satisfaisante, faisant
intervenir, cette fois, un intervalle de centre f susceptible de contenir p.
III. Notion d’échantillon
A.
De quoi s’agit-il ?
Définition :
Un échantillon de taille n est constitué des résultats de n répétitions indépendantes de la
même expérience. Lorsque l’on étudie une partie de la population, on dit que l’on étudie un
échantillon. Le nombre d’individus formant l’échantillon est la taille de l’échantillon.
B.
Exemples
Cas d’une urne :
Un échantillon de taille n est constitué des résultats de n tirages avec remise.
Notons que si les tirages s’effectuent sans remise, alors les tirages ne sont plus indépendants.
En effet la composition de l’urne varie après chaque tirage.
Cas d’un sondage :
Supposons que l’on interroge n personnes dans une population totale de N personnes. A
priori, il s’agit d’une situation analogue à un tirage sans remise dans une urne ; en effet, les
personnes interrogées ne sont interrogées qu’une seule fois. Mais souvent n est tellement plus
petit que N que l’on convient que cela correspond à un tirage avec remise.
-2-
Exemple 2:
Pour un sondage, on sait que la proportion de personne ayant répondu « oui » était de 0,4. On
sait donc que p = 0,4. Comment faire à l’aide d’un tableur pour simuler une telle enquête au
près de 500 personnes ?
Activité.
IV. Fluctuation d’échantillon
A.
Exemple
Reprenons l’exemple de l’urne dans laquelle la population de boules blanches est égale à p.
Supposons que p est connue, par exemple p = 0,6.
Voici les fréquences de boules blanches obtenues, par simulation, à partir de 20 échantillons,
chacun de taille 100.
0,51
0,55
0,62
0,63
0,68
0,53
0,55
0,5
0,6
0,52
0,69
0,68
0,58
0,69
0,61
0,54
0,7
0,55
0,47
0,59
On constate sur cet exemple que les fréquences observées fluctuent. Ce phénomène est
appelée fluctuation de l’échantillonnage.
Plus précisément, on peut constater que, pour la plus part des échantillons, la fréquence de
sortie d’une boule blanche se trouve dans l’intervalle [0,5 ; 0,7]. On dispose ainsi d’un ordre
de grandeur du nombre d’échantillons dont la fréquence appartient à l’intervalle [0,5 ; 0,7].
Dans l’exemple, on peut vérifier qu’il y en a 19 sur 20, c'est-à-dire 95%.
B.
Propriété générale
Les résultats observés dans l’exemple précédent sont en accord avec la propriété générale
suivante, démontrée en théorie des probabilités et des statistiques ; mais pas cette année !
Propriété :
La fréquence du caractère dans un échantillon de taille n appartient à l’intervalle :
Error! , avec une probabilité d’au moins 95%.
C.
Intervalle de fluctuation
Définition :
Pour un échantillon de taille n, l’intervalle Error! est appelé intervalle de fluctuation de la
fréquence f au seuil de 95%.
Remarque :
L’intervalle de fluctuation de la fréquence f au seuil de 95% ne dépend que de p et de la taille
de l’échantillon n et non de la population totale.
Exemple 3 :
Dans l’exemple du paragraphe IV. A. ci-dessus, n = 100 et p = 0,6. Donc l’intervalle de
fluctuation de f au seuil de 95% est l’intervalle [0,5 ; 0,7].
On a pu constater que pour 95% des échantillons considérés, la fréquence f se trouvait bien
dans cet intervalle de fluctuation.
Exercice 3 :
-3-
Une urne contient 20 boules, dont 9 rouges. On effectue des séries de 100 tirages avec remise
et on relève, pour chaque série, le pourcentage de boules rouges.
Quel est l’intervalle de fluctuation de f au seuil de 95% ?
V. Prise de décision à partir d’un échantillon
La connaissance de l’intervalle de fluctuation peut permettre de mieux analyser certaines
situations. Une telle analyse statistique conduit parfois à des résultats surprenants, comme on
va le voir dans l’exemple suivant.
A.
Méfions-nous des apparences
Deux entreprises A et B recrutent dans une région où il y a autant de femmes que d’hommes.
Dans l’entreprise A, il y a 100 employés dont 43 femmes et 57 hommes. Dans l’entreprise B,
il y a 2 500 employés, dont 46% de femmes et 54% d’hommes.
On peut être tenté de penser que l’entreprise B respecte mieux la parité homme-femme que
l’entreprise A, où il n’y a que 43% de femmes.
B.
Une analyse statistique
Statistiquement, on peut considérer que le critère de parité est respecté lorsque les résultats
observés pourraient être obtenus par un choix au hasard des individus dans la population
totale, quel que soit leur sexe. Puisqu’il y a autant d’hommes que des femmes dans la région
considérée, nous sommes donc en présence d’un phénomène du même type qu’un tirage avec
remise d’une urne avec p = 0,5.
Dans l’entreprise A, l’intervalle de fluctuation au seuil de 95% est l’intervalle Error!, c'est-àdire [0,4 ; 0,6].
Dans l’entreprise B, l’intervalle de fluctuation au seuil de 95% est l’intervalle Error!, c'est-àdire environ l’intervalle [0,48 ; 0,52].
Ainsi, pour l’entreprise A, 43%, c'est-à-dire 0,43, est bien dans l’intervalle de fluctuation au
seuil de 95%, alors que l’entreprise B, 46%, c'est-à-dire 0,46, ne l’est pas !
C.
Une prise de décision à présent
On peut traduire le fait que 0,46 ne se trouve pas dans l’intervalle de fluctuation de la manière
suivante : si on considère le modèle accordant une probabilité égale d’obtenir un homme et
une femme, la proportion de 46% s’observe dans moins de 5% des échantillons.
On peut alors rejeter l’hypothèse que l’entreprise B respecte mieux la parité que l’entreprise
A, contrairement aux apparences.
Remarque :
Quelle que soit la décision prise, il y a toujours le risque que ce ne soit pas la bonne décision
dans 5% des cas.
Exercice 4 :
Reprenons le contexte de l’exemple ci-dessus.
-4-
Dans le cas ci-dessous, indiquer le pourcentage de femmes dans chaque entreprise, puis
interpréter statistiquement la situation en procédant comme dans l’exemple précédent.
Dans l’entreprise A, il y a 41 femmes sur 100 employés.
Dans l’entreprise B, il y a 4 850 femmes sur 10 000 employés.
Exercice 5 :
Cette année, 55% des candidats qui ont passé un certain concours l’ont réussi. Voici les
résultats obtenus par deux centres qui préparaient ce concours.
Centre A : sur 100 personnes qui ont présenté ce concours, 46 l’ont réussi.
Centre B : sur 2 500 personnes qui ont présenté ce concours, 1 271 l’ont réussi.
1.
a.
Quel est le pourcentage p1 de réussite pour le centre A ?
b.
Quel est le pourcentage p2 de réussite pour le centre B ?
c.
Lequel de ces deux centres a le mieux réussi ?
2.
On assimile le centre A à un échantillon de taille n = 100 relevant du modèle de
probabilité p = 0,55. Donner l’intervalle de la fluctuation de l’échantillonnage au seuil de
95%. Est-ce que p1 appartient à cet intervalle ?
3.
On assimile le centre B à un échantillon de taille n = 2 500 relevant du modèle
de probabilité p = 0,55. Donner l’intervalle de la fluctuation de l’échantillonnage au seuil de
95%. Est-ce que p2 appartient à cet intervalle ?
4.
Conclure sur le centre qui est le plus représentatif du résultat national à ce
concours.
Exercice 13p268.
Exercices 20 et 21p270.
Exercice 30p272.
Exercice 39p274.
VI Estimation d’une proportion inconnue p à partir d’un
échantillon
On suppose cette fois que la proportion p n’est pas connue. On va voir comment les résultats
concernant la fluctuation d’échantillonnage peuvent être utilisés pour obtenir une estimation
d’un pourcentage p.
Cette situation est celle que l’on rencontre dans un sondage.
Exemple 4 :
Supposons qu’une urne contienne des boules de différentes couleurs, dont p% sont blanches.
Si ce pourcentage p est inconnu, on peut en obtenir une estimation en effectuant un certain
nombre de tirages, avec remise, et en calculant la fréquence f d’apparition des boules blanches
lors des tirages effectués.
A.
Propriété pour faire le lien
Propriété :
Soit a un réel positif.
Les deux assertions sont équivalentes

p  [f – a ; f +a]

f  [p – a ; p +a]
Démonstration :
p  [f – a; f +a]
SSI f – a  p  f + a
-5-
SSI
SSI
SSI
SSI
SSI
B.
f–ap
et
f  p +a
et
p–af
et
p – a  f  p +a
f  [p –a; p +a]
pf+a
p–af
f  p +a
Conséquences
Compte tenu de cette propriété, la propriété du paragraphe IV. B. peut être écrite sous la
forme suivante :
Propriété :
Notons f la fréquence observée dans un échantillon de taille n et p le pourcentage que l’on
veut estimer.
Alors l’intervalle Error!, contient p avec une probabilité d’au moins 0,95.
Définition :
On dit que l’intervalle Error! est l’intervalle de confiance de p au niveau de confiance
0,95. On dit aussi « avec un risque de 5% ».
Remarque :
L’intervalle de confiance au niveau 0,95 de p ne dépend que de la taille de l’échantillon n et
de f et non de la population totale.
Exercice 6 :
A l’aide d’un échantillon de taille n, on souhaite estimer un pourcentage p.
On suppose que p  [0,2 ; 0,8].
On note f la fréquence observée dans cet échantillon.
Indiquer l’intervalle de confiance de p au niveau 0,95 dans chacun des cas suivants ; puis en
utilisant ce qui précède en donner une signification statistique.
1.
f = 0,45 et n = 100.
2.
f = 0,46 et n = 400.
3.
f = 0,3 et n = 1000.
Exercice 7 :
Un candidat à une élection effectue un sondage dans sa circonscription comportant 85 842
électeurs : sur 1 068 personnes interrogées, 550 déclarent vouloir voter pour ce candidat.
Pour gagner l’élection au premier tour, un candidat doit obtenir plus de 50% des voix.
Ce candidat affirme « Si les élections avaient eu lieu le jour du sondage et si les réponses au
sondage étaient sincères, alors j’aurais été élu au premier tour. »
Que penser de cette affirmation ?
Exercices 15 et 16p268.
Exercice 22p270.
Exercices 26 et 27p271.
Exercices 29 (1) et (3), 31 et 32p272.
Exercices 34 et 37p273.
Exercice 38p274.
ANNEXES
-6-
Ne pas oublier le signe « = » !!
=ALEA () : l’ordinateur retourne un nombre aléatoire compris entre 0 inclus et 1 exclu.
=ENT(x) : l’ordinateur donne la partie entière de x ; c'est-à-dire qu’il ne conserve que ce qui
est à gauche de la virgule lorsque le nombre est en écriture décimale.
Par exemple ENT(3,5) = 3.
La fonction qui donne un nombre au hasard x vérifiant 0 ie x < 1 est =ALEA ()
Pour avoir un nombre au hasard y vérifiant 0 ie y < 6 est =6*ALEA ()
Pour avoir un nombre entier au hasard t vérifiant 0 ie t ie 5 est =ENT (6*ALEA())
Pour avoir un nombre entier au hasard a vérifiant 1 ie a ie 6 est =ENT (6’ALEA()) +1
Pour simuler des nombres entiers de 0 à D on utilise la fonction =ENT (ALEA ()*(D+1)).
Pour simuler des nombres entiers de a à a + D on utilise la fonction
=ENT(ALEA()*(D+1))+a.
=SI (test ; valeur si test positif ; valeur si test négatif) : L’ordinateur effectue un test qui
renvoie une valeur s’il est positif et autre s’il est négatif. Par exemple SI (B2=4 ; 1 ; 0) on
aura 1 si la cellule B2 est égale à 4 et 0 sinon.
RESUMÉ
L’intervalle de fluctuation au seuil de 95% est Error!.
Il suffit ensuite de remplacer par les valeurs de p et de n, afin de savoir si f est dans
l’intervalle.
Si c’est le cas, alors on ne peut pas rejeter l’hypothèse que l’échantillon soit
compatible avec le modèle envisagée.
Si ce n’est pas le cas, alors on peut rejeter l’hypothèse que l’échantillon soit
compatible avec le modèle.
Quelque soit la décision prise, il y a toujours un risque de se tromper dans 5% des cas.
Utilisation :
Prendre une décision sur un échantillon en utilisant l’intervalle de fluctuation.
L’intervalle de confiance au niveau 0,95 est Error!.
Il suffit ensuite de remplacer par les valeurs de f et de n, afin d’estimer un intervalle dans
lequel se trouve p.
Utilisation :
Estimer une proportion p inconnue du caractère d’une population à partir d’un échantillon.
-7-
Téléchargement