1 Introduction : Deux problématiques différentes

publicité
1
Introduction : Deux problématiques différentes
Soit p la proportion de présence du caractère auquel on s’intéresse dans la population totale, c’est-à-dire
la probabilité qu’un individu choisi au hasard dans la population présente ce caractère.
Soit f la fréquence observée de cette même caractéristique dans l’échantillon.
Problématique
Outil
Critère
En Seconde
Échantillonnage
Estimation
p est connue ou supposée et on cherche à p est inconnue et on cherche à estimer p à
prendre une décision à partir d’un
partir d’un échantillon de taille n prélevé
échantillon de taille n prélevé au hasard.
au hasard.
Intervalle de fluctuation d’une fréquence
Intervalle de confiance d’une proportion
(IFF)
(ICP)
On prend une décision (avec un risque
On estime la proportion p au niveau de
d’erreur de l’ordre de 5 %) en fonction de
confiance de 95 % par l’ICP.
l’appartenance ou non de f à l’IFF.
Conditions : n > 25 et 0,2 6 p 6 0,8
ñ
ô
ñ
ô
1
1
1
1
IFF : p − √ ; p + √
ICP : f − √ ; f + √
n
n
n
n
Exercice 1
Dans chacune des quatre situations ci-dessous, dire
si la question relève de l’estimation ou de l’échantillonnage et, dans le second cas, préciser si la valeur de p est connue ou supposée puis, dans un
second temps, répondre à la question posée en utilisant les outils de la classe de seconde.
Situation 1
On souhaite savoir si une entreprise de 2500 salariés dont 1183 femmes exerce une discrimination à
l’embauche vis-à-vis du personnel féminin.
Sachant que la proportion de femmes dans la population active est 50 %, peut-on dire que cette
entreprise exerce une discrimination à l’égard des
femmes ?
Situation 2
Dans une usine automobile, on contrôle les défauts
de peinture de type « grains ponctuels ».
Lorsque le processus est sous contrôle, on a 2,3 %
de ce type de défauts.
Lors du contrôle aléatoire de 1000 véhicules, on
observe 3,2 % de défauts. Doit-on s’en inquiéter ?
Situation 3
Une urne contient un grand nombre de jetons dont
certains sont de couleur rouge et les autres de couleur bleue.
On choisit au hasard un échantillon de 100 jetons
avec remise et on obtient 32 jetons rouges.
Peut-on estimer la proportion de jetons bleus dans
l’urne ?
Situation 4
Un article d’une revue médicale affirme que, depuis environ trente ans, le nombre de personnes
confrontées aux allergies ne cesse d’augmenter et
estime à environ 40 % la proportion de la population ayant déjà déclaré une pathologie allergique.
Une étude portant sur un échantillon de 400 personnes a permis de dénombrer 138 personnes allergiques.
Quelle conclusion peut-on tirer de cette étude ?
Exercice 2
La proportion d’ampoules à économie d’énergie
non conformes dans la production d’une entreprise
est p = 0,07.
L’entreprise souhaite fournir des lots d’ampoules
pour lesquels elle puisse « garantir » qu’environ
95 % d’entre eux ont une fréquence d’ampoules non
conformes entre 0,03 et 0,11.
Quelle taille minimale n doit-on choisir pour
les lots à constituer afin de répondre à cette
contrainte ?
Exercice 3
Quel est le nombre minimal n de personnes à interroger par un institut de sondage pour qu’un
candidat obtenant 51 % d’intentions de vote dans
cet échantillon de taille n, ait un intervalle de
confiance au niveau de 95 % qui ne contient que
des scores supérieurs à 50 % ?
Exercice 4
Un vol est assuré par un Airbus de 165 places.
La réservation est obligatoire et l’expérience
a montré que la probabilité qu’une personne
confirme sa réservation et retire son billet est 0,8.
On suppose que les comportements des voyageurs
sont indépendants les uns des autres.
La direction de la compagnie décide de faire du
surbooking et souhaite conaître le nombre maximal de réservations qu’elle a intérêt à accepter afin
d’avoir 95 % de chances de ne dédommager personne ?
1. Exprimer, en fonction du nombre n de réservations que la compagnie accepte, la fréquence
fmax de réservations confirmées à ne pas dépasser.
2. Déterminer l’intervalle de fluctuation de la
fréquence de réservations confirmées dans un
échantillon de taille n sous l’hypothèse p = 0,8.
3. Conclure.
Exercice 5
À la veille du second tour d’une élection présidentielle opposant deux candidats A et B, un institut de
sondage souhaite estimer la probabilité que le candidat A soit élu.
On fait l’hypothèse que les suffrages des différents électeurs sont indépendants et que la probabilité que
chacun d’entre eux vote A au second tour est p.
1. On rappelle le résultat suivant, vu en classe de seconde.
Définition - Proposition (Énoncée et admise en seconde)
Si n est supérieur ou égal à 25 et si p est comprise
ñ entre 0,2 et 0,8ô alors, parmi tous les échantillons de
1
1
√ ; f + √ contiennent le nombre p.
taille n, au moins 95 % ñdes intervalles associés
f
−
ô
n
n
1
1
√
√
Tout intervalle du type f −
;f +
est appelé intervalle de confiance au niveau de confiance
n
n
de 95 % de p.
a) L’institut désire obtenir une estimation « à maximum plus ou moins 2,5 % » du score du candidat A.
Quel nombre minimum d’électeurs doit-il sonder pour obtenir un intervalle de confiance à 95 % pour
son estimation ?
b) On considère que cet institut effectue un sondage auprès de 1600 électeurs parmi lesquels 812 se
déclarent en faveur de A (on suppose que tous les électeurs se prononcent).
Déterminer l’estimation pobs que l’on peut faire du score de A à ce second tour, puis déterminer un
intervalle de confiance à 95 % de p.
c) Les résultats de ce sondage sont-ils de nature à rassurer Monsieur A ?
2. Monsieur A annonce que 52 % des électeurs lui font confiance. On interroge cent électeurs au hasard (la
population est suffisamment grande pour considérer qu il s agit de tirages avec remise) et on souhaite
savoir à partir de quelles fréquences, au seuil de 5 %, on peut mettre en doute le pourcentage annoncé
par Monsieur A, dans un sens ou dans l’autre.
a) On fait l’hypothèse que Monsieur A dit vrai et que la proportion des électeurs qui lui font confiance
dans la population est p = 0,52. Quelle loi suit la variable aléatoire X, correspondant au nombre
d’électeurs lui faisant confiance dans un échantillon de cent électeurs ?
b) On donne ci-dessous un extrait de la table des probabilités cumulées p(X 6 k) où X suit la loi
binomiale de paramètres n = 100 et p = 0,52.
• Déterminer a et b tels que :
⋆ a est le plus petit entier tel que p(X 6 a) > 0,025 ;
⋆ b est le plus petit entier tel que p(X 6 b)ñ > 0,975.
ô
ñ
ô
a b
1
1
• Comparer l’intervalle de fluctuation à 95 %, ; , ainsi obtenu, avec l’intervalle p − √ ; p + √ .
n n
n
n
k
40
41
42
43
...
61
62
63
64
P (X 6 k)
0,0106
0,0177
0,0286
0,0444
...
0,9719
0,9827
0,9897
0,9941
c) Énoncer la règle de prise de décision permettant de rejeter ou non l’hypothèse p = 0,52, selon la
valeur de la fréquence f des électeurs favorables à Monsieur A obtenue sur l’échantillon.
d) Sur les cent électeurs interrogés au hasard, quarante-trois déclarent avoir confiance en Monsieur A.
Que peut-on en déduire ?
2
Échantillonnage et prise de décision
Dans la suite de ce chapitre, f et p désignent des réels appartenant à ]0; 1[ et n un entier naturel non nul.
2.1
Point de départ
Dans une population, on suppose qu’un caractère est présent dans la proportion p.
Pour juger de cette hypothèse, on prélève au hasard, et avec remise, un échantillon de taille n et on
détermine la fréquence f du caractère étudié dans cet échantillon.
Intuitivement, on conçoit bien que, même si l’hypothèse formulée est vraie, f n’est pas toujours égale à p
mais qu’elle fluctue dans un voisinage de p.
Pour autant, on souhaite savoir si la différence entre f et p peut s’expliquer par la seule fluctuation d’échantillonnage ou si f est suffisamment éloignée de p, dans un sens ou dans l’autre, pour rejeter l’hypothèse
avec un « risque modéré » de prendre la mauvaise décision.
Dans la suite du chapitre, dans un souci de clarification de la notion de « risque modéré », on choisit de
fixer ce risque à 5 %, ce qui signifie que la probabilité de rejeter l’hypothèse, alors qu’elle est vraie, est
inférieure à 5 %.
2.2
Utilisation de la loi binomiale pour une prise de décision
① L’expérience : On prélève, dans la population, un échantillon de taille n et on note f la fréquence du
caractère observé dans l’échantillon.
② Le modèle : On modélise le choix d’un individu dans la population par une épreuve de Bernoulli
pour laquelle on appelle succès l’événement « L’individu présente le caractère considéré. ».
Le prélèvement d’un échantillon de taille n est alors assimilé à la répétition à n reprises, de manière
indépendante, de cette épreuve et est donc modélisé par un schéma de Bernoulli à n épreuves.
On considère la variable aléatoire X dénombrant le nombre d’individus de l’échantillon ayant le
caractère.
Selon l’hypothèse formulée, X suit la loi binomiale B (n; p) puisqu’elle compte le nombre de succès
dans un schéma de Bernoulli de paramètres n et p.
X
Soit Y = . La variable aléatoire Y correspond à la « fréquence théorique » d’apparition du succès
n
au cours des n épreuves puisque Y est égale au quotient « nombre de succès divisé par nombre
d’épreuves ».
Il reste alors à comparer la fréquence f observée expérimentalement avec cette « fréquence théorique »
afin de se prononcer sur la validité du modèle choisi et, par voie de conséquence, sur l’hypothèse
initialement formulée.
③ Comparaison entre modèle et résultat expérimental :
Pour cela, on fait appel à l’intervalle de fluctuation à 95 % associé à la loi binomiale B (n; p), intervalle
où l’on « s’attend » à trouver la fréquence observée f , si l’hypothèse que la proportion du caractère
dans la population est p est exacte.
En conséquence, si la proportion vaut p, il y a très peu de chances (au plus 5 % des échantillons)
que cette fréquence observée f soit hors de l’intervalle de fluctuation. Donc si elle est à l’extérieur
de celui-ci, il est cohérent de penser que ce n’est plus le seul fait du hasard, mais plutôt que c’est le
signe que l’hypothèse formulée est fausse.
Définition
ñ
ô
Soit X une variable aléatoire suivant la loi binomiale B (n; p).
a b
On appelle intervalle de fluctuation à 95 % de la fréquence correspondant à X, l’intervalle
;
où :
n n
• a est le plus petit entier tel que P (X 6 a) > 0,025 ;
• b est le plus petit entier tel que P (X 6 b) > 0,975.
Méthode
(Utilisation de la calculatrice graphique)
Pour déterminer les valeurs des réels a et b permettant d’obtenir l’intervalle de fluctuation précédemment
défini, on entre Y =binomFRép(n,p,X) dans l’éditeur puis on paramètre la calculatrice de sorte à obtenir
un tableau de valeurs de la fonction ainsi définie au pas de 1 sur l’intervalle [0; n].
Il ne reste plus qu’à afficher ce tableau et à le parcourir afin d’y lire les valeurs respectives de a et b.
Exercice 6
Déterminer l’intervalle de fluctuation à 95 % de la
fréquence correspondant à la variable aléatoire X
lorsque celle-ci suit la loi binomiale :
1. B (80; 0,2) ; 3. B (250; 0,34) ; 5. B (100; 0,6) ;
2.
3.
4.
2. B (400; 0,75) ; 4. B (120; 0,56) ; 6. B (500; 0,43).
Réponses
ñ
ô
9 23
;
1.
= [0,1125; 0,2875] ;
80 80
Proposition
5.
6.
283 317
= [0,7075; 0,7925] ;
;
400 400
ñ
ô
70 100
;
= [0,28; 0,40] ;
250 250
ñ
ô
57 78
;
= [0,475; 0,650] ;
120 120
ñ
ô
50 69
;
= [0,50; 0,69] ;
100 100
ñ
ô
193 237
;
= [0,386; 0,474].
500 500
ñ
ô
(Prise de décision à partir d’un échantillon)
1. On identifie le caractère étudié, sa proportion connue ou supposée p dans la population ainsi que la
proportion f de ce même caractère dans l’échantillon.
2. On détermine l’intervalle de fluctuation de f au seuil de 95 % (IFF).
3. On prend une décision en fonction de l’appartenance ou non de f à l’IFF :
⋆ Si f n’est pas dans l’IFF, alors :
• si p est connue alors on peut rejeter l’hypothèse que l’échantillon soit représentatif de la population,
avec un risque de prendre la mauvaise décision dans 5 % des cas ;
• si p est supposée alors on peut rejeter l’hypothèse faite sur p, avec un risque de prendre la mauvaise
décision dans 5 % des cas ;
⋆ Si f est dans l’IFF alors la fluctuation d’échantillonnage peut à elle seule expliquer la différence
observée entre f et p et :
• si p est connue alors on ne peut pas rejeter l’hypothèse que l’échantillon soit représentatif de la
population ;
• si p est supposée alors on ne peut pas rejeter l’hypothèse faite sur p.
Exercice 7
Reprendre la situation 2 de l’exercice 1.
Exercice 8
En Novembre 1976 dans un comté du sud du
Texas, Rodrigo Partida est condamné à huit ans
de prison.
Il attaque ce jugement au motif que la désignation
des jurés de ce comté est, selon lui, discriminante
à l’égard des Américains d’origine mexicaine.
Alors que 80 % de la population du comté est d’origine mexicaine, sur les 870 personnes convoquées
pour être jurés lors des années précédentes, il n’y
a eu que 339 personnes d’origine mexicaine.
Devant la Cour Suprême, un expert statisticien
produit des arguments pour convaincre du bien
fondé de la requête de l’accusé.
En vous situant dans le rôle de cet expert, pouvezvous décider si les Américains d’origine mexicaine
sont sous-représentés dans les jurys de ce comté ?
Exercice 9
Deux entreprises recrutent leur personnel dans
un vivier comportant autant d’hommes que de
femmes. Voici la répartition entre hommes et
femmes dans ces deux entreprises :
• Entreprise A : 57 hommes et 43 femmes ;
• Entreprise B : 1350 hommes et 1150 femmes ;
Peut-on suspecter l’une des deux de ne pas respecter la parité hommes-femmes à l’embauche ?
Exercice 10
Les enfants sont dits prématurés lorsque la durée
gestationnelle est inférieure ou égale à 259 jours.
La proportion de ces naissances est de 6 %.
Des chercheurs suggèrent que les femmes ayant eu
un travail pénible pendant leur grossesse sont plus
susceptibles d’avoir un enfant prématuré que les
autres.
On réalise une enquête auprès d’un échantillon
aléatoire de 400 naissances correspondant à des
femmes ayant eu pendant leur grossesse un travail pénible. Sur cet échantillon, on dénombre 50
enfants prématurés. Que peut-on en conclure ?
Exercice 11
Un groupe de citoyens demande à la municipalité
d’une ville la modification d’un carrefour en affirmant que 40 % des automobilistes tournent en
utilisant une mauvaise file.
Un officier de police constate que sur 500 voitures
prises au hasard, 190 prennent une mauvaise file.
D’après l’échantillon, peut-on considérer, au seuil
de 95 %, comme exacte l’affirmation du groupe de
citoyens ?
Exercice 12
Lors des élections de 1936, Franklin D. Roosevelt est réélu avec 61 % des voix. Or, les journaux
avaient organisé des « votes de paille », au cours
de la campagne présidentielle.
Lors d’un premier, réalisé sur 400 personnes, 56 %
ont déclaré être favorables à Roosevelt ; lors d’un
second, portant sur 1000 personnes, 577 ont affirmé lui être favorables.
Soit X (respectivement Y ) la variable aléatoire
égale au nombre d’électeurs favorables à Roosevelt
dans le premier (respectivement second) sondage.
Peut-on remettre en cause les « votes de paille »
effectués au cours de la campagne présidentielle ?
Exercice 13
Dans le monde, la proportion de gauchers est 12 %.
Soit n le nombre d’élèves dans votre classe.
1. Déterminer, à l’aide de la loi binomiale, l’intervalle de fluctuation au seuil de 95 % de la
fréquence des gauchers sur un échantillon aléatoire de taille n.
2. Votre classe est-elle « représentative » de la proportion de gauchers dans le monde ?
Exercice 14
1. En 1964, afin de lutter contre les discriminations dont étaient victimes les minorités ethniques, des lois furent promulguées aux EtatsUnis stipulant qu’en cas de suspicion de discriminations raciales à l’embauche, le prévenu
serait déclaré coupable à l’issue du procès s’il
ne pouvait prouver son innocence.
Sur la base de ces lois, le gouvernement américain attaqua en justice le réseau d’établissements scolaires de Hazelwood Independent
School District (situé dans le comté de Saint
Louis) au motif que parmi les 405 enseignants
recrutés lors des années 1972 à 1974, il n’y eût
que 15 enseignants noirs alors que dans l’ensemble du comté le taux d’enseignants noirs recrutés durant la même période fut de 15, 4 %.
Peut-on accréditer, à partir des chiffres cidessus, la thèse de la discrimination ?
2. Pour réfuter la thèse de la discrimination, les
avocats d’Hazelwood ont contesté la pertinence
des chiffres cités par l’accusation.
Le taux d’enseignants noirs recrutés dans ce
comté était, selon eux, faussé par les modalités particulières de recrutement dans la ville
même de Saint Louis. En effet, durant cette
même période, une politique dite de « discrimination positive » visait à essayer de recruter
50 % de noirs parmi les nouveaux enseignants
dans la ville de Saint-Louis.
Ainsi, en ne prenant en compte que les enseignants Noirs recrutés dans le comté de Saint
Louis, en dehors de la ville de Saint Louis, ce
taux n’était plus que 5,7 %.
Peut-on, à partir de cette nouvelle donnée,
condamner le réseau d’établissements scolaires
d’Hazelwood ?
Exercice 15
Une entreprise fabrique des chemises. À la sortie
de la chaîne de fabrication, deux défauts peuvent
apparaître :
⋄ un défaut de couleur (ce type de défaut concerne
5 % des chemises fabriquées) ;
⋄ un défaut de coupe (ce type de défaut concerne
4 % des chemises fabriquées).
On sait de plus que 1 % des chemises fabriquées
ont à la fois un défaut de couleur et un défaut de
coupe.
Partie A
On note A l’événement « La chemise présente un
défaut de couleur. » et B l’événement « La chemise
présente un défaut de coupe. ».
Prouver que la probabilité de l’événement « La
chemise présente au moins un des deux défauts. »
est égale à 0,08.
Partie B
Un contrôleur prélève 100 chemises à la sortie de
la chaîne de fabrication. Le nombre de chemises
fabriquées est suffisamment grand pour assimiler
ce prélèvement à un tirage avec remise.
On note X la variable aléatoire égale au nombre de
chemises défectueuses (c’est-à-dire qui possèdent
au moins un des deux défauts) dans un échantillon
de taille 100.
1. Donner, sans justifier, la loi de probabilité suivie par X ainsi que ses paramètres.
2. k désignant un entier compris entre 0 et 100,
rappeler la formule du cours permettant de calculer la probabilité de l’événement (X = k).
3. Dans cette question, on donnera les résultats
sous forme décimale, arrondis à 10−4 près.
Calculer les probabilités respectives des événements suivants :
a) X = 1 ;
b) X 6 6 ;
c) X > 9.
4. Donner l’intervalle de fluctuation au seuil de
95 % de la fréquence correspondant à X.
5. L’échantillon prélevé contient 11 chemises défectueuses. Le contrôleur doit-il s’en inquiéter ?
Justifier.
2.3
Comparaison des intervalles de fluctuation de seconde et de première
ñ
ô
Définition - Proposition (Énoncée et admise en seconde)
1
1
Si n est supérieur ou égal à 25 et si p est comprise entre 0,2 et 0,8 alors l’intervalle p − √ ; p + √ ,
n
n
appelé intervalle de fluctuation au seuil de 95 % de f , contient f avec une probabilité égale à 0,95.
Remarque 1
L’intérêt de l’intervalle de fluctuation calculé à partir de la loi binomiale est d’être défini sans contrainte
sur les valeurs de n et de p, contrairement à celui introduit en classe de seconde.
ñ
ô
Remarque 2
a b
;
Dans le cas où n ô> 30 et 0,2 6 p 6 0,8, l’intervalle
est « quasiment » le même que l’intervalle
ñ
n n
1
1
p − √ ; p + √ . Ceux-ci sont d’autant plus voisins l’un de l’autre que n est très grand et p proche de 0,5.
n
n
Exemple
Une urne contient des boules bleues et des boules vertes, toutes indiscernables au toucher.
On suppose qu’il y a trois fois plus de boules bleues que de boules vertes.
On effectue cent tirages avec remise dans cette urne et on obtient 37 boules vertes. Que peut-on en déduire ?
Méthode 1 (niveau seconde) :
37
La taille de l’échantillon est n = 100, la fréquence de boules vertes dans celui-ci est f =
= 0,37 et la
100
ô
proportion de boules vertes dans l’urne est p = 0,25.ñ
1
1
L’intervalle de fluctuation au seuil de 95 % de f est p − √ ; p + √ = [0,15; 0,35].
n
n
Comme f n’appartient pas à cet intervalle, on peut rejeter l’hypothèse qu’il y ait trois fois plus de boules
bleues que de boules vertes.
Méthode 2 (niveau première) :
La variable aléatoire X comptant le nombre de boules vertes tirées suit la loi binomiale
Bô (100; 0,25).
ñ
a b
;
L’intervalle de fluctuation à 95 % de la fréquence correspondant à X est l’intervalle
= [0,17; 0,34].
n n
Comme f n’appartient pas à cet intervalle, on peut rejeter l’hypothèse qu’il y ait trois fois plus de boules
bleues que de boules vertes.
p(X = k)
Diagramme en bâtons de la variable aléatoire X
dans le cas où n = 100 et p = 0.25
zone de rejet
à gauche
zone de rejet
à droite
moins de 2,5 %
moins de 2,5 %
k
0
a
zone
d’acceptation
plus de 95 %
b
100
Téléchargement