2ème partie : la théorie

publicité
STATISTIQUE
INFERENTIELLE
STAGE ACADEMIQUE
LA REUNION
Isabelle ABOU
Professeure Formatrice
1
PLAN DE L’EXPOSE
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
1ière PARTIE: GÉNÉRALITÉS
I.
INTRODUCTION
II.
SITUATIONS PROBLEMES
III.
LA STATISTIQUE INFERENTIELLE
IV.
LE PROGRAMME DE SECONDE
2ième PARTIE: LA THÉORIE DE L’ECHANTILLONNAGE
I.
LOI NORMALE
II.
THEORIE DE L’ECHANTILLONNAGE
III.
PRISE DE DECISION
IV.
THEORIE DE L’ESTIMATION
V.
ESTIMATION D’UNE PROPORTION
VI.
EVALUATION DE TRAVAUX AVEC TIC
3ième PARTIE: APPROFONDISSEMENT
I.
TESTS STATISTIQUES
II.
COMPLEMENTS
Isabelle ABOU
2
2ième PARTIE:
LATHÉORIE
Isabelle ABOU
3
I. LA LOI NORMALE
PLAGES DE NORMALITE
Isabelle ABOU
4
POURQUOI ABORDER
LA LOI NORMALE?
• Elle tient son importance, en
mathématiques, d’un des théorèmes
fondamentaux de la Théorie des
Probabilités: le théorème Central Limite.
• Ce théorème établit une propriété qui va
justifier l'importance considérable de la
loi normale, à la fois comme modèle pour
décrire des situations pratiques, mais aussi
comme outil théorique.
Isabelle ABOU
5
THEOREME FONDAMENTAL
THEOREME CENTRAL LIMITE
•
•
•
•
•
•
Soit n variables aléatoires X1,X2,…,Xn
- indépendantes,
- de même loi,
- de même espérance mathématique m,
- de même variance  2 ,
Alors, lorsque n est « suffisamment »
grand, la loi de probabilité de la variable
aléatoire Moyenne Mn= (X1+X2+…+Xn)/n
tend en loi vers la loi normale N (m;  ) .
n
Isabelle ABOU
6
INTERPRETATION
• Ce théorème établit la convergence en loi d'une
suite de variables aléatoires vers la loi normale.
Intuitivement, ce résultat affirme que toute
somme de variables aléatoires indépendantes et
identiquement distribuées tend vers une variable
aléatoire gaussienne.
• En s'éloignant de la théorie, on peut dire que bon
nombre de phénomènes naturels sont dûs à la
superposition de causes nombreuses, plus ou moins
indépendantes.
• Il en résulte que la loi normale les représente de
manière raisonnablement efficace, mais il s’agit
plutôt d’une modélisation.
Isabelle ABOU
7
DANS LA VIE
COURANTE
• Des variables concernant des phénomènes
naturels ou démographiques, comme les débits
annuels moyens d’un fleuve sur au moins 5O ans,
l’espérance de vie d’une population, peuvent être
approchés par la loi normale.
• Les variables biologiques, comme le taux de
triglycérides dans le sang, le taux de cholestérol,
la glycémie, sont modélisées par des gaussiennes.
• Cependant, on peut dire qu'aucun phénomène
concret n'est vraiment gaussien car il ne peut
dépasser certaines limites.
Isabelle ABOU
8
INTERET DE LA LOI
NORMALE DANS LES CALCULS
• La loi Normale a de « bonnes » propriétés
mathématiques.
• C’est une loi de probabilité symétrique,
• La somme de v.a gaussiennes est une v.a
gaussienne,
• La moyenne de v.a gaussiennes est une v.a
gaussienne,
• On possède la table de sa fonction de répartition.
• Nous allons aborder rapidement ses propriétés.
Isabelle ABOU
9
LA LOI NORMALE ou
LOI DE LAPLACE-GAUSS
• X v.a continue, suit la loi normale de paramètres m et σ,
notée N(m; σ), si sa densité de probabilit é est :
1xm
f(x) 
exp(  
 )
2 σ 
σ 2π
• Espérance E(X)  m.
Ecart typ e σ(X)  σ
1
2
x
• Fonction de répartitio n F(x) 
 f(t)dt .

• La représenta tion graphique de sa densité est
une courbe en cloche (ou courbe de Gauss).
Isabelle ABOU
10
LOI NORMALE
CENTREE REDUITE
• Théorème : changement de variable
 Si X est une v.a qui suit une loi normale de paramètre m et σ , on note : X  N(m, σ).
X-m
Alors la v.a T 
suit la loi N(0;1) , appelée Loi Normale centrée réduite, on note T  N(0;1).
σ
 Sa fonction de répartitio n notée Π est définie par :
t
Π(t)  P(T  t) 

1

u2
2
e du.
2π
-
 La table de la loi N(0;1) donne les valeurs de Π(t) pour t  [0;3].
 Ce théorème est justifié par l' égalité suivante résultant d' un changement de variable
Pour a, b  IR :
P(a  X  b)  P(
a-m
bm
b-m
a m
T
)  Π
  Π
.
σ
σ
σ
σ




Isabelle ABOU
11
TABLE DE LA LOI NORMALE
CENTREE REDUITE
• Intérêt de ce théorème: ramener toute loi
normale à la loi normale centrée réduite.
• Pour calculer les valeurs de la table de la
loi N(0;1) on utilise le fait que c’est une loi
de probabilité, et ses propriétés de
symétrie.
• La table de la loi N(0;1) permettra donc de
calculer les valeurs de toutes les fonctions
de répartition de toutes les lois normales.
Isabelle ABOU
12
BOÎTES EN CARTON
• Une entreprise fabrique en série des boîtes en
carton.
• On note X la variable aléatoire qui prend pour valeur
la hauteur d’une boîte en carton.
• On admet que X suit la loi normale de moyenne 2,5
cm et d’écart type 0,2 cm.
• 1. Calculer la probabilité qu’une boîte, choisie au
hasard dans la production, ait une hauteur
inférieure à 2,25cm.
• 2. Déterminer le réel α tel que la probabilité que X
soit inférieure à α, ait pour valeur 0,67.
Isabelle ABOU
13
RESOLUTION
• 1. X suit une loi normale avec m=2,5 et σ=0,2 soit
N(2,5;0,2).
• La probabilité cherchée est P(X<2,25).
• On effectue le changement de variable T=(X-m)/σ
soit T=(X-2,5)/0,2 d’où:
• P(X<2,25)= P(T<(2,25-2,5)/0,2)
•
= P(T<-1,25)
•
= 1-P(T<1,25) par symétrie de la loi de T
•
~ 1-0,8944
•
~ 0,1056
Isabelle ABOU
14
RESOLUTION suite
• 2. le problème revient à résoudre l’équation
P(X < α) = 0,67.
• A l’aide du changement de variable, ceci
équivaut à :
• P(T < (α – 2,5)/0,2) = 0,67
• Or, d’après la table, on a P(T < t) = 0,67 pour
• t = 0,44.
• On résout donc (α – 2,5)/0,2 = 0,44
•
α = 0,44*0,2 + 2,5
• Ce qui donne α = 2,588.
Isabelle ABOU
15
PLAGES DE
NORMALITE
•
X v.a suivant N(m, σ ) et T v.a suivant N(0;1)
•
Les intervalles suivants ou plages de normalité se
calculent grâce aux égalités ci-dessous, obtenues
grâce à la table de la loi N(0;1) :
•
P(m-σ <X<m+ σ)= P(-1<T<+1)= 0,68.
•
P(m-1,6 σ <X<m+1,6 σ)= P(-1,6<T<+1,6)= 0,90.
•
P(m-1,96 σ <X<m+1,96 σ)= P(-1,96<T<+1,96)= 0,95.
•
P(m-3,09 σ <X<m+3,09 σ)= P(-3,09<T<+3,09)= 0,99.
Isabelle ABOU
16
PLAGE DE NORMALITE LOI
NORMALE CENTREE
REDUITE
• On considère la v.a X suivant
N(m, σ ), et la v.a T suivant
N(0;1).
• L’égalité:
• P(m-1,96 σ < X < m+1,96 σ)=
P(-1,96 < T < +1,96)= 0,95,
• signifie que T se trouve dans
l’intervalle [-1,96; +1,96],
avec une probabilité égale à
0,95.
95%
–1,96
0
1,96
Si T suit la loi normale de moyenne
0 et d’écart type 1, on a :
P(– 1,96  T  1,96)  0,95.
1
2
Isabelle ABOU

1, 96
 1, 96
e

x2
2
dx ~ 0,95.
17
SIGNIFICATION
• On appelle intervalle de normalité au niveau de
confiance de 95%, l’intervalle de centre m dans
lequel on peut s’attendre à trouver 95% des
observations.
• Pour toutes les v.a gaussiennes, l’intervalle de
normalité au niveau de confiance de 95% est:
• I = [ m - 1,96 σ ; m + 1,96 σ ].
• On lui préfère souvent [ m - 2 σ ; m + 2 σ ] qui
contient au moins 95% des observations.
Isabelle ABOU
18
II. THEORIE DE
L’ÉCHANTILLONNAGE
Isabelle ABOU
19
INTRODUCTION
• Avant d’aborder la théorie de l’échantillonnage, il nous faut
rappeler quelques définitions et propriétés concernant les
opérations sur les variables aléatoires.
• On considère par exemple le problème suivant:
• Pour améliorer le stockage d’un produit, un supermarché fait
une étude sur la vente de packs de 6 bouteilles d’eau de
marques A et B.
• X la v.a mesure le nb de packs d’eau de marque A achetés
• Y la v.a mesure le nb de packs d’eau de marque B achetés.
• La probabilité P(X=xi et Y=yi) est donnée par le tableau:
•
X 1
2
3
Y
1
0,1
0,2
0,2
2
0,1
0,3
0,1
Isabelle ABOU
20
SOMME DE VARIABLES
ALEATOIRES
• Soit X et Y deux v.a.
• La somme X+Y est une v.a S: S=X+Y.
• La loi de probabilité de S est obtenue en
associant, à chaque valeur s de S, la somme des
probabilités correspondantes à tous les couples
dont la somme des termes est égale à s.
• Dans le cas de l’exemple précédent, la v.a S
mesure le nombre de packs des marques A et B
achetés.
Isabelle ABOU
21
• Si on considère en rouge la somme:
X
1
2
3
Y
1
0,1
0,2
0,2
s=2
s=3
s=4
2
0,1
0,3
0,1
s=3
s=4
s=5
• La loi de probabilité de S est donnée
par le tableau:
S
2
3
4
P(S=si) 0,1
Isabelle ABOU
5
0,3 0,5 0,1
22
THEOREMES
• S=X+Y
• E(S)=E(X)+E(Y)
• Si X et Y sont indépendantes:
V(S)=V(X)+V(Y).
• De même: D=X-Y est une v.a.
• E(D)=E(X)-E(Y), et
• Si X et Y sont indépendantes:
V(D)=V(X)+V(Y).
Isabelle ABOU
23
COROLLAIRE
• Soit X une variable aléatoire et n variables
aléatoires X1,X2,…,Xn indépendantes et de même
loi que X.
• Alors, la v.a « Moyenne des Xn » Yn, définie par:
Yn= (X1+X2+…+Xn)/n.
• Vérifie:
• E(Yn)=E(Σ(Xi)/n)=(ΣE(Xi))/n=nE(X)/n=E(X).
• V(Yn)=V(Σ(Xi)/n)=(ΣV(Xi))/n²=(nV(X))/n²=V(X)/n.
• σ(Yn)=σ(X)/√n.
Isabelle ABOU
24
THEOREME FONDAMENTAL
LOI FAIBLE DES GRANDS NOMBRES
•
ou THEOREME DE BERNOULLI
• Soit X une variable aléatoire et n variables
aléatoires X1,X2,…,Xn de même loi que X.
• Alors, la v.a Yn, définie par
• Yn= (X1+X2+…+Xn)/n
tend en probabilité vers l’espérance
mathématique de X, c.a.d E(X).
Rem: Yn est la v.a Moyenne des Xn=E(Xn).
Isabelle ABOU
25
COMMENTAIRE
•
La loi des grands nombre donne une justification de l’approche fréquentiste
des probabilités.
•
Si on prend une expérience aléatoire à deux issues, succès et échec, c’est-àdire une épreuve de Bernoulli.
On obtient une v.a X tq E(X)=p, où p est un nombre fixé en théorie.
Par exemple pour le lancer d’un dé équilibré avec comme succès obtenir un 6,
la théorie nous apprend que E(X)=1/6.
•
•
•
•
•
•
•
•
•
En répétant n fois cette expérience aléatoire, on obtient n v.a X1, X2, …, Xn,
v.a de même loi de probabilité, avec E(X1)=E(X2)=…=E(Xn)=p.
Pour connaître le nombre de succès, on étudie la v.a Yn: «fréquence des
succès »=(Nombre de succès)/(Nombre d’exp aléatoire)=(X1+X2+…+Xn)/n.
Yn=E(Xn), et E(Yn)=p.
La loi des grands nombres dit que, quand n tend vers l’infini, la limite de
P(l Yn – p l< ε)= 1, pour un ε arbitrairement petit.
Dans l’exemple choisi, Yn=(Nombre de 6)/(Nombre de lancers).
Le théorème dit que, plus n est grand, plus E(Yn) se rapproche de la valeur
théorique p=1/6. Ce qui est assez intuitif.
Isabelle ABOU
26
ILLUSTRATION
• Pour illustrer la loi faible des grands nombre, nous
proposons ci-après un programme sur Algobox qui
simule le lancer d’une pièce de monnaie équilibrée, pour
des échantillons de taille croissante, de 1 à 1000.
• Après avoir fait tourner le programme, on voit bien la
fréquence moyenne converger vers la probabilité de
« face » (ce pourrait être symétriquement de « pile »)
qui est de 0,5.
• Pour aider à la compréhension du programme, nous
avons introduit des commentaires explicatifs écrits en
rouge.
Isabelle ABOU
27
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
PROGRAMME ALGOBOX
1 VARIABLES
•
2 x EST_DU_TYPE LISTE
3 y EST_DU_TYPE LISTE
•
4 i EST_DU_TYPE NOMBRE
•
5 nbalea EST_DU_TYPE NOMBRE
•
6 n EST_DU_TYPE LISTE
7 DEBUT_ALGORITHME
•
8 //abscisse du 1ier point vaut 0
•
9 x[0] PREND_LA_VALEUR 0
•
10 //i est la taille de l'échantillon
11 i PREND_LA_VALEUR 0
•
12 //nbalea est la valeur du tirage
•
aléatoire 0 (pile) ou 1 (face)
13 nbalea PREND_LA_VALEUR
floor(2*random())
•
16 //n[0] valeur du 1ier tirage aléatoire
•
17 n[0] PREND_LA_VALEUR nbalea
•
18 //ordonnée du 1ier point vaut n[0]
•
19 y[0] PREND_LA_VALEUR n[0]
20 //simulations: fréquences en fonction
de la taille de l'échantillon, boucle allant
d’une taille 2 jusqu'à 1000
21 POUR i ALLANT_DE 1 A 999
22 DEBUT_POUR
23 nbalea PREND_LA_VALEUR
floor(2*random())
26 //x[i] abscisse du i+1 ième point
27 x[i] PREND_LA_VALEUR i
28 //n[i] est la valeur i+1 ième tirage plus
ceux des précédents
29 n[i] PREND_LA_VALEUR nbalea+n[i-1]
30 //y[i] ordonnée du point qui a pour
valeur la fréquence moyenne de "face" sur
les i+1 tirages
31 y[i] PREND_LA_VALEUR n[i]/(i+1)
32 TRACER_POINT (x[i],y[i])
33 FIN_POUR
34 FIN_ALGORITHME
28
THEOREME DE
DE MOIVRE-LAPLACE
• Convergence en loi de la loi Binomiale vers la loi de
Laplace-Gauss
• Xn étant une suite de v.a binomiales B(n;p), alors la
suite de v.a
• (Xn-np)/( √(npq)) tend en loi vers N(0;1).
• Rappel: Si X~B(n;p)
•
Alors E(X)=np et V(X)=np(1-p)=npq.
Isabelle ABOU
29
COMMENTAIRE
• Lorsque n est «assez grand», on prend en pratique
n≥30, p «voisin de 0», p<0.1, et np≥5 et nq≥5, on peut
approximer la loi Binomiale B(n,p) par la loi normale
N(m; σ) avec m=np et σ=√(npq).
• L’étude de somme de v.a indépendantes et de même
loi joue un rôle capital en statistique, c’est le
théorème Central Limite qui établit la convergence
vers la loi de Gauss sous des hypothèses peu
contraignantes.
• Nous le rappelons une nouvelle fois, pour en donner
ensuite ses applications aux lois d’échantillonnage.
Isabelle ABOU
30
THEOREME FONDAMENTAL
THEOREME CENTRAL LIMITE
•
•
•
•
•
•
Soit n variables aléatoires X1,X2,…,Xn
- indépendantes,
- de même loi,
- de même espérance mathématique m,
- de même variance  2 ,
Alors, lorsque n est ‘suffisamment’ grand,
la loi de probabilité de la variable
aléatoire Moyenne Mn= (X1+X2+…+Xn)/n
tend en loi vers la loi normale N (m;  ) .
n
Isabelle ABOU
31
THEORIE DE
L’ECHANTILLONNAGE
• Comme on l’a vu, en statistique, il est en général impossible
d’étudier un caractère sur toute une population de taille
élevée, c’est-à-dire de faire un recensement.
• Avant d’aborder le problème de l’estimation de paramètres
inconnus de la population, il est indispensable de commencer
par l’étude de l’échantillonnage.
• Dans ce cas, les paramètres du caractère étudié dans la
population sont connus, et on en déduit les propriétés sur
l’ensemble des échantillons prélevés dans la population.
• Nous n’envisagerons que des échantillons aléatoires, c’est-àdire que tout élément de l’échantillon est choisi au hasard,
et de plus, les choix sont indépendants car supposés avec
remise.
Isabelle ABOU
32
LOI D’ECHANTILLONNAGE
DE LA MOYENNE
• On considère une population de taille N élevée, une
variable aléatoire X définissant le caractère
étudié, avec E(X)=m, et σ(X)= σ .
• On prélève un échantillon de taille n, n<<N, c.a.d on
procède à n épreuves indépendantes auxquelles
correspondent n v.a X1,X2,…,Xn, de même loi que X.
• Soit la v.a Yn=(X1+X2+…Xn)/n, elle associe à tout
échantillon de taille n, la v.a Moyenne de
l’échantillon.
• D’après le théorème central Limite, la v.a Yn suit
« approximativement » une loi Normale.
Isabelle ABOU
33
EN PRATIQUE
• Valeurs caractéristiques de cette loi:
• E(Yn)=m et V(Yn)=σ²/n ou bien
σ(Yn)=σ/√n.
•
• En pratique, quand n devient ’’grand’’,
n>=30, la loi de Yn peut être approchée
par la loi normale N(m,σ/√n).
Isabelle ABOU
34
LOI D’ECHANTILLONNAGE
DE LA FREQUENCE
• On étudie, dans une population de taille N élevée, un
caractère à deux éventualités, c’est-à-dire une épreuve de
Bernoulli.
• On obtient une v.a X tq E(X)=p, et V(X)=p(1-p).
• On prélève un échantillon de taille n, n<<N, (épreuve répétée
n fois de façon identique et indépendante).
• On obtient n v.a X1,X2,…,Xn de même moi que X.
• La v.a Fn=(X1+X2+…Xn)/n associe à tout échantillon de taille n
la fréquence de succès sur cet échantillon.
• Alors E(Fn)=p et V(Fn)=(p(1-p))/n.
• Quand n devient ’’grand’’ (n>=50), la loi de Fn peut être
approchée par la loi normale
.
p(1  p)
N(p;
Isabelle ABOU
n
)
35
EN PRATIQUE
• On prélève indépendamment et avec remise n
individus d’une population séparée en deux souspopulations A et son complémentaire , de
proportions respectives p et 1-p.
A
• Soit K le nombre d’individus de la sous-population
A obtenus dans l’échantillon. On sait que K suit
une loi binomiale B(n , p).
• Notons F = K/n, la fréquence empirique de A.
• F est la moyenne arithmétique de n v.a de
Bernoulli de paramètre p, indépendantes.
• Donc E(F)=p et V(F)=(p(1-p))/n.
• Et si n est grand, F suit N(p;√(p(1-p)/n)) en
raison de la loi d’échantillonnage de la fréquence
(conséquence du théorème central limite).
Isabelle ABOU
36
LIEN AVEC L’INTERVALLE
DE
FLUCTUATION
• Or on sait que, pour la loi normale N(m,σ),
• l’intervalle de fluctuation au seuil 95% est:
• [m-1,96σ; m+1,96σ].
• Donc, l’intervalle de fluctuation à 95% de p est:
•

p(1  p)
p(1  p) 
; p  1,96
p  1,96

n
n


• Environ 95% des échantillons aléatoires de taille n
fournissent une fréquence comprise dans cet intervalle.
• Ce résultat est très important car il mesure la
variabilité « naturelle » des phénomènes aléatoires.
•
Isabelle ABOU
37
APPROXIMATION DU
PROGRAMME DE SECONDE
• Dans le programme de seconde, il est donné
une version simplifiée de cet intervalle en le
majorant  p  1 ; p  1  .
n
n

• En effet, la fonction pp(1-p) atteint son
maximum pour p=1/2, on a donc, pour tout p,
p(1-p) ≤ 1/4 et on en déduit que 1,96 p(1  p) 
n
• Aussi l’intervalle I1=  p  1,96

1
n
p (1  p )
p (1  p ) 
; p  1,96

n
n


1
1 
• est inclus dans l’intervalle I2=  p  ; p   .
n
n

Isabelle ABOU
38
VALEURS DE p
• Dans le programme de Seconde, il est mentionné, de plus,
que p doit être compris entre 0,2 et 0,8.
• La raison en est que l’approximation est trop grossière pour
les valeurs de p inférieures à 0,2 (ou supérieures à 0,8,
puisqu’il y a symétrie de la formule p(1-p) ).
• Le tableau suivant compare les nombres 1,96/√(p(1-p)/n) et
1/√(n), pour n=25 et n=100, et pour des valeurs de p entre
0,1 et 0,5.
• Rappelons que ces nombres ne sont toutefois pas supposés
être égaux puisque I2 contient I1.
• Plus de 95% des échantillons aléatoires de taille n
fournissent une fréquence appartenant à I2.
Isabelle ABOU
39
n
p
COMPARAISON DE CES
DEUX NOMBRES
P=0,1
P=0,2
P=0,25
P=0,3
P=0,35
P=0,4
P=0,45
P=0,5
n = 25
1,96√( p(1-p)/n)
n =25 n = 100
n = 100
1/√(n) 1,96√(p(1-p)/n) 1/√(n)
0,118
0,157
0,170
0,180
0,187
0,192
0,195
0,196
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,2
0,059
0,078
0,085
0,090
0,093
0,096
0,097
0,098
Isabelle ABOU
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
40
FLUCTUATION DE LA FREQUENCE
SELON LES ECHANTILLONS
• On peut expérimenter, par simulation à l’aide des T.I.C,
qu’environ plus de 95% des échantillons de taille n
fournissent une fréquence comprise dans l’intervalle
1
1 

p

;
p

• 
 .
n
n


• Pour p donné, on peut faire calculer les bornes de cet
intervalle pour quelques valeurs de n, et faire remarquer
qu’il faut multiplier la taille de l’échantillon par k² pour
diviser par k l’amplitude de l’intervalle.
• On pourra calculer l’amplitude correspondant aux
échantillons de taille 1000, souvent retenue dans les
sondages.
Isabelle ABOU
41
EXEMPLE D’APPLICATION
• On considère un échantillon de 400 pièces issues d’une
fabrication où 10% sont défectueuses.
• Soit K la v.a qui mesure le nombre de pièces défectueuses, K est
une v.a de Bernoulli B(400;0,1).
• Notons F = K/n, la fréquence empirique de l’événement « la pièce
est défectueuse », sur un échantillon de taille n.
• F est la moyenne arithmétique de n v.a de Bernoulli de paramètre
p, indépendantes.
• Donc E(F)=p=0,1 et V(F)=(p(1-p))/n=(0,1*0,9)/400.
• Quand n est grand, F suit N(p;√(p(1-p)/n)), donc ici F suit
• N(0,1 ; √((0,1*0,9)/400)).
• Donc on peut s’attendre à trouver dans 95% des cas, un
pourcentage de défectueux dans l’échantillon, compris entre
•
0,10  0,90
0,10  0,90 et
0,1  1,96
400
0,1  1,96
• C.a.d F est comprise entre 0,0706 et 0,1294.
• Ou encore, entre 7,1% et 12,9%, dans 95% des cas.
Isabelle ABOU
400
42
III. PRISE DE
DÉCISION
SITUATIONS PROBLEMES
Isabelle ABOU
43
INTRODUCTION
• Dans les exercices qui suivent, on a besoin de générer des
nombres pseudo-aléatoires, on rappelle ci-après quelques
méthodes utilisées sur calculatrice et tableur.
• Le schéma de base pour simuler une v.a de Bernoulli est de
simuler une urne bicolore, qui servira aussi à simuler le lancer
d’un dé.
• La plupart des calculatrices, même les modèles « collège », et
les tableurs sont pourvues d’un générateur de nombres
pseudo-aléatoires qui simule le tirage d’un nombre décimal au
hasard dans l’intervalle [0, 1[ (c’est-à-dire une réalisation
d’une variable aléatoire de loi uniforme sur l’intervalle [0, 1[ ).
• Sur une calculatrice, ce générateur de nombres aléatoires
correspond à la fonction « random » souvent notée rand ou
Ran#. Sur un tableur, il correspond à la fonction ALEA(),
introduite avec des parenthèses vides.
Isabelle ABOU
44
SIMULATION D’UN URNE
BICOLORE
• À partir de ce générateur de nombres aléatoires, on peut
facilement simuler un tirage au hasard dans une urne
bicolore.
• Supposons que la proportion des boules dont la couleur nous
intéresse soit, dans l’urne de 30 %.
• Sur un tableur, l’instruction =ALEA()+0,30 correspond au
tirage au hasard d’un nombre de l’intervalle [0,30 ; 1,30[.
• En prenant la partie entière, le résultat vaut 0 si le nombre
appartient à [0,30 ; 1[ et 1 si le nombre appartient à
[1 ; 1,30[.
• Compte-tenu des longueurs respectives de ces intervalles, on
a 70% de chances d’avoir 0 et 30 % de chances d’avoir 1 (voir
le graphique).
0
1
Isabelle ABOU
45
SIMULATION (suite)
• Sur une calculatrice, il suffit d’entrer l’instruction rand + 0.3
ou Ran# + 0.3 et de faire plusieurs fois ENTER ou EXE pour
simuler des tirages avec remise dans cette urne, en ne tenant
compte que de la partie avant la virgule (0 ou 1).
• Sur un tableur, il suffit d’entrer dans une cellule la formule
=ENT(ALEA()+0,3) puis d’approcher le pointeur de la souris
du coin inférieur droit de la cellule.
• Lorsque le pointeur de la souris prend la forme d’une croix
noire, on enfonce le bouton gauche puis on « glisse » vers le
bas pour constituer un échantillon (on nomme « recopie »
cette manipulation).
• On peut ensuite sélectionner l’échantillon (avec le pointeur en
forme de croix blanche) puis le recopier vers la droite (avec
le pointeur en forme de croix noire) pour constituer plusieurs
échantillons.
Isabelle ABOU
46
CONTRÔLE DE
QUALITE
• Dans le contrôle de qualité industrielle, on
s’interroge sur le réglage d’une machine lorsque dans
un lot de pièces produites, la fréquence des défauts
observés est peu probable au regard du modèle
indiquant une probabilité p de défauts.
• C’est-à-dire qu’on veut prendre une décision à partir
de l’étude d’un échantillon.
• Rappelons que dans ce cas on connaît les paramètres
de la v.a mère, c.a.d ici la probabilité théorique de
défauts dans la chaîne de fabrication.
Isabelle ABOU
47
DEFAUTS DE PEINTURE
• Dans une usine automobile, on contrôle
les défauts de peinture de type
• « grains ponctuels sur le capot ».
• Lorsque le processus est sous contrôle,
• on a 20 % de ce type de défauts.
• Lors du contrôle aléatoire de 50
véhicules, on observe 26 % de défauts
• (13 sur 50).
• Faut-il s’inquiéter ?
Isabelle ABOU
48
RESOLUTION
• En supposant que la situation est sous
contrôle, c.a.d que la proportion présentant
ce défaut est de 0,20, un échantillon
aléatoire de 50 véhicules présentera une
proportion de défauts comprise, dans plus
de 95% des cas, entre
• 0,20-1/√50 et 0,20+1/√50
• soit entre environ 6% et 34%.
• Il n’y a donc pas lieu de considérer une
observation de 26% comme « anormale ».
Isabelle ABOU
49
RESPECT DE LA PARITE
• Deux entreprises A et B recrutent dans
un bassin d’emploi où il y a autant de
femmes que d’hommes, avec la
contrainte du respect de la parité.
• Dans l’entreprise A, il y a 100 employés
dont 43 femmes.
• Dans l’entreprise B, il y a 2500
employés dont 1150 femmes.
• Quelle est l’entreprise qui respecte le
mieux la parité ?
Isabelle ABOU
50
•
RESOLUTION
Dans l’entreprise A, il y a 100 employés dont 43
femmes (soit 43%); dans l’entreprise B, il y a 2500
employés dont 1150 femmes (soit 46%).
• Or 46% est plus proche de 50% que 43%, les chiffres
parlent d’eux-mêmes, pourrait-on dire, et B respecte
mieux la parité que A.
• Si on admet que la parité, c’est exactement 50% de
femmes, il est vrai que B en est plus proche que A.
Mais une telle définition a-t-elle ici un sens?
• La parité signifie que l’identité sexuelle n’intervient
pas au niveau du recrutement, c.a.d qu’au niveau du
caractère étudié homme ou femme, les résultats
observés pourraient être obtenus par choix, au hasard,
des individus dans la population.
Isabelle ABOU
51
RESOLUTION (suite)
• Dans ce cadre, l’entreprise A est assimilable à un
échantillon de taille 100 du modèle de Bernoulli,
avec p=0,5, et l’entreprise B à un échantillon de
taille 2500.
• L’intervalle de fluctuation de p pour l’entreprise A
est [0,4;0,6], et pour l’entreprise B de
[0,48;0,52].
• La valeur 0,43 pour l’entreprise A est dans
l’intervalle de fluctuation, alors que la valeur 0,46
ne l’est pas pour B.
• Autrement dit, pour B, la proportion de 46%
s’observe dans moins de 5% des échantillons
obtenus selon le modèle accordant une probabilité
égale d’obtenir un homme et une femme.
• On peut alors rejeter l’hypothèse selon laquelle
cette entreprise respecte la parité.
Isabelle ABOU
52
ECHANTILLON CONFORME
OU REPRESENTATIF
• Un échantillon est représentatif ou conforme si f , la
fréquence de l’échantillon, appartient à l’intervalle de
fluctuation de la fréquence théorique p à un niveau de
confiance donné.
• Les problèmes qui précèdent reviennent donc à se demander
si un échantillon est conforme.
• Ce type de problème se prête bien à l’écriture d’un algorithme
qui permettra de savoir si l’échantillon est conforme.
• Dans l’algorithme suivant, on entre la fréquence de
l’échantillon, et en réponse on a la prise de décision:
l’échantillon est conforme ou pas, au risque de 5%.
• Cet algorithme comporte un contrôle de saisie.
• On peut également écrire un algorithme où on entrerait le
nombre de personnes qui ont le caractère étudié, et qui
calculerait également f . Isabelle ABOU
53
ALLERGIE
• Dans une population de grand effectif,
on a observé que 40% des individus sont
allergiques à un médicament A.
• Dans un échantillon de 100 individus, 31
révèlent une allergie à A.
• Au seuil de 5%, peut-on déduire que
l’échantillon est représentatif de la
population pour l’allergie A?
Isabelle ABOU
54
RESOLUTION
• On détermine l’intervalle:

p(1  p)
p(1  p)  
0,4  0,6
0,4  0,6 
p

1
,
96
;
p

1
,
96

0
,
4

1
,
96
;
0
,
4

1
,
96

 

n
n
100
100

 

• Ce qui donne: 0,304;0,4960
• Comme f = 0,31 appartient à cet intervalle, on
accepte H0 au seuil de 5%.
• Conclusion: l’échantillon est représentatif de la
population allergique à A.
Isabelle ABOU
55
ALGORITHME
ECHANTILLON CONFORME
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Déclaration
Variable p, f en Numérique
Variable n en Entier
Entrée
Afficher ‘’Entrer la valeur de la proportion du caractère dans la population
totale’’
Lire p
Afficher ‘’Entrer la taille de l’échantillon’’
Lire n
TantQue n<25
Afficher ‘’L’échantillon est trop petit. Recommencer’’
Afficher ‘’Entrer la taille de l’échantillon’’
Lire n
FinTantQue
Afficher ‘’Entrer la valeur de la fréquence dans l’échantillon’’
Lire f
Traitement et Sortie
Si [((p-1/racine(n))<=f) et (f<=(p+1/racine(n)))] Alors
Ecrire ‘’Au risque de 5%, l’échantillon est représentatif’’
Sinon Ecrire ‘’Au risque de 5%, l’échantillon n’est pas représentatif’’
Isabelle ABOU
56
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
PROGRAMME ALGOBOX
ECHANTILLON CONFORME
1 VARIABLES
2 p EST_DU_TYPE NOMBRE
3 f EST_DU_TYPE NOMBRE
4 n EST_DU_TYPE NOMBRE
5 DEBUT_ALGORITHME
6 AFFICHER "Entrer la proportion du
caractère, en valeur décimale, dans la
population totale"
7 LIRE p
8 AFFICHER "Entrer la taille de l'échantillon"
9 LIRE n
10 TANT_QUE (n<25) FAIRE
11
DEBUT_TANT_QUE
12
AFFICHER "La taille de l'échantillon
est trop petite. Recommencer."
13
AFFICHER "Entrer la taille de
l'échantillon"
14
LIRE n
15 FIN_TANT_QUE
•
•
•
•
•
•
•
•
•
•
•
•
16 AFFICHER "Entrer la fréquence du
caractère, en valeur décimale, dans
l'échantillon"
17 LIRE f
18 SI (((p-1/sqrt(n))<=f) ET (f<=(p+1/sqrt(n)))
ALORS
19
DEBUT_SI
20
AFFICHER "Au risque de 5%, cet
échantillon est représentatif de la population"
21
FIN_SI
22 SINON
23
DEBUT_SINON
24
AFFICHER "Au risque de 5%, cet
échantillon n'est pas représentatif de la
population"
25
FIN_SINON
26 FIN_ALGORITHME
Isabelle ABOU
57
MALADIE DES REINS
• A l’hôpital, on peut lire une affiche où il est écrit:
« 1 français sur 20 est malade des reins et ne le
sait pas. Pensez à vous faire dépister… ».
• On considère deux échantillons, le premier de
taille 1000, constitué de personnes entre 0 et 35
ans et le second de taille 2000, constitué de
personnes entre 36 et 80 ans.
• Pour, le premier 18 personnes ont des problèmes
de reins, pour le second, il sont 120.
• Dire, pour chaque échantillon s’il est représentatif
de la population française.
Isabelle ABOU
58
EXECUTIONS
•
•
1ier échantillon:
n=1000, p=0.05, et f=18/1000
•
•
***Algorithme lancé***
Entrer la proportion du
caractère, en valeur décimale,
dans la population totale
Entrer la taille de
l'échantillon
Entrer la fréquence du
caractère, en valeur décimale,
dans l'échantillon
Au risque de 5%, cet
échantillon n'est pas
représentatif de la population
***Algorithme terminé***
•
•
•
•
.
•
•
•
•
•
•
2ième échantillon:
n=2000, p=0.05, f= 120/2000
***Algorithme lancé***
Entrer la proportion du
caractère, en valeur décimale,
dans la population totale
Entrer la taille de
l'échantillon
Entrer la fréquence du
caractère, en valeur décimale,
dans l'échantillon
Au risque de 5%, cet
échantillon est représentatif
de la population
***Algorithme terminé***
Isabelle ABOU
59
EN RESUME
• Le raisonnement pour apprécier si une fréquence
observée f sur un échantillon de taille n est
compatible ou non avec un modèle de Bernoulli de
probabilité p, est le suivant:
• on regarde si cette fréquence est dans l’intervalle
de fluctuation à 0,95 relatif aux échantillons de
taille n du modèle.
• C’est-à-dire si l’écart entre f et p est probable, au
sens où le hasard produirait un tel écart dans 95%
des échantillons envisageables.
• Si f est en dehors de l’intervalle de fluctuation, on
considère que l’observation n’est pas compatible
avec le modèle, en ce sens avec un tel modèle elle
ne s’observerait que dans 5% des échantillons de
taille n (avec un risque de prendre la mauvaise
décision dans 5% des cas).
• Ce type de raisonnement est à la base de ce qu’on
appelle parfois la « preuve
statistique ».
Isabelle ABOU
60
•
•
•
•
•
•
•
•
TAUX ANORMAL DE
LEUCEMIES
Une petite ville des États-Unis a connu 9 cas de leucémie chez de jeunes
garçons en l’espace de 10 années.
Doit-on, comme l’ont alors affirmé les autorités, en accuser le hasard ?
Woburn est une petite ville industrielle du Massachusetts, au Nord-Est des
États-Unis.
Du milieu à la fin des années 1970, la communauté locale s’émeut d’un grand
nombre de leucémies infantiles survenant en particulier chez les garçons
dans certains quartiers de la ville.
Les familles se lancent alors dans l’exploration des causes et constatent la
présence de décharges et de friches industrielles ainsi que l’existence de
polluants.
Dans un premier temps, les experts gouvernementaux concluent qu’il n’y a
rien d’étrange.
Mais les familles s’obstinent et saisissent leurs propres experts.
Une étude statistique montre qu’il se passe sans doute quelque chose
« d’étrange ».
Isabelle ABOU
61
TABLEAU DE DONNEES
• Le tableau suivant résume les données
statistiques concernant les garçons de moins
de 15 ans, pour la période 1969-1979 (Source :
Massachusetts Department of Public Health).
Population des Nombre de cas Fréquence des
garçons de
de leucémie
leucémies aux
moins de 15
infantile
Etats-Unis
ans à Woburn observés chez (garçons) : p
selon le
les garçons à
recensement
Woburn entre
1969 et 1979
de 1970 : n
5 969
9
0,000 52
Isabelle ABOU
62
RESOLUTION
• La question statistique qui se pose est de savoir si
le hasard seul peut raisonnablement expliquer le
nombre de leucémies observées chez les jeunes
garçons de Woburn, considérés comme résultant
d’un échantillon prélevé dans la population
américaine.
• Les conditions requises pour appliquer le résultat
du cours ne sont pas toutes respectées ici (p n’est
pas comprise entre 0,2 et 0,8). Il faut donc
observer de plus près la fluctuation
d’échantillonnage.
• La population des États-Unis étant très grande
par rapport à celle de Woburn, on peut considérer
que l’échantillon résulte d’un tirage avec remise et
simuler des tirages de taille n avec le tableur.
Isabelle ABOU
63
•
•
•
•
•
•
GENERATION DE
NOMBRE
ALEATOIRE
On simule sur le tableur 100 échantillons de taille n = 5 969
prélevés au hasard dans une population de garçons où la
probabilité de leucémie est p = 0,000 52 (cas « normal ») en
utilisant l’instruction : =ENT(ALEA()+0,000 52) .
L’instruction =ALEA() génère un nombre aléatoire dans l’intervalle
[0, 1[.
Or, choisir un réel au hasard entre 0 et 1, c’est le choisir suivant
la loi uniforme sur [0;1].
L’instruction =ALEA()+0,000 52 génère donc un nombre aléatoire
dans l’intervalle [0,000 52 ; 1,000 52[.
L’instruction =ENT(ALEA()+0,000 52), où ENT désigne la partie
entière, vaut donc la plupart du temps 0 « non malade » (en fait
avec une probabilité égale à 1-0,00052=0,99948),et vaut 1
« malade » avec la probabilité égale à 0,000 52.
Sur chaque échantillon, en faisant la somme, on obtient le nombre
de cas observés, sous l’hypothèse d’une probabilité « normale ».
Isabelle ABOU
64
SIMULATION SUR
TABLEUR
•
•
•
•
On représente ensuite sur un graphique les 100 résultats observés
sur les échantillons ainsi simulés.
Les simulations montrent que le nombre de cas observés à Woburn
(9 cas) est extrêmement rare (de l’ordre de 1 % des simulations
sur un grand nombre d’essais), sous l’hypothèse d’une probabilité
« normale ». On peut donc rejeter l’hypothèse que l’échantillon soit
compatible avec le modèle.
Il est donc raisonnable de penser que le niveau très
« significativement » élevé des leucémies infantiles observées chez
les garçons de Woburn n’est pas dû au hasard.
Ce taux anormalement élevé de leucémies est officiellement
confirmé par le Département de Santé Publique du Massachusetts
en avril 1980. Les soupçons se portent alors sur la qualité de l’eau
de la nappe phréatique qui, par des forages, alimente la ville. On
découvre ainsi le syndrome du trichloréthylène.
Isabelle ABOU
65
METHODE DETAILLEE
• On construit 100 échantillons de taille 5969 où chaque
colonne contient un échantillon, et chaque cellule
contient l’instruction =ENT(ALEA()+0,000 52).
• On crée une ligne où on fait la somme de chaque
colonne, cette ligne contient le cas de leucémies dans
chaque échantillon.
• On crée ensuite un graphique où on aura en abscisse
chaque échantillon et en ordonnée le nombre de cas de
leucémies.
nb cas leucemieses
effectif du nb cas leucemies sur 100 echantillons de taille 5969
10
8
6
Série1
4
2
0
0
20
40
60
80
Isabelle
ABOU
echantillons
100
120
66
IV. THEORIE DE
L’ÉSTIMATION
Isabelle ABOU
67
PROBLEMATIQUE
• La problématique est ici tout autre.
• On ne connaît pas un ou des paramètres
d’une v.a liée à une population mère.
• On veut estimer les valeurs
caractéristiques inconnues de cette v.a, à
l’aide de l’étude d’un échantillon d’effectif
n (n>=30) issu de cette population.
Isabelle ABOU
68
ESTIMATION
• On suppose vérifiée l’hypothèse
d’échantillonnage aléatoire simple.
• Deux types d’estimation:
- L’estimation ponctuelle
- L’estimation par intervalle de
confiance.
• Ceci en vue d’une prise de décision à
partir d’un échantillon.
Isabelle ABOU
69
ESTIMATION
PONCTUELLE
• Les lois de grands nombres justifient l’usage
de x comme estimation de m, et l’usage de s²
comme estimation de σ²car X tend p.s vers
m et S² tend p.s vers σ².
• De même la fréquence empirique f d’un
événement est une estimation de sa
probabilité.
• Les v.a X , S², et F sont appelées estimateurs
de m, σ², et p respectivement.
Isabelle ABOU
70
ESTIMATEUR
Soit t un paramètre à estimer, et T un estimateur.
•
• Qualités d’un estimateur:
• - Il doit être convergent: quand n tend vers l’infini, T doit tendre vers
t.
• - Il doit être précis: converger ‘’assez vite’’.
• - Il doit être sans biais c’est-à-dire E(T) doit être égal à t.
• Le biais:
• L’erreur d’estimation entre T et t est la v.a T - t.
• On décompose la différence T - t =(T - E(T))+(E(T) - t)
• * T-E(T) représente les fluctuations aléatoires de T autour de sa
valeur moyenne.
• * E(T)-t est assimilable à une erreur systématique due au fait que T
varie autour de sa valeur centrale E(T), et non autour de t.
• La quantité E(T)-t s’appelle le biais.
• Il est donc souhaitable d’utiliser des estimateurs sans biais tq E(T)=t.
Isabelle ABOU
71
THEOREMES SUR
L’ESTIMATION
• 1) Si (X1, . . . ,Xn) est un échantillon d'une loi quelconque de moyenne
m, alors X= (X1 + . . . + Xn)/n est un estimateur sans biais de m.
• 2) En particulier, si (X1, . . . ,Xn) est un échantillon de Bernoulli B(p),
p є [0, 1], alorsF := (X1 + . . . + Xn)/n est un estimateur sans biais de
p.
• 3) Si (X1, . . . ,Xn) est un échantillon d'une loi quelconque de variance
σ² finie, alors S² =(1/n) Σ(Xi − ¯X )² est un estimateur biaisé de σ².
• En effet: E[S²] = ((n − 1)/n)σ².
• Par contre l'estimateur corrigé
• S²corr := (n/n − 1)S²=(1/(n − 1)) Σ(Xi − ¯X )² est sans biais.
• Pour une démonstration de l’estimation de la variance et du biais,
voir un cours de statistique de l’université de Brest à l’adresse:
• http://www.math.univ-brest.fr/perso/catherine.rainer/polystat.pdf
Isabelle ABOU
72
APPLICATION
A L’ECHANTILLONNAGE
• On considère une v.a X définissant le caractère
étudié, avec E(X)=m et  ( X )  
.
• L’échantillon a pour moyenne xe et pour écart type s.
• - La meilleure estimation de m est xe .
n
• - La meilleure estimation de  est s
,
n 1
n
• où le coefficient
est une correction du biais.
n 1
• On considère une population où chaque élément peut,
ou non, posséder une propriété.
• Soit p la proportion d’éléments de la population mère
et f la proportion d’éléments de l’échantillon possédant
cette propriété.
• - La meilleure estimation de p est f.
Isabelle ABOU
73
ENGRENAGES
• Une usine fabrique des engrenages.
• On mesure en mm le diamètre de 100 engrenages:
Diamètre [23,59;
Effectif
23,61[
[23,61;
23,63[
[23,63; [23,65; [23,67;
23,65[ 23,67[ 23,68]
6
8
51
30
5
• La moyenne de l’échantillon est 23,644 mm, son
écart type est 0,018.
• Une estimation de la moyenne de la production
totale est donc 23,644 mm, et une estimation de
l’écart type de la production totale est
•
0,018*√(100/99)=0,0181.
Isabelle ABOU
74
ENGRENAGES (suite)
• Dans un échantillon de 150 pièces, on
a relevé 3 pièces défectueuses.
• Une estimation du nombre de pièces
défectueuses dans la production est:
3/150=0,02 soit 2%.
• On peut donc estimer que 2% des
pièces produites sont défectueuses.
Isabelle ABOU
75
ESTIMATION PAR
INTERVALLE DE CONFIANCE
• L’estimation ponctuelle est souvent peu réaliste, il
est donc plus intéressant de fournir une fourchette
d’estimation, et de plus l’estimation ponctuelle
n’indique pas le risque que l’on a de se tromper.
• Il s’agit de déterminer un intervalle contenant la
valeur de la moyenne ou de la fréquence avec un
risque d’erreur décidé à l’avance.
• Puis de prendre des décisions sur la population mère
à partir de l’étude d’un ou de plusieurs échantillons.
Isabelle ABOU
76
INTERVALLE DE CONFIANCE
DE LA MOYENNE
• La loi d’échantillonnage de la moyenne
est la loi normale N ( m;  ) .
n
• La moyenne m est supposée inconnue et
on a calculé la moyenne xe d’un
échantillon de taille n.
• L’intervalle de confiance de m au risque
de 5% est l’intervalle centré en xe :
•  xe  1,96  ; xe  1,96   .

n
n
Isabelle ABOU
77
DEMONSTRATION
• La loi d’échantillonnage de la moyenne X est la loi
normale N(m,σ/√n).
• Soit Y la v.a Y= X  m
suit la loi N(0;1).
σ
n
• Soit α le risque d’erreur ou seuil de risque, α est une
probabilité fixée à l’avance (par exemple α =0,05).
• La probabilité pour que Y n’appartienne pas à [-t;t]
est P(lYl>t)=α ou encore P(lYl<= t)=1-α.
• Ceci donne
P(-t<= Y<= t)=1-α
• Soit P(  t  X  m  t)  1 - 
σ
• C’est à dire
P( X  t
•
n
σ
n
 m  Xt
Isabelle ABOU
σ
n
)  1-
78
INTERPRETATION
σ
σ
• On a obtenu P(X  t n  m  X  t n )  1 - α ce qui signifie
que pour 100*(1-α)% des échantillons,
σ
σ
m appartient à l’intervalle [ xe  t ; x e  t ] .
n
n
• Cet intervalle est l’intervalle de confiance de la
moyenne au seuil de risque α.
• On dit que 1-α est le coefficient de confiance.
α
• t est le nombre tel que Π(t)  1 - , et se lit dans
2
la table de la loi N(0,1).
• On a α
0,01
0,05
0,10
t
2,58
1,96
Isabelle ABOU
1,645
79
AMPOULES ELECTRIQUES
• On suppose que la durée de vie d’une ampoule
électrique, exprimée en heures, suit la loi normale
de moyenne M inconnue et d’écart type σ =20.
• Une étude sur un échantillon de 16 ampoules donne
une moyenne de vie égale à 3000.
• Déterminer l’intervalle de confiance de m au seuil
de 10%.
• Résolution:
• α=0,1 d’où t=1,645.
• Un intervalle de confiance de M est:
• [3000-1,645*(20/√16) ; 3000+1,645*(20/√16)]
• = [2991 ; 3009].
Isabelle ABOU
80
INTERVALLE DE CONFIANCE
DE LA FREQUENCE
• La loi d’échantillonnage de la fréquence est
la loi normale N ( p; p(1  p) ) .
n
• p étant inconnu, l’écart type p(1n p) est
remplacé par son estimation ponctuelle
f (1  f )
n


n
n 1
f (1  f )
n 1
• Par analogie avec la méthode précédente,
l’intervalle de confiance de la fréquence au
risque 5% est l’intervalle centré en f:

f (1  f )
f (1  f ) 
•
; f  1,96
 f  1,96


n 1
Isabelle ABOU
n 1 
81
SONDAGE DANS LES
TRANSPORTS
• Un sondage dans une commune révèle que sur
les 500 personnes interrogées, 42% des
personnes sont mécontentes de l’organisation
des transports.
• Déterminer au seuil de risque de 5%, un
intervalle de confiance du pourcentage de
personnes mécontentes dans la commune.
Isabelle ABOU
82
RESOLUTION
• Dans l’échantillon, la fréquence de personnes
mécontentes est f=0,42.
• La taille de l’échantillon est n=500,l’intervalle de
confiance de la fréquence est donc:

0,42 * 0,58
0,42 * 0,58 
;0,42  1,96
0,42  1,96
  0,3767;0,4421
•
499
499

• Le pourcentage de personnes mécontentes dans la
commune a une probabilité égale à 95% de se
trouver dans l’intervalle [37,67;44,21].
Isabelle ABOU
83
V. ÉSTIMATION
D’UNE PROPORTION
SITUATIONS PROBLEMES
Isabelle ABOU
84
PROGRAMME
DE SECONDE
• On peut modéliser de nombreuses situations aléatoires à l’aide de
l’urne de Bernoulli, c.a.d comprenant deux sortes de boules.
• La situation de référence est une urne contenant plusieurs
centaines de boules rouges et blanches, dans une proportion
inconnue p de boules rouges.
• On cherche à estimer p à partir d’un échantillon de taille n.
• On note X la v.a correspondant au nombre de boules rouges dans
l’échantillon. X est une v.a binomiale et on note F la v.a X/n.
• On considère un échantillon de taille n, parmi tous ceux qu’on aurait
pu obtenir. f est une réalisation de F.
• On sait qu’environ 95% des fréquences observées sont dans
l’intervalle [p-1/√n; p+1/√n].
Isabelle ABOU
85
INTERVALLE DE
CONFIANCE
•
•
•
•
•
Comme P(p-1/√n ≤ F ≤ p+1/√n) ≥ 0,95 équivaut à
P(F-1/√n ≤ p ≤ F+1/√n) ≥ 0,95
L’appartenance f à [p-1/√n; p+1/√n] équivaut à celle de p à
[f-1/√n; f+1/√n], appelée fourchette de sondage.
Ceci permet de dire que, parmi tous les échantillons de taille n
possibles, 95% des intervalles associés [f-1/√n; f+1/√n]
contiennent le nombre p.
• Pour exprimer l’idée qu’avant tirage de l’échantillon on avait 95%
de chances d’obtenir une fourchette [f-1/√n; f+1/√n] qui contienne
p, on dira que le fourchette obtenue, une fois l’échantillon tiré, est
un intervalle de confiance au niveau 95% de p.
Il ne dépend que de la taille n de l’échantillon et non de la taille de
la population.
Isabelle ABOU
86
ESTIMATION DE p
INCONNUE
• A la problématique: « combien faut-il tirer de boules dans
une urne de Bernoulli pour pouvoir faire une estimation de sa
composition avec une précision donnée à priori? », on peut
répondre: en tirant n boules avec remise, on obtient une
estimation de par un intervalle d’amplitude 2/√n, avec une
confiance de plus de 95%.
• Si on tire 1000 boules (avec remise), on a une estimation de
p, à plus de 95%, par un intervalle d’amplitude 6%.
• Si par exemple le tirage de 1000 boules fournit une
fréquence de boules rouges égale à 0,47, on peut estimer
avec plus de 95% de confiance, que la proportion p de boules
rouges dans l’urne est comprise entre 0,44 et 0,50.
• Les sondages, par exemple, sont souvent pratiqués sur un
échantillon de 1000 personnes.
Isabelle ABOU
87
SOMME DE DEUX DÉS
• L’approche fréquentiste des probabilités
est une application de la loi faible des
grands nombres.
• En voici un grand classique:
• On lance deux dés équilibrés dont les
faces sont numérotées 1, 2, 3, 4, 5 et 6.
On additionne les nombres lus sur les faces
supérieures. On gagne si on obtient 9.
Quelle est la probabilité de gagner ?
Isabelle ABOU
88
RESOLUTION
• A ce stade, les élèves ne connaissant pas la
probabilité d’apparition du 9.
• Ils peuvent simuler des échantillons de
taille de plus en plus grande et estimer la
probabilité d’apparition du 9.
• On peut ensuite comparer les résultats
avec la probabilité effective, trouvée à
l’aide d’un arbre.
• La probabilité théorique est de 1/9 soit
environ 0,11111.
Isabelle ABOU
89
SUR TABLEUR
• La simulation du lancer d’un dé se fait par l’instruction
=ENT(6*ALEA()+1).
• Ceci car ALEA() fournit un nombre aléatoire entre 0 et1 (1 non
compris).
• 6*ALEA() fournit un nombre aléatoire entre 0 et 6 (6 non
compris).
• Donc en opérant la translation de 1, on a =ENT(6*ALEA()+1)
fournit un nombre entier de 1 à 6.
• Manipulation sur tableur:
• Dans la colonne A on numérote les échantillons, par exemple à
partir de la ligne 4.
• En colonnes B et C , on simule des lancers.
• En colonne D, on écrit le test du type
=SI(SOMME(B4:C4=9);1;0)).
• Si le test est vérifié, la valeur correspondante est 1, sinon elle
vaut 0.
Isabelle ABOU
90
SUR TABLEUR (suite)
• En colonne E, on calcule les fréquences:
• - la fréquence du premier échantillon sur la 1ière
ligne,
• - la fréquence du 1ier et du 2ième échantillon sur la
2ième ligne,
• - la fréquence du 1ier, du 2ième et du 3ième
échantillon sur la 3ième ligne.
• Le premier échantillon considéré est donc de taille
1, le 2ième de taille 2, le 3ième de taille 3, et ainsi de
suite jusqu’à 100.
• Dans la colonne E, on a écrit, en 3ième ligne
=SOMME(D$4:D6)/A6.
• On voit qu’à partir d’une certaine valeur de n, la
fréquence tend vers la probabilité théorique.
Isabelle ABOU
91
FLUCTUATIONS
D’ECHANTILLONNAGE
• Si on fait plusieurs simulations, on peut observer des
fluctuations d’échantillonnage relativement importantes en
augmentant la taille des échantillons jusqu’à 100.
fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de
l'échantillon"
0,3
0,25
0,2
0,15
Série1
0,1
0,05
fréquence observée
fréquence observée
fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de
l'échantillon"
0
0,3
0,25
0,2
0,15
Série1
0,1
0,05
0
0
20
40
60
80
100
120
0
20
40
taille de l'échantillon
80
100
0,3
0,25
0,2
0,15
Série1
0,1
0,05
0
0,3
0,25
0,2
0,15
Série1
0,1
0,05
0
0
20
40
60
taille de l'échantillon
120
fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de
l'échantillon"
fréquence observée
fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de
l'échantillon"
fréquence observée
60
taille de l'échantillon
80
100
120
0
Isabelle ABOU
20
40
60
taille de l'échantillon
80
100
120
92
Fluctuations d’échantillonnage
en augmentant la taille des
échantillons jusqu’à 5000
convergence de la fréquence de 5000 échantillons vers la
probabilité théorique
fréquence observée
fréquence observée
convergence de la fréquence de 5000 échantillons vers la
probabilité théorique
0,25
0,2
0,15
Série1
0,1
0,05
0,3
0,25
0,2
0,15
Série1
0,1
0,05
0
0
0
1000
2000
3000
4000
5000
0
6000
1000
2000
4000
5000
convergence de la fréquence de 5000 échantillons vers la
probabilité théorique
0,3
0,25
0,2
0,15
Série1
0,1
0,05
0
fréquence observée
convergence de la fréquence de 5000 échantillons vers la
probabilité théorique
0,3
0,25
0,2
0,15
Série1
0,1
0,05
0
0
1000
2000
3000
nb d'échantillons
6000
nb d'échantillons
nb d'échantillons
fréquence observée
3000
4000
5000
6000
Isabelle 0ABOU1000
2000
3000
nb d'échantillons
4000
5000
6000
93
SONDAGE
• Un candidat à une élection effectue un sondage
dans sa circonscription comportant 85842
électeurs : sur 1068 personnes interrogées, 550
déclarent vouloir voter pour ce candidat.
• Pour gagner les élections au premier tour, un
candidat doit obtenir 50% des voix.
• Le candidat affirme : « si les élections avaient eu
lieu le jour du sondage et si les réponses au
sondage étaient sincères, alors j’aurai été élu au
premier tour ».
• Qu’en pensez-vous ?
Isabelle ABOU
94
RESOLUTION
• Nous sommes dans les conditions requises par
le cours, n vaut 1068.
• Ici, f = 0,51498 et n = 1068 donc la
fourchette de sondage est [0,4843 ; 0,5456]
au niveau 0,95.
• D’après la fourchette de sondage, p a 95% de
chance d’être dans cet intervalle.
• Donc on ne peut pas certifier que p sera
supérieur ou égal à 0,5.
• L’affirmation du candidat est très hâtive, on
ne peut pas l’accepter.
Isabelle ABOU
95
PREMIER TOUR DES
PRESIDENTIELLES 2002
• Voici un extrait d’article, publié dans le journal « Le
Monde » par le statisticien Michel Lejeune, après le
premier tour de l’élection présidentielle de 2002.
• « Pour les rares scientifiques qui savent comment sont
produites les estimations, il était clair que l'écart des
intentions de vote entre les candidats Le Pen et Jospin
rendait tout à fait plausible le scénario qui s'est réalisé.
En effet, certains des derniers sondages indiquaient
18 % pour Jospin et 14 % pour Le Pen. Si l'on se réfère
à un sondage qui serait effectué dans des conditions
idéales [...], on obtient sur de tels pourcentages une
incertitude de plus ou moins 3 % étant donné la taille de
l'échantillon [...]. »
Isabelle ABOU
96
PRESIDENTIELLES 2002
ÉNONCÉ
• 1. Si l’on tient compte de l’incertitude liée au sondage,
entre quels pourcentages pourraient se situer réellement
(à 95 % de confiance) les deux candidats lorsque le
sondage donne 18 % pour l’un et 14 % pour l’autre ?
• 2. Représenter sur un même graphique les deux
« fourchettes » calculées à la question précédente.
Peut-on prévoir l’ordre des candidats ?
• Au premier tour de l’élection présidentielle de 2002, L.
Jospin a obtenu 16,18 % des voix et J.-M. Le Pen
16,86 %.
• 3. Expliquer la phrase « l'écart des intentions de vote
entre les candidats Le Pen et Jospin rendait tout à fait
plausible le scénario qui s'est réalisé ».
Isabelle ABOU
97
RESOLUTION
•
•
1. Pour L. Jospin, entre 15 % et 21 %. Pour J.-M. Le Pen, entre 11 %
et 17 %.
2. Un dessin possible.
10 %
•
•
15 %
20 %
Si on utilise ces fourchettes, on ne peut pas prévoir l’ordre des
candidats car elles ont une partie commune.
3. La phrase correspond au fait que les pourcentages obtenus à
l’élection sont situés dans les fourchettes du sondage.
Isabelle ABOU
98
VI. ÉVALUATION DE
TRAVAUX AVEC TIC
Isabelle ABOU
99
•
•
•
•
•
•
•
•
•
•
•
INTRODUCTION
Les problèmes qui suivent sont des évaluations de travaux faits
avec des TIC, du type « Epreuve pratique ».
On trouve de très bons documents de ce type à l’adresse:
http://mslp.ac-dijon.fr/spip.php?article202
Dans le premier problème, on détaille, à la fin, les compétences
mises en jeu dans la résolution de cette activité.
On rappelle les 4 compétences de base:
o C1 : savoir utiliser et compléter ses connaissances
o C2 : s’informer, rechercher, extraire et organiser de
l’information utile (écrite, orale, observable, numérique)
o C3 : raisonner, argumenter, pratiquer une démarche scientifique,
démontrer
o C4 : communiquer à l’aide de langages et d’outils adaptés.
On peut décliner ces 4 compétences dans le domaine du travail
avec les TIC.
On essaiera, dans tous les cas, de développer l’autonomie et
l’initiative chez l’élève.
Isabelle ABOU
100
SURRESERVATION
• Une compagnie aérienne dispose d’un
avion de 100 places et vend 107
réservations.
• L’objectif est d’évaluer la probabilité
de surréservation de cette compagnie,
autrement dit le risque que plus de
100 passagers se présentent à
l’embarquement.
Isabelle ABOU
101
•
•
•
•
•
•
•
•
•
•
•
•
•
–
–
1. On suppose que toute personne réservant une place d’avion a une chance
sur 10 de ne pas se présenter à l’embarquement.
Réaliser une simulation du nombre de personnes se présentant à
l’embarquement d’un vol de 100 places pour 107 réservations, sur un
échantillon aléatoire obtenu à l’aide d’un tableur.
Pour cela, dans une feuille de calcul du tableur :
saisir « =ENT(ALEA()+0,9) » dans la cellule A1 et recopier cette formule vers la
droite jusqu’en DC1 pour obtenir 107 réalisations ,
saisir « =SOMME(A1:DC1) » dans la cellule DD1.
Appel n° 1 : Appeler le professeur pour valider cette simulation.
2. Réaliser une simulation du nombre de personnes se présentant à
l’embarquement de 1 000 vols de 100 places pour 107 réservations à chaque
vol.
Appel n° 2 : Appeler le professeur pour valider cette simulation.
3. Déterminer, pour cette simulation de 1 000 vols, la proportion des cas où
l’effectif des passagers se présentant à l’embarquement est supérieur à
100. Pour cela :
- dans une cellule de votre choix, utiliser la formule
« =NB.SI(DD1:DD1000;">100") »,
- dans une cellule de votre choix, en déduire la fréquence demandée.
Appel n° 3 : Appeler le professeur pour valider ces calculs.
4. a) En utilisant la touche F9, réaliser plusieurs simulations, puis évaluer la
probabilité que plus de 100 personnes se présentent à l’embarquement.
b) Évaluer, en pourcentage, le risque de surréservation pour la
compagnie aérienne.
Appel n° 4 : Appeler le professeur pour lui donner les réponses.
Isabelle ABOU
102
•
•
•
•
•
•
•
•
RESOLUTION
Tout type de tableur convient, par exemple Excel ou OpenOffice Calc.
Il suffit d’inscrire la formule « =ENT(ALEA()+0,9) » dans la cellule A1,
de la recopier horizontalement pour qu’elle soit calculée 107 fois, puis
d’effectuer la somme.
L’élève doit comprendre que lorsque la formule affiche 1, le passager se
présente à l’embarquement et lorsqu’elle affiche 0, le passager ne se
présente pas.
Il s’agit de sélectionner les cellules de la simulation de la question 1. puis
de recopier vers le bas.
L’instruction NB.SI fournit un effectif. On s’attache à la différence qui
est faite entre effectif et fréquence.
L’élève doit comprendre que la probabilité de surréservation est la
valeur autour de laquelle fluctuent les fréquences lorsqu’on appuie sur la
touche F9.
On accepte toute évaluation comprise entre 0,06 et 0,10.
Signalons pour le professeur que le calcul de cette probabilité peut
s’effectuer par la formule « =1-LOI.BINOMIALE(100;107;0,9;VRAI) »
qui donne comme réponse environ 0,08 (ou 8 %).
Isabelle ABOU
103
SIMULATION SUR
TABLEUR
Isabelle ABOU
104
Question
COMPETENCES EVALUEES
1
L’élève est capable de réaliser la simulation
L’élève comprend le sens de l’affichage 1 ou 0 de
l’instruction « =ENT(ALEA()+0,9) »
2
L’élève est capable de réaliser la simulation de
taille 1 000.
3
L’élève connaît la différence de sens entre
effectif et fréquence et est capable de calculer
la fréquence.
4
L’élève identifie la probabilité comme l’invariant
autour duquel fluctuent les fréquences
observées.
L’élève donne une évaluation convenable de la
probabilité.
L’élève sait exprimer, en pourcentages, le risque
de surréservation.
Sur tout le
TP
L’élève tire profit des indications
éventuellement données à l’oral. Ces indications
Isabellelogicielles
ABOU
peuvent être des aides
nécessaires
pour réaliser ce qu’il a prévu.
105
CRAPS
• Le Craps est un jeu d'argent venant des ÉtatsUnis qui se joue avec deux dés à six faces.
• Les paris portent sur les combinaisons successives
obtenues avec la somme des faces des deux dés.Il
faut jeter deux dés à six faces sur une table avec
des parois verticales de 40 cm de hauteur pour
que les dés ne sortent pas de l'aire de jeu.
• Le total des 2 faces opposées de chacun des deux
dés doit toujours être égale à 7 : 1+6, 2+5, 3+4.
• Au premier lancer, le lanceur perd sa mise s'il 2
(1+1) ou 3 (2+1) ou 12 (6+6). On dit qu'il a fait un
Craps.
• Source : wikipedia.org
Isabelle ABOU
106
• Est-il plus facile d'obtenir un total de 6 ou de 7 avec deux
dés ?
• 1. Simulation de lancés de deux dés et calcul des fréquences
d'apparition des sommes des faces obtenues.
• 1.1. Lancer le tableur (Excel ou Open Office Calc) et :
•  écrire, dans la cellule A1, l'expression : Simulation de 10
lancés d'une paire de dés ;
•  ajuster la largeur de la colonne ;
•  entrer, dans la cellule A2, la formule : =
ENT(ALEA()*6+1)+ENT(ALEA()*6+1).
•  incrémenter la cellule A2, jusqu'à la cellule A11 (soit 10 cases
correspondant aux 10 premiers lancés) ;
•  écrire, dans la cellule C6, l'expression : Nombre de 6 : ;
•  entrer, dans la cellule D6, la formule : = NB.SI(A2:A11;6) ;
•  écrire, dans la cellule C7, l'expression : Nombre de 7 : ;
•  entrer, dans la cellule D7, la formule : = NB.SI(A2:A11;7) ;
•  appuyer plusieurs fois sur la touche F9 afin de faire afficher
d'autres lancés.
• Cette simulation permet-elle répondre au problème posé ?
• Appel n° 1 : appeler le professeur pour faire vérifier feuille
de calculs.
Isabelle ABOU
107
• 1.2. Reprendre la précédente feuille de calcul (Excel ou
Open Office Calc) et :
•  écrire, dans la cellule A1, l'expression :
Simulation de 10 000 lancés d'une paire de dés ;
•  ajuster la largeur de la colonne ;
•  incrémenter la cellule A2 jusqu'à la cellule A10001
(soit 10 000 cellules correspondant aux 10 000 premiers
lancés) ;
•  modifier, dans la cellule D6, la formule entrée par : =
NB.SI(A2:A10001;6) ;
•  entrer, dans la cellule E6, la formule :
=D6/10000*100 ;
•  modifier, dans la cellule D7, la formule entrée par :
=NB.SI(A2:A10001;7) ;
•  entrer, dans la cellule E7, la formule :
=D7/10000*100 ;
•  appuyer plusieurs fois sur la touche F9 afin de faire
afficher d'autres lancés.
Isabelle ABOU
108
• 1.3. Est-il plus facile d'obtenir un total de 6
ou de 7 ?
• 1.4. A quoi correspondent les valeurs
obtenues dans les cellules E6 et E7 ?
• 2. Étude des fréquences d'apparition des
sommes de deux dés.
• Compléter le tableau ci-dessous à l'aide des
résultats obtenus précédemment. Pour chaque
somme, calculez les fréquences en effectuant
la division du nombre d'apparitions, ni, par le
nombre total de lancer, N = 10 000.
Somme des faces des deux dés
6
7
Nombre d'apparition (ni)
Fréquence (f i = )
Isabelle ABOU
109
• 2.1. Ces fréquences ont été calculées à partir d'une simulation
de 10 000 lancés.
• 2.1.1. Compléter le tableau suivant en inscrivant dans chaque
case la somme des points obtenus avec chaque dé.
• 2.1.2. Combien y a t-il d'éventualités d'obtenir un total de 6 ?
• 2.1.3. Déterminer sa probabilité d'apparition : 2.1.4. Combien
y a t-il d'éventualités d'obtenir un total de 7 ?
• 2.1.5. Déterminer sa probabilité d'apparition :
• 2.1.6. Parmi toutes ces éventualités l'une d'entre elle a plus de
chance d'apparaître, laquelle ?
1ier dé 1
2
3
4
5
6
2ième dé
1
2
3
4
5
6
Isabelle ABOU
110
A SUIVRE…
3ième PARTIE
APPROFONDISSEMENT
Isabelle ABOU
111
Téléchargement