De la loi de Bernoulli à la loi normale - IREM Aix

publicité
De la loi de Bernoulli à la loi normale
en suivant le programme de Statistique de
Terminale
IREM Marseille / Groupe "Statistique et Probabilités"
Mars 2012
Loi de Bernoulli
On considère une variable aléatoire X à valeurs dans {0, 1}.
C'est une variable de (loi de) Bernoulli de paramètre p ∈ [0, 1],
notée B(p), avec :
p = P(X = 1) et 1 − p = P(X = 0).
Propriétés :
I
I
E(X) = p, V(X) = p(1 − p),
si X et Y sont deux variables de Bernoulli alors
I
XY
I
X +Y
est de Bernoulli
,→
indique la présence des deux maladies,
indique le nombre de maladies.
Exemples
I
I
I
Présence d'une anomalie génétique chez un individu.
Etre favorable à un candidat.
Réussite d'une gree.
Remarques :
,→ C'est la variable de comptage la plus simple. Lorsque p = 0 ou
p = 1 on tombe sur une variable constante (V(X) = 0)
,→ On peut aussi construire une Bernoulli à partir de n'importe
quelle variable aléatoire comme le montre l'exemple suivant
On s'intéresse à des durées de vie après rechute d'une maladie.
0.08
0.06
0.00
0.02
0.04
Probabilités
0.10
0.12
Histogramme des durées de vie
35
40
45
50
55
60
65
Mois
On peut associer une variable de Bernoulli B(p) comme :
I le fait que la durée de vie dépasse 55 mois ,→ p = 0.05,
I le fait d'avoir une durée de vie entre 45 et 50 mois ,→
p = 0.45.
Loi binomiale
Soient X1 , · · · , Xn des variables aléatoires i.i.d. (identiquement et
indépendamment distribuées) de Bernoulli B(p).
On pose S = X1 + · · · + Xn .
S suit une loi binomiale B(n, p) dénie par
P(S = s) =
n
X
k=0
pour s = 0, 1, · · · , n
n!
px (1 − p)n−s ,
(n − s)!s!
Propriétés :
I
Moyenne et variance :
E(S) = np,
I
I
V(S) = np(1 − p).
Si S1 et S2 sont deux binomiales B(n1 , p) et B(n2 , p)
indépendantes alors S1 + S2 est une binomiale B(n1 + n2 , p).
,→ faux s'il n'y a plus indépendance, ou si les probabilités p
sont diérentes.
Exemples
I
I
I
I
Quatre réacteurs identiques et indépendants peuvent tomber
en panne au cours d'un vol chacun avec la même probabilité p
(on suppose les pannes mutuellement indépendantes). On
s'intéresse au nombre de réacteurs en panne ,→ B(4, p).
Plus généralement, le nombre de réacteurs qui ont une durée
de fonctionnement supérieure à 1000 heures ,→ B(4, p(1000)).
Ou tout système en parallèle.
Dans les familles de quatre enfants, combien de lles ?
Contre-exemple
Deux maladies : la première contractée avec une probabilité
p1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 si
on n'a pas la première et p2|1 = 1/2 si on a déjà la première. On
observe sur un même individu le nombre S de maladies (0,1 ou 2).
Alors
P(S = 0) = (1 − p1 )(1 − p2|0 ) = 15/24,
P(S = 1) = p1 (1 − p2|1 ) + (1 − p1 )p2|0 = 1/4,
P(S = 2) = p1 p2|1 = 1/8,
ce n'est pas une binomiale, pourtant les deux maladies sont des
Bernoulli de même paramètre 1/4.
Binomiale n=100, p=0.3
0.10
0.00
0.05
0.05
0.10
0.15
Probabilités
0.20
0.15
0.25
Binomiale n=10, p=0.3
0.00
Probabilités
Convergence vers une loi normale ?
0
2
4
On a S −→ ∞...
6
8
10
10
20
30
40
50
La loi normale
On approxime souvent la loi binomiale par une loi normale, qui
pourtant est une loi à densité.
0.0
0.1
0.2
0.3
0.4
Densité de la loi normale centrée réduite
−4
−2
0
2
4
Illustration de la densité
0.10
0.00
0.02
0.02
0.04
0.04
0.06
0.06
0.08
0.08
0.10
Sur une règle de dix centimètres, chaque centimètre a une
probabilité uniforme d'être choisi. Puis on coupe en dix : chaque
millimètre, etc...
2
4
6
8
10
0
2
4
6
8
10
Binomiale n=100, p=0.3
0.10
0.00
0.05
0.05
0.10
0.15
Probabilités
0.20
0.15
0.25
Binomiale n=10, p=0.3
0.00
Probabilités
Distributions de S
0
2
4
6
8
10
10
20
30
40
Mais on va plutôt regarder S/n qui reste entre 0 et 1 (comme la
règle qui restait entre 0 et 1 décimètre)
50
Binomiale/1000 (n=1000, p=0.3)
200
150
100
0
50
5
10
Probabilités (X10000)
15
250
Binomiale/100 (n=100, p=0.3)
0
Probabilités (X100)
Distributions de S/n
0.1
0.2
0.3
0.4
0.5
0.24
0.26
0.28
0.30
0.32
0.34
S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.
0.36
Le Théorème de la Limite Centrale (TLC ou TCL)
On approxime souvent la loi binomiale par une loi normale On peut
généraliser ce résultat grâce au théorème suivant.
Théorème
Si X1 , · · · , Xn est une suite de variables aléatoires indépendantes
de même loi (donc de même moyenne m et de même variance σ 2
supposée nie). Alors
√ X̄ − m
n
σ
L
→ N (0, 1)
où X̄ = (X1 + · · · + Xn )/n = S/n.
Pourquoi X̄ ?
En général, on ne dispose pas de la population totale mais
seulement d'un échantillon i.i.d. X1 , · · · , Xn .
C'est le cas lorsque l'on observe n individus, n réacteurs, n durées
de vie...
Ces variables ont une même espérance inconnue m.
I
Dans le cas de Bernoulli c'est p.
,→ comment estimer p ?
A partir de l'échantillon on a une moyenne empirique
S/n = (X1 + · · · + Xn )/n.
,→ S/n est une variable aléatoire.
Dans le cas de Bernoulli
I
S est une binomiale.
I
E(S) = np et V(S) = np(1 − p)
I
E(S/n) = p et V(S/n) = p(1 − p)/n
,→ On s'aperçoit qu'en moyenne S/n donne la bonne valeur p
,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).
Dans le cas général
I
E(S/n) = E(X) = m
I
V(S/n) = V(X)/n = σ 2 /n
,→ En moyenne S/n donne la bonne valeur m
,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).
Illustrations du TCL
0.00
0.05
0.10
0.15
0.20
0.25
Densité originale et loi normale associée
0
5
10
15
20
Illustrations du TCL
0.00
0.05
0.10
0.15
0.20
Densité ''moyennisée'' par 2 et loi normale associée
0
5
10
15
Illustrations du TCL
0.00
0.05
0.10
0.15
0.20
Densité ''moyennisée'' par 5 et loi normale associée
5
10
15
Illustrations du TCL
0.0
0.1
0.2
0.3
0.4
Densité ''moyennisée'' par 30 et loi normale associée
4
6
8
10
De la loi de Bernoulli à la loi normale
D'après le TCL on a la cvce en loi suivante :
U=
√
S/n − p
np
p(1 − p)
→ N (0, 1),
ce qui signie que la fonction de répartition P(U ≤ u) converge
vers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u).
D'où l'approximation pour "n grand" :
U
≈ N (0, 1).
Propriétés de la loi normale
Si X ∼ N (m, σ 2 ) alors
I
X − m ∼ N (0, σ 2 ),
I
X/σ ∼ N (m/σ, 1),
I
(X − m)/σ ∼ N (0, 1).
Si X ∼ N (m1 , σ12 ) et Y ∼ N (m2 , σ22 ) sont indépendantes alors
I X + Y ∼ N (m1 + m2 , σ 2 + σ 2 ),
1
2
I X − Y ∼ N (m1 − m2 , σ 2 + σ 2 ).
1
2
Revenons à
√
S/n − p
np
p(1 − p)
→ N (0, 1).
Pour "n grand"
S/n ≈ N (p, p(1 − p)/n),
S ≈ N (np, np(1 − p)).
Remarque : la qualité de l'approximation dépend de la valeur
(inconnue) de p. Plus p est proche de 0.5 et plus on s'approche
rapidement de la loi normale. On impose généralement n > 30,
np > 5 et np(1 − p) > 5, ce qui revient à vérier que S > 5 et
S(1 − S/n) > 5.
Binomiale n=30, p=0.5
0.15
Probabilités
0.6
0.00
0.2
0.05
0.4
0.10
0.8
0.20
1.0
0.25
1.2
Binomiale n=30, p=0.1
0.0
Probabilités
Deux approximations diérentes pour une même valeur de n
0
2
4
6
8
10
12
5
10
15
20
25
Erreur d'approximation
On a une borne de type Bery-Esseen :
|P(U ≤ u) − P(N (0, 1) ≤ u)| ≤
√
S/n − p
où U = n p
p(1 − p)
.
(1 − p)2 + p2
p
.
2 np(1 − p)
Borne pour n = 10 en fonction de p
Borne pour n10
0.26
0.24
0.22
0.2
0.18
0.16
0.2
0.3
0.4
0.5
p
0.6
0.7
0.8
Borne pour n = 30 en fonction de p
Borne pour n30
0.15
0.14
0.13
0.12
0.11
0.1
0.09
0.2
0.3
0.4
0.5
p
0.6
0.7
0.8
Borne pour n = 100 en fonction de p
Borne pour n100
0.085
0.08
0.075
0.07
0.065
0.06
0.055
0.05
0.2
0.3
0.4
0.5
p
0.6
0.7
0.8
Intervalle de conance
On observe X1 , · · · , Xn i.i.d. de loi B(p).
On s'intéresse à la valeur de p ∈]0, 1[ inconnue.
Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait.
,→ Quel est le pourcentage d'individus satisfaits dans la
population ?
I
I
On peut estimer ponctuellement p par S/n.
On peut aussi proposer un intervalle de conance lorsque "n
est grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 par
exemple.
Remarque : c'est a et b qui sont aléatoires (ils vont dépendre des
X1 , · · · , Xn )
On utilise l'approximation précédente combinée à la convergence
(en probabilité) de S/n vers p :
√
S/n − p
np
→ N (0, 1) (en loi),
p(1 − p)
S/n → p (en probabilité),
pour conclure à l'approximation pour "n grand" (Théorème de
Slutsky)
T =
√
S/n − p
np
S/n(1 − S/n)
≈ N (0, 1).
Prenons ensuite u fractile de la loi normale tel que (par ex.) :
P(−u ≤ N (0, 1) ≤ u) = 0.95
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√
S/n − p
np
≤ u) = 0.95
S/n(1 − S/n)
q
q
S
S
S
S
S
S
n (1 − n )
n (1 − n ) √
√
≤ p ≤ + 1.96
= 0.95
P
− 1.96
n
n
n
n
P(−u ≤
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√
S/n − p
np
≤ u) = 0.95
S/n(1 − S/n)
q
q
S
S
S
S
S
S
n (1 − n )
n (1 − n ) √
√
≤ p ≤ + 1.96
= 0.95
P
− 1.96
n
n
n
n
P(−u ≤
| |− − − − − {z
− − − − − −} | −
− − − − {z
− − − − − −} |
|{z} |
q
q
S
S
S
S
S
n (1 − n )
n (1 − n )
√
√
−1.96
+1.96
n
n
n
En résumé :
I S/n est l'estimation ponctuelle.
q
I
I
S
n (1
√
− Sn )
n
est (une estimation de) l'écart-type de S/n
1.96 est associée au niveau
p
S/n(1 − S/n)
√
IC(p, 0.95) = [S/n ± 1.96
]
n
p
S/n(1 − S/n)
√
L'amplitude de l'intervalle vaut 2 u
.
n
I Plus n est grand et plus cette amplitude va diminuer,
I
Plus le niveau de conance est grand et plus l'amplitude va
augmenter.
Remarque : lorsque S/n est entre 0.2 et 0.8, alors
p
S/n(1 − S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante :
1
IC(p, 0.95) ≈ [S/n ± √ ]
n
Test sur une valeur
On dispose de deux pièces :
I Une pièce non truquée : probabilité p0 = 1/2 de tomber sur
pile.
I Une pièce truquée : probabilité p1 = 1/4 de tomber sur pile.
On observe n lancers avec la même pièce et on veut décider si elle
est truquée ou non.
On veut tester
H0 : p = p0 V S H1 : p = p1
I
I
Sous H0 , S provient d'une B(n, p0 ).
Sous H1 , S provient d'une B(n, p1 ).
Distributions de S avec n = 10 lancers :
0
2
4
6
Sous H0
8
10
0
2
4
Sous H1
6
8
Distributions de S avec n = 100 lancers
30
40
50
Sous H0
60
70
10
20
30
Sous H1
40
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :
0
2
4
6
8
10
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :
0
↑
2
4
6
Probabilité faible sous H0 (' 0.001)
8
10
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :
0
↑
2
4
6
8
10
Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :
0
↑
2
4
6
8
10
Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0 ,→ Risque d'erreur en rejetant H0 ' 0.001.
On peut aller plus loin (toujours avec 10 lancers)
0
2
4
6
8
10
On peut aller plus loin (toujours avec 10 lancers)
0
2
| {z }
4
6
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
8
10
On peut aller plus loin (toujours avec 10 lancers)
0
2
4
6
8
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On rejette H0 quand S vaut 0, 1 ou 2.
10
Deux types d'erreurs :
I En réalité H0 est vraie (pièce non truquée) ,→ erreur si je
rejette H0
,→ c'est le risque d'observer 0, 1 ou 2 alors que la pièce n'est
pas truquée (p = 1/2). On le maîtrise : cette probabilité vaut
environ 0.055.
I En réalité H1 est vraie (pièce truquée) ,→ erreur si j'accepte
H0
,→ c'est le risque d'observer S = 3, 4, · · · , 10 alors que la
pièce est truquée (p = 1/4).
On va calculer ce deuxième risque.
Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce
est truquée)
0
2
4
6
8
Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce
est truquée)
0
2
4
6
|
{z
Sous H1 , P(S = 3, 4, · · · , 10) ' 0.71
8
}
Donc si la pièce est truquée on peut se tromper avec une forte
probabilité (dans 71% des cas).
On peut calculer l'erreur globale de se tromper (quelque soit la
décision). On suppose (au début de l'expérience) que l'on choisit au
hasard l'une des deux pièces.
P(erreur) = P(erreur ∩ H0 ) + P(erreur ∩ H1 )
= P(erreur|H0 ) ∗ P(H0 ) + P(erreur|H1 ) ∗ P(H1 )
= 0.055 ∗ 1/2 + 0.71 ∗ 1/2
= 0.38
Avec 10 lancers, notre règle de décision nous permet donc de
distinguer les deux pièces sans erreurs dans 62% des cas.
Cas intéressant : on lance une seule fois la pièce (n = 1).
Règle de décision :
I
I
On observe pile ,→ on décide H0 (non truquée).
On observe face ,→ on décide H1 (truquée).
Les erreurs possibles :
* Erreur si la pièce n'est pas truquée : P (f ace|H0 ) = 1/2
* Erreur si la pièce est truquée : P (pile|H1 ) = 1/4
* Erreur globale :
P (pile ∩ H1 ∪ f ace ∩ H0 ) = (1/4 ∗ 1/2 + 1/2 ∗ 1/2) = 3/8
Si on propose une autre règle :
Règle de décision 2 :
I
I
On observe pile ,→ on décide H0 (non truquée).
On observe face ,→ on décide H1 (truquée).
Les erreurs possibles :
* Erreur si la pièce est truquée : P (f ace|H1 ) = 3/4
* Erreur si la pièce n'est pas truquée : P (pile|H0 ) = 1/2
* Erreur globale : P (pile ∩ H0 ∪ f ace ∩ H1 ) = 5/8
Remarque : dans ce cas il vaut mieux décider au hasard (une
chance sur deux de se tromper).
Approximation par une loi normale
Et avec n = 50 lancers, si nous faisons l'approximation de la
binomiale par une loi normale alors :
0.10
0.05
0.00
Density
0.15
0.20
Avec 50 observations
5
10
15
20
25
30
35
0.10
0.05
0.00
Density
0.15
0.20
Avec 50 observations
5
10
{z
Sous H1
|
15
20
} |
25
30
Sous H0
{z
35
}
Démonstration du TLC
Pour simplier supposons que les variables de la suite X1 , · · · , Xn
sont centrées (m = E(X) = 0) et réduites (σ 2 = V(X) = 1)
(quitte à retrancher m et à diviser par σ ).
On sait que la fonction caractéristique de la loi normale centrée
réduite N (0, 1) est
ϕZ (t) = E exp(itZ) = exp(−t2 /2),
où Z ∼ N (0, 1).
Si la fonction caractéristique de S/n tend (quand n → ∞) vers
exp(−t2 /2) alors la loi de S/n tend vers la loi normale centrée
réduite (Théorème de Lévy).
On va utiliser trois propriétés importantes de la fonction
caractéristique :
t ϕX √
= ϕ √X (t),
n
n
et si X1 et X2 sont indépendantes alors
ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t),
et donc si X1 et X2 ont même fonction caractéristique (i.e. même
loi) :
ϕX1 +X2 (t) = ϕX (t)2
Et une dernière propriété : si la variance de X existe alors
ϕ0X (0) = iE(X)
ϕ00X (0) = −E(X 2 ).
Posons (après avoir centré et réduit les Xi )
U=
√ S/n − m
√
n
= S/ n.
σ
Les Xi étant indépendantes et de même fonction caractéristique on
a
ϕU (t) = ϕ √S (t)
n
t = ϕS √
n
t = ϕX1 +···+Xn √
n
t t = ϕX1 √ · · · ϕXn √
n
n
t n
= ϕX √
n
On fait alors un d.l. à l'ordre 2 :
t n
ϕX √
n
n
t
t2
ϕX (0) + i √ ϕ0X (0) + (i2 ) ϕ00X (0) + o(1/n)
2n
n
2
n
t
=
1−
+ o(1/n)
2n
−→ exp(−t2 /2) (quand n → ∞)
=
Test sur deux valeurs
On observe deux échantillons de Bernoulli indépendantes :
X1 , · · · , Xn et Y1 , · · · , Yk . On teste :
H0 : pX = pY
V S H1 : pX 6= pY
On utilise l'approximation par la loi normale :
SX /n ≈ N (pX , pX (1 − pX )/n)
SY /k ≈ N (pY , pY (1 − pY )/k).
L'indépendance nous permet d'écrire
SX /n − SY /k ≈ N (pX − pY , V )
avec V =
SX /n(1 − SX /n) SY /k(1 − SY /k)
+
.
n
k
Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loi
normale centrée réduite de T
T
=
SX /n − SY /k
√
,
V
on décide alors de rejeter ou non H0 .
Généralisation au cas d'une moyenne
Le TCL s'applique pour toute suite de variables i.i.d. de moyenne m
ayant une variance σ 2 nie. On a
U=
√ X̄ − m
n √
σ
→ N (0, 1),
ce qui donne l'approximation pour n grand :
X̄ ≈ N (m, σ 2 /n).
Intervalle de conance
On observe X1 , · · · , Xn i.i.d. de moyenne m et de variance σ 2
inconnues. Par exemple des durèes de vie.
On utilise l'approximation précédente combinéeP
à la convergence
2
(en probabilité) de la variance empirique S = (Xi − X̄)2 /n :
U=
√ X̄ − m
→ N (0, 1) (en loi),
n
σ
S → σ (en probabilité),
pour conclure
T =
√ X̄ − m
n
S
≈ N (0, 1).
Prenons ensuite u fractile de la loi normale tel que :
P(−u ≤ T ≤ u) ≈ 0.95,
on en déduit l'intervalle de conance de niveau 0.95 asymptotique
pour m
S
IC(p, 0.95) = [X̄ ± 1.96 √ ]
n
Téléchargement