aléatoire probabilité -mesurée -partie -simulation alors

publicité
Distributions d’échantillonnage
 Terminologie statistique
 Distribution de la moyenne: théorème central- limite
 distribution Khi-deux (χ2)
 distribution T de Student
 distribution F de Fisher
 résumé des distributions
hors programme : distribution de S / distribution de R
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
1
Constats et terminologie statistique
• les populations statistiques sont modélisées par des distributions de
• probabilités dont les paramètres sont toujours inconnus;
• le mieux que l’on puisse faire: estimer les paramètres avec des
données échantillonnales (observations) provenant de la même distribution
(population);
• les données (Y1, Y2, …) sont transformées en statistique W par une fonction
W = h (Y1, Y2 ,…. )
W est une variable aléatoire
le choix de h dépend de l’application envisagée (ESTIMATION ou TEST)
la loi de probabilité de W s’appelle distribution d’échantillonnage;
exemple : 2 échantillons de taille n provenant de la même population
(Y1, Y2, …, Yn) et (Y1’, Y2’ , ….., Yn’) auront une moyenne (xbar),
différente, un écart type s différent, un histogramme différent :
c’est l’influence de la variabilité de l’échantillonnage;
2
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
Constats et terminologie statistique
• on dispose toujours que d’un seul échantillon de taille n
pour la mise en œuvre d’une procédure statistique:
•
ESTIMATION
chapitre 10
TEST D’HYPOTHÈSES
chapitre 11
paramètre statistique ξ :
quantité associée à une distribution
exemples
Bernard CLÉMENT, PhD
ξ=μ
moyenne distribution : exemple normale
ξ=σ
écart type distribution quelconque
ξ=θ
moyenne distribution Bernoulli (θ)
ξ = θ(1- θ)
variance distribution Bernoulli (θ)
ξ = xp
p-ième percentile d’une variable X
MTH2302 Probabilités et méthodes statistiques
3
Terminologie statistique
Échantillon aléatoire (définition)
un ensemble de variables aléatoires Y 1 , Y 2 , .., Y n telles que
(a) les variables sont soumises à une même loi f(y)
(b) les variables sont indépendantes
loi conjointe : g (Y1, Y2, …, Yn) = f( Y1)* f(Y2) * …* f(Yn)
Statistique : toute fonction aléatoire établie sur l’échantillon
W = h (Y1 , Y2 , …., Y n )
remarque : W est une variable aléatoire
Estimateur : une statistique particulière conçue de façon à fournir
une estimation d’un paramètre d’une loi de probabilité
Aplications:
Bernard CLÉMENT, PhD
Estimation
Test d’hypothèses
Régression
Analyse de la variance
MTH2302 Probabilités et méthodes statistiques
4
Résultat 1
Soit Y 1 , Y 2,, ….. , Y n des v. a. indépendantes telles que
(rappel)
E(Yi ) = μi
Var (Yi ) = σi2
i = 1, 2, …, n
a 1, a 2,, …. , a n des constantes et
soient
et
i=n
soit
W = ∑ ai Yi une combinaison linéaire des Yi
i=1
Alors
E( W ) = μ W = ∑ ai μi et Var ( W ) = σw2 = ∑ ai2 σi2
remarque 1 : aucune hypothèse
est nécessaire sur les lois des Yi
remarque 2 : si les Yi sont gaussiennes alors W est gaussienne
Résultat 2
Soit ai = 1 / n
E(Yi ) = μ
Var( Yi ) = σ2
i=n
W = Y = Ybar = ∑ (1/n ) Yi
vérifie
E(Y) = μ
alors
et Var(Y) = σ2 / n
i=1
Résultat 3
Si les Yi sont gaussiennes
alors Y
Bernard CLÉMENT, PhD
est gaussienne
Yi ~ N (μ , σ2 )
N (μ , σ2 / n )
MTH2302 Probabilités et méthodes statistiques
5
Distribution de la moyenne échantillonnale : Théorème central limite
Résultat 4 :
théorème central – limite
Soit W = ∑ Yi
avec E(Yi ) = μi , Var (Yi ) = σi2
Si « n est assez grand » (au moins 30)
i = 1, 2, … , n
Alors W suit approximativement une loi gaussienne N(μW , σW 2 )
avec
μW = ∑ μi et σY2 = ∑ σi2
remarque : il n’y a aucune condition spécifique sur les lois des Yi
Résultat 5
Si
E( Yi) = μ ,
Var (Yi) = σ2
i = 1, 2 ,… , n
alors Y suit approximativement loi gaussienne
remarque
N (μ , σ2 / n)
on peut écrire le résultat sous la forme équivalente
Y - μ_
suit approximativement une loi N (0, 1)
σ/√n
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
6
Distribution
POPULATION
uniforme
exponentielle
de Y
gaussienne
Histogram (chap06.sta 31v*30000c)
Histogram (chap06.sta 31v*30000c)
Histogram (chap06.sta 31v*30000c)
8000
700
gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)
2400
7000
600
2200
2000
6000
1800
500
1600
5000
1400
400
4000
1200
No of obs
No of obs
No of obs
300
3000
2000
200
1000
800
600
400
n=1
1000
200
100
0
-1.0000
0
-1.7318
-1.1776
-0.6234
-0.0691
0.4851
1.0393
1.5935
-1.4547
-0.9005
-0.3462
0.2080
0.7622
1.3164
1.0546
0.0273
3.1092
2.0819
5.1638
4.1365
7.2184
6.1911
9.2730
8.2457
0
-3.9095
-2.5375
-1.1654
0.2066
1.5787
2.9507
4.3227
-3.2235
-1.8514
-0.4794
0.8926
2.2647
3.6367
11.3276
10.3003
gaussienne
exponentielle
unif orme
Histogram (chap06.sta 31v*30000c)
Histogram (chap06.sta 31v*30000c)
2000
norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)
Histogram (chap06.sta 21v*30000c)
1000
1800
unif 2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)
700
900
1600
800
600
1400
700
1200
500
600
1000
400
500
300
200
No of obs
No of obs
No of obs
n=2
800
600
400
300
400
200
200
100
100
0
-0.9961
0.2491
1.4944
2.7396
3.9848
5.2301
6.4753
-0.3735
0.8717
2.1170
3.3622
4.6074
5.8527
0
-1.7286
-1.1773
-0.6260
-0.0747
0.4765
1.0278
1.5791
-1.4530
-0.9017
-0.3504
0.2009
0.7522
1.3035
0
-2.6496
-1.8237
-0.9978
-0.1719
0.6541
1.4800
2.3059
-2.2367
-1.4107
-0.5848
0.2411
1.0670
1.8929
expo2
norm2
Histogram (chap06.sta 31v*30000c)
unif 2
expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)
Histogram (chap06.sta 21v*30000c)
Histogram (chap06.sta 31v*30000c)
600
unif 5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)
norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)
400
350
500
350
300
300
400
250
250
200
300
200
100
No of obs
No of obs
No of obs
n=5
150
200
150
100
100
50
50
0
1.5414
2.1606
2.7799
-0.3162
0.3030
0.9222
-0.9355
1.8510
2.4703
-0.0066
0.6126
1.2318
-0.6259
0
-1.4455
-0.9876
-0.5297
-0.0719
0.3860
0.8438
1.3017
-1.2165
-0.7587
-0.3008
0.1570
0.6149
1.0727
0
-1.6782
-1.1409
-0.6037
-0.0664
0.4709
1.0081
1.5454
-1.4096
-0.8723
-0.3350
0.2022
0.7395
1.2767
expo5
unif 5
norm5
Histogram (chap06.sta 21v*30000c)
Histogram (chap06.sta 31v*30000c)
Histogram (chap06.sta 31v*30000c)
unif 15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)
expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)
norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)
120
160
140
140
100
120
120
80
100
100
60
20
60
No of obs
No of obs
No of obs
n = 15
80
80
40
40
60
40
20
20
0
-0.7560
-0.5035
-0.2510
0.0016
0.2541
0.5066
0.7592
-0.6298
-0.3772
-0.1247
0.1278
0.3804
0.6329
0
1.1204
-0.6499
-0.3548
-0.0598
0.2353
0.5303
0.8254
0.9729
-0.5023
-0.2073
0.0878
0.3828
0.6778
unif 15
Histogram (chap06.sta 21v*30000c)
0
-1.0046
-0.7161
-0.4275
-0.1389
0.1497
0.4382
0.7268
-0.8604
-0.5718
-0.2832
0.0054
0.2940
0.5825
expo15
unif 30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)
Histogram (chap06.sta 31v*30000c)
70
norm15
Histogram (chap06.sta
31v*30000c)
expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)
norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)
60
60
60
50
50
50
40
40
40
20
10
30
No of obs
No of obs
No of obs
n = 30
30
30
20
10
0
-0.6378
-0.4382
-0.5380
-0.2387
-0.3384
-0.0391
-0.1389
0.3601
0.1605
0.0607
0.2603
0.5597
0.4599
10
0
-0.5145
-0.3208
-0.4176
-0.1270
-0.2239
0.0667
-0.0302
0.2604
0.1636
unif 30
expo30
Bernard CLÉMENT, PhD
20
0.4542
0.3573
0.6479
0.5510
0
-0.6652
-0.4750
-0.5701
-0.2848
-0.3799
-0.0946
-0.1897
0.0956
0.0005
norm30
0.2858
0.1907
7
0.4760
0.3809
7
approximation de la distribution binomiale par une normale
cas particulier de l’application du théorème central – limite.
Y = nombre de succès dans une suite de n essais de Bernoulli indépendants
Posons
Yi
v. a. de Bernoulli associée a
1
avec probabilité θ
0
avec probabilité 1 - θ
Yi =
E ( Yi ) = 0 * (1 - θ ) + 1 * θ = θ
Y = ∑ Yi est une v. a
On applique le résultat 5 :
Y suit
Y– n θ
=
Donc
essai i
√ n θ ( 1- θ )
i = 1, 2,…, n
Var ( Yi) = θ(1 – θ )
binomiale
b(n, θ)
approximativement dist. N(n θ , n θ (1 - θ))
Y
-
θ
√ θ ( 1- θ ) / n
suit approximativement distribution N ( 0, 1)
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
8
Exemple
la demande quotidienne d’énergie électrique ( KWh ) pour un logement est
une variable de moyenne 200 et d’écart type 20.
Posons D = demande totale d’énergie électrique dans un
arrondissement de 500 logements.
Calculer une limite supérieure D0 pour D qui ne serait pas dépassée
avec probabilité 0,99
D = ∑ Yi
solution
D suit
ou Yi est la demande du logement i = 1, 2, …., 500
approximativement
μ = 500 * 200 = 100 000
P (D ≤ D0 ) = 0,99
une loi gaussienne N(μ , σ2)
et σ2 = 500 * 202 = 200 000 = ( 447,2 )2
Φ [(D0 - 100 000 ) / 447,2 )] = 0,99
D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042
MTH2302 Probabilités et méthodes statistiques
Bernard CLÉMENT, PhD
9
Exemple : la durée de vie Y d’un composant électronique suit une loi
exponentielle de moyenne 100 heures
(a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse
125 heures?
(b) Combien de composants (n) doit- on avoir fin que la différence entre Y et 100
n’excède pas 10 avec une probabilité de 0,95?
solution : si Y suit une loi exponentielle , l’écart type de Y = moyenne de X = 100
alors Y suit approximativement une distribution N (100, 100 2 / 36 )
(a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067
(b) P ( │ Y - 100 │ < 10 ) = 0,95
alors
P ( │ Y - 100 │ <
100 / √ n
2 Φ (√ n / 10) - 1 = 0,95
√ n / 10 = Φ -1 (0,975)
Bernard CLÉMENT, PhD
10 __ ) = 0,95
100 / √ n
donne Φ (√ n / 10) = 0,975
n = 384
MTH2302 Probabilités et méthodes statistiques
10
Distribution Khi-deux
Une variable aléatoire χ2 dont la densité de probabilité est définie par
f χ2 ( u ) = c(ν) u (ν / 2) - 1 exp (- u / 2 )
0 <u<∞
s’ appelle une variable Khi-deux (χ2 ) avec ν degrés de liberté (ddl
ν = 1, 2,3, …, ∞
c(ν ) est une constante qui dépend de ν
Propriétés
• E ( χ2 ) = ν
et
Var ( χ2 ) = 2 ν
• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl
• la somme de variables Khi-deux indépendantes est une Khi-deux
• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors
∑ Zi2 ~ Khi-deux
• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ]
2
avec n ddl
~ Khi- deux avec n ddl
11
Bernard CLÉMENT, PhD
Quantile
Table des quantiles d’une Khi-deux
HMGB p. 478
Notation : χ2 p, ν
quantile d’ordre p
d’une variable χ2ν
avec ν degré de liberté
P ( χ 2ν ≤ Χ2p, ν ) = p
Exemple
P ( χ25 ≤ 9,24 ) = 0.90
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
12
Distribution Student
Une
variable aléatoire T
dont la densité
f T ( t ) = c(ν) ( 1 + t 2
/
de probabilité
ν)-(ν+1)/2
est définie par
-∞
<t<∞
s’appelle une variable de Student avec ν degrés de liberté , ν = 1, 2, 3,….,
∞
c(ν) est une constante qui dépend de ν
Propriétés
• densité symétrique p.r à 0
• E (T ) = 0
• Var (T) = ν / ( ν - 2 )
(ν > 2)
• si Z est une N(0,1) alors
T = Z / √ χv2 / v suit loi T avec v ddl
• si ν = ∞
la variable de Student
est une variable normale centrée réduite
• si ν > 30 la distribution Student est quasi
identique à une loi normale centré-réduite
la lettre T est généralement consacrée pour représenter la variable de Student
13
table
des
quantiles d’une variable Student
HMGB p. 479
tp,ν
:
quantile d’ordre p
variable Student Tν
ν degrés de liberté
P ( Tν ≤ t p , ν ) = p
Exemple
P ( T5 ≤ 2.015 ) = 0.95
Bernard CLÉMENT, PhD
14
Résultat 6
application importante de la Khi-deux
i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )
soit Y i
soit S 2 = 1 / ( n – 1 ) ∑ ( Y i – Y ) 2 la variance échantillonnale
(n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2
alors
suit une loi Khi-deux avec (n – 1) ddl
Résultat 7
application importante de la Student
soit Y i
i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )
Soit
∑Y i/ n
et
T =
Y - μ_
s/√n
Y =
Alors
S2 = ∑ ( Y i – Y ) 2 / ( n - 1 )
suit une loi de Student avec ν = n – 1 degrés de liberté
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
15
distribution F de Fisher-Snedecor
Une variable aléatoire X dont la densité de probabilité f est définie par
f X ( x) = c(ν1,ν2) x ( ν1 / 2 ) - 1 [ 1 + ( ν1/v2 )x ] - ( v1 + v2 ) /2
0 <x<∞
est appelée une variable aléatoire distribuée selon une loi de Fisher-Snedecor avec
v1 ddl au numérateur
et v2 ddl au dénominateur; c(v1,v2) est une constante
Propriétés
• E ( F ) = v2 / ( v2 – 2 )
• si Y1 suit une loi Khi-deux avec v1 ddl
Y2 suit une loi Khi-deux avec v2 ddl
Y1 et Y2 sont indépendantes alors
( Y1 / v1)
/
( Y2 / v2) suit une loi F(v1,v2)
• T2v = F (1, v) : le carré d’une loi de Student
avec v ddl est une loi F(1,v)
Densité de probabilité de Fisher-Snedecor
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
16
Quantiles d’une
F de
Fisher-Snedecor
HMGB p. 480-489
Notation
F p, v1, v2
:
quantile d’ordre p d‘une
variable de Fischer- Snedecor
F v1 , v2
avec
v1 ddl au numérateur
v2 ddl au dénominateur
Exemple
P ( F8 , 3 ≤ 5.25 ) = 0.90
F0.90, 8 , 3 = 5.25
Bernard CLÉMENT, PhD
17
distribution d’échantillonnage du quotient de 2 variances
0.14
0.14
0.12
0.12
0.10
0.08
σY
0.06
GAUSS
GAUSS
0.08
Z ~ N ( μZ, σZ2)
0.10
Y ~ N ( μY, σY2)
σZ
0.06
0.04
0.04
0.02
0.02
0.00
0.00
-0.02
-2
0
2
4
6
8
10
μy
12
-0.02
-2
14
16
18
20
22
24
0
2
4
6
8
26
Y1, Y2 , … , Yn1
Y = ∑ Yi / n1
SY2 = (1/( n1 – 1)) ∑ ( Yi – Y )2
Résultat 8
Bernard CLÉMENT, PhD
échantillons
μZ
12
14
16
18
20
22
24
26
Z1, Z2 , … , Zn2
indépendants
Z = ∑ Zi / n2
moyennes
SZ2 = 1/( n2 – 1 ) ∑ ( Zi – Z )2
variances
( SY2 / σY2 ) / (SZ2 / σZ2)
10
U
U
suit
une loi
MTH2302 Probabilités et méthodes statistiques
F n1-1 , n2-1
18
RÉSUMÉ des DISTRIBUTIONS
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
19
RÉSUMÉ des
DISTRIBUTIONS
MTH2302 Probabilités et méthodes statistiques
Bernard CLÉMENT, PhD
20
DISTRIBUTIONS D’ÉCHANTILLONNAGE
MTH2302 Probabilités et méthodes statistiques
Bernard CLÉMENT, PhD
21
APPROXIMATIONS
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
22
RÉSUMÉ des DISTRIBUTIONS
APPLICATIONS
Y - μ_
suit approximativement une loi N (0, 1)
σ/√n
•
si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl
• la somme de variables Khi-deux indépendantes est une Khi-deux
• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors
∑ Zi2 ~ Khi-deux
• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ]
(n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2
T =
Y - μ_
s/√n
2
avec n ddl
~ Khi- deux avec n ddl
suit une loi Khi-deux avec (n – 1) ddl
suit une loi de Student avec ν = n – 1 degrés de liberté
Y1 suit une loi Khi-deux avec v1 ddl
Y2 suit une loi Khi-deux avec v2 ddl
Y1 et Y2 sont indépendantes alors
( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)
Bernard CLÉMENT, PhD
MTH2302 Probabilités et méthodes statistiques
23
RÉSUMÉ des DISTRIBUTIONS
LIAISONS entre les distributions
 Processus de POISSON et la distribution exponentielle
 Distribution binomiale et distribution géométrique
MTH2302 Probabilités et méthodes statistiques
Bernard CLÉMENT, PhD
24
HORS PROGRAMME
Distribution d’échantillonnage de l’écart type S
: soit X i un échantillon de n observations d’une population N ( μ, σ2 )
: l’écart type échantillonnal
S = [ (1 / ( n – 1 )) ∑ ( Yi – Y ) 2 ] 0.5
Résultat
Var (S) = c52 σ2
2
3
4
5
6
7
8
9
10
15
20
25
0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990
0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144
alors
n
c4
c5
remarque :
Résultat
E (S) = c4σ
si n > = 10
et
c4 ≈ 1
: application - cartes de contrôle de Shewhart
(a) σ = S / c 4 est une estimation sans biais de σ
(b) soit k groupes de n données,
S = ∑ Sj/k
σ =S/c4
:
E ( S /c 4 ) = σ
S j l’écart type du groupe j = 1, 2,..., k
la moyenne des écart types
est une estimation sans biais de σ
fS
distribution d’échantillonnage de S : n fixé
S
0
Bernard CLÉMENT, PhD
25
E( S )
MTH2302 Probabilités et méthodes statistiques
HORS PROGRAMME
Distribution d’échantillonnage de l’étendue R
Résultat
:
soit Y i un échantillon de n observations d’une population N ( μ, σ2 )
R = max ( Y i) - min (Yi) : étendue échantillonnale
E(R)=d2σ
Var ( R ) = d 32 σ2
n
2
3
4
5
6
7
8
9
10
15
20
25
d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931
d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709
alors
et
remarque: il n’est pas recommandé d’utiliser R pour estimer σ
avec n > 10
l’écart type s est préférable car il est plus précis
Résultat
: application - cartes de contrôle de Shewhart
(a) σ = R / d 2
est une estimation sans biais de σ :
(b) soit k groupes de n données,
R= ∑ Rj/k
σ =R/d2
Rj
l’étendue du groupe j = 1, 2,..., k
moyenne des étendues
est une estimation sans biais de σ
fR
Bernard CLÉMENT, PhD
E ( R / d 2) = σ
distribution d’échantillonnage de R : n fixé
0
E( R )
R
26
Téléchargement