Distributions d’échantillonnage Terminologie statistique Distribution de la moyenne: théorème central- limite distribution Khi-deux (χ2) distribution T de Student distribution F de Fisher résumé des distributions hors programme : distribution de S / distribution de R Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 1 Constats et terminologie statistique • les populations statistiques sont modélisées par des distributions de • probabilités dont les paramètres sont toujours inconnus; • le mieux que l’on puisse faire: estimer les paramètres avec des données échantillonnales (observations) provenant de la même distribution (population); • les données (Y1, Y2, …) sont transformées en statistique W par une fonction W = h (Y1, Y2 ,…. ) W est une variable aléatoire le choix de h dépend de l’application envisagée (ESTIMATION ou TEST) la loi de probabilité de W s’appelle distribution d’échantillonnage; exemple : 2 échantillons de taille n provenant de la même population (Y1, Y2, …, Yn) et (Y1’, Y2’ , ….., Yn’) auront une moyenne (xbar), différente, un écart type s différent, un histogramme différent : c’est l’influence de la variabilité de l’échantillonnage; 2 Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques Constats et terminologie statistique • on dispose toujours que d’un seul échantillon de taille n pour la mise en œuvre d’une procédure statistique: • ESTIMATION chapitre 10 TEST D’HYPOTHÈSES chapitre 11 paramètre statistique ξ : quantité associée à une distribution exemples Bernard CLÉMENT, PhD ξ=μ moyenne distribution : exemple normale ξ=σ écart type distribution quelconque ξ=θ moyenne distribution Bernoulli (θ) ξ = θ(1- θ) variance distribution Bernoulli (θ) ξ = xp p-ième percentile d’une variable X MTH2302 Probabilités et méthodes statistiques 3 Terminologie statistique Échantillon aléatoire (définition) un ensemble de variables aléatoires Y 1 , Y 2 , .., Y n telles que (a) les variables sont soumises à une même loi f(y) (b) les variables sont indépendantes loi conjointe : g (Y1, Y2, …, Yn) = f( Y1)* f(Y2) * …* f(Yn) Statistique : toute fonction aléatoire établie sur l’échantillon W = h (Y1 , Y2 , …., Y n ) remarque : W est une variable aléatoire Estimateur : une statistique particulière conçue de façon à fournir une estimation d’un paramètre d’une loi de probabilité Aplications: Bernard CLÉMENT, PhD Estimation Test d’hypothèses Régression Analyse de la variance MTH2302 Probabilités et méthodes statistiques 4 Résultat 1 Soit Y 1 , Y 2,, ….. , Y n des v. a. indépendantes telles que (rappel) E(Yi ) = μi Var (Yi ) = σi2 i = 1, 2, …, n a 1, a 2,, …. , a n des constantes et soient et i=n soit W = ∑ ai Yi une combinaison linéaire des Yi i=1 Alors E( W ) = μ W = ∑ ai μi et Var ( W ) = σw2 = ∑ ai2 σi2 remarque 1 : aucune hypothèse est nécessaire sur les lois des Yi remarque 2 : si les Yi sont gaussiennes alors W est gaussienne Résultat 2 Soit ai = 1 / n E(Yi ) = μ Var( Yi ) = σ2 i=n W = Y = Ybar = ∑ (1/n ) Yi vérifie E(Y) = μ alors et Var(Y) = σ2 / n i=1 Résultat 3 Si les Yi sont gaussiennes alors Y Bernard CLÉMENT, PhD est gaussienne Yi ~ N (μ , σ2 ) N (μ , σ2 / n ) MTH2302 Probabilités et méthodes statistiques 5 Distribution de la moyenne échantillonnale : Théorème central limite Résultat 4 : théorème central – limite Soit W = ∑ Yi avec E(Yi ) = μi , Var (Yi ) = σi2 Si « n est assez grand » (au moins 30) i = 1, 2, … , n Alors W suit approximativement une loi gaussienne N(μW , σW 2 ) avec μW = ∑ μi et σY2 = ∑ σi2 remarque : il n’y a aucune condition spécifique sur les lois des Yi Résultat 5 Si E( Yi) = μ , Var (Yi) = σ2 i = 1, 2 ,… , n alors Y suit approximativement loi gaussienne remarque N (μ , σ2 / n) on peut écrire le résultat sous la forme équivalente Y - μ_ suit approximativement une loi N (0, 1) σ/√n Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 6 Distribution POPULATION uniforme exponentielle de Y gaussienne Histogram (chap06.sta 31v*30000c) Histogram (chap06.sta 31v*30000c) Histogram (chap06.sta 31v*30000c) 8000 700 gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078) 2400 7000 600 2200 2000 6000 1800 500 1600 5000 1400 400 4000 1200 No of obs No of obs No of obs 300 3000 2000 200 1000 800 600 400 n=1 1000 200 100 0 -1.0000 0 -1.7318 -1.1776 -0.6234 -0.0691 0.4851 1.0393 1.5935 -1.4547 -0.9005 -0.3462 0.2080 0.7622 1.3164 1.0546 0.0273 3.1092 2.0819 5.1638 4.1365 7.2184 6.1911 9.2730 8.2457 0 -3.9095 -2.5375 -1.1654 0.2066 1.5787 2.9507 4.3227 -3.2235 -1.8514 -0.4794 0.8926 2.2647 3.6367 11.3276 10.3003 gaussienne exponentielle unif orme Histogram (chap06.sta 31v*30000c) Histogram (chap06.sta 31v*30000c) 2000 norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139) Histogram (chap06.sta 21v*30000c) 1000 1800 unif 2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706) 700 900 1600 800 600 1400 700 1200 500 600 1000 400 500 300 200 No of obs No of obs No of obs n=2 800 600 400 300 400 200 200 100 100 0 -0.9961 0.2491 1.4944 2.7396 3.9848 5.2301 6.4753 -0.3735 0.8717 2.1170 3.3622 4.6074 5.8527 0 -1.7286 -1.1773 -0.6260 -0.0747 0.4765 1.0278 1.5791 -1.4530 -0.9017 -0.3504 0.2009 0.7522 1.3035 0 -2.6496 -1.8237 -0.9978 -0.1719 0.6541 1.4800 2.3059 -2.2367 -1.4107 -0.5848 0.2411 1.0670 1.8929 expo2 norm2 Histogram (chap06.sta 31v*30000c) unif 2 expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455) Histogram (chap06.sta 21v*30000c) Histogram (chap06.sta 31v*30000c) 600 unif 5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506) norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489) 400 350 500 350 300 300 400 250 250 200 300 200 100 No of obs No of obs No of obs n=5 150 200 150 100 100 50 50 0 1.5414 2.1606 2.7799 -0.3162 0.3030 0.9222 -0.9355 1.8510 2.4703 -0.0066 0.6126 1.2318 -0.6259 0 -1.4455 -0.9876 -0.5297 -0.0719 0.3860 0.8438 1.3017 -1.2165 -0.7587 -0.3008 0.1570 0.6149 1.0727 0 -1.6782 -1.1409 -0.6037 -0.0664 0.4709 1.0081 1.5454 -1.4096 -0.8723 -0.3350 0.2022 0.7395 1.2767 expo5 unif 5 norm5 Histogram (chap06.sta 21v*30000c) Histogram (chap06.sta 31v*30000c) Histogram (chap06.sta 31v*30000c) unif 15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586) expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567) norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586) 120 160 140 140 100 120 120 80 100 100 60 20 60 No of obs No of obs No of obs n = 15 80 80 40 40 60 40 20 20 0 -0.7560 -0.5035 -0.2510 0.0016 0.2541 0.5066 0.7592 -0.6298 -0.3772 -0.1247 0.1278 0.3804 0.6329 0 1.1204 -0.6499 -0.3548 -0.0598 0.2353 0.5303 0.8254 0.9729 -0.5023 -0.2073 0.0878 0.3828 0.6778 unif 15 Histogram (chap06.sta 21v*30000c) 0 -1.0046 -0.7161 -0.4275 -0.1389 0.1497 0.4382 0.7268 -0.8604 -0.5718 -0.2832 0.0054 0.2940 0.5825 expo15 unif 30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825) Histogram (chap06.sta 31v*30000c) 70 norm15 Histogram (chap06.sta 31v*30000c) expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816) norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854) 60 60 60 50 50 50 40 40 40 20 10 30 No of obs No of obs No of obs n = 30 30 30 20 10 0 -0.6378 -0.4382 -0.5380 -0.2387 -0.3384 -0.0391 -0.1389 0.3601 0.1605 0.0607 0.2603 0.5597 0.4599 10 0 -0.5145 -0.3208 -0.4176 -0.1270 -0.2239 0.0667 -0.0302 0.2604 0.1636 unif 30 expo30 Bernard CLÉMENT, PhD 20 0.4542 0.3573 0.6479 0.5510 0 -0.6652 -0.4750 -0.5701 -0.2848 -0.3799 -0.0946 -0.1897 0.0956 0.0005 norm30 0.2858 0.1907 7 0.4760 0.3809 7 approximation de la distribution binomiale par une normale cas particulier de l’application du théorème central – limite. Y = nombre de succès dans une suite de n essais de Bernoulli indépendants Posons Yi v. a. de Bernoulli associée a 1 avec probabilité θ 0 avec probabilité 1 - θ Yi = E ( Yi ) = 0 * (1 - θ ) + 1 * θ = θ Y = ∑ Yi est une v. a On applique le résultat 5 : Y suit Y– n θ = Donc essai i √ n θ ( 1- θ ) i = 1, 2,…, n Var ( Yi) = θ(1 – θ ) binomiale b(n, θ) approximativement dist. N(n θ , n θ (1 - θ)) Y - θ √ θ ( 1- θ ) / n suit approximativement distribution N ( 0, 1) Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 8 Exemple la demande quotidienne d’énergie électrique ( KWh ) pour un logement est une variable de moyenne 200 et d’écart type 20. Posons D = demande totale d’énergie électrique dans un arrondissement de 500 logements. Calculer une limite supérieure D0 pour D qui ne serait pas dépassée avec probabilité 0,99 D = ∑ Yi solution D suit ou Yi est la demande du logement i = 1, 2, …., 500 approximativement μ = 500 * 200 = 100 000 P (D ≤ D0 ) = 0,99 une loi gaussienne N(μ , σ2) et σ2 = 500 * 202 = 200 000 = ( 447,2 )2 Φ [(D0 - 100 000 ) / 447,2 )] = 0,99 D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042 MTH2302 Probabilités et méthodes statistiques Bernard CLÉMENT, PhD 9 Exemple : la durée de vie Y d’un composant électronique suit une loi exponentielle de moyenne 100 heures (a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse 125 heures? (b) Combien de composants (n) doit- on avoir fin que la différence entre Y et 100 n’excède pas 10 avec une probabilité de 0,95? solution : si Y suit une loi exponentielle , l’écart type de Y = moyenne de X = 100 alors Y suit approximativement une distribution N (100, 100 2 / 36 ) (a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067 (b) P ( │ Y - 100 │ < 10 ) = 0,95 alors P ( │ Y - 100 │ < 100 / √ n 2 Φ (√ n / 10) - 1 = 0,95 √ n / 10 = Φ -1 (0,975) Bernard CLÉMENT, PhD 10 __ ) = 0,95 100 / √ n donne Φ (√ n / 10) = 0,975 n = 384 MTH2302 Probabilités et méthodes statistiques 10 Distribution Khi-deux Une variable aléatoire χ2 dont la densité de probabilité est définie par f χ2 ( u ) = c(ν) u (ν / 2) - 1 exp (- u / 2 ) 0 <u<∞ s’ appelle une variable Khi-deux (χ2 ) avec ν degrés de liberté (ddl ν = 1, 2,3, …, ∞ c(ν ) est une constante qui dépend de ν Propriétés • E ( χ2 ) = ν et Var ( χ2 ) = 2 ν • si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl • la somme de variables Khi-deux indépendantes est une Khi-deux • si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux • si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 avec n ddl ~ Khi- deux avec n ddl 11 Bernard CLÉMENT, PhD Quantile Table des quantiles d’une Khi-deux HMGB p. 478 Notation : χ2 p, ν quantile d’ordre p d’une variable χ2ν avec ν degré de liberté P ( χ 2ν ≤ Χ2p, ν ) = p Exemple P ( χ25 ≤ 9,24 ) = 0.90 Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 12 Distribution Student Une variable aléatoire T dont la densité f T ( t ) = c(ν) ( 1 + t 2 / de probabilité ν)-(ν+1)/2 est définie par -∞ <t<∞ s’appelle une variable de Student avec ν degrés de liberté , ν = 1, 2, 3,…., ∞ c(ν) est une constante qui dépend de ν Propriétés • densité symétrique p.r à 0 • E (T ) = 0 • Var (T) = ν / ( ν - 2 ) (ν > 2) • si Z est une N(0,1) alors T = Z / √ χv2 / v suit loi T avec v ddl • si ν = ∞ la variable de Student est une variable normale centrée réduite • si ν > 30 la distribution Student est quasi identique à une loi normale centré-réduite la lettre T est généralement consacrée pour représenter la variable de Student 13 table des quantiles d’une variable Student HMGB p. 479 tp,ν : quantile d’ordre p variable Student Tν ν degrés de liberté P ( Tν ≤ t p , ν ) = p Exemple P ( T5 ≤ 2.015 ) = 0.95 Bernard CLÉMENT, PhD 14 Résultat 6 application importante de la Khi-deux i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 ) soit Y i soit S 2 = 1 / ( n – 1 ) ∑ ( Y i – Y ) 2 la variance échantillonnale (n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2 alors suit une loi Khi-deux avec (n – 1) ddl Résultat 7 application importante de la Student soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 ) Soit ∑Y i/ n et T = Y - μ_ s/√n Y = Alors S2 = ∑ ( Y i – Y ) 2 / ( n - 1 ) suit une loi de Student avec ν = n – 1 degrés de liberté Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 15 distribution F de Fisher-Snedecor Une variable aléatoire X dont la densité de probabilité f est définie par f X ( x) = c(ν1,ν2) x ( ν1 / 2 ) - 1 [ 1 + ( ν1/v2 )x ] - ( v1 + v2 ) /2 0 <x<∞ est appelée une variable aléatoire distribuée selon une loi de Fisher-Snedecor avec v1 ddl au numérateur et v2 ddl au dénominateur; c(v1,v2) est une constante Propriétés • E ( F ) = v2 / ( v2 – 2 ) • si Y1 suit une loi Khi-deux avec v1 ddl Y2 suit une loi Khi-deux avec v2 ddl Y1 et Y2 sont indépendantes alors ( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2) • T2v = F (1, v) : le carré d’une loi de Student avec v ddl est une loi F(1,v) Densité de probabilité de Fisher-Snedecor Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 16 Quantiles d’une F de Fisher-Snedecor HMGB p. 480-489 Notation F p, v1, v2 : quantile d’ordre p d‘une variable de Fischer- Snedecor F v1 , v2 avec v1 ddl au numérateur v2 ddl au dénominateur Exemple P ( F8 , 3 ≤ 5.25 ) = 0.90 F0.90, 8 , 3 = 5.25 Bernard CLÉMENT, PhD 17 distribution d’échantillonnage du quotient de 2 variances 0.14 0.14 0.12 0.12 0.10 0.08 σY 0.06 GAUSS GAUSS 0.08 Z ~ N ( μZ, σZ2) 0.10 Y ~ N ( μY, σY2) σZ 0.06 0.04 0.04 0.02 0.02 0.00 0.00 -0.02 -2 0 2 4 6 8 10 μy 12 -0.02 -2 14 16 18 20 22 24 0 2 4 6 8 26 Y1, Y2 , … , Yn1 Y = ∑ Yi / n1 SY2 = (1/( n1 – 1)) ∑ ( Yi – Y )2 Résultat 8 Bernard CLÉMENT, PhD échantillons μZ 12 14 16 18 20 22 24 26 Z1, Z2 , … , Zn2 indépendants Z = ∑ Zi / n2 moyennes SZ2 = 1/( n2 – 1 ) ∑ ( Zi – Z )2 variances ( SY2 / σY2 ) / (SZ2 / σZ2) 10 U U suit une loi MTH2302 Probabilités et méthodes statistiques F n1-1 , n2-1 18 RÉSUMÉ des DISTRIBUTIONS Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 19 RÉSUMÉ des DISTRIBUTIONS MTH2302 Probabilités et méthodes statistiques Bernard CLÉMENT, PhD 20 DISTRIBUTIONS D’ÉCHANTILLONNAGE MTH2302 Probabilités et méthodes statistiques Bernard CLÉMENT, PhD 21 APPROXIMATIONS Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 22 RÉSUMÉ des DISTRIBUTIONS APPLICATIONS Y - μ_ suit approximativement une loi N (0, 1) σ/√n • si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl • la somme de variables Khi-deux indépendantes est une Khi-deux • si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux • si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] (n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2 T = Y - μ_ s/√n 2 avec n ddl ~ Khi- deux avec n ddl suit une loi Khi-deux avec (n – 1) ddl suit une loi de Student avec ν = n – 1 degrés de liberté Y1 suit une loi Khi-deux avec v1 ddl Y2 suit une loi Khi-deux avec v2 ddl Y1 et Y2 sont indépendantes alors ( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2) Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques 23 RÉSUMÉ des DISTRIBUTIONS LIAISONS entre les distributions Processus de POISSON et la distribution exponentielle Distribution binomiale et distribution géométrique MTH2302 Probabilités et méthodes statistiques Bernard CLÉMENT, PhD 24 HORS PROGRAMME Distribution d’échantillonnage de l’écart type S : soit X i un échantillon de n observations d’une population N ( μ, σ2 ) : l’écart type échantillonnal S = [ (1 / ( n – 1 )) ∑ ( Yi – Y ) 2 ] 0.5 Résultat Var (S) = c52 σ2 2 3 4 5 6 7 8 9 10 15 20 25 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144 alors n c4 c5 remarque : Résultat E (S) = c4σ si n > = 10 et c4 ≈ 1 : application - cartes de contrôle de Shewhart (a) σ = S / c 4 est une estimation sans biais de σ (b) soit k groupes de n données, S = ∑ Sj/k σ =S/c4 : E ( S /c 4 ) = σ S j l’écart type du groupe j = 1, 2,..., k la moyenne des écart types est une estimation sans biais de σ fS distribution d’échantillonnage de S : n fixé S 0 Bernard CLÉMENT, PhD 25 E( S ) MTH2302 Probabilités et méthodes statistiques HORS PROGRAMME Distribution d’échantillonnage de l’étendue R Résultat : soit Y i un échantillon de n observations d’une population N ( μ, σ2 ) R = max ( Y i) - min (Yi) : étendue échantillonnale E(R)=d2σ Var ( R ) = d 32 σ2 n 2 3 4 5 6 7 8 9 10 15 20 25 d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931 d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709 alors et remarque: il n’est pas recommandé d’utiliser R pour estimer σ avec n > 10 l’écart type s est préférable car il est plus précis Résultat : application - cartes de contrôle de Shewhart (a) σ = R / d 2 est une estimation sans biais de σ : (b) soit k groupes de n données, R= ∑ Rj/k σ =R/d2 Rj l’étendue du groupe j = 1, 2,..., k moyenne des étendues est une estimation sans biais de σ fR Bernard CLÉMENT, PhD E ( R / d 2) = σ distribution d’échantillonnage de R : n fixé 0 E( R ) R 26