MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie- Chapitre 6 - Distributions échantillonnales et estimation Lexique anglais - français Lexique anglais – français • sample statistic ………. statistique échantillonnale Constats et terminologie statistique Distribution de la moyenne – théorème central- limite Estimation : Intervalle de confiance pour la moyenne µ Calcul de la taille échantillonnale n Estimation : différence entre 2 moyennes µ 1 - µ 2 Estimation : variance σ2 - écart type σ • sampling distribution ….. loi (distribution) d’échantillonnage • sample mean …………….. moyenne échantillonnale • estimator …………………. estimateur • estimate …………………… estimation • interval estimate ……….. estimation par intervalle • point estimate …….…….. estimation ponctuelle Loi d’échantillonnage : quotient de 2 variances σ12/σ22 Loi d’échantillonnage : étendue R et écart type S Intervalle de tolérance pour une variable • confidence level ………… niveau de confiance • one-sided …………………... unilatéral Hors programme : Estimation : paramètre θ d’une loi binomiale (6.5 et 6.6) Estimation : différence θ1 - θ2 entre 2 lois binomiales • two-sided …………………… bilatéral • paired samples ……………. échantillons appariés 6 -1 Bernard CLÉMENT, P h D 6- 2 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Constats et terminologie statistique Constats et terminologie statistique • les populations statistiques sont modélisées par des lois de probabilités dont les paramètres sont toujours inconnus; • le mieux que l’on puisse faire: estimer les paramètres avec des données échantillonnales (observations ) provenant de la population; • les données ( X1, X2, …) sont transformées en statistique Y par une fonction Y = h ( X1, X2 ,…. ) et Y est une variable aléatoire le choix de h dépend de l’application envisagée ( estimation ou test) la loi de probabilité de Y s’appelle distribution d’échantillonnage; exemple : 2 échantillons de taille n provenant de la même population ( X1, X2, …Xn) et ( X1’, X2’ , ….., Xn’ ) auront une moyenne ( xbar), différente, un écart type s différent, un histogramme différent : c’est l’influence de la variabilité de l’échantillonnage; • on dispose toujours que d’un seul échantillon de taille n pour mettre en œuvre une procédure statistique : estimation ou test • paramètre statistique ξ : toute quantité associée à une loi de probabilité ex. ξ = µ : moyenne loi gaussienne , ξ = σ : écart type loi quelconque ξ = θ (1 - θ ) : moyenne loi Bernoulli ( θ) Échantillon aléatoire : un ensemble de variables aléatoires X 1 , X 2 , , X n telles que (a) les variables sont soumises à une même loi f(x) (b) les variables sont indépendantes donc la loi conjointe : g (X1, X2, …, Xn) = f( X1)* f(X2) * …* f(Xn) Statistique : toute fonction aléatoire établie sur l’échantillon remarque : Y est une v.a Y = h (X1 , X2 , …., X n ) Estimateur : une statistique particulière conçue de façon à fournir une estimation d’un paramètre d’une loi de probabilité Estimation ponctuelle d’un paramètre ξ : est la valeur numérique ξ prise par un estimateur sur la base d’un échantillon (x1, x2,…, xn) ξ = h( x1, x2, … , xn ) Estimation par intervalle : d’un paramètre statistique ξ est un intervalle (a,b) dont les valeurs a et b dépendent de l’échantillon (x1, x2,…, xn) et une probabilité spécifiée 1 - α (appelée coefficient de confiance ) de telle sorte que : P ( a ≤ ξ ≤ b) = 1- α 6- 3 Bernard CLÉMENT, P h D 6- 4 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Loi d’échantillonnage ( ce concept est fondamental ) tout estimateur ξ possède une loi de probabilité appelée loi (ou distribution) d’échantillonnage ; l’étude des propriétés de l’estimateur repose sur l’étude des propriétés de cette distribution. distribution d’échantillonnage Soit X 1 , X 2,, ….. , X E( Xi ) = µ i et Résultat 1 soient a 1, a 2,, …. , a n des i=n E( ξ ) W =∑ a iX soit n1 ξ Alors n2 > n1 constantes et une combinaison linéaire des X i i i=1 n2 des v. a. indépendantes telles que Var ( Xi ) = σi2 i = 1, 2, …, n n E( W ) = µ W = ∑ a i µ i et Var ( W ) = σw2 = ∑ ai2 σi2 remarque 1 : aucune hypothèse est nécessaire sur les lois des X i remarque 2 : si les X sont gaussiennes alors W est gaussienne ξ Résultat ( sous certaines conditions très générales ) : la distribution d ’échantillonnage est approximativement en forme de cloche (gaussienne) et sa dispersion (variance) diminue lorsque n augmente Résultat 2 Soit ai = 1 / n Var( X i ) = σ2 E(X ) = µ i=n W = X = Xbar = ∑ (1 / n ) X i Estimateur sans biais ( sans erreur systématique ) : un estimateur dont la moyenne est égale au paramètre à estimer : E( ξ ) = ξ vérifie alors et Var( X ) = σ2 / n E( X ) = µ i=1 Propriété la plus importante d’un estimateur = Var( ξ ) Résultat 3 « bon » estimateur : a une petite variance alors X « meilleur » estimateur : est sans biais et à variance minimum 6 - X i ~ N ( µ , σ2 ) Si les X i sont gaussiennes N ( µ , σ2 / n ) est gaussienne 6- 6 5 Bernard CLÉMENT, P h D Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie uniforme Loi de X POPULATION exponentielle gaussienne H is t o g r a m ( c h a p 0 6 . s t a 3 1 v * 3 0 0 0 0 c ) H is t o g r a m ( c h a p 0 6 . s t a 3 1 v * 3 0 0 0 0 c ) H is t o g r a m ( c h a p 0 6 . s t a 3 1 v * 3 0 0 0 0 c ) 8000 700 g a u s s ie n n e = 3 0 0 0 0 * 0 .1 7 1 5 * n o r m a l ( x ; - 0 . 0 0 1 8 ; 1 . 0 0 7 8 ) 2400 7000 600 2200 2000 1800 500 1600 400 300 No of obs n=1 No of obs 5000 No of obs Distribution de la moyenne échantillonnale et théorème central limite 6000 4000 3000 1400 1200 1000 800 600 2000 200 400 100 théorème central – limite 0 - 1 .7 3 1 8 - 1 .1 7 7 6 - 1 .4 5 4 7 - 0 .6 2 3 4 - 0 .9 0 0 5 - 0 .0 6 9 1 0 .4 8 5 1 - 0 .3 4 6 2 0 .2 0 8 0 1 .0 3 9 3 0 .7 6 2 2 u n if o r m e 7 . 21 8 4 6 .1 9 1 1 9 .2 7 3 0 8 .2 4 5 7 0 - 3 .9 0 9 5 1 1 .3 2 7 6 1 0 .3 0 0 3 - 1 .1 6 5 4 - 1 .8 5 1 4 0.206 6 1 . 57 8 7 - 0 .4 7 9 4 0.892 6 2 .9 5 0 7 2 .2 6 4 7 4 .3 2 2 7 3 .6 3 6 7 g a u s s ie n n e His to g r a m ( c h a p 0 6 .s t a 3 1 v *3 0 0 0 0 c ) no r m2 = 1 50 0 0*0 .10 3 2*n o r ma l( x ; - 0. 0 01 8 ; 0 .71 3 9) 10 00 1800 90 0 1600 80 0 600 1400 70 0 500 1200 400 60 0 No of obs No of obs No of obs n=2 1000 800 300 200 2) 10 0 0 - 0 .9 9 6 1 - 1 .1 7 7 3 - 1 .4 5 3 0 - 0 .6 2 6 0 - 0 .9 0 1 7 - 0 .0 7 4 7 0 .4 7 6 5 - 0 .3 5 0 4 0 .2 0 0 9 1 .0 2 7 8 0 .7 5 2 2 1 .5 7 9 1 0 .2 4 9 1 - 0 .3 7 3 5 1 .3 0 3 5 1 .4 9 4 4 0 .8 7 1 7 2 .7 3 9 6 3 . 98 4 8 2 .1 1 7 0 3 .3 6 2 2 5 .2 3 0 1 4 .6 0 7 4 0 - 2 .6 4 9 6 6 .4 7 5 3 5 .8 5 2 7 no rm2 H is to g r a m ( c h a p 0 6 .s ta 3 1 v *3 0 0 0 0 c ) e x p o 5 = 6 0 0 0 *0 .0 7 7 4 *n o r ma l( x ; 0 .0 0 3 1 ; 0 .4 4 5 5 ) H is to g r a m ( c h a p 0 6 .s ta 2 1 v * 3 0 0 0 0 c ) His to g r a m ( c h a p 0 6 .s t a 3 1 v *3 0 0 0 0 c ) 600 un if 5 = 6 0 00 * 0 .05 72 *n or m al ( x ; 7 .93 2 7E - 5 ; 0 .45 0 6) n o r m5 = 6 00 0* 0.0 67 2 *no rma l( x ; - 0.0 0 18 ; 0 . 4 48 9) 40 0 350 500 300 200 30 0 25 0 No of obs No of obs No of obs 35 0 400 250 300 150 20 0 15 0 200 i - 1 .8 2 3 7 - 0 .9 9 7 8 - 0 .1 7 1 9 0 . 65 4 1 1 .4 8 0 0 2 .3 0 5 9 - 2 .2 3 6 7 - 1 .4 1 0 7 - 0 .5 8 4 8 0.241 1 1 .0 6 7 0 1 .8 9 2 9 expo2 u n if 2 n=5 40 0 20 0 200 0 - 1 .7 2 8 6 50 0 30 0 400 100 100 10 0 100 50 50 0 - 1 .4 4 5 5 Var ( X i ) = σ2 - 0 .9 8 7 6 - 1 .2 1 6 5 Résultat 5 Si E( X i ) = µ , i = 1, 2 ,… , n alors X suit approximativement loi gaussienne N ( µ , σ2 / n ) - 0 .5 2 9 7 - 0 .7 5 8 7 - 0 .0 7 1 9 0 .3 8 6 0 - 0 .3 0 0 8 0 .1 5 7 0 0 .8 4 3 8 0 .6 1 4 9 0 - 0 .9 3 5 5 1 .3 0 1 7 - 0 .3 1 6 2 - 0 .6 2 5 9 1 .0 7 2 7 0 .3 0 3 0 0 .9 2 2 2 - 0 .0 0 6 6 0 .6 1 2 6 1 .5 4 1 4 1 .2 3 1 8 2 .1 6 0 6 1 .8 5 1 0 0 - 1 .6 7 8 2 2 .7 7 9 9 2 .4 7 0 3 - 1 .1 4 0 9 - 1 .4 0 9 6 - 0 .6 0 3 7 - 0 .8 7 2 3 - 0 .0 6 6 4 - 0 .3 3 5 0 ex po5 u n if 5 H is to g r a m ( c h a p 0 6 .s ta 2 1 v * 3 0 0 0 0 c ) u n if 1 5 = 2 0 0 0 * 0 .0 3 1 6 * n o r m a l( x ; 7 .9 3 2 7 E- 5 ; 0 .2 5 8 6 ) 1.008 1 0.739 5 1.545 4 1.276 7 no rm1 5 = 20 00*0 .03 61*n ormal(x ; -0. 001 8; 0 .25 86) 160 140 140 100 0.470 9 His togram (chap06.sta 31v *30000 c) e x p o 1 5 = 2 0 00 *0 .0 3 69 *n orm al( x ; 0 . 00 3 1 ; 0 .2 5 6 7 ) 120 0.202 2 no r m5 His to g r a m ( c h a p 0 6 .s ta 3 1 v *3 0 0 0 0 c ) 120 120 100 100 No of obs n = 15 No of obs 80 60 40 80 60 40 20 on peut écrire le résultat sous la forme équivalente _ X - µ_ suit approximativement une loi N ( 0, 1) No of obs Remarque : il n’y a aucune condition spécifique sur les lois des X - 2 .5 3 7 5 - 3 .2 2 3 5 H is t o g r a m ( c h a p 0 6 . s t a 3 1 v * 3 0 0 0 0 c ) 600 Alors Y suit approximativement une loi gaussienne N ( µY , σY avec µ Y = ∑ µ i et σY2 = ∑ σi2 80 60 40 20 20 0 - 0 .7 5 6 0 - 0 .5 0 3 5 - 0 .6 2 9 8 - 0 .2 5 1 0 - 0 .3 7 7 2 0 .0 0 1 6 0 .2 5 4 1 - 0 .1 2 4 7 0 .1 2 7 8 0 .5 0 6 6 0 .3 8 0 4 0 .7 5 9 2 0 - 0 .6 4 9 9 0 .6 3 2 9 -0 .3 5 4 8 -0 .5 0 2 3 u n if 1 5 -0 .0 5 9 8 - 0 .2 0 7 3 0 .2 3 5 3 0 .0 8 7 8 His to g r a m ( c h a p 0 6 .s ta 2 1 v *3 0 0 0 0 c ) 0 .5 3 0 3 0 .3 8 2 8 0 .8 2 5 4 0 .6 7 7 8 1 .1 2 0 4 0 -1.0046 0 .9 7 2 9 ex po 15 u n if 3 0 = 1 0 0 0 *0 .0 2 4 9 *n o r ma l( x ; 7 .9 3 2 7 E- 5 ; 0 .1 8 2 5 ) -0.7161 -0.8604 H is to g r a m ( c h a p 0 6 .s ta 3 1 v *3 0 0 0 0 c ) 70 -0.4275 -0.5718 -0.1389 -0.2832 0.1497 0.0054 0.4382 0.2940 0.7268 0.5825 His to g r a m ( c h a p 0 6 norm15 .s t a 3 1 v *3 0 0 0 0 c ) e x p o 3 0 = 1 0 00 *0 .0 2 42 *n or m al( x ; 0 . 00 3 1 ; 0 .1 8 1 6 ) no r m3 0 = 10 0 0*0 .02 3 8*n o r ma l( x ; - 0. 0 01 8 ; 0 .18 5 4) 60 60 60 σ/√n 50 50 40 40 40 No of obs No of obs 50 n = 30 30 20 6- 7 30 10 10 0 - 0 .6 3 7 8 - 0 .4 3 8 2 - 0 .5 3 8 0 - 0 .2 3 8 7 - 0 .3 3 8 4 - 0 .0 3 9 1 - 0 .1 3 8 9 0 .1 6 0 5 0 .0 6 0 7 u n if 3 0 Bernard CLÉMENT, P h D 0 .3 6 0 1 0 .2 6 0 3 0 .5 5 9 7 0 .4 5 9 9 30 20 20 10 Bernard CLÉMENT, P h D 5 .1 6 3 8 4 .1 3 6 5 2000 700 i = 1, 2, … , n 3 .1 0 9 2 2 .0 8 1 9 e x p o n e n t ie lle H is t o g r a m ( c h a p 0 6 . s t a 2 1 v * 3 0 0 0 0 c ) remarque 1 .0 5 4 6 0 .0 2 7 3 1 .5 9 3 5 1 .3 1 6 4 u n if 2 = 1 5 0 0 0 * 0 . 0 6 8 9 * n o rm a l( x ; 7 .9 3 2 7 E- 5 ; 0 .7 0 6 ) Soit Y = ∑ X i avec E( X i ) = µ i , Var ( X i ) = σi2 Si « n est assez grand » ( au moins 30 ) 200 0 - 1 .0 0 0 0 No of obs Résultat 4 : 1000 0 - 0 .5 1 4 5 - 0 .3 2 0 8 - 0 .4 1 7 6 - 0 .1 2 7 0 - 0 .2 2 3 9 0 .0 6 6 7 - 0 .0 3 0 2 0 .2 6 0 4 0 .1 6 3 6 0 .4 5 4 2 0 .3 5 7 3 0 .6 4 7 9 0 .5 5 1 0 0 - 0 .6 6 5 2 - 0 .4 7 5 0 - 0 .5 7 0 1 ex po30 MTH 2301 Méthodes statistiques en ingénierie (6-8) - 0 .2 8 4 8 - 0 .3 7 9 9 - 0 .0 9 4 6 - 0 .1 8 9 7 0.095 6 0.000 5 no rm3 0 0.285 8 0.190 7 8 0.476 0 0.380 9 MTH 2301 Méthodes statistiques en ingénierie Exemple 1 : MTH 2301 Méthodes statistiques en ingénierie approximation de la loi binomiale par une loi gaussienne ( voir chap. 5) Exemple 3 : La demande quotidienne d’énergie électrique ( KWh ) pour un logement est est un cas particulier de l’application du théorème central – limite. une variable de moyenne 200 et d’écart type 20. Soit D la demande totale d’énergie X = nombre de succès dans une suite de n essais de Bernoulli indépendants X i v. a. de Bernoulli associée au i -ème essai i = 1, 2,…, n 1 avec probabilité θ Xi = 0 avec probabilité 1 - θ E(Xi) = 0*(1-θ) + 1*θ =θ X = ∑ X i est une v. a binomiale b( n, θ ) On applique le résultat 4 : Donc X – n θ__ X suit √ n θ ( 1- θ ) solution : P ( D ≤ D 0 ) = 0.99 - θ____ Donc et et σ2 = 500 * 202 = 200 000 = ( 447.2 )2 Φ ( (D 0 - 100 000 ) / 447.2 ) ) = 0.99 Exemple 4 : la durée de vie X d’un composant électronique suit une loi exponentielle √ θ ( 1- θ ) / n X suit loi b( n, θ = 0.1) une loi gaussienne N ( µ , σ 2 ) D 0 = 100 000 + z 0.99 * 447.2 = 100 00 + 2.33 * 447.2 = 101 042 suit approximativement loi N ( 0, 1) de moyenne 100 heures P ( 0.05 ≤ X / n ≤ 0.15 ) = 0.95 ( * ) ( * ) s’écrit ou X i est la demande du logement i = 1, 2, …., 500 approximativement µ = 500 * 200 = 100 000 Var ( X i ) = θ ( 1 – θ ) Exemple 2 : dans un contrôle de la qualité en cours de réception, on doit prélever un échantillon de taille n dans un lot contenant 10% de non- conformes. Déterminer n pour que le nombre X d’articles non- conformes dans l’échantillon vérifie l’équation: solution D=∑Xi D suit approximativement loi N ( n θ , n θ ( 1 - θ ) ) X = électrique dans un arrondissement de 500 logements. Calculer une limite supérieure D 0 pour D qui ne serait pas dépassée avec probabilité 0.99 X suit approximativement loi N ( 0.1*n, 0.09*n ) Φ ( ( 0.15n – 0.1*n + 0.5 ) / 0.3 √ n ) ) - Φ ( ( 0.05n – n*0.1 - 0.5 ) / 0.3 √ n ) ) = 0.95 (a) Quelle est la probabilité que la durée moyenne X de 36 composants dépasse 125 heures (b) Combien de composants doit- on avoir fin que la différence entre X et 100 n’excède pas 10 avec une probabilité de 0.95 ? solution : si X suit une loi exponentielle l’écart type ( X ) = moyenne ( X ) = 100 ( chap. 5) alors X suit approximativement une loi N ( 100, 100 2 / 36 ) ( a ) P ( X > 125 ) = 1 – Φ ( ( 125 – 100) / (100 / 6 ) = 1 - Φ ( 1.5 ) = 1 - 0.933 = 0. 067 ( b ) P ( │ X - 100 │ < 10 ) = 0.95 alors 100 / √ n Φ ( ( 0.05n + 0.5 ) / 0.3 √ n ) ) = 0.975 alors ( 0.05n + 0.5 ) / 0.3 √ n ) ) = 1.96 n 2 -118.3n + 100 = 0 et P ( │ X - 100 │ < 2 Φ ( √ n / 10 ) - 1 = 0.95 n = 118 donne 10 __ ) = 0.95 100 / √ n n = 384 6- 9 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Estimation de la moyenne µ d’une population : méthode de l’intervalle de confiance Cas A : population gaussienne et variance σ soit X 1 , X 2, …, X n un échantillon de X 2 connue alors X ~ N(µ, σ ( X–µ ) /(σ /√n) P( -z1–α/2 ≤ ( X–µ ) /(σ /√n) ≤ z 1–α/2 ) = 1 - α alors 2) ~ N ( 0, 1 ) (*) 0.14 N ( 0, 1) : 0.12 0.10 GAUSS 1-α 0.06 gaussienne α/ 2 0.08 centrée – réduite 1 - α : coefficient 0.04 de confiance 0.02 0.00 -0.02 -2 0 2 4 6 8 10 -z1–α/2 On isole le paramètre µ 12 14 16 0 de l’équation ( √n ≤ 18 20 22 24 26 Z = ( X – µ ) / (σ / √ n ) z 1–α/2 U X - z 1–α/2 σ Bernard CLÉMENT, P h D 6 - 10 Bernard CLÉMENT, P h D *) µ Exemple 5 : supposons que la durée ( heures) de vie X d’ampoules électriques d’une certaine marque est une loi gaussienne de moyenne µ ( inconnue) et écart type de 100 h (a) Déterminer un intervalle de confiance avec coefficient de confiance de 0.95 pour µ si un échantillon de n = 20 ampoules a donné les durées de vie : 1076.2 - 989.2 - 1013.9 1152.5 - 1076.8 - …… 1028.7 - 946.2 - 1111.8 - 1060.5 de moyenne X = 1028.5 h (b) Refaire ( a ) avec une coefficient de confiance de 0.99 (c) Combien d’ampoules doit –on échantillonnées si on veut un intervalle de confiance à 0.95 de longueur égale à 30 ? 1028.5 - ( 1.96 * 100 / √ 20 ) ≤ µ ≤ 1028.5 + ( 1.96 * 100 ) / √ 20 ) Solution : (a) 1028.5 – 43.8 ≤ µ ≤ 1028.5 + 43.8 984.7 ≤ µ ≤ 1072.3 ( b ) avec un coefficient de confiance de 0.99 le percentile 1.96 change pour 2.576 et l’intervalle de confiance devient 970.9 ≤ µ ≤ 1086.1 (c) la longueur de l’intervalle en (a) est de 2*43.8 = 87.6 avec n = 20 on veut 2 * 1.96 * 100 / √ n = 30 donc n = 171 Détermination de la taille de l’échantillon : calcul de n pour obtenir l’intervalle de confiance de µ coefficient de confiance = 1 - α ( avec σ connu ) longueur de l’intervalle = 2∆ on connaît σ ≤ X + z 1–α/2 σ √n on spécifie : n 6 - 11 = (z 1–α/2 σ / ∆ ) 2 6 - 12 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Exemple 6 : suite de l’ex. 5 - Un deuxième échantillon de 20 ampoules a donné une vie moyenne de 981 h. L’intervalle de confiance à 0.95 est : 937.2 ≤ µ ≤ 1024.8 intervalles de confiance : échantillons 1-50 de 5 obs. 1250 Remarque : dans toute étude statistique on a toujours qu’un seul échantillon de taille n qui est prélevé. Toute décision à prendre repose sur cet échantillon uniquement. Dans l’exemple 6, on a prélevé un deuxième échantillon pour des fins d’illustration mais si c’était le cas réel, on aurait combiné les deux en un seul échantillon de taille 40. 1200 1150 Interprétation d’un intervalle de confiance 1100 Le coefficient de confiance se rapporte à la procédure à long terme : ( 1 - α ) 100% des intervalles calculés avec la formule génèrent des intervalles qui contiendront µ. On ne sait jamais si l’intervalle calculé avec l’échantillon observé contient µ mais notre degré de confiance est de ( 1 - α ) 100% qu’il fait partie de ceux qui contienne µ ( les ‘ bons ‘ ) 1050 µ =1000 1000 L’interprétation peut être comprise et illustrée seulement avec des données simulées provenant d’une population gaussienne dont la moyenne est connue : exemple 7 950 900 Exemple 7 : simulation de 100 échantillons de taille n = 5 provenant d’une population gaussienne µ = 1000 et 850 σ = 100 7 échantillons : # 14 – 23 – 25 – 49 – 71 – 73 – 79 ne contiennent pas 1000 800 #14 – 23 - 25 – 49 : intervalles excluant 1000 graphiques : page suivantes moy-de-5 750 6 - 13 Bernard CLÉMENT, P h D 6 - 14 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Définition d’ une loi de Student échantillons 51 à 100 : groupe de 5 obs 1250 Une variable aléatoire T dont la densité de probabilité est définie par f T ( t ) = c (ν ) ( 1 + t / <t<∞ s’appelle une variable de Student avec ν degrés de liberté , ν = 1, 2, 3,…., ∞ c (ν ) est une constante qui dépend de ν 2 1200 1150 1100 ν)-(ν+1)/2 -∞ remarque : une autre définition d’une v. a. de Student sera donnée plus loin dans ce chapitre Propriétés 1050 • densité symétrique p.r à 0 • E(T) =0 µ = 1000 1000 • Var ( T ) = ν / ( ν -2 ) 950 (ν>2) • si ν = ∞ la variable de 900 Student est une variable gaussienne centrée réduite 850 • si > 30 la loi de Student 800 750 est quasi identique à une loi gaussienne centrée réduite 71 – 73 - 79 moy-de-5 6 - 15 Bernard CLÉMENT, P h D 6 - 16 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie table des quantiles d’une loi de Student Résultat 6 l o i de S t u d e n t Soit Annexe H OTHM Alors T = tp,ν X = X - µ_ s/√n p. 535 ( W. Gossett) Var ( X i ) = σ2 E ( Xi ) = µ , Soit ∑Xi/n i = 1, 2 ,… , n S2 = ∑ ( X i – X ) 2 / ( n - 1 ) et suit une loi de Student avec ν = n – 1 degrés de liberté Remarque : la lettre T est généralement consacrée pour représenter la variable de cette loi : Cas B : population gaussienne et variance σ 2 quantile d’ordre p X ~ N(µ, σ2=?) inconnue intervalle de confiance de la moyenne loi Student Tν X - t 1 – α / 2, n - 1 s ≤ µ ≤ X + t 1 – α / 2, n - 1 s √n √n ν degrés de liberté P ( Tν ≤ t p , ν ) = p Exemple 8 : 6 observations de la durée de vie d’ampoules a donné 863.0 - 1016.2 Exemple : - 945.8 - 992.5 - 943.8 X = 961.3 P ( T5 ≤ 2.015 ) = 0.95 et - 1006.4 s = 57.0 Int. confiance à 0.90 pour µ : 961.3 ± 2.015 * 57 / √ 6 = ( 914.4 , 1008.2 ) 6 - 17 6 - 18 Bernard CLÉMENT, P h D Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Estimation de la moyenne µ d’une population : méthode de l’intervalle de confiance C : population quelconque et n Loi d’échantillonnage de la différence entre 2 moyennes avec variances connues au moins 30 0.14 0.14 X ~ N ( µX, σX2) 0.12 intervalle de confiance approximatif pour la moyenne 0.10 X - z1 – α / 2 s ≤ µ ≤ X + z1 – α / 2 s √n √n 0.10 σX GAUSS 0.08 0.08 0.06 0.02 0.02 0.00 0.00 Exemple 9 : la durée de vie de 50 ampoules électriques d’une certaine marque a donné Intervalle X = 1014 et s = 98.7 de confiance à 0.90 pour µ -0.02 -0.02 -2 0 2 4 6 8 10 12 µX 14 16 18 X = ∑ X i / n1 1014 ± 1.96 * 98.7 / √ 50 1014 ± 27.4 20 22 24 26 -2 0 2 4 échantillons indépendants moyennes Résultat 7 : ( a ) E ( X - Y ) = µX - µY ( 986.6 , 1041.4 ) 6 8 10 ( b ) Var ( X - Y ) = σX2 / n1 + σY 2 / n2 12 µY 14 16 18 20 22 24 U U X1, X2, … , Xn1 est σY 0.06 0.04 0.04 Remarque : la formule repose sur le théorème central - limite Y ~ N ( µY, σY2) 0.12 GAUSS Cas Y1, Y2, … , Yn2 Y = ∑ Y i / n2 vrai sans aucune hypothèse sur les lois ( c ) X - Y ~ N ( µX - µY , σX2 / n1 + σY2 / n2 ) ( d ) le résultat ( c ) est approximatif si n1 et n2 sont plus grands que 30 6 - 19 Bernard CLÉMENT, P h D 6 - 20 Bernard CLÉMENT, P h D 26 MTH 2301 Méthodes statistiques en ingénierie Cas D : intervalle de confiance - différence de 2 moyennes MTH 2301 Méthodes statistiques en ingénierie µX - µY Loi d’échantillonnage de la différence entre 2 moyennes avec variances inconnues égales variances connues 0.14 X ~ N ( µX, 0.10 0.12 σ2) pour la différence de vie ( heures ) moyenne de deux types ( X et Y) d’ampoules électriques à l’aide des X : solution n = 16 informations suivantes : σ = 128 0.08 σ 0.06 X = 1050 0.04 0.02 0.02 0.00 µX -0.02 -2 0 2 4 6 8 10 12 -0.02 14 16 18 20 22 26 -2 0 2 4 6 8 µY 10 12 14 16 18 20 SY2 = ∑ ( Y i – Y ) 2 / ( n2 - 1 ) variances [ ( n1 -1 ) SX2 + ( n2 – 1) SY2 ] / ( n1 + n2 -2) « pooled » les ampoules de type X durent elles ( en moyenne ) plus longtemps Résultat 8 : ( X - Y ) - ( µX - µY ) Sp √ 1/ n1 + 1 / n2 = T ~ Student avec n1 + n2 -2 ddl 6 - 21 Bernard CLÉMENT, P h D 6 - 22 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie intervalle de confiance - différence de 2 moyennes variances inconnues mais égales MTH 2301 Méthodes statistiques en ingénierie Résultat 9 : µ X - µY Exemple 11 : et la méthode nouvelle. On croit que la nouvelle méthode Cas F : Sp2 2 2 n1 = 10 X = 55 sX = 10 n2 = 12 Y = 40 sY = 7 = ( 9 x 10 + 11 x 7 ) / 20 = 8.48 ν = min ( n1-1, n2 -1) µX - µY : X - Y ± t 1 – α/2, ν [ sx2 / n1 + sY2 / n2 ] 0.5 à 95 % pour la différence de temps moyen d’assemblage entre les 2 méthodes. méthode nouvelle : = T ~ Student avec ν ddl intervalle de confiance - différence de 2 moyennes µX - µY variances inconnues et inégales ν = min ( n1-1, n2 -1) n’affecte pas sensiblement la variabilité. Déterminer un intervalle de confiance Y sont inconnues et inégales alors (méthode Hsu) on a modifié la séquence d’opération pour faire l’assemblage de données : X méthode actuelle : les variances √sX2 / n1 + sY2 / n2 plusieurs composants. Les données suivantes furent obtenues pour comparer la la méthode actuelle si ( X - Y ) - ( µX - µ Y ) µX - µY : X - Y ± T1 – α/2, n1 + n2 - 2 Sp [ 1/ n1 + 1/ n2 ] 0.5 solution : 24 Y = ∑ Yi / n2 moyennes SX2 = ∑ ( X i – X ) 2 / ( n1 - 1 ) que les ampoules de type Y ? Cas E : 22 U Y1, Y2, … , Yn2 échantillons indépendants X = ∑ Xi / n1 S p2 = 24 U X1, X2, … , Xn1 Y : n=9 σ = 81 Y = 970 selon la formule ci haut et la table de la gaussienne centrée réduite et z 0.975 = 1.96 σ 0.06 0.04 0.00 µX - µY : 1050 – 970 ± 1.96 ( 1282 / 16 + 812 / 9 )0.5 = 80 ± 82.1 = ( - 2.1, 162.9 ) question GAUSS 0.08 Exemple 10 : calculer un intervalle de confiance avec coefficient de confiance 0.95 Y ~ N ( µY, σ2) 0.10 GAUSS µX - µY : X - Y ± Z 1 – α /2 [σX2 / n1 + σY2 / n2 ] 0.14 0.12 0.5 Exemple 12 : OTHM ex. 6.25 p 195 comparaison de la force de tension de rupture ( psi x1000) de 2 types d’acier 2 données t 0.975, 20 = 2.08 acier X : n1 = 16 X = 74.6 sx2 = 3.5 acier Y : n2 = 13 Y = 70.2 sY2 = 19.2 intervalle de confiance à 90% µX - µY : ( 55 – 40 ) ± 2.08 * 8.48 ( 1 / 10 + 1 / 7 ) 0.5 = 15 ± 4.08 = (10.92, 19.08 ) ν = min ( 15, 12) = 12 µX - µY : ( 74.6 – 70.2 ) ± 1.78 ( 3.5 / 16 + 19.2 / 13 ) 0.5 intervalle de confiance à 99% question : la nouvelle méthode réduit- elle le temps moyen d’assemblage ? - - ν = min ( 15, 12) = 12 t 0.95, 12 = 1.78 = 4.4 ± 2.3 = ( 2.1, 6.7 ) t 0.995, 12 = 3.05 µX - µY : ( 74.6 – 70.2 ) ± 3.05 ( 3.5 / 16 + 19.2 / 13 ) 0.5 = 4.4 ± 4.0 = ( 0.4, 8.4 ) 6 - 23 Bernard CLÉMENT, P h D 6 - 24 Bernard CLÉMENT, P h D 26 MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Définition d’un loi du Khi-deux Une variable aléatoire χ2 Table des quantiles d’une loi Khi-deux dont la densité de probabilité est définie par f χ2 ( u ) = c( ν ) u ( ν / 2) - 1 exp ( - u / 2 ) Quantile de la loi Khi-deux 0 <u<∞ s’ appelle une variable khi-deux avec ν degrés de liberté (ddl), ν = 1, 2,3, …, ∞ ------------------------------------ c( ν ) est une constante qui dépend de ν OTHM annexe F Propriétés p. 531 • E ( χ2 ) = ν et Var ( χ2 ) = 2 ν Notation • si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl • la somme de variables Khi-deux indépendantes est une Khi-deux • si Z i ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Z i2 ~ Khi- deux • si X i ~ N ( µ, σ2 ) i = 1, 2, …, n alors ∑ [ (X – µ )/ σ] 2 avec n ddl ~ Khi- deux avec n ddl χ2 p, ν : quantile d’ordre p d’une variable χ ν avec ν degré de liberté P ( χ 2 ν ≤ Χ 2p, ν ) = p Exemple P ( χ210 ≤ 15.987 ) = 0.90 densité de probabilité loi khi-deux 6 -25 Bernard CLÉMENT, P h D 6 -26 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Définition d’une loi F(v1, v2) de Fisher-Snedecor Résultat 10 : soit X i i = 1, 2,…, n un échantillon aléatoire d’une population N( µ, σ2 ) Une variable aléatoire X dont la densité de probabilité f est définie par soit S 2 = 1 /( n – 1 ) ∑ ( X i – X ) 2 la variance échantillonnale alors (n-1) S 2 / σ2 = ∑ ( X i – X ) 2 / σ2 suit une loi Khi-deux avec (n – 1) ddl Résultat 11 : E ( S 2 ) = σ2 f X ( x) = c(ν1,ν2) x ( ν1 / 2 ) - 1 [ 1 + ( ν1/v2 )x ] - ( v1 + v2 ) /2 c’est - à- dire S2 est une estimation sans biais de σ2 0 <x<∞ est appelée une variable aléatoire distribuée selon une loi de Fisher-Snedecor avec v1 ddl au numérateur et v2 ddl au dénominateur; c(v1,v2) est une constante remarque: ce résultat est la justification du diviseur n – 1 employé dans la définition de S 2 Propriétés Cas G : intervalle de confiance pour σ2 soit X i Alors / coefficient de confiance = 1 - α • E ( F ) = v2 / ( v2 – 2 ) • si X1 suit une loi Khi-deux avec v1 ddl X2 suit une loi Khi-deux avec v2 ddl X1 et X2 sont indépendantes alors i = 1, 2,…, n un échantillon aléatoire d’une population N( µ, σ2 ) (n–1)s2 Χ2 ≤ σ2 ≤ 1- α /2, n-1 (n – 1 ) s 2 Χ2 α /2, n-1 ( X1 / v1 ) / ( X2 / v2 ) suit une loi F(v1,v2) • T2v = F (1, v) : le carré d’une loi de Student avec v ddl est une loi F(1,v) remarque : cette formule fournit un intervalle de confiance pour σ en prenant les racines carrées Exemple 13 : un échantillon de 20 ampoules électriques a donné une durée moyenne de 1014 et une variance échantillonnale de 625. Un intervalle de confiance pour σ2 et σ avec un coefficient de confiance de 95% est donné par 19 * 625 / 32.85 ≤ σ2 ≤ 19 * 625 / 8.91 361.49 ≤ σ2 19.01 ≤ σ ≤ 1332.77 ≤ 36.51 6 -27 Bernard CLÉMENT, P h D Loi de probabilité de Fisher-Snedecor Bernard CLÉMENT, P h D 6 -28 MTH 2301 Méthodes statistiques en ingénierie Quantiles d’une loi F de MTH 2301 Méthodes statistiques en ingénierie Fisher-Snedecor loi d’échantillonnage du quotient de 2 variances Annexe I - OTHM p. 536-545 0.14 0.14 0.12 : 0.10 σX 0.08 GAUSS F p, v1, v2 quantile d’ordre p d‘une variable de Fischer- Snedecor avec F v1 , v2 0.08 0.06 0.02 0.02 0.00 0.00 µX -0.02 -2 0 2 4 6 8 10 12 -0.02 14 16 18 20 22 24 -2 26 0 2 4 6 8 10 Exemple échantillons ≤ 5.25 ) = 0.90 ( SX2 Résultat 12 / σX2 ) / σY2) 18 20 22 24 SY2 = 1/( n2 – 1 ) ∑ ( Yi – Y )2 variances / (SY2 16 Y = ∑ Yi / n2 moyennes SX2 = 1/( n1 – 1 ) ∑ ( Xi – X )2 14 Y1, Y2 , … , Yn2 indépendants X = ∑ Xi / n1 12 µY U U X1, X2 , … , Xn1 P(F8,3 σY 0.06 0.04 0.04 v1 ddl au numérateur v2 ddl au dénominateur Y ~ N ( µY, σY2) 0.12 X ~ N ( µX, σX2) 0.10 GAUSS Notation suit une loi F n1-1 , n2-1 Remarque : ce résultat est une conséquence du résultat 10 6 -29 Bernard CLÉMENT, P h D 6 - 30 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Distribution d’échantillonnage de l’étendue R cas H : intervalle de confiance pour le quotient de 2 variances / coeff. conf. = 1 - α ( SX2 / SY2 ) Fα /2, n1 -1, n2 -1 ≤ σX2 / σY2 ≤ remarque : ( SX2/SY2 ) F1 – α /2, n1-1 , n2 -1 Résultat 13 : soit X i un échantillon de n observations d’une population N ( µ, σ2 ) R = max ( X i ) - min ( X i ) : étendue échantillonnale alors E(R)=d2σ et Var ( R ) = d 32 σ2 n 2 3 4 5 6 7 8 9 10 15 20 25 d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931 d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709 ce résultat fournit l’intervalle de confiance pour le quotient des écart types en prenant les racines carrées de l’inéquation table complète : OTHM annexe G p. 532 Exemple 14 : OTHM ex. 6.49 p. 209 échantillon X : n1 = 25 échantillon Y : n2 = 25 coefficient de confiance = 0.95 remarque: il n’est pas recommandé d’utiliser R pour estimer σ SX2 = 0.012 SY2 = 0.020 F 0.025 , 24 , 24 = 0.44 l’écart type s est préférable car il est plus précis (moins variable) F 0.975 , 24 , 24 = 2.27 Résultat 14 : application - cartes de contrôle de Shewhart ( chapitre 8 OTHM ) 0.60 x 0.44 ≤ σX2 / σY2 ≤ 0.6 x 2.27 0.26 ≤ σX2 / σY2 ≤ 1.36 0.51 ≤ σX / σY ≤ 1.17 (a) σ =R/d2 est une estimation sans biais de σ : ( b ) soit k groupes de n données, question : les variances ( ou les écart types ) sont – elles différentes ? Rj E ( R / d 2) = σ l’étendue du groupe j = 1, 2,..., k R= ∑ Rj/k l a moyenne des étendues σ =R/d2 est une estimation sans biais de σ fR 6 -31 Bernard CLÉMENT, P h D avec n > 10 Bernard CLÉMENT, P h D distribution d’échantillonnage de R : n fixé 0 E( R ) R 6 -32 26 MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Distribution d’échantillonnage de l’étendue S Intervalle de tolérance ( prédiction) pour une variable aléatoire X Résultat 15 : soit X i un échantillon de n observations d’une population N ( µ, σ2 ) S = [ (1 / ( n – 1 )) ∑ ( Xi – X ) 2 ] 0.5 : l’écart type échantillonnal alors E(S)=c4σ et p: σ n 2 3 4 5 6 7 8 9 10 15 20 25 c 4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990 c 5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144 table complète : OTHM annexe G p. 533 remarque : si n >= 10 c4 ≈ 1 a µ ( a ) σ = S / c 4 est une estimation sans biais de σ ( b ) soit k groupes de n données, : E( X ) = µ Var ( X ) = σ2 couverture X b déterminer a et b tel que : a X b P ( a ≤X≤ b ) = p ex. 0.95, 0.99 ( a, b ) : intervalle de tolérance (prédiction) ( bilatéral ) pour X Résultat 16 : application - cartes de contrôle de Shewhart ( chapitre 8 OTHM ) Cas 1 : N( µ, σ2) µ, σ connus E ( S /c 4 ) = σ S j l’écart type du groupe j = 1, 2,..., k a = µ - z (1 - p) / 2 σ b = µ + z (1 - p) / 2 σ remarque : on est certain à 100% de la couverture p S = ∑ S j / k la moyenne des écart types σ = S / c 4 est une estimation sans biais de σ fS X : distribution quelconque N (µ, σ2) Var ( S ) = c 52 σ2 Cas 2 : N( µ, σ2) µ, σ inconnus a = x - K p, n s b = x + K p, n s où x et s proviennent des données x1, x2, …, x n distribution d’échantillonnage de S : n fixé K dépend de n et p et d’un coefficient de confiance 1- α voir annexe J-1 S 0 E( S ) OTHM p. 546 Remarque : - on peut aussi construire des intervalles unilatéral - l’annexe J – 2 ( OTHM p. 547 ) 6 -33 Bernard CLÉMENT, P h D - ne pas confondre la valeur de p et celle de 1 – α ; elles ne sont pas reliées 6 -34 Bernard CLÉMENT, P h D MTH 2301 Méthodes statistiques en ingénierie MTH 2301 Méthodes statistiques en ingénierie Exemple 15 : ex 6.26 OTHM p. 196 intervalle de tolérance avec couverture p = 0.95 et 0.99 n = 12 x = 1.50 s = 0.10 tableau J-1 coefficient de confiance 0.90 0.95 couverture p 0.95 0.99 0.95 0.99 K p, ,n 2.863 3.758 3.162 4.150 intervalle a 1.21 1.12 1.18 1.085 b 1.79 1.88 1.82 1.915 Annexe J-1 Tableau des Constantes K p = couverture 1–α= coefficient Cas 3 : aucune hypothèse sur la forme de la distribution de X de confiance soit x1, x2, …, x n ; a = min ( X i ) b = max ( X i ) alors (a, b) est un intervalle de tolérance (bilatéral) de couverture p avec un coefficient de confiance = 1 – α = 1 – n p n-1(1- p) - p n ( *) remarque : - l’équation ( ) peut être employée avec n et p spécifiées * - trouver n si on spécifie p et 1 - α , n = n( p,1 – α ) annexe K-1 (p. 548 OTHM) Exemple 16 : exemple 6. 26 p. 197 OTHM n = 100 couverture p = 0.95 b = X max = 0.5069 1 – α = 1 – 100 * 0.95 99( 1- 0.95) – 0.95 100 = 0.96 Remarque : on peut aussi construire des intervalles unilatéral voir l’annexe K – 2 ( p. 549 OTHM ) 6 -35 Bernard CLÉMENT, P h D a = X min = 0.5018 Bernard CLÉMENT, P h D 6 -36