Description et estimation Étude d’une variable numérique, Étude d’une moyenne 1 Cas Rola-Cola Les données n = 40 personnes boisson préférée _________ achat préalable _________ goût pour le sucre ____________ consommation de boisson au cola ____________ consommation de chips ____________ 2 1 2 1 1 1 2 2 1 2 1 2 1 2 1 2 3 2 1 3 1 4 8 2 10 7 6 4 2 11 1 11 5 7 4 5 3 11 9 6 2 5 5 1 9 11 8 0 7 . . . 1 1 2 1 1 2 1 2 1 2 1 2 2 1 2 3 1 3 1 3 2 Boisson préférée 1 = Rola-Cola 2 = Koka-Cola Achat préalable de Rola-Cola 1 = oui 2 = non Goût Sucre 1 = oui 2= indifférent 3 = non 2 Définitions Population : Ensemble des individus (objets de l’étude) auxquels on s’intéresse. N = Taille de la population Échantillon : Une partie de la population n = Taille de l ’échantillon Échantillon représentatif : - Chaque individu de la population a exactement la même probabilité d’appartenir à l ’échantillon. La taille n de l’échantillon est suffisamment élevée. Elle dépend de l’homogénéité de la population et de la précision souhaitée. 3 Étude d’une variable numérique X Une variable numérique X prend des valeurs x1,…, xi,…, xN sur une population et x1,…, xi,…, xn sur un échantillon. Elle est résumée par des statistiques de tendance centrale (moyenne, médiane) et de dispersion (variance, écart-type). La dispersion de X est visualisée par la boîte-àmoustache et l’histogramme. 4 Moyenne et écart-type Population N 1 N xi N i 1 Effectif Moyenne Echantillon n 1 n x xi n i 1 estimation de μ Variance 1 N 2 N ( xi ) i 1 2 1 n 2 s ( x x ) i n 1 i 1 2 estimation de σ 2 Écart-type 2 s s2 5 Commentaire 1) Plus la taille n de l’échantillon est grande, alors plus les chances que x soit proche de sont élevées. 2) Plus l’écart-type (s !!!) est petit, alors plus les chances que x soit proche de sont élevées. 6 Rola-Cola : Résultats statistiques Descriptive Statistics N Minimum Maximum Mean Std. Deviation Variance s consommation de boisson au cola c 40 P 2 5 1 7 13 5.88 2.97 8.830 7 Propriétés des estimations de et 2 X * un) (u1,…, Ensemble de tous les échantillons possibles 1 n x i 1 x i n * (x1,…, xn) S2 E( X) Moyenne de X E(S2 ) Moyenne de S2 2 s2 1 n 2 (x x) i n 1 i 1 X et S2 sont des estimateurs sans biais de et 2 8 Médiane M La médiane M partage l’échantillon ordonné x1 x2 xn en deux parties égales x1 … x20 x21 M … x40 x20 x21 2 9 Échantillon Rola-Cola ordonné NUMÉRO ________ Consommation de boisson au cola ____________ NUMÉRO ________ Consommation de boisson au cola ____________ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 6 6 6 6 7 7 7 7 7 8 8 8 9 9 9 10 10 11 12 13 10 Quartiles Q1, Q2, Q3 Les quartiles Q1, Q2, Q3 partagent l’échantillon ordonné en quatre parties égales x1 … x10 x11 … x20 25% x31 … x40 Q3 Q2 = M Q1 25% x21 … x30 25% 25% 11 Rola-Cola : Boîte-à-Moustache Consommation de boissons au cola Médiane Q1 Q3 Minimum Maximum Q4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 12 Détection des observations atypiques (Outliers) La longueur de chaque moustache doit être inférieure à 16 12 14 1.5(Q3 Q1 ) 12 10 8 6 Exemple : 4 2 Max = 13 (Obs n°12) remplacé par Max = 15 0 Consommation de boisson au cola 13 Rola-Cola : Boîte-à-moustache multiple 14 consommation de boisson au cola 12 10 8 6 4 2 0 N= 14 13 13 d'acc or d indifferent pas d'ac cord goût pour le sucre La consommation de chips dépend de la boisson préférée. La consommation de boissons au cola ne semble pas dépendre pas du goût pour le sucre. 14 Rola-Cola: Histogramme 12 10 10 9 8 8 6 5 5 4 2 Std. Dev = 2.97 2 Mean = 6 1 0 2 4 6 8 10 12 N = 40.00 14 c onsommati on de bois son au c ola 15 Rola-Cola : Graphique des histogrammes [Population Pyramide] La consommation de chips dépend de la boisson préférée. La consommation de boissons au cola ne dépend pas du goût pour le sucre. 16 Rola-Cola : Graphique des histogrammes [Histogram / Panel by rows] La consommation de chips dépend de la boisson préférée. La consommation de boissons au cola ne dépend pas du goût pour le sucre. 17 Loi normale (ou de Laplace-Gauss) 18 LAPLACE à Beaumont-en-Auge Loi normale (ou de Laplace-Gauss) 20 Loi normale N(,) Une variable aléatoire X suit une loi normale N(, ) si, pour toute valeur de x, Sim ulati on d'une loi norm al e N(6,3) 3000 2000 x Prob(X x ) 1 2 ( t ) 2 2 e 2 dt 1000 Std. Dev = 3.00 Résultats : N = 20736.00 0 .0 17 .0 15 .0 13 .0 11 0 9. x 0 7. 0 5. 0 3. 0 1. .0 -1 .0 -3 .0 -5 - Moyenne de X = - Variance de X = 2 - 95% des valeurs de X sont comprises entre - 1.96 et + 1.96 Mean = 6.0 X 21 Exercice 1 Soit X la durée du trajet Paris-HEC à 7 heures du matin. On suppose que X suit une loi normale N(,). En général, la durée du trajet est comprise entre 30 et 50 minutes. Déterminer la moyenne et l’écart-type . 23 Précision de l’estimation Quel est l’ordre de grandeur de l’écart entre x et auquel on peut s’attendre ? Quelle est la précision de l’estimation de la moyenne de la population à l’aide de la moyenne empirique x ? 24 Un résultat très utile X x * xn) (x1,…, * un) (u1,…, s2 S2 Ensemble de tous les échantillons possibles T X S/ n t x s/ n 25 Loi de Student Si X N(, ) alors : X T S/ n suit une loi de Student à n-1 degrés de liberté [notée t(n-1)]. Gosset (1876-1937) invented the t -test to handle small samples for quality control in brewing while working at Guiness in Dublin. He wrote under the name "Student". 26 Exercice 2 Soit X la consommation de boisson au cola. La population étudiée est disponible dans le fichier « rola-cola population.sav » Visualiser l’histogramme et la loi normale associée à cette population. On suppose que X suit une loi normale N(,). Donner les valeurs de et . Tirer un échantillon de taille 40 : Indiquer SET SEED=RANDOM pour obtenir un échantillon différent à chaque tirage. Calculer la moyenne et l’écart-type de l’échantillon et la statistique t. Fractile de la loi de Student Loi de Student à 39 degrés de li berté .5 Calculer (Table 4) : - t0.975(39) = - t0.975() = .4 1- .3 Loi t(n-1) t (n 1) N (0,1) lorsque n .2 f(t) .1 0.0 -5 t -4 -3 -2 -1 0 1 2 t1 (n 1) 3 4 = 5 fractile d'ordre 1 d'une loi de Student à n-1 degrés de liberté 28 Fractiles de la loi de Student Intervalle de confiance de la moyenne au niveau 1- Il y a (1-)100 chances sur 100 pour que l’intervalle s s [ x t (n 1) , x t (n 1) ] 1 1 n n 2 2 contienne , où t 1 Précision de l’estimation de au niveau 1- (n 1) est le fractile d’ordre 1 2 de la loi de Student à n-1 degrés de liberté. 2 La formule est exacte si X suit une loi normale. Sinon, c’est une bonne approximation dès que n 30. 30 Rola-Cola : Consommation de boissons au cola De scripti ves consommation de boisson au cola Mean 95% Confidence Int erval for Mean 5% Trimmed Mean Median Variance St d. Deviation Minimum Maximum Range Int erquartile Range Sk ewness Kurtos is Lower Bound Upper Bound St atis tic 5. 88 4. 92 St d. Error .47 6. 83 5. 75 5. 50 8. 830 2. 97 1 13 12 4. 75 .504 -.375 .374 .733 31 Précision de l’estimation de par au degré de confiance 1 - x La quantité s t (n 1) 1 n 2 est la précision de l’estimation de par au degré de confiance 1 - . x La précision est la demi-largeur de l’intervalle de confiance. 32 Taille de l’échantillon permettant d’obtenir une précision souhaitée c au niveau de confiance 1 - n = taille de l’échantillon à définir s = futur écart-type observé Problème : Trouver n tel que s t (n 1) c 1 n 2 33 Solution approchée On remplace dans la formule s t (n 1) c 1 n 2 s par la dernière estimation disponible et t ( n 1) 1 2 par t ( ) 1 2 . 34 Rola-Cola : Graphique des intervalles de confiance 9 95% CI consommation de boisson au cola 10 8 6 4 2 0 N= 8 7 6 5 4 3 2 24 16 rola- cola koka-cola bois s on préférée La consommation de chips dépend de la boisson préférée. N= 14 13 13 d'acc or d indifferent pas d'ac cord goût pour le sucre La consommation de boissons au cola ne dépend pas du goût pour le sucre. 35