STATISTIQUES Estimation d’une moyenne Sept.-Nov.2010 Bruno Depay Rappels du cours précédent Variables : – – Mesure de la tendance centrale : – Qualitatives (modalités) Quantitatives Moyenne, médiane Mesure de la dispersion : – – Étendue, quartile, distance interquartile Variance, écart-type Rappels du cours précédent Représentations Variable qualitative (fréquence des modalités) – – Diagramme à barres Diagramme circulaire Variable quantitative – – Histogrammes Boîte à moustaches Rappels : Loi normale N(µ,σ) Moyenne de X = µ Variance de X = σ2 95% des valeurs de X sont dans [µ - 1.96σ; µ + 1.96σ] Estimation d’une moyenne Problème : Comment passer d’un échantillon à l’ensemble de la population ? Définitions : rappels Population : ensemble des individus (objets de l’étude) auxquels on s’intéresse. N = taille de la population Échantillon : Une partie de la population n = taille de l ’échantillon Échantillon représentatif : - Chaque individu de la population a exactement la même probabilité d’appartenir à l ’échantillon. - La taille n de l’échantillon est suffisamment élevée. Elle dépend de l’homogénéité de la population et de la précision souhaitée. Définitions Moyenne d’une population : µ Moyenne d’un échantillon : x Écart type d’une population : σ Écart type d’un échantillon : s Attention ! Pour un échantillon : n 1 2 s2 = ( x − x ) ∑ i n − 1 i =1 Exemple d’étude : le cas Rola-Cola Bowerman & O’Connell (1984) Enquête : test de goût (40 consommateurs) : Q1 : Quelle boisson préférez-vous ? Rola-Cola Koka-Cola Q2 : Avez-vous déjà acheté Rola-Cola ? Oui Non Q3 : « J’aime mes boissons au cola sucrées » D’accord Je ne suis pas sûr Pas d’accord Q4 : Combien de litres de boisson au Cola votre famille at-elle consommés au cours du mois dernier ? N° de l'interviewé Boisson préférée Achat préalable Go ût pour le sucre Consommation de boisson au cola 1 koka-cola non D'accord 4 2 rola-cola oui Je ne suis pas sûr 8 3 koka-cola non Pas d'accord 2 4 rola-cola oui Je ne suis pas sûr 10 5 rola-cola non D'accord 7 6 rola-cola oui Pas d'accord 6 7 koka-cola non D'accord 4 8 rola-cola non D'accord 3 9 koka-cola non Je ne suis pas sûr 3 10 rola-cola non D'accord 5 11 rola-cola oui Je ne suis pas sûr 7 12 rola-cola oui Pas d'accord 13 13 rola-cola oui D'accord 6 14 koka-cola non D'accord 2 15 koka-cola non Pas d'accord 7 16 rola-cola oui Je ne suis pas sûr 9 17 koka-cola non Pas d'accord 1 18 rola-cola oui D'accord 5 19 rola-cola non Je ne suis pas sûr 4 20 rola-cola non Je ne suis pas sûr 12 21 koka-cola non D'accord 4 22 rola-cola oui Pas d'accord 9 23 rola-cola oui Pas d'accord 3 24 koka-cola non Pas d'accord 2 25 koka-cola non Je ne suis pas sûr 5 26 rola-cola oui D'accord 7 27 koka-cola non D'accord 7 28 rola-cola oui Je ne suis pas sûr 8 29 rola-cola oui Pas d'accord 6 30 koka-cola non Pas d'accord 3 31 koka-cola oui Je ne suis pas sûr 10 32 rola-cola oui D'accord 8 33 koka-cola oui Je ne suis pas sûr 4 34 rola-cola non Je ne suis pas sûr 5 35 rola-cola oui Pas d'accord 3 36 koka-cola non D'accord 11 37 rola-cola oui Pas d'accord 9 38 rola-cola non D'accord 6 39 koka-cola non Pas d'accord 2 40 rola-cola oui Je ne suis pas sûr 5 Description d’une variable qualitative Tri à plat des 3 premières questions : Boisson préférée Valid koka-cola rola-cola Total Frequency 16 24 40 Percent 40,0 60,0 100,0 Valid Percent 40,0 60,0 100,0 Cumulative Percent 40,0 100,0 Achat préalable Valid non oui Total Frequency 21 19 40 Percent 52,5 47,5 100,0 Valid Percent 52,5 47,5 100,0 Cumulative Percent 52,5 100,0 Comment visualiser ces résultats ? Goût pour le sucre Valid D'accord Je ne suis pas sûr Pas d'accord Total Frequency 14 13 13 40 Percent 35,0 32,5 32,5 100,0 Valid Percent 35,0 32,5 32,5 100,0 Cumulative Percent 35,0 67,5 100,0 Variable quantitative : consommation Descriptive Statistics N Minimum Maximum Mean Std. Deviation Variance consommation de boisson au cola 40 1 13 5.88 2.97 8.830 Statistics consommation de boisson au cola Percentiles 25 3.50 50 5.50 75 8.00 Rmq : écart type ≈ ¼ étendue (W/4) Représentations graphiques Précision de l’estimation Quel est l’ordre de grandeur de l’écart entre et µ auquel on peut s’attendre ? x Estimateur X est une variable quelconque X n est la moyenne d’un échantillon de taille n C’ est une fonction de tous les échantillons de taille n C’est un estimateur sans biais de la moyenne µ Biais d’un estimateur Tireur n°1 Tireur n°2 Espérance des tirs Espérance des tirs Éloignement de l’espérance des tirs par rapport à la cible = BIAIS Théorème central limite Lorsque n est suffisamment grand (n>30), alors X n suit une loi normale de moyenne µ et d’écart type σ n (σ est l’écart type de X) Donc il y a 95% de chance pour que les valeurs de X n (incluant x ) soient dans l’intervalle : σ σ ; µ + 1,96 µ − 1,96 n n Ce qui signifie aussi qu’il y a 95% de chance pour que les valeurs de µ soient dans l’intervalle : σ σ ; x + 1,96 x − 1,96 n n Problème ? Cet intervalle dépend de σ, qui est inconnu ! On souhaite utiliser l’estimateur suivant de σ : 1 n 2 ( x − x ) ∑ i i =1 n Problème ? Mais on montre que cet estimateur a un biais : son espérance n’est pas σ mais : Cette valeur dépend de n. n −1 σ n Problème ? On corrige donc le biais en utilisant l’estimateur : 1 n 2 s= ( x − x ) ∑ i i =1 n −1 Le théorème central limite ne s’applique plus. Les « s » tendent vers une loi qui « ressemble » à la loi normale, mais qui dépend de n. Loi de Student Intervalle de confiance de la moyenne µ au niveau 1- α Il y a (1-α)×100 chances sur 100 pour que l’intervalle s s [ x − t α (n − 1) , x + t α (n − 1) ] 1− 1− n n 2 2 contienne µ, où t 1− α 2 Précision de l’estimation de µ (n − 1) est le fractile d ’ordre 1 − α 2 de la loi de Student à n-1 degrés de liberté. La formule est exacte si X suit une loi normale. Sinon, c’est une bonne approximation dès que n ≥ 30. Fractile de la loi de Student Loi de Student à 39 degrés de liberté .5 Trouver (cf. table ) : - t0.975(39) = - t0.975(∞) = .4 Loi t(n-1) .3 .2 f(t) .1 α/2 0.0 -5 t -4 -3 -2 -1 0 1 t 1− 2 α ( n − 1) 2 3 4 = 5 α fractile d'ordre 1 − d'une loi de 2 Student à n-1 degrés de liberté Ordre : 1-α/2 Fractiles de la loi de Student Degré de liberté : n-1 Application : On choisit le plus grand des deux fractiles pour être « sûr » de l’intervalle. Il y a 95% de chance pour que la moyenne de la consommation au niveau de la population soit dans l’intervalle : [4,93; 6,83] One-Sample Test Test Value = 0 t Consommation de boisson au cola 12,504 df 39 Sig. (2-tailed) Mean Difference ,000 5,875 95% Confidence Interval of the Difference Lower Upper 4,92 6,83 Précision de l’estimation de µ par x au degré de confiance 1 - α (avec α% de chance d’erreur) La quantité s t α (n − 1) 1− n 2 est la précision de l’estimation de µ par x au degré de confiance 1 - α (avec α% d’erreur). La précision est la demi-largeur de l’intervalle de confiance. Précision de l’estimation x = estimation de la consommation Être plus précis ? Augmenter la taille de l’échantillon ? Oui, mais attention : pour augmenter la précision par 2, il faut multiplier n par 4 Augmenter le risque d’erreur (α plus grand) Comparaison d’intervalles de confiance Rola-Cola souhaite s’associer à un fabricant de chips pour une campagne de publicité, car il affirme que les gens qui préfèrent le Rola-Cola mangent plus de chips que ceux qui préfèrent le Koka-cola. Dans le sondage on pose donc une question supplémentaire : « Combien votre famille a-t-elle consommé de paquets de chips dans le mois ? » Interprétation des résultats Si les intervalles de confiance ne se chevauchent pas, la différence des moyennes est significative. Si les intervalles de confiance se chevauchent, la différence n’est pas significative. Interprétation graphique des intervalles de confiance La consommation de boisson ne dépend pas de la marque préférée… Interprétation graphique des intervalles de confiance … mais les buveurs de Rola-cola mangent plus de chips. Autre exemple d’interprétation graphique des intervalles de confiance La consommation de boisson ne dépend pas du goût pour le sucre Problème En conservant un niveau de confiance de 1 - α on veut maintenant obtenir une précision c. On cherche la taille n de l’échantillon qui permettra d’avoir cette précision. n = taille de l’échantillon à définir s = futur écart-type observé Problème : Trouver n tel que s t α (n − 1) =c 1− n 2 Solution approchée On remplace dans la formule s t α (n − 1) =c 1− n 2 s par la dernière estimation disponible et t 1− t ( ∞ ) ( n − 1 ) α par α 1− 2 2 Ce qu’il faut retenir Population Echantillon N n Taille Moyenne 1 µ= N Ecart type 1 N σ= ∑ N N i =1 xi 2 ( x − µ ) ∑ i i =1 1 n x = ∑i =1 xi n s= 1 n 2 ( x − x ) ∑ i n − 1 i =1 Intervalle de confiance s s [ x − t α (n − 1) ; x + t α (n − 1) ] 1− 1− n n 2 2 Il y a (1-α)% de chance pour que la moyenne µ soit dans cet intervalle. Pour être précis il faut n ≥ 30 (sauf si la variable étudiée suit une loi normale). Intervalle de confiance Comparaison : les résultats sont significatifs si les intervalles de confiance ne se chevauchent pas. Savoir définir la taille d’un échantillon pour obtenir la précision souhaitée Prochain cours Mercredi 6 octobre Exercices d’application