3.Estimation d`une moyenne

publicité
STATISTIQUES
Estimation d’une moyenne
Sept.-Nov.2010
Bruno Depay
Rappels du cours précédent
Variables :
–
–
Mesure de la tendance centrale :
–
Qualitatives (modalités)
Quantitatives
Moyenne, médiane
Mesure de la dispersion :
–
–
Étendue, quartile, distance interquartile
Variance, écart-type
Rappels du cours précédent
Représentations
Variable qualitative (fréquence des modalités)
–
–
Diagramme à barres
Diagramme circulaire
Variable quantitative
–
–
Histogrammes
Boîte à moustaches
Rappels : Loi normale N(µ,σ)
Moyenne de X = µ
Variance de X = σ2
95% des valeurs de X sont dans
[µ - 1.96σ; µ + 1.96σ]
Estimation d’une moyenne
Problème :
Comment passer d’un échantillon à l’ensemble
de la population ?
Définitions : rappels
Population : ensemble des individus (objets de
l’étude) auxquels on s’intéresse.
N = taille de la population
Échantillon : Une partie de la population
n = taille de l ’échantillon
Échantillon représentatif :
- Chaque individu de la population a exactement la
même probabilité d’appartenir à l ’échantillon.
- La taille n de l’échantillon est suffisamment élevée.
Elle dépend de l’homogénéité de la population et de
la précision souhaitée.
Définitions
Moyenne d’une population : µ
Moyenne d’un échantillon : x
Écart type d’une population : σ
Écart type d’un échantillon : s
Attention ! Pour un échantillon :
n
1
2
s2 =
(
x
−
x
)
∑
i
n − 1 i =1
Exemple d’étude : le cas Rola-Cola
Bowerman & O’Connell (1984)
Enquête : test de goût (40 consommateurs) :
Q1 : Quelle boisson préférez-vous ?
Rola-Cola
Koka-Cola
Q2 : Avez-vous déjà acheté Rola-Cola ?
Oui
Non
Q3 : « J’aime mes boissons au cola sucrées »
D’accord
Je ne suis pas sûr
Pas d’accord
Q4 : Combien de litres de boisson au Cola votre famille at-elle consommés au cours du mois dernier ?
N° de l'interviewé Boisson préférée Achat préalable Go ût pour le sucre Consommation de boisson au cola
1
koka-cola
non
D'accord
4
2
rola-cola
oui
Je ne suis pas sûr
8
3
koka-cola
non
Pas d'accord
2
4
rola-cola
oui
Je ne suis pas sûr
10
5
rola-cola
non
D'accord
7
6
rola-cola
oui
Pas d'accord
6
7
koka-cola
non
D'accord
4
8
rola-cola
non
D'accord
3
9
koka-cola
non
Je ne suis pas sûr
3
10
rola-cola
non
D'accord
5
11
rola-cola
oui
Je ne suis pas sûr
7
12
rola-cola
oui
Pas d'accord
13
13
rola-cola
oui
D'accord
6
14
koka-cola
non
D'accord
2
15
koka-cola
non
Pas d'accord
7
16
rola-cola
oui
Je ne suis pas sûr
9
17
koka-cola
non
Pas d'accord
1
18
rola-cola
oui
D'accord
5
19
rola-cola
non
Je ne suis pas sûr
4
20
rola-cola
non
Je ne suis pas sûr
12
21
koka-cola
non
D'accord
4
22
rola-cola
oui
Pas d'accord
9
23
rola-cola
oui
Pas d'accord
3
24
koka-cola
non
Pas d'accord
2
25
koka-cola
non
Je ne suis pas sûr
5
26
rola-cola
oui
D'accord
7
27
koka-cola
non
D'accord
7
28
rola-cola
oui
Je ne suis pas sûr
8
29
rola-cola
oui
Pas d'accord
6
30
koka-cola
non
Pas d'accord
3
31
koka-cola
oui
Je ne suis pas sûr
10
32
rola-cola
oui
D'accord
8
33
koka-cola
oui
Je ne suis pas sûr
4
34
rola-cola
non
Je ne suis pas sûr
5
35
rola-cola
oui
Pas d'accord
3
36
koka-cola
non
D'accord
11
37
rola-cola
oui
Pas d'accord
9
38
rola-cola
non
D'accord
6
39
koka-cola
non
Pas d'accord
2
40
rola-cola
oui
Je ne suis pas sûr
5
Description d’une variable qualitative
Tri à plat des 3 premières questions :
Boisson préférée
Valid
koka-cola
rola-cola
Total
Frequency
16
24
40
Percent
40,0
60,0
100,0
Valid Percent
40,0
60,0
100,0
Cumulative
Percent
40,0
100,0
Achat préalable
Valid
non
oui
Total
Frequency
21
19
40
Percent
52,5
47,5
100,0
Valid Percent
52,5
47,5
100,0
Cumulative
Percent
52,5
100,0
Comment
visualiser ces
résultats ?
Goût pour le sucre
Valid
D'accord
Je ne suis pas sûr
Pas d'accord
Total
Frequency
14
13
13
40
Percent
35,0
32,5
32,5
100,0
Valid Percent
35,0
32,5
32,5
100,0
Cumulative
Percent
35,0
67,5
100,0
Variable quantitative : consommation
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
Variance
consommation de
boisson au cola
40
1
13
5.88
2.97
8.830
Statistics
consommation de boisson au cola
Percentiles
25
3.50
50
5.50
75
8.00
Rmq : écart type ≈ ¼ étendue (W/4)
Représentations graphiques
Précision de l’estimation
Quel est l’ordre de grandeur de l’écart entre
et µ auquel on peut s’attendre ?
x
Estimateur
X est une variable quelconque
X n est la moyenne d’un échantillon de taille n
C’ est une fonction de tous les échantillons de
taille n
C’est un estimateur sans biais de la moyenne µ
Biais d’un estimateur
Tireur n°1
Tireur n°2
Espérance des tirs
Espérance des tirs
Éloignement de l’espérance des
tirs par rapport à la cible = BIAIS
Théorème central limite
Lorsque n est suffisamment grand (n>30),
alors X n suit une loi normale de moyenne µ et
d’écart type
σ
n
(σ est l’écart type de X)
Donc il y a 95% de chance pour que les valeurs de
X n (incluant x ) soient dans l’intervalle :

σ
σ 
; µ + 1,96
 µ − 1,96

n
n

Ce qui signifie aussi qu’il y a 95% de chance
pour que les valeurs de µ soient dans l’intervalle :

σ
σ 
; x + 1,96
 x − 1,96

n
n

Problème ?
Cet intervalle dépend de σ, qui est inconnu !
On souhaite utiliser l’estimateur suivant de σ :
1 n
2
(
x
−
x
)
∑
i
i =1
n
Problème ?
Mais on montre que cet estimateur a un biais :
son espérance n’est pas σ mais :
Cette valeur dépend de n.
n −1
σ
n
Problème ?
On corrige donc le biais en utilisant l’estimateur :
1
n
2
s=
(
x
−
x
)
∑
i
i =1
n −1
Le théorème central limite ne s’applique plus.
Les « s » tendent vers une loi qui « ressemble » à la
loi normale, mais qui dépend de n.
Loi de Student
Intervalle de confiance de la moyenne µ
au niveau 1- α
Il y a (1-α)×100 chances sur 100 pour que l’intervalle
s
s
[ x − t α (n − 1)
, x + t α (n − 1)
]
1−
1−
n
n
2
2
contienne µ, où t
1−
α
2
Précision de
l’estimation
de µ
(n − 1) est le fractile d ’ordre 1 −
α
2
de la loi de Student à n-1 degrés de liberté.
La formule est exacte si X suit une loi normale.
Sinon, c’est une bonne approximation dès que n ≥ 30.
Fractile de la loi de Student
Loi de Student à 39 degrés de liberté
.5
Trouver (cf. table ) :
- t0.975(39) =
- t0.975(∞) =
.4
Loi t(n-1)
.3
.2
f(t)
.1
α/2
0.0
-5
t
-4
-3
-2
-1
0
1
t
1−
2
α ( n − 1)
2
3
4
=
5
α
fractile d'ordre 1 − d'une loi de
2
Student à n-1 degrés de liberté
Ordre : 1-α/2
Fractiles de la
loi de Student
Degré de
liberté : n-1
Application :
On choisit le plus grand des deux fractiles pour
être « sûr » de l’intervalle.
Il y a 95% de chance pour que la moyenne de la
consommation au niveau de la population soit
dans l’intervalle :
[4,93; 6,83]
One-Sample Test
Test Value = 0
t
Consommation de
boisson au cola
12,504
df
39
Sig. (2-tailed)
Mean
Difference
,000
5,875
95% Confidence
Interval of the
Difference
Lower
Upper
4,92
6,83
Précision de l’estimation de µ par x au degré de
confiance 1 - α (avec α% de chance d’erreur)
La quantité
s
t α (n − 1)
1−
n
2
est la précision de l’estimation de µ par x
au degré de confiance 1 - α (avec α% d’erreur).
La précision est la demi-largeur
de l’intervalle de confiance.
Précision de l’estimation
x
= estimation de la
consommation
Être plus précis ?
Augmenter la taille de l’échantillon ? Oui,
mais attention : pour augmenter la précision
par 2, il faut multiplier n par 4
Augmenter le risque d’erreur (α plus grand)
Comparaison d’intervalles de
confiance
Rola-Cola souhaite s’associer à un fabricant de
chips pour une campagne de publicité, car il
affirme que les gens qui préfèrent le Rola-Cola
mangent plus de chips que ceux qui préfèrent le
Koka-cola.
Dans le sondage on pose donc une question
supplémentaire : « Combien votre famille a-t-elle
consommé de paquets de chips dans le mois ? »
Interprétation des résultats
Si les intervalles de confiance ne se
chevauchent pas, la différence des moyennes
est significative.
Si les intervalles de confiance se chevauchent,
la différence n’est pas significative.
Interprétation graphique des intervalles de confiance
La consommation de boisson ne dépend pas de la
marque préférée…
Interprétation graphique des intervalles de confiance
… mais les buveurs de Rola-cola mangent plus de chips.
Autre exemple d’interprétation graphique
des intervalles de confiance
La consommation de boisson ne dépend pas
du goût pour le sucre
Problème
En conservant un niveau de confiance de 1 - α
on veut maintenant obtenir une précision c.
On cherche la taille n de l’échantillon qui
permettra d’avoir cette précision.
n = taille de l’échantillon à définir
s = futur écart-type observé
Problème : Trouver n tel que
s
t α (n − 1)
=c
1−
n
2
Solution approchée
On remplace dans la formule
s
t α (n − 1)
=c
1−
n
2
s par la dernière estimation disponible
et
t
1−
t
(
∞
)
(
n
−
1
)
α
par
α
1−
2
2
Ce qu’il faut retenir
Population
Echantillon
N
n
Taille
Moyenne
1
µ=
N
Ecart type
1
N
σ=
∑
N
N
i =1
xi
2
(
x
−
µ
)
∑ i
i =1
1 n
x = ∑i =1 xi
n
s=
1 n
2
(
x
−
x
)
∑ i
n − 1 i =1
Intervalle de confiance
s
s
[ x − t α (n − 1)
; x + t α (n − 1)
]
1−
1−
n
n
2
2
Il y a (1-α)% de chance pour que la moyenne µ
soit dans cet intervalle.
Pour être précis il faut n ≥ 30 (sauf si la variable
étudiée suit une loi normale).
Intervalle de confiance
Comparaison : les résultats sont significatifs si les
intervalles de confiance ne se chevauchent
pas.
Savoir définir la taille d’un échantillon pour obtenir
la précision souhaitée
Prochain cours
Mercredi 6 octobre
Exercices d’application
Téléchargement