Description d`une variable quantitative / Estimation d`une

publicité
Description et estimation
Étude d’une variable numérique,
Étude d’une moyenne
1
Cas Rola-Cola
Les données
n = 40 personnes
boisson
préférée
_________
achat
préalable
_________
goût pour le
sucre
____________
consommation
de boisson
au cola
____________
consommation
de chips
____________
2
1
2
1
1
1
2
2
1
2
1
2
1
2
1
2
3
2
1
3
1
4
8
2
10
7
6
4
2
11
1
11
5
7
4
5
3
11
9
6
2
5
5
1
9
11
8
0
7
.
.
.
1
1
2
1
1
2
1
2
1
2
1
2
2
1
2
3
1
3
1
3
2
Boisson préférée
1 = Rola-Cola
2 = Koka-Cola
Achat préalable
de Rola-Cola
1 = oui
2 = non
Goût Sucre
1 = oui
2= indifférent
3 = non
2
Définitions
Population :
Ensemble des individus (objets de l’étude)
auxquels on s’intéresse.
N = Taille de la population
Échantillon : Une partie de la population
n = Taille de l ’échantillon
Échantillon représentatif :
-
Chaque individu de la population a exactement la
même probabilité d’appartenir à l ’échantillon.
La taille n de l’échantillon est suffisamment élevée.
Elle dépend de l’homogénéité de la population et de la
précision souhaitée.
3
Étude d’une variable numérique X
 Une variable numérique X prend des valeurs
x1,…, xi,…, xN sur une population et x1,…, xi,…, xn
sur un échantillon.
 Elle est résumée par des statistiques de tendance
centrale (moyenne, médiane) et de dispersion
(variance, écart-type).
 La dispersion de X est visualisée par la boîte-àmoustache et l’histogramme.
4
Moyenne et écart-type
Population
N
1 N
   xi
N i 1
Effectif
Moyenne
Echantillon
n
1 n
x   xi
n i 1
 estimation de μ
Variance
1
 
N
2
N
 ( xi   )
i 1
2
1 n
2
s 
(
x

x
)
 i
n  1 i 1
2
 estimation de σ 2
Écart-type
  2
s
s2
5
Commentaire
1)
Plus la taille n de l’échantillon est grande,
alors plus les chances que x soit
proche de  sont élevées.
2)
Plus l’écart-type (s   !!!) est petit,
alors plus les chances que x soit
proche de  sont élevées.
6
Rola-Cola :
Résultats statistiques
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
Variance
s
consommation
de
boisson au cola
c
40
P
2
5
1
7
13
5.88
2.97
8.830
7
Propriétés des estimations de  et 2
X
* un)
(u1,…,
Ensemble de
tous les échantillons
possibles
1 n
x   i 1 x i
n
*
(x1,…, xn)
S2
E( X)  Moyenne de X  
E(S2 )  Moyenne de S2  2
s2 
1
n
2
(x

x)

i
n  1 i 1
X et S2 sont des
estimateurs sans biais
de  et 2
8
Médiane M
La médiane M partage l’échantillon
ordonné x1  x2    xn en deux parties
égales
x1
…
x20
x21
M
…
x40
x20  x21
2
9
Échantillon Rola-Cola ordonné
NUMÉRO
________
Consommation
de boisson
au cola
____________
NUMÉRO
________
Consommation
de boisson
au cola
____________
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
5
5
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
6
6
6
6
7
7
7
7
7
8
8
8
9
9
9
10
10
11
12
13
10
Quartiles Q1, Q2, Q3
Les quartiles Q1, Q2, Q3 partagent
l’échantillon ordonné en quatre parties
égales
x1
… x10
x11 … x20
25%
x31 … x40
Q3
Q2 = M
Q1
25%
x21 … x30
25%
25%
11
Rola-Cola :
Boîte-à-Moustache
Consommation de boissons au cola
Médiane
Q1
Q3
Minimum
Maximum
Q4
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
12
Détection des observations
atypiques (Outliers)
La longueur de chaque moustache
doit être inférieure à
16
12
14
1.5(Q3  Q1 )
12
10
8
6
Exemple :
4
2
Max = 13 (Obs n°12)
remplacé par Max = 15
0
Consommation de boisson au cola
13
Rola-Cola :
Boîte-à-moustache multiple
14
consommation de boisson au cola
12
10
8
6
4
2
0
N=
14
13
13
d'acc or d
indifferent
pas d'ac cord
goût pour le sucre
La consommation de chips
dépend de la boisson préférée.
La consommation de boissons
au cola ne semble pas dépendre
pas du goût pour le sucre.
14
Rola-Cola:
Histogramme
12
10
10
9
8
8
6
5
5
4
2
Std. Dev = 2.97
2
Mean = 6
1
0
2
4
6
8
10
12
N = 40.00
14
c onsommati on de bois son au c ola
15
Rola-Cola :
Graphique des histogrammes
[Population Pyramide]
La consommation de chips
dépend de la boisson préférée.
La consommation de boissons
au cola ne dépend pas du goût
pour le sucre.
16
Rola-Cola :
Graphique des histogrammes
[Histogram / Panel by rows]
La consommation de chips
dépend de la boisson préférée.
La consommation de boissons
au cola ne dépend pas du goût
pour le sucre.
17
Loi normale
(ou de Laplace-Gauss)
18
LAPLACE à Beaumont-en-Auge
Loi normale
(ou de Laplace-Gauss)
20
Loi normale N(,)
Une variable aléatoire X suit
une loi normale N(, ) si,
pour toute valeur de x,
Sim ulati on d'une loi norm al e N(6,3)
3000
2000
x
Prob(X  x )  
1
 2
( t  ) 2

2
e 2 dt
1000
Std. Dev = 3.00
Résultats :
N = 20736.00
0
.0
17
.0
15
.0
13
.0
11
0
9.
x
0
7.
0
5.
0
3.
0
1.
.0
-1
.0
-3
.0
-5
- Moyenne de X = 
- Variance de X = 2
- 95% des valeurs de X sont
comprises entre  - 1.96 et  + 1.96
Mean = 6.0
X
21
Exercice 1
 Soit X la durée du trajet Paris-HEC à 7 heures du
matin.
 On suppose que X suit une loi normale N(,).
 En général, la durée du trajet est comprise entre 30
et 50 minutes.
 Déterminer la moyenne  et l’écart-type .
23
Précision de l’estimation
Quel est l’ordre de grandeur de l’écart
entre
x
et  auquel on peut s’attendre ?
Quelle est la précision de l’estimation de
la moyenne de la population  à l’aide de
la moyenne empirique
x
?
24
Un résultat très utile
X
x
* xn)
(x1,…,
* un)
(u1,…,
s2
S2
Ensemble de
tous les échantillons
possibles
T
X 
S/ n
t
x 
s/ n
25
Loi de Student
Si X  N(, ) alors :
X 
T
S/ n
suit une loi de Student à n-1 degrés de liberté [notée t(n-1)].
Gosset (1876-1937) invented the t -test to handle small samples for
quality control in brewing while working at Guiness in Dublin.
He wrote under the name "Student".
26
Exercice 2
 Soit X la consommation de boisson au cola.
 La population étudiée est disponible dans le fichier
« rola-cola population.sav »
 Visualiser l’histogramme et la loi normale associée à cette
population.
 On suppose que X suit une loi normale N(,). Donner les
valeurs de  et .
 Tirer un échantillon de taille 40 :
Indiquer SET SEED=RANDOM pour obtenir un échantillon
différent à chaque tirage.
 Calculer la moyenne et l’écart-type de l’échantillon et la
statistique t.
Fractile de la loi de Student
Loi de Student à 39 degrés de li berté
.5
Calculer (Table 4) :
- t0.975(39) =
- t0.975() =
.4
1-
.3
Loi t(n-1)
t (n  1)  N (0,1)
lorsque n  
.2
f(t)
.1

0.0
-5
t
-4
-3
-2
-1
0
1
2
t1 (n  1)
3
4
=
5
fractile d'ordre 1   d'une loi de
Student à n-1 degrés de liberté
28
Fractiles de la
loi de Student
Intervalle de confiance
de la moyenne  au niveau 1- 
 Il y a (1-)100 chances sur 100 pour que l’intervalle
s
s
[ x  t  (n  1)
, x  t  (n  1)
]
1
1
n
n
2
2
contienne , où t
1
Précision de
l’estimation
de  au niveau
1-
 (n  1) est le fractile d’ordre 1 
2
de la loi de Student à n-1 degrés de liberté.

2
 La formule est exacte si X suit une loi normale.
Sinon, c’est une bonne approximation dès que n  30.
30
Rola-Cola :
Consommation de boissons au cola
De scripti ves
consommation de
boisson au cola
Mean
95% Confidence
Int erval for Mean
5% Trimmed Mean
Median
Variance
St d. Deviation
Minimum
Maximum
Range
Int erquartile Range
Sk ewness
Kurtos is
Lower Bound
Upper Bound
St atis tic
5. 88
4. 92
St d. Error
.47
6. 83
5. 75
5. 50
8. 830
2. 97
1
13
12
4. 75
.504
-.375
.374
.733
31
Précision de l’estimation de  par
au degré de confiance 1 - 
x
La quantité
s
t  (n  1)
1
n
2
est la précision de l’estimation de  par
au degré de confiance 1 - .
x
La précision est la demi-largeur de l’intervalle
de confiance.
32
Taille de l’échantillon permettant d’obtenir
une précision souhaitée c au niveau de
confiance 1 - 
n = taille de l’échantillon à définir
s = futur écart-type observé
Problème : Trouver n tel que
s
t  (n  1)
c
1
n
2
33
Solution approchée
On remplace dans la formule
s
t  (n  1)
c
1
n
2
s par la dernière estimation disponible
et t
 ( n  1)
1
2
par t
 ( )
1
2
.
34
Rola-Cola :
Graphique des intervalles de confiance
9
95% CI consommation de boisson au cola
10
8
6
4
2
0
N=
8
7
6
5
4
3
2
24
16
rola- cola
koka-cola
bois s on préférée
La consommation de chips
dépend de la boisson préférée.
N=
14
13
13
d'acc or d
indifferent
pas d'ac cord
goût pour le sucre
La consommation de boissons
au cola ne dépend pas du goût
pour le sucre.
35
Téléchargement