Extrait

publicité
STATISTIQUE DESCRIPTIVE
ÉLÉMENTAIRE
Jeanne Fine
Professeure de Statistique, Université de Toulouse
[email protected]
La statistique descriptive élémentaire consiste à effectuer le traitement statistique
des variables une par une (statistique unidimensionnelle ou « tri à plat ») ou deux
par deux (statistique bidimensionnelle ou « tri croisé »).
L’existence de deux types de variables, catégorielle et réelle, conduit à considérer
cinq traitements statistiques de base.
C'est le plan du cours St@ternet, installé en libre accès sur le site pédagogique de
l’IUFM Midi-Pyrénées et téléchargeable, dont on donne un extrait dans ce
document :
http://www2.toulouse.iufm.fr/mathematiques/
Jeanne Fine http://finestat.free.fr
Statistique descriptive 2
PLAN DU COURS
1. Introduction : un exemple
2. Traitement statistique d’une variable catégorielle
3. Traitement statistique d’une variable réelle
4. Traitement statistique de deux variables catégorielles
5. Traitement statistique de deux variables réelles
6. Traitement statistique d'une variable catégorielle et
d'une variable réelle
Jeanne Fine http://finestat.free.fr
Statistique descriptive 3
UN EXEMPLE
SEXE = F : fille G : garçon,
GRPE = Groupe de mathématiques : A, B, C
FRAN = Note en Français
MAT1, MAT2, MAT3 = triple correction d'un devoir de mathématiques commun aux trois groupes
IDEN
SEXE GRPE
FRAN
MAT1
MAT2
MAT3
a
ANDRE
G
B
10.00
10.00
7.75
6.00
b
BERNARD
G
B
15.00
11.00
9.25
12.00
c
CHRISTIAN
G
B
15.00
12.00
11.00
7.00
d
DANIELLE
F
B
16.00
14.00
13.25
12.00
e
ETIENNE
G
B
12.00
11.00
9.25
9.00
f
FRANCK
G
C
12.00
10.00
7.75
11.00
g
GENEVIEVE
F
C
14.00
15.00
13.75
10.00
h
HERVE
G
C
10.00
10.00
9.75
11.00
i
IVAN
G
C
12.00
11.00
10.75
12.00
j
JOELLE
F
A
11.00
7.00
6.00
10.00
k
KARIM
G
A
11.00
7.00
5.00
9.00
l
LISE
F
A
12.00
7.00
5.75
7.00
m
MELANIE
F
A
9.00
7.00
5.50
10.00
n
NICOLE
F
A
10.00
8.00
6.00
9.00
o
ODILE
F
A
13.00
8.00
6.25
10.00
Tableau individus  variables
Jeanne Fine http://finestat.free.fr
Statistique descriptive 4
UN EXEMPLE
Construction de nouvelles variables
1
(MAT1 + MAT2 + MAT3)
3
1
variable EXAM : EXAM =
(FRAN + MATH)
2
variable MATH : MATH =
variable ADMI :
Jeanne Fine http://finestat.free.fr
si EXAM  10 alors ADMI = O, sinon ADMI = N
Statistique descriptive 5
UN EXEMPLE
IDEN
SEXE
GRPE
FRAN
MAT1
MAT2
MAT3
EXAM
ADMI
a
ANDRE
G
B
10.00
10.00
7.75
6.00
8.96
N
b
BERNARD
G
B
15.00
11.00
9.25
12.00
12.88
O
c
CHRISTIAN
G
B
15.00
12.00
11.00
7.00
12.50
O
d
DANIELLE
F
B
16.00
14.00
13.25
12.00
14.54
O
e
ETIENNE
G
B
12.00
11.00
9.25
9.00
10.88
O
f
FRANCK
G
C
12.00
10.00
7.75
11.00
10.79
O
g
GENEVIEVE
F
C
14.00
15.00
13.75
10.00
13.46
O
h
HERVE
G
C
10.00
10.00
9.75
11.00
10.13
O
i
IVAN
G
C
12.00
11.00
10.75
12.00
11.63
O
j
JOELLE
F
A
11.00
7.00
6.00
10.00
9.33
N
k
KARIM
G
A
11.00
7.00
5.00
9.00
9.00
N
l
LISE
F
A
12.00
7.00
5.75
7.00
9.29
N
m
MELANIE
F
A
9.00
7.00
5.50
10.00
8.25
N
n
NICOLE
F
A
10.00
8.00
6.00
9.00
8.83
N
o
ODILE
F
A
13.00
8.00
6.25
10.00
10.54
O
Tableau individus  variables
Jeanne Fine http://finestat.free.fr
Statistique descriptive 6
2. TRAITEMENT STATISTIQUE
D’UNE VARIABLE CATÉGORIELLE
2.1. Partition de la population engendrée par la variable
a
b
c
GRPE=B
B
d
e
f
GRPE=C
g
h
C
i
j
k
A
l
GRPE=A
n
m
o
Population
Jeanne Fine http://finestat.free.fr
Ensemble des modalités
de la variable GRPE
Statistique descriptive 7
2. TRAITEMENT STATISTIQUE
D’UNE VARIABLE CATÉGORIELLE
2.2. Distribution d'effectifs et de fréquences
GRPE
Effectifs
Fréquences
B
5
33%
C
4
27%
A
6
40%
Ensemble
15
100%
Distributions des effectifs et des fréquences de la variable GRPE
Jeanne Fine http://finestat.free.fr
Statistique descriptive 8
2. TRAITEMENT STATISTIQUE
D’UNE VARIABLE CATÉGORIELLE
2.3. Représentation graphique : diagrammes en barres ou en secteurs
Effectifs
A
40%
Fréquences
6 40%
5 33%
4 27%
3 20%
2 13%
B
33%
1 7%
0 0%
B
C
A
Diagramme en barres des effectifs et
des fréquences de la variable GRPE
Jeanne Fine http://finestat.free.fr
GRPE
C
27%
Diagramme en secteurs des
fréquences de la variable GRPE
Statistique descriptive 9
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Distributions d'effectifs et de fréquences
Valeurs regroupées en classes
Classes
6  MATH  8
Centre Effectifs Fréquences
7
6
40%
8  MATH  10
9
3
20%
10  MATH  12
11
4
27%
12  MATH  14
13
2
13%
15
100%
Distribution d'effectifs et de fréquences de la variable MATH
(valeurs regroupées en classes)
Jeanne Fine http://finestat.free.fr
Statistique descriptive 10
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Représentation graphique : l'histogramme
Effectif
Fréquence
6
40%
5
33%
4
27%
3
20%
2
13%
1
7%
0
0%
6
8
10
12
14
MATH
Dans le cas où les amplitudes sont différentes, il faut veiller à construire des
rectangles dont les aires soient proportionnelles aux effectifs (ou aux
fréquences).
Jeanne Fine http://finestat.free.fr
Statistique descriptive 11
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Résumés numériques : indices de position et de dispersion
• Mode et étendue
Le mode est la valeur de la variable correspondant au plus grand effectif.
L’étendue est la différence entre la plus grande et la plus petite valeur de la
variable.
Jeanne Fine http://finestat.free.fr
Statistique descriptive 12
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
• Moyenne, variance et écart-type
La moyenne (arithmétique) est la valeur commune à chaque individu s’ils avaient tous
la même valeur.
X
1
 ni xi   f i xi
n
La variance est la moyenne des carrés des écarts à la moyenne.
VAR  X  
2
2
1
n
x

X

f
x

X




 i i
n i i
La variance est aussi la moyenne des carrés moins le carré de la moyenne.
VAR  X  
1
ni xi2  X 2   f i xi2  X 2

n
L’écart-type est la racine carrée de la variance.
 X
Jeanne Fine http://finestat.free.fr
VAR  X 
Statistique descriptive 13
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Propriétés de la moyenne
Si Z  aX alors Z  aX
Si Z  X  Y alors Z  X  Y et si Y  b alors Z  X  b
Plus généralement si Z  aX  bY alors Z  aX  bY
.
Moyennes
MATH 

FRAN
MAT1
MAT2
MAT3
MATH
EXAM
12.13
9.87
8.47
9.67
9.33
10.73
1
MAT1  MAT 2  MAT3
3

et EXAM 

1
FRAN  MATH
2

.
Jeanne Fine http://finestat.free.fr
Statistique descriptive 14
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Propriétés de la variance et de l'écart-type
VAR  X  a   VAR  X 
VAR  aX   a 2 VAR  X 
  aX   a   X 
Attention à la somme, on a :
VAR  X  Y   VAR  X   VAR Y . et   X  Y     X    Y 
FRAN
MAT1
MAT2
MAT3
MATH
EXAM
Moyennes
12.13
9.87
8.47
9.67
9.33
10.73
Variances
4.12
6.12
7.44
3.29
3.97
3.39
Ecart-types
2.03
2.47
2.73
1.81
1.99
1.84
Jeanne Fine http://finestat.free.fr
Statistique descriptive 15
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Une variable dont la moyenne est égale à 0 est dite centrée.
Une variable dont l'écart-type est égal à 1 est dite réduite.
Soit X une variable de moyenne X et d'écart-type   X 
Alors la variable X  X est centrée,
la variable
X
est réduite,
 X
et la variable
Jeanne Fine http://finestat.free.fr
XX
est centrée réduite.
 X
Statistique descriptive 16
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
• Médiane, quartiles et écart inter-quartiles
Médiane 
MATH
6.58
7.00
7.50
7.67
7.67
7.92
8.08
9.58
9.75
10.00
10.25
10.75
11.25
12.92
13.08
RANG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
La médiane est la valeur qui partage la population en
deux sous-populations d'effectifs égaux : 50% / 50%.
C'est encore la valeur prise par le (N+1) / 2 ième
individu. Si la taille de la population est paire on
prend pour médiane le milieu des valeurs des rangs
N / 2 et (N+2) / 2 .
La médiane est la valeur de la variable correspondant
à la fréquence cumulée 50%.
Les quartiles, notés q1, q2, q3, sont les valeurs de la
variable qui partagent la population en quatre souspopulations d'effectifs égaux, 25%, 25%, 25% 25%.
Les quartiles sont aussi les valeurs de la variable
correspondant aux fréquences cumulées 25%, 50%,
75%. Le deuxième quartile, q2, est donc la médiane.
L’écart inter-quartiles est la longueur q3 – q1 de
l’intervalle inter-quartiles [q1, q3].
On a ici : m = 9.58, q1 = 7.67, q3 = 10.75 et donc q3 q1 = 3.08.
Jeanne Fine http://finestat.free.fr
Statistique descriptive 17
3. TRAITEMENT STATISTIQUE
D’UNE VARIABLE RÉELLE
Représentation graphique : boîte et moustaches (“box plot”)
Exemple : la variable MATH
16
14
13.08
12
10.75
10
8
9.58
6
7.67
6.58
4
2
0
MAT1
MAT2
MAT3
Boîtes et moustaches des distributions
de notes de MAT1, MAT2 et MAT3
Jeanne Fine http://finestat.free.fr
Statistique descriptive 18
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
Partition croisée
GRPE=C et SEXE=F
GRPE=A et SEXE=F
j
GRPE=B et SEXE=F
g
l
d
o
m
n
a
b
GPE=B et SEXE=G
c
e
h
f
i
Population
k
GRPE=A et SEXE=G
GPE=C et SEXE=G
Partition croisée associée aux deux variables GRPE et SEXE
Jeanne Fine http://finestat.free.fr
Statistique descriptive 19
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
Table de contingence :
distribution conjointe et distributions marginales des effectifs et des fréquences
GRPE \
SEXE
F
G
Ensemble
B
C
A
Ensemble
1
4
5
1
3
4
5
1
6
7
8
15
Distributions conjointe et
marginales des effectifs des
variables GRPE et SEXE
Jeanne Fine http://finestat.free.fr
GRPE \
SEXE
F
G
Ensemble
B
C
A
7% 7% 33%
26% 20% 7%
33% 27% 40%
Ensemble
47%
53%
100%
Distributions conjointe et
marginales des fréquences des
variables GRPE et SEXE
Statistique descriptive 20
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
Distributions conditionnelles :
(profils lignes et profils colonnes)
GRPE \
SEXE
B
C
A
Ensemble
GRPE \
SEXE
B
C
A
Ensemble
F
14%
14% 72%
100%
F
20%
25% 83%
47%
G
50%
38% 12%
100%
G
80%
75% 12%7
53%
33%
27% 40%
100%
100%
100 100%
100%
Ensemble
Ensemble
Tableau des profils colonnes.
Tableau des profils lignes.
Distributions conditionnelles à la variable SEXE Distributions conditionnelles à la variable SEXE
des fréquences de la variable GRPE
des fréquences de la variable GRPE
Jeanne Fine http://finestat.free.fr
Statistique descriptive 21
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
Liaison entre deux variables catégorielles : la distance du KHI2
A\B
b1
...
bj
...
bq
Ensemble
a1
...
ai
...
ap
ni j
ni 
Ensemble
n j
n
Tableau de contingence observé
Jeanne Fine http://finestat.free.fr
Statistique descriptive 22
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
A\B
b1
...
...
bj
a1
...
ai
ni j ni
bq
Ens.
A\B
1
a1
...
1
ai
1
...
ap
n
Ens.
...
ap
n j n
Ens.
Profils lignes
b1
...
...
bj
bq
Ens.
1
ni j n j
1
1
n j n
n
Profils Colonnes
On remarque que l'absence de liaison se traduit par une des trois propriétés suivantes qui sont
équivalentes :
ni j n j
pour tout i et j

ni 
n
n
n
2. Egalité des profils colonnes i j  i  pour tout i et j
n j
n
n j ni 
3. ni j 
pour tout i et j
n
1. Egalité des profils lignes
Jeanne Fine http://finestat.free.fr
Statistique descriptive 23
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
Le tableau de contingence théorique d'absence de liaison, construit sur les mêmes marges que le
tableau de contingence observé, est alors le suivant :
A\B
b1
...
bj
...
bq
Ensemble
a1
...
ai
ni  n j
ni 
n
...
ap
Ensemble
n j
Indice du Khi2 KHI 2   i j
Jeanne Fine http://finestat.free.fr
n
ni n j 

n

 ij
n 

2
ni n j
n
Statistique descriptive 24
4. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES CATÉGORIELLES
Autres formules du KHI2
Si on introduit les fréquences f i j 
KHI 2  n  i j
ni j
n
n
, f i   i  , f  j   j on a alors :
n
n
n
 fi j  fi  f j 
2
fi  f j




f i2j
ni2j
KHI 2  n   i j
 1  n  i j
 1




fi  f j
ni  n j




Indice du PHI2
Le KHI2 est proportionnel à N.
On peut alors introduire l'indice du PHI2 égal au KHI2 divisé par n.
PHI 2 
KHI 2
n
On obtient pour les variables GRPE et SEXE : KHI2 = 5.42 et PHI2 = 0.36.
Jeanne Fine http://finestat.free.fr
Statistique descriptive 25
5. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES RÉELLES
Représentation graphique : le graphe plan
MAT2
14
g
d
13
12
11
i
10
c
h
be
9
8
af
7
6
j
o
n
7
8
l
m
k
5
4
6
9
10
11
12
13
14
15
MAT1
Graphe plan des variables MAT1 et MAT2
L'ensemble des points, appelé nuage des points, est très étiré et assez rectiligne.
Les deux variables MAT1 et MAT2 sont fortement liées.
Jeanne Fine http://finestat.free.fr
Statistique descriptive 26
5. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES RÉELLES
Résumés numériques : covariance, coefficient de corrélation linéaire
• La
Covariance
La covariance de deux variables réelles X et Y est à la moyenne des produits des
différences à la moyenne.
COV  X ,Y  
1
n  x  X   yi  Y    f i  x i  X   y i  Y 
n i i
La covariance est aussi égale à la moyenne des produits moins le produit des moyennes.
COV  X ,Y  
Jeanne Fine http://finestat.free.fr
1
n x y  X Y   f i x i yi  X Y
n i i i
Statistique descriptive 27
5. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES RÉELLES
• Le Coefficient de corrélation linéaire
Le coefficient de corrélation linéaire, noté   X ,Y  , est défini comme le rapport de la covariance
sur le produit des écart-types de X et de Y (supposés non nuls).
 X ,Y  
FRAN
MAT1
MAT2
MAT3
MATH
EXAM
FRAN
4.12
3.48
3.74
0.98
2.73
3.42
COV  X ,Y 
  X   Y 
MAT1 MAT2 MAT3 MATH EXAM
6.12
6.58
1.22
4.64
4.06
7.44
1.66
5.22
4.48
3.29
2.06
1.52
3.97
3.35
3.39
Covariances des variables deux à deux
Jeanne Fine http://finestat.free.fr
FRAN
MAT1
MAT2
MAT3
MATH
EXAM
FRAN
1.000
0.695
0.675
0.266
0.676
0.917
MAT1 MAT2 MAT3 MATH EXAM
1.000
0.975
0.273
0.941
0.892
1.000
0.335
0.961
0.892
1.000
0.569
0.454
1.000
0.914
1.000
Coefficients de corrélation linéaire
des variables deux à deux
Statistique descriptive 28
5. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES RÉELLES
• Propriétés de la covariance et du coefficient de corrélation linéaire
COV  aX  bY , Z   a COV  X , Z   b COV Y , Z 
COV  X , aY  bZ   a COV  X ,Y   b COV  X , Z 
COV  X ,Y   COV Y , X 
COV X , X  = VAR X 
V X  Y   V X   2COV  X ,Y   VY 
V  a X  bY   a 2 V X   2 a b COV  X , Y   b 2 VY 
 X ,Y   Y , X 
 X  X Y Y 
   X ,Y 

,





X

Y


Le coefficient de corrélation linéaire est compris entre 1 et 1.
Il est égal à 1 ou 1 si, et seulement si, il existe une relation linéaire entre les variables (d'où son nom).
1  
 X ,Y   1
Jeanne Fine http://finestat.free.fr
  X ,Y   1  Y  a X  b a  0
  X , Y   1  Y  a X  b a  0
Statistique descriptive 29
5. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES RÉELLES
Pour simplifier nous notons X la variable MAT1 et Y la variable MAT2.
On pose Y  aX  b  E , où E désigne la variable d’erreur ; on cherche a et b rendant minimum
la somme (ou la moyenne) des carrés des erreurs (critère de moindre carrés) :
 k 1 Yk  a X k  b 
n
La solution est la suivante : a 
Jeanne Fine http://finestat.free.fr
COV  X ,Y 
VAR  X 
2
et b  Y  a X
Statistique descriptive 30
5. TRAITEMENT STATISTIQUE
DE DEUX VARIABLES RÉELLES
La droite ainsi obtenue est dite droite de régression linéaire de Y en X.
Y=aX+b
Y
14
g
d
13
12
11
i
10
c
h
be
aX k  b
9
8
Yk  a X k  b
af
Yk
7
j
6
l
m
k
5
o
n
Xk
4
ik
6
7
Jeanne Fine http://finestat.free.fr
8
9
10
11
12
13
14
15
X
Statistique descriptive 31
6. TRAITEMENT STATISTIQUE
D'UNE VARIABLE RÉELLE ET
D'UNE VARIABLE CATÉGORIELLE
•
Décomposition de la variance
Exemple
GRPE
Effectif Moyenne Variance
A
6
7.33
0.22
B
5
11.60
1.84
C
4
11.50
4.25
Ensemble
15
9.87
6.12
La moyenne de la variable sur l’ensemble des élèves est la moyenne des moyennes
des groupes, pondérées par les effectifs des groupes :
9.87 
Jeanne Fine http://finestat.free.fr
1
 6  7.33  5  11.60  4  11.50 
15
Statistique descriptive 32
6. TRAITEMENT STATISTIQUE
D'UNE VARIABLE RÉELLE ET
D'UNE VARIABLE CATÉGORIELLE
La variance inter-groupes (ou inter-classes) est la variance des moyennes :
Vinter 


1
2
2
2
2
6  7.33   5  11.60   4  11.0    9.87   4.28
15
La variance intra-groupes (ou intra-classes) est la moyenne des variances :
Vintra 
1
 6  0.22  5  1.84  4  4.25   1.84
15
La variance de la variable est égale à la somme des variances inter et intra :
6.12 = 4.28 + 1.84.
Jeanne Fine http://finestat.free.fr
Statistique descriptive 33
6. TRAITEMENT STATISTIQUE
D'UNE VARIABLE RÉELLE ET
D'UNE VARIABLE CATÉGORIELLE
Formules
On note n, X et V l'effectif de la population, la moyenne et la variance d'une variable
réelle X.
On considère une variable catégorielle à K modalités, donc une partition de la
population en K classes et on note nk , X k et Vk l'effectif, la moyenne et la variance de
la variable X dans la classe k.
On a alors les relations suivantes :
n   nk
Vinter 
2
2
1
n
X

X
k
n k
et
Jeanne Fine http://finestat.free.fr
X
1
n Xk
n k
Vintra 
1
n V
n k k
V  Vinter  Vintra
Statistique descriptive 34
6. TRAITEMENT STATISTIQUE
D'UNE VARIABLE RÉELLE ET
D'UNE VARIABLE CATÉGORIELLE
• Rapport de corrélation entre une variable catégorielle et une variable réelle
Le rapport de corrélation entre une variable catégorielle et une variable réelle, noté  , est
la racine carrée de la variance inter sur la variance totale (= inter + intra) de la variable réelle.

Vinter
V
Ce rapport est évidemment compris entre 0 et 1.
Il est égal à 0 lorsque la variance inter est nulle et il exprime alors l'absence de liaison entre
la variable réelle et la variable catégorielle.
Il est égal à 1 lorsque la variance inter est égale à la variance totale et il exprime alors une
forte liaison entre la variable réelle et la variable catégorielle.
Dans l'exemple, la variable réelle MAT1 et la variable catégorielle GRPE ont pour rapport
de corrélation :   0.84
L'indice  est appelé pouvoir discriminant.
2
Jeanne Fine http://finestat.free.fr
Statistique descriptive 35
Téléchargement