introduction - Luca Scuderi

publicité
Chapitre 2 : Mesures de tendance centrale et
mesures de position
2.1 Caractéristiques d’une distribution de fréquences
données brutes
ordonner (données rangées)
 condenser (données condensées)
 regrouper en classes

Caractère individuel

caractère d’ensemble
Le caractère individuel cède le pas au caractère
d’ensemble
Divers graphiques nous aident à visualiser la
distribution d’une variable statistique X.
Histogramme, polygone des fréquences ou diagramme
en boîte  permettent de visualiser grossièrement :






Le centre (mode, médiane, moyenne)
L’étalement (étendue)
La position (centiles)
La dispersion (variance, écart-type)
La forme (symétrie, dissymétrie)
L’existence éventuelle de données
atypiques ou extrêmes
1
2.2 Mesures du centre : mode, médiane, moyenne
Mode : la modalité ayant le plus fort effectif
Médiane : le centre des données. Seule la position des
modalités compte
Moyenne : le centre des données. La grandeur des
données compte
2.2.1 Mode
1. données rangées : la modalité qui apparaît le plus
fréquemment : 2,3,5,5,5,6,6,8 → le mode est 5
2. données condensées : modalité ayant le plus fort
effectif
(Ouellet p. 58)
3. données groupées en classes :
 déterminer classe modale (celle du plus haut
effectif)
 utiliser la formule
Mo  bmo
 1 
 Lmo
 
 1   2 
(Ouellet pp. 57,59)
2
2.2.2 Médiane
Un ménage nanti d’un revenu disponible inférieur à
60 % du revenu disponible médian de l’ensemble des
ménages est dit en état de pauvreté monétaire.
1. Données rangées :
 si N impair, c’est la
(
N  1 ème
)
2
donnée
 Ex. : ‒ 3, 7, 360, 5234, 10'000
 si N pair, milieu entre la
(
N ème
)
2

c’est 360
et la
(
N
 1) ème
2
donnée
 Ex. : 1, 2, 2, 2, 5, 6, 6, 6, 7, 7

médiane =
56
2
= 5.5
 Ex. : 1, 2, 2, 2, 5, 5, 6, 6, 7, 7

médiane =
55
2
=5
3
2. Données condensées :
 comme pour les données rangées
 lorsque les données ont été condensées :
première modalité dont le Fi dépasse 0.5. Si
Fi atteint une valeur exacte de 0.5, on choisit
le nombre à mi-chemin entre la modalité
concernée et la suivante
(Ouellet pp. 64)
3. Données groupées en classes :
 déterminer la classe médiane (première classe où
Fi atteint ou dépasse 0.5)
 utiliser la formule (issue du théorème de Thalès)
Md  bmd
 0.5  Fmd 1 
 Lmd
 
f md


bmd : borne inférieure de la classe médiane
Lmd : largeur de la classe médiane
fmd : fréquence relative de la classe médiane
Fmd-1: fréquence relative cumulée de la classe précédant
la classe médiane
Médiane = valeur x pour laquelle F(x) = ½.
Équivalent : valeur qui partage l’histogramme en deux
surfaces égales
4
F(x)
1
0.5
0
b0
C50
méd
bk
(Ouellet pp. 60,65)
5
Illustration : Considérons la distribution suivante :
Classes Effectifs (ni)
[0,5[
2
[5,10[
5
[10,15[ 1
fi
Fi
0.250 0.250
0.625 0.875
0.125
1
H is to g ra m m e
6
5
5
S
4
3
2
2
1
1
0
7
O g iv e
F(x)
1
0.8
0.6
0.4
0.2
0
0
5
7
10
15
 0.5  Fmd 1 
0.5  0.25
 Lmd  5 
Md  bmd  
57
f
0
.
625
md


6
2.2.3 Moyenne
1. Données rangées
N

x
i 1
i
(population)
N
n
x
x
i 1
i
(échantillon)
n
2. Données condensées
k
k

n x
i
i 1
i
N
x
(pop.)
n x
i
i 1
n
i
(échant.)
(k est le nombre de modalités différentes).
De façon équivalente :
k
k
   f i xi
i 1
(pop.)
ou
x   f i xi
i 1
(échant.)
7
3. Données groupées en classes
k

n m
i
i 1
k
i
N
(pop.)
ou
x
n m
i 1
i
i
(échant.)
n
(k est le nombre de classes).
De façon équivalente :
k
k
   f i mi
i 1
(pop.)
ou
x   f i mi
i 1
(échant.)
(Ouellet p. 65)
Effet d’une transformation linéaire :
Théorème : Si X est une variable statistique
quantitative et si Y = aX + d est une transformation
linaire, alors :
Mo(Y) = a Mo(X) + d
Md(Y) = a Md(X) + d
Y  a X  d .
→ mode, médiane et moyenne préservent la
transformation linéaire
8
2.2.4 Comparaison des mesures de tendance
centrale
Le mode
1. N’a d’intérêt que si le nombre de données est grand.
2. On peut avoir plusieurs modes dans une distribution.
Existence de deux ou plusieurs modes peut indiquer la
présence de deux ou plusieurs populations. Ex. :
hommes/femmes, jeunes/vieux, etc.
3. Existe pour variable qualitative.
4. Pas influencé par d’éventuelles données extrêmes

robuste
1,2,2,2,4,4,5  mode = 2
1,2,2,2,4,4,100  mode = 2
5. Première forme d’instabilité : dans le cas de données en
classes, peut dépendre fortement du choix des classes.
6. Deuxième forme d’instabilité : varie beaucoup d’un
échantillon à l’autre choisi dans une même population. Ex. :
supposons que dans une enquête sur l’obésité on s’intéresse
au poids des individus d’une population de taille N = 10000.
On tire au hasard un premier échantillon de taille n = 100,
on distribue les données obtenues dans des classes et on
calcule le mode, qu’on note Mode1. On tire ensuite au
hasard un second échantillon de taille n = 100, on distribue
les nouvelles données dans les mêmes classes et on en
calcule le mode, qu’on note Mode2. Alors Mode2 peut
différer beaucoup de Mode1  instabilité.
9
7. Dans les distributions de revenu et de fortune, le mode est
utilisé pour mesurer le revenu ou la fortune de « Monsieur
et Madame tout le monde » (contenu sociologique). Il
donne le revenu de la classe la plus nombreuse.
Le « Suisse moyen » est en fait le « Suisse modal ».
La médiane
1. Se prête mal aux calculs algébriques et aux
développements théoriques.
2. Ne dépend pas des valeurs des données, mais de leur
position. Pas influencée par les données atypiques ou
extrêmes  très robuste.
3. Est stable par rapport au choix des classes.
4. À utiliser lorsque la distribution est dissymétrique ou
en présence de données atypiques ou extrêmes.
5. À utiliser à la place de la moyenne lorsqu’on a une ou
deux classes ouvertes (la moyenne ne peut être
calculée dans ces cas-là).
7. Souffre aussi de la deuxième forme d’instabilité,
encore que beaucoup moins que le mode. La médiane
varie plus que la moyenne d’un échantillon à l’autre
choisi dans une même population.
10
La moyenne
1. Dans le cadre des données groupées en classes, elle ne
peut être calculée à partir de la distribution s’il y a des
classes ouvertes → on la remplace par la médiane.
Exemple :
classes
[50 , 100[
[100 , 150[
[150 , infini[ (« plus de 150 »)
fi
0.3
0.6
0.1
mi
75
125
?
  f1 * m1  f 2 * m2  f3 * ?  ?
2. Simplicité algébrique (l’argument tenant qu’elle est la
plus onéreuse à calculer est caduc en vertu de
l’augmentation incroyable de la puissance de calcul
des ordinateurs).
3. Tient compte de toutes les données, ce qui est sa
faiblesse en cas de distribution dissymétrique ou
d’existence de données atypiques  non robuste.
4. Stable au sens que peu influencée par le choix des
classes.
5. Se prête aux manipulations algébriques.
6. Stable d’un échantillon à l’autre.
11
Quelle est la caractéristique centrale la plus appropriée ?
La réponse dépend de la distribution ou du phénomène
étudié.
Le mode, étant donné ses nombreux défauts, est souvent
remplacé par la médiane.
La médiane est très utile car elle représente la mesure la
plus typique du centre au sens où l’entendent la plupart
des gens.
La moyenne est la seule des trois mesures qui tient
compte de la totalité des observations, ce qui assure son
succès dans le monde commercial et des affaires,
malgré son absence de robustesse.
Notons encore que la médiane est généralement
comprise entre la moyenne et le mode (cf.
contrexemple).
12
Relation empirique de Pearson
Lorsqu’une distribution est proche de la symétrie, on a :
  Mo  3  Md 
(population)
x  Mo  3x  Md 
(échantillon)
Mo
Md μ
μ Md
Mo
13
2.3 Divers types de moyennes
2.3.1 Moyenne géométrique
Notation :
Soit y1 , … , yN une suite de nombres.
N
y
i 1
i
désigne le produit des yi :
N
y
i 1
i
 y1  y2    y N .
Si a est une valeur non-indicée (un nombre réel) :
N
N
a

a

a

a

a
 
i 1
N fois
Soit Y, une variable statistique
Y  y1 , … , yN
MG(Y )  ( y1  y 2    y N )
yi > 0
N
1 /N
 N  yi
i 1
14
Utilisation de la moyenne géométrique :
Calcul du taux de croissance moyen
t = 0 , … , T,
Qt : quantité au temps t,
T représente un nombre de périodes d’égale longueur
Q0 : quantité initiale
QT : quantité finale
La quantité en question peut être le prix d’un bien, un
indice boursier, la cote d’une action, un capital, un
stock (par exemple le niveau de la réserve stratégique
de pétrole américaine).
r1 : taux de croissance durant la période [0, 1[
r2 : taux de croissance durant la période [1, 2[
…
rT : taux de croissance durant la période [T-1,T[
r1
0
r2
1
rT
2
3
Q0
QT
T-1
T
QT
Q1


T
 Q0  (1  r1 )  (1  r2 )    (1  rT )  Q0   (1  rt )

t 1
Q2
15
Taux de croissance global
Le taux de croissance global est défini par :
R
QT  Q0
Q0
Nous désirons représenter R en fonction des rt :
T
Q  Q0 QT
R T

1 
Q0
Q0
Q0  (1  rt )
t 1
Q0
T
 1   (1  rt ) - 1
t 1
T
R   (1  rt ) - 1
t 1
D’autre part, on observe que
R
QT  Q0
Q0

RQ 0  QT  Q0

Q0  RQ 0  QT

Q 0 (1  R)  QT

QT Q 0 (1  R)
Cette dernière égalité permet de représenter la
quantité finale en fonction de la quantité initiale et du
taux global R.
16
Exemple 1:
Considérons l’évolution d’un stock de fuel sur les quatre
trimestres de l’année 2010 :
Q0
Q4
1% 3% -2% 1.5%
Le taux de croissance global de ce stock sera alors
R  1.011.03  0.98 1.015  1  0.0348 , soit 3.48 %.
Taux de croissance moyen
Par quel taux constant r peut-on remplacer les divers
taux r1 , … , rT pour aboutir à la même quantité finale ?
r est appelé taux de croissance moyen.
On doit réaliser l’égalité entre :
La quantité finale à partir des taux variables rt
et
La quantité finale à partir d’un taux fixe r sur
chaque période.
17
T
T
Q0  (1  rt )  Q0  (1  r )  Q0 (1  r )(1  r )(1  r )  Q0 (1  r )T

t 1
t 1
T fois
T
Q0  (1  rt )  Q0 (1  r )T
t 1
T
 (1  r )  (1  r )
T
t
t 1
Il nous reste à isoler le r :
T
(1  r )  [ (1  rt )]1 / T
t 1
T
r  [ (1  rt )]1 / T  1
t 1
r est la moyenne géométrique des (1 + rt), moins 1.
Remarque :
Si on connaît le taux de croissance global R, on calcule
facilement le taux de croissance moyen par :
r  [1  R]1 / T  1
18
Exemple 2 :
Considérons l’évolution du même stock pétrolier que
tout à l’heure pour les quatre trimestres de 2010 :
Q0
Q4
1% 3% -2% 1.5%
T
r  [ (1  rt )]1/ T  1  (1.01  1.03  0.98  1.015)1/ 4  1  0.86%
t 1
À partir de R = 0.0348 calculé dans l’exemple 1:
r  (1  R)1/ T  1  (1.0348)1/4  1  0.0086  0.86%
2.3.2
Moyenne harmonique
Soit une variable Y et ses modalités :
Y  y1 , … , yj , … , yN
MH(Y ) 
(yj > 0)
N
N

j 1
1
yj
19
Utilisation :
Pour faire la moyenne de vitesses lorsque la distance
sur laquelle chaque vitesse pratiquée est la même.
Considérons un parcours divisé en trois tronçons de
longueur égale (N = 3).
v1
v2
v3
d
d
d
vj = vitesse pratiquée sur le tronçon j,
j = 1, 2, 3
d = longueur d’un tronçon (constante)
tj = temps nécessaire pour parcourir la distance d à la
vitesse vj.
Comme
d
vj =
tj
on a que
tj =
d
vj
20
La vitesse moyenne pratiquée sur le parcours total
n'est pas
v1  v2  v3
.
3
VM 
distance totale
3d
3d
3d



1 1 1
temps total
t1  t 2  t 3 d  d  d
d (   )
v1 v 2 v3
v1 v 2 v 3

3
1 1 1
 
v1 v 2 v 3
= MH des vitesses.
Cas des distances inégales :
VM 
v1
v2
d1
d2
v3
d3
distance totale
d1  d 2  d 3

d1 d 2 d 3
temps total
 
v1 v 2 v3
Ce n'est plus à proprement parler une MH.
21
Exemple 3 :
Une voiture parcourt un trajet à 100 km/h de moyenne
et le retour à 40 km/h. La vitesse moyenne de l'allerretour :
VM =
2
1
1

100 40
= 57,14
( et non
100  40
= 70 )
2
Exemple 4 :
Achat d’une marchandise en plusieurs étapes, pour un
montant fixe à chaque étape :
J’ai acheté hier pour 90$ de pommes au prix de 6$ la
douzaine et aujourd’hui à nouveau pour 90$ de pommes
au prix de 5$ la douzaine. Globalement, combien coûte
la douzaine de pommes ?
Prix unitaire = Prix global / Quantité globale =
90  90
90(1  1)
2


 5.45 $
90 90
1 1
1 1

90(  )

6
5
6 5
6 5
Il s’agit de la moyenne harmonique des prix.
22
En bref, lorsqu’une même somme est affectée plusieurs
fois à l’achat d’un bien à des prix variables, le prix
unitaire de ce bien sur l’ensemble des achats est la
moyenne harmonique de ces prix.
Achat 1 Achat 2 ... Achat N
x francs x francs ... x francs
p1
p2
...
pN
Prix unitaire =
N
1
1
1


p1 p2
pN
,
c'est-à-dire la moyenne harmonique des prix.
23
2.3.3 Moyenne quadratique
Y  y1 , … , yN yj  0
N
MQ (Y ) 
y
i 1
2
i
N
Nous verrons plus tard que l’écart-type est une forme de
moyenne quadratique.
2.3.4 Mi–chemin
C’est la moyenne arithmétique des deux modalités
extrêmes.
24
2.5 Mesures de position
2.5.1 Centiles
Comment diviser les données ou la distribution en un
certain nombre de parties ?
Pour partager une série ou une distribution en
2,
on utilise 1 médiane
4,
on utilise 3 quartiles
5
on utilise 4 quintiles
10, on utilise 9 déciles
100, on utilise 99 centiles
Comme les quartiles, quintiles, déciles, sont des
subdivisions des centiles, il suffit d’examiner
uniquement les centiles.
Les centiles n’ont vraiment d’intérêt que si on a
beaucoup de données groupées en classes.
25
Exemple : (quartiles, données groupées en classes)
Médiane
25 %
25 %
25 %
25 %
Q1
Q2
Q3
C25
C50
C75
Q1
Q2
Q3
Q1, Q2 et Q3 divisent en 4 la surface de l’histogramme
Autre façon de visualiser les quartiles :
F(x)
1
0.75
0.5
0.25
0
b0
Q1
Q2
Q3
bk
26
Notion de quartile se généralise à celle de centile
d’ordre α. Le centile d’ordre α est noté Cα.
1. Données rangées
Cα est la donnée dont le rang est l’entier suivant
N
100
n’est pas un entier. Si
N
100
N
100
si
est un entier, on choisit
le nombre à mi-chemin entre la donnée de rang
N
100
et
la donnée suivante.
Soit les données : 27, 29, 31, 31, 31, 34, 36, 39, 42, 45.
Nous voulons calculer C32.
N = 10, α = 32, d’où Nα/100 = 3.2 → 4
C32 est la quatrième donnée, à savoir 31.
2. Données condensées
Cα est la première modalité dont la fréquence relative

cumulée dépasse 100
. Si la fréquence relative cumulée
atteint une valeur exacte de

100
, on choisit le nombre à
mi-chemin entre la modalité concernée et la suivante.
27
3. Données groupées en classes
Il faut d’abord trouver la classe du centile Cα. C’est la
première classe où la fréquence relative cumulée Fi

atteint ou dépasse 100
. Puis :
C  bC
 

 FC 1 

 LC
  100
f C

 




(simple extension de la formule de la médiane)
(Ouellet pp. 82,85,86)
Rang centile
Illustration
Examen de Statistique 2 de juin 2012 (66 participants).
Un étudiant a obtenu la note 4.6 et 55% des étudiants
avaient une note inférieure à 4.6.
→
  55 et C  4.6.
Le rang centile est un pourcentage, alors que le centile
est une valeur comprise dans le champ des valeurs
possibles de la variable, ici [1, 6].
28
Données rangées et condensées
Calcul direct du pourcentage de données plus petites
que qu’une certaine valeur.
Données groupées en classes
F(x)
1
α%
0
b0
Cα
bk
Le rang centile α se trouve sur l’axe vertical. C’est un
pourcentage.
C est un point sur l’axe horizontal de l’ogive (et de
l’histogramme : c’est le même axe).
α et C sont en correspondance grâce à l’ogive. Dualité
entre ces deux valeurs, pas de sens l’une sans l’autre.
Le graphique est une aide à la compréhension, mais on
veut une formule.
29
Examinons la formule pour le calcul de C :
C  bC
 

 FC 1 

 LC
  100
f C

 




(  est connu et on
cherche C ).
Nous voulons maintenant calculer  lorsque c’est
C qui est connu.
 

 FC 1 

 / 100  FC 1 C  bC
 LC 
C  bC   100

fC


f C
LC 




  / 100 
C  bC
LC
f C   FC 1
 C  bC 

   100
f C  FC 1 
 LC

(identique à la formule d’Ouellet p. 87 et à celle du
Chapitre 1., § 1.3.6, formule (3).
30
Convention : le α ainsi obtenu n’est généralement pas
un entier → on prend alors la valeur entière de 
→ laisser tomber les décimales.
Ex. 3.24 ou 3.678 ou 3.9999 ont pour valeur entière 3.
(Ouellet pp. 85, 86)
En bref :
1. Par définition,

100
 F (C ) ,
le pourcentage de données
strictement plus petites que Cα.

2. Si Cα est la médiane : 100 = F(médiane) = 0.5. D’où
  50 : le rang centile de la médiane est 50.
3. De même, le rang centile de Q1 est 25, celui de Q3 est
75, etc.
4. Dans le cadre des données groupées en classes, le
rang centile, peut être visualisé. Il représente la
surface de l’histogramme (polygone des fréquences,
courbe de distribution de fréquences) située à gauche
du centile.
31
Exemple :
Une surface de 30 % sous la courbe de distribution de
fréquences se trouve à gauche du centile C30→ le rang
centile est 30.
Courbe de distribution
de fréquences de X
30%
%
30%
X
C30
F(x)
1
0.3
0
C30
X
32
Téléchargement