introduction - Luca Scuderi

publicité
PLAN
Chapitre 2 : Mesures de tendance centrale et mesures de position
2.1 Caractéristiques d’une distribution de fréquences
2.2 Mesures du centre : mode, médiane, moyenne
2.2.1 Mode
2.2.2 Médiane
2.2.3 Moyenne
2.2.4 Comparaison des mesures de tendance centrale
2.3 Divers types de moyennes à utiliser dans des cas spécifiques
2.3.1 Moyenne géométrique
2.3.2 Moyenne harmonique
2.3.3 Moyenne quadratique
2.3.4 Mi–chemin
2.4 Mesures de position
2.4.1 Centiles
2.4.2 Rang centile
Chapitre 2 : Mesures de tendance centrale et de position
2.1 Caractéristiques d’une distribution de fréquences
Nous avons vu que les données brutes sont ordonnées, condensées ou regroupées en classes,
selon le cas. On obtient ainsi une distribution de fréquences que nous appellerons aussi
simplement distribution. Schématiquement :
données brutes  ordonner (données rangées)
 condenser (données condensées)
 regrouper dans des classes (données groupées)
Établir une distribution statistique, c’est oublier le caractère individuel pour passer au
caractère d’ensemble.
Divers graphiques nous aident à visualiser la distribution d’une variable statistique X, tels
l’histogramme – ou sa variante, le polygone des fréquences –, ou encore le diagramme en
boîte, que nous verrons plus tard.
Histogramme, polygone des fréquences ou diagramme en boîte  permettent de
visualiser grossièrement :
 Le centre (mode, médiane, moyenne)
 L’étalement (étendue)
 La position (centiles)
 La dispersion (variance, écart-type)
 La forme (symétrie, dissymétrie)
 L’existence éventuelle de données atypiques ou extrêmes
1
2.2 Mesures du centre : mode, médiane, moyenne
Le mode est la modalité ayant le plus fort effectif.
La médiane mesure le centre des données lorsqu’elles ont été ordonnées de la plus petite à la
plus grande. Seule la position des modalités compte.
La moyenne mesure également le centre des données, mais cette fois la grandeur effective des
données est prise en compte.
Au lieu de dire mode, médiane ou moyenne de la distribution d’une variable statistique X, on
peut dire, beaucoup plus simplement, mode médiane ou moyenne de X.
2.2.1 Mode
1. Données rangées : la modalité qui apparaît le plus fréquemment
Exemple : si les données sont 2,3,5,5,5,6,6,8, le mode est 5.
2. Données condensées : la modalité ayant le plus fort effectif
3. Données groupées en classes :
1. Déterminer la classe modale (celle du plus haut effectif)
2. Utiliser la formule
 1 
 Lmo ,
Mo  bmo  
 1   2 
où
bmo est la borne inférieure de la classe modale
∆1 est la différence entre la fréquence de la classe modale et la fréquence de la classe
qui précède
∆2 est la différence entre la fréquence de la classe modale et la fréquence de la classe
qui suit
Lmo est la largeur de la classe modale
2.2.2 Médiane
La médiane intervient par exemple dans la définition de la pauvreté au sein d’une population.
La définition la plus fréquemment utilisée de la notion de pauvreté est basée sur la
comparaison du revenu disponible d'un individu à la médiane des revenus disponibles de la
population. Le seuil de pauvreté monétaire est le revenu (des personnes ou des ménages) égal
à 60 % du revenu médian, selon l'usage international. Les personnes ou ménages ayant un
revenu inférieur à ce seuil sont dits en état de pauvreté monétaire.
Comment calcule-t-on la médiane ? Il convient à nouveau de distinguer les trois cas (données
rangées, condensées, regroupées dans des classes)
1. Données rangées :


N  1 ème
) donnée
2
Ex. : ‒ 3, 7, 360, 5234, 10'000  c’est 360
si N impair, c’est la (
2

si N pair, milieu entre la (

Ex. : 1, 2,
2,
2,
 médiane =

Ex. : 1, 2,
2,
2,
 médiane =
N ème
N
) et la (  1) ème donnée
2
2
5, 6,
6,
6,
7,
7
6,
7,
7
56
= 5.5
2
5, 5,
6,
55
=5
2
2. Données condensées :


La définition est la même que pour les données rangées
Un moyen simple pour déterminer la médiane lorsque les données ont été
condensées : on prend la première modalité dont la fréquence relative
cumulée (Fi) dépasse 0.5. Si la fréquence relative cumulée atteint une
valeur exacte de 0.5, on choisit le nombre à mi-chemin (en l’occurrence la
moyenne) entre la modalité concernée et la suivante.
3. Données groupées en classes :
La médiane n’est autre que le centile C50. Nous avons appris à calculer les centiles Cα pour
toutes les valeurs de α grâce à une formule établie dans le chapitre 1 (Chapitre 1, § 1.3.6,
formule (4)). Cette formule a été établie, rappelons-nous, en pratiquant l’interpolation linéaire
sur l’ogive. Nous nous contenterons ici de changer un peu les notations des différents
constituants de cette formule de manière à nous conformer à celles du livre d’Ouellet.
Remarque pratique
Si l’on doit calculer la médiane, il est inutile (bien trop long, et contreproductif à cause du
risque d’erreur) d’effectuer à chaque fois une interpolation linéaire à l’aide du théorème de
Thalès. Celui-ci a été utilisé une fois pour toutes pour démontrer la formule, il nous reste
ensuite à appliquer celle-ci directement (et correctement…).
Comment calculer la médiane ?
1. Déterminer classe médiane (il s’agit de la première classe où la fréquence relative
cumulée atteint ou dépasse 0.5) → regarder les Fi
2. Utiliser la formule (cf. Chapitre 1, § 1.3.6, formule (4))
3
 0.5  Fmd 1 
 Lmd
Md  bmd  
f md


où
bmd est la borne inférieure de la classe médiane
Lmd est la largeur de la classe médiane
fmd est la fréquence relative de la classe médiane
Fmd-1 est la fréquence relative cumulée de la classe précédant la classe médiane
Médiane = valeur x pour laquelle l’ogive F(x) = ½.
Équivalent : valeur qui partage l’histogramme en deux surfaces égales
F(x)
1
0.5
0
bk
C50
méd
b0
Illustration : Considérons la distribution suivante :
Classes Effectifs (ni) fi
Fi
2
[0,5[
0.250 0.250
[5,10[
5
0.625 0.875
[10,15[
1
0.125 1
H is to g ra m m e
6
5
5
S
4
3
2
2
1
1
0
7
O g iv e
F(x)
1
0.8
0.6
0.4
0.2
0
0
5
7
10
15
4
 0.5  Fmd 1 
0.5  0.25
 Lmd  5 
Md  bmd  
5  7.
f md
0.625


2.2.3
Moyenne
Tiré de Daniel Pennac, Chagrin d’école, Folio Gallimard 2007, Prix Renaudot 2007, le petit
texte qui suit :
Comme je descendais des collines du XXe arrondissement vers mon bureau, l’idée
m’est venue d’évaluer les élèves que je croisais sur ma route, en me livrant à un calcul
méthodique : 100 euros de baskets, 110 de jeans, 120 de blouson, 80 de sac à dos, 180 de
baladeur (à 90 décibels la ravageuse tournée auditive), 90 euros pour le téléphone portable
multifonction, sans préjuger de ce que contiennent les trousses, que je vous fais, bon prix, à
50 euros, le tout monté sur des rollers flambants neufs, à 150 euros la paire, Total : 880
euros. J’ai vérifié, les jours suivants, à l’aller comme au retour, en comparant avec les prix
affichés dans les vitrines qui se trouvaient sur mon chemin. Tous mes calculs aboutissaient
aux alentours de 900 euros. C’est une estimation moyenne par enfant de la classe moyenne
doté de parents à revenus moyens, dans le Paris d’aujourd’hui. Le prix d’un élève parisien
remis à neuf, disons à la fin des vacances de Noël, dans une société qui envisage sa jeunesse
avant tout comme une clientèle, un marché, un champ de cibles. Des enfant clients, donc,
avec ou sans moyens, ceux des grandes villes comme ceux des banlieues, entraînés dans la
même aspiration à la consommation, dans le même universel aspirateur à désirs, pauvres et
riches, grands et petits, garçons et filles, siphonnés pêle-mêle par l’unique et tourbillonnante
sollicitation : Consommer ! C'est-à-dire changer de produit, vouloir du neuf, le dernier cri.
La marque ! Et que ça se sache ! Si leurs marques étaient des médailles, les gosses de nos
rues sonneraient comme des généraux d’opérette.
Sans transition… Définition de la moyenne dans les trois situations (données rangées,
condensées, groupées dans des classes).
1. Données rangées
N

n
 xi
i 1
(population)
N
ou
x
x
i 1
i
(échantillon)
n
2. Données condensées
k

k
 ni x i
i 1
N
(population)
ou
x
n x
i
i 1
n
i
(échantillon)
(k est le nombre de modalités différentes).
5
De façon équivalente :
k
   f i xi
k
(population)
x   f i xi
ou
i 1
(échantillon)
i 1
3. Données groupées en classes
On utilise la formule de la moyenne pour les données condensées en remplaçant
seulement les modalités xi par les milieux de classes mi, et ceci pour la raison suivante :
chaque fois qu’une modalité tombe dans une classe, on fait comme si elle était égale à
mi, ce qui revient à dire qu’on ne tient pas compte de sa vraie valeur.
x1
bi-1
x2x3
mi
bi
On « oublie » les vraies valeurs de x1, x2 et x3. On fait comme si on avait observé trois fois la
même valeur, mi .
k

k
 n i mi
i 1
N
(population)
ou
x
n m
i 1
i
i
n
(échantillon)
(k étant le nombre de classes qu’on s’est choisi).
De façon équivalente :
k
   f i mi
k
(population)
i 1
ou
x   f i mi
(échantillon)
i 1
Intéressons-nous maintenant, grâce à un théorème, à l’effet d’une transformation linéaire sur
les trois mesures du centre :
Théorème : Si X est une variable statistique quantitative et si
transformation linaire, alors :
Y = aX + d est une
Mo(Y) = a Mo(X) + d
Md(Y) = a Md(X) + d
Y  a X  d .
6
(autrement dit : mode, médiane et moyenne préservent la transformation linéaire : le mode, la
médiane et la moyenne d’une transformation linéaire sont respectivement la transformation
linéaire du mode, de la médiane et de la moyenne).
2.2.4
Comparaison des mesures de tendance centrale
Le mode
1. N’a d’intérêt que si le nombre de données est grand.
2. On peut avoir plusieurs modes dans une distribution. Existence de deux ou plusieurs
modes peut indiquer la présence de deux ou plusieurs populations. Ex. : hommes/femmes,
jeunes/vieux, etc. Par la suite, nous nous intéresserons aux distributions n’ayant qu’un
seul mode.
3. Existe pour variable qualitative.
4. Pas influencé par d’éventuelles données extrêmes  robuste.
5. Première forme d’instabilité : dans le cas de données en classes, le mode peut dépendre
fortement du choix des classes. C’est ennuyeux, puisque le choix des classes résulte d’un
certain arbitraire.
6. Deuxième forme d’instabilité : le mode varie beaucoup d’un échantillon à l’autre choisi
aléatoirement dans une même population. Ex. : supposons que dans une enquête sur
l’obésité on s’intéresse au poids des individus d’une population de taille N = 10000. On
tire au hasard un premier échantillon de taille n = 100, on distribue les données obtenues
dans des classes et on calcule le mode, qu’on note Mode1. On tire ensuite au hasard un
second échantillon de taille n = 100, on distribue les nouvelles données dans les mêmes
classes et on en calcule le mode, qu’on note Mode2. Alors Mode2 peut différer beaucoup
de Mode1  instabilité.
7. Dans les distributions de revenu et de fortune, le mode (mais aussi la médiane) est utilisé
pour mesurer le revenu ou la fortune de « monsieur et madame tout le monde » 
contenu sociologique. Autrement dit, il donne le revenu de la classe la plus nombreuse. Le
« Français moyen » est en réalité le Français modal.
La médiane
1. Se prête mal aux calculs algébriques et aux développements théoriques.
2. Ne dépend pas des valeurs des données, mais de leur position. Peu influencée, ou très peu,
par les données extrêmes  très robuste.
3. Est stable par rapport au choix des classes.
4. À utiliser lorsque la distribution est dissymétrique ou en présence de données atypiques ou
extrêmes.
5. À utiliser à la place de la moyenne lorsqu’on a une ou deux classes ouvertes (la moyenne
ne peut être calculée dans ces cas-là).
6. Souffre aussi de la deuxième forme d’instabilité, mais beaucoup moins que le mode. La
médiane varie plus que la moyenne d’un échantillon à l’autre choisi dans une même
population.
La moyenne
1. Dans le cadre des données groupées en classes, elle ne peut être calculée à partir de la
distribution s’il y a des classes ouvertes. Dans ce cas, on la remplace par la médiane.
7
Exemple :
Classes
[50 , 100[
[100 , 150[
[150 , infini[ « plus de 150 »
fi
0.3
0.6
0.1
mi
75
125
?
  f1  m1  f 2  m2  f 3  ?  ?
2. Se prête aux manipulations algébriques (l’argument d’Ouellet tenant qu’elle est plus
onéreuse à calculer prête à sourire, en regard des fonctionnalités des machines à calculer
ou des ordinateurs actuels).
3. Tient compte de toutes les données, ce qui est sa force, car elle permet de connaître la
somme des modalités, pour autant qu’on en connaisse l’effectif. Par exemple, si on
connaît la moyenne  des salaires d’une entreprise, N  représentera la masse salariale
totale de cette entreprise. On ne peut faire de même ni avec la médiane, ni avec le mode.
C’est la raison pour laquelle la moyenne est la mesure la plus utilisée dans des domaines
comme l’économie, l’industrie ou les affaires.
4. Qu’elle prenne en compte toutes les données est aussi sa faiblesse, en cas de distribution
dissymétrique ou d’existence de données atypiques. Elle n’est pas aussi crédible que la
médiane ou le mode pour mesurer le revenu type, puisqu’elle peut être exagérément
grossie par un petit nombre de données extrêmes  non robuste.
5. Elle est stable au sens qu’elle est peu influencée par le choix des classes.
6. Elle est stable d’un échantillon à l’autre.
Quelle est la caractéristique centrale la plus appropriée ? On ne peut donner une réponse
globale à cette question, tout dépend en fait de la distribution étudiée ou du phénomène
étudié. En résumé, on dira que le mode, étant donné ses nombreux défauts, est souvent
remplacé par la médiane. La médiane est la plus utile car elle représente la mesure la plus
typique du centre au sens où l’entendent la plupart des gens. La moyenne est la seule des trois
mesures qui tient compte de la totalité des observations, ce qui assure son succès dans le
monde commercial et des affaires, malgré son absence de robustesse. Notons finalement que
la médiane est généralement comprise entre la moyenne et le mode, mais ce n’est pas toujours
le cas. Par exemple, pour la distribution suivante :
Classes
[0,1[
[1,2[
[2,3[
[3,4[
[4,5[
[5,6[
[6,7[
Effectifs
38
116
144
300
1'078
1'036
766
8
la médiane (5.0608) n’est pas comprise entre la moyenne (4.9255) et le mode (4.9488).
Relation empirique de Pearson
Lorsqu’une distribution n’est pas trop éloignée de la symétrie, on a que
  Mo  3  Md 
Mo
(population)
ou x  Mo  3x  Md 
Md μ
μ Md
Mo
On observe donc que moyenne et médiane se situent toutes deux soit à droite du mode, soit à
sa gauche. Dans les deux cas, la médiane a tendance à se situer plus près de la moyenne que
du mode (noter que la dissymétrie des deux courbes ci-dessus a été accentuée pour des raisons
de commodité graphique).
2.3 Divers types de moyennes à utiliser dans des cas spécifiques
2.3.1 Moyenne géométrique
Notation : (rappel)
N
Pour une suite de nombres y1 , … , yN,
y
i 1
i
désigne le produit des yi , à savoir :
9
N
y
i
 y1  y 2    y N .
i 1
On a notamment, pour une valeur a non-indicée (un nombre réel quelconque) :
N
aa
 a  a a


i 1
N
N fois
Soit une variable statistique Y et ses modalités positives y1 , … , yN, ce qu’on peut résumer
par :
Y  y1 , … , yN
yi > 0.
La moyenne géométrique de Y est alors définie par
N
N
i 1
i 1
MG(Y )  ( y1  y 2    y N )1/N  ( yi )1/N  N  yi .
Utilisation de la moyenne géométrique :
Calcul du taux de croissance moyen
Qt : quantité au temps t
t = 0 , … , T,
(où T représente un nombre de
périodes d’égale longueur)
Q0 : quantité initiale
QT : quantité finale
La quantité en question peut être le prix d’un bien, un indice boursier, la cote d’une action,
un capital, un stock (par exemple le niveau de la réserve stratégique de pétrole américaine,
si important dans l’établissement du prix du baril de brut à New York).
r1 : désigne le taux de croissance durant la période [0, 1 [
r2 : désigne le taux de croissance durant la période [1, 2 [
…
rT : désigne le taux de croissance durant la période [T-1,T [
r1
0
Q0
QT
1
rT
r3
r2
2
...
.
3
T-1
T
QT
Q1


T
 Q0  (1  r1 )  (1  r2 )    (1  rT )  Q0   (1  rt )

t 1
(1)
Q2
Afin que le taux de croissance moyen soit défini (voir plus loin la définition du taux de
croissance moyen), les rt doivent être supérieurs à ‒ 1 afin que les (1 + rt) intervenant dans
(1) ci-dessus soient positifs. En effet, le calcul du taux de croissance moyen passe par le
10
calcul de la moyenne géométrique des (1 + rt). Or la moyenne géométrique n’a de sens
que pour des valeurs positives. Sous forme mathématique, on écrit :
rt > ‒ 1, t = 1, 2, …, T.
Taux de croissance global
Le taux de croissance global est défini par :
R
QT  Q0
Q0
(2)
Nous désirons représenter R en fonction des rt. De l’équation (2), et en notant que la troisième
égalité ci-dessous est vraie en vertu de (1) :
T
R
QT  Q0 QT
1 
=
Q0
Q0
Q0  (1  rt )
t 1
Q0
T
-1=
 (1  r ) - 1 ,
t
t 1
et donc
T
R =  (1  rt ) – 1
(3)
t 1
T
Comme les (1 + rt) sont positifs, le produit  (1  rt ) est lui-même positif. Il suit de (3) que R,
t 1
à l’instar des rt, est toujours supérieur à ‒ 1, ce qu’on écrit : R > ‒ 1.
En écrivant l’équation (2) un peu autrement, on observe que
RQ 0  QT  Q0 ,
Q0  RQ 0  QT ,
Q 0 (1  R)  QT ,
 QT Q 0 (1  R) .
Cette dernière égalité permet de représenter la quantité finale en fonction de la quantité
initiale et du taux global R.
11
Exemple 1:
Considérons l’évolution d’un stock de fuel sur les quatre trimestres de l’année 2010 :
Q0
Q4
1% 3% -2% 1.5%
Le taux de croissance global de ce stock sera alors
R  1.011.03  0.98 1.015  1  0.0348 , soit 3.48 %.
Taux de croissance moyen
Par quel taux constant r peut-on remplacer les divers taux r1 , … , rT pour aboutir à la
même quantité finale ?
r est appelé taux de croissance moyen.
On doit réaliser l’égalité :
Quantité finale à partir des taux variables rt = Quantité finale à partir d’un taux fixe r sur
chaque période.
Soit, mathématiquement, à partir de la quantité finale exprimée dans l’équation (1) :
T
Q0
*
 (1  rt ) = Q0
T
*
t 1
1  r )(1  r ) (1  r ) = Q0*(1 + r)T , soit
 (1  r ) = Q0 * (

t 1
T fois
T
Q0 * (1 + r)T = Q0
*
 (1  r ) .
t
En divisant par Q0 à gauche et à droite :
t 1
T
(1 + r)T =
 (1  r )
t
t 1
Il nous reste à isoler le r. Pour ce faire, nous devons élever à la puissance (1/T) les deux côtés
de l’équation. Nous obtenons :
T
(1 + r) = [  (1  rt ) ]1/T
t 1
T
 r = [  (1  rt ) ]1/T – 1
(4)
t 1
On observe ainsi que r est la moyenne géométrique des (1 + rt), moins 1.
12
Remarque :
Si on connaît le taux de croissance global R, on calcule facilement le taux de croissance
moyen par :
r = ( 1 + R )1/T – 1.
(5)
Pour s’en convaincre, il suffit de partir de l’équation (4) et d’y intégrer l’équation (3). Noter
également que ( 1 + R )1/T (la racine Tième de 1 + R) est bien définie puisque 1 + R est un
nombre positif (rappelons-nous que R > – 1).
Exemple 2 :
Considérons l’évolution du même stock pétrolier que tout à l’heure pour les quatre trimestres
de 2010 :
Q0
Q4
1% 3% -2% 1.5%
On peut calculer r à partir de l’équation (4) :
T
r  [ (1  rt )]1 / T  1  (1.01  1.03  0.98  1.015)1 / 4  1  0.0086 , soit 0.86 %,
t 1
ou à partir de l’équation (5) et du taux de croissance global de 0.0348 calculé dans
l’exemple 1:
r  (1  R)1 / T  1  (1.0348)1/4  1  0.0086 = 0.86 %.
2.3.2 Moyenne harmonique
Soit une variable et ses modalités :
Y  y1 , … , yj , … , yN
MH (Y ) 
N
N

j 1
1
yj
(yj > 0)
.
« inverse de la moyenne des inverses »
13
Utilisation :
Pour faire la moyenne de vitesses lorsque la distance sur laquelle chaque vitesse pratiquée est
la même. Considérons un parcours divisé en trois tronçons de longueur égale (N = 3).
v1
v2
d
d
v3
d
vj = vitesse pratiquée sur le tronçon j,
j = 1, 2, 3
d = longueur d’un tronçon (constante)
tj = temps nécessaire pour parcourir la distance d à la vitesse vj.
d
Étant donné que vj =
(une vitesse étant toujours définie comme une distance divisée par
tj
d
une durée), on a que tj = .
vj
La vitesse moyenne pratiquée sur le parcours total n'est pas
v1  v 2  v3
(moyenne
3
arithmétique), mais bien
VM =
distance totale
3d
3
3d
3d
=
=
=
==
1 1 1
d d d
1 1 1
t1  t 2  t 3
temps total
 
 
d (   )
v1 v 2 v3
v1 v 2 v3
v1 v 2 v3
= MH des vitesses.
Cas des distances inégales :
VM =
v1
v2
d1
d2
v3
d3
d  d 2  d3
distance totale
= 1
.
d1 d 2 d 3
temps total
 
v1 v 2 v3
→ Ce n'est plus à proprement parler une MH.
Exemple 3 :
Une voiture parcourt un trajet à 100 km/h de moyenne et le retour à 40 km/h. La vitesse
moyenne de l'aller-retour :
100  40
2
VM =
= 57,14
( et non
= 70 ).
1
1
2

100 40
14
Exemple 4 : (achat d’une marchandise en plusieurs étapes, pour un montant fixe à chaque
étape)
J’ai acheté hier pour 90$ de pommes au prix de 6$ la douzaine et aujourd’hui à nouveau
pour 90$ de pommes au prix de 5$ la douzaine. Globalement, combien coûte la douzaine de
pommes ?
90  90
90(1  1)
2
Prix unitaire = Prix global / Quantité globale =


 5.45 $
90 90
1 1
1 1

90(  )

6
5
6 5
6 5
Il s’agit de la moyenne harmonique des prix.
En bref, lorsqu’une même somme est affectée plusieurs fois à l’achat d’un bien à des prix
variables, le prix unitaire de ce bien sur l’ensemble des achats est la moyenne harmonique de
ces prix.
Achat 1
x francs
p1
Achat 2
x francs
p2
Prix unitaire =
... Achat N
... x francs
...
pN
N
.
1
1
1


p1 p 2
pN
2.3.3 Moyenne quadratique
Y  y1 , … , yN
yj  0
N
MQ (Y ) 
y
i 1
2
i
N
Nous verrons plus tard que l’écart-type est la moyenne quadratique des données centrées.
2.3.4 Mi–chemin
C’est la moyenne arithmétique des deux modalités extrêmes (cette mesure n’a à l’évidence
pas grand intérêt).
2.3 Mesures de position
2.4.1 Centiles (ça, en revanche, c’est essentiel)
Question soulevée : comment diviser les données ou la distribution en un certain nombre de
parties.
15
Pour partager une série ou une distribution en
2,
on utilise
1 médiane
4,
on utilise
3 quartiles
5
on utilise
4 quintiles
10,
on utilise
9 déciles
100,
on utilise
99 centiles
Comme les quartiles, quintiles, déciles, sont des subdivisions des centiles, il suffit d’examiner
uniquement les centiles (lesquels furent déjà abordés au chapitre 1). Au lieu de centile, on
rencontre aussi parfois le terme de percentile.
Les centiles n’ont vraiment d’intérêt que si on a un certain nombre de données.
Médiane
25 %
25 %
25 %
25 %
Q1
Q2
Q3
C25
C50
C75
Exemple : (quartiles, dans le cas des données groupées en classes)
Q1
Q2
Q3
Les trois quartiles divisent la surface de l’histogramme en 4 parties égales.
Autre façon (exactement équivalente) de visualiser les quartiles : grâce à l’ogive F(x) :
16
F(x)
1
0.75
0.5
0.25
0
b0
Q1
Q2
Q3
bk
On peut généraliser la notion de quartile à celle de centile d’ordre  . Le centile d’ordre  ,
noté C , est ainsi défini :
1. Données rangées
N
n’est pas un entier. Si
100
N
N
est un entier, on choisit le nombre à mi-chemin entre la donnée de rang
et la
100
100
données suivante.
C’est la donnée dont le rang est l’entier suivant
N
100
si
Prenons par exemple les données : 27, 29, 31, 31, 31, 34, 36, 39, 42, 45. Nous voulons
calculer C32 .
N = 10, α = 32, d’où Nα/100 = 3.2 → 4
C32 est la quatrième donnée, soit 31.
2. Données condensées
C’est la première modalité dont la fréquence relative cumulée dépasse
relative cumulée atteint une valeur exacte de

100

100
. Si la fréquence
, on choisit le nombre à mi-chemin entre la
modalité concernée et la suivante.
3. Données groupées en classes
Il faut d’abord trouver la classe du centile C . C’est la première classe où la fréquence

relative cumulée (Fi) atteint ou dépasse
.
100
La formule qui suit est l’exacte généralisation de la formule de la médiane. Elle a été établie
dans le Chapitre 1. (§ 1.3.6, formule (4)) avec une notation un peu différente.
17
C  bC
 

 FC 1 

 LC
  100
f C

 




(1)
bCα est la borne inférieure de la classe contenant Cα
LCα est la largeur de la classe contenant Cα
fCα est la fréquence relative de la classe contenant Cα
FCα -1 est la fréquence relative cumulée de la classe précédant la classe contenant Cα
2.4.2 Rang centile (important aussi)
Illustration
Examen de Statistique 2 de juin 2012 (66 participants). Un étudiant a obtenu la note 4.6 et
55% des étudiants avaient une note inférieure à 4.6.
→
  55 et C  4.6.
Le rang centile est un pourcentage, alors que le centile est une valeur comprise dans le champ
des valeurs possibles de la variable, ici [1, 6].
Données rangées et condensées
Pour calculer le rang centile d’une valeur, il suffit, pour les données rangées et condensées, de
calculer directement le pourcentage de données plus petites que cette valeur.
Données regroupées dans des classes
Nous reproduisons ici, avec les notations du livre d’Ouellet, un graphique (ogive) déjà
rencontré dans le Chapitre 1.
F(x)
1
α%
0
b0
Cα
bk
18
La valeur  désigne le rang centile et C le centile d’ordre  . À bien noter que le rang
centile est un pourcentage alors que le centile représente un point sur l’axe horizontal de
l’ogive (et aussi de l’histogramme : ces deux graphiques ayant le même axe horizontal).
Le graphique ci-dessus est à cet égard explicite :  et C sont en correspondance grâce à
l’ogive. Il existe une dualité entre ces deux valeurs, l’une n’ayant pas de sens sans l’autre.
À titre d’illustration : lors de l’examen de Statistique 2 de juin 2012 auquel ont participé 66
étudiants, l’un d’entre eux a obtenu la note 4.6. Le rang centile de cette note était   55, ce
qui signifie que 55% des étudiants avaient une note inférieure à 4.6. Dans cet exemple 4.6
n’est autre que le centile C .
Le graphique est une aide à la compréhension, mais il ne nous aide guère en matière de
calcul : il nous faut un outil plus précis et plus efficace. Lorsque les données sont groupées en
classes, quelle formule nous permet-elle de calculer le rang centile d’une valeur ?
Examinons la formule (1) donnée plus haut pour le calcul de C (dans ce cas,  est connu
et on cherche C ). Nous nous intéressons maintenant à calculer  lorsque C est connu. Il
suffit en fait d’isoler le  dans la formule (1) et de le représenter comme une fonction de
Cα pour obtenir ce qu’on cherche :
 

 FC 1 

 LC
C  bC   100
f C

 




D’où
 / 100 
C  bC
LC
→
fC  FC 1
 C  bC 

f C  FC 1 
 LC

  100
 / 100  FC 1
f C

C  bC
LC 
et donc
(2)
Il s’agit de la même formule que celle d’Ouellet p. 87. Malheureusement, Ouellet change de
notation par rapport à sa formule du centile, ce qui n’est jamais une bonne idée. Nous
conservons quant à nous la même notation pour le calcul du rang centile et du centile.
Notons encore que cette formule est identique à celle du Chapitre 1., § 1.3.6, formule (3).
Un détail encore : la valeur de  obtenue grâce à l’équation (2) n’est généralement pas un
entier. Par convention, on prend alors la valeur entière de  . Pour trouver la valeur entière
d’un nombre réel, il suffit de laisser tomber ses décimales. Par exemple, la valeur entière de
3.24 ou 3.678 ou 3.9999 est tout simplement 3. Ce n’est pas, on le voit, l’arrondi habituel,
mais c’est un arrondi par le bas, une troncation.
19
En bref :
1. Par définition,

100
 F (C ) , le pourcentage de données strictement plus petites que C .
2. Si C est la médiane :

100
= F(médiane) = 0.5. D’où   50 : le rang centile de la
médiane est 50.
3. De même, le rang centile de Q1 est 25, celui de Q3 est 75, etc.
4. Lorsqu’on se trouve dans le cadre des données groupées en classes, ce pourcentage qu’est
le rang centile, peut être visualisé géométriquement. Il n’est autre que la surface de
l’histogramme (ou de la courbe de distribution de fréquences utilisée par commodité pour
représenter l’histogramme ou le polygone des fréquences) située à gauche du centile.
Ainsi, une surface représentant 30 % de la surface de l’histogramme (ou 30 % de la
surface sous la courbe de distribution de fréquences ou du polygone des fréquences) se
trouve à gauche du centile C30, comme indiqué par le graphique ci-après.
Courbe de distribution
de fréquences de X
30%
%
30%
X
C30
F(x)
1
0.3
0
C30
X
20
Téléchargement