INTRODUCTION :

publicité
EFTG
STATISTIQUE
Octobre 2015
STATISTIQUE DESCRIPTIVE SIMPLE
I / Introduction
Il n’est pas facile de définir de manière précise et complète la STATISTIQUE
(ou tout autre science !).
Historiquement, à l’origine, la Statistique a fourni des renseignements sur la
″population″ au sens propre du terme : nombre, répartition par âge, par sexe,
selon l’état matrimonial, la profession, le lieu de résidence… .
De nos jours, les méthodes statistiques sont utilisées dans tous les domaines :
démographie, économie, médecine, épidémiologie, agronomie, industrie,
gestion, contrôle de qualité, sociologie, sondages d’opinion, linguistique,
éducation, psychologie et tellement d’autres.
But de l’Etude Statistique :
- Savoir présenter des données, les décrire et les résumer.
- Savoir dégager, assez rapidement, un certain nombre de renseignements sur
le phénomène décrit par les données.
- Savoir tirer des conclusions sur des populations à partir de calculs conduits
sur des échantillons.
- Savoir faire de “bonnes” prévisions.
II / Terminologie.
Exemple d’un Tableau de Données: (Tableau 1)
Parmi les étudiants d’une certaine université, on a relevé pour 30 d’entres eux,
les données suivantes :
1.
2.
3.
4.
5.
Revenus des parents (en DA)
Sexe (Homme, Femme)
Âge (en années)
Ancienneté (en années)
Palier d’étude (L, M ou D)
6. Nombre de frères et sœurs.
M. YAHI
Page 1
2015/2016
EFTG
STATISTIQUE
Revenus
29472
21629
21088
21369
20240
72696
67580
37580
60096
45900
19613
29472
34060
25176
21371
79356
57532
14060
32513
41871
39536
89553
23406
45789
56213
23489
36457
102589
95547
33563
Sexe
F
M
M
M
F
M
M
M
F
M
M
F
M
M
M
F
M
F
M
F
M
F
M
M
F
M
M
F
M
M
Age
21
18
20
21
18
23
20
19
22
25
24
27
21
26
18
24
21
23
27
22
19
24
22
18
24
20
22
17
21
23
Anc.
2
1
2
4
1
5
3
1
5
7
6
10
2
9
1
6
3
4
8
4
2
5
5
1
6
3
5
1
4
5
Octobre 2015
Palier Nbre F/S
L
3
L
4
L
3
M
5
L
1
M
2
L
3
L
4
M
3
M
2
M
4
D
4
L
5
D
4
L
2
M
3
L
3
M
4
D
3
M
3
L
2
M
4
M
4
L
1
M
2
L
3
M
3
L
3
M
3
M
2
Le statisticien, quelle que soit sa spécialité, utilise les expressions rappelant qu’à l’origine,
la statistique consistait surtout en l’observation et la description de collectivités humaines:
POPULATION - INDIVIDU – ECHANTILLON – CARACTERE
La population est l’ensemble de référence. C’est l’ensemble étudié.
L’individu est une unité statistique. C’est un élément de la population.
Un échantillon est un sous-ensemble de la population.
Un caractère est ce que l’on observe sur l’individu. Il varie d’un individu à l’autre; on
l’appelle variable statistique.
M. YAHI
Page 2
2015/2016
EFTG
STATISTIQUE
Octobre 2015
Dans notre exemple :
Population : les 20000 étudiants de l’USTHB= {Y1, …, Y20000}
Individu :
étudiant
Echantillon : par ex. {y1, …, y30}
Caractère : âge.
Dans cet exemple, il y a 6 caractères différents:
Revenu, Sexe, Age, Ancienneté, Palier d’étude, Nombre de frères et sœurs.
III/ Nature d’un caractère
CARACTERE ou VARIABLE:
(mesuré sur chaque individu et noté X )
QUALITATIF
Ordinal
QUANTITATIF
Nominal
Ex: (Palier: L, M, D)
Discret
(Sexe: H, F)
(nbre de F/S)
Continu
(Age, Anc., Rev.)
IV/ Tableaux statistiques
L’objet des statistiques est d’étudier des caractères (ou des variables) sur des individus.
La récolte initiale des données conduit à un tableau brut. Comme le tableau 1 précédent.
Pour un caractère, le tableau brut se met sous la forme suivante (Tableau A)
Individu variable
1
X1
2
X2
.
.
.
.
.
.
n
Xn
Modalité effectif
x1
n1
x2
n2
.
.
.
.
.
.
xk
nk
Tableau A
Tableau B
Cependant, le nombre d’individus observés étant en général important, ce tableau (A) ne
permet pas d’analyser l’information obtenue. Il est donc nécessaire de créer un tableau
(tableau B), plus synthétique, où les observations identiques (possédant la même modalité)
ont été regroupées.
Ainsi, après avoir mis en ordre les résultats obtenus au cours de l’étude d’un caractère X,
mesuré sur les membres d’une population, une série statistique se présente sous la forme d’un
ensemble de valeurs xi représentant les différentes modalités du caractère. Ces valeurs xi
peuvent se répéter, chacune un nombre ni de fois.
M. YAHI
Page 3
2015/2016
EFTG
STATISTIQUE
Octobre 2015
Une série statistique est l’ensemble des couples (xi , ni), i=1,…,k où k est le nombre de
modalités. Elle est présentée sous forme d’un tableau. (Comme dans l’exemple suivant)
On appelle effectif de la modalité xi, le nombre ni d’individus pour lesquels le caractère X
prend la valeur xi.
i
nicum  nic  n1  n2    ni   nk
On appelle effectif cumulé en xi , le nombre
k 1
fi 
On appelle fréquence de xi , le nombre
ni
n
f icum  f ic  f1  f 2    f i
On appelle fréquence cumulée en xi , le nombre
Remarque : toutes ces informations peuvent être résumées dans un tableau appelé tableau de
distribution de la variable.
Pour les différents caractères de l’exemple, il y a 6 séries statistiques
1) Sexe: qualitatif nominal
H
xi
ni 20
fi 0.67
F
10
0.33
Total
30
1
i=1,2
Modalités
2) Palier d’études: qualitatif ordinal
xi
ni
fi
L
13
0.43
M
14
0.47
D
3
0.1
Total
30
1
i= 1,2,3
3) Nombre de frères et soeurs: quantitatif discret.
i
1
2
3
4
5

M. YAHI
xi
1
2
3
4
5
ni
2
6
12
8
2
30
nic
2
8
20
28
30
Page 4
fi
0.07
0.20
0.40
0.26
0.07
1
fic
0.7
0.27
0.67
0.93
1
2015/2016
EFTG
STATISTIQUE
Octobre 2015
4) Revenus des parents : quantitatif continu.
Il y a lieu de distinguer entre variable discrète et variable classée (regroupées en classes).
Lorsque les modalités d'une variable discrète sont trop nombreuses, il est préférable de
regrouper des modalités pour obtenir une variable classée afin que les tableaux synthétisent
l'information et restent lisibles. Une variable continue est une variable classée. La répartition
des données se fait alors sous forme de regroupement en classes des données voisines. Nous
ne considèrerons que le regroupement en classes de même amplitude, comme suit :
Les classes sont des intervalles fermés à gauche et ouverts à droite, contiguës (adjacentes)
mais qui ne se chevauchent pas. [a0, a1 [ , [a1, a2 [ , [a2, a3 [, ……..,[ak-1, ak [
En général, a0 = Xmin . La dernière classe peut être fermée à droite.
Soit k, le nombre de classes. Alors le nombre de classes à prendre est donné par :
k= E[5log n] (ou bien k = n si n ≤ 50), où n est la taille de la série brute.
Soit a = amplitude de classe (longueur de l’intervalle) et E = étendue de la série = Xmax - Xmin
E
E
Alors a = . On prendra le plus petit a, convenable, tel que a ≥
k
k
Pour notre exemple des revenus, on a n = 30, et k = n = 30 = 5,48 . On prend k ≈ 5
E= xmax - xmin = 109553 -14060 = 95493 ;
95793
E
 19098,6  20000 . On prendra a0 = 10000.
Ainsi, a = =
5
k
D’où le tableau de distribution de la variable « Revenus »
xi
ni nic
fi
fic
Classes
[10000-30000[ 20000 12 12 0.400 0.400
[30000-50000[ 40000 9 21 0.300 0.700
[50000-70000[ 60000 4 25 0.133 0.833
[70000-90000[ 80000 3 28 0.100 0.933
[90000-110000] 100000 2 30 0.067
1
Total
30
1
Le tableau ci-dessus résume toutes les données. A remarquer, que dans le cas d’un caractère
continu le rôle des modalités xi est joué par le centre des classes.
.
5) Age : quantitatif continu (discret regroupé en classes).
fi
Classes xi ni nic
[17-19[ 18 5
5 0.167
[19-21[ 20 5 10 0.167
[21-23[ 22 9 19 0.300
[23-25[ 24 7 26 0.233
[25-27] 26 4 30 0.133
Total
30
1
6) Ancienneté : quantitatif continu (discret regroupé
l’exemple 5).
M. YAHI
Page 5
fic
0.167
0.334
0.634
0.867
1
en classes).Idem que
2015/2016
EFTG
STATISTIQUE
Octobre 2015
V/ Représentation graphique
1. Représentations Graphique d’une série statistique quantitative :
i) Le diagramme en bâtons pour les variables DISCRETES :
C’est la représentation sur un graphe du tableau de distribution en mettant en abscisse les
valeurs xi, en ordonnés les effectifs (ou les fréquences) correspondant(e)s et en traçant une
ligne verticale à partir de xi jusqu’à ni (ou fi).
Exemple : Variable « nombre de frères et soeurs »
Effectif ni
12
8
6
2
2
1
2
3
4
5
xi
ii) L’Histogramme pour les variables CONTINUES :
C’est la représentation sur un repère de la série en portant en abscisses les classes (toutes de
même amplitude) et en ordonnés les effectifs (ou les fréquences) et en traçant un rectangle
ayant pour base la classe [ai , ai+1 [ et pour hauteur l’effectif (ou la fréquence )
correspondant(e).
Exemple : variable « Âge »
Effectif
9
7
5
4
17
M. YAHI
19
21
23
25
Page 6
xi
27
2015/2016
EFTG
STATISTIQUE
Octobre 2015
2. Représentations Graphique d’une série statistique qualititative:
i) Diagramme en secteurs circulaires
- L'effectif total est représenté par un disque.
- Chaque modalité est représentée par un secteur circulaire dont la surface (donc l'angle au
centre) est proportionnelle à l'effectif correspondant.
On calcule pour chaque modalité du caractère, la valeur de l’angle au centre associé, valeur
qui est proportionnelle à la fréquence. On aura  i  f i  360 :
Exemple : Palier d’étude
Xi
ni
fi
i
L
13 0.43 154.8°
M
14 0.47 169.2°
36°
D
3 0.10
360°
Total 30
1
Palier d'étude
D
10%
L
43%
M
47%
Diagramme en secteurs circulaires de la variable « Palier d’étude »
M. YAHI
Page 7
2015/2016
EFTG
STATISTIQUE
Octobre 2015
ii) Représentation en tuyaux d’orgues
(ou diagramme en barre ou diagramme à bandes)
- les modalités de la variable sont placées sur une droite horizontale (attention: ne pas
orienter cette droite car les modalités ne sont pas mesurables et il n'y a donc pas de relation
d'ordre entre elles.
- les effectifs (ou les fréquences) sont placés sur un axe vertical. La hauteur du tuyau est
proportionnelle à l'effectif.
Attention: les tuyaux ont une certaine épaisseur pour qu'il n'y ait pas de confusion avec les
diagrammes en bâtons réservés à la variable quantitative discrète.
On représente chaque modalité par un rectangle de base commune et de hauteur égal à son
effectif ou sa fréquence.
16
14
12
10
B
8
6
A
4
2
C
0
Licence
Master
Doctorat
Représentation en tuyaux d’orgues de la variable « palier »
M. YAHI
Page 8
2015/2016
EFTG
STATISTIQUE
Octobre 2015
3. Diagrammes cumulatifs
i) Variable discrète.
Soit X une variable statistique prenant les modalités x1 , x2 ,  , xk avec les effectifs
correspondants n1 , n2 ,, nk ou les fréquences correspondantes f1 , f 2 ,, f k .
Le diagramme cumulatif est obtenu en joignant les bâtons cumulés par une ligne en escalier.
La fonction de répartition de la variable statistique X,
F est une application F : R  [ 0,1]
x  F(x)
où ,
Exemple 1:
xi
0
1
2
3
4
5

ni
4
10
6
4
1
1
26
M. YAHI
F(x) =
si x  x1
 0
 f
si x1  x  x 2
 1
 f 2cum
si x2  x  x3


 f icum
si xi  x  xi 1

 1
si x  x k
X = nombre d’écoliers par logement dans un immeuble de 26 appartements.
nic
4
14
20
24
25
26
Page 9
2015/2016
EFTG
STATISTIQUE
Octobre 2015
ii) Variable continue
La courbe cumulative ou la fonction de répartition est obtenue en joignant les points ayant
pour abscisse la limite supérieure de classe et pour ordonnée l’effectif cumulé correspondant.
Elle permet de visualiser l'évolution des effectifs (fréquences) cumulés croissants ou
décroissants.
Remarque: les deux courbes sont symétriques par rapport à un axe horizontal d'ordonnée n/2
pour les effectifs, ½ pour les fréquences.
On utilise l'effectif (fréquence) cumulé croissant pour répondre aux questions du style:
Quel est le nombre (%) d'individus dont la valeur du caractère est inférieure ou égale à x ?
On utilise l'effectif (fréquence) cumulé décroissant pour répondre aux questions du style:
Quel est le nombre (%) d'individus dont la valeur du caractère est strictement supérieure à x ?
Se souvenir:
Au plus x ( < x ) : utiliser N(x) ou F(x), où N(x) est l’effectif cumulé croissant.
Plus que x ( > x) : utiliser N '(x) ou F '(x), où N’(x) est l’effectif cumulé décroissant
Exemple 2:
X = poids de 100 jeunes adolescents
ni nic
Classes xi
[38-40[ 39 11 11
[40-42[
28
[42-44[
16
[44-46[
25
[46-48]
15
[48-50[
5
Total
100
M. YAHI
Page 10
2015/2016
EFTG
STATISTIQUE
Octobre 2015
VI/ Paramètres de tendance centrale (Paramètres de position)
Synthétiser l'information contenue dans un tableau par un graphique est la première étape
réalisée en statistique. Par la suite, on cherche à synthétiser encore plus l'information en la
réduisant à une seule valeur numérique. Les caractéristiques de tendance centrale essayent de
donner la valeur la plus représentative d'un ensemble de valeurs numériques.
Remarque: les paramètres définis par la suite n'ont de sens que pour les variables
quantitatives.
1. Mode ( M 0 ).
C’est la valeur observée d'effectif maximum.
Variable discrète: Classer les données par ordre croissant. Celle d'effectif maximum donne le
mode. Une série statistique peut être unimodale ou plurimodale.
Variable classée (continue donnée en classe): La classe modale correspond à la classe ayant
l'effectif maximum. Il est fortement conseillé d'utiliser l'histogramme pour déterminer le
mode. Comme pour le cas discret, on peut avoir plusieurs classes modales. Toutes les valeurs
de la classe pouvant à priori se réaliser, on ne se contentera pas de déterminer la classe
modale. Une des valeurs de cette classe sera le mode. Certains auteurs préconisent par
simplicité de prendre le centre de la classe modale, cependant il est préférable de tenir compte
des classes adjacentes de la manière suivante:
Graphiquement le mode est obtenu comme ci-dessous. Analytiquement, le mode est obtenu
par interpolation:
Mo  l1  l
d1
d1  d 2
d1  ni  ni 1
d 2  ni  ni 1
ni est l’effectif de la
classe modale
ni-1 celui de la classe
précédente
ni+1 celui de la classe
suivante. l est
l’amplitude de classe
Exemple 2. Poids des ados.
Classes
[38-40[
[40-42[
[42-44[
[44-46[
[46-48]
[48-50[
Total
M. YAHI
xi
39
41
43
45
47
49
ni
nic
11
11
28 39
16 55
25 80
15 95
5 100
100
Page 11
2015/2016
et
EFTG
STATISTIQUE
Octobre 2015
2. Les Quantiles.
a) Définition
Soit   0,1 . On appelle quantile d’ordre  , noté q , le nombre tel qu’il y ait
n  observations qui lui soient inférieures dans une série ordonnée de taille n.
Pour   14 , 12 , 34 , on obtient respectivement le 1er , 2ème et 3ème quartile notés Q1, Q2 , Q3.
Le deuxième quartile, Q2 est appelé médiane
b) Calcul
i) Variable discrète: la détermination peut s'obtenir à partir du tableau statistique en
recherchant la valeur de la variable correspondant à un effectif cumulé égal à n ou une
fréquence cumulée égale à  . Selon la valeur de n , on aura :
 xn  xn  1

si n  N
q = 
2

si n  N
 xn  1
xn est la valeur xi à laquelle correspond le nic ≥ n et [ . ] désigne la partie entière.
ii)Variable classée : on parlera de classe contenant q .C’est la classe qui a son effectif
cumulé ≥ n  (ou sa fréquence cumulée ≥  ) . q est alors déterminé par interpolation, à
l’intérieuer de cette classe, de la manière suivante:
q = a + (b-a) 
n  F1
F2  F1
ou
q = a + (b-a) 
  F (a)
F (b)  F (a)
[a,b[ est la classe contenant q : c’est la classe pour laquelle nic ≥ n . F2 est l’effectif
cumulé de la classe [a,b[, F1 celui de la classe précédente. F(b) est la fréquence cumulée de la
classe [a,b[ et F(a) celle de la classe précédente
Exemple 1:
xi
0
1
2
3
4
5

ni
4
10
6
4
1
1
26
M. YAHI
X = nombre d’écoliers par logement dans un immeuble de 26 appartements.
nic
4
14
20
24
25
26
Page 12
2015/2016
EFTG
STATISTIQUE
Exemple 2:
Classes
[38-40[
[40-42[
[42-44[
[44-46[
[46-48]
[48-50[
Total
Octobre 2015
X = poids de 100 jeunes adolescents
xi
39
41
43
45
47
49
ni
nic
11
11
28 39
16 55
25 80
15 95
5 100
100
c) Représentation graphique
Graphiquement, q est l’abscisse du point d’ordonnée  de la fonction de répartition .
Exemple:  =0,5, alors la médiane est représentée pour une variable discrète
Si la variable est continue
M. YAHI
Page 13
2015/2016
EFTG
STATISTIQUE
Octobre 2015
3. La moyenne arithmétique:
a) Définition. La moyenne arithmétique, notée X , est donnée par la quantité
k
1 k
X   ni xi , ou de manière équivalente, X   f i xi .
n i 1
i 1
Les xi sont les modalités (ou les centres de classes) du caractère, et les ni les effectifs.
La moyenne arithmétique est un paramètre de tendance centrale plus utilisé que les autres de
par ses propriétés algébriques: les calculs sont résumés dans un tableau statistique de la sorte:
xi
x1
x2............................ x k
ni
n1
n2
ni xi
n1 x1

nk
n
n2 x2........................ nk x k
 ni xi
b) Propriétés
Pour plusieurs populations d’effectifs n1, n2, …nk, de moyenne x1 , x2 , ....., xk .
Moyenne globale = moyenne des moyennes
x
1 k
 ni x i
n i 1
c) Relation entre Mode, Médiane et Moyenne Arithmétique
Dans le cas de distributions unimodales, la médiane est comprise entre la moyenne et le
mode, plus proche de la moyenne que du mode
Si la distribution est symétrique, ces trois caractéristiques de tendance centrale sont
confondues.
VII/ Paramètres de dispersion
Comme leur nom l'indique, ces caractéristiques essayent de synthétiser par une seule valeur
numérique la dispersion de toutes les valeurs observées.
1) Etendue: C'est la différence entre la plus grande et la plus petite observation.
M. YAHI
Page 14
2015/2016
EFTG
STATISTIQUE
Octobre 2015
2) Intervalle inter-quartiles:
Donné par Q1 ; Q3 . Il contient 50% des observations centrales, symétriquement de part et
d’autre de la médiane. Sa longueur s’appelle l’écart inter-quartiles.
3) Variance et écart-type:
1 k
a) Moment d’ordre r: il est donné par le nombre m   n x r , où les xi sont les
r n
i i
i 1
observations d'une variable discrète ou les centres de classe d'une variable classée.
Remarque : m1  x
b) Moment centré d’ordre r: il est donné par le nombre,  r 
1 k
ni ( xi  x) r

n i 1
c) Variance
i) Définition:
La variance notée VarX ou  2 est le moment centré d’ordre 2 , i.e.  2 =  2
1 k
 ni ( xi  x) 2
n i 1
2 =
et  2 =
1 n
( xi  x ) 2

n i 1
pour une série groupée
pour une série brute.
ii) Calcul: On montre que :
et
2
2
1 n 2
xi  x

n i 1
2
2
1 k
ni xi2  x

n i 1
pour une série groupée
pour une série brute.
Var = la moyenne des carrés – carré de la moyenne
Remarque: Cette dernière formule est plus adaptée aux calculs algébriques. On rajoute une
ligne au tableau précédent :
M. YAHI
xi
x1
x2.................................... x k
ni
ni xi
n1
n1 x 1
n2
.........
n2 x2.............................
nk
nk x k
ni xi2 n1 x12
n2 x22.........….................
nk x k2
Page 15



n
ni xi
ni xi2
2015/2016
EFTG
STATISTIQUE
Octobre 2015
d) L’écart-type: On utilise plus couramment l'écart-type, noté  , qui est la racine carrée
de la variance et qui a l'avantage d'être un nombre de même dimension que les données
(contrairement à la variance qui en est le carré)
La variance est un paramètre de dispersion plus utilisé que les autres de par ses propriétés
algébriques.
Pour plusieurs populations d’effectifs n1, n2, …nk, de moyenne x1 , x2 , ....., xk et de variances
V1, V2, …Vk.
Variance globale = Variance des moyennes + Moyenne des variances

1 k
V =  xi  x
n i 1

2
1 k
1 k
+  ni Vi , où x   ni xi représente la moyenne des moyennes.
n i 1
n i 1
4) Changement de variable:
Proposition: Soient X et Y deux variables statistiques et soient a et b deux nombres réels tels
que X  a Y  b . Alors, X  a Y  b et  X2  a 2 Y2 .
On choisira a = amplitude de classe, et b = milieu de la classe centrale (si le nombre de
classes est pair, prendre la classe centrale ayant le plus grand effectif).
On calculera les valeurs yi , la moyenne Y et la variance  Y2 de la variable Y comme suit:
x b
yi  i
a
1 k
y   ni yi
n i 1
2
1 n 2
 Y   yi  y
n i 1
2
2
On en déduira la moyenne X et la variance  X
, en utilisant les formules de la proposition.
Exemple 1: (Nombre d’écoliers)
Calcul direct de la moyenne et de la variance.
xi
0
1
2
3
4
5

ni ni xi ni xi2
4
10
6
4
1
1
26
M. YAHI
Page 16
2015/2016
EFTG
STATISTIQUE
Octobre 2015
Exemple 2: (Poids des ados.)
Calculer la moyenne et la variance en utilisant un changement de variable (changement
d’échelle et d’origine).
On prend a = 2 et b = 45.
Classes
ni
xi
[38,40[
[40,42[
[42,44[
[44,46[
[46,48[
[48,50[
11
28
16
25
15
5
100
39
41
43
45
47
49

ni xi
ni x i 2
yi 
xi  45
2
ni y i
ni yi 2
5) Coefficient de Variation:
Il est donné par
CV ( X )   X .
C'est un coefficient qui permet de relativiser l'écart-type en fonction de la taille des valeurs.
Il permet ainsi de comparer la dispersion de différentes séries de mesures exprimées dans des
unités différentes, car il n’a pas d’unité.
La série avec le plus petit coefficient de variation serait la moins dispersée c'est-à-dire elle
aurait ses valeurs situées plus autour de la moyenne que les autres séries.
Exemple: Comparer les CV des deux séries, ‘‘Nombre d’écoliers’’ et ‘‘Poids des ados.’’.
Laquelle est la plus dispersée ?
M. YAHI
Page 17
2015/2016
EFTG
STATISTIQUE
Octobre 2015
Boîte à moustaches
Lecture d’une boîte à moustaches
On repère sur la boîte à moustaches d’une variable:
• l’échelle des valeurs de la variable, située sur l’axe vertical.
• la valeur du 1er quartile Q1 (25% des effectifs) , correspondant au trait inférieur de la boîte,
• la valeur du 2ème quartile Q2 (50% des effectifs), représentée par un trait horizontal à
l’intérieur de la boîte,
• la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au trait supérieur de la boîte,
• les 2 « moustaches» inférieure et supérieure, représentées par les petits rectangles verticaux
de part et d’autre de la boîte. Ces 2 moustaches, délimitent les valeurs dites adjacentes qui
peuvent être calculées respectivement en fonction de l’écart iner-quartile comme suit ;
Q1 – 1,5 x (Q3 – Q1) et respectivement Q3 + 1,5 x (Q3 – Q1)
Rq parfois, on les prend égales respectivement au premier et au neuvième décile
• les valeurs dites extrêmes, atypiques, exceptionnelles,(outliers) situées a au-delà des valeurs
adjacentes sont individualisées. Elles sont représentées par des marqueurs (carré, ou étoile,..)
Propriétés
 La médiane tout comme la moyenne n’est pas forcément égale à une valeur rencontrée
dans les données.
 La médiane et la moyenne sont des représentants d’une position centrale dans les données.
 La médiane et la moyenne ont chacune une valeur comprise entre les valeurs extrêmes de
la distribution.
 Les deux valeurs peuvent être égales ou différentes.
o Elles sont égales si la distribution est symétrique.
o Lorsque la distribution est plus allongée vers les grandes valeurs, la médiane est
inférieure à la moyenne.
o Lorsque la distribution est plus allongée vers les petites valeurs, la médiane est
supérieure à la moyenne.
o Plus la distribution est dissymétrique, plus la médiane s’écarte de la moyenne.
 En supprimant un point atypique dans les données, la moyenne est très influencée par les
valeurs extrêmes, ce qui n’est pas le cas de la médiane.
Exemple
Soient les notes obtenues par trois groupes d’étudiants à un contrôle d’informatique :
Groupe 1
2
5
9
11
12
14
16
18
19
Groupe 2
1
3
4
5
6
7
9
11
13
Groupe 3
7
9
12
13
14
15
15
16
17
Pour pouvoir comparer les notes des 3 groupes on trace
les boites à moustaches
Groupe 1
Q1
9
Moust.Inf 2
Médiane
12
Moust.Sup 19
Q3
16
Moy
11,8
Groupe 2
4
1
6
13
9
6,6
Groupe 3
12
7
14
17
15
13,1
Rq Ici on prendra Moust Inf = xmin car Q1 – 1,5 x (Q3 – Q1) < xmin et
Moust Sup= xmax car Q3 + 1,5 x (Q3 – Q1) > xmax
M. YAHI
Page 18
2015/2016
EFTG
STATISTIQUE
Octobre 2015
VIII/ Paramètres de forme :
Outre la tendance centrale et la dispersion, on peut chercher à caractériser la forme d’une
distribution au moyen des indices d’asymétrie et d’aplatissement de Fisher.
Ces indices sont sans dimension et invariants par changement d’origine et d’échelle.
1. Coefficient d’asymétrie de Fisher
C’est le nombre noté  1 ,
1 
3
3
  1 = 0 si la distribution est symétrique.
  1 > 0 si la distribution est étalée vers la droite
  1 < 0 si la distribution est étalée vers la gauche
1 = 0
1 > 0
1 < 0
2. Coefficient d’aplatissement de Fisher
C’est le nombre noté  2 ,
2 
4
3
4
2 
4
3
( 2 ) 2
Le coefficient d’aplatissement d’une variable de distribution Normale est égal à 3. Une telle
distribution en « cloche » est souvent considérée comme idéale. Pour cette raison :
  2 = 0, la série est Normale
  2 > 0, la série est moins aplatie qu’une série statistique normale de même
moyenne et de même variance
  2 < 0, la série est plus aplatie qu’une série statistique normale de même moyenne et
de même variance
M. YAHI
Page 19
2015/2016
EFTG
STATISTIQUE
Octobre 2015
IX/ Autres moyennes
1. Moyenne Géométrique
Exemple :
Un marchand dispose d’une balance dont les bras n’ont pas la même longueur (b>a) de telle
sorte que les masses marquées placées dans l’un des plateaux équilibrent une masse différente
placée dans l’autre plateau. Pour effectuer une pesée il décide de faire 2 mesures successives,
- une en plaçant les masses marquées à gauche, il trouve 1100g.
- l’autre pesée est effectuée en plaçant les masses marquées à droite et il trouve 900g.
Le marchand annonce alors que le vrai poids est de 1000g.
Dit-il vrai ou faux ?
Définition
La moyenne géométrique de n nombres strictement positifs x1, x2, …, xn est le nombre mg
tel que
m g  x1 .x2 .....xn
n
mg 
i.e
n
x1. x2 ....xn
=


m g    xi 
 i 1 
n
1
n
Pour une série groupée, on obtient
1
mg 
n
n1
n2
x1. x2 ....xk
nk
=
k
n
m g    xinii 
 i 1

k
avec
n
i 1
i
n
2. Moyenne Harmonique
Exemple :
Un coureur fait un tour de piste à la vitesse de 26 km/h et au deuxième tour à une vitesse de
30 km/h. Il fait ainsi les 800m avec une vitesse de 28 km/h. (la moyenne arithmétique des 2
vitesses).
Est ce vrai ou faux ?
M. YAHI
Page 20
2015/2016
EFTG
STATISTIQUE
Octobre 2015
Définition
La moyenne harmonique de n nombres strictement positifs x1, x2, …, xn est le nombre mh
tel que
1
1 1 1
1
    ...
mh n  x1 x2
xn



mh 
ie
1
1 1
1
1
 
 ...
n  x1 x2
xn




n
n
1
x
i 1
i
Pour une série groupée, on obtient
1 k n
mh    i
 n i 1 xi



1
k
avec
n
i 1
i
n
2. Moyenne Quadratique
Exemple
On dispose de 2 médaillons d’argent en forme de carré , l’un de 1cm, l’autre de 2cm de côté.
On les donne à un bijoutier pour en faire 2 médaillons d’égal côté. Le bijoutier donne 2
médaillons de 1,5cm de côté chacun. (la moyenne arithmétique des 2 côtés). Est ce correct ?
Définition
La moyenne quadratique de n nombres x1, x2, …, xn est le nombre mq tel que
mq2 
1 n 2
 xi
n i 1
1
n
mq 
ie
n
x
i 1
2
i
Pour une série groupée, on obtient
mq 
M. YAHI
1
n
n
 ni xi2
k
avec
i 1
Page 21
n
i 1
i
n
2015/2016
Téléchargement