chapitre 2 : serie statistique a un caractere

publicité
CHAPITRE 2 : SERIE STATISTIQUE A UN
CARACTERE.
A) Généralités.
1) Introduction
La statistique est une méthode « scientifique » de l’information dont la matière principale
est fournie par des données numériques en nombre suffisamment important.
Ces données numériques doivent être présenter sous des formes facilement interprétables et
exploitables.
Pour ce faire, la statistique descriptive utilise :
- soit des tableaux
- soit différents types de représentation graphique
- soit des résumés numériques appelés caractéristiques.
2) Définitions et vocabulaire.
Population statistique : C’est l’ensemble des éléments à partir duquel les données sont
obtenues.
Individu en unité statistique : C’est l’élément de la population.
Echantillon : C’est une partie de la population constituée de n individus extraits des
conditions déterminées.
Caractère : Chaque individu de la population est repéré ou analysé selon un critère appelé
caractère.
Modalité : Chaque caractère peut présenter plusieurs états appelés modalités et les modalités
d’un caractère sont incompatibles et exhaustives.
Caractères qualitatifs : Les modalités ne sont pas mesurables même si parfois on peut les
représenter par des codes numériques.
Caractères quantitatifs : appelés aussi variables statiques lorsque les modalités sont
mesurables.
- La variable est dite « discrète » si les valeurs prises sont isolées.
- La variable est dite « continue » si les prises appartiennent a un intervalle de
.
Exemple de base : Une enquête sociologique a été menée par un organisme auprès de 100
familles vivants dans une cité. Trois questions ont été posées :
- La Catégorie Socioprofessionnelle (CSP) du chef de ménage (employé, courrier,
cadre moyen, personne non-active.)
- Nombres moyens d’appareils électroménagers par famille.
- Le niveau d’endettement annuel par famille.
Dans cet exemple, les caractères sont les différentes questions de l’enquête. La détermination
dépend du caractère étudié.
Population
Unité
statistique
UN chef de
ménage.
Caractère
Question 1
Ensemble des
chefs de
ménage.
CSP
Question 2
Ensemble des UNE famille
familles
Nombre
d’appareils
électroménagers
Question 3
Ensemble des UNE famille
familles
Niveau
d’endettement
Nature du
caractère
Qualitatif
Modalités
4
(ouvrier,
employé,
cadre moyen)
8
(0,1,2,3,
4,5,6,7)
Quantitatif,
Variable
statique
discrète
Quantitatif,
Variable
statique
continue
6
[0,1000[ ;
[1000,2000[
[2000,2500[
[2500,3500[
[3500,4000[
[4000,5000[
B) Série Statistique a un caractère
I) Distribution statistique :
Par la suite, on considère que la population a un effectif total égal à n ,et le caractère
analyse admet exactement r modalités.
1) Définition 1 :
On appelle « distribution statistique » la donnée de tous les couples
 m , n  ; i  1,..., r
i
i
Où mi est la modalité de rang i et ni le nombre de fois que celle-ci a été observée.
On dit que ni est « l’effectif » ou la « fréquence absolue » de la i ème modalité.
Propriété : L’effectif total n est la somme de tous les effectifs, c’est a dire :
n  n1  n2  ...  nr
2) Définition 2 :
On appelle « fréquence » ou « fréquence relative » de la i ème modalité ni la quantité notée
n
f i définie par : fi  i .
n
Propriétés : 0  fi  1
r
Et
f
i 1
i
1
.
3) Tableaux des fréquences.
a) 1er Cas : Caractère qualitatif.
Exemple 1 : Répartition des chefs de ménage selon leur catégorie socioprofessionnelle (CSP).
CSP
ni
Employés
Ouvriers
Cadre moyen
Non actifs
Total
30
40
20
10
100
f i (en %)
30
40
20
10
100
b) 2ème Cas : Caractère quantitatif, variable discrète.
Exemple 2 : Nombre moyens d’appareils électroménagers par famille.
ni
xi
0
1
2
3
4
5
6
7
Total
2
15
30
20
15
10
5
2
100
fi
0.02
0.15
0.30
0.20
0.15
0.10
0.05
0.02
1
c) 3ème Cas : Caractère quantitatif, variable continue.
Les modalités sont des intervalles de
appelés « classes » et notées Ci .
Ci   i ,  i 1  où  i  i  1,......, r  1 représente les extrémités des classes.
Exemple 3 : Distribution du niveau d’endettement annuel de chaque famille.
Ci
ni
[0,1000[
[1000,2000[
[2000,2500[
[2500,3500[
[3500,4000[
[4000,5000[
Total
26
30
22
14
6
2
100
fi
0.26
0.30
0.22
0.14
0.06
0.02
1
d) Fréquence cumulées.
Définition : On appelle « fréquence cumulée » de la i ème modalité d’une variable statistique,
la somme des fréquences des i premières modalités.
i
On la note par Fi et on a : Fi  f1  f 2  ...  fi   f j
j 1
Propriétés : F1 = f1
r
Fr   fi  1
i 1
4) Fonction de répartitions .
Définition : on appelle fonction de répartition d’une distribution statistique, l’application F
qui à tout nombre réel x associe la proportion d’individus, dont le caractère est
strictement inférieur à x .
Propriétés : a) F( x 1) = 0 ( Cas discret )
Et F(  1) = 0 ( Cas continu )
b) Pour tout x contenu dans l’intervalle ] x k , x
a.
( avec x k < x ≤ x
F( x )= f 1 + f 2 +……+ fk
k
=
b.
k+1]
fi

i 1
 F (k )
( Cas discret )
F (k)  f 1  f 2  ..... fk  1
k 1
  fi  F ( k  1)
( Cas continu )
i 1
Remarque : Pour tout
x xk, xk  1] , si on fait tendre x vers xk  1 , alors :
k
lim F ( x)  F ( xk  1)   fi  Fk
xxk 1
i1
 Donc F est une fonction continue a gauche.
c.
F ()  0 et
F ()  1
k+1
), on a:
Exemple numérique :
Cas discret : (Tableau de l’exemple 2).
xi
0
1
2
3
4
5
6
7
Total
ni
2
15
30
20
15
10
5
3
100
fi
0.02
0.15
0.30
0.20
0.15
0.10
0.05
0.03
1
Fi
2
17
47
67
82
92
97
100
F( x )
0
0.02
0.17
0.47
0.67
0.82
0.92
0.97
1
Interprétation : - Par exemple, 67% des familles ont au plus 3 appareils
électroménagers, car F(4) = 0.67
- Ou alors 98% des familles possèdent au moins 1 appareil
électroménager, car F(1) = 0.02
Cas continu : (Tableau de l’exemple 3).
i
0
1000
2000
2500
3500
4000
5000
Total
ni
--------------------26
--------------------30
--------------------22
--------------------14
--------------------6
--------------------2
--------------------100
fi
--------------------26
--------------------30
--------------------22
--------------------14
--------------------6
--------------------2
--------------------100
Fi (en %)
--------------------26
--------------------56
--------------------78
--------------------92
--------------------98
--------------------100
---------------------
F( x )
0
0.26
0.56
0.78
0.92
0.98
1
Interprétation : Par exemple, 78% des familles ont des niveaux d’endettement supérieur ou
égal a 2500, car F(2500) = 0.78
5) Représentation par les fréquences.
a) Diagramme à secteurs.(Cas des caractères qualitatifs)
La population est représentée graphiquement par une surface circulaire. A chaque modalités
mi , on associe un secteur Si dont l ‘angle au centre  i est nécessairement proportionnelle à la
fréquence de la ième modalité.
On doit avoir vérifier pour la validité de la construction que i  k  fi ;
r
Or puisque :
fi  1

i 1
r
De ceci , on a :
r
, alors on doit avoir :
 i  2

i 1
.
r
i   k  fi  2

i 1
i 1
r
, ce qui équivaut à : k
Nous pouvons donc en conclure que : k  2 .
fi  2

i 1
Application 1: (Tableau de l’exemple 1).
ni
30
40
20
10
100
CSP
Employés
Ouvriers
Cadre moyen
Non actifs
Total
fi (en %)
30
40
20
10
100
Répartition des chefs de ménage
selon leur CSP
10%
30%
20%
40%
b) Diagramme différentiel.
1°) Variable discrète.
On appelle « diagramme en bâtons » d’une distribution statistique d’une variable discrète la
représentation graphique suivante :
h
hk
hr
h1
x1
xk
x
xr
Propriétés : hi doit être proportionnel à la fréquence f i :
Application 2 : (Tableau de l’exemple 2)
ni
xi
0
1
2
3
4
5
6
7
Total
fi
0.02
0.15
0.30
0.20
0.15
0.10
0.05
0.02
1
2
15
30
20
15
10
5
2
100
Nombre d'appareils électroménagers par famille
fi (en %)
40
30
30
10
20
15
20
15
10
2
5
2
7
8
0
1
2
3
4
5
xi
6
2°) Variable continue.
On appelle « histogramme » d’une distribution statistique d’une variable continue la
représentation graphique suivante :
h
hi
Si
i

i  1
Avec Si  k  fi , en notant par hi la hauteur de Si , on a : Si  hi  ( i  1   i) .
Notons maintenant par ai l’amplitude de la ieme classe ; on a : ai   i  1   i .
Nous avons alors : Si  hi  ai  k  fi .
Cette relation nous permet de déterminer hi , en effet :
d’où
Soit
d
i
f
a
i
hi  ai  k  fi ,
hi 
k  fi
ai
.
, la fréquence par unité d’amplitude, on l’appelle « densité de fréquence ».
i
Nous pouvons à présent distinguer deux cas :
1er Cas : Considérons, pour une série statistique donnée, des amplitudes identiques, par
exemple ai = a , alors, pour tout i , on peut prendre k  a , alors :
hi 
k  fi
a  fi
 hi 
 hi  fi
ai
a
2ème Cas : Considérons à présent des amplitudes différentes pour une série statistique donnée.
k  fi
On prend alors hi 
, avec un k égal à l’amplitude la plus fréquente, c’est-à-dire on
ai
« rectifie » les fréquences en écrivant :
hi 
a  fi
(avec a l’amplitude la plus fréquente)
ai
Application 3 : (Tableau de l’exemple 3)
Ci
ai
fi (en %)
[0,1000[
[1000,2000[
[2000,2500[
[2500,3500[
[3500,4000[
[4000,5000[
1000
1000
500
1000
500
1000
26
30
22
14
6
2
Ici, l’amplitude la plus fréquente et
1000  fi
.
hi 
hi 
1000  fi
ai
26
30
44
14
12
2
a  1000 . La formule pour calculer hi est donc :
ai
c) Diagramme intégral ou courbe cumulative .
Définition : On appelle « diagramme intégral » ou courbe cumulative d’une distribution
statistique (discrète ou bien continue) le graphe de sa fonction de répartition.
1°) Cas d’une distribution discrète.
Rappels : - F ( x1 )  0
k
- Pour tout x   xk ; xk 1  , on a : F ( x)  Fk  f1  ...  f k   fi
i 1
F ( x ) est donc continue à gauche, car : lim F ( x)  F ( xk 1 )  Fk
x xk 1
- F ( x ) est donc constante sur  xk ; xk 1  ,avec F ()  0 et F ()  1 .
Le diagramme intégral d’une distribution statistique discrète est donc le graphe d’une fonction
en escalier dont :
- la première marche est à la hauteur 0 .
- la dernière marche est à la hauteur 1 .
- les marches intermédiaires ont des hauteurs correspondantes aux fréquences
cumulées.
1
0
x1
x2
xr 1
xr
Application numérique avec le tableau de l’exemple 2 :
xi
0
1
2
3
4
5
6
7
Total
fi
0.02
0.15
0.30
0.20
0.15
0.10
0.05
0.03
1
F ( x)
Fi
2
17
47
67
82
92
97
100
0
0.02
0.17
0.47
0.67
0.82
0.92
0.97
1
2°) Cas d’une distribution continue .
k
Rappels : - F (1 )  0 et si x   k , alors F ( x)  f1  ....  f k 1   f i  Fk 1 .
i 1
- F ()  0 et F(+)=1 .
La fonction F est continue. A partir de ces résultats on a :
1
0
1
 r 1
k
2
x
Quelle est la forme de la courbe F sur  k ;  k 1  ,
F ( k 1 )
M k 1
M *
F ( k )
Mk
k
*
 k 1
x
Pour que le graphe de F sur  k ;  k 1  soit une droite, il faut que le coefficient directeur de
 M r ; M * soit identique à celui de la droite  M k ; M k 1  , autrement dit, il faut que :
F ( *)  F ( k ) F ( k 1 )  F ( k )

 *  k
 k 1   k
Comme : F ( k )  f1  ....  f k 1
Et :
F ( k 1 )  f1  .....  f k
 On a alors : F ( k 1 )  F ( k )  f k
On sait également que :
D’où :
 k 1   k  ak
, avec ak l’amplitude de  k ;  k 1  .
F ( *)  F ( k ) f k
f

, avec k la densité de  k ;  k 1  .
 *  k
ak
ak
F ( *)  F ( k )
fk
, et d * 
, la condition d *  dk revient tout
 *  k
ak
simplement à imposer à la densité d’être uniforme sur  k ;  k 1  (c’est l’hypothèse de la
En posant d k 
densité uniforme), ou encore à imposer que les valeurs observées dans cet intervalle sont
uniformément reparties.
Application : a) Diagramme intégral de la distribution du niveau d’endettement par
famille.(Exemple du tableau 3).
Ci   i ;  i 1
[0,1000[
[1000,2000[
[2000,2500[
[2500,3500[
[3500,4000[
[4000,5000[
Total
ai
fi
F ( x)
1000
1000
500
1000
500
1000
26
30
22
14
6
2
0
26
56
78
92
98
100
Diagramme intégral de la distribution du niveau d'endettement
par famille
100
80
60
1800
40
20
0
0
1000
1800
2000
2500
3500
4000
5000
b) On se donne x et on cherche à déterminer F ( x ) . On détermine l’intervalle de
densité uniforme  k ;  k 1  dans lequel tombe x .
On sait que si x   k ;  k 1  , alors l’hypothèse de la densité uniforme nous permet d’écrire :
F ( x)  F ( k ) F ( k 1 )  F ( k )

x  k
 k 1   k
Donc
F ( x)  F ( k )  ( x   k ) 
F ( k 1)  F ( k )
 k 1   k
Exemple : Déterminons le pourcentage des familles ayant un niveau d’endettement inférieur à
3000. Ici x  3000 , et on cherche à déterminer F (3000) . L’intervalle de densité uniforme
dans lequel tombe 3000 est la classe  2500;3500 . On identifie donc respectivement
 k  2500 et  k 1  3500 .
Numériquement, nous avons donc :
F (3000)  F (2500) F (3500)  F (2500)

3000  2500
3500  2500

D’où :
F (3000)  0.78 0.92  0.78 0.14


500
1000
1000
0.15
1000
F (3000)  0.85 ,
F (3000)  0.78  500
Et, par conséquent :
 Nous pouvons donc en conclure que 85% des familles ont un niveau
d’endettement inférieur à 3000.
c) On se donne F ( x ) . On cherche quelle est la valeur de x .On commence par
déterminer l’intervalle  F ( k ); F ( k 1 )  sur lequel tombe F ( x ) .
 k ;  k 1  étant une classe de densité uniforme, on a toujours :
F ( x)  F ( k ) F ( k 1 )  F ( k )
.

x  k
 k 1   k
En écrivant cette égalité différemment, on obtient :
x  k
 k 1   k

F ( x)  F ( k ) F ( k 1 )  F ( k )
Et, par suite, on a :
x   k   F ( x)  F ( k ) 
 k 1   k
F ( k 1)  F ( k )
.
Exemple : Calculons le niveau d’endettement x tel que 50% des familles ont un niveau
d’endettement inférieur à x . Nous avons alors : F ( x)  0.5 et 0.26  0.5  0.56 .
Or nous savons que : F ( k )  F ( x)  F ( k 1 ) avec  k  1000 et  k 1  2000 .
 F (1000)  F ( x)  F (2000)
 1000  x  2000
Nous pouvons donc effectuer les applications numériques :
x  1000 2000  1000
1000

 x  1000  (0.5  0.26) 
0.5  0.26 0.56  0.26
0.3
 x  1800
Nous pouvons donc en conclure que 50% des familles ont un niveau d’endettement inférieur à
1800. Nous pouvons même ajouter que 1800 est la médiane de la courbe (cf courbe cidessus).
II) Caractéristique d’une série statistique à une variable.
1) La moyenne ou la moyenne arithmétique.
a) Cas discret.
Soient les couples ( xi , ni ); i  1,...., r où
r
n
i 1
i
n .
Définition : On appelle « moyenne arithmétique » de cette distribution nombre noté x défini
r
n
par : x   f i xi , avec f i  i où ni représente le coefficient de pondération de la valeur xi .
n
i 1
Exemple : (cf Tableau de l’exemple 2) :
xi
ni
0
1
2
3
4
5
6
7
2
15
30
20
15
10
5
3
ni xi
0
15
60
60
60
50
30
21
On a :
8
8
n x
i 1
n
x   fi xi 
i i
i 1

296
 2.96 3
100
En moyenne, chaque famille possède environ 3 appareils électroménagers.
b) Cas continu.
Pour pouvoir calculer la moyenne de distribution continue, il faut à nouveau supposer
qu’il y a à l’intérieur d’une classe une répartition uniforme des valeurs observées (Hypothèse
de la densité uniforme.)
Cette hypothèse implique que la somme des valeurs observées est égale à leur nombre
multiplié par le centre de la classe qui les contient.
D’où la définition suivante : Soit Ci , ni ); i  1,....., r une distribution statistique continue. On
r
 i   i 1
i 1
2
appelle moyenne de cette distribution le nombre x défini par x   f i xi où xi 
eme
représente le centre de la i classe.
Ci est représentée par l’intervalle  i ,  i 1  .
Exemple : (Tableau de l’exemple 3) :
Ci
ni
xi
500
1500
2250
3000
3750
4500
[0,1000[
[1000,2000[
[2000,2500[
[2500,3500[
[3500,4000[
[4000,5000[
26
30
22
14
6
2
6
6
n x
i 1
n
On a : x   fi xi 
i i
i 1
 1810 .
En moyenne, chaque famille a un niveau d’endettement égal à 1810 .
r
Propriétés : a°)
 f ( x  x)  0
i
i 1
r
b°)

i 1
r
fi ( xi  a ) 2   f i ( xi  x) 2 , pour tout a
.
i 1
r
c°) Si x   f i xi  0 , on dit que la variable x est une « variable centrée ». En
i 1
particulier, la variable ( x  x ) est une variable centrée.
d°) Si xi  h  ui  x0 , alors : x  h  ui  x0 .
Preuve : Comme xi  h  ui  x0 , alors on a également : fi  xi  h  fi  ui  fi  x0 .
r
r
i 1
i 1
  fi xi   (h  f i  ui  f i  x0 )
r
r
i 1
i 1
  (h  f i  ui )   ( f i  x0 )
h et x0 sont des constantes donc on a :
r

i 1
r
r
i 1
i 1
fi xi  h ( f i  ui )  x0  ( f i )  x  h  ui  x0 .
2) Variance d’une distribution statistique.
Définition : On appelle « variance d’une distribution statistique » la quantité notée V (x) où
r
V (x)   X2   fi ( xi  x) 2 .
i 1
Dans le cas où la variable statistique est continue, on a : xi 
 i   i 1
2
.
Application numérique: on utilise a formule suivante :
2
 r

V (x)   X2    fi xi 2   x . La variance est donc la moyenne des carrés moins le carré de
 i 1

la moyenne.


r
PREUVE : On a : V (x)   fi ( xi  x)2 . Or nous savons que : xi  x
 
 f  x  x
 fi xi  x
i
i

i 1
 fi  xi 2  2 xi x  x
i 1
r
2
 fi xi 2
i 1
i
r
2

i 1

r
r
2
i i
i 1
2
i
r
i 1
i 1
2
i
r
2
i
i 1

i i
i 1
r
i
r
2
2
i i
     f x   2x f x   f  x 
2
i
 xi 2  2 xi x  x
2

  f  x   x     f  x    2x   f x   x 
r

2
 
 2x f x   x  f
2
  fi xi  x

2
i i
 
r

  fi  xi  x    fi  xi   2 x  x   fi  xi   x .

2
2
i 1
2
2
i 1
2
Exemple : Tableau de l’exemple 2.
xi
ni
ni xi
ni   xi 
0
1
2
3
4
5
6
7
2
15
30
20
15
10
5
3
0
15
60
60
60
50
30
21
0
15
120
180
240
250
180
2
On a : V (x)   X2
7
 
2
X
n x
i i
i 0
n

 x
2

1132
2
  2.96   2.56
100
147
Exemple : Tableau de l’exemple 3.
xi
ni
ni  xi 
500
1500
2250
3000
3750
4500
26
30
22
14
6
2
6500000
67500000
111375000
126000000
84375000
40500000
2
On a :
6
V (x) 
n x 
i 1
i
n
i
2

 x
2
 4362500  1810
 1086400
Propriétés :
a°) La variance est un indicateur de dispersion, c’est-à-dire qu’elle permet de
mesurer les fluctuations des modalités de la variable x autour de la moyenne
b°) Si xi  a , alors pour tout i on a : V (x)=0 , c’est-à-dire la variance d’une
constante est nulle. En effet, si on a : xi  a i alors x  a d’où :
r

V (x)=  fi xi  x
i 1
   f a  a
2
r
i 1
i
2
0 .
2

r
c°) V (x+a)=V (x) . En effet : V (x+a)= fi xi  a  x  a
i 1

2
 V (x) .
d°) Soit h un réel quelconque alors : V (h  x)=h 2  V (x)
r

V (h  x)= fi hxi  hx
i 1

2

   fi h xi  x
i 1 
r

2

  h2 f x  x

i
i

i 1
r

2
 h 2 V (x)
e°) Si V (x)=1 , alors on dit que la variable x est une « variable réduite ». En
particulier, une variable de moyenne nulle et de variance unité est appelée
variable centrée réduite .
r
f°) Théorème de Konig ===>  fi  xi  a   V (x) a
2
i 1
Remarque : Ecarts type :
Définition : L’écart type noté  X est la racine carrée de la variance :  X  V (x) .
Propriétés : a°) Si on multiplie la variable x par un réel quelconque h , l’écart type est défini
par :  X h  h  X .
 xx
b°) La variable 
 est une variable centrée réduite, c’est-à-dire de moyenne
 X 
nulle et de variance unité.
3) Le mode et la classe modale.
a) Cas discret.
On appelle « mode d’une distribution statistique continue » la classe ayant la plus forte
densité de fréquence ou d’effectif. On la note : M 0 .
b) Cas continu.
On appelle « classe modale d’une distribution statistique continue » la classe ayant la plus
forte densité de fréquence ou d’effectif. (Je rappelle que la densité s’écrit sous la forme :
fi 
di   .
ai 
Exemples :
Tableau 2 (cas discret) : M 0  2 appareils .
Tableau 3 (cas continu) : classe modale   2000, 2500 .
4) La médiane et l’intervalle médian.
Définition 1 : La médiane d’une distribution statistique notée M e est la valeur du caractère
qui partage les valeurs observées en deux groupes de même effectif.
Elle suppose pour sa détermination que les valeurs observées soient rangées dans un certain
ordre (croissant ou décroissant) .
Définition 2 : La médiane est le nombre M e vérifiant :
F (M e )  0.5  50% où F désigne la fonction de répartition de la distribution statistique.
Son interprétation est simple : 50% des observation sont inférieures à la médiane et 50% sont
supérieures.
a) Cas d’une variable discrète.
- Données individualisées.  ni  1 i 
La première définition suffit à la déterminer :

Si le nombre d’observations est impair, c’est-à-dire r  2 p  1 , la médiane est
parfaitement déterminée et M e  x p 1 .
Exemple : Soit le série : 3, 6, 12, 15, 21, 28, 32 . On a : r  7  2  3 1 , d’où on a : p  3 , et
on a alors : M e  x31  x4  15 .
 Si le nombre d’observations est pair, c’est-à-dire, r  2 p , on ne peut définir qu’un
« intervalle médian ».
Exemple : Soit la série : 3, 6, 12, 15, 21, 28, 32, 38 . Ceci amène à donner comme intervalle
médian 15, 21 .
- Données groupées.
La détermination de la médiane se fait graphiquement par l’intermédiaire de la fonction de
répartition. Il y a deux cas possibles :
 Si on a un pallier correspondant à l’intervalle  xi 1; xi  , on choisit xi .

Si la droite F ( x)  0.5 se trouve entre deux paliers  xi 1; xi  et
xi ; xi1  (situation
la plus fréquente), il n’existe de valeur de x tel que F ( x)  0.5 , alors par convention, on
prendra M e  xi .
Application numérique : (cf Tableau de l’exemple 2).
F( x )
xi
0
1
2
3
4
5
6
7
Total
(Graphe en cours de création)
0
0.02
0.17
0.47
0.67
0.82
0.92
0.97
1
 50% des familles ont moins de 3 appareils électroménagers et 50% ont au moins 3
appareils électroménagers.
b) Cas d’une variable continue.
La courbe de la fonction de répartition étant une ligne continue, prenant toutes les valeurs de
0;1 , il existe au moins une valeur qui soit l’antécédent de 0.5.
Si ce point est une extrémité de classe  k alors M e  xk .
Mais le cas le plus fréquent est le suivant : M e   k ;  k 1 .
En utilisant la méthode de l’interpolation linéaire, on a :
Me  k
 k 1   k
.

F ( M e )  F ( k ) F ( k 1 )  F ( k )
Comme : F (M e )  0.5 ;  k 1   k  ak (avec ak l’amplitude de la classe  k ;  k 1 
F ( k 1 )  F ( k )  f k (avec f k la fréquence de la classe  k ;  k 1  )
On obtient alors :
Me  k
a
a
 k  M e   k   0.5  F ( k )   k .
0.5  F ( k ) f k
fk
Application numérique : (cf Tableau de l’exemple 3).
i
F ( x)
1000
2000
2500
3500
4000
5000
Total
0
26
56
78
92
98
100
Diagramme intégral de la distribution du niveau
d'endettement par famille
100
80
60
1800
40
20
0
0
1000
1800
2000
2500
3500
4000
5000
Méthode de l’interprétation linéaire :
M e  1000 1000
1000

 M e  1000   0.5  0.26  
M e  1000;2000 , d’où :
0.5  0.26
0.3
0.3
 M e  1800
50% des familles ont un niveau d’endettement inférieur à 1800.
Propriétés : a°) L’écart absolu moyen par rapport à la médiane est minimal, c’est-à-dire :
r
r
i 1
i 1
a on a:  f i  xi  M e   f i  xi  a
b°) - La position de la médiane par rapport à la moyenne et au mode permet d’analyser la
dissymétrie de la distribution. En effet, si on a : M e  M 0  x , la distribution est symétrique.
M0  Me  x
- Si on a : M 0  M e  x , la distribution n’est pas symétrique, le graphe des fréquences est
étalé vers la droite.
M0  Me  x
- Si on a : x  M e  M 0 , la distribution n’est pas symétrique , le graphe des fréquences est
étalé vers la gauche.
x  Me  M0
5) La médiale.
Définition 1 : Lorsqu’elle a une signification concrète, on appelle masse affectée ou distribuée
à une classe  i ;  i 1  la quantité M i  ni  xi (où xi est le centre de la ieme classe.)
r
r
i 1
i 1
Soit S la masse totale distribuée définie par : S   M i   ni xi .
r
Remarque : x 
n x
i i
i 1
n

S
.
n
Définition 2 : On appelle « médiale d’une distribution statistique continue » la valeur du
caractère noté M le telle que la moitié de la masse totale (car 50% de la masse totale) soit
distribuée à des individus dont le caractère est inférieur à M le .
Détermination : On la détermine par interpolation linéaire en s’appuyant sur les pourcentages
cumulés de la Masse Totale.
i
En notant par Qi (en %) , on a : Qi 
M
j 1
S
j
.
Disposition des calculs :
Ci
xi
ni
i
i
Mi
M j
j 1
ai 
M
j 1
S
M1
S
M1  M 2
S
1;  2 
x1
n1
x1n1
x1n1
 2 ;  3 
x2
n2
x2 n2
x1n1  x2 n2
xi
ni
xi ni
x1n1  ....  xi ni
Mi
S
xr
nr
xr nr
S
1
:
:
 i ;  i 1
:
:
:
 r ;  r 1
Fq ( x )
1
q1
1
On a :
M le   i
0.5  Fq ( i )

2
r
 r 1
 i 1   i
.
Fq ( i 1 )  Fq ( i )
Application numérique :
Soit la distribution des salaires suivants :
Ci 102 
xi 10 2 
ni
M i  ni xi 105 
60;90
90;110
110;160
j 1
Si
S
75
5000
375
375
0.309
100
3000
300
675
0.556
135
4000
540
1215  S
1
i
Si   M j
Qi 
j
 Détermination de la médiale (ou du salaire médial).
a) Méthode graphique : on utilise le graphe d’une fonction Fq ( x) .
Fq ( x )
1
Fq ( x)  0.5
0.5
60
90 110
160
x
On a donc graphiquement : M le  10500 .
b) Méthode de l’interpolation linéaire.
On sait que M le  90;110 . Nous pouvons donc dire que :
M le  90
110  90

Fq ( M le )  Fq (90) Fq (110)  Fq (90)

M le  90
20

0.5  0.309 0.556  0.309
20
10546
0.556  0.309
Les salaires qui gagnent moins de 10546 se partagent la moitié de la masse salariale.
 M le  90   0.5  0.309  
6) Les intervalles « inter quantiles ».
Pour éviter d’effectuer des calculs sur des valeurs extrêmes et souvent aberrantes, on choisit
souvent de les écarter en ne retenant que les valeurs appartenant à un intervalle, dites « inter
quantiles » selon la quantité choisie.
Définition : On appelle quantile d’ordre  la valeur du caractère notée x telle que
F ( x )   , avec   0;1 et F étant la fonction de répartition.
x se détermine, soit directement à partir du tableau de la fonction de répartition, soit pas
interpolation linéaire dans le cas d’une variable continue.
a) Les quartiles.
Ce sont les 3 valeurs du caractère notées Qi  i  1, 2,3 , qui partagent la série en quatre sous
ensembles de même effectif.
25%
25%
25%
Q2
Q1
25%
Q3
Le deuxième quantile Q2 est la médiane de la distribution, donc Q2  M 2 .
L’intervalle Q1; Q3  est l’intervalle inter quantile : il contient 25% des observations laissant à
gauche et à droite 25% .
b) Les déciles.
Ce sont les neufs valeurs du caractère notées Di  i  1,...,9  qui partagent la série en 10 sous
ensembles de même effectif.
10% 10%
D1
D2
10%
D3
10%
D9
On a : F ( D1 )  10 ou encore F ( D2 )  20 .
Le cinquième décile est la médiane (car F ( D5 )  50  M le ). L’intervalle  D1; D9  est
l’intervalle interdécile, il contient 80% des observations laissant à gauche 10% et à droite
10%.
Les quartiles et les déciles sont les quantiles les plus utilisées mais on peut également définir
de la même manière les centriles Pi  i  1,...,99 et l’intervalle intercentrile  P1; P99  .
7) Caractéristique des concentrations.
La notion de concentration concerne des variables continues ne pouvant prendre que des
valeurs positives. La notion de concentration a été introduite par le Statisticien italien Corrado
Gini au cours de ses travaux sur les disparités du revenu et a abouti à la construction d’une
courbe dite « de concentration » (ou courbe de Lorenz) et à la détermination d’un « ratio »
appelé « indice de Gini ».
a) Courbe de concentration (ou courbe de Lorenz)
Pour chaque extrémité de classe  i , on calcule :
i
- Pi   f j , f j étant la fréquence relative associée à la ième classe, et où Pi représente la
j 1
fréquence cumulée en pourcentage.
i
M
j 1
- Qi 
j
, où M j  n j x j représente la masse totale distribuée, et où Qi représente les
S
proportions cumulées de la masse totale.
Interprétation dans le cas d’une distribution de salaires.
Le point Ai  Pi , Qi  indique que Pi % d’individus se partagent les Qi % de la masse salariale.
Plus la courbe s’écarte de la première bissectrice, plus la concentration est forte. La courbe est
toujours en dessous de la première bissectrice, car les Pi % qui gagnent le moins se partagent
une masse salariale inférieure à Pi % de la masse salariale totale.
Montrons que : Pi  Qi .
i
Qi 
M
j 1
i
j

S
n x
j
j 1
i
j
S

i
n x  N
j 1
i
N
j 1
i
 Qi 
j
j

j 1
i
j
S
j
i
n x  N
j 1
i
j
N
j 1
j

j 1
nx

i
n x  N
j 1
i
j
N
j 1
j

j 1
n
j
j
S
n
r
j
car on a : x 
xn
i i
i 1
n

S
.
n
j
Nous avons alors :
i
Qi 
 nj xj
j 1
i
n
j 1
i
 nj
1 j 1
x(i )
x(i )
 1  Qi  Pi .
 
 Qi 
 Pi , or on sait que : x(i )  x 
n
x
x
x
j
Analyse de la concentration à partir de la courbe de Lorenz :
- 1er Cas : la courbe est confondue avec la 1ère bissectrice .
On a alors : Pi  Qi i soit x(i )  x , tous les individus ont même salaire. La concentration
est dite « nulle » et on a une distribution égalitaire.
2ème Cas : la courbe de concentration est confondue avec les deux côtés du triangle.
-
Ceci traduit que  n  1 individus ont, dans le cas d’une
distribution de salaires, un salaire nul et un individu a un
salaire égal à S c’est-à-dire la masse salariale totale.
1
1
On dit que la concentration est maximale. En dehors de ces deux cas extrêmes, les situations
plus proches de la réalité sont :
Résumé : La concentration s’apprécie donc à la surface déterminée par la courbe et la
première bissectrice : plus cette surface est grande, plus la concentration est forte.
Application numérique :
Ci 102 
ni
fi
i
Pi   f j
xi 10 2 
M i  ni xi 105 
j 1
60;90
90;110
110;160
j 1
Si
S
i
Si   M j
Qi 
5000
0.417
0.417
75
375
375
0.309
3000
0.25
0.667
100
300
675
0.556
4000
0.33
1
135
540
1215  S
1
b) Indice de Gini.
Au lieu de prendre exactement cette surface, on définit l’indice de concentration noté i
(indice de Gini) qui est le double de l’aire délimitée par la courbe de concentration et la 1ère
bissectrice.
La partie en rouge est cette aire, elle est donc égale à
i
.
2
Propriétés de i : 1°) 0  i  1
2°) si i  0 , la concentration est nulle.
3°) si i  1 , la concentration est maximale.
Evaluation de i : On peut évoluer i par le calcul en utilisant la méthode des trapèzes.
La partie hachurée en bleu est égale à
i
. La partie hachurée en vert est égale à A .
2
La somme de ces deux aires est égale à
1
.
2
Calculons A :
L’aire d’un trapèze Ai
est Ai
 b  B   h , avec

2
b  qi 1
B  qi
h  pi  pi 1  f i
.
Nous avons donc Ai 
 qi 1  qi   f
i.
2
r

i 1 r  q  q 
Alors :     i 1 i  fi  , ce qui nous amène à : i  1     qi 1  qi   fi  .
2 2 i 1 
2
i 1

Application numérique :
Ci 102 
60;90
90;110
110;160
0.417
Si
S
0.309
0.25
0.556
0.33
1
fi
On a alors :
Qi 
3
i  1     qi 1  qi   fi 
i 1
 i  1   0.309   0.417   0.309  0.556  0.25   0.556  1  0.333
 i  0.1367
c) Les caractéristiques des mélanges de populations .
On étudie un caractère quantitatif X (ou une variable statistique) sur k souspopulations P1 , P2 ,...., Pk d’effectifs n 1, n 2 ,....., n k .
Le mélange de ces k sous populations donne une population P d’effectif total n .
On suppose que les Pj
 j  1, 2,...., k 
réalisent une partition de P , c’est-à-dire
k
Pi  Pj    si j  i  . Cette hypothèse implique que : n   n j .
j 1
On obtient alors les  k  1 distributions suivantes :
X
P1
P2
------
Pj
--------
Pk
P
x1
n11
n12
-
n1 j
-
n1k
n1
x2
n21
n22
-
n2 j
-
n2 k
n2
-
-
nij
-
nik
ni
xi
ni1
ni 2
xr
nr 1
nr 2
-
nrj
-
nr

nrk
n1
n2
---------
n
--------
nk
n
-
j
k
 j
On a : n   n
j 1
r
, or nous savons que : n j  n1 j  n2 j  n3 j  .....  nij  ......  nrj   nij ,
i 1


D’où : n     nij  , c’est-à-dire la double somme des nij .
j 1  i 1

k
r
De même, on a : n 
r
k
r
r

k

i 1
j 1
i 1
i 1

j 1

 ni , or ni   nij , d’où n   ni     nij 
Application numérique :
X
P
x1
P1
15
P2
10
P3
0
25
x2
10
20
10
40
x3
10
30
20
60
x4
5
25
20
50
x5
0
5
10
15
40
90
60
190

(Toujours à l’intérieur de petit c) )
I°) Fréquences et fonctions de répartitions .
1- Fréquences .
Soient fij la fréquence de la ieme modalité  xi  dans Pj et f i celle de xi dans P .
k
On a :
f ij 
nij
nj
et
nij
ni 
j 1
fi  
n
n
,
k n 
k n
n 
ij
fi        j  ij 

n j 
j 1  n 
j 1  n
Or :
i
n

 fi    j  fij 
j 1  n

La fréquence f i est la moyenne pondérée des fij , les coefficients de pondération étant les
nj
n
, c’est-à-dire les propositions qui définissent la composition du mélange. On obtient par
conséquent : Inf  fij   fi  Sup  fij  .
2- Fonctions de répartitions.
Si on désigne par F j les fonctions de répartitions relatives aux Pj et par F celle associée
k
n

à P . On a : F ( x)    j  Fj ( x)  et Inf  Fj ( x)   F ( x)  Sup  Fj ( x)  .
j 1  n

II°) Caractéristiques de tendance centrale
1°) Médiane : la médiane d’un mélange est comprise entre les médianes extrêmes :
Inf  M j   M e  Sup  M j 
Illustration Graphique pour k  2 :
2°) Moyenne.
Si on désigne par x j la moyenne de X sur P , alors :
i
nj
j 1
n
x
 xj
III°) Caractéristiques de dispersion. Analyse de la variance.
Soient V j (x) la variance de la population Pj et V (x) celle de P . On peut décomposer V (x)
i
nj
j 1
n
en : V (x)  

i
nj
j 1
n
nj
V j (x)  
i
Le premier terme :
n
j 1
pondérée par les
nj
n
x
j

2
x .
 V j (x) est la moyenne arithmétique des variances V j (x)
. Cette moyenne des variances V j  x  est appelée variance intra-
populations : c’est la variance du mélange si les Pj auraient la même moyenne c’est-àdire si : x j  x j .

 n x
i
Le premier terme
nj
j 1
j
x

2
est la variance des moyennes appelée variance
inter-populations et représente la variance du mélange si les populations Pj étaient
homogènes, c’est-à-dire si V j  x   0 j .
Analyse de la variance : l’hétérogénéité d’un mélange résulte donc de deux facteurs :
- les hétérogénéités internes à chaque sous population décrites par la variance intrapopulation.
- Les hétérogénéités entre les moyennes des sous populations décrites par la
variance intra-population.
Exemple : La disparité des salaires résulte des dispersions à l’intérieur de chaque catégorie
socioprofessionnelle (CSP).
L’analyse de la variance consiste à expliquer la variance totale du mélange à partir de la
contribution de l’hétérogénéité des moyennes entre sous-populations. Cette explication se
i n
j
 xj  x

n
j 1
2
2
base sur le calcul du rapport R suivant : R 
.
V (x)


Propriétés : a) 0  R 2  1 .
b) R 2  0 si x j  x j
c) R 2  1 si V j (x)=0 .
Interprétation : Plus R 2 est proche de 1, plus l’appartenance à un groupe est déterminante
pour expliquer la dispersion globale. La variance non-expliquée (ou encore variance
résiduelle) résulte de l’hétérogénéité des individus au sein d’un même groupe.
Application numérique : Les salaires d’une entreprise sont classés selon leurs ages et salaires,
on cherche à savoir dans quelle mesure l’âge explique le salaire des employés.
On obtient le tableau suivant :
P1
P2
P3
P
xi (centre des classes)
16; 25
25;45
45;65
16;65
0;500
15
10
0
25
250
500;1000
1000;2000
10
20
10
40
750
10
30
20
60
1500
Age
Salaires
2000;4000
4000;5000
5
25
20
50
3000
0
5
10
15
4500

40
90
60
190
n
Calcul de salaires moyens : x j
xi 
 i   i 1
j
 j  1, 2,3
 centre 
2
5
x1 
n
x
i1 i
i 1
n1

15  250   10  750  10 1500  5  3000  1031.2
40
5
x2 
n
i 1
x
i2 i
n2
(avec n 2  90 )
 1777.78
5
x3 
n
i 1
x
i3 i
n3
(avec n 3  60 )
 2375
Calcul de x :
5
ère
1
méthode : x 
n x
i
i 1
n
i

25  250  40  750  60  1500  50  3000
 276250 .
190
2ème méthode :
3
x
j 1
 n  x   40 x
j
j
1
n
 n  V (x)  .
3
Variance intra :
 90 x 2  60 x3 40 1031.25  90 1777.78  60  2375

1809 .
190
190
j 1
n
j
j
2
 5 n
2
V1 (x)=   i1   xi    x1
 i 1 n 1

•
.
2
 5 ni1   xi  
2
 
   031.25   788085.9
 i 1

40


 
2
 5 n
2
V2 (x)=   i 2   xi    x 2
 i 1 n 2

•
.
2
 5 ni 2   xi  
2
 
  1777.78   1346451
 i 1

90


5
2
 n
2
V3 (x)=   i 3   xi    x3
 i 1 n 3

•
.
 5 ni 3   xi 2 
2
 
   2375   1578125
 i 1

60


 
 
 5 nx2 
2
Variance du mélange : V (x)=   i i   1809 
 i 1 190 
40V1 (x)+90V2 (x)+60V3 (x)
 1302060 .
Variance intra :
190
Variance inter : V (x)  Variance intra  1531034  1302060  228974 .
Variance inter 228974

0.15 .
V (x)
1531034
Le découpage en 3 groupes n’explique que 15% de la disparité globale du salaire.
Nous avons donc : R 2 
Téléchargement