RC-2013 Reproduction interdite 1/64
ESCE-Lyon Méthodes Quantitatives
Module : STATISTIQUE (1e année)
Document de travail 2013-2014
par R. Chapelon, chargé de cours et de TD
RC-2013 Reproduction interdite 2/64
ESCE-Lyon Méthodes Quantitatives
Présentation
Ce document est composé de trois parties :
- la première constituée de formulaires-résumés du programme, (pages 3 à 22)
- la seconde d’exercices, (pages 23 à 51)
- la troisième de tables et documents annexes, (pages 52 à 59).
Introduction
Faire de la statistique, c'est :
- collecter des données,
- traiter ces données pour en rendre possible l'exploitation (statistique descriptive),
- interpréter ces données en utilisant la théorie des probabilités (statistique inférentielle).
Si, à l’origine, la statistique portait surtout sur des recensements de population, elle est aujourd’hui
utilisée dans de nombreux domaines :
- production (contrôles statistiques de processus, de normes, de qualité,…),
- économie (prévision de taux, d'indices, de risques,…)
- finance (investissement, cours boursiers, rendements…)
- assurance (prévision de risque, calcul de rente,…)
- marketing (activité commerciale, stratégie commerciale, …)
- démographie, science physique, biologie, médecine, sondage d'opinion, etc
En statistique descriptive, on se contente de décrire une population ou un échantillon extrait de cette
population en les résumant à l'aide de grandeurs comme la moyenne, la médiane, l'écart type, la
fréquence, la corrélation, la concentration,…(statistique descriptive à une variable)
On peut aussi analyser plusieurs variables. Chaque variable prise séparément peut s’étudier comme
ci-dessus. On peut aussi les étudier simultanément en cherchant l’existence d’une liaison entre ces
deux variables (voire plusieurs). Ces notions seront précisées par la suite.
En statistique inférentielle, on utilise la théorie statistique pour évaluer, à partir de données sur un
échantillon, certaines grandeurs dans une population dont l'échantillon est issu en précisant la
fiabilité des résultats obtenus.
Bibliographie
Statistiques descriptives de Bernard Py (Edition 2007-Economica)
Exercices corrigés de statistique descriptive de Bernard Py (Edition 1999-Economica)
Statistiques descriptives de Bernard Grais (Edition 2003-Dunod)
Méthodes statistiques de Bernard Grais (Edition 2003-Dunod)
Statistiques pour l'économie et la gestion de Anderson, Sweeney, Williams, traduit par
Claire Borsenberger (3e édition 2010-De Boeck, éditeur)
RC-2013 Reproduction interdite 3/64
Partie 1 : formulaires-résumés
Chapitre I – Statistique descriptive à une variable
A-Paramètres de position
Le mode Mo ou dominante est la valeur la plus fréquente : elle correspond à un maximum pour les
effectifs n
i
. Il s'exprime avec l'unité de la variable.
Attention ! Le mode n’est pas nécessairement unique (série bi ou multi-modale)
Pour une variable statistique continue, on détermine la classe modale [x
i
; x
i+1
[ qui correspond à la
plus grande valeur n
i
/a
i
.
Si l’on veut donner une valeur, en supposant que les valeurs sont équiréparties dans les classes, on
peut estimer le mode par :
Mo = x
i
+ a
i
×
)//()//(
//
1111
11
++
+
iiiiiiii
iiii
anananan
anan
avec
[x
i
; x
i+1
[ la classe modale qui correspond donc à la plus grande valeur n
i
/a
i
,
n
i
, l’effectif de la classe modale, n
i–1
, l’effectif de la classe précédente, n
i+1
, l’effectif de la
classe suivante,
a
i
, l’amplitude de la classe modale, a
i–1
, l’amplitude de la classe précédente, a
i+1
, l’amplitude
de la classe suivante.
Calcul de la moyenne arithmétique :
x
=
n
xn
i
ii
.
Remplacer x
i
par c
i
le centre des classes si la variable est continue.
Changement affine de variable : si l’on pose X
i
= αx
i
+ β, alors
X
= α
x
+ β.
Calcul de la moyenne géométrique : g =
( )
n
n
k
nn
k
xxx
1
21
...
21
ou g =
n
f
n
ff
xxx ...
21
21
Calcul de la moyenne harmonique h définie par :
h
1 =
n
x
n
ii
i
×1
Calcul de la moyenne quadratique : q = n
xn
i
ii
2
.
Ces moyennes respectent toujours l’ordre : h g
x
q.
La médiane Me est une valeur qui partage la série en deux parties de même effectif : la moitié des
valeurs sont au-dessus de la médiane et l’autre moitié en dessous.
On commencera toujours par classer les valeurs de la variable par ordre croissant.
La médiane s'exprime avec l'unité de la variable.
- Cas d'une série avec un effectif n impair : Me est la valeur de la série qui est classée
2
1
+
n.
- Cas d'une série avec un effectif n pair : on prend couramment comme médiane Me la moyenne
arithmétique entre les deux valeurs de la série qui sont classées
2
n et
2
2
+
n.
RC-2013 Reproduction interdite 4/64
- Pour une variable continue dont les valeurs sont données par classes, (l'effectif est alors
souvent important), on recherche tout d'abord la classe médiane : c'est la classe qui contient la
valeur de la variable classée
2
n, que n soit pair ou impair.
Si l’on veut donner une valeur, en supposant que les valeurs sont équiréparties dans les classes,
on peut estimer la médiane par : Me = x
i
+ a
i
×
i
i
n
N
n
1
2
avec :
x
i
la borne de gauche de la classe médiane, a
i
l'amplitude de la classe médiane,
N
i – 1
l'effectif cumulé croissant de la classe qui précède la classe médiane,
n
i
l'effectif de la classe médiane.
Calcul du 1er quartile : Q
1
= x
i
+ a
i
×
i
i
n
N
n
1
4
avec
x
i
la borne de gauche de la classe de Q
1
, a
i
l'amplitude de la classe de Q
1
,
N
i – 1
l'effectif cumulé croissant de la classe qui précède la classe de Q
1
,
n
i
l'effectif de la classe de Q
1
.
Ce calcul suppose que les valeurs sont équiréparties dans les classes.
Calcul du 3e quartile : Q
3
= x
i
+ a
i
×
i
i
n
N
n
1
4
3
avec
x
i
la borne de gauche de la classe de Q
3
, a
i
l'amplitude de la classe de Q
3
,
N
i – 1
l'effectif cumulé croissant de la classe qui précède la classe de Q
3
,
n
i
l'effectif de la classe de Q
3
.
Ce calcul suppose que les valeurs sont équiréparties dans les classes.
Le calcul des déciles, des centiles et de tous les fractiles se fait sur le même principe en supposant
toujours que les valeurs sont équiréparties dans les classes.
B-Paramètres de dispersion
Calcul de l’écart moyen arithmétique par rapport à la moyenne arithmétique : e
m
=
n
xxn
i
ii
Remplacer
xi
par
ci
le centre des classes si la variable est continue.
Calcul de la variance :
S2
=
n
xxn
i
ii
2
)(
ou
S2
=
( )
2
2
x
n
xn
i
ii
ou
S2
=
i
ii
xf
2
(
)
2
x
Remplacer
xi
par
ci
le centre des classes si la variable est continue.
La variance s’exprime avec le carré de l’unité de la variable.
On utilise aussi sa racine carrée positive
S
qui s’exprime avec l’unité de la variable.
S est la moyenne quadratique des écarts de la variable par rapport à la moyenne arithmétique.
S s’appelle aussi écart quadratique moyen.
Changement affine de variable : si l’on pose
Xi
=
αxi
+
β
, alors
S2
(
X
) =
α2
S2
(
x
) et
S
(
X
) =
|α|
.
S
(
x
).
Coefficient de variation : S /
x
et interquartile relatif : (
Q3
Q1
)/
Q2
.
RC-2013 Reproduction interdite 5/64
C-Courbe de Lorenz et indice de concentration de Gini
L'indice de concentration est un indice qui concerne certaines distributions tels que les celles des
salaires, des revenus, des entreprises suivant leur taille, des surfaces des e
x
ploitations agricoles, des
factures au sein d'une entreprise, etc… Les variables sont positives.
1. Courbe de concentration dite de Lorenz
On considère une série positive de variable discrète (
xi
;
ni
) avec
k
valeurs ou de variable continue la
série ([
xi
,
xi+1
[ ;
ni
) définie par
k
classes.
On calcule successivement :
pour
i
= 1 à
k
,
fi
=
n
n
i
les fréquences relatives à la valeur
xi
ou à la classe [
xi
,
xi+1
[,
pour
i
= 1 à
k
,
Fi
les fréquences cumulées croissantes,
pour
i
= 1 à
k
, les produits
Si
=
nixi
pour les variables discrètes ou
Si
=
nici
avec
ci
le
centre de la classe [
xi
,
xi+1
[ pour les variables définies par classes.,
Si
représente la masse totale des valeurs de la variable pour la modalité (ou la classe
i
),
pour
i
= 1 à
k
, les cumuls des
Si
que nous noterons
Si cum
,
On note
S
le dernier cumul qui est la somme de toutes les valeurs
Si
,
pour
i
= 1 à
k
, les quotients :
qi
=
S
cumS
i
.
(
qi
représente la proportion cumulée de la somme totale des
i
premières valeurs classées par
rapport à somme totale de toutes les valeurs de la variable)
Dans un repère orthonormé, on porte alors les
k
points de coordonnées (
Fi
,
qi
).
Il y a autant de points que de classes. Le dernier point est toujours le point (1 ; 1).
On rajoute le point origine O(0 ; 0).
La courbe de concentration est la ligne polygonale joignant l'origine O et les k points.
Cette courbe est située dans le carré formé par les points
O
(0 ; 0),
I
(1 ; 0),
J
(1 ; 1) et
K
(0 ; 1).
Elle est toujours en dessous de la diagonale [
OJ
] qui s'appelle “la courbe d'équi-répartition
La surface comprise entre la diagonale (
OJ
) et la courbe de concentration s'appelle la surface de
concentration.
2. Indice de concentration dit de Gini
L'indice de concentration est défini comme le quotient de l'aire de la surface de concentration par
l'aire du triangle (
OIJ
). L'aire de ce triangle vaut toujours 0,5 en unités d'aire.
Autrement dit, l'indice de concentration est le double de l'aire de la surface de concentration
exprimée en unités d'aire.
Il vaut mieu
x
, en général, calculer l'aire “sous la courbe”, puis en déduire l'aire de la surface de
concentration puis l'indice de Gini : =
=
×+
k
i
iii
fqq
1
1
2
)( avec
k
le nombre de valeurs ou de
classes. L’indice de Gini s’exprime alors par : IG = 1 – 2.
1 / 64 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !