EFTG STATISTIQUE Octobre 2015
M. YAHI Page 1 2015/2016
STATISTIQUE DESCRIPTIVE SIMPLE
I / Introduction
Il n’est pas facile de définir de manière précise et complète la STATISTIQUE
(ou tout autre science !).
Historiquement, à l’origine, la Statistique a fourni des renseignements sur la
population″ au sens propre du terme : nombre, répartition par âge, par sexe,
selon l’état matrimonial, la profession, le lieu de résidence… .
De nos jours, les méthodes statistiques sont utilisées dans tous les domaines :
démographie, économie, médecine, épidémiologie, agronomie, industrie,
gestion, contrôle de qualité, sociologie, sondages d’opinion, linguistique,
éducation, psychologie et tellement d’autres.
But de l’Etude Statistique :
- Savoir présenter des données, les décrire et les résumer.
- Savoir dégager, assez rapidement, un certain nombre de renseignements sur
le phénomène décrit par les données.
- Savoir tirer des conclusions sur des populations à partir de calculs conduits
sur des échantillons.
- Savoir faire de “bonnes” prévisions.
II / Terminologie.
Exemple d’un Tableau de Données: (Tableau 1)
Parmi les étudiants d’une certaine université, on a relevé pour 30 d’entres eux,
les données suivantes :
1. Revenus des parents (en DA)
2. Sexe (Homme, Femme)
3. Âge (en années)
4. Ancienneté (en années)
5. Palier d’étude (L, M ou D)
6. Nombre de frères et sœurs.
EFTG STATISTIQUE Octobre 2015
M. YAHI Page 2 2015/2016
Revenus
Sexe
Age
Anc.
Palier
Nbre F/S
29472
F
21
2
L
3
21629
M
18
1
L
4
21088
M
20
2
L
3
21369
M
21
4
M
5
20240
F
18
1
L
1
72696
M
23
5
M
2
67580
M
20
3
L
3
37580
M
19
1
L
4
60096
F
22
5
M
3
45900
M
25
7
M
2
19613
M
24
6
M
4
29472
F
27
10
D
4
34060
M
21
2
L
5
25176
M
26
9
D
4
21371
M
18
1
L
2
79356
F
24
6
M
3
57532
M
21
3
L
3
14060
F
23
4
M
4
32513
M
27
8
D
3
41871
F
22
4
M
3
39536
M
19
2
L
2
89553
F
24
5
M
4
23406
M
22
5
M
4
45789
M
18
1
L
1
56213
F
24
6
M
2
23489
M
20
3
L
3
36457
M
22
5
M
3
102589
F
17
1
L
3
95547
M
21
4
M
3
33563
M
23
5
M
2
Le statisticien, quelle que soit sa spécialité, utilise les expressions rappelant qu’à l’origine,
la statistique consistait surtout en l’observation et la description de collectivités humaines:
POPULATION - INDIVIDU ECHANTILLON CARACTERE
La population est l’ensemble de référence. C’est l’ensemble étudié.
L’individu est une unité statistique. C’est un élément de la population.
Un échantillon est un sous-ensemble de la population.
Un caractère est ce que l’on observe sur l’individu. Il varie d’un individu à l’autre; on
l’appelle variable statistique.
EFTG STATISTIQUE Octobre 2015
M. YAHI Page 3 2015/2016
Dans notre exemple :
Population : les 20000 étudiants de l’USTHB= {Y1, …, Y20000}
Individu : étudiant
Echantillon : par ex. {y1, …, y30}
Caractère : âge.
Dans cet exemple, il y a 6 caractères différents:
Revenu, Sexe, Age, Ancienneté, Palier d’étude, Nombre de frères et sœurs.
III/ Nature d’un caractère
CARACTERE ou VARIABLE:
(mesuré sur chaque individu et noté X )
QUALITATIF QUANTITATIF
Ordinal Nominal Discret Continu
Ex: (Palier: L, M, D) (Sexe: H, F) (nbre de F/S) (Age, Anc., Rev.)
IV/ Tableaux statistiques
L’objet des statistiques est d’étudier des caractères (ou des variables) sur des individus.
La récolte initiale des données conduit à un tableau brut. Comme le tableau 1 précédent.
Pour un caractère, le tableau brut se met sous la forme suivante (Tableau A)
Tableau A Tableau B
Cependant, le nombre d’individus observés étant en général important, ce tableau (A) ne
permet pas d’analyser l’information obtenue. Il est donc nécessaire de créer un tableau
(tableau B), plus synthétique, les observations identiques (possédant la même modalité)
ont été regroupées.
Ainsi, après avoir mis en ordre les résultats obtenus au cours de l’étude d’un caractère X,
mesuré sur les membres d’une population, une série statistique se présente sous la forme d’un
ensemble de valeurs xi représentant les différentes modalités du caractère. Ces valeurs xi
peuvent se répéter, chacune un nombre ni de fois.
Individu
variable
1
2
.
.
.
n
X1
X2
.
.
.
Xn
effectif
n1
n 2
.
.
.
n k
EFTG STATISTIQUE Octobre 2015
M. YAHI Page 4 2015/2016
Une série statistique est l’ensemble des couples (xi , ni), i=1,…,k k est le nombre de
modalités. Elle est présentée sous forme d’un tableau. (Comme dans l’exemple suivant)
On appelle effectif de la modalité xi, le nombre ni d’individus pour lesquels le caractère X
prend la valeur xi.
On appelle effectif cumulé en
i
x
, le nombre
i
kkiicicum nnnnnn 1
21
On appelle fréquence de
i
x
, le nombre
n
n
fi
i
On appelle fréquence cumulée en
i
x
, le nombre
iicicum fffff
21
Remarque : toutes ces informations peuvent être résumées dans un tableau appelé tableau de
distribution de la variable.
Pour les différents caractères de l’exemple, il y a 6 séries statistiques
1) Sexe: qualitatif nominal
i=1,2
Modalités
2) Palier d’études: qualitatif ordinal
i= 1,2,3
3) Nombre de frères et soeurs: quantitatif discret.
i
xi
ni
nic
fi
fic
1
1
2
2
0.07
0.7
2
2
6
8
0.20
0.27
3
3
12
20
0.40
0.67
4
4
8
28
0.26
0.93
5
5
2
30
0.07
1
30
1
xi
H
F
Total
ni
20
10
30
fi
0.67
0.33
1
xi
L
M
D
Total
ni
13
14
3
30
fi
0.43
0.47
0.1
1
EFTG STATISTIQUE Octobre 2015
M. YAHI Page 5 2015/2016
4) Revenus des parents : quantitatif continu.
Il y a lieu de distinguer entre variable discrète et variable classée (regroupées en classes).
Lorsque les modalités d'une variable discrète sont trop nombreuses, il est préférable de
regrouper des modalités pour obtenir une variable classée afin que les tableaux synthétisent
l'information et restent lisibles. Une variable continue est une variable classée. La répartition
des données se fait alors sous forme de regroupement en classes des données voisines. Nous
ne considèrerons que le regroupement en classes de même amplitude, comme suit :
Les classes sont des intervalles fermés à gauche et ouverts à droite, contiguës (adjacentes)
mais qui ne se chevauchent pas. [a0, a1 [ , [a1, a2 [ , [a2, a3 [, ……..,[ak-1, ak [
En général, a0 = Xmin . La dernière classe peut être fermée à droite.
Soit k, le nombre de classes. Alors le nombre de classes à prendre est donné par :
k= E[5log n] (ou bien k =
n
si n ≤ 50), où n est la taille de la série brute.
Soit a = amplitude de classe (longueur de l’intervalle) et E = étendue de la série = Xmax - Xmin
Alors a =
k
E
. On prendra le plus petit a, convenable, tel que a ≥
k
E
Pour notre exemple des revenus, on a n = 30, et k =
n
=
30
= 5,48 . On prend k ≈ 5
E= xmax - xmin = 109553 -14060 = 95493 ;
Ainsi, a =
k
E
=
200006,19098
5
95793
. On prendra a0 = 10000.
D’où le tableau de distribution de la variable « Revenus »
Classes
xi
ni
nic
fi
fic
[10000-30000[
20000
12
12
0.400
0.400
[30000-50000[
40000
9
21
0.300
0.700
[50000-70000[
60000
4
25
0.133
0.833
[70000-90000[
80000
3
28
0.100
0.933
[90000-110000]
100000
2
30
0.067
1
Total
30
1
Le tableau ci-dessus résume toutes les données. A remarquer, que dans le cas d’un caractère
continu le rôle des modalités
i
x
est joué par le centre des classes.
.
5) Age : quantitatif continu (discret regroupé en classes).
xi
ni
nic
fi
fic
18
5
5
0.167
0.167
20
5
10
0.167
0.334
22
9
19
0.300
0.634
24
7
26
0.233
0.867
26
4
30
0.133
1
30
1
6) Ancienneté : quantitatif continu (discret regroupé en classes).Idem que
l’exemple 5).
1 / 21 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !