§ 2 Statistique descriptive pour une
variable statistique continue:
distribution empirique continue
üObjectifs
Pour chaque notion étudiée (moyenne, médiane, écart-type, ...), le lecteur doit se préoccuper de savoir la calculer
à partir de données brutes, sans ordinateur;
à partir de données groupées, sans ordinateur;
à partir de données brutes, avec Mathematica;
à partir de données groupées, avec Mathematica.
üPackages standards
A partir du menu Aide de Mathematica, charger les packages standards
<< Statistics`DescriptiveStatistics`
<< Statistics`DataManipulation`
Needs
@
"Statistics`DiscreteDistributions`"
D
<< Statistics`ContinuousDistributions`
üPackages locaux
A partir de la commande aide[], charger les packages locaux
<< Statistique`
<< Tableaux`
§ 2.1 Distribution empirique continue et fonction de densi
üDonnées groupées en classes
D'un échantillon d'étudiants de sexe masculin, on a mesuré la masse de chacun. Les masses ont été arrondies à l'entier.
Voici les données groupées en 7 classes:
Masses en kg Nombre d'étudiants
45 - 54 5
55 - 59 14
60 - 64 33
65 - 69 47
70 - 74 26
75 - 79 13
80 - 89 2
La variable aléatoire X = masse corporelle de l'étudiant est continue.
Pour une variable continue, les effectifs sont associés non à une valeur mais à un intervalle.
L'intervalle 45 - 54 représente plus précisément l'intervalle [44.5; 54.5[,
55 - 59 [54.5; 59.5[,
60 - 64 [59.5; 64.5[,
2-Statistique descriptive a une variable continue.nb 21
65 - 69 [64.5; 69.5[,
70 - 74 [69.5; 74.5[,
75 - 79 [74.5; 79.5[,
80 - 89 [79.5; 89.5[.
On définit ainsi une liste des bornes des classes :
b
0
,b
1
,b
2
, ..., b
k
b=
8
44.5, 54.5, 59.5, 64.5, 69.5, 74.5, 79.5, 89.5
<
;
Remarquez qu'il y a k classes mais (k+1) bornes.
On calcule ensuite les centres des classes
c
1
=b
0
+
b
1

2,c
2
=b
1
+
b
2

2, ..., c
k
=b
k1
+
b
k

2
c
j
=b
j1
+b
j

2
c=
Drop
@
b
,
1
D
+
Drop
@
b
,
1
D

2
8
49.5, 57., 62., 67., 72., 77., 84.5
<
effectifs =
8
5, 14, 33, 47, 26, 13, 2
<
;
Nombre
de classes
k=Length
@
effectifs
D
7
Taille de l'échantillon
n=Apply
@
Plus, effectifs
D
140
Fréquences
freq =
effectifs

n
9
1

28
,
1

10
,
33

140
,
47

140
,
13

70
,
13

140
,
1

70
=
üRépartition uniforme de la fréquence par classe
Considérer que les effectifs sont concentrés au centre des classes est déconseillé. La variable statistique étant continue,
nous désirons avoir une distribution continue. Pour y parvenir, nous allons répartir les effectifs uniformément dans
chaque classe.
Comment répartir les 5 étudiants dans la classe
@
44.5
54.5
@
? Subdivisons l'intervalle en 5 intervalles partiels égaux
@
44.5; 46.5
@
,
@
46.5; 48.5
@
,
@
48.5; 50.5
@
,
@
50.5; 52.5
@
,
@
52.5; 54.5
@
puis attribuons un étudiant à chaque intervalle partiel. Nous dirons que
la fréquence de l'intervalle [44.5; 54.5[ est de
5
ÅÅÅÅÅÅÅÅÅÅ
140
tandis que, pour chaque intervalle partiel,
la fréquence de l'intervalle [44.5; 46.5[ est de
1
ÅÅÅÅÅÅÅÅÅÅ
140
;
la fréquence de l'intervalle [46.5; 48.5[ est de
1
ÅÅÅÅÅÅÅÅÅÅ
140
;
la fréquence de l'intervalle [48.5; 50.5[ est de
1
ÅÅÅÅÅÅÅÅÅÅ
140
;
la fréquence de l'intervalle [50.5; 52.5[ est de
1
ÅÅÅÅÅÅÅÅÅÅ
140
;
la fréquence de l'intervalle [52.5; 54.5[ est de
1
ÅÅÅÅÅÅÅÅÅÅ
140
.
2-Statistique descriptive a une variable continue.nb 22
Pour rendre la distibution continue, nous acceptons de fractionner encore ces intervalles partiels
la fréquence de l'intervalle [44.5; 45.5[ est de
1
ÅÅÅÅÅÅÅÅÅÅ
280
,
ce que nous interprétons comme suit:
en choisissant une personne au hasard, il y a une chance sur 280 que son poids
se situe dans l'intervalle [44.5; 45.5[.
Plus généralement, à chaque classe est associée une fréquence
f
1
=n
1

n=f
A
b
0
;b
1
A
=fréquence de la classe numéro 1
...
f
j
=n
j

n=f
A
b
j1
;b
j
A
=fréquence de la classe numéro j
...
f
k
=n
k

n=f
@
b
k1
;b
k
@
=fréquence de la classe numéro k
j=1
k
f
j
=1
Dans notre exemple, la fréquence de la 4-ème classe - c'est-à-dire la fréquence de l'événement "la masse appartient à
l'intervalle [64.5; 69.5[" - est de
47
ÅÅÅÅÅÅÅÅÅÅ
140
, ce que l'on peut noter
f
4
=f
A
64.5; 69.5
A
=
47

140
La signification de l'événement "la masse est de 66 kg" doit être précisée. Déterminons sa fréquence. S'il s'agit de
f([65.5; 66.5[) on peut estimer sa valeur en répartissant les effectifs uniformément sur toute la largeur de la classe
f
A
65.5; 66.5
A
=
66.5
65.5

69.5
64.5
f
A
64.5; 69.5
A
=
1

5
f
4
=
47

700
S'il s'agit de l'événenement "la masse vaut exactement un 66 kg", commençons par de petits intervalles autour de 66 :
f
A
65.95; 66.05
A
=
66.05
65.95

69.5
64.5
f
A
64.5; 69.5
A
=
0.1

5
f
4
=
47

7000
f
A
65.995; 66.005
A
=
66.005
65.995

69.5
64.5
f
A
64.5; 69.5
A
=
0.01

5
f
4
=
47

70000
En prenant une suite d'intervalles emboîtés dont les largeurs tendent vers 0, on peut conclure que la fréquence d'un
événement réduit à un point est nulle:
f
H
8
66
<
L
=0
On peut intuitivement interpréter ce dernier résultat comme suit : "Il n'y a quasiment aucune chance pour qu'une per-
sonne pèse exactement 66.000 000 000 ... kg.
Généralisons. La fréquence d'un événement A peut être écrite sous la forme
f
H
A
L
=effectif de A

effectif total =n
A

n
A l'intérieur d'une classe, lorsqu'on distribue la fréquence uniformémement sur toute la largeur de la classe, on a
b
j1
x<b
j
f
A
b
j1
;x
A
=xb
j1

b
j
b
j1
f
j
üPropriétés de la fréquence d'un événement
Les événements sont des intervalles de nombres réels, ou des réunions et intersections d'intervalles.
En particulier, on a
2-Statistique descriptive a une variable continue.nb 23
0f
H
A
L
1
f
H
L
=0

n=0 fréquence de l ' événement impossible;
f
H
L
=n

n=1fréquence de l ' événement certain.
Deux événements disjoints (c'est-à-dire tels que A
B
=
¯
) sont appelés incompatibles.
La fonction fréquence est additive. Par exemple, pour deux événements incompatibles
f
I
A
59.5; 64.5
A
Ê
@
64.5; 69.5
@
M
=f
A
59.5; 69.5
A
=
33
+
47

140 =
33

140
+47

140
=f
@
59.5; 64.5
@
+f
@
64.5; 69.5
@
Plus généralement,
A
B=Øf
H
A
B
L
=f
H
A
L
+f
H
B
L
En conséquence, lorsqu'on calcule la fréquence d'un intervalle, il importe peu que l'intervalle soit ouvert ou fermé
f
@
a;b
D
=f
8
a
<
+f
D
a;b
@
+f
8
b
<
=0+f
D
a;b
@
+0=f
D
a;b
@
üLa fréquence cumulée comme fonction de distribution empirique continue
Calculons d'abord la fréquence cumulée aux bornes des classes
freqCum =CumulativeSums
@
freq
D
9
1

28
,
19

140
,
13

35
,
99

140
,
25

28
,
69

70
, 1
=
en insérant la fréquence 0 au début de la liste
afficheTableau
@
8
"Bornes des classes", "Fréquences cumulées"
<
,
None,
8
b, Prepend
@
freqCum, 0
D
<
D
Bornes des classes 44.5 54.5 59.5 64.5 69.5 74.5 79.5 89.5
Fréquences cumulées 0
1

28 19

140 13

35 99

140 25

28 69

70
1
La fréquence cumulée est
F
H
x
L
=f
D
− ∞,x
D
=fréquence des modalités x
afficheTableau
@
8
"x", "F
H
x
L
"
<
, None,
8
b, Prepend
@
freqCum, 0
D
<
D
x44.5 54.5 59.5 64.5 69.5 74.5 79.5 89.5
F
H
x
L
0
1

28 19

140 13

35 99

140 25

28 69

70
1
Pour satisfaire l'hypothèse que les effectifs sont uniformément distribués dans chaque classe, on interpole linéairement
entre ces points. On obtient ainsi une fonction F qui est continue et affine par morceaux.
2-Statistique descriptive a une variable continue.nb 24
Show
@
frequenceCumuleeContinue
@
b, freq
D
D
;
44.5 54.5 59.5 64.5 69.5 74.5 79.5 89.5
0.2
0.4
0.6
0.8
1
ECNEUQERF EELUMUC
La fréquence cumulée (on dit aussi fonction de répartition empirique) est une fonction
F
ö
qui vérifie
pour
les
xε
8
b
0
,b
1
, ..., b
k
<
,
on
a
F
H
x
L
=nombre d' éléments inférieurs ou égaux à x
ÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅ
effectif
total
=f
E
− ∞;x
E
c'est-à-dire
F
H
b
0
L
=
0
=
f
D
;
b
0
D
F
H
b
1
L
=f
1
=f
D
− ∞;b
1
D
F Hb
2
L=f
1
+f
2
=fD− ∞;b
2
D
... . ... . ...
F
H
b
k1
L
=f
1
+f
2
+... +f
k1
=f
D
− ∞;b
k1
D
F
H
b
k
L
=1=f
D
− ∞;
@
Pour
x
b
0
,
F
H
x
L
=
f
D
;
b
0
D
=
0
Pour b
0
xb
1
,F
H
x
L
=f
D
− ∞;b
0
D
+f
D
b
0
;x
D
=F
H
b
0
L
+
xb
0

b
1
b
0
f
1
Pour b
1
xb
2
,F HxL=fD− ∞;b
1
D+fD b
1
;xD=F Hb
1
L+
xb
1

b
2
b
1
f
2
... .. . ... . ...
Pour b
k1
xb
k
,F
H
x
L
=f
D
− ∞;b
k1
D
+f
D
b
k1
;x
D
=F
H
b
k1
L
+
xb
k1

b
k
b
k1
f
k
Pour b
k
x F
H
x
L
=f
D
− ∞;
@
=1
üRelation entre distribution empirique et fréquence
La valeur de la fonction de distribution empirique en x est égale à la fréquence de l'intervalle
D
-
;x
D
Pour tout xε, on a F
H
x
L
=f
D
− ∞;x
D
En d'autres termes, F
H
x
L
représente la fréquence de l'événenent "être inférieur ou égal à x".
F est aussi appelé fonction fréquence cumulée continue.
On remarquera que la distribution F est une fonction d'une variable réelle dont la représentation graphique est immé-
diate.
2-Statistique descriptive a une variable continue.nb 25
1 / 18 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !