chapitre i. statistiques descriptives

publicité
CHAPITRE I. STATISTIQUES DESCRIPTIVES
I.A RAPPEL THEORIQUE
Variables quantitatives (métriques): les valeurs sont numériques
Exemples:
-
continues: Taille d’un être humain, Poids d’un animal, Taux de cholestérol, Température,
Vitesse d’un mobile, …
-
discontinues ou discrètes (dénombrements): Nombre d’enfants dans une famille, Nombre
de têtes de bétail par exploitation agricole, Nombre de buts marqués par match au
football …
 Mesures de LOCALISATION (tendance centrale, position), de DISPERSION, de
FORME.
Exemples: 1. Positions différentes: {1, 2, 3, 4, 5, 6, 7} et {8, 9, 10, 11, 12, 13, 14}
2. Dispersions différentes: {0, 3, 5, 6, 7, 9, 12} et {5, 5, 5, 6, 7, 7, 7}
3. Formes différentes: symétrie {4, 5, 6, 7, 8, 9, 10}
asymétrie gauche {5, 5, 5, 5, 5, 8, 10}
asymétrie droite {5, 7, 10, 10, 10, 10, 10}
25
Fréquence
Fréquence
30
20
15
10
5
0
1
2
3
4
5
X DISTRIBUTION SYMETRIQUE
45
40
35
30
25
20
15
10
5
0
Fréquence
35
1
2
3
4
X DISTRIBUTION ASYMETRIQUE A GAUCHE
5
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
X DISTRIBUTION ASYMETRIQUE A DROITE
Variables qualitatives (non métriques): les valeurs sont non numériques
Exemples:
-
ordinales: Classe de BMI, Intensité d’une douleur (absente, minime, légère, modérée,
sévère, extrême), Echelle de satisfaction d’un produit (insuffisant, moyen, bon,
excellent), Poids d’un bébé (petit poids, poids moyen, poids élevé), Vélocité d’un chien
(lent, assez rapide, rapide), …
-
nominales: Sexe, Etat-civil, Commune de résidence, Profession, Faculté d’un étudiant,
Couleur des cheveux, Groupe sanguin, Fonction d’un chien (chien de compagnie, de
chasse, d’utilité, …), …
 Moins riches en paramètres.
On s’intéresse aux représentations graphiques pour visualiser la répartition entre les différentes
modalités (appelées aussi items).
Exemples: Camemberts, Tartes, …
Exemple graphique: le mode d’accouchement pour les naissances en Communauté Française de
Belgique de 1994 à 2003 (échantillon de 250.379 naissances).
Mode d'accouchement ( ONE / 1994 -2003 / échantillon de 250379 naissances)
forceps
10015
4%
manœuvre sur siège
398
0%
césarienne
40993
16%
spontané
179513
72%
ventouse
19460
8%
Statistiques de localisation
I) X: x1, x2, x3, ……, xn
Petites séries de données
II) X: x1*, x2*, x3*, ……, xc*
Séries groupées – Variables continues
Données regroupées en classes de centres x1*, x2*, ...,
xc*;
n1, n2 , n3, ……., nc
n1+n2+n3+…...+nc = N
III) X: x1, x2, x3, ……, xc
n1, n2, n3, ……, nc
Séries groupées – Variables discrètes
Données répétées; n1+n2+n3+…...+nc = N
1. La moyenne arithmétique x
Définition, pour les trois types de séries de données:
n
x = 1  xi
I)
n i1
(Petites séries)
-
II)
x=
1 c n x*
j
N
j 1
j
(Données groupées, variable continue)
III) x 
1 c nx
j
N
j 1
j
(Données groupées, variable discrète)
x est influencée par la présence de valeurs «extrêmes»
Exemple: la série {10, 10, 10, 10, 80} donne une moyenne de (10+10+10+10+80)/5 = 24
qui ne reflète pas vraiment une valeur de tendance centrale.
-
La somme des écarts entre les valeurs observées et la moyenne est nulle
n
n
n
i 1
i 1
i 1
 ( xi  x )  xi   x nx nx  
Influence d’une transformation linéaire: X  Y =a X + b
La moyenne d’une transformation linéaire des xi est la transformation linéaire de la moyenne
.
X → Y = a X + b =>
x → y = a x + b (yi = axi + b).
Vérification:
Rappel préalable: 3 propriétés de ∑
1) ∑ (xi + yi) = ∑ xi + ∑ yi
2) ∑ (axi) = a ∑ xi
3) ∑ a = na
(! Remarque: lorsqu’il n’y a pas de confusion possible, nous notons
n
x
i 1
Démonstration: y =
å
yi
n
=
å
(ax i + b)
n
i
= ∑ x i)
= ax + b
2. La médiane x (prononcer “x tilde”)
La moitié des observations lui sont inférieures (ou égales) et la moitié supérieures (ou égales)
a) Pour les séries non groupées en classes, la série étant ordonnée:
-
Si n est impair: la médiane est l’observation de rang (n + 1)/2:
x = x ((n+1)/2)
Exemples: {2, 2, 3, 4, 5}
{1, 7, 11}
-
x= 3
x =7
Si n est pair: la médiane est la moyenne arithmétique des observations x(n/2) et x ((n/2)+1):
x = (x(n/2) + x((n/2)+1)) / 2
Exemples: {2, 2, 3, 3}
{1, 1, 1, 3, 3, 7, 8, 157}
x = (2+3)/2 = 2,5
x = (3+3) / 2 = 3
b) Pour les données groupées en classes, la «classe médiane» est la classe qui contient la
médiane.
-
La médiane possède une grande stabilité par rapport aux valeurs extrêmes, (parfois
aberrantes): elle n’est pas influencée par la valeur de telles observations.
x
Exemple: la série {9, 10, 10, 11, 80} a comme moyenne 24 et comme médiane
10.
3. Le mode (cf. «à la mode», …) xM
a) Pour les séries non groupées en classes, le(s) mode(s) est (sont) la ou les valeur(s)
observée(s) de fréquence maximum
b) Pour les séries groupées en classes, la ou les classe (s) modale(s) est (sont) la ou les
classes de fréquence maximum si l’intervalle de classe est constant ou de fréquence
unitaire maximum si cet intervalle n’est pas constant
En fonction du nombre de modes, on parle de distribution unimodale, bimodale, …
-
Le mode est une caractéristique intéressante à connaître notamment dans le cas de
distributions asymétriques. (C’est un paramètre également utilisable dans le cas de
données qualitatives nominales!).
FREQ.ABS.
25
20
15
10
5
0
1
2
3
4
5
X / LE MODE UNIQUE = 3
Le mode peut ne pas exister: exemple la série {1, 2, 3, 4, 5}
Il peut y en avoir 2: exemple la série {1, 1, 3, 3, 8, 11}
bimodale)
Ou plus de 2: exemple la série {1, 1, 1, 2, 2, 2, 7, 7, 7, 23}
trimodale)
xM = ???
xM = 1 et 3 (distribution
xM = 1, 2 et 7 (distribution
4. Quantiles
Cas particuliers: Médiane, Quartiles, Déciles, Centiles, Percentiles, …
Les quantiles d’ordre k: Q1, Q2, ……, Q k-1 divisent la série statistique ordonnée en k parties de
même effectif.
Les quartiles inférieur, moyen (=médiane) et supérieur divisent la série ordonnée en 4 parties de
même effectif.
Les déciles D1, D2,……, D9 la divisent en 10 parties; les centiles en 100.
Le qème percentile d’une distribution est la valeur en dessous de laquelle q% des observations se
trouvent (lui sont inférieures ou égales). La médiane est donc le 50 ème percentile, le premier
quartile est le 25ème percentile, le 3ème quartile est le 75ème percentile.
Statistiques de dispersion
Elles quantifient les écarts autour de la moyenne.
Des séries statistiques peuvent avoir les mêmes moyennes mais se différencier par la dispersion
des valeurs observées autour de cette moyenne.
Exemples: les 3 séries ont la même moyenne mais leurs dispersions sont très différentes
Série 1: {10, 10, 10, 10, 10} →
x = 10
Série 2: {5, 5, 10, 15, 15} →
x = 10
Série 3: {0, 0, 10, 20, 20} → x = 10
1. L’étendue E (ou «l’amplitude» ou en anglais, le «range»)
E = x (n) – x (1)
L’étendue se définit comme la différence entre la plus grande et la plus petite des valeurs
observées (la série étant ordonnée, le maximum = x(n) et le minimum = x(1)).
Elle est sensible à la présence de valeurs aberrantes et ne peut donc, en conséquence, qu’être
retenue pour des séries dont les observations sont réparties «convenablement» (sans valeurs
extrêmes).
Illustration:
│********************___________________________________________*│
x(1)
x(n)
L’étendue ne convient pas ici
│*_________________________***********_______________________*│
x(1)
x(n)
L’étendue ne convient pas ici
│*___*__*__*___*__**_**___***__****_***_**_*_**___**__*___*__*__│
x(1)
x(n)
L’étendue convient, les données sont bien réparties
2
2. La variance: sx
Construction:
1) Ecarts à la moyenne: xi -
x
2) Mise au carré: (xi - x )²
3) Sommation: ∑ (xi - x )²
4) Division par n-1 (inférence statistique): 1/(n-1) * ∑ (xi -
x )²
Statistique plus informative que l’étendue: elle tient compte de chacune des données.
Selon le type de série de données:
sx2 
1 n ( x  x )2
i
n 1 
i 1
(Petites séries)
sx2 
1 c n ( x*  x)2
j
j
N 1 
j 1
(Données groupées, var. continue)
sx2 
1 c n ( x  x )2
j
j
N 1 
j 1
(Données groupées, var. discrète)
Formule « pratique» de la variance
Pour les séries non groupées: sx2 
1 n
1 n
1 n
( xi ²  nx ²) =
( xi ²  ( xi )2 )
n 1 i 1
n 1 i 1
n i 1
Démonstration:
1 n
1 n
1 n
2
( xi  x ) =
( xi ²  2 xi x  x ²) =
( xi ²  2 x (nx )  nx ²) =
s =
n 1 
n 1 
n 1 
i 1
i 1
i 1
n
n
n
1
1
1
( xi ²  nx ²) =
( xi ²  ( xi )2 )
n 1 i 1
n 1 i 1
n i 1
2
x
Influence d’une transformation linéaire: X  Y = a X + b
sx2 s y2  a2 sx2 (rappel: la moyenne devenait y  ax  b )
(Le paramètre «b» n’intervient donc pas pour la variance)
Vérification: s y2 
1 n ( y  y)2 = 1 n (ax  b  (ax  b))2 = 1 n (ax  ax )2
i
i
i
n 1 
n 1 
n 1 
i 1
i 1
i 1
a² n
( xi  x )2  a ² sx2
=

n 1 i 1
L’unité dans laquelle s’exprime la variance vaut le carré de l’unité utilisée pour les valeurs
observées: ennuyeux! C’est pourquoi, on définit l’écart-type, racine carrée de la variance.
3. L’écart-type ou déviation standard: sx
sx  sx2
- Il possède une interprétation intéressante pour la distribution normale (voir graphique cidessous, pour la normale de moyenne 0 et d’écart-type 1). Ainsi, par exemple, la probabilité
de se trouver dans un intervalle
- d’un écart-type autour de la moyenne est égale à 0,6827, soit 68,27%
- de deux écarts-type autour de la moyenne vaut 0,9545, soit 95,45%
- de trois écarts-type autour de la moyenne vaut 0,9973, soit 99,73%
Densité de probabilité de la loi normale N ( 0 ; 1)
0.45
Fonction densité de probabilité
0.40
0.35
0.30
68,27 %
0.25
-1 E-T
1 E-T
0.20
0.15
0.10
95,45 %
2 E-T
-2 E-T
0.05
-3 E-T
3 E-T
99,73 %
0.00
X
Remarque: pour la distribution normale, la probabilité de s’écarter de plus de deux écarts-type
de la moyenne est de l’ordre de 5% (4,55% exactement). Dans le cas d’une
distribution continue unimodale, la probabilité de s’écarter de plus de trois écartstype de la moyenne est de l’ordre de 5% (4,94%).
Influence d’une transformation linéaire: X  Y = a X + b
sx → sy =│a│sx où │a│ désigne la valeur absolue de a =
a²
(Le paramètre «b» n’intervient donc pas pour l’écart-type)
4. Le coefficient de variation: cv
cv =
sx
x
Coefficient sans dimension; il est défini pour des variables à valeurs > 0 et est souvent exprimé en
%.
-
Exemple:
x = 1 000,
x = 100 000,
sx = 100,
sx = 100,
cv = 0,1(= 100/1 000)
cv = 0,001 (= 100/100 000)
Notion de variable centrée-réduite
La variable Z 
X x
mesure l’écart par rapport à la moyenne en unités d’écart-type:
sx
c’est la variable centrée-réduite, de moyenne 0 et d’écart-type 1.
Cette variable Z est sans dimension et est indépendante des unités choisies.
Elle s’avère donc fort utile pour comparer des distributions.
Exemple:
Un étudiant a obtenu 84 (sur 100 points) à un examen de mathématique où la moyenne était de
76 et l’écart-type 10.
En statistique, il a obtenu 90 (sur 100 points), la moyenne générale était de 82 et l’écart-type de
16.
Question: où l’étudiant est-il relativement le plus doué?
On calcule ses notes centrées–réduites:
= (84 – 76) / 10 = 8 / 10 = 0,8
= (90 – 82) / 16 = 8 / 16 = 0,5
En mathématique
En statistique
L’étudiant se situe à 0,8 fois l’écart-type réduit au-dessus de la moyenne en mathématique, et
seulement 0,5 fois en statistique. Il est donc relativement meilleur en mathématique.
Cette notion de variable centrée-réduite sera très utilisée par la suite.
Remarque: justification du fait qu’une variable centrée-réduite a pour moyenne 0 et écart-type 1.
Comme Z 
Z=
1
sx
X x
, on effectue en réalité une transformation linéaire de variables:
sx
X
x
sx
(c ' est
Dès lors: z = a x + b =
Z  aX  b
avec a 
1
x
=0
x
sx
sx
Représentations graphiques
nj = effectif (fréquence absolue)
Nj = effectif cumulé
n’j = nj / N = proportion (fréquence relative)
N’j = Nj /N = proportion cumulée
A. Données groupées, variable discrète
Diagrammes en bâtons.
1
sx
et b  
x
)
sx
et sz=│ a │ sx =
1
sx
sx = 1
Nombre de familles
Nombre de garçons dans les familles de 8 enfants ( n = 53680 )
Source : "Que sais-je?" n° 281 de Statistique
16000
14000
12000
10000
8000
6000
4000
2000
0
14959
11929
10649
6678
5331
215
0
2092
1485
1
2
3
4
5
6
7
342
8
Nombre de garçons
B. Données groupées en classes, variable continue
Notation des classes:] xj, xj+1]. Le nombre de classes est égal à c.
Chaque classe est caractérisée par les éléments suivants: son centre x*j , sa longueur
Ij, sa limite inférieure xj et sa limite supérieure xj+1, son effectif nj
nj = effectif de la classe j
(fréquence absolue)
n’j = proportion (fréquence relative) de la classe j
(= nj / N)
Nj = effectif cumulé de la classe j
(= n1 + n2 + …. + nj)
N’j = proportion cumulée de la classe j
(= Nj / N
ou
n’1 + n’2 + ... n’j)
L’histogramme des effectifs: suite de rectangles associés à chacune des classes j et dont la
surface est égale à nj. Si Ij est la longueur de la classe j, la hauteur du rectangle associé est nj / Ij.
Il s’agit donc d’un effectif par unité de classe. La surface totale des rectangles est égale à N.
L’histogramme des proportions: suite de rectangles associés à chacune des classes j et dont la
surface est égale à n’j. Si Ij est la longueur de la classe j, la hauteur du rectangle associé est
n’j / Ij. Il s’agit donc d’une fréquence par unité de classe. La surface totale des rectangles est
égale à 1.
Le diagramme, ou polygone, des effectifs cumulés: on associe à chaque fin de classe j un point
dont l’ordonnée vaut Nj. L’ensemble de ces points sont joints par des segments de droite.
Le diagramme, ou polygone, des proportions cumulées: on associe à chaque fin de classe j un
point dont l’ordonnée vaut N’j. L’ensemble de ces points sont joints par des segments de droite.
Remarque: si N tend vers l’infini et que le nombre de classes augmente de telle sorte que la
longueur de classe tende vers 0, les proportions tendent vers les probabilités, l’histogramme des
proportions tend vers le graphique de densité de probabilité (cf. chap.III), le diagramme des
proportions cumulées tend vers le graphique de la fonction de répartition (cf. chap.III).
I.B. EXERCICES
I.1 Dans une enquête sur les otites aiguës, on recueille chez un enfant les 9 informations
suivantes
L’âge: 4 ans
Le sexe: féminin
La profession du père: commerçant
La commune de résidence: Bruxelles
L’antécédent familial d’allergie (oui / non): oui
La consommation de tabac du père (en cigarettes par jour sous la forme: de 0 à 9, de 10 à
19, plus de 20): 10 à 19
- Le nombre d’otites depuis 1 an: 2
- Le déficit auditif moyen: 11,5 décibels
- La douleur articulaire (absente, modérée, intense): modérée
-
Déterminer, parmi ces 9 variables, celles qui présentent un caractère qualitatif ordinal.
I.2 Voici les âges (exprimés en années) d’un groupe de sujets:
20 / 23 / 28 / 21 / 20 / 18 / 29 / 20 / 24 / 22.
a) Calculer les statistiques classiques de position (moyenne, médiane, mode) et de
dispersion de ces données (étendue, variance, écart-type, coefficient de variation).
Fournir les résultats à deux décimales.
b) Si on remplaçait la valeur 29 par 39, déterminer, parmi les statistiques calculées, celles
qui seraient modifiées par ce changement
I.3 Un chercheur souhaite étudier la température X en degrés Celsius d’un groupe de patients
présentant de la fièvre. Pensant simplifier ses calculs, il procède au changement de variable
X  36
. Il obtient, pour Y, une moyenne de 1 et une variance de 0,64.
2,5
Calculer la moyenne et l’écart-type de la variable X
Y
I.4 On s’intéresse au temps d’apparition X (exprimé en minutes) des symptômes
d’empoisonnement par des champignons vénéneux. On forme les classes suivantes:
Classes de temps d’apparition Effectifs
(50;70]
10
(70;90]
20
(90;110]
41
(110;130]
V
(130;150]
10
L’effectif de la classe (110;130] est un paramètre appelé V, qui est à déterminer en fonction des
contraintes décrites ci-dessous.
a) La moyenne de X vaut 100 et la variance de X vaut 480 → est-il possible de trouver une
valeur de V? Si oui, la fournir.
b) La moyenne de X est supérieure à 100 et la variance de X vaut 480 → est-il possible de
trouver une valeur de V? Si oui, la fournir.
I.5 On s’intéresse à la distribution des âges de 7 personnes, 5 médecins et 2 kinésithérapeutes,
participant à une réunion médicale. On dispose des renseignements suivants:
- la distribution des âges est unimodale, le mode étant de 44 ans
- un médecin a l’âge médian, 46 ans
- les deux kinésithérapeutes ont l’âge moyen, soit 47 ans
Peut-on, sur base de ces informations, en déduire l’âge du médecin qui préside la réunion et qui
est la personne la plus âgée assistant à la réunion?
I.6 Un service de médecine interne d’un hôpital nous a faxé les renseignements suivants relatifs
aux jours d’admission en hospitalisation pour la période du lundi 15 août au vendredi 19
août 2011. Certaines données ont été hélas mal imprimées! Voici les données disponibles:
Jour
nj = effectif Nj’ = proportion cumulée
Lundi 15 août (férié)
0
0
Mardi 16 août
Mercredi 17 août
12
0,60
Jeudi 18 août
9
Vendredi 19 août
3
Peut-on, sur base de ces seuls renseignements déterminer le nombre de patients qui ont été admis
le mardi 16 août 2011?
I.7 Un service de maternité s’interroge sur le poids de naissance des nouveau-nés. Pour répondre
à cette question, les poids en grammes de 100 nouveau-nés sont relevés de la manière
suivante
Classes (en
grammes)
Effectifs
(2000;2500]
6
(2500;3000]
22
(3000;3500]
33
(3500;4000]
31
(4000;4500]
7
(4500;5000]
Total
1
a) Calculer les proportions, les effectifs cumulés et les proportions cumulées
b) Repérer dans quelles classes se trouvent le premier quartile, la médiane et le troisième
quartile.
I.8 On s’intéresse à la moyenne et à l’écart-type de la durée d’hospitalisation, mesurée en jours,
pour une maladie rare. On ne dispose plus des données individuelles mais on sait que pour
10 patients atteints de cette maladie la somme des 10 durées de séjour valait 670 et la
somme des carrés des 10 durées de séjour valait 82.116.
On reçoit entre-temps la donnée pour
d’hospitalisation de 122 jours.
un onzième patient qui a connu une durée
Déterminer, la moyenne et l’écart-type (à 2 décimales) de la durée d’hospitalisation pour
l’ensemble des 11 patients.
100
I.9 Dans le graphe ci-dessous, on a représenté les âges (en mois) d’enfants traités en kiné
respiratoire pour une bronchite spastique. Que vaut la moyenne, exprimée avec deux
décimales?
Que vaut la valeur de l’ordonnée de la 1ère classe sachant que la proportion de cas tombant
dans cette classe vaut 0,27 ? Indiquer les unités de cette ordonnée.
27%
23%
14%
9%
9%
7%
7%
2%
2%
0%
3
8
13
18
23
28
33
38
0%
43
48
0%
53
0%
58
63
68
Âge (en mois)
I.10 La répartition des célibataires (échantillon) selon leur âge est fournie par le tableau suivant
Classes d’âge (15-30] (30-40] (40-50] (50-60] (60-70] (70-80] (80-90]
effectifs
4500
450
400
230
200
M
20
Sachant que l’âge moyen est égal à 28,764626 ans, à quel effectif correspond la valeur manquante
M?
I.11 Dans un hôpital, la durée moyenne du séjour des patients est de 9 jours et la durée médiane
de 7 jours. La durée la plus fréquente est de 5 jours. A partir de ces éléments, déterminer la
proposition qui est vraie parmi les 4 proposées ci-dessous:
1.
2.
3.
4.
l’écart-type de la durée de séjour est de 2 jours
approximativement 50% des patients ont été hospitalisés pour une durée inférieure à 5 jours
la médiane est très influencée par les séjours de longue durée
la distribution des durées d’hospitalisation présente un caractère asymétrique
I.12 Soit un ensemble de n (n > 3) observations quantitatives dont l’écart-type est nul.
Déterminer la proposition vraie parmi les 6 propositions suivantes
1.
2.
3.
4.
toutes les valeurs observées sont différentes les unes des autres
toutes les valeurs observées sauf une sont égales entre elles
toutes les valeurs observées sont nécessairement nulles
toutes les valeurs observées sont égales à la médiane
5. le coefficient de variation de la série de données est égal à 1
6. toutes les valeurs observées sont telles que leurs n écarts par rapport à la moyenne sont
constants et non nuls.
I.13 Une étude a été réalisée dans un service d’obstétrique portant sur un échantillon de 20 bébés
nés prématurément. On a notamment mesuré le périmètre crânien et on a calculé la
moyenne (23 cm) et la somme des carrés des observations (10.701,6 cm²). On a constaté
par la suite qu’une des observations initiales avait été transcrite de manière erronée: la
valeur considérée dans les calculs était de 26 cm alors que la valeur exacte était en réalité
de 22 cm. Pour la série tenant compte de la donnée corrigée, donner la moyenne (avec une
décimale) et l’écart-type (avec deux décimales).
I.14 On a répertorié le nombre de frères et sœurs de tous les étudiants d’une même promotion.
Nombre de frères et sœurs 0 1 2 3 4 Total
Effectif
38 94 75 48 5 260
a) Calculer la moyenne (à 5 décimales) et la médiane de cette distribution
b) Six étudiants absents lors du recueil des données annoncent qu’ils ont respectivement 2, 3, 2,
3, 4 et 2 frères et sœurs. Calculer la moyenne (à 5 décimales) et la médiane de la série de
données complétée. Comparer avec les valeurs précédemment calculées.
I.15 La variance d’une variable quantitative continue X a été calculée sur un ensemble de n (> 2)
observations. Cette variance est
1. nulle dès lors que la variable X possède une moyenne et une médiane nulle
2. nulle si X est une variable centrée-réduite
3. inchangée si on centre la variable
4. toujours supérieure à la moyenne de X
5. un réel positif compris dans l’intervalle [0;1]
6. est d’autant plus grande que l’effectif n augmente
7. est d’autant plus grande que l’effectif n diminue
8. toujours égale à 1
Déterminer la proposition vraie parmi les 8 propositions énoncées.
I.16 Exercice «ouvert»: Le tableau suivant reprend pour un échantillon de 18 marques d’eau
minérale mises en vente sur le marché, leurs compositions en Na (Sodium), Ca (Calcium),
Mg (Magnésium) exprimées en mg/litre, ainsi que leur pH (potentiel Hydrogène). 11
d’entre elles présentent un caractère non gazeux (eau plate), tandis que les 7 autres se
caractérisent par un caractère gazeux (eau gazeuse).
marque
Chaudfontaine
Evian
Hépar
Orée du Bois
Saint-Amand
San Benedetto
Na
44,00
6,50
14,20
43,00
28,00
11,70
Ca
65,00
80,00
549,00
234,00
176,00
128,90
Mg
18,00
26,00
119,00
70,00
46,00
17,90
pH
7,60
7,20
7,20
7,20
7,20
7,50
type
PLATE
PLATE
PLATE
PLATE
PLATE
PLATE
Source Beaupré
Spa Reine
Thonon
Vittel
Volvic
Badoit
Cristalline
Perrier
Saint-Alban
Saint-Léger
Vichy Célestins
Vichy Saint-Yorre
3,00
3,00
3,00
4,70
11,60
165,00
84,00
11,80
350,00
93,00
1172,00
1708,00
58,00
4,50
108,00
202,00
11,50
190,00
67,00
155,00
220,00
64,00
103,00
90,00
24,00
1,30
14,00
43,00
8,00
85,00
26,00
6,80
70,00
26,00
10,00
11,00
7,60
6,00
7,40
7,30
7,00
6,00
5,20
5,50
6,50
5,20
6,80
6,60
PLATE
PLATE
PLATE
PLATE
PLATE
GAZEUSE
GAZEUSE
GAZEUSE
GAZEUSE
GAZEUSE
GAZEUSE
GAZEUSE
Commenter les statistiques descriptives de base obtenues sur ces données à l’aide du logiciel
SPSS:
I.17 Un chercheur prépare une étude randomisée dans laquelle deux groupes de patients seront
soumis à deux thérapies différentes A et B. Le chercheur a reçu l’accord de 57 patients
pour participer à l’étude. Il décide d’utiliser la table de nombres aléatoires pour assigner à
chacun d’eux l’un des deux traitements ( voir fascicule des tables, première table I).
a) S’il prend comme règle de conduite d’assigner le traitement A pour les nombres de 0
à 4 et B pour les nombres de 5 à 9, en commençant par la première ligne de la table,
combien de patients y aura-t-il dans chaque groupe? A quel traitement sera assigné le
9ème patient? Et le 16ème?
b) S’il prend comme règle de conduite de commencer à la 14ème ligne (14 étant le
nombre donné au hasard par une personne «innocente») et d’assigner le traitement A
pour 0 et les nombres pairs, et B pour les nombres impairs, combien de patients y
aura-t-il dans chaque groupe? A quel traitement sera assigné le 9ème patient? Et le
16ème?
I.18 Questions à choix multiple (une seule bonne réponse par question)
a) L’étendue d’une variable quantitative X a été calculée sur un ensemble de n observations.
Cette étendue est
1.
2.
3.
4.
5.
un nombre négatif ou nul
toujours strictement inférieure à la variance
fortement influencée par les valeurs extrêmes
toujours strictement supérieure à la moyenne
un des paramètres de tendance centrale parmi les plus simples
b) Dans un ensemble de n observations d’une variable quantitative X comportant au moins deux
valeurs distinctes, on peut affirmer que
1.
2.
3.
4.
5.
la médiane n’est jamais nulle
la moyenne arithmétique n’est jamais nulle
l’écart-type n’est jamais nul
la moyenne est toujours supérieure à la médiane
l’écart-type est toujours égal à l’étendue
c) Le diagramme de fréquence cumulée est particulièrement utile dans la détermination de
1.
2.
3.
4.
5.
La moyenne
La médiane
Le mode
L’écart-type
La variance
d) Soit un groupe de 15 sujets ayant obtenu une moyenne égale à 80 points à un test noté sur
100 points. Si nous enlevons 80 points à chacun des sujets, la variance
1.
2.
3.
4.
5.
augmente
diminue
ne change pas
devient égale à 0
il est impossible de répondre à cette question avec les données fournies
e) Pour un ensemble de 10 observations d’une variable quantitative,
1.
2.
3.
4.
5.
6.
La médiane correspond toujours à une observation de l’ensemble
La médiane peut correspondre à une observation de l’ensemble
La médiane ne correspond jamais à une observation de l’ensemble
La moyenne correspond toujours à une observation de l’ensemble
Le mode ne correspond jamais à une observation de l’ensemble
La moyenne ne correspond jamais à une observation de l’ensemble
f) Les quatre statistiques suivantes: étendue, variance, écart-type et écart interquartile ont été
calculées sur un ensemble de n observations d'une variable continue X.
1. Si toutes les observations sont exprimées en unités centrées réduites, ces 4 statistiques
sont égales à 1
2. Si ces 4 statistiques sont nulles, les n observations sont toutes nécessairement nulles
3. Si on ajoute une même valeur constante non nulle à chacune des observations, les 4
nouvelles statistiques obtenues sont identiques aux 4 anciennes
4. Ces 4 statistiques s’expriment toutes dans les mêmes unités que les observations
5. Si on ajoute une observation aux n précédentes, ces 4 statistiques augmentent
6. Ces 4 statistiques sont des quantités positives ou nulles et nécessairement égales entre
elles si leur moyenne est égale à leur médiane
I.19 On désire comparer, dans un contexte déterminé, la rapidité de jeunes enfants selon leur
sexe. A cet effet, on donne à un groupe «représentatif» de 12 filles et à un groupe «représentatif»
de 12 garçons le même parcours d’obstacles à effectuer et on mesure le temps mis par chacun
d’entre eux pour le parcourir.
Les résultats obtenus (temps exprimé en secondes) sont les suivants:
Filles
32
26
25
29
35
40
25
30
41
27
40
28
Garçons
45
40
38
29
42
39
31
37
32
28
41
48
a) Déterminer la valeur de la médiane du temps de réalisation de l’exercice chez les filles et les
garçons
b) Calculer les temps moyens de parcours de réalisation de l’exercice chez les filles et les
garçons
c) Peut-on conclure à une différence de rapidité entre les filles et les garçons sur base des
résultats obtenus?
I.20 On s’intéresse à la durée de séjour (exprimée en jours) à l’hôpital Erasme de patients
présentant une hernie discale lombaire. Parmi ceux-ci, un échantillon représentatif de 100
sujets a été retenu. Les graphiques suivants ont été réalisés (boîte à moustaches, voir §
II.D, et diagramme en bâtons).
Quelle est la proposition fausse parmi les propositions suivantes?
1. le premier quartile est égal à 5 jours
2. la distribution observée présente un caractère asymétrique
3. la moyenne de la durée de séjour est > 7 jours
4. le mode est égal à la médiane qui vaut 7 jours
5. l’écart interquartile est de 5 jours
6. la première valeur éloignée, à partir du bord supérieur de la boîte, est égale à 18 jours
7. quatre patients présentent une durée de séjour extrême
I.21 Les six diagrammes en bâtons ci-dessous représentent six distributions d’un score variant de
0 à 10 mesuré sur 20 patients. Ils correspondent dans le désordre à six tableaux de statistiques de
position et de dispersion. Associez à chaque graphique (repéré par une lettre) le tableau de
mesures correspondant (repéré par un chiffre).
B
A
6
4
Effectifs
Effectifs
5
3
2
1
0
0
1
2
3
4
5
6
7
8
7
6
5
4
3
2
1
0
0
9 10
1
2
3
6
7
8
9 10
5
6
7
8
9
6
5
5
Effectifs
4
Effectifs
5
D
C
3
2
1
4
3
2
1
0
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
10
F
E
5
5
4
4
Effectifs
Effectifs
4
3
2
1
3
2
1
0
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
Mesures de position et de dispersion:
Moyenne
Médiane
Ecart-type
(arrondi à 3
décimales)
Tableau 1
5
5
Tableau 2
5,6
5
Tableau 3
6,95
7
Tableau 4
5
5
Tableau 5
4,75
5
Tableau 6
5
5
1,487
2,088
1,959
3,244
2,074
2,176
Réponses:
Diagrammes en bâtons
A
B
C
D
E
F
Tableaux
I.22 Soient X et Y deux variables quantitatives mesurées simultanément sur n sujets. Peut-on
toujours écrire, quelles que soient les variables:
a)
b)
c)
d)
var (X + Y) = var (X) + var (Y)
var (X + Y) = var (X) – var (Y)
var (X – Y) = var (X) – var (Y)
var (X - Y) = var (X) + var (Y)
Solution: les valeurs observées sont notées pour X: x1, x2, …, xn et pour Y: y1, y2, ..., yn
Nous aurons par exemple
1 n
1 n
2
var( X  Y ) 
((
x

y
)

(
x

y
))

(( xi  x )  ( yi  y )) 2 


i
i
n  1 i 1
n  1 i 1

1 n
1 n
2 n
2
2
(
x

x
)

(
y

y
)

 i
 i
 ( xi  x )( yi  y ) 
n  1 i 1
n  1 i 1
n  1 i 1
sx2  s y2  2 cov ariance( X , Y )oùcov ariance( X , Y ) 
1 n
 ( xi  x )( yi  y )
n  1 i 1
→ var (X+Y) = var X + var Y + 2 cov (X,Y)
On pourrait montrer de la même manière que
var (X-Y) = var X + var Y - 2 cov (X,Y)
La covariance entre X et Y est un paramètre statistique qui sera étudié dans le chapitre
consacré à la régression et à la corrélation.
Exemple numérique (tableau ci-dessous) montrant que
var (X+Y) ≠ var X + var Y et var (X-Y) ≠ var X – var Y:
Prenons pour X les 5 observations: 3, 6, 9, 12, 15 et pour Y les 5 observations: 1, 2, 3, 4, 5.
X
Y
X+Y
X-Y
3
1
4
2
6
2
8
4
9
3
12
6
12
4
16
8
15
5
20
10
Moyenne
9
3
12
6
Variance
22,5
2,5
40
10
On obtient var X = 22,5; var Y = 2,5; var (X+Y) = 40; var (X-Y) = 10. Clairement,
var (X+Y) ≠ var X + var Y et var (X-Y) ≠ var X – var Y.
Les 4 propositions a), b),c) et d) sont donc fausses.
I.C. UTILISATION DES LOGICIELS STATISTIQUES
Exemple 1
Le volume expiratoire maximum par seconde (VEMS) a été mesuré chez 57 étudiants de sexe
masculin. Les résultats obtenus, exprimés en litres, sont indiqués dans la première table cidessous,
4,47
3,10
4,50
4,90
3,50
4,14
4,32
4,80
3,10
4,68
4,47
3,57
2,85
5,10
5,20
4,80
5,10
4,30
4,70
4,06
VEMS
3,48
5,00
4,20
4,50
3,70
4,20
5,30
4,16
4,71
3,70
4,10
3,83
4,30
3,90
3,39
4,47
3,69
3,30
4,44
5,43
3,42
3,60
3,20
4,56
4,78
3,60
3,96
3,19
2,85
3,04
Statistiques descriptives présentées par le logiciel SPSS
Statistiques
VEMS
N
Valide
57,0000
Moyenne
4,0604
Médiane
4,1000
Mode
4,4700
Déviation standard
,6715
Variance
,4509
Étendue
2,5800
Minimum
2,8500
Maximum
5,4300
Somme
Percentiles
231,4400
25
3,5400
50
4,1000
75
4,5300
3,78
3,75
4,05
3,54
4,14
2,98
3,54
Maximum: 5,4300
Étendue
= max – min
= 5,4300 – 2,8500
= 2,5800
Moustaches
Percentile 75: 4,5300 = Q3
Ecart interquartile
= Q3 - Q1
= 4,5300 – 3,5400
= 0,9900
Médiane: 4,1000 = Q2
Percentile 25: 3,5400 = Q1
Minimum: 2,8500
VEMS
Boîte
Compléments sur les boîtes à moustaches
Exemple:
Description, à l’aide de boîtes à moustaches de la durée (exprimée en jours), qu’a nécessitée la
revalidation, chez des femmes (groupe 1) et chez des hommes (groupe 2) ayant tous subi un
accident du même type. (Graphique fourni par le logiciel statistique SPSS).
Les boîtes à moustaches indiquent quelques traits marquants des séries de données, intégrant les
concepts de centralité et de dispersion. Le segment inférieur d’une boîte représente la valeur du
premier quartile (A) tandis que le segment supérieur représente celle du troisième quartile (B), la
boîte contient donc 50% des observations. La médiane est représentée par un segment horizontal
dans la boîte (C). La boîte est prolongée en haut et en bas par deux moustaches qui s’étendent
respectivement jusqu’au maximum (D) et au minimum (E) de la série de données, pour autant
qu’il n’y ait pas de valeurs éloignées ou extrêmes. Une valeur éloignée (représentée par un rond)
est une observation dont la valeur est comprise entre 1,5 et trois fois la hauteur de la boîte,
comptée à partir du bord supérieur (troisième quartile) ou inférieur (premier quartile) de la boîte
à moustaches (F). De la même façon, une valeur extrême (représentée par une étoile) est une
observation dont la valeur est située à plus de trois fois la hauteur de la boîte, toujours comptée à
partir du bord supérieur (troisième quartile) ou inférieur (premier quartile) de la boîte à
moustaches (G).
G
D
F
B
C
A
E
Exemple 2
Les températures maximales moyennes mensuelles d’Uccle (IRM) sont données dans le tableau cidessous. Elles concernent quarante-quatre années, de 1968 à 2011, et sont exprimées en degrés Celsius. A
titre informatif, la dernière colonne « moy» du tableau présente, pour chaque année, la moyenne
arithmétique pondérée des températures des 12 mois s’y référant.
année janvier février mars avril
mai
juin
juillet août
septembre octobre novembre décembre moy
1968
3,60
4,00 10,20 15,10 15,30 19,70 21,30 20,80
18,50 15,70
7,90
2,60 12,91
1969
7,10
3,60
8,30 13,10 18,40 19,90 22,90 21,70
19,60 17,80
9,40
2,20 13,73
1970
5,60
5,50
6,60
9,80 18,00 23,70 20,80 22,40
20,30 14,30
11,60
4,70 13,64
1971
6,40
6,80
6,80 14,00 20,20 18,30 23,80 21,80
19,30 15,70
8,10
7,70 14,13
1972
4,40
7,80 12,60 12,20 16,40 18,20 22,00 20,60
17,00 14,50
8,40
7,50 13,49
1973
5,20
5,60 10,30 10,70 17,30 22,00 21,90 24,40
20,10 13,60
9,00
5,70 13,87
1974
8,70
8,30
9,90 15,30 17,00 20,00 20,00 22,10
17,20
9,90
9,50
9,10 13,95
1975
9,10
8,60
7,50 11,90 16,30 20,10 23,20 25,00
19,50 12,80
8,50
5,10 14,00
1976
6,40
6,30
8,30 13,10 19,40 24,80 25,50 24,20
18,90 15,20
9,10
4,40 14,66
1977
5,20
8,40 11,40 10,90 16,50 18,00 20,90 20,40
17,80 16,40
9,10
8,30 13,65
1978
5,00
4,80 10,00 11,90 16,50 19,10 19,90 19,90
17,60 15,10
9,50
6,00 12,99
1979
0,30
3,10
8,50 11,90 16,90 19,40 20,70 20,10
18,90 15,60
9,00
7,90 12,75
1980
3,30
9,00
8,60 11,80 16,70 18,80 19,20 21,70
20,10 13,10
7,00
5,80 12,93
1981
5,80
5,00 12,30 12,70 17,70 18,50 20,50 21,10
19,40 12,60
9,80
3,20 13,26
1982
4,70
7,40
9,70 12,70 18,00 21,40 23,40 21,60
21,60 14,20
10,50
6,20 14,32
1983
8,30
4,00 10,00 13,80 15,50 21,60 26,00 23,60
18,70 14,60
10,20
6,50 14,47
1984
5,80
5,20
8,00 13,20 13,80 18,40 21,80 23,40
16,80 14,60
12,30
6,70 13,36
1985 -0,30
3,40
7,50 13,00 17,80 18,70 22,90 21,10
19,20 14,40
5,40
7,80 12,63
1986
4,80 -0,40
8,70 10,40 19,00 22,20 22,20 20,80
16,20 15,80
10,80
7,10 13,23
1987 -0,60
4,70
6,40 16,40 14,60 18,40 21,70 21,00
19,60 15,20
8,30
6,30 12,70
1988
8,40
7,10
8,40 14,70 18,90 19,20 20,20 22,00
17,60 14,90
8,90
8,60 14,10
1989
6,90
8,30 12,90 11,20 21,30 21,50 24,10 23,30
20,10 16,40
9,70
7,90 15,35
1990
7,40 11,60 12,70 13,60 20,70 19,60 23,00 25,10
17,50 16,50
9,00
5,50 15,22
1991
5,90
3,20 13,10 13,90 15,10 17,20 23,40 24,20
20,80 14,40
8,50
6,00 13,88
1992
4,90
8,30 10,30 13,40 20,60 21,20 23,20 22,50
18,70 11,40
10,50
6,00 14,26
1993
8,40
4,40 11,00 16,30 19,40 21,10 21,10 20,30
17,10 12,20
5,50
7,40 13,75
1994
7,20
5,70 11,00 13,20 16,90 20,80 26,70 22,40
17,30 14,20
12,80
8,00 14,74
1995
6,70
9,40
9,60 13,00 18,30 18,90 25,90 25,30
18,00 17,50
10,20
3,10 14,70
1996
4,90
3,70
7,60 15,20 14,60 20,80 21,60 22,20
16,70 14,80
7,70
2,50 12,71
1997
2,60
9,20 12,30 12,90 17,90 20,50 21,90 26,20
19,70 14,30
9,70
7,30 14,57
1998
7,00
9,70 11,00 13,00 19,80 20,60 20,50 22,20
18,90 12,30
6,60
6,60 14,04
1999
7,70
5,70 11,30 14,20 19,30 19,90 24,20 22,40
21,70 14,20
8,60
6,50 14,70
2000
6,10
8,80 10,30 14,60 19,10 21,30 18,90 23,00
19,90 14,40
10,20
7,70 14,53
2001
5,90
7,50
9,40 12,20 19,70 20,00 23,20 23,70
16,30 17,90
9,20
4,90 14,21
2002
7,20 10,00 11,60 14,40 17,60 21,40 22,00 22,30
18,70 13,80
11,30
6,30 14,74
2003
4,60
6,60 13,10 15,20 18,00 23,80 24,20 25,30
20,60 11,60
11,10
7,10 15,14
2004
5,60
7,60 10,50 15,20 17,10 20,70 21,80 23,00
20,00 15,10
9,20
5,30 14,27
2005
7,10
4,90 10,70 14,70 18,00 23,20 23,00 21,40
21,20 18,10
8,90
5,90 14,81
2006
4,50
4,90
8,40 14,00 18,80 22,00 28,60 20,20
23,40 18,00
12,40
8,20 15,34
2007
9,30
9,60 12,10 20,50 19,00 21,90 21,70 21,30
18,20 14,00
9,30
6,70 15,32
2008
8,60 10,30
9,40 13,80 21,30 20,70 22,40 21,70
18,20 14,20
9,40
5,10 14,60
2009
3,70
6,30 10,90 17,40 19,10 21,30 23,60 24,90
20,40 15,10
12,10
5,30 15,05
2010
2,20
5,00 10,40 15,70 15,40 22,40 25,80 21,50
18,60 14,70
8,20
1,20 13,46
2011
6,70
8,10 12,40 19,60 20,00 21,70 20,10 21,90
Pour chaque mois, on peut obtenir les statistiques descriptives de base:
Nous représentons, à titre d’exemples, les histogrammes des mois de janvier et juillet:
Nous résumons l’information de chaque mois par une boîte à moustaches:
Questions
1. La moyenne et l’écart-type des maxima journaliers moyens de juillet à Uccle pour ces 44
dernières années valent respectivement, en degrés Celsius, 22,54°C et 2,08°C.
Que deviennent la moyenne et la variance de ces statistiques (à donner avec 3 décimales après
avoir effectué les calculs à 4 décimales) en degrés Fahrenheit ?
La formule liant ces 2 échelles est:
Température Fahrenheit = 1,8 * Température Celsius +32.
Réponse: en fonction de la transformation linéaire des données, F = 1,8 C + 32 → f = 1,8 c +
32 et sf² = (1,8)² sc².
La moyenne en degrés Fahrenheit = (1,8 * 22,54) + 32 = 72,57
La variance exprimée en (degrés Fahrenheit)² = (1,8)² * (2,08)² = 14,02
2. Le mois de janvier 2010 (température maximale moyenne de 2,2 °C), caractérisé par son
épisode neigeux, apparaît-il plus remarquable que ne l’est le mois de juillet de 2010 (température
maximale moyenne de 25,8°C) par sa période de canicule ?
Réponse: ces données peuvent être comparées en passant aux valeurs centres-réduites.
(Z 
X x
)
sx
Pour le mois de janvier: xjanv = 2,2 → zjanv = (2,2 – 5,64) / 2,33 = -1,48
Pour le mois de juillet: xjuil = 25,8 → zjuil = (25,8 – 22,54) / 2,08 = 1,57
Le mois de juillet 2010 apparaît donc un peu plus extrême que le mois de janvier 2010 et fut
donc relativement un peu plus chaud que janvier ne fut froid.
Remarque:
1. Nous pouvons constater le rôle relativement important joué par l’année extrême 2006 dans le
calcul des mesures de dispersion de notre série de données de juillet.
Voyons, à titre illustratif, ce que deviendraient les paramètres statistiques en retirant soit l’année
record 2006, soit l’année minimum 2000, soit une année «normale» comme 2008.
temp.
Juillet
44 années d'observation
retrait de l'an 2006 (année maximum
"record")
28,6
retrait de l'an 2000 (année minimum)
18,9
retrait de l'an 2008 (année "normale")
22,4
n
4
4
4
3
4
3
4
3
Moyenn Médian Etendu Varianc
e
e
e
e
Ecarttype
22,54
22,10
9,7
4,33
2,08
22,40
22,00
7,8
3,53
1,88
22,62
22,20
9,4
4,11
2,03
22,54
22,00
9,7
4,43
2,10
2. Nous examinerons dans un chapitre futur l’analyse des liens qui peuvent exister entre les variables
(corrélations). Il est permis de se demander en effet si d’éventuelles relations existent entre les mois (juin
relativement chaud entraîne-t-il juillet relativement chaud? par exemple).
D’autre part, on peut aussi se poser la question de savoir si certains mois présentent des
températures maximales moyennes similaires (janvier – février ou juillet-août, par exemple).
Téléchargement