Statistique descriptive

publicité
59
Cahier de Mathématiques Appliquées no 2
Statistique descriptive
B. Ycart
Le point de vue adopté ici est orienté vers les applications en médecine, et
s’appuie largement sur l’utilisation des logiciels de calcul, qui permettent
l’expérimentation indispensable à la compréhension de la statistique. L’étude
de la statistique descriptive prépare aux techniques plus probabilistes utilisées pour l’estimation paramétrique et les tests. C’est la raison pour laquelle
l’accent est mis ici sur la notion de distribution empirique plutôt que sur les
différentes techniques graphiques de représentation des données. Les livres de
statistique sont nombreux. Plus ou moins théoriques, plus ou moins spécialisés dans tel ou tel domaine d’application, il est difficile d’en recommander
un en particulier. Ce qui suit a été préparé à partir des références suivantes.
J.L. Devore : Probability and statistics for engineering and the sciences.
Brooks/Cole, Pacific Grove 1991.
G. Saporta : Probabilités, Analyse des données et Statistique.
Technip, Paris, 1990.
Les “cahiers de mathématiques appliquées” doivent beaucoup aux relectures scrupuleuses de Rachid Boumaza, au dynamisme de Sylvie SevestreGhalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de
l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des
études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur
du Centre des Publications Universitaires de la Tunisie.
60
Cahier de Mathématiques Appliquées no 2
Table des matières
1 Données unidimensionnelles
1.1 Echantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Moyenne empirique . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . .
61
61
64
66
2 Distribution empirique
2.1 Statistique et probabilités .
2.2 Représentations graphiques
2.3 Quantiles . . . . . . . . . .
2.4 Modèles probabilistes . . . .
2.5 Ajustement . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
72
73
75
79
3 Données bidimensionnelles
3.1 Représentations bidimensionnelles
3.2 Covariance . . . . . . . . . . . . .
3.3 Régression linéaire simple . . . . .
3.4 Régressions multiples . . . . . . . .
3.5 Rapport de cotes . . . . . . . . . .
3.6 Tableau de contingence . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
83
86
90
92
94
4 Exercices
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
Statistique descriptive
1
1.1
61
Données unidimensionnelles
Echantillons
A la base de toute étude statistique, il y a une population, formée d’individus sur lesquels on observe des caractères. Pour fixer les idées, il est plus facile
de penser en termes de population humaine. Les individus sont des personnes,
et les caractères observés peuvent être morphologiques (taille, poids, couleur
des yeux), physiologiques (groupe sanguin, numération globulaire, taux de
cholestérol) ou psychologiques (réactions à des tests ou réponses à une enquête
d’opinion). Même si nous choisirons prioritairement nos exemples dans les
caractères humains, il faut garder à l’esprit des notions de population et de
caractère plus générales. Voici quelques exemples.
Population
Eléments chimiques
Galaxies
Etoiles
Chromosomes
Gènes
Villes
Pays
Films
Mois de l’année
Caractère
Nombre d’isotopes
Nombre d’étoiles
Magnitude
Nombre de gènes
Nombre de bases protéiques
Taux d’imposition
Produit intérieur brut
Recettes
Montant des exportations
Un caractère est dit :
– qualitatif, si les valeurs ne peuvent pas être ordonnées (groupe sanguin,
couleur des yeux, vote pour un candidat).
– ordinal, si les valeurs peuvent seulement être ordonnées : leurs différences ne sont pas interprétables (opinions exprimées sur une échelle de
valeurs)
– quantitatif, quand les valeurs sont numériques (mesures physiques, physiologiques, économiques).
Les valeurs que peut prendre un caractère s’appellent les modalités.
Pour des raisons de facilité de traitement informatique ou mathématique,
on cherche à se ramener à des caractères quantitatifs par un codage. Si le
caractère initial est qualitatif, le codage sera souvent binaire. Le cas le plus
simple est celui d’un référendum, où il n’y a que deux modalités codées 0 et
1. Pour un nombre quelconque m de modalités, on pourra les coder par un
vecteur de m booléens : si la valeur observée sur un individu est l, le vecteur
associé à cet individu a toutes ses coordonnées nulles sauf la l-ième qui vaut
1. Dans le cas des caractères ordinaux, on effectue souvent le codage sur
les premiers entiers. Il faut se souvenir que le codage est arbitraire et que les
résultats numériques que l’on obtient après codage peuvent dépendre de celuici. Des techniques spécifiques permettent de traiter plus particulièrement les
Cahier de Mathématiques Appliquées no 2
62
caractères qualitatifs et ordinaux. Nous nous limiterons ici pour l’essentiel
aux caractères quantitatifs.
La statistique intervient quand il est impossible ou inutile d’observer un
caractère sur l’ensemble de la population. On l’observe alors sur une souspopulation de taille réduite, en espérant tirer de l’observation des conclusions
généralisables à toute la population. Si les données d’un caractère quantitatif sont recueillies sur n individus, le résultat est un n-uplet de nombres,
entiers ou décimaux, (x1 , . . . , xn ), que l’on appelle échantillon ou série statistique, de taille n. On réserve plutôt le terme d’échantillon au résultat de n
expériences menées indépendamment les unes des autres, et dans des conditions identiques (lancers de dés, mesure du poids de n nouveaux-nés,. . . ). On
appellera série statistique le résultat de n expériences qui ne sont pas interchangeables. Le cas le plus fréquent est celui où la population est constituée
d’instants successifs (relevés quotidiens de températures, chiffres mensuels du
chômage,. . . ). On parle alors de série chronologique (figure 1).
Milliers de cas
900
+
800
700
+
600
+
500
+
+
400
+
+
+
+
+
300
+
+
++
+
+ +
+
++
200
+
+
+
++
+
+
++
100
+
+
+
+
++++ + +
++ ++ +++
++++ +
++++++
++++++++++++
+ +++
+++++++++++++++ + ++++++++++++
+
+
+
+
+
+
+
+
+
+
++++++
++
+
0
.
0
52
104
+ +
+
+
+
+
+
++
++
+ +++
++++++
+++++++
++++++++++++++++++++++++
156
+
+
+
+
++
+
+
++
++++++++++++++++++++++++++++
+
+++
++++
+++ + ++
+++++++++++++ +++++++++++++++++++++++
208
Semaines
260
Figure 1 – Série chronologique : cas de grippe en France par semaine sur 5
ans.
On distingue souvent les caractères discrets (ceux qui ne prennent que
peu de modalités distinctes) des caractères continus (pour lesquels toutes
les valeurs observées sont a priori différentes). La frontière entre continu et
discret est beaucoup moins claire en pratique qu’en théorie. Tout recueil de
données se fait avec une certaine précision, et dans une certaine unité. Si une
taille est mesurée avec une précision de l’ordre du centimètre, tout chiffre
correspondant à une quantité inférieure au centimètre ne contient aucune
information et doit être éliminé. Cela signifie que la taille en centimètres est
Statistique descriptive
63
une valeur entière, donc un caractère discret, même si on le modélise par
une loi normale qui est une loi continue. D’autre part, différentes techniques
statistiques (histogrammes, distance du chi-deux) imposent de regrouper les
données en classes, ce qui revient à les rendre discrètes, les nouvelles modalités
étant les différentes classes.
Tailles
130
+
+
128
+
126
+
124
+
+
+
+
+
+
+
122
+
+
+
120
++
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+ ++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
108
+
+
+
110
+
+
+
+
+
+
+
+
+
+
+
112
+
+ +
118
114
+
+
+
+
+
+
+
+
106
+
104
Individus
+
102
+
100
0
10
20
30
40
50
60
70
80
90
100
Figure 2 – Echantillon de 100 tailles d’enfants de 6 ans, en centimètres.
Une fois recueilli, l’échantillon (x1 , . . . , xn ) se présente comme une liste
de nombres peu lisible, dont la principale caractéristique est une plus ou
moins grande variabilité. Le traitement statistique va maintenant consister
à étudier cette variabilité, pour en extraire l’information qu’elle contient, à
savoir ce qui est généralisable à l’ensemble de la population. Les techniques
de statistique descriptive auront pour but de compresser l’échantillon, de le
résumer par des quantités calculées et des représentations graphiques, afin
d’extraire l’information qu’il contient.
On ne traite pas un échantillon sans avoir une question précise à lui poser. Etant donné un échantillon de tailles de filles de 18 ans, le traitement
ne sera pas le même selon que l’on sera un nutritionniste qui cherche à étudier l’influence du régime alimentaire sur la croissance, ou un fabriquant de
vêtements qui cherche à dimensionner ses patrons.
Le mot “statistique” a deux sens différents :
• C’est un ensemble de données chiffrées sur un phénomène variable (les
statistiques du commerce extérieur, les statistiques du chômage).
• C’est une discipline scientifique dont le but est d’extraire de l’information d’un échantillon en vue d’une prédiction ou d’une décision.
Cahier de Mathématiques Appliquées no 2
64
1.2
Moyenne empirique
La statistique la plus évidente à calculer sur un échantillon numérique,
celle dont l’interprétation est la plus intuitive, est la moyenne empirique.
Définition 1.1 La moyenne empirique d’un échantillon est la somme de ses
éléments divisée par leur nombre. Si l’échantillon est noté
(x1 , . . . , xn ), sa moyenne empirique est :
x=
1
(x1 + · · · + xn ) .
n
La moyenne est donc le centre de gravité des données, affectées de coefficients
égaux pour chaque individu. Elle peut être considérée comme une valeur
centrale, même si elle n’est pas égale à une des modalités.
Tailles
130
+
+
128
+
126
+
124
+
+
+
+
+
+
+
122
+
+
+
120
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+ ++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
110
108
+
+
+
+
+
+
+
+
+
112
+
+ +
+
118
114
+
+
+
+
+
+
106
+
104
Individus
+
102
+
100
0
10
20
30
40
50
60
70
80
90
100
Figure 3 – Moyenne d’un échantillon de 100 tailles d’enfants de 6 ans
La moyenne est associative. Si on réunit deux échantillons, de tailles respectives nx et ny , de moyennes respectives x et y, alors la moyenne du nouvel
échantillon sera (nx x + ny y)/(nx + ny ).
Si (x1 , . . . , xn ) est un échantillon et si on pose pour tout i = 1, . . . , n,
yi = axi + b, où a et b sont deux constantes, alors la moyenne empirique de
l’échantillon (y1 , . . . , yn ) est y = ax + b. En particulier, si a = 1 et b = −x,
le nouvel échantillon a une moyenne nulle. Centrer les données c’est leur
retrancher la moyenne empirique de manière à la ramener à 0.
Un cas particulier important est celui des données binaires. On est souvent
amené à construire un échantillon binaire à partir d’un échantillon numérique,
ne serait-ce que pour le regroupement en classes. Soit A un sous ensemble
Statistique descriptive
65
de IR (un intervalle dans le cas d’une classe). Notons 11A (x) sa fonction
indicatrice qui vaut 1 si x ∈ A, 0 sinon. Si (x1 , . . . , xn ) est un échantillon à
valeurs réelles, alors (11A (x1 ), . . . , 11A (xn )) est un échantillon binaire, dont la
moyenne empirique est appelée la fréquence empirique de A. C’est simplement
la proportion des valeurs de
(x1 , . . . , xn ) qui appartiennent à A.
Un des inconvénients de la moyenne empirique, vue comme valeur centrale
d’un échantillon, est d’être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de valeur aberrante.
Qu’elle soit ou non le résultat d’une erreur dans le recueil ou la transcription,
on ne peut pas la considérer comme représentative. Supposons que sur un
échantillon de 10 valeurs, toutes soient de l’ordre de 10, sauf une, qui est de
l’ordre de 1000. La moyenne empirique sera de l’ordre de 100, c’est-à-dire
très éloignée de la plupart des valeurs de l’échantillon. Pour palier cet inconvénient, on peut décider de ne pas tenir compte des valeurs extrêmes dans le
calcul de la moyenne. On obtient alors une moyenne élaguée.
Définition 1.2 Soit (x1 , . . . , xn ) un échantillon et α un réel compris entre
0 et 1. La moyenne élaguée de niveau 1 − α est la moyenne empirique de
l’échantillon privé d’un nombre de valeurs extrêmes égal à la partie entière
de nα. Elle sera dite élaguée à gauche, à droite ou bilatéralement selon que
seulement les valeurs les plus petites, seulement les plus grandes, ou bien à
la fois les plus petites et les plus grandes, auront été supprimées.
Remarque : En statistique, les réels α compris entre 0 et 1 sont de tradition. La même tradition leur affecte prioritairement les valeurs 0.05 et 0.01,
plus rarement 0.02, 0.005 ou 0.001. Il faut donc lire α comme “une faible
proportion”, et 1−α comme “une forte proportion”.
Comme technique de première approche pour le lissage des séries chronologiques, on utilise les moyennes mobiles, qui sont des moyennes arithmétiques
de valeurs autour de la date d’intérêt.
Définition 1.3 Soit (x1 , . . . , xn ) une série chronologique et k ≥ 0 un entier.
On appelle série des moyennes mobiles d’ordre k, la série
(mk+1 , . . . , mn−k ) définie pour tout h = k+1, . . . , n−k, par :
h+k
X
1
xl .
mh =
2k + 1
l=h−k
L’inconvénient des moyennes mobiles est d’associer à une date donnée une
moyenne arithmétique qui ne donne pas plus de poids à la donnée originale
correspondant à cette date qu’aux autres. On utilise parfois une pondération décroissant exponentiellement avec l’éloignement dans le temps, réalisant
ainsi un lissage exponentiel.
Définition 1.4 Soit (x1 , . . . , xn ) une série chronologique, k un entier et ρ un
réel strictement compris entre 0 et 1. Le lissage exponentiel de la série, d’ordre
Cahier de Mathématiques Appliquées no 2
66
Nombre de cas(milliers)
900
+
800
700
+
600
+
500
+
+
400
+
+
+
+
+
300
+
+
++
+
+ +
+
++
200
+
+
+
++
+
++
+ +
+
+
+
+
+
++
+
+
++
++++++++++++++++++++++++++++
+
+++
++++
+++ + ++
+++++++++++++ +++++++++++++++++++++++
+
100
+
+
+
+
++++ + +
++ ++ +++
++++++++
++++++
+
+
+
+
+
+
+
+
+
+
+
+
+++++++++++++++ + +++ +
+++++++++++++++++++++
++++++
+
+
+
+
++
++
+++++++++
+
++++++
+
++++++++++++++++++++++++
+
0
.
0
52
104
156
208
Semaine
260
Figure 4 – Cas de grippe en France sur 5 ans et moyennes mobiles d’ordre
6 (trait plein).
k et de poids ρ, est la série (rk+1 , . . . , rn−k ) définie pour tout h = k+1, . . . , n−k
par :
+k
X
1−ρ
ρ|l| xh+l .
rh =
1 + ρ − 2ρk+1
l=−k
1.3
Variance empirique
Les notions de variance et d’écart-type servent à quantifier la variabilité
d’un échantillon en mesurant sa dispersion autour de la moyenne. La définition est la suivante :
Définition 1.5 Soit (x1 , . . . , xn ) un échantillon et x sa moyenne empirique.
On appelle variance de l’échantillon la quantité, notée s2 , définie par :
n
s2 =
1X
(xi − x)2 .
n i=1
On appelle écart-type de l’échantillon la racine carrée de la variance.
L’avantage de l’écart-type sur la variance est qu’il s’exprime, comme la moyenne, dans la même unité que les données. On utilise parfois le coefficient de
variation, qui est le rapport de l’écart-type sur la moyenne.
Pour mesurer la dispersion d’un échantillon autour de sa moyenne, on
pourrait trouver plus naturelle une autre mesure d’écart, par exemple l’écart
Statistique descriptive
67
Tailles
130
+
+
128
+
126
+
124
+
+
+
+
+
+
+
122
+
+
+
120
++
+
+
+
+
+
+
+
++
+
++
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+ ++
+
+
+
+
+
+
+
++
+
+
+
+ +
+
+
+
+
+
+
+
110
+
+
+
+
+
+
+
108
+
+
+
+
+
+
112
+
+ +
118
114
+
+
+
+
+
+
+
+
106
+
104
Individus
+
102
+
100
0
10
20
30
40
50
60
70
80
90
100
Figure 5 – Tailles d’enfants de 6 ans. La zone grisée correspond à la moyenne,
plus ou moins un écart-type.
absolu moyen dont nous parlerons plus loin. La raison pour laquelle la définition ci-dessus est préférable tient dans la proposition suivante.
Proposition 1.6 Soit (x1 , . . . , xn ) un échantillon numérique. Considérons
l’application EQ (erreur quadratique) qui à un nombre m associe :
n
EQ(m) =
1X
(xi − m)2 .
n i=1
L’application EQ admet un minimum absolu pour m = x. La valeur de ce
minimum est la variance de l’échantillon.
La choix de la variance pour mesurer la dispersion d’un échantillon est donc
cohérent avec celui de la moyenne empirique comme valeur centrale. Nous
verrons plus loin qu’un phénomène analogue a lieu pour l’écart absolu moyen
et la médiane.
Démonstration : La fonction EQ(m) est un polynôme de degré deux en m :
n
EQ(m) = m2 − 2mx +
1X 2
x .
n i=0 i
Elle est décroissante puis croissante et atteint son minimum au point où la
dérivée s’annule, à savoir m = x.
Cahier de Mathématiques Appliquées no 2
68
En pratique, on calcule en général simultanément moyenne et variance grâce
à la formule suivante.
Proposition 1.7 On a :
2
s =
n
1 X
n
x2i − x2 .
i=1
Démonstration : Il suffit de développer les carrés dans la définition de s2 :
n
s2 =
1X
(xi − x)2
n i=1
n
=
=
=
=
1X 2
(x − 2xi x + x2 )
n i=1 i
n
1 X
n
1 X
x2i − 2x
xi + x2
n i=1
n i=1
n
1 X
n
i=1
n
1 X
n
x2i − 2x2 + x2
x2i − x2 .
i=1
Dans le cas particulier des données binaires, codées sur 0 et 1, la moyenne est
la fréquence de 1 et la variance n’apporte aucune information supplémentaire.
En effet, si tous les xi valent 0 ou 1, alors x2i = xi et donc :
s2 = x − x2 = x(1 − x) .
Dans le cas général, l’algorithme de calcul est le suivant.
somme1 ←− 0
somme2 ←− 0
Pour i de 1 à n
somme1 ←− somme1+xi
somme2 ←− somme2+x2i
finPour
moyenne ←− somme1/n
variance ←− somme2/n−moyenne∗moyenne
Pour les très grands échantillons, il faut prendre garde à l’imprécision des
sommes cumulées. Pour éviter des erreurs, on aura intérêt à travailler en
Statistique descriptive
69
double précision ou même à remplacer la boucle par deux boucles emboîtées.
Dans certains cas, on pourra simplifier les calculs en utilisant l’invariance par
translation. Si pour tout i = 1, . . . , n on pose yi = axi + b, alors la variance
de (y1 , . . . , yn ) est a2 s2 . Soit par exemple l’échantillon suivant :
(98765420 , 98765430 , 98765410 , 98765400) .
Il est plus facile et plus stable numériquement de calculer la moyenne et la
variance de l’échantillon (2, 3, 1, 0).
Une fois la moyenne calculée, nous avons vu qu’on pouvait centrer les données pour se ramener à une moyenne nulle. La variance des données centrées
est la même que celle de l’échantillon initial. Une fois cette variance calculée,
on peut réduire les données centrées en les divisant par l’écart-type. On obtient ainsi un nouvel échantillon dont la moyenne est nulle et la variance égale
à 1. On parle d’échantillon réduit. Remarquons que les données réduites sont
des nombres sans unité. On peut donc comparer deux échantillons réduits
même si les données initiales n’étaient pas exprimées dans la même unité.
L’inconvénient de l’écart-type tel qu’il a été défini jusque là, est qu’il a
tendance à sous-estimer légèrement l’écart des données par rapport à leur
moyenne. La raison mathématique de ce défaut est liée à la notion de biais
d’un estimateur. On peut en saisir la raison intuitive sur un exemple simple.
Supposons que l’on joue trois fois à un jeu dont l’enjeu est 1 franc. Chaque
résultat vaut donc +1 (gain) ou −1 (perte). Si le jeu est équitable, on s’attend
à ce que la moyenne vaille 0 et l’écart-type 1. Or sur trois parties, les résultats
possibles à l’ordre près sont les suivants.
(x1 , x2 , x3 )
x s2
(−1, −1, −1) −1 0
(−1, −1, 1) − 31
(−1, 1, 1)
(1, 1, 1)
1
3
8
9
8
9
1 0
En aucun cas l’écart-type empirique ne peut atteindre 1. Le moyen de corriger
cette sous-estimation systématique est de multiplier la variance par n/(n−1),
où n est la taille de l’échantillon. On parle alors de variance non biaisée. C’est
la raison de la présence sur certaines calculatrices de deux touches deqcalcul
n
de l’écart-type, une marquée σn (notre s), l’autre σn−1 qui retourne s n−1
.
Contrairement à la moyenne, la variance n’est pas associative. Si on regroupe les données d’un échantillon par classes, selon un caractère discret
par exemple, la variance se partage en une composante correspondant à la
variabilité à l’intérieur des classes, et une composante de variabilité entre
classes.
Proposition 1.8 On considère une série statistique de taille n dont les valeurs sont partitionnées en k échantillons de tailles respectives n1 , . . . , nk ,
Cahier de Mathématiques Appliquées no 2
70
avec n1 + · · · + nk = n. On note :
(h)
(h)
• (x1 , . . . , xnh ) les données de la h-ième classe,
(h)
la moyenne empirique de la h-ième classe,
• x
• v (h) la variance empirique de la h-ième classe,
• x la moyenne
Pk de l’échantillon global,
• vintra = h=1 nnh v (h) la moyenne des variances
(variance intra-classes),
Pk
• vinter = h=1 nnh (x(h) − x)2 la variance des moyennes
(variance inter-classes),
• s2 la variance de l’échantillon global.
Alors :
s2 = vintra + vinter .
Supposons par exemple que les données recueillies soient des dosages hormonaux et que les classes correspondent à des traitements différents appliqués
aux patients. On cherche à savoir si la variabilité observée dans les données
est uniquement due au hasard, ou s’il existe effectivement des différences significatives (imputables aux traitements) entre les classes. La moyenne des
variances (pondérée par les effectifs) résume la variabilité à l’intérieur des
classes, d’où le nom de variance intra-classes ou variance résiduelle. La variance des moyennes décrit les différences entre classes qui peuvent être dues
aux traitements, d’où le nom de variance inter-classes ou variance expliquée.
Si les traitements ont effectivement un effet sur les dosages, on s’attend à ce
que la variance expliquée soit supérieure à la variance résiduelle. Cette décomposition de la variance d’un échantillon en variance expliquée et variance
résiduelle est à la base d’une technique d’analyse de données souvent utilisée,
l’analyse de variance ou ANOVA.
Démonstration : Ecrivons :
s2 =
k nh
1 XX
(h)
(xi − x)2
n
i=1
h=1
=
k
X
h=1
=
nh
nh 1 X
(h)
(x − x(h) + x(h) − x)2
n nh i=1 i
nh
nh
k
k
X
X
nh 1 X
nh 1 X
(h)
(h)
(xi − x(h) )2 + 2
(x − x(h) )(x(h) − x)
n nh i=1
n nh i=1 i
h=1
h=1
nh
k
X
nh 1 X
+
(x(h) − x)2
n nh i=1
h=1
= vintra + 0 + vinter .
Statistique descriptive
71
Taux
Taux
1000
1000
Ο
Ο
Ο
900
Ο
800
700
Ο
800
700
Ο
Ο
+
+
Ο
600
+
500
+
+
+
+
+
400
+
+ +
+
+
+
+
+
+
++
++
+
++
200
++
+
+
Ο
Ο
600
Ο
+
Ο
Ο
Ο
+
ΟΟ
Ο
500
Ο
+
+
+
+
+
Ο
Ο
Ο
+
+
Ο
Ο
Ο
Ο
Ο
+
Ο Ο
Ο Ο Ο
Ο
Ο
+
Ο
Ο
Ο
++
Ο
Ο
+
+
ΟΟ Ο
Ο
Ο Ο ΟΟ Ο Ο
+ +
ΟΟ Ο Ο
ΟΟ
++
+
Ο
Ο Ο
ΟΟ Ο Ο
Ο Ο
+
+
Ο
Ο Ο
Ο
+
Ο
Ο
+Ο Ο
Ο
++
Ο
+
Ο Ο Ο ΟΟ
ΟΟ
Ο
ΟΟ
+ +++
ΟΟΟ
+
Ο
Ο
Ο
++ +
Ο
+ + ++
Ο
++
ΟΟ
+
+
Ο
Ο
Ο Ο
Ο
+ +
Ο
+
+
+
400
+
+ +
+
+
+
+
++ +
+ +
++
+
+
+
+
++
++
+
++
200
++
Individus
+
+
+
Ο
Ο
Ο
Ο
Ο
Ο
+
ΟΟ
Ο
Ο
Ο
+
+++
Ο
Ο
+
+
Ο
Ο
Ο
Ο
Ο
+
Ο Ο
Ο Ο Ο
Ο
Ο
+
Ο
Ο
Ο
++
Ο
Ο
+
+
ΟΟ Ο
Ο
Ο Ο ΟΟ Ο Ο
+ +
ΟΟ Ο Ο
ΟΟ
++
+
Ο
Ο Ο
ΟΟ Ο Ο
Ο Ο
+
+
Ο
Ο Ο
Ο
+
Ο
Ο
+Ο Ο
Ο
++
Ο
+
Ο Ο Ο ΟΟ
ΟΟ
Ο
ΟΟ
+ +++
ΟΟΟ
+
Ο
Ο
Ο
++ +
Ο
+ + ++
Ο
++
ΟΟ
+
+
Ο
Ο
Ο Ο
Ο
+ +
Ο
+
+
+
+
+
+
++
+
+
+
Ο
Ο
+
++
+
+
++
300
Ο
Ο
+
+
Ο
+
+++
+
+
+
++
+
+
++ +
+ +
++
+
Ο
Ο
+
++
+
+
++
+
+
Ο
Ο
+
+
300
Ο
900
Individus
+
100
100
0
20
40
60
80
100
120
140
160
180
200
0
20
40
60
80
100
120
140
160
180
200
Figure 6 – Taux de cholestérol en mg/dl sous traitement (+) et sous placebo
(o). Dans la figure de gauche, la zone grisée correspond à la moyenne plus
ou moins un écart-type pour l’échantillon global. Dans la figure de droite, les
deux échantillons sont séparés.
2
2.1
Distribution empirique
Statistique et probabilités
Les traitements statistiques relèvent d’un aller-retour permanent entre les
données, qui sont des collections de chiffres mesurés, et les modèles probabilistes qui n’ont aucune réalité physique, mais fournissent des outils pour
décrire la variabilité de ces données. Dans cette démarche, un premier pas
consiste à associer à l’échantillon une loi de probabilité fictive. La distribution
empirique associée à un échantillon est la loi de probabilité sur l’ensemble des
modalités qui affecte chaque observation du poids 1/n. L’idée est la suivante.
Supposons que l’on souhaite augmenter artificiellement le nombre de données.
Le moyen le plus simple serait de tirer au hasard de nouvelles données parmi
les valeurs observées, en respectant leurs fréquences. En d’autres termes, on
simulerait la distribution empirique.
Définition 2.1 Soit (x1 , . . . , xn ) un échantillon, c1 , . . . , ck les valeurs distinctes prises par les xi et pour h = 1, . . . , k :
nh =
n
X
11c
h
(xi ) ,
i=1
l’effectif de la valeur ch . La distribution empirique de l’échantillon est la loi
de probabilité Pb sur l’ensemble {c1 , . . . , ck }, telle que :
nh
.
Pb(ch ) =
n
La moyenne, la variance et l’écart-type peuvent être vus comme des caractéristiques probabilistes de la distribution empirique. La moyenne de l’échantillon est l’espérance de sa distribution empirique.
Cahier de Mathématiques Appliquées no 2
72
Pour un caractère discret, le mode de la distribution empirique est la valeur qui a la fréquence la plus élevée. Pour un caractère continu regroupé en
classes d’amplitudes égales, on parle de classe modale. Une distribution empirique est dite unimodale si la fréquence maximale est significativement plus
grande que les autres. Elle peut être bimodale ou multimodale dans d’autres
cas.
Pour étudier une distribution empirique, la première étape consiste à trier
les données par ordre croissant, à savoir écrire ses statistiques d’ordre.
Définition 2.2 Soit (x1 , . . . , xn ) un échantillon numérique. On appelle statistiques d’ordre de l’échantillon, les valeurs x(1) , . . . , x(n) égales aux xi rangées par ordre croissant :
x(1) = min {xi } ≤ x(2) ≤ · · · ≤ x(n) = max {xi } .
i=1,...,n
i=1,...,n
Voici par exemple un échantillon de taille 10 et ses 10 statistiques d’ordre.
5.7 , 3.2 , 8.4 , 4.1 , 6.9 , 5.3 , 1.7 , 3.2 , 2.5 , 7.4 ;
1.7 , 2.5 , 3.2 , 3.2 , 4.1 , 5.3 , 5.7 , 6.9 , 7.4 , 8.4 .
La fonction de répartition empirique est la fonction de répartition de la distribution empirique.
Définition 2.3 La fonction de répartition empirique est la fonction, notée
Fb, de IR dans [0, 1], qui vaut :

0 pour x < x(1)




..


.

Fb(x) = ni pour x(i) ≤ x < x(i+1)


..



.


1 pour x ≥ x(n) .
En d’autres termes, Fb(x) est la proportion d’éléments de l’échantillon qui
sont inférieurs ou égaux à x.
2.2
Représentations graphiques
Représenter graphiquement la fonction de répartition empirique (en général on trace seulement les points de coordonnées (x(i) , i/n)), donne une
première idée de la distribution empirique.
Dans le cas où l’échantillon est discret (le nombre de valeurs différentes k
est faible devant la taille de l’échantillon n), on représentera la distribution
empirique par un diagramme en bâtons. Il consiste à représenter les valeurs
différentes c1 , . . . , ck en abscisse, avec au-dessus de chacune une barre verticale de hauteur égale à sa fréquence empirique f (ch ). Dans le cas où le
Statistique descriptive
73
nombre de valeurs différentes est très faible (inférieur à 10), et surtout pour
des échantillons qualitatifs, on utilise aussi des représentations en camembert
(pie-chart) ou en barres. Elles consistent à diviser un disque ou un rectangle
proportionnellement aux différentes fréquences.
La représentation correspondant au diagramme en bâtons pour un échantillon considéré comme continu (lorsque presque toutes les valeurs sont différentes), est l’histogramme. On choisit un nombre de classes k et un intervalle de représentation [a0 , ak ] que l’on a découpé en k intervalles [a0 , a1 ],
]a1 , a2 ],. . . , ]ak−1 , ak ]. On remplace alors la distribution empirique par une
nouvelle loi de probabilité qui pour tout h = 1, . . . , k, charge l’intervalle
]ah−1 , ah ] avec sa fréquence empirique Pb(]ah−1 , ah ]) :
n
1X
11]ah−1 ,ah ] (xi ) .
Pb(]ah−1 , ah ]) =
n i=1
Tracer un histogramme consiste à représenter les classes en abscisses, avec
au dessus de la h-ième un rectangle de hauteur fh /(ah−1 − ah ), donc de
surface égale à fh . Cette représentation est celle d’une densité de probabilité,
constante sur chacune des classes. Représenter un histogramme implique un
certain a priori sur les données. On décide en effet que la fréquence de chacune
des classes est bien sa fréquence empirique dans l’échantillon, mais que la
distribution des données à l’intérieur de chaque intervalle est aléatoire, de loi
uniforme sur cet intervalle.
0.10
Frequences
0.10
0.09
0.09
0.08
0.08
0.07
0.07
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
Frequences
0.02
0.01
Tailles
0.00
0.01
Tailles
0.00
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Figure 7 – Tailles d’enfants de 6 ans. Histogramme régulier et non régulier.
2.3
Quantiles
La fonction quantile d’une loi de probabilité est l’inverse (généralisé) de
sa fonction de répartition. Si F désigne la fonction de répartition, la fonction
quantile Q est la fonction qui à u ∈]0, 1[ associe :
Q(u) = inf{x : F (x) ≥ u} .
La fonction quantile empirique d’un échantillon est la fonction quantile de sa
distribution empirique.
Cahier de Mathématiques Appliquées no 2
74
Définition 2.4 Soit x = (x1 , . . . , xn ) un échantillon et (x(1) , . . . , x(n) ) le
vecteur de ses statistiques d’ordre. La fonction quantile empirique de l’échanb qui, pour tout i = 1, . . . , n, vaut x(i) sur l’intervalle
tillon est la fonction Q
i−1 i
] n , n ].
i−1 i
b
∀u ∈]
, ] , Q(u)
= x(i) .
n n
b
Pour certaines valeurs de u, on donne un nom particulier aux quantiles Q(u).
u
0.5
0.25, 0.75
0.1, . . . , 0.9
0.01, . . . , 0.99
b
Q(u)
Médiane
Quartiles
Déciles
Centiles
La médiane est une valeur centrale de l’échantillon : il y a autant de
valeurs qui lui sont inférieures que supérieures. Si la distribution empirique de
l’échantillon est peu dissymétrique, comme par exemple pour un échantillon
simulé à partir d’une loi uniforme ou normale, la moyenne et la médiane sont
proches. Si l’échantillon est dissymétrique, avec une distribution très étalée
vers la droite, la médiane pourra être nettement plus petite que la moyenne.
Contrairement à la moyenne, la médiane est insensible aux valeurs aberrantes.
Elle possède une propriété d’optimalité par rapport à l’écart absolu moyen.
Proposition 2.5 Soit x = (x1 , . . . , xn ) un échantillon de réels. Soit EA
(écart absolu) la fonction qui à un nombre m associe :
n
EA(m) =
1X
|xi − m| .
n i=1
b
Cette fonction admet un minimum absolu en m = Q(0.5)
(la médiane). La
valeur de ce minimum est appelé écart absolu moyen.
Démonstration : Pour éviter d’alourdir les écritures, nous supposerons que les
valeurs xi sont toutes différentes. Le graphe de la fonction EA est constitué
de segments de droites. Sur l’intervalle [x(i) , x(i+1) ], elle vaut :
EA(m) =
i
n
X
X
1
(2i − n)m −
x(j) +
x(j) .
n
j=i+1
j=1
La pente (2i−n)/n est d’abord négative (pour i ≤ n/2), puis positive (pour
b
i > n/2). Si n est impair la médiane Q(0.5)
= x( n−1 ) est le seul minimum. Si
2
n est pair, le minimum est atteint sur tout l’intervalle [x( n2 ) , x( n2 +1) [ contenant
b
Q(0.5)
et sur lequel la pente s’annule.
Statistique descriptive
75
Il y a une part d’arbitraire dans la définition de la fonction quantile pour
une distribution empirique : pour tous les points de l’intervalle [x(i) , x(i+1) [
la fonction de répartition vaut i/n. Ce sont surtout des raisons théoriques qui
b
nous ont fait choisir x(i) plutôt qu’un autre point comme valeur de Q(i/n).
Ce peut être un assez mauvais choix en pratique. Considérons l’échantillon
suivant, de taille 6.
1, 2, 3, 7, 8, 9 .
La médiane telle que nous l’avons définie vaut 3. Or comme valeur centrale,
le milieu de l’intervalle [3, 7], à savoir 5, s’impose clairement. Dans le cas
d’échantillons de taille paire, l’intervalle [x( n2 ) , x( n2 +1) [ s’appelle l’intervalle
médian. La médiane est parfois définie comme le milieu de l’intervalle médian.
Ce problème ne se pose que dans le cas de petits échantillons et pour
b
les quantiles Q(u)
pour lesquels u est de la forme i/n (le plus souvent la
médiane). Nous le négligerons désormais et nous conserverons la définition
2.4.
Même sur de très gros échantillons, les quantiles sont peu coûteux à calculer puisqu’il suffit de trier l’échantillon par ordre croissant pour calculer les
statistiques d’ordre et donc tous les quantiles simultanément. Ils fournissent
une visualisation facile de la distribution empirique. Nous avons vu que la
médiane est une valeur centrale. Pour mesurer la dispersion, on peut calculer
l’étendue, qui est la différence entre la plus petite et la plus grande valeur.
Mais cette étendue reflète plus les valeurs extrêmes que la localisation de la
majorité des données. On appréhende mieux la dispersion d’un échantillon
par les intervalles inter-quartiles et inter-déciles.
Définition 2.6 On appelle intervalle inter-quartiles l’intervalle
b
b
[Q(0.25),
Q(0.75)]
qui contient la moitié centrale des valeurs de l’échantillon.
b
b
On appelle intervalle inter-déciles l’intervalle [Q(0.1),
Q(0.9)]
qui contient
80% des valeurs centrales de l’échantillon.
Ces intervalles sont à la base d’une représentation très compacte de la distribution empirique : le diagramme en boîte (ou boîte à moustaches, box plot,
box-and-whisker plot). Il n’y a pas de définition standardisée de cette représentation. Elle consiste en une boîte rectangulaire dont les deux extrémités
sont les quartiles. Ces extrémités se prolongent par des traits terminés par
des segments orthogonaux (les moustaches). La longueur de ces segments varie selon les auteurs. Nous proposons de la fixer aux déciles extrêmes. On
représente aussi la médiane par un trait dans la boîte, et parfois les valeurs
extrêmes par des points (voir figure 8).
2.4
Modèles probabilistes
Le postulat de modélisation sur lequel toute étude statistique est basée
est le suivant :
Cahier de Mathématiques Appliquées no 2
76
b
b
Q(1)
max{xi }
b
Q(0.9)
décile supérieur
b
Q(0.75)
quartile supérieur
b
Q(0.5)
médiane
b
Q(0.25)
quartile inférieur
b
b
Q(0.1)
décile inférieur
b
Q(0)
min{xi }
Figure 8 – Diagramme en boîte.
Tailles
130
+
+
128
+
126
+
124
+
+
+
+
+
+
+
122
+
+
+
120
++
+
+
+
+
+
+
+
+
++
++
+
+
+
+
116
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+ ++
+
+
+
+
+
++
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
110
108
+
+
+
+
+
+
+
+
+
112
+
+ +
+
118
114
+
+
+
+
+
+
106
+
104
Individus
+
102
+
100
0
10
20
30
40
50
60
70
80
90
100
Figure 9 – Tailles d’enfants de 6 ans. La zone grisée correspond à l’intervalle
b
b
inter-quartiles. La médiane est en trait plein, les déciles Q(0.1)
et Q(0.9)
en
pointillés.
Statistique descriptive
77
Les données observées sont des réalisations de variables aléatoires.
Quand le résultat d’une expérience n’est pas reproductible exactement, on
suppose qu’il est la réalisation d’une variable aléatoire. La théorie des probabilités fournit des outils, comme la loi des grands nombres ou le théorème
central limite, permettant d’extraire des données ce qui est reproductible et
qui peut donc fonder une prédiction ou une décision.
Quand on traite des données, on sait bien que si un deuxième échantillon
était recueilli dans les mêmes conditions, celui-ci serait différent du premier.
Mais on espère que le deuxième échantillon ressemblerait au premier au sens
où sa moyenne, sa variance, ses quantiles, seraient peu modifiés. L’observation
d’échantillons successifs produits par un algorithme de simulation permet
de se faire une bonne idée de cette ressemblance. Dans de nombreux cas,
par exemple pour tout ce qui touche à l’humain (mesures de tailles, dosages
sanguins, etc. . . ), la ressemblance d’échantillons distincts est validée par une
longue expérience. En médecine, on sait bien qu’il n’y a pas deux individus
qui présentent exactement les mêmes réactions. Mais un comptage du nombre
moyen de globules rouges par litre de sang, effectué sur quelques centaines
d’individus, variera peu si on le renouvelle sur une autre population. Dans
cette situation, comme dans de nombreuses autres, les comptages effectués
sur des individus différents seront considérés comme des tirages indépendants
d’une même loi de probabilité. Cette loi de probabilité décrit la variabilité du
phénomène. On considère en quelque sorte que l’échantillon aurait pu être
produit en répétant des simulations indépendantes de la loi.
Prenons l’exemple des tailles des filles de 18 ans (mesurées en centimètres
ou bien en tailles vestimentaires). Parler de la taille des filles de 18 ans n’a
de sens que dans un contexte probabiliste : deux filles différentes n’auront
jamais exactement la même taille. On effectue en fait deux hypothèses de
modélisation qui n’ont aucune base concrète :
1. On peut associer à toute fille de 18 ans une mesure précise de sa taille.
2. Les tailles des filles de 18 ans sont des réalisations de variables aléatoires
indépendantes et de même loi.
Bien que fondées sur des objets abstraits, les conséquences mathématiques
que l’on peut tirer des hypothèses de modélisation mènent à des prédictions
et à des prises de décisions économiques ou politiques, qui sont tout à fait
concrètes et seront validées par confrontation avec la réalité. Par exemple
la distribution des tailles des filles de 18 ans a des conséquences évidentes
sur l’industrie du prêt-à-porter. Si un fabriquant de vêtements cible sa production sur les adolescentes, il devra ajuster ses patrons à la taille de ses
acheteuses potentielles : la répartition des vêtements produits entre les tailles
les plus courantes, du 36 au 40, ne seront pas égales. Le fabriquant produira
probablement plus de robes en 36 qu’en 40. Cette répartition ne serait pas la
même pour des modèles destinés à des personnes âgées.
Quand considère-t-on qu’un échantillon peut être modélisé par une suite
de variables indépendantes ? Pour l’essentiel quand il est évident que l’ordre
78
Cahier de Mathématiques Appliquées no 2
dans lequel on prend les individus n’a pas d’importance. C’est le cas pour
toutes les mesures physiologiques sur une population humaine. Ce n’est pas
le cas pour une série chronologique où les individus sont des instants successifs qui ne sont clairement pas interchangeables, et donc pas indépendants.
D’ailleurs il serait sans intérêt de considérer par exemple les taux de chômage mensuels sur les trois dernières années comme des réalisations de 36
variables aléatoires indépendantes, puisque le but de l’observation est précisément de détecter une tendance dans ces chiffres, c’est-à-dire une dépendance
permettant de prévoir partiellement les chiffres à venir. Dans ce cas, l’idée
de base de la modélisation consistera à dire qu’il existe une fonction déterministe “cachée” qui permet de prévoir en partie le futur en fonction du passé.
Les observations mensuelles sont vues comme des perturbations aléatoires de
cette fonction déterministe. Dans le modèle interviendra alors la fonction déterministe cachée et un certain n-uplet de variables aléatoires indépendantes
et de même loi, modélisant les perturbations aléatoires.
Une situation analogue est celle où un caractère autre que celui qui est
mesuré, a une influence sur la variable d’intérêt. Par exemple, si on soupçonne
que le nombre de cigarettes fumées par jour a une influence sur le taux de
cholestérol, on considérera que les taux de cholestérol mesurés sont des réalisations d’une variable aléatoire dont la loi dépend du nombre de cigarettes.
On supposera qu’il existe une dépendance déterministe “cachée” à deviner,
et que l’on observe sur chaque individu cette dépendance, perturbée par un
facteur dû au pur hasard. Là encore, ce sont les perturbations aléatoires qui
seront modélisées par un n-uplet de variables aléatoires indépendantes et de
même loi.
Dans toutes les situations où des résultats expérimentaux ne peuvent pas
être considérés comme exactement reproductibles, on se ramène à un modèle contenant un n-uplet de variables aléatoires indépendantes et de même
loi. Un choix important est le type de la loi, discret ou continu. Quand il
s’agit d’observer un caractère qualitatif, comme le groupe sanguin, ou ordinal, comme un classement dans un test psychologique, le choix d’un modèle
discret est imposé par la nature des données. Le choix entre modèle discret
ou continu n’est pas toujours aussi clair. Reprenons l’exemple des tailles des
filles de 18 ans. On peut mesurer ces tailles au centimètre près, en étant
conscient de l’imprécision inhérente aux mesures. Si les résultats observés sur
un échantillon de 1000 individus prennent suffisamment de valeurs différentes,
on choisira une loi continue (par exemple une loi normale). Différentes techniques statistiques pourront imposer par la suite un regroupement en classes
des données (tracés d’histogrammes, distance du chi-deux,. . . ). Pour le fabriquant de vêtements, les données brutes sont de peu d’intérêt. Il cherchera au
contraire à traduire les observations en tailles vestimentaires, ce qui impose
un autre type de regroupement en classes et un modèle discret.
Statistique descriptive
2.5
79
Ajustement
Quand les hypothèses de modélisation conduisent à supposer que
x1 , . . . , xn sont des réalisations de variables indépendantes et de même loi, la
loi des grands nombres justifie que l’on considère cette loi comme proche de la
distribution empirique. Toutes les caractéristiques usuelles de la distribution
empirique seront proches des caractéristiques analogues de la loi théorique.
On appelle problème d’ajustement le problème consistant à trouver, parmi
une famille de lois de probabilité, celle qui se rapproche le plus d’une distribution empirique observée sur un échantillon. Il est fréquent que l’on soit
amené à effectuer une transformation des données avant l’ajustement. Par
exemple dans les dosages médicaux, les lois log-normales apparaissent souvent. Une variable aléatoire suit une loi log-normale si son logarithme suit
une loi normale. Plutôt que d’ajuster directement avec une loi log-normale,
on commencera par transformer l’échantillon en remplaçant les données par
leurs logarithmes, puis on ajustera le nouvel échantillon par une loi normale.
Nous nous contenterons dans un premier temps d’approches visuelles,
nous introduirons ensuite des mesures quantitatives permettant d’évaluer des
distances entre un modèle théorique et une distribution empirique.
Le cas le plus fréquent dans les applications est celui d’un échantillon
continu. La première approche consiste à superposer sur un même graphique
un histogramme des données avec la densité f de la loi théorique. Au-dessus
d’une classe [ah−1 , ah [, l’histogramme représente un rectangle de surface égale
à la fréquence empirique de cette classe. Si l’échantillon était produit par
simulation de la loi théorique, cette fréquence empirique serait proche de
la probabilité théorique qui est l’intégrale de la densité sur la classe. Donc
l’histogramme serait proche de la valeur moyenne de la densité sur la classe,
à savoir :
Z ah
1
f (x) dx .
ah − ah−1 ah−1
Un peu d’habitude permet de reconnaître à l’œil quand un histogramme est
trop éloigné d’une densité pour que l’ajustement soit bon.
L’inconvénient de l’histogramme est qu’il comporte une part importante
d’arbitraire dans le choix des classes. Une autre solution consiste à superposer
la fonction de répartition de la loi théorique avec la fonction de répartition
empirique Fb. La justification provient encore de la loi des grands nombres.
Au point x, la fonction de répartition empirique a pour valeur la proportion
des données qui sont inférieures à x. Si les données avaient été simulées à
partir de la loi théorique, cette proportion devrait être proche de la valeur
correspondante de la fonction de répartition théorique.
On préfère en général effectuer un changement d’axes qui donne une
représentation équivalente mais plus facile à contrôler visuellement : c’est
l’ajustement par quantiles ou QQ-plot. Désignons par Q la fonction quantile
de la loi théorique. Au lieu de représenter les points de coordonnées (x(i) , i/n)
pour la fonction de répartition empirique, le QQ-plot consiste à représenter
Cahier de Mathématiques Appliquées no 2
80
0.10
Frequences
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
Tailles
0.00
100
103
106
109
112
115
118
121
124
127
130
Figure 10 – Tailles d’enfants de 6 ans. Superposition d’un histogramme et
de la densité de la loi normale de même moyenne et même variance.
Frequences cumulees
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Tailles
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Figure 11 – Tailles d’enfants de 6 ans. Superposition de la fonction de répartition empirique et de la fonction de répartition de la loi normale de même
moyenne et même variance.
les points (x(i) , Q(i/n)). Si l’ajustement est correct, la fonction quantile empi-
Statistique descriptive
81
rique de l’échantillon devrait être proche de la fonction quantile théorique. En
particulier les points (x(i) , Q(i/n)) seront proches de la première bissectrice,
ce qui est facile à visualiser (figure 12).
130
Quantiles
128
+
126
+
124
122
120
118
116
114
112
110
108
106
104
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Tailles
102
100
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Figure 12 – Tailles d’enfants de 6 ans. Ajustement par quantiles de la loi
normale de même moyenne et même variance. Superposition de la première
bissectrice.
Pour utiles qu’elles soient, les méthodes graphiques ne constituent pas une
réponse mathématique au problème de l’ajustement. Pour quantifier l’éloignement de la distribution empirique par rapport à une loi théorique, on
utilise des distances entre lois de probabilités. Nous introduisons deux de ces
distances, la distance du khi-deux et la distance de Kolmogorov-Smirnov. La
distance du khi-deux concerne uniquement les lois discrètes, mais on peut
l’utiliser aussi pour des échantillons continus regroupés en classes.
Définition 2.7 Soit {c1 , . . . , cr } un ensemble fini fixé.
Soit P = (P (ch )) , h = 1, . . . , r et P ∗ = (P ∗ (ch )) , h = 1, . . . , r deux lois
de probabilité sur cet ensemble. On appelle distance du khi-deux de P ∗ par
rapport à P , et on note Dχ2 (P, P ∗ ), la quantité :
Dχ2 (P, P ∗ ) =
r
X
(P (ch ) − P ∗ (ch ))2
.
P (ch )
h=1
La “distance” du khi-deux est donc une moyenne pondérée d’écarts quadratiques entre les valeurs de P et P ∗ . Ce n’est pas une distance au sens usuel
du terme, puisqu’elle n’est même pas symétrique. En pratique, on l’utilise
Cahier de Mathématiques Appliquées no 2
82
toujours dans le cas où P est une distribution théorique et P ∗ est la distribution empirique Pb. Pour un échantillon fixé, le meilleur ajustement sera celui
pour lequel la distance du khi-deux est la plus faible.
L’autre notion de distance couramment utilisée pour les ajustements est
la distance de Kolmogorov-Smirnov qui est plus générale que la précédente.
C’est la distance de la norme uniforme entre fonctions de répartition.
Définition 2.8 Soient F et F ∗ deux fonctions de répartition de lois de probabilité (fonctions de IR dans [0, 1]). On appelle distance de KolmogorovSmirnov de F et F ∗ , et on note DKS (F, F ∗ ), la quantité :
DKS (F, F ∗ ) = sup |F (x) − F ∗ (x)| .
x∈IR
En pratique, on utilise cette distance dans le cas où F est la fonction de
répartition de la loi théorique et F ∗ = Fb est la fonction de répartition empirique. Rappelons que la fonction de répartition empirique de l’échantillon
(x1 , . . . , xn ) est la fonction en escalier qui vaut 0 avant x(1) , i/n entre x(i) et
x(i+1) , et 1 après x(n) (les x(i) sont les statistiques d’ordre de l’échantillon).
Toute fonction de répartition est croissante. La fonction de répartition empirique étant constante entre deux valeurs successives des statistiques d’ordre,
il suffira pour calculer la distance de Kolmogorov-Smirnov, d’évaluer la différence entre F et Fb aux points x(i) .
DKS (F, Fb) = max
i=1,...,n
3
3.1
n
i−1 o
i .
F (x(i) ) − , F (x(i) ) −
n
n
Données bidimensionnelles
Représentations bidimensionnelles
Il est fréquent que plusieurs caractères soient observés sur la même population. Dans une enquête d’opinion, les personnes sondées peuvent avoir à
répondre simultanément à plusieurs dizaines de questions. Sur un échantillon
sanguin, on mesure couramment une dizaine de variables (numérations globulaires, taux de cholestérol,. . . ). Une étude descriptive de chaque caractère
pris séparément permet de résumer les caractéristiques de leurs distributions
empiriques. Pour concentrer sur un même graphique l’ensemble des distributions empiriques, on peut tracer parallèlement le diagramme en boîte de
chacun des caractères. Mais étudier les caractères séparément ne fournit aucune indication sur leurs relations éventuelles : on oublie que les échantillons
ont été recueillis sur les mêmes individus. Le problème consiste donc à étudier
simultanément les caractères sans perdre l’information qu’ils ont été observés
sur les mêmes individus.
Si plusieurs caractères x, y, z, . . . ont été mesurés sur une même population, on peut voir les données xi , yi , zi , . . . correspondant à un individu i
Statistique descriptive
83
comme les coordonnées d’un point dans IRd , où d est le nombre de caractères.
L’ensemble de ces points constitue un “nuage de points” dans IRd . Pour d = 2
ou d = 3, on peut représenter graphiquement ce nuage de points (figure 13).
Au-delà c’est impossible et on est obligé de le projeter sur des sous-espaces
de dimension 2 ou 3. Les différentes techniques de projection sont l’objet de
l’“analyse multidimensionnelle de données” (analyse discriminante, analyse
en composantes principales, analyse factorielle des correspondances, etc. . . ).
Poids
30
+
+
28
+
+
++
+
+
26
+
+
+
++
+
24
+
+
+
22
+++
+
+
20
+
+
+
+
+
+
+
+
+++
+
+
+
++
+
+
+
+
+
+
++
+
++
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
18
+
++
+
+++
+
+
16
+
14
12
Tailles
10
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Figure 13 – Nuage de points : tailles et poids d’enfants de 6 ans.
Dans le cas où 2 caractères quantitatifs x et y sont observés, on peut regrouper leurs valeurs en classes et représenter en perspective un histogramme
bidimensionnel : l’ensemble des couples de valeurs est partitionné en rectangles au-dessus desquels on représente un parallélépipède dont le volume
est la fréquence empirique du rectangle, à savoir le nombre de couples (xi , yi )
qui appartiennent au rectangle, divisé par la taille de l’échantillon. Si l’un des
caractères est qualitatif, par exemple x, tracer un histogramme bidimensionnel n’a pas vraiment de sens. On préfère souvent superposer des histogrammes
unidimensionnels des valeurs de y, pour chacune des modalités de x. Si x est
binaire et y continu, par exemple x est le sexe et y est l’âge, on représente
souvent le caractère quantitatif en ordonnée et on trace deux histogrammes
horizontaux en vis à vis, obtenant ainsi une “pyramide des âges”.
Cahier de Mathématiques Appliquées no 2
84
3.2
Covariance
Si deux caractères quantitatifs x et y sont mesurés sur n individus, on peut
considérer l’échantillon bidimensionnel comme un nuage de n points dans IR2 .
Différentes caractéristiques statistiques permettent de résumer l’information
contenue dans sa forme. Si x et y désignent les moyennes empiriques des deux
caractères, le point (x, y) est le centre de gravité du nuage. Les variances
empiriques s2x et s2y traduisent la dispersion des abscisses et des ordonnées.
Pour aller plus loin dans la description, il faut calculer la covariance.
Définition 3.1 On appelle covariance de x et y, et on note cxy , la quantité :
n
cxy =
1X
(xi − x)(yi − y) .
n i=1
Cette définition étend celle de la variance dans la mesure où s2x = cxx . La
covariance est symétrique (cxy = cyx ) et bilinéaire : si x et x0 sont deux
échantillons de taille n, a et a0 deux réels et x∗ = ax + a0 x0 , alors :
cx∗ y = acxy + a0 cx0 y .
Comme conséquence de la bilinéarité, on a :
s2x+y = s2x + s2y + 2cxy .
Pour le calcul pratique, on utilise la formule suivante :
Proposition 3.2 La covariance de x et y s’écrit :
n
cxy =
1X
xi yi − x y .
n i=1
La covariance est la moyenne des produits moins le produit des moyennes.
Démonstration : Il suffit de développer les produits :
n
cxy =
1X
(xi − x)(yi − y)
n i=1
n
=
=
1X
(xi yi − xyi − xi y + x y)
n i=1
n
1 X
n
xi yi − x y .
i=1
La covariance se compare au produit des écarts-types par l’inégalité de
Cauchy-Schwarz.
Statistique descriptive
85
Proposition 3.3 On a :
|cxy | ≤ sx sy .
(3.1)
Démonstration : Choisissons une constante a quelconque et calculons la variance de ax + y :
s2ax+y = a2 s2x + 2acxy + s2y .
Cette quantité est positive ou nulle pour tout a. Donc le discriminant de
l’expression, vue comme un trinôme en a, est nécessairement négatif. Il vaut :
c2xy − s2x s2y ,
d’où le résultat. Remarquons que le discriminant est nul si et seulement si
s2ax+y peut s’annuler, c’est-à-dire s’il existe a tel que ax + y soit constant.
Donc l’inégalité 3.1 ne peut être une égalité que s’il existe une relation affine
entre x et y.
Au vu de l’inégalité 3.1, il est naturel de diviser la covariance par le produit
des écarts-types, pour définir le coefficient de corrélation (les écart-types sont
supposés non nuls).
Définition 3.4 On appelle coefficient de corrélation de x et y, et on note
rxy , la quantité :
cxy
.
rxy =
sx sy
Quels que soient l’unité et les ordres de grandeur de x et y, le coefficient de
corrélation est un nombre sans unité, compris entre −1 et 1. Il traduit la
plus ou moins grande dépendance linéaire de x et y ou, géométriquement, le
plus ou moins grand aplatissement du nuage de points. Nous avons vu que
l’inégalité 3.1 ne pouvait être une égalité que si x est constant ou si y est de
la forme ax + b. Si a est positif, le coefficient de corrélation de x avec ax + b
est égal à +1, il est égal à −1 si a est négatif. Un coefficient de corrélation nul
ou proche de 0 signifie qu’il n’y a pas de relation linéaire entre les caractères.
Mais il n’entraîne aucune notion d’indépendance plus générale. Considérons
par exemple les deux échantillons :
x = ( −3 −2 −1 0 1 2 3 )
y=( 3 2 10123).
Leur coefficient de corrélation est nul, et pourtant x et y sont liés par une
relation fonctionnelle (yi = |xi |).
Quand le coefficient de corrélation est proche de 1 ou −1, les caractères
sont dits “fortement corrélés”. Il faut prendre garde à la confusion fréquente
entre corrélation et causalité. Que deux phénomènes soient corrélés n’implique en aucune façon que l’un soit cause de l’autre. Très souvent, une forte
corrélation indique que les deux caractères dépendent d’un troisième, qui
Cahier de Mathématiques Appliquées no 2
86
n’a pas été mesuré. Ce troisième caractère est appelé “facteur de confusion”.
Qu’il existe une corrélation forte entre le rendement des impôts en Angleterre
et la criminalité au Japon, indique que les deux sont liés à l’augmentation
globale de la population. Le prix du blé et la population des rongeurs sont
négativement corrélés car les deux dépendent du niveau de la récolte de blé.
Il arrive qu’une forte corrélation traduise bien une vraie causalité, comme
entre le nombre de cigarettes fumées par jour et l’apparition d’un cancer du
poumon. Mais ce n’est pas la statistique qui démontre la causalité, elle permet seulement de la détecter. L’influence de la consommation de tabac sur
l’apparition d’un cancer n’est scientifiquement démontrée que dans la mesure
où on a pu analyser les mécanismes physiologiques et biochimiques qui font
que les goudrons et la nicotine induisent des erreurs dans la reproduction du
code génétique des cellules.
3.3
Régression linéaire simple
Dans un problème de régression, les caractères ne sont pas considérés de
la même façon. L’un d’eux est le caractère “à expliquer”, les autres sont “explicatifs”. Nous considérons d’abord le cas de deux caractères x (explicatif) et y
(à expliquer). “Expliquer” signifie ici exprimer une dépendance fonctionnelle
de y comme fonction de x, de manière à prévoir la valeur de y connaissant
celle de x. Si pour tout individu i, yi = f (xi ), et si on observe une valeur
xn+1 du caractère x sur un nouvel individu, on donnera f (xn+1 ) comme prédiction du caractère y sur ce même individu. La situation idéale où y = f (x)
n’est jamais rencontrée en pratique. On cherchera plutôt, dans une famille
fixée de fonctions, celle pour laquelle les yi sont les plus proches des f (xi ).
La proximité se mesure en général par l’erreur quadratique moyenne :
n
EQ(f ) =
1X
(yi − f (xi ))2 .
n i=1
(3.2)
On parle alors de régression au sens des moindres carrés. Les différences entre
les valeurs observées yi et les valeurs prédites par le modèle f (xi ) s’appellent
les résidus. Si le modèle est ajusté de sorte que la série des résidus soit centrée (de moyenne nulle), alors l’erreur quadratique EQ(f ) est la variance des
résidus. La régression linéaire simple consiste à chercher f parmi les applications affines. La solution s’exprime simplement à l’aide des caractéristiques
numériques de x et y.
Proposition 3.5 Soient x et y deux échantillons recueillis sur une même
population de taille n. Notons EQ(a, b) la fonction de IR2 dans IR+ définie
par :
n
1X
EQ(a, b) =
(yi − axi − b)2 .
n i=1
Statistique descriptive
87
Si s2x 6= 0 (le caractère x n’est pas constant), la fonction EQ(a, b) admet un
minimum pour :
cxy
ax .
b
a = 2 et bb = y − b
sx
La valeur de ce minimum est :
2
EQ(b
a, bb) = s2y (1 − rxy
).
Définition 3.6 On appelle droite de régression linéaire de y sur x la droite
d’équation y = b
ax + bb.
Démonstration : Si a est fixé, EQ(a, b) est un polynôme de degré 2 en b. Il
atteint son minimum pour b = b(a) tel que la dérivée s’annule. Soit :
n
∂EQ(a, b)
2X
=−
(yi − axi − b) = −2(y − ax − b) = 0
∂b
n i=1
On a donc b(a) = y − ax. Reportons cette valeur dans EQ(a, b) :
n
EQ(a, b(a)) =
1X
((yi − y) − a(xi − x))2 .
n i=1
Cette fonction est un polynôme de degré 2 en a, qui atteint son minimum au
point b
a où sa dérivée s’annule, à savoir :
n
−
2X
(xi − x)((yi − y) − b
a(xi − x)) = 0 ,
n i=1
soit en développant :
−2cxy + 2b
as2x = 0 .
Posons donc :
b
a=
cxy
s2x
et bb = b(b
a) = y − b
ax .
On a bien pour tout (a, b) :
EQ(b
a, bb) ≤ EQ(a, b(a)) ≤ EQ(a, b) .
La valeur du minimum est :
n
1X
cxy
EQ(b
a, bb) =
((yi − y) − 2 (xi − x))2
n i=1
sx
= s2y − 2
= s2y −
c2xy 2
c2xy
+
s
s2x
s4x x
c2xy
s2x
2
= s2y (1 − rxy
).
Cahier de Mathématiques Appliquées no 2
88
Comme on pouvait s’y attendre l’erreur quadratique minimale est d’autant
plus faible que la corrélation est forte.
Il est important de noter la dissymétrie des rôles de x et y. Par rapport au
nuage de points, la droite de régression linéaire de y sur x minimise la somme
des distances verticales des points à la droite. La droite de régression linéaire
de x sur y minimise la somme des distances horizontales. Les deux droites se
coupent au centre de gravité (x, y) du nuage de points. L’écart entre les deux
est d’autant plus grand que la corrélation est faible.
La prédiction est la première application de la régression linéaire. Voici
les tailles en centimètres (échantillon x) et poids en kilogrammes (y) de 10
enfants de 6 ans.
Enfant
Taille
Poids
1
121
25
2
123
22
3
108
19
4
118
24
5
111
19
6
109
18
7
114
20
8
103
15
9
110
20
10
115
21
Les caractéristiques numériques prennent les valeurs suivantes :
bb
x
y
s2x s2y rxy b
a
EQ(b
a, bb)
113.2 20.3 34.76 7.61 0.9 0.42 −27.38 1.44
Poids
30
28
26
+
+
24
+
22
+
+
20
+
+
+
+
18
16
+
14
12
Tailles
10
100 102 104 106 108 110 112 114 116 118 120 122 124 126 128 130
Figure 14 – Tailles et poids d’enfants de 6 ans : droite de régression linéaire.
Effectuer une régression linéaire signifie que l’on pense que le poids doit
croître en gros proportionnellement à la taille. La droite de régression linéaire
Statistique descriptive
89
constitue un modèle de prédiction. Par exemple, on affirmera que le poids
moyen d’un enfant de 6 ans mesurant 120 centimètres sera de b
a120+bb = 23.16
kg. Evidemment cette prédiction n’est pas infaillible. Elle donne un ordre de
grandeur. La valeur
qobservée s’en écartera probablement et l’erreur prévisible
a, bb) = 1.2 kg.
sera de l’ordre de EQ(b
Comme seconde application, on peut étendre l’ajustement par quantiles à
des familles de lois invariantes par transformation affine, comme les lois normales. Soit y un échantillon continu de taille n dont on souhaite vérifier qu’il
pourrait être issu d’une loi normale N (µ, σ 2 ), les paramètres µ et σ 2 étant
inconnus. Pour i = 1, . . . , n, notons comme d’habitude y(i) les statistiques
d’ordre. Si l’hypothèse de normalité est pertinente, alors y(i) doit être proche
du quantile QN (µ,σ2 ) (i/n) de la loi N (µ, σ 2 ). Rappelons que si une variable
aléatoire X suit la loi N (0, 1), alors Y = σX + µ suit la loi N (µ, σ 2 ). Ceci
revient à dire que pour tout u ∈ [0, 1] :
QN (µ,σ2 ) (u) = σQN (0,1) (u) + µ .
Notons xi = QN (0,1) (i/n) les valeurs de la fonction quantile de la loi N (0, 1)
aux points i/n. Si l’hypothèse de normalité est vérifiée, les points de coordonnées (xi , y(i) ) devraient être proches de la droite d’équation y = σx + µ.
Une régression linéaire des y(i) sur les xi fournit à la fois une estimation de
σ et µ et une indication sur la qualité de l’ajustement. Avant les logiciels de
calcul, on vendait du papier “gausso-arithmétique”, gradué en abscisses selon
les quantiles de la loi N (0, 1). Il suffisait de reporter en ordonnée les valeurs
des y(i) pour tracer à la main la droite de régression linéaire, qui porte le
nom de “droite de Henry”, du nom du colonel qui a inventé cette méthode
au siècle dernier pour étudier la portée des canons (figure 15).
Le problème de la régression est de déterminer dans une famille de fonctions donnée, quelle est la fonction qui minimise l’erreur quadratique (3.2).
Or il est fréquent qu’il n’y ait pas de solution explicite. Pour certaines familles de fonctions, on transforme le problème de manière à se ramener à une
régression linéaire. Voici quelques cas fréquents.
Fonctions
y = aebx
y = axb
y = a + b/x
y = 1/(1 + e−(ax+b) )
Transformation
y 0 = log(y)
0
y = log(y) x0 = log(x)
x0 = 1/x
0
y = log(y/(1−y))
Forme affine
y 0 = log(a) + bx
y 0 = log(a) + bx0
y = a + bx0
y 0 = ax + b
Comme exemple d’application, nous reprenons le problème de l’ajustement par les quantiles, pour la famille des lois de Weibull qui sont souvent
utilisées pour modéliser des durées de survie ou des durées de fonctionnement
en fiabilité. La fonction quantile de la loi de Weibull W(a, λ) est :
1/a
1
.
QW(a,λ) (u) = − log(1 − u)
λ
Cahier de Mathématiques Appliquées no 2
90
130
Tailles
+
128
+
126
+
124
++ + + +
++
+++
+++++++
+++++++
+++
++++++++++
+++++++++++
++++++
++++++++++
+++++
++++++
++++
+++++
++
+++
122
120
118
116
114
112
110
108
+ + ++
106
+
104
102
Quantiles
+
+
100
-3.0 -2.6 -2.2 -1.8 -1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4 1.8 2.2 2.6 3.0
Figure 15 – Tailles d’enfants de 6 ans. Quantiles de la loi normale N (0, 1)
et statistiques d’ordre. Superposition de la droite de Henry.
Soit y un échantillon que l’on souhaite ajuster par une loi de Weibull, de
paramètres a et λ inconnus. Pour i = 1, . . . , n, la statistique d’ordre y(i) doit
être proche du quantile QW(a,λ) (i/n).
y(i) ≈
soit :
log(y(i) ) ≈
1/a
1
i
,
− log(1 − )
λ
n
i
1
1
1
log − log(1 − ) + log
.
a
n
a
λ
Posons xi = log(− log(1 − i/n)) et yi0 = log(y(i) ). Les points (xi , yi0 ) devraient
être proches de la droite d’équation y = (1/a)x + (1/a) log(1/λ). Une régression linéaire fournira non seulement des valeurs pour a et λ, mais aussi une
indication sur la qualité de l’ajustement. Avant les logiciels de calcul, il existait du “papier Weibull”, gradué de manière à automatiser ce cas particulier
de régression non linéaire.
3.4
Régressions multiples
Le principe de la régression au sens des moindres carrés, tel qu’il a été
décrit au paragraphe précédent, est très général. Etant donné un caractère
y “à expliquer” et des caractères x(1) , . . . , x(k) “explicatifs”, mesurés sur une
même population de taille n, on cherche à isoler dans une famille de fonctions
Statistique descriptive
91
à plusieurs paramètres, une fonction f qui “explique” y par la relation :
y = f (x(1) , . . . , x(k) ) .
Comme critère de choix, on minimise sur toutes les fonctions de la famille
l’erreur quadratique définie par :
n
EQ(f ) =
1X
(1)
(k)
(yi − f (xi , . . . , xi ))2 .
n i=1
Dans certains cas classiques, on sait résoudre explicitement ce problème de
minimisation, et la solution est implémentée dans les environnements de calculs statistiques. C’est le cas pour les exemples que nous donnons ci-dessous.
Quand une résolution explicite est impossible, on a recours à des algorithmes
de minimisation, comme l’algorithme du gradient.
Régression linéaire multiple. C’est la généralisation directe de la régression linéaire simple du paragraphe précédent. Les fonctions f sont affines :
f (x(1) , . . . , x(k) ) = a0 + a1 x(1) + · · · + ak x(k) .
L’erreur quadratique à minimiser est une fonction des k + 1 paramètres inconnus a0 , a1 , . . . , ak :
n
EQ(a0 , . . . , ak ) =
1X
(1)
(k)
(yi − (a0 + a1 xi + · · · + ak xi ))2 .
n i=1
On peut toujours faire passer un hyperplan par k points dans un espace
de dimension k + 1. Si la taille n de la population est inférieure ou égale à
k, l’erreur quadratique minimale est donc 0. En pratique, la régression ne
pourra être significative que si n est beaucoup plus grand que k.
Régression polynomiale simple. On peut la voir comme une autre généralisation de la régression linéaire simple, ou comme un cas particulier de
régression linéaire multiple. Un seul caractère, x, est explicatif. Les fonctions
f sont les polynômes de degré k.
f (x) = a0 + a1 x + · · · + ak xk .
On peut considérer que les caractères x, . . . , xk sont explicatifs pour se ramener au cas précédent. Les familles des polynômes de degrés successifs sont
emboîtées. Pour un même ensemble de données, l’erreur quadratique diminuera donc si on augmente k, pour s’annuler quand k dépasse n. Mais si k
est trop grand, la régression ne sera pas significative. En pratique, il est rare
qu’une régression polynomiale aille au-delà du degré 3.
Cahier de Mathématiques Appliquées no 2
92
Régression polynomiale multiple. Quand plusieurs caractères sont explicatifs, on peut encore effectuer une régression sur une famille de polynômes
en les différents caractères, de degré fixé. Les termes faisant intervenir des
0
produits du type x(h) x(h ) seront interprétés comme des termes d’interaction
entre les caractères explicatifs. En pratique, on se limite à des polynômes de
degré 1 ou 2. Voici pour deux caractères explicatifs x(1) et x(2) , les modèles
les plus fréquemment utilisés.
• Modèle d’ordre 1, sans interaction :
y = a0 + a1 x(1) + a2 x(2) .
• Modèle d’ordre 2, sans interaction :
y = a0 + a1 x(1) + a2 x(2) + a3 (x(1) )2 + a4 (x(2) )2 .
• Modèle d’ordre 1, avec interaction :
y = a0 + a1 x(1) + a2 x(2) + a3 x(1) x(2) .
• Modèle d’ordre 2, avec interaction :
y = a0 + a1 x(1) + a2 x(2) + a3 (x(1) )2 + a4 (x(2) )2 + a5 x(1) x(2) .
3.5
Rapport de cotes
Ce paragraphe traite uniquement du cas de deux caractères binaires, indicateurs de deux événements différents dont on souhaite étudier la dépendance.
C’est un cas que l’on rencontre en médecine, chaque fois qu’est posé le problème d’une détection thérapeutique. Appelons M (pour maladie) le premier
événement et S (pour symptôme) le second. Le symptôme peut être un taux
élevé d’une certaine substance ou la réaction positive à un test de dépistage,
comme un alcootest. Sur chaque individu d’une population de taille n, on a
observé la présence ou l’absence de la maladie et du symptôme. On dispose
donc des 4 résultats suivants :
• nM S : nombre d’individus malades et présentant le symptôme,
• nM S : nombre d’individus malades ne présentant pas le symptôme,
• nM S : nombre d’individus non malades et présentant le symptôme,
• nM S : nombre d’individus non malades ne présentant pas le symptôme.
Le problème est d’extraire de ces données de quoi étayer un diagnostic :
avec quelle certitude peut-on annoncer à un individu qu’il est malade si on a
constaté le symptôme sur lui ? En d’autres termes, peut-on donner une valeur
à la probabilité qu’un individu soit malade sachant qu’il a le symptôme. Cette
probabilité théorique, notée IP[M | S] s’appelle la valeur positive prédictive du
symptôme. On peut la relier à d’autres quantités par la formule de Bayes :
IP[M | S] =
IP[S | M ]IP[M ]
.
IP[S | M ]IP[M ] + IP[S | M ]IP[M ]
Statistique descriptive
93
La probabilité IP[M ], qui représente la proportion de malades dans la population est souvent très faible, et difficile à estimer de façon fiable. Une des
raisons est que la maladie n’est détectée que parmi les personnes qui se présentent à une consultation, et qui par là même ne sont pas représentatives de
l’ensemble de la population. Dans l’exemple de l’alcootest il est même impossible de définir la proportion des individus qui ont trop bu, car elle dépend
de l’heure de la journée, du lieu, etc. . . Les probabilités conditionnelles du
symptôme sachant la maladie sont en général les seules accessibles.
Définition 3.7 On appelle :
• sensibilité la probabilité IP[S | M ] (probabilité qu’un individu malade ait
le symptôme),
• spécificité la probabilité IP[S | M ] (probabilité qu’un individu non malade
n’ait pas le symptôme).
Dans un cas idéal, ces deux quantités devraient valoir 1. Un alcootest parfait
devrait être positif sur tout individu ayant trop bu, et ne jamais accuser
à tort un conducteur sobre. En pratique, la sensibilité et la spécificité sont
inférieures à 1, avec des différences importantes selon les tests. Pour une
maladie sans traitement connu, il peut être plus grave d’alarmer à tort une
personne non atteinte, que de ne pas détecter un patient atteint. On choisira
donc des tests à très forte spécificité, quitte à ce que leur sensibilité soit moins
bonne. A l’inverse, pour une maladie potentiellement grave mais facilement
soignable, on utilisera des tests à forte sensibilité.
Une forte sensibilité et une forte spécificité ne garantissent pas que la
valeur positive prédictive soit bonne, si la proportion de malades est faible.
Supposons par exemple IP[S | M ] = IP[S | M ] = 0.9 et IP[M ] = 0.01. D’après
la formule de Bayes, la valeur positive prédictive vaut :
0.9 0.01
1
=
.
0.9 0.01 + 0.1 0.99
12
Concrètement, sur 12 personnes présentant le symptôme, 11 ne sont pas malades. Si on s’arrête à ce chiffre, il semble inquiétant. Mais si on calcule de
même IP[M | S], on trouve 1/892. La proportion de malades parmi les individus qui présentent le symptôme est tout de même beaucoup plus forte que
parmi les autres. On dira que le symptôme est en faveur de la maladie. La
question se pose donc d’évaluer l’efficacité du symptôme dans la détection de
la maladie, par un nombre qui ne dépende pas de IP[M ].
On utilise pour cela le rapport de cotes (odds-ratio en anglais). La cote
(au sens des parieurs) d’un événement est le rapport de la probabilité de
l’événement à celle de son complémentaire. La cote de la maladie peut se
calculer parmi les individus ayant le symptôme (IP[M | S]/IP[M | S]) et parmi
ceux qui ne l’ont pas (IP[M | S]/IP[M | S]). Le rapport de cotes théorique est
le quotient de ces deux quantités.
IP[M | S] =
RC =
IP[M | S]/IP[M | S]
IP[M ∩ S] IP[M ∩ S]
=
.
IP[M | S]/IP[M | S]
IP[M ∩ S] IP[M ∩ S]
94
Cahier de Mathématiques Appliquées no 2
Le rapport de cotes vaut 1 si la maladie et le symptôme sont indépendants,
il est supérieur à 1 si le symptôme est en faveur de la maladie. Quand des
observations ont été menées sur un échantillon, on peut approcher les probabilités théoriques par des fréquences empiriques. Ceci conduit à la définition
du rapport de cotes empirique.
Définition 3.8 On appelle rapport de cotes empirique la quantité :
d = nM S nM S .
RC
nM S nM S
d
Quand le dénominateur est nul, on convient de remplacer la définition de RC
par :
d = (nM S + 0.5) (nM S + 0.5) .
RC
(nM S + 0.5) (nM S + 0.5)
Exemple : Supposons que pour un échantillon de n = 10000 individus, la
répartition soit la suivante :
M M total
S 90 990 1080
S 10 8910 8920
total 100 9900 10000
La cote (empirique) des malades parmi les individus ayant le symptôme est :
nM S /nS
1
=
.
nM S /nS
11
Il y a 1 malade pour 11 non malades parmi les individus ayant le symptôme.
Pour ceux qui n’ont pas le symptôme, la cote est :
nM S /nS
1
=
.
nM S /nS
891
Il y a 1 malade pour 891 non malades parmi les individus n’ayant pas le
symptôme. Le rapport de cotes empirique vaut :
d = 1/11 = 81 .
RC
1/891
Le symptôme est donc bien en faveur de la maladie.
3.6
Tableau de contingence
Le tableau de contingence est un moyen particulier de représenter simultanément deux caractères observés sur une même population, s’ils sont discrets
ou bien continus et regroupés en classes. Les deux caractères sont x et y,
la taille de l’échantillon est n. Les modalités ou classes de x seront notées
c1 , . . . , cr , celles de y sont notées d1 , . . . , ds . On note :
Statistique descriptive
95
• nhk l’effectif conjoint de ch et dk : c’est le nombre d’individus pour
lesquelsPx prend la valeur ch et y la valeur dk ,
s
• nh• = k=1 nhk l’effectif marginal de ch : c’est le nombre d’individus
pour lesquels
x prend la valeur ch ,
Pr
• n•k = h=1 nhk l’effectif marginal de dk : c’est le nombre d’individus
pour lesquels y prend la valeur dk .
On représente ces valeurs dans un tableau à double entrée, dit tableau de
contingence :
x \ y d1 . . . dk . . . ds total
c1 n11 . . . n1k . . . n1s n1•
..
..
..
..
..
.
.
.
.
.
ch nh1 . . . nhk . . . nhs nh•
..
..
..
..
..
.
.
.
.
.
cr nr1 . . . nrk . . . nrs nr•
total n•1 . . . n•k . . . n•s n
Chaque ligne et chaque colonne correspond à un sous-échantillon particulier.
La ligne d’indice h est la répartition sur d1 , . . . , ds , des individus pour lesquels
le caractère x prend la valeur ch . La colonne d’indice k est la répartition sur
c1 , . . . , cr , des individus pour lesquels le caractère y prend la valeur dk . En
divisant les lignes et les colonnes par leurs sommes, on obtient sur chacune
des distributions empiriques constituées de fréquences conditionnelles. Pour
h = 1, . . . , r et k = 1, . . . , s, on les notera :
nhk
nhk
fk|h =
et fh|k =
.
nh•
n•k
Ces distributions empiriques conditionnelles s’appellent les profils-lignes et
profils-colonnes. L’enjeu principal est d’étudier la dépendance des deux caractères. Deux caractères sont indépendants si la valeur de l’un n’influe pas
sur les distributions des valeurs de l’autre. Si c’est le cas, les profils-lignes
seront tous peu différents de la distribution empirique de y, et les profilscolonnes de celle de x :
nhk
n•k
nhk
nh•
fk|h =
≈ f•k =
et fh|k =
≈ fh• =
.
nh•
n
n•k
n
C’est équivalent à dire que les fréquences conjointes doivent être proches des
produits de fréquences marginales :
nhk
nh• n•k
fhk =
≈ fh• f•k =
.
n
n n
Les fréquences conjointes d’une part, et les produits de fréquences marginales
d’autre part, constituent deux distributions de probabilité sur l’ensemble produit {c1 , . . . , cr } × {d1 , . . . , ds }. Un des moyens de quantifier leur proximité
est de calculer la distance du khi-deux de l’une par rapport à l’autre. Dans
ce cas particulier, on parle de khi-deux de contingence.
Cahier de Mathématiques Appliquées no 2
96
Proposition 3.9 La distance du khi-deux de contingence de la distribution
empirique (fhk ) à la distribution théorique (fh• f•k ) vaut :
Dχ2 =
r X
s
X
(fhk − fh• f•k )2
fh• f•k
h=1 k=1
r X
s
X
= −1 +
h=1 k=1
n2hk
.
nh• n•k
Démonstration : La première expression est l’application directe de la définition 2.7. Pour passer à la seconde, on développe le carré.
Dχ2 =
=
r X
s
X
h=1 k=1
r X
s
X
r
s
r
s
2
XX
XX
fhk
−2
fhk +
fh• f•k
fh• f•k
h=1 k=1
2
fhk
fh• f•k
h=1 k=1
r X
s
X
= −1 +
h=1 k=1
h=1 k=1
−2 +1
n2hk
.
nh• n•k
La distance du khi-deux vaut 0 si les deux caractères sont indépendants. Elle
est maximale s’il existe une dépendance systématique. Supposons r = s et
y = f (x), pour une certaine fonction bijective f . Sur chaque ligne et chaque
colonne du tableau de contingence, une seule case est non nulle et la distance
du khi-deux vaut (r−1).
Statistique descriptive
4
97
Exercices
Rien ne remplace le traitement de problèmes réels pour affiner ce “sens des
données” qui fait le bon statisticien. L’observation d’échantillons simulés à
l’aide d’un environnement de calcul comme Scilab, fournit une base expérimentale certes artificielle, mais suffisante pour bien cerner les notions les
plus élémentaires.
Dans les exercices qui suivent, les valeurs proposées pour les tailles d’échantillons ainsi que pour les paramètres des lois ne sont qu’indicatives. Elles
pourront être modulées en fonction de la puissance de calcul disponible.
Exercice 1 Pour les lois de probabilité P suivantes :
• Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) .
• Lois sur {0, . . . , 4} définies par les probabilités suivantes :
0
0.2
0.3
0.6
0.9
•
•
•
•
Lois
Lois
Lois
Lois
1
0.2
0.3
0.1
0.025
2
0.2
0.3
0.1
0.025
3
0.2
0.05
0.1
0.025
4
0.2
0.05
0.1
0.025
uniformes U(0, 1) , U(0, 100) .
exponentielles E(1) , E(0.1) .
normales N (0, 1) , N (10, 100) .
Gamma G(10, 1) , G(100, 1) .
1. Simuler un échantillon x de taille 1000 de la loi P . Pour i = 1, . . . , 1000,
on note x(i) l’échantillon des i premières valeurs de x.
2. Calculer et représenter graphiquement les valeurs de la différence entre
la moyenne empirique x(i) et l’espérance de la loi P .
3. Idem pour les différences entre les variances empiriques des échantillons
x(i) et la variance théorique de la loi P . Idem pour les médianes et les
quartiles, empiriques et théoriques.
4. Superposer sur un même graphique la fonction de répartition de la loi
P et la fonction de répartition empirique de l’échantillon x(i) , pour
i = 100, i = 500 et i = 1000.
Exercice 2 Pour les lois de probabilité P suivantes :
• Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) .
• Lois sur {0, . . . , 4} définies par les probabilités suivantes :
0
0.2
0.3
0.6
0.9
1
0.2
0.3
0.1
0.025
2
0.2
0.3
0.1
0.025
3
0.2
0.05
0.1
0.025
4
0.2
0.05
0.1
0.025
Cahier de Mathématiques Appliquées no 2
98
•
•
•
•
Lois
Lois
Lois
Lois
uniformes U(0, 1) , U(0, 100) .
exponentielles E(1) , E(0.1) .
normales N (0, 1) , N (10, 100) .
Gamma G(10, 1) , G(100, 1) .
1. Simuler 1000 échantillons de taille 100 de la loi P .
2. On note x∗ l’échantillon des 1000 moyennes empiriques, centrées et réduites. Superposer sur un même graphique un histogramme de l’échantillon x∗ et la densité de la loi normale N (0, 1). Superposer sur un même
graphique la fonction de répartition empirique de l’échantillon x∗ et la
fonction de répartition de la loi normale N (0, 1).
3. Idem pour l’échantillon des 1000 variances empiriques, centrées et réduites.
4. Idem pour l’échantillon des 1000 écarts-types empiriques, centrés et
réduits.
5. Idem pour l’échantillon des 1000 médianes empiriques, centrées et réduites.
Exercice 3
1. Choisir deux réels a et b. Simuler un échantillon e de taille 100 de la loi
normale N (0, 1). Soit x l’échantillon défini par xi = ia + b + ei .
2. Calculer pour l’échantillon x les moyennes mobiles d’ordre 1, 2, 3.
3. Représenter sur un même graphique la droite d’équation y = ax + b,
(k)
(k)
les points de coordonnées (i, xi ), et les points (i, mi ) où les mi sont
les moyennes mobiles d’ordre k = 1, 2, 3.
Exercice 4 Pour les lois de probabilité P suivantes :
• Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) .
• Lois sur {0, . . . , 4} définies par les probabilités suivantes :
0
0.2
0.3
0.6
0.9
•
•
•
•
Lois
Lois
Lois
Lois
1
0.2
0.3
0.1
0.025
2
0.2
0.3
0.1
0.025
3
0.2
0.05
0.1
0.025
4
0.2
0.05
0.1
0.025
uniformes U(0, 1) , U(0, 100) .
exponentielles E(1) , E(0.1) .
normales N (0, 1) , N (10, 100) .
Gamma G(10, 1) , G(100, 1) .
1. Simuler 1000 échantillons de taille 10 de la loi P . On note x l’échantillon
des 1000 variances empiriques, et x∗ l’échantillon des 1000 variances
empiriques non biaisées (x∗i = 10
9 xi ).
Statistique descriptive
99
2. Calculer x, x∗ et la variance théorique de la loi P .
3. Représenter sur le même graphique un histogramme de x et un histogramme de x∗ . Représenter sur le même graphique la variance théorique
de la loi P par un trait vertical.
Exercice 5
1. Pour i = 1, 2, 3, simuler un échantillon x(i) de taille 1000 de la loi
normale N (i, 1). Calculer les 3 moyennes et les 3 variances empiriques.
2. Calculer les variances inter-classes et intra-classes ainsi que la variance
de l’échantillon global.
3. Représenter un histogramme de l’échantillon global.
4. Reprendre les mêmes calculs avec 3 échantillons de taille 1000 des lois
N (0.1, 1), N (0.2, 1) et N (0.3, 1).
5. Reprendre les mêmes calculs avec 3 échantillons de taille 1000 des lois
N (10, 1), N (20, 1) et N (30, 1).
Exercice 6 La fonction quantile de la loi de Cauchy est définie par :
Q(u) = tan(πu − π/2) ,
pour tout u ∈]0, 1[.
1. Montrer que Q(α) = −Q(1 − α). Pour α < 0.5, on note qα = Q(1 − α).
Montrer que :
IE[X | X ∈] − qα , qα ] ] = 0 .
2. Calculer qα pour α = 0.025, 0.005.
3. Simuler un échantillon de taille 5000 de la loi de Cauchy. Pour tout n
de 100 à 5000 par pas de 100, calculer la moyenne empirique ainsi que
les moyennes élaguées bilatérales de niveau 0.95 et 0.99. Représenter
ces quantités sur un même graphique, et comparer.
Exercice 7 La loi de Paréto P(a) a pour fonction de répartition :
F (x) = (1 − x−a )11[1,+∞[ .
1. Quelles sont les valeurs de a pour lesquelles l’espérance de la loi P(a)
existe ? Même question pour la variance.
2. Pour tout α > 0, soit qα = Q(1 − α) le quantile d’ordre 1 − α de la loi
P(a). Si X suit la loi P(a), calculer :
IE[X | X ≤ qα ] .
3. Simuler un échantillon de taille 5000 de la loi P(1). Pour tout n de 100
à 5000, calculer la moyenne empirique ainsi que les moyennes élaguées
unilatérales de niveau 0.95 et 0.99. Représenter ces quantités sur un
même graphique, comparer avec les valeurs théoriques.
4. Reprendre la question précédente en remplaçant la loi P(1) par la loi
P(2).
Cahier de Mathématiques Appliquées no 2
100
Exercice
• Lois
• Lois
• Lois
• Lois
• Lois
• Lois
8 Pour les lois de probabilité P suivantes :
uniformes U(0, 1) , U(0, 100) .
exponentielles E(1) , E(0.1) .
normales N (0, 1) , N (10, 100) .
Gamma G(10, 1) , G(100, 1) .
de Student T (1) , T (100) .
de Fisher F(2, 2) , F(20, 20) .
1. Simuler un échantillon x de taille 1000 de la loi P .
2. Pour i = 0, . . . , 20, on note :
ai = min{x} +
i
(max{x} − min{x}) .
20
Calculer les fréquences empiriques des 20 classes
[ai−1 , ai ] (i = 1, . . . , 20). Superposer sur un même graphique un histogramme de ces fréquences empiriques et la densité de la loi P .
3. Idem si les ai sont les statistiques d’ordre d’un échantillon de taille 21
de la loi uniforme U(min{x}, max{x}).
4. Idem si les ai sont les statistiques d’ordre d’un échantillon de taille 21
de la loi P .
Exercice 9 Pour les lois de probabilité P suivantes :
• Lois binomiales B(4, 0.5) , B(4, 0.2) , B(4, 0.8) .
• Lois sur {0, . . . , 4} définies par les probabilités suivantes :
0
0.2
0.3
0.6
0.9
1
0.2
0.3
0.1
0.025
2
0.2
0.3
0.1
0.025
3
0.2
0.05
0.1
0.025
4
0.2
0.05
0.1
0.025
1. Simuler 100 échantillons de taille 1000 de la loi P . Pour chacun des
100 échantillons, calculer la distance du khi-deux de sa distribution
empirique par rapport à la distribution théorique P . Soit x l’échantillon
de taille 100 des valeurs prises par la distance du khi-deux, multipliées
par 1000.
2. Superposer sur un même graphique un histogramme de l’échantillon x,
et la densité de la loi de khi-deux à 4 degrés de liberté.
3. Superposer sur un même graphique la fonction de répartition empirique
de l’échantillon x et la fonction de répartition FX 2 (4) de la loi de khideux à 4 degrés de liberté.
4. Ajustement par quantiles : former le vecteur y, des centiles de la loi
de khi-deux : QX 2 (4) (i/100) , i = 1, . . . , 99. Représenter sur un même
graphique le nuage des points (x(i) , yi ) et la première bissectrice.
Statistique descriptive
101
Exercice 10
1. Simuler 100 échantillons de taille 1000 de la loi uniforme U(0, 1).
2. Pour chacun des 100 échantillons, calculer la distance de KolmogorovSmirnov entre la distribution empirique et la distribution théorique
U(0, 1). Soit y l’échantillon de taille 100 des√valeurs prises par la distance
de Kolmogorov-Smirnov, multipliées par 1000.
3. On considère la fonction FKS , définie sur ]0, +∞[ par :
FKS (t) = 1 + 2
+∞
X
(−1)k e−2k
2 2
t
.
k=1
Pour i = 1, . . . , 100, soit yi0 = FKS (y(i) ). Calculer une approximation
des yi0 .
4. Soit x le vecteur (i/100) , i = 1, . . . , 100. Représenter sur un même
graphique le nuage des points (xi , yi0 ) et la première bissectrice.
5. Calculer le coefficient de corrélation linéaire de x et y 0 .
Exercice 11 Soient X et U deux variables aléatoires indépendantes de loi
N
p(0, 1). Soit ρ un réel strictement compris entre −1 et 1, et Y = ρX +
1 − ρ2 U .
1. Montrer que la covariance de X et Y est ρ.
2. Pour les valeurs de ρ comprises entre −0.9 et 0.9 par pas de 0.3 : simuler
deux échantillons x et u de taille 1000
p de la loi N (0, 1), et calculer
l’échantillon y défini par yi = ρxi + 1 − ρ2 ui . Calculer le coefficient
de corrélation linéaire empirique de x et y. Représenter le nuage des
points de coordonnées (xi , yi ).
3. Reprendre les mêmes
√ calculs en remplaçant la loi normale N (0, 1) par
la loi uniforme U(0, 12).
Exercice 12 Choisir deux réels a et b. Simuler un échantillon e = (ei ), de
taille 100 de la loi normale N (0, 1). Pour tout i = 1, . . . , 100, posons xi = i
et yi = ai + b + ei , et notons x et y les échantillons correspondants.
1. Calculer les coefficients b
a et bb de la droite de régression linéaire de y sur
x. Représenter sur le même graphique les points de coordonnées (xi , yi ),
la droite de régression linéaire, et la droite d’équation y = ax + b.
2. Reprendre les mêmes calculs pour un échantillon e de taille 1000 de la
loi normale N (0, 0.1).
3. Reprendre les mêmes calculs pour un échantillon e de taille 100 de la
loi uniforme U(0, 1).
4. Reprendre les mêmes calculs pour un échantillon e de taille 1000 de la
loi N (0, 10).
102
Cahier de Mathématiques Appliquées no 2
Exercice 13 Choisir deux réels a et b. Simuler deux échantillons x = (xi )
et e = (ei ), de taille 100 de la loi normale N (0, 1). Pour tout i = 1, . . . , 100,
soit yi = axi + b + ei , et y l’échantillon correspondant.
1. Calculer les coefficients b
a et bb de la droite de régression linéaire de y sur
x. Représenter sur le même graphique les points de coordonnées (xi , yi ),
la droite de régression linéaire et la droite d’équation y = ax + b.
2. Reprendre les mêmes calculs pour un échantillon x de taille 100 de la
loi normale N (0, 10) et un échantillon e de taille 100 de la loi normale
N (0, 1).
3. Reprendre les mêmes calculs pour un échantillon x de taille 100 de la
loi normale N (0, 0.1) et un échantillon e de taille 100 de la loi normale
N (0, 1).
4. Reprendre les questions précédentes en remplaçant la taille des échantillons par 1000.
Exercice
• Lois
• Lois
• Lois
• Lois
• Lois
• Lois
14 Pour les lois de probabilité P suivantes :
uniformes U(0, 1) , U(0, 100) .
exponentielles E(1) , E(0.1) .
normales N (0, 1) , N (10, 100) .
Gamma G(10, 1) , G(100, 1) .
de Student T (1) , T (100) .
de Fisher F(2, 2) , F(20, 20) .
1. Simuler un échantillon x de taille 1000 de la loi P .
2. Superposer sur un même graphique un histogramme de l’échantillon
obtenu et la densité de la loi P .
3. Superposer sur un même graphique la fonction de répartition empirique
de l’échantillon y et la fonction de répartition FP de la loi P .
4. Ajustement par quantiles : former le vecteur y, des images par la fonction quantile QP des valeurs (i/1000) , i = 1, . . . , 999. Représenter sur
un même graphique le nuage des points (x(i) , yi ) et la première bissectrice.
5. Calculer la distance de Kolmogorov-Smirnov de la loi empirique de
l’échantillon x à la loi P .
Exercice
• Lois
• Lois
• Lois
• Lois
15 Pour les lois de probabilité P suivantes :
binomiales B(30, 0.5) , B(30, 0.1) , B(100, 0.1) .
de Poisson P(30) , P(100) .
de Student T (10) , T (30) , T (100) .
Gamma G(10, 1) , G(30, 1) , G(100, 1) .
1. Simuler un échantillon de taille 100 de la loi P . Soit y l’échantillon
formé des 99 premières statistiques d’ordre des valeurs simulées. Soit
x = (QN (0,1) (i/100)) , i = 1, . . . , 99, le vecteur des centiles de la loi
N (0, 1).
Statistique descriptive
103
2. Calculer x, s2x , y, s2y , cxy , rxy .
3. Calculer les coefficients b
a et bb de la droite de régression linéaire de y
sur x. Représenter le nuage des points (xi , yi ) et la droite de régression
linéaire sur le même graphique.
4. Comparer les valeurs de bb et b
a à l’espérance et à l’écart-type de la loi
P.
5. Représenter sur le même graphique un histogramme de l’échantillon y
et la densité de la loi normale de même espérance et de même variance
que la loi P .
Exercice 16 Choisir deux réels c et d tels que c < d. Simuler un échantillon
de taille 100 de la loi uniforme U(c, d). Soit y l’échantillon des statistiques
d’ordre des valeurs simulées et x = (i/100) , i = 1, . . . , 100.
1. Calculer x, s2x , y, s2y , cxy , rxy .
2. Calculer les coefficients b
a et bb de la droite de régression linéaire de y
sur x. Représenter le nuage des points (xi , yi ) et la droite de régression
linéaire sur le même graphique.
3. Comparer les valeurs de bb et b
a à c et d−c.
Exercice 17 Choisir deux réels µ et σ > 0. Simuler un échantillon de taille
100 de la loi normale N (µ, σ 2 ). Soit y l’échantillon des 99 premières statistiques d’ordre des valeurs simulées. Soit x = (QN (0,1) (i/100)) , i = 1, . . . , 99,
le vecteur des centiles de la loi N (0, 1).
1. Calculer x, s2x , y, s2y , cxy , rxy .
2. Calculer les coefficients b
a et bb de la droite de régression linéaire de y
sur x. Représenter le nuage des points (xi , yi ) et la droite de régression
linéaire sur le même graphique.
3. Comparer les valeurs de bb et b
a à µ et σ.
Exercice 18 Choisir deux réels c > 0 et λ > 0. Simuler un échantillon e de
taille 100 de la loi de Weibull W(c, λ). Soit y = (log(e(i) ) , i = 1, . . . , 99, où
les e(i) sont les 99 premières statistiques d’ordre des valeurs simulées. Soit
x = (log(− log(1 − i/100))) , i = 1, . . . , 99.
1. Calculer x, s2x , y, s2y , cxy , rxy .
2. Calculer les coefficients b
a et bb de la droite de régression linéaire de y
sur x. Représenter le nuage des points (xi , yi ) et la droite de régression
linéaire sur le même graphique.
3. Comparer les valeurs de b
a et bb à (1/c) et (1/c) log(1/λ).
Exercice 19 Choisir trois réels a0 , a1 et a2 . Simuler deux échantillons x(1)
et x(2) de taille 1000 de la loi normale N (0, 100), et un échantillon e de
taille 1000 de la loi normale N (0, 1). Soit y = (yi ) l’échantillon défini pour
(1)
(2)
i = 1, . . . , 100 par yi = a0 + a1 xi + a2 xi + ei .
104
Cahier de Mathématiques Appliquées no 2
1. Calculer les coefficients de la régression linéaire de y sur x(1) et x(2) , et
comparer à a0 , a1 et a2 .
(1)
(2)
2. Représenter le nuage des points (xi , xi , yi ).
Exercice 20 Choisir trois réels a0 , a1 et a2 . Simuler un échantillon x de
taille 1000 de la loi normale N (0, 100), et un échantillon e de taille 1000 de
la loi normale N (0, 1). Soit y = (yi ) l’échantillon défini pour i = 1, . . . , 100
par yi = a0 + a1 xi + a2 x2i + ei .
1. Calculer les coefficients des régressions polynomiales de degrés 2, 3 et
4, et comparer à a0 , a1 et a2 .
2. Représenter le nuage des points (xi , yi ) et la courbe d’équation y =
a0 + a1 x + a2 x2 sur le même graphique.
3. Reprendre les mêmes calculs en choisissant 4 réels a0 , a1 , a2 et a3 pour
l’échantillon y = (yi ) défini par yi = a0 + a1 xi + a2 x2i + a3 x3i + ei .
Exercice 21 Simuler deux échantillons indépendants, m = (mi ) et u =
(ui ), de taille 1000 de la loi de Bernoulli B(1, 0.1). Soit ρ un réel strictement
compris entre 0 et 1. Soit e = (ei ) un échantillon de la loi de Bernoulli
de paramètre ρ. On contruit l’échantillon s de la manière suivante : pour
i = 1, . . . , 1000, si ei = 0 alors si = mi , sinon, si = ui . Répéter les calculs
suivants pour ρ = 0.01, 0.1, 0.5, 0.9, 0.99.
1. Calculer la table de contingence du couple (s, m).
2. Calculer la sensibilité, la spécificité et la valeur positive prédictive empiriques de s pour m.
3. Calculer le rapport de cotes de m par rapport à s.
4. Reprendre les calculs précédents pour la règle de simulation suivante :
si ei = 0 alors si = mi , sinon, si = 1 − mi .
Exercice 22 Simuler deux échantillons indépendants, x = (xi ) et u = (ui ),
de taille 1000 de la loi binomiale B(5, 0.3). Soit ρ un réel strictement compris
entre 0 et 1. Soit e = (ei ) un échantillon de la loi de Bernoulli de paramètre
ρ. On contruit l’échantillon y de la manière suivante : pour i = 1, . . . , 1000,
si ei = 0 alors yi = ui , sinon, yi = xi . Répéter les calculs suivants pour
ρ = 0.01, 0.1, 0.5, 0.9, 0.99.
1. Calculer la table de contingence du couple (x, y).
2. Calculer la table des profils-lignes et des profils-colonnes.
3. Calculer la distance du khi-deux de contingence de cette table.
Statistique descriptive
105
Lois discrètes classiques
Loi
Probabilités
Espérance
Variance
paramètre(s)
support
n+1
2
n2 − 1
12
n ∈ IN∗
1
n
{1, . . . , n}
Bernoulli B(1, p)
1 − p, p
p
p(1 − p)
p ∈]0, 1[
{0, 1}
np
np(1 − p)
1
p
1−p
p2
λ
λ
Uniforme U({1, . . . , n})
Binomiale B(n, p)
n
k
n ∈ IN∗ , p ∈]0, 1[
k ∈ {0, . . . , n}
Géométrique G(p)
p(1 − p)k−1
p ∈]0, 1[
k ∈ IN∗
k
p (1 − p)n−k
λk
k!
k ∈ IN
e−λ
Poisson P(λ)
λ ∈ IR+∗
Hypergéométrique HG(N, m, n)
n ∈ IN∗ , 1 ≤ m, n ≤ N
Binomiale Négative BN (n, p)
n ∈ IN∗ , p ∈]0, 1[
m
k
N −m
n−k
N
n
nm
N
N −n m
n
N −1 N
1−
0 ≤ k ≤ min(m, n)
n+k−1
k
n
p (1 − p)k
k ∈ IN
!
n
n!
=
.
k
k! (n − k)!
n
−n
p
n(1 − p)
p2
m
N
Cahier de Mathématiques Appliquées no 2
106
Lois continues classiques
Loi
Densité
paramètre(s)
support
Uniforme U(a, b)
1
b−a
a ∈ IR , b ∈ IR a < b
x ∈]a, b[
Exponentielle E(λ)
λe−λx
λ ∈ IR+∗
x ∈ IR+∗
Normale N (µ, σ 2 )
σ
−
√1 e
2π
x ∈ IR
Weibull W(a, λ)
aλxa−1 e−λx
a, λ ∈ IR+∗
x ∈ IR+∗
Gamma G(a, λ)
λa
xa−1 e−λx
Γ(a)
a, λ ∈ IR+∗
x ∈ IR+∗
n ∈ IN
n
∗
−
1
√
e
xσ 2π
µ ∈ IR , σ 2 ∈ IR+∗
1
λ2
µ
σ2
1
2
λ− a Γ( a1 + 1) λ− a (Γ( a2 + 1)−
(Γ( a1 + 1))2 )
a
λ
a
λ2
n
2n
a
a+b
ab
(a+b)2 (a+b+1)
+∗
− x)b−1
(log(x)−µ)2
2σ 2
eµ+
n ∈ IN∗
1+
x2
n
− n+1
2
x ∈ IR
Fisher F(n, m)
σ2
2
2
2
e2µ+σ (eσ − 1)
x ∈ IR+∗
Γ( n+1
2 )
√
nπΓ( n
2)
Student T (n)
n
Kx−1+ 2 (m + nx)−
n, m ∈ IN∗
n+m
2
x ∈ IR+∗
+∞
Z
Γ(a) =
√
1
λ
x ∈]0, 1[
Log-Normale LN (µ, σ 2 )
Γ( 12 ) =
(b−a)2
12
x
Γ(a+b) a−1
x
(1
Γ(a)Γ(b)
a, b ∈ IR+∗
b−a
2
x 2 −1 e− 2
x ∈ IR
Béta B(a, b)
a
n
1
2 2 Γ( n
)
2
Variance
(x−µ)2
2σ 2
µ ∈ IR , σ 2 ∈ IR+∗
Khi-deux X 2 (n)
Espérance
e−x xa−1 dx
0
n
n−2
si n > 1
si n > 2
m
m−2
n+m−2
2m2
n (m−2)2 (m−4)
si m > 2
si m > 4
pour a ∈ IR+∗ ,
0
π,
Γ(a) = (a − 1)Γ(a − 1) , a ∈]1, +∞[,
Γ(n) = (n − 1)!, n ∈ IN∗ .
Index
ajustement, 79
par quantiles, 79, 81, 89
ANOVA, 70
bimodale, 72
box plot, 75
caractère, 61
binaire, 64, 92
continu, 62, 78
discret, 62, 78
explicatif, 86, 90
ordinal, 61
qualitatif, 61
quantitatif, 61
centiles, 74
centrer, 64
codage, 61
coefficient
de corrélation, 85
de variation, 66
covariance, 83
déciles, 74
inter-, 75
diagramme
en bâtons, 72
en boîte, 75
dispersion, 66, 75
distance
de Kolmogorov-Smirnov, 82
du khi-deux, 81
du khi-deux de contingence, 96
distribution empirique, 71
droite
de Henry, 89
de régression, 87, 88
écart absolu moyen, 67, 74
écart-type, 66
effectif, 71
erreur quadratique, 67, 86, 91
étendue, 75
fonction
de répartition empirique, 72, 79
quantile empirique, 73
fréquence empirique, 65, 72, 73, 79, 83
Henry
droite de, 89
histogramme, 73, 79, 83
individu, 61
lissage, 65
exponentiel, 65
marginal, 95
médiane, 74
modèle probabiliste, 75
modalité, 61, 71
mode, 72
moindres carrés, 86
moyenne, 64
élaguée, 65
empirique, 64
mobile, 65
multimodale, 72
nuage de points, 83
odds-ratio, 93
population, 61
profil
-colonne, 95
-ligne, 95
QQ-plot, 79, 81
quantiles, 74
quartiles, 74
inter-, 75
rapport de cotes, 92–94
réduire, 69
régression
droite de, 87, 88
linéaire multiple, 91
linéaire simple, 86
non linéaire, 89
polynomiale multiple, 91
polynomiale simple, 91
107
108
résidus, 86
sensibilité, 93
série
chronologique, 62, 65
statistique, 62
spécificité, 93
statistique, 63
statistiques d’ordre, 72
tableau de contingence, 94
unimodale, 72
valeur aberrante, 65
valeur positive prédictive, 92
variabilité, 63, 66, 77
variance, 66
analyse de, 70
expliquée, 70
non biaisée, 69
résiduelle, 70
Cahier de Mathématiques Appliquées no 2
Téléchargement