Chap.5

publicité
Principes et Méthodes de la Biostatistique
Chapitre 5
LOI NORMALE ET LOIS DERIVEES
A-LA LOI NORMALE
Présentation
La distribution normale, dite encore de Laplace-Gauss, est pour des raisons qui
apparaîtront plus loin, la plus importante des distributions de probabilité. C’est une
distribution définie sur R , dont la densité dépend des 2 paramètres μ et σ2, qui sont sa
moyenne et sa variance ; l’expression de cette densité, donnée à titre de simple curiosité, est la
suivante :
⎛ (x − μ )2 ⎞
1
2
⎜
⎟
f (x, μ,σ ) =
exp ⎜ −
σ 2π
2σ 2 ⎟⎠
⎝
(nous n’aurons jamais besoin dans la suite de cette expression, sauf dans le chapitre sur le
maximum de vraisemblance).
Le graphe de la densité de la loi normale de moyenne nulle et d’écart-type 1, dite loi
normale centrée réduite ou standard, f(x ; 0 ; 1) est représenté ci-dessous ; c’est la fameuse
courbe en cloche ; de façon générale, la courbe est symétrique autour de la moyenne μ et
d’autant plus étalée vers les basses et hautes valeurs de x que la variance σ2 est plus grande.
Densité de la loi normale
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-4
-2
0
2
4
x
Loi normale et lois dérivées
20
Principes et Méthodes de la Biostatistique
Un premier résultat concernant la distribution normale est que si X est N(μ;σ2) (ce
symbole se comprend de lui-même), la variable Y=aX+b, où a et b sont des nombres est aussi
normale, de moyenne aμ+b et de variance a2σ2.
Ce résultat, toute fonction linéaire d’une variable normale est elle-même normale, est
très utile, notamment pour les calculs, car il montre qu’on peut toujours se ramener à la
variable normale centrée réduite. En effet, soit X=N(μ ;σ2) et cherchons la probabilité que X
soit inférieure ou égale à un nombre donné x0 (c’est, rappelons-le, la fonction de répartition de
X − μ x0 − μ
X −μ
≤
} . Mais Y=
a pour moyenne 0 et pour variance 1,
X). Pr{X≤x0}= Pr{
σ
σ
σ
c’est une normale centrée réduite ; la probabilité cherchée est donc Pr{Y<y0} où Y=N(0,1)
x −μ
et y0 = 0
.
σ
Calculs numériques sur les lois normales
On peut les effectuer soit à partir de tables numériques, soit, et de façon beaucoup plus
commode, à partir de logiciels.
On trouvera deux tables en annexe : la première fait correspondre la valeur u et la
probabilité π telles que Pr{X<u}=π. On y lit par exemple que Pr{X<1.96}=0.975 = 97.5 %,
ou Pr{X<1}=84.13%, etc… . On a bien sûr, Pr{X> u}=1-π=α; on a coutume de désigner par
le symbole zα la valeur telle que Pr{X>zα}=α. Ainsi, z0.05=1.645, z0.025 =1.96, etc… A cause
de la symétrie de la densité de X autour de 0, la table ne considère que des z positifs.
Supposons que nous cherchions le z correspondant à α=80%. De Pr{X>z0.8}=0.8, on tire
Pr{X<z0.8}=0.2 et on voit que z0.8=-z0.2=-0.841. .De façon générale, zα=-z1−α.
La deuxième table, qui se déduit de la précédente, associe les valeurs ε et α, telles que
Pr{ X > ε α }= α. Par exemple ε0.05=1.96. ε α est toujours positif. On vérifie immédiatement
que, pour α ≤ 0.5, zα=ε2α. Ainsi si X est normale de moyenne μ et de variance σ2, la
probabilité qu’elle tombe dans l’intervalle [μ-1.96σ, μ+1.96σ] est 0.95. Très souvent, on
remplace 1.96 par la valeur approchée 2, et on a alors la règle des 2 écarts-types : une variable
N(μ,σ2) a une probabilité de 95% de tomber dans l’intervalle μ ± 2σ .
Pour ce qui est des logiciels, il existe dans EXCEL plusieurs fonctions permettant
d’effectuer tous les calculs portant sur les lois normales.
La convergence vers la loi normale : le théorème limite central
C’est sans doute le théorème le plus étonnant et le plus utilisé du calcul des probabilités.
Soit X1, X2,…, Xn des variables aléatoires indépendantes de même loi, de moyenne μ et de
X + ... + Xn
variance σ2. Comme la moyenne M des Xi M = 1
a pour moyenne μ et pour
n
σ2
M−μ
variance
, la variable
a une moyenne nulle et une variance unité. Le théorème
n
σ2
n
Loi normale et lois dérivées
21
Principes et Méthodes de la Biostatistique
limite central dit que quelle que soit la distribution des Xi, la variable
M−μ
σ2
peut être
n
approchée, pour n suffisamment grand, par une variable normale. En d’autres termes, si n est
grand la moyenne (ou la somme) de n variables aléatoires indépendantes de même loi
quelconque a une distribution normale.
On comprend dès lors l’importance annoncée de cette distribution. On travaille souvent
sur des moyennes (ou des quantités qui s’y ramènent) et si n est suffisamment grand on va
pouvoir utiliser la distribution normale pour traiter ces quantités. Ainsi, la moyenne de
variables aléatoires indépendantes, ayant la même distribution, a une probabilité .95 de
tomber dans l’intervalle μ ± 1.96
σ
n
, quelle que soit la distribution des Xi.
Une application
Soit p la proportion de sujets d’une population qui possèdent un certain caractère. Un
échantillon de taille n est extrait de cette population, sur lequel n0 possèdent le caractère,
conduisant à un pourcentage observé p0. n0 est une variable aléatoire binomiale, p0 est la
moyenne de n variables de Bernoulli. Le théorème central limite dit que si n est grand, la
p −p
variable 0
est N(0,1) c’est-à-dire que, par exemple, p0 a une probabilité 95% de tomber
pq
n
pq
dans l’intervalle p ± 2
. Cette approximation de la loi binomiale par la loi normale
n
simplifie beaucoup les calculs numériques. On voit bien que ce n’est qu’une approximation :
1 2
n−1
p0 ne peut prendre qu’une suite discontinue de valeurs 0, , ,...,
, 1, alors qu’une
n n
n
variable normale est continue. Toutefois, le nombre de valeurs possibles de p0 augmente avec
n et devient “presque“ continu.
Conditions d’utilisation
La vitesse de convergence de la distribution de M vers la distribution normale dépend
bien évidemment de la distribution des Xi et de sa « distance » à la normalité. Si les Xi sont
normaux, alors le théorème est vrai pour n=1. Il n’est pas possible de donner des règles
universelles d’utilisation. Si les Xi sont des Bernoulli, distribution très éloignée de la
distribution normale, et si on se contente d’une approximation modérée (mais suffisante dans
la plupart des applications), on peut utiliser l’approximation normale si les produits np et nq
sont tous deux égaux ou supérieurs à 5.
Pour des distributions continues, telles que celles rencontrées en médecine et en
biologie, on admet qu’un effectif de n=30, suffit pour assurer la normalité de la distribution de
la moyenne.
Loi normale et lois dérivées
22
Principes et Méthodes de la Biostatistique
Les lois « naturelles »
Il est souvent dit que nombre de distributions naturelles (taille des sujets d’une
population homogène, variables biologiques diverses) sont normales ou proches de la
normalité. On explique ce fait par le théorème limite central (et ses extensions) : si on admet
qu’un phénomène est la résultante d’un très grand nombre d’effets aléatoires indépendants
agissant additivement, et dont aucun n’a un effet prépondérant, alors la résultante doit être à
peu près normale.
De même, si l’on admet que les effets ne sont pas additifs, mais multiplicatifs, c’est le
logarithme de l’effet mesuré X qui doit avoir une distribution à peu près normale. X a alors
une distribution dite lognormale, qui se caractérise par sa dissymétrie. Cette distribution se
rencontre également fréquemment en médecine et biologie.
Toutefois pour être tout à fait complet, on doit dire que la normalité ou la lognormalité
ne doivent pas être considérées comme la règle générale ; on rencontre de nombreuses
exceptions.
B- DISTRIBUTION DU χ2
Définition
Soit X une variable aléatoire distribuée suivant une loi normale centrée réduite (μ=0,
σ =1). Son carré Y=X2 est une variable aléatoire dont la loi s’appelle distribution du χ2 à 1
degré de liberté (en abrégé d.d.l.).
2
Soit maintenant n variables normales centrées réduites indépendantes X1, X2,…, Xn. La
variable aléatoire Z= X12 + X22 + ... + Xn2 suit une loi qui s’appelle distribution du χ2 à n d.d.l.
Cette loi est tabulée. On lit par exemple dans la table que Pr{χ 23 ≥ 4.642} = 0.20 ou que
Pr{χ 122 ≥ 21.03} = 0.05 , et on pourrait trouver que
Pr{4.878 ≤ χ 24 ≤ 11.668} = 0.30 − 0.02 = 0.28.
Le lecteur pourra vérifier que les valeurs correspondant à d.d.l.=1 sont les carrés des
valeurs lues dans la table normale (ε) pour les mêmes probabilités : ainsi pour α=0.05,
3.84=1.962 ; ceci correspond évidemment à la définition du χ2 à 1 degré de liberté.
De nombreux logiciels, Excel en particulier, permettent le calcul de la fonction de
répartition et de la fonction inverse de la distribution du χ2.
Propriétés
1) On a le théorème d’additivité suivant, évident à partir de la définition : si Z1 et Z2
suivent indépendamment des lois du χ2 à n1 et n2 d.d.l., leur somme Z=Z1+Z2 suit une loi du
χ2 à n1+n2 d.d.l.
Loi normale et lois dérivées
23
Principes et Méthodes de la Biostatistique
2) Quelle que soit la variable aléatoire X, on a par définition même de la variance
E(X )=var(X)+{E(X)}2 ; si X est normale centrée réduite, E(X)=0, var(X)=1, donc E(X2)=1.
Comme par définition, X2 suit une loi de χ2 à 1 d.d.l., on en déduit que l’espérance d’un χ2 à
1 d.d.l. est 1. Il en résulte que l’espérance d’un χ2 à n d.d.l. est n. On peut montrer que sa
variance est 2n.
2
3) Un χ2 à n d.d.l. étant la somme de n variables aléatoires indépendantes, si n est grand,
il est, en vertu du théorème central limite de convergence vers la loi normale, voisin d’une
variable normale de moyenne n et de variance 2n. On peut vérifier ce fait sur la table du χ2 ;
ainsi si n=30, E(χ2)=30 et var(χ2)=60 ; la valeur a telle que Pr{χ2>a}=0.05 s’obtient, si on fait
l’approximation par la loi normale, par a=30+1.645 60 = 42.74, valeur voisine de la valeur
exacte 43.77 donnée par la table. L’approximation est donc très bonne. Une autre, meilleure,
est indiquée au bas de la table : 2 χ 2n est distribuée normalement avec une moyenne 2 n − 1 .
On pourra vérifier que la valeur fournie par cette approximation est 43.49 très près de 43.77.
Cependant ces approximations n’ont plus qu’un intérêt historique, les logiciels permettant
l’obtention immédiate de résultats exacts.
4) Si X1, X2,…., Xn sont des N(μ ;σ2) indépendantes, la variable aléatoire
⎛ X − μ⎞ 2
X −μ
V = ∑⎜ i
est
⎟ est un χ2 à n d.d.l. ; c’est évident, puisque chacune des variables i
⎝ σ ⎠
σ
i
normale centrée réduite.
5) Considérons maintenant deux variables X1 et X2 indépendantes, normales de
moyenne μ et de variance σ2 et définissons la variable aléatoire M, moyenne arithmétique de
⎛ X1 − M ⎞ 2 ⎛ X 2 − M ⎞ 2
X1 + X 2
X1 et X2, M=
. Cherchons la loi de la variable aléatoire V = ⎜
⎟ +⎜
⎟ .
⎝ σ ⎠ ⎝ σ ⎠
2
⎛ X1 − X2 ⎞ 2
X1 − X2
X 2 − X1
⎟ . Mais X1-X2
et X2 − M =
, on trouve que V = ⎜
Comme X1 − M =
⎝ σ 2 ⎠
2
2
X − X2
est une normale de moyenne nulle et de variance 2 σ2. Alors, 1
est une normale centrée
σ 2
réduite et V suit un χ2 à 1 d.d.l. Ce résultat peut se généraliser : si X1, X2,…., Xn sont des
X + X 2 + .... + Xn
N(μ ;σ2) indépendantes, et si M est la variable moyenne arithmétique M= 1
,
n
⎛ Xi − M ⎞ 2
⎟ a une distribution du χ2 à n-1 d.d.l. La démonstration
la variable aléatoire V = ∑ ⎜
⎝
σ ⎠
i
n’est pas immédiate, car si les variables Xi-M sont bien normales de moyenne nulle, leur
variance n’est pas 1 et elles ne sont pas indépendantes.
Loi normale et lois dérivées
24
Principes et Méthodes de la Biostatistique
C- LA DISTRIBUTION t DE STUDENT
Définition
Soit X une variable normale centrée réduite et Y une variable, indépendante de X, qui
suit une distribution du χ2 à n d.d.l.
X
La distribution de la variable aléatoire T =
est appelée distribution de t à n d.d.l.
Y
n
La raison de l’introduction de cette variable aléatoire plutôt bizarre, apparaîtra plus loin.
Cette distribution est symétrique autour de 0 . Elle est tabulée : on lit par exemple dans
la table que Pr{ t 6 > 1.943} = 0.10, Pr{ t 4 > 2.776} = 0.05 …
On remarquera que quand n croit, la distribution se rapproche de la distribution normale
standard (pour n infini, les valeurs sont celles de la table de la loi normale).
Bien entendu, les logiciels permettent les calculs sur la distribution de t.
Deux résultats
1) Si X1, X2, …, Xn sont n variables normales de moyenne μ et de variance σ2 et
∑i Xi
2
et ∑ (Xi − M ) sont indépendantes. Nous
indépendantes, les variables aléatoires M =
n
i
2
∑ (X i − M ) V σ 2
2
admettrons ce résultat. M et S = i
=
sont donc évidemment indépendants.
n −1
n −1
2) M est normale de moyenne μ et de variance
d’autre part V=(n − 1)
S2
σ2
σ2
M−μ
; σ
est donc centrée réduite ;
n
n
suit une loi du χ2 à n-1 d.d.l. et est indépendante de M. D’après la
définition même de la distribution du t de Student, le rapport
M−μ
σ n
(n − 1) S 2
(n − 1) σ 2
=
M−μ
2
suit une
S
n
loi de t à n-1 degrés de liberté. Le sens concret de ce résultat apparaîtra un peu plus loin.
Loi normale et lois dérivées
25
Principes et Méthodes de la Biostatistique
A SAVOIR
Loi normale :
α
zα
α
2
α
2
εα
Règle des 2 écarts-types : Si X est N(μ; σ 2 ) , X a une probabilité de 95 % d’être compris
entre μ ± 2σ .
∑X
i
Théorème central limite : M =
i
n
est N (μ;
σ2
n
) pour n suffisamment grand, quelle que
soit la distribution des X.
∑ (X
V=
i
− M)
2
σ2
Si S 2 =
∑ (X
− M)
2
i
i
Loi normale et lois dérivées
est un χ2 à n-1 degrés de liberté.
n −1
,
M−μ
S2
n
est un t de Student à n-1 degrés de liberté.
26
Principes et Méthodes de la Biostatistique
Annexe - chapitre 5
Loi normale et lois dérivées
27
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées
28
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées
29
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées
30
Téléchargement