Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées 20
Chapitre 5
LOI NORMALE ET LOIS DERIVEES
A-LA LOI NORMALE
Présentation
La distribution normale, dite encore de Laplace-Gauss, est pour des raisons qui
apparaîtront plus loin, la plus importante des distributions de probabilité. C’est une
distribution définie sur R , dont la densité dépend des 2 paramètres μ et σ2, qui sont sa
moyenne et sa variance ; l’expression de cette densité, donnée à titre de simple curiosité, est la
suivante :
f(x,
μ
,
σ
2)=1
σ
2
π
exp x
μ
(
)2
2
σ
2
(nous n’aurons jamais besoin dans la suite de cette expression, sauf dans le chapitre sur le
maximum de vraisemblance).
Le graphe de la densité de la loi normale de moyenne nulle et d’écart-type 1, dite loi
normale centrée réduite ou standard, f(x ; 0 ; 1) est représenté ci-dessous ; c’est la fameuse
courbe en cloche ; de façon générale, la courbe est symétrique autour de la moyenne μ et
d’autant plus étalée vers les basses et hautes valeurs de x que la variance σ2 est plus grande.
Densité de la loi normale
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
-4 -2 0 2 4
x
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées 21
Un premier résultat concernant la distribution normale est que si X est N(μ;σ2) (ce
symbole se comprend de lui-même), la variable Y=aX+b, où a et b sont des nombres est aussi
normale, de moyenne aμ+b et de variance a2σ2.
Ce résultat, toute fonction linéaire d’une variable normale est elle-même normale, est
très utile, notamment pour les calculs, car il montre qu’on peut toujours se ramener à la
variable normale centrée réduite. En effet, soit X=N(μ ;σ2) et cherchons la probabilité que X
soit inférieure ou égale à un nombre donné x0 (c’est, rappelons-le, la fonction de répartition de
X). Pr{Xx0}= Pr{
X
μ
σ
x
0
μ
σ
}. Mais Y=
X
μ
σ
a pour moyenne 0 et pour variance 1,
c’est une normale centrée réduite ; la probabilité cherchée est donc Pr{Y<y0} où Y=N(0,1)
et y0=
x
0
σ
.
Calculs numériques sur les lois normales
On peut les effectuer soit à partir de tables numériques, soit, et de façon beaucoup plus
commode, à partir de logiciels.
On trouvera deux tables en annexe : la première fait correspondre la valeur u et la
probabilité π telles que Pr{X<u}=π. On y lit par exemple que Pr{X<1.96}=0.975 = 97.5 %,
ou Pr{X<1}=84.13%, etc… . On a bien sûr, Pr{X> u}=1-π=α; on a coutume de désigner par
le symbole zα la valeur telle que Pr{X>zα}=α. Ainsi, z0.05=1.645, z0.025 =1.96, etc… A cause
de la symétrie de la densité de X autour de 0, la table ne considère que des z positifs.
Supposons que nous cherchions le z correspondant à α=80%. De Pr{X>z0.8}=0.8, on tire
Pr{X<z0.8}=0.2 et on voit que z0.8=-z0.2=-0.841. .De façon générale, zα=-z1−α.
La deuxième table, qui se déduit de la précédente, associe les valeurs ε et α, telles que
Pr{ X>
ε
α
}= α. Par exemple ε0.05=1.96. ε α est toujours positif. On vérifie immédiatement
que, pour α 0.5, zα. Ainsi si X est normale de moyenne μ et de variance σ2, la
probabilité qu’elle tombe dans l’intervalle [μ-1.96σ, μ+1.96σ] est 0.95. Très souvent, on
remplace 1.96 par la valeur approchée 2, et on a alors la règle des 2 écarts-types : une variable
N(μ,σ2) a une probabilité de 95% de tomber dans l’intervalle
μ
±
2
σ
.
Pour ce qui est des logiciels, il existe dans EXCEL plusieurs fonctions permettant
d’effectuer tous les calculs portant sur les lois normales.
La convergence vers la loi normale : le théorème limite central
C’est sans doute le théorème le plus étonnant et le plus utilisé du calcul des probabilités.
Soit X1, X2,…, Xn des variables aléatoires indépendantes de même loi, de moyenne μ et de
variance σ2. Comme la moyenne M des Xi M=
X
1
+
...
+
X
n
n a pour moyenne μ et pour
variance
σ
2
n, la variable
M
μ
σ
2
n
a une moyenne nulle et une variance unité. Le théorème
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées 22
limite central dit que quelle que soit la distribution des Xi, la variable
M
μ
σ
2
n
peut être
approchée, pour n suffisamment grand, par une variable normale. En d’autres termes, si n est
grand la moyenne (ou la somme) de n variables aléatoires indépendantes de même loi
quelconque a une distribution normale.
On comprend dès lors l’importance annoncée de cette distribution. On travaille souvent
sur des moyennes (ou des quantités qui s’y ramènent) et si n est suffisamment grand on va
pouvoir utiliser la distribution normale pour traiter ces quantités. Ainsi, la moyenne de
variables aléatoires indépendantes, ayant la même distribution, a une probabilité .95 de
tomber dans l’intervalle
μ
±1.96
σ
n, quelle que soit la distribution des Xi.
Une application
Soit p la proportion de sujets d’une population qui possèdent un certain caractère. Un
échantillon de taille n est extrait de cette population, sur lequel n0 possèdent le caractère,
conduisant à un pourcentage observé p0. n0 est une variable aléatoire binomiale, p0 est la
moyenne de n variables de Bernoulli. Le théorème central limite dit que si n est grand, la
variable
p
0
p
pq
n
est N(0,1) c’est-à-dire que, par exemple, p0 a une probabilité 95% de tomber
dans l’intervalle p±2pq
n. Cette approximation de la loi binomiale par la loi normale
simplifie beaucoup les calculs numériques. On voit bien que ce n’est qu’une approximation :
p0 ne peut prendre qu’une suite discontinue de valeurs 0, 1
n, 2
n,..., n1
n, 1, alors qu’une
variable normale est continue. Toutefois, le nombre de valeurs possibles de p0 augmente avec
n et devient “presque“ continu.
Conditions d’utilisation
La vitesse de convergence de la distribution de M vers la distribution normale dépend
bien évidemment de la distribution des Xi et de sa « distance » à la normalité. Si les Xi sont
normaux, alors le théorème est vrai pour n=1. Il n’est pas possible de donner des règles
universelles d’utilisation. Si les Xi sont des Bernoulli, distribution très éloignée de la
distribution normale, et si on se contente d’une approximation modérée (mais suffisante dans
la plupart des applications), on peut utiliser l’approximation normale si les produits np et nq
sont tous deux égaux ou supérieurs à 5.
Pour des distributions continues, telles que celles rencontrées en médecine et en
biologie, on admet qu’un effectif de n=30, suffit pour assurer la normalité de la distribution de
la moyenne.
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées 23
Les lois « naturelles »
Il est souvent dit que nombre de distributions naturelles (taille des sujets d’une
population homogène, variables biologiques diverses) sont normales ou proches de la
normalité. On explique ce fait par le théorème limite central (et ses extensions) : si on admet
qu’un phénomène est la résultante d’un très grand nombre d’effets aléatoires indépendants
agissant additivement, et dont aucun n’a un effet prépondérant, alors la résultante doit être à
peu près normale.
De même, si l’on admet que les effets ne sont pas additifs, mais multiplicatifs, c’est le
logarithme de l’effet mesuré X qui doit avoir une distribution à peu près normale. X a alors
une distribution dite lognormale, qui se caractérise par sa dissymétrie. Cette distribution se
rencontre également fréquemment en médecine et biologie.
Toutefois pour être tout à fait complet, on doit dire que la normalité ou la lognormalité
ne doivent pas être considérées comme la règle générale ; on rencontre de nombreuses
exceptions.
B- DISTRIBUTION DU χ2
Définition
Soit X une variable aléatoire distribuée suivant une loi normale centrée réduite (μ=0,
σ2=1). Son carré Y=X2 est une variable aléatoire dont la loi s’appelle distribution du χ2 à 1
degré de liberté (en abrégé d.d.l.).
Soit maintenant n variables normales centrées réduites indépendantes X1, X2,…, Xn. La
variable aléatoire Z= X1
2+X2
2+... +Xn
2suit une loi qui s’appelle distribution du χ2 à n d.d.l.
Cette loi est tabulée. On lit par exemple dans la table que Pr{
χ
3
24.642} =0.20 ou que
Pr{
χ
12
221.03} =0.05 , et on pourrait trouver que
Pr{4.878
χ
4
211.668} =0.30
0.02
=
0.28.
Le lecteur pourra vérifier que les valeurs correspondant à d.d.l.=1 sont les carrés des
valeurs lues dans la table normale (ε) pour les mêmes probabilités : ainsi pour α=0.05,
3.84=1.962 ; ceci correspond évidemment à la définition du χ2 à 1 degré de liberté.
De nombreux logiciels, Excel en particulier, permettent le calcul de la fonction de
répartition et de la fonction inverse de la distribution du χ2.
Propriétés
1) On a le théorème d’additivité suivant, évident à partir de la définition : si Z1 et Z2
suivent indépendamment des lois du χ2 à n1 et n2 d.d.l., leur somme Z=Z1+Z2 suit une loi du
χ2 à n1+n2 d.d.l.
Principes et Méthodes de la Biostatistique
Loi normale et lois dérivées 24
2) Quelle que soit la variable aléatoire X, on a par définition même de la variance
E(X2)=var(X)+{E(X)}2 ; si X est normale centrée réduite, E(X)=0, var(X)=1, donc E(X2)=1.
Comme par définition, X2 suit une loi de χ2 à 1 d.d.l., on en déduit que l’espérance d’un χ2 à
1 d.d.l. est 1. Il en résulte que l’espérance d’un χ2 à n d.d.l. est n. On peut montrer que sa
variance est 2n.
3) Un χ2 à n d.d.l. étant la somme de n variables aléatoires indépendantes, si n est grand,
il est, en vertu du théorème central limite de convergence vers la loi normale, voisin d’une
variable normale de moyenne n et de variance 2n. On peut vérifier ce fait sur la table du χ2 ;
ainsi si n=30, E(χ2)=30 et var(χ2)=60 ; la valeur a telle que Pr{χ2>a}=0.05 s’obtient, si on fait
l’approximation par la loi normale, par a=30+1.645 60 = 42.74, valeur voisine de la valeur
exacte 43.77 donnée par la table. L’approximation est donc très bonne. Une autre, meilleure,
est indiquée au bas de la table : 2
χ
n
2est distribuée normalement avec une moyenne 2n
1.
On pourra vérifier que la valeur fournie par cette approximation est 43.49 très près de 43.77.
Cependant ces approximations n’ont plus qu’un intérêt historique, les logiciels permettant
l’obtention immédiate de résultats exacts.
4) Si X1, X2,…., Xn sont des N(μ ;σ2) indépendantes, la variable aléatoire
V=Xi
μ
σ
2
i
est un χ2 à n d.d.l. ; c’est évident, puisque chacune des variables
X
i
μ
σ
est
normale centrée réduite.
5) Considérons maintenant deux variables X1 et X2 indépendantes, normales de
moyenne μ et de variance σ2 et définissons la variable aléatoire M, moyenne arithmétique de
X1 et X2, M=
X
1+
X
2
2. Cherchons la loi de la variable aléatoire V=X1M
σ
2
+X2M
σ
2
.
Comme X1M=
X
1
X
2
2 et X2M=
X
2
X
1
2, on trouve que V=X1X2
σ
2
2
. Mais X1-X2
est une normale de moyenne nulle et de variance 2 σ2. Alors,
X
1
X
2
σ
2 est une normale centrée
réduite et V suit un χ2 à 1 d.d.l. Ce résultat peut se généraliser : si X1, X2,…., Xn sont des
N(μ ;σ2) indépendantes, et si M est la variable moyenne arithmétique M=
X
1+
X
2+....
+
X
n
n,
la variable aléatoire V=XiM
σ
i
2
a une distribution du χ2 à n-1 d.d.l. La démonstration
n’est pas immédiate, car si les variables Xi-M sont bien normales de moyenne nulle, leur
variance n’est pas 1 et elles ne sont pas indépendantes.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !