Chap.5

Téléchargement

Principes et Méthodes de la Biostatistique

Loi normale et lois dérivées 20

Chapitre 5

LOI NORMALE ET LOIS DERIVEES

A-LA LOI NORMALE

Présentation

La distribution normale, dite encore de Laplace-Gauss, est pour des raisons qui

apparaîtront plus loin, la plus importante des distributions de probabilité. C’est une

distribution définie sur R , dont la densité dépend des 2 paramètres μ et σ2, qui sont sa

moyenne et sa variance ; l’expression de cette densité, donnée à titre de simple curiosité, est la

f(x,

2)=1

exp −x−

(

⎛

⎝

⎜

⎞

⎠

⎟

(nous n’aurons jamais besoin dans la suite de cette expression, sauf dans le chapitre sur le

maximum de vraisemblance).

Le graphe de la densité de la loi normale de moyenne nulle et d’écart-type 1, dite loi

normale centrée réduite ou standard, f(x ; 0 ; 1) est représenté ci-dessous ; c’est la fameuse

courbe en cloche ; de façon générale, la courbe est symétrique autour de la moyenne μ et

d’autant plus étalée vers les basses et hautes valeurs de x que la variance σ2 est plus grande.

Densité de la loi normale

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-4 -2 0 2 4

Principes et Méthodes de la Biostatistique

Loi normale et lois dérivées 21

Un premier résultat concernant la distribution normale est que si X est N(μ;σ2) (ce

symbole se comprend de lui-même), la variable Y=aX+b, où a et b sont des nombres est aussi

normale, de moyenne aμ+b et de variance a2σ2.

Ce résultat, toute fonction linéaire d’une variable normale est elle-même normale, est

très utile, notamment pour les calculs, car il montre qu’on peut toujours se ramener à la

variable normale centrée réduite. En effet, soit X=N(μ ;σ2) et cherchons la probabilité que X

soit inférieure ou égale à un nombre donné x0 (c’est, rappelons-le, la fonction de répartition de

X). Pr{X≤x0}= Pr{

−

≤

0−

}. Mais Y=

−

a pour moyenne 0 et pour variance 1,

c’est une normale centrée réduite ; la probabilité cherchée est donc Pr{Y<y0} où Y=N(0,1)

et y0=

0−

Calculs numériques sur les lois normales

On peut les effectuer soit à partir de tables numériques, soit, et de façon beaucoup plus

commode, à partir de logiciels.

On trouvera deux tables en annexe : la première fait correspondre la valeur u et la

probabilité π telles que Pr{X<u}=π. On y lit par exemple que Pr{X<1.96}=0.975 = 97.5 %,

ou Pr{X<1}=84.13%, etc… . On a bien sûr, Pr{X> u}=1-π=α; on a coutume de désigner par

le symbole zα la valeur telle que Pr{X>zα}=α. Ainsi, z0.05=1.645, z0.025 =1.96, etc… A cause

de la symétrie de la densité de X autour de 0, la table ne considère que des z positifs.

Supposons que nous cherchions le z correspondant à α=80%. De Pr{X>z0.8}=0.8, on tire

Pr{X<z0.8}=0.2 et on voit que z0.8=-z0.2=-0.841. .De façon générale, zα=-z1−α.

La deuxième table, qui se déduit de la précédente, associe les valeurs ε et α, telles que

Pr{ X>

}= α. Par exemple ε0.05=1.96. ε α est toujours positif. On vérifie immédiatement

que, pour α ≤ 0.5, zα=ε2α. Ainsi si X est normale de moyenne μ et de variance σ2, la

probabilité qu’elle tombe dans l’intervalle [μ-1.96σ, μ+1.96σ] est 0.95. Très souvent, on

remplace 1.96 par la valeur approchée 2, et on a alors la règle des 2 écarts-types : une variable

N(μ,σ2) a une probabilité de 95% de tomber dans l’intervalle

Pour ce qui est des logiciels, il existe dans EXCEL plusieurs fonctions permettant

d’effectuer tous les calculs portant sur les lois normales.

La convergence vers la loi normale : le théorème limite central

C’est sans doute le théorème le plus étonnant et le plus utilisé du calcul des probabilités.

Soit X1, X2,…, Xn des variables aléatoires indépendantes de même loi, de moyenne μ et de

variance σ2. Comme la moyenne M des Xi M=

...

n a pour moyenne μ et pour

variance

n, la variable

−

a une moyenne nulle et une variance unité. Le théorème

Principes et Méthodes de la Biostatistique

Loi normale et lois dérivées 22

limite central dit que quelle que soit la distribution des Xi, la variable

−

peut être

approchée, pour n suffisamment grand, par une variable normale. En d’autres termes, si n est

grand la moyenne (ou la somme) de n variables aléatoires indépendantes de même loi

quelconque a une distribution normale.

On comprend dès lors l’importance annoncée de cette distribution. On travaille souvent

sur des moyennes (ou des quantités qui s’y ramènent) et si n est suffisamment grand on va

pouvoir utiliser la distribution normale pour traiter ces quantités. Ainsi, la moyenne de

variables aléatoires indépendantes, ayant la même distribution, a une probabilité .95 de

tomber dans l’intervalle

±1.96

n, quelle que soit la distribution des Xi.

Une application

Soit p la proportion de sujets d’une population qui possèdent un certain caractère. Un

échantillon de taille n est extrait de cette population, sur lequel n0 possèdent le caractère,

conduisant à un pourcentage observé p0. n0 est une variable aléatoire binomiale, p0 est la

moyenne de n variables de Bernoulli. Le théorème central limite dit que si n est grand, la

variable

0−

est N(0,1) c’est-à-dire que, par exemple, p0 a une probabilité 95% de tomber

dans l’intervalle p±2pq

n. Cette approximation de la loi binomiale par la loi normale

simplifie beaucoup les calculs numériques. On voit bien que ce n’est qu’une approximation :

p0 ne peut prendre qu’une suite discontinue de valeurs 0, 1

n, 2

n,..., n−1

n, 1, alors qu’une

variable normale est continue. Toutefois, le nombre de valeurs possibles de p0 augmente avec

n et devient “presque“ continu.

Conditions d’utilisation

La vitesse de convergence de la distribution de M vers la distribution normale dépend

bien évidemment de la distribution des Xi et de sa « distance » à la normalité. Si les Xi sont

normaux, alors le théorème est vrai pour n=1. Il n’est pas possible de donner des règles

universelles d’utilisation. Si les Xi sont des Bernoulli, distribution très éloignée de la

distribution normale, et si on se contente d’une approximation modérée (mais suffisante dans

la plupart des applications), on peut utiliser l’approximation normale si les produits np et nq

sont tous deux égaux ou supérieurs à 5.

Pour des distributions continues, telles que celles rencontrées en médecine et en

biologie, on admet qu’un effectif de n=30, suffit pour assurer la normalité de la distribution de

la moyenne.

Principes et Méthodes de la Biostatistique

Loi normale et lois dérivées 23

Les lois « naturelles »

Il est souvent dit que nombre de distributions naturelles (taille des sujets d’une

population homogène, variables biologiques diverses) sont normales ou proches de la

normalité. On explique ce fait par le théorème limite central (et ses extensions) : si on admet

qu’un phénomène est la résultante d’un très grand nombre d’effets aléatoires indépendants

agissant additivement, et dont aucun n’a un effet prépondérant, alors la résultante doit être à

peu près normale.

De même, si l’on admet que les effets ne sont pas additifs, mais multiplicatifs, c’est le

logarithme de l’effet mesuré X qui doit avoir une distribution à peu près normale. X a alors

une distribution dite lognormale, qui se caractérise par sa dissymétrie. Cette distribution se

rencontre également fréquemment en médecine et biologie.

Toutefois pour être tout à fait complet, on doit dire que la normalité ou la lognormalité

ne doivent pas être considérées comme la règle générale ; on rencontre de nombreuses

exceptions.

B- DISTRIBUTION DU χ2

Définition

Soit X une variable aléatoire distribuée suivant une loi normale centrée réduite (μ=0,

σ2=1). Son carré Y=X2 est une variable aléatoire dont la loi s’appelle distribution du χ2 à 1

degré de liberté (en abrégé d.d.l.).

Soit maintenant n variables normales centrées réduites indépendantes X1, X2,…, Xn. La

variable aléatoire Z= X1

2+X2

2+... +Xn

2suit une loi qui s’appelle distribution du χ2 à n d.d.l.

Cette loi est tabulée. On lit par exemple dans la table que Pr{

2≥4.642} =0.20 ou que

Pr{

2≥21.03} =0.05 , et on pourrait trouver que

Pr{4.878 ≤

2≤11.668} =0.30

−

0.02

0.28.

Le lecteur pourra vérifier que les valeurs correspondant à d.d.l.=1 sont les carrés des

valeurs lues dans la table normale (ε) pour les mêmes probabilités : ainsi pour α=0.05,

3.84=1.962 ; ceci correspond évidemment à la définition du χ2 à 1 degré de liberté.

De nombreux logiciels, Excel en particulier, permettent le calcul de la fonction de

répartition et de la fonction inverse de la distribution du χ2.

Propriétés

1) On a le théorème d’additivité suivant, évident à partir de la définition : si Z1 et Z2

suivent indépendamment des lois du χ2 à n1 et n2 d.d.l., leur somme Z=Z1+Z2 suit une loi du

χ2 à n1+n2 d.d.l.

Principes et Méthodes de la Biostatistique

Loi normale et lois dérivées 24

2) Quelle que soit la variable aléatoire X, on a par définition même de la variance

E(X2)=var(X)+{E(X)}2 ; si X est normale centrée réduite, E(X)=0, var(X)=1, donc E(X2)=1.

Comme par définition, X2 suit une loi de χ2 à 1 d.d.l., on en déduit que l’espérance d’un χ2 à

1 d.d.l. est 1. Il en résulte que l’espérance d’un χ2 à n d.d.l. est n. On peut montrer que sa

variance est 2n.

3) Un χ2 à n d.d.l. étant la somme de n variables aléatoires indépendantes, si n est grand,

il est, en vertu du théorème central limite de convergence vers la loi normale, voisin d’une

variable normale de moyenne n et de variance 2n. On peut vérifier ce fait sur la table du χ2 ;

ainsi si n=30, E(χ2)=30 et var(χ2)=60 ; la valeur a telle que Pr{χ2>a}=0.05 s’obtient, si on fait

l’approximation par la loi normale, par a=30+1.645 60 = 42.74, valeur voisine de la valeur

exacte 43.77 donnée par la table. L’approximation est donc très bonne. Une autre, meilleure,

est indiquée au bas de la table : 2

2est distribuée normalement avec une moyenne 2n

−

On pourra vérifier que la valeur fournie par cette approximation est 43.49 très près de 43.77.

Cependant ces approximations n’ont plus qu’un intérêt historique, les logiciels permettant

l’obtention immédiate de résultats exacts.

4) Si X1, X2,…., Xn sont des N(μ ;σ2) indépendantes, la variable aléatoire

V=Xi−

⎛

⎝

⎜

⎞

⎠

⎟

∑est un χ2 à n d.d.l. ; c’est évident, puisque chacune des variables

i−

est

normale centrée réduite.

5) Considérons maintenant deux variables X1 et X2 indépendantes, normales de

moyenne μ et de variance σ2 et définissons la variable aléatoire M, moyenne arithmétique de

X1 et X2, M=

2. Cherchons la loi de la variable aléatoire V=X1−M

⎛

⎝

⎜

⎞

⎠

⎟

+X2−M

⎛

⎝

⎜

⎞

⎠

⎟

Comme X1−M=

−

2 et X2−M=

−

2, on trouve que V=X1−X2

⎛

⎝

⎜

⎞

⎠

⎟

. Mais X1-X2

est une normale de moyenne nulle et de variance 2 σ2. Alors,

−

2 est une normale centrée

réduite et V suit un χ2 à 1 d.d.l. Ce résultat peut se généraliser : si X1, X2,…., Xn sont des

N(μ ;σ2) indépendantes, et si M est la variable moyenne arithmétique M=

2+....

la variable aléatoire V=Xi−M

⎛

⎝

⎜

⎞

⎠

⎟

∑2

a une distribution du χ2 à n-1 d.d.l. La démonstration

n’est pas immédiate, car si les variables Xi-M sont bien normales de moyenne nulle, leur

variance n’est pas 1 et elles ne sont pas indépendantes.

1 / 11 100%

Documents connexes

Variable aléatoire TS

Feuille de TD 3

Pense-bête Partie I

ExamHLMA406bis Fichier

Théorème central Limite On se place dans une situation d`épreuves

TD4- Probabilités

Probabilités, MATH 424 Feuille de travaux dirigés 7 : feuille

2ème Epreuve de Probabilités Bonne Chance

loi normale

Télécharger - Site Jimdo de mathsguillevic!

6 - CMAP, Polytechnique

Exercice

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Chap.5

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Chap.5

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib