Chapitre 4 : Variables aléatoires `a densité I

publicité
Chapitre 4 : Variables aléatoires à densité
I - Généralités
1. Intégrales généralisées.
a) Généralisée en +∞.
Soit f une fonction continue sur IR. On définit sous réserve d’existence
Z b
la limite limb→+∞
f (t) dt.
Z
+∞
f (t) dt comme
0
0
Exemple : f (t) = exp(−t). On obtient
Z
0
vers 1.
On en conclut que
Z
+∞
b
b
f (t) dt = − exp(−t) 0 = 1 − exp(−b) qui tend
exp(−t) dt = 1.
0
Cela représente l’aire totale sous la courbe de 0 à +∞.
1
. On obtient
Contre exemple : f (t) = √t+1
Z b
√
b
√
f (t) dt = 2 t + 1 0 égal à 2 b + 1 − 2 qui tend vers +∞.
0
Par conséquent, l’intégrale n’existe pas.
Z +∞
f (t) dt qui est sous réserve d’existence
On utilisera plus loin la notation
−∞
Z +∞
Z 0
f (t) dt.
f (t) dt +
−∞
0
b) Généralisée en un point où f possède une limite à gauche infinie.
Soit f une fonction continue sur IR+
f (t) = +∞. On définit sous réserve
∗ telle que limt→0+
Z 1
Z 1
f (t) dt comme la limite lima→0+
f (t) dt.
d’existence
0
a
Z 1
√ 1
√
1
√
f (t) dt = 2 t a égal à 2 − 2 a qui tend vers 2.
Exemple : f (t) = t . On obtient
a Z
1
f (t) dt vaut 2.
Par conséquent, l’intégrale généralisée
0
Cela représente l’aire totale sous la courbe de 0 à 1.
35
Contre exemple : f (t) =
1
t.
On obtient
Z
1
a
1
f (t) dt = ln(t) a égal à − ln(a) qui tend vers
+∞. Par conséquent, l’intégrale n’existe pas.
2. Fonctions continues par morceaux au sens généralisé :
Définition : Il existe un nombre fini (éventuellement nul) de réels a1 < .... < an tels que
f est continue sur ] − ∞, a1 [, .., ]ai, ai+1 [, ..., ]an, +∞[
f possède une limite à droite et à gauche (éventuellement infinies) en chacun des points
ai .
Z +∞
On utilisera plus loin la notation
f (t) dt qui représentera l’aire totale sous la courbe
−∞
de f . Elle se calcule en ajoutant les diverses intégrales généralisées
Z a1
Z +∞
Z ai+1
f (t) dt,
f (t) dt et
f (t) dt.
ai
−∞
an
Exemple fondamental admis
Z +∞
√
exp(−t2 /2) dt = 2π.
On trouve
−∞
3. Densités de probabilité.
♥ Définition : Soit p une fonction continue par morceaux au sens généralisé. p est une
densité de probabilité ssi les deux conditions suivantes sont vérifiées :
a) En tout point t du domaine de définition p(t) ≥ 0.
Z +∞
p(t) dt = 1.
b)
−∞
Remarque : a) est l’analogue du pk ≥ 0 du cas discret.
Pn
La condition de normalisation b) est l’analogue du k=1 pk = 1 du cas discret.
Exemples
♥ Densité uniforme sur un intervalle [a, b] avec a < b.
1
C’est la fonction t −→
1l[a,b] (t).
b−a
♥ Densité exponentielle de paramètre θ > 0.
C’est la fonction t −→ θ exp(−θt)1lIR+ (t).
36
♥ Densité gaussienne centrée réduite.
C’est la fonction
1
t2
t −→ √ exp(− ).
2
2π
Rappel : cette fonction déjà vue dans le chapitre précédent ne possède pas de primitive
simplement calculable.
4. Variables aléatoires à densité.
♥ ♥ Définition et formule fondamentale 4.
Soit p une densité de probabilité. On dit qu’une variable aléatoire X possède la densité de
probabilité p ssi pour tous les réels α ≤ β on a la formule :
IP(α ≤ X ≤ β) =
Z
β
p(t) dt.
α
Conséquence 4.1 : si α = β, on trouve pour tout α, IP(X = α) = 0. Ce qui est
totalement différent de la situation du chapitre II.
Comme [α, β] est la réunion disjointe ]α, β[, {α} et de {β}, on obtient IP(α ≤ X ≤ β) =
IP(α < X < β) + 0 + 0, donc dans ce chapitre, on peut remplacer
R les inégalités larges par
des inégalités strictes. Donc pour tout intervalle I, IP(X ∈ I) = I p(t) dt.
Les variables aléatoires à densité font partie de la famille des variables continues par
opposition aux variables aléatoires discrètes du chapitre 2.
♥ Exemple et définition
On dit que X possède la loi uniforme sur [a, b] avec a < b ssi X possède la densité de
probabilité uniforme sur [a, b].
Z 1.5
1
1
dt = .
Ce qui donne par exemple si a = 0, b = 2, pour I = [1, 1.5], IP(X ∈ I) = 2
4
1
5. Fonction de répartition.
Pour simplifier la présentation des calculs comme dans l’exemple précédent, on se sert de
la fonction de répartition.
♥ Définition : La fonction de répartition de la variable aléatoire X de densité de probabilité p est la fonction de IR dans IR
x −→ IP(X ≤ x) = F (x).
(C’est la même définition qu’au chapitre II).
37
♥ ♥ (Seconde) formule fondamentale 5.1
Si α et β sont deux réels tels que α ≤ β, IP(α ≤ X ≤ β) = F (β) − F (α).
Exemples :
a) Si X est de loi uniforme sur [a, b] avec a < b, on trouve :
si x < a, F (x) = 0,
1
(x − a),
si a ≤ x ≤ b, F (x) =
b−a
si x > b, F (x) = 1.
On trouve bien le résultat du paragraphe précédent, si a = 0 et b = 2, IP(1 ≤ X ≤ 1.5) =
F (1.5) − F (1) = 14 . C’est bien sûr l’aire du rectangle hachuré sous le graphe de la densité
p.
b) Si X est de loi exponentielle de paramètre θ > 0,
pour x < 0, F (x) = 0,
x
pour x ≥ 0, F (x) = − exp(−θt) 0 = 1 − exp(−θx).
c) La fonction de répartition d’une variable aléatoire gaussienne centrée réduite n’est pas
la fonction Φ du chapitre III qui figure dans les tables. Il manque le morceau de −∞ à 0
de surface 12 .
Rx
Donc Φ(x) = 21 + Ψ(x) = −∞ p(t) dt.
Alors Ψ(x) = Φ(x) − Φ(0) = IP(0 ≤ Z ≤ x) si x ≥ 0 et Ψ(x) = IP(x ≤ Z ≤ 0) si x ≤ 0.
6. Propriétés des fonctions de répartition.
Si F est la fonction de répartition d’une variable aléatoire X à densité alors,
• F est croissante (au sens large)
38
• limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1.
• F est continue en tout point.
Sauf aux points à problèmes de p, F est dérivable et F ′ (t) = p(t).
MORALITÉ : ON DÉRIVE LA FONCTION DE RÉPARTITION,
MAIS ON INTÈGRE LA DENSITÉ DE PROBABILITÉ.
7. Méthode des fonctions de répartition
Soient une fonction numérique φ et une variable aléatoire X qui possède une densité de
probabilité p. On définit la variable aléatoire Y = φ(X).
On veut savoir si Y possède une densité de probabilité et la calculer le cas échéant.
Ce problème général dépasse largement le niveau de ce cours. De plus, même si Y possède
une densité de probabilité, il n’y a pas de formule simple pour la trouver. Nous allons nous
contenter d’exposer une méthode, qui repose sur l’utilisation des fonctions de répartition.
Elle permet de traiter un certain nombre d’exemples simples.
Premier exemple. Supposons que φ est une fonction affine x −→ ux + v, u et v étant
deux constantes réelles.
Proposition 7.1. a) si u > 0, Y = uX + v possède la densité de probabilité q telle que
1
x −→ q(t) = p
u
t−v
u
.
b) si u < 0, Y = uX + v possède la densité de probabilité q telle que
1
x −→ q(t) = − p
u
t−v
u
.
c) si u = 0, Y = v variable aléatoire constante ne possède pas de densité de probabilité. Si c’était le cas, d’après le corollaire 4.1 avec a = b = v on aurait la contradiction
IP(Y = v) = 0 = 1.
Preuve du a)
Soit G la fonction de répartition de Y : par définition, pour tout nombre réel G(x) =
IP(Y ≤ x) = IP(uX + v ≤ x).
En raisonnant sur les valeurs numériques des variables aléatoires, on trouve que uX +v ≤ x
x−v
équivaut à X ≤
.
u
x−v
). Posons z = u1 (x − v).
Donc G(x) = IP(X ≤
u
Par définition de la fonction de répartition F de X, on a F (z) = IP(X ≤ z) en appelant z
la variable muette. Finalement IP(Y ≤ x) = G(x) = F ( u1 (x − v)).
On sait qu’en dehors d’un nombre fini de points à problème, la fonction F est dérivable de
dérivée p.
On dérive la composée G des fonctions x −→ z = u1 (x − v) et de z −→ F (z).
39
On trouve G′ (x) = F ′ ( u1 (x − v)) ×
1
u
= p( u1 (x − v)) × u1 .
Par conséquent, le candidat naturel pour être la densité de probabilité de Y est bien la
fonction q de l’énoncé de la proposition.
Remarque. On vérifierait facilement que q est Rune densité de Rprobabilité. En particulier,
+∞
+∞
le changement de variable y = x−v
u montre que −∞ q(t) dt = −∞ p(y) dy = 1. C.Q.F.D
Le cas b) est laissé au lecteur. Il faut néanmoins observer que la fonction φ est maintenant
.
décroissante, de pente u négative. Alors uX + v ≤ x équivaut à X ≥ x−v
u
1
1
1
D’où G(x) = IP(X ≥ u (x − v)) = 1 − IP(X ≤ u (x − v)) = 1 − G(X ≤ u (x − v)) en passant
au complémentaire.
Le −F explique l’apparition du signe moins dans la densité de probabilité. D’ailleurs,
heureusement qu’il y a un signe moins, car une densité de probabilité doit obligatoirement
prendre des valeurs positives ou nulles.
Un autre exemple. Soient φ la fonction x −→ x2 et X une variable aléatoire de loi
N (0, 1).
C’est parti par la même méthode : soit G la fonction de répartition de Y = X 2 , donc par
définition G(x) = IP(X 2 ≤ x).
Il est clair que X 2 ne prend que des valeurs positives, il ne se passera rien d’intéressant
pour x < 0 : IP(X ≤ x) = 0.
√
√
Supposons dorénavant x ≥ 0. On constate que X 2 ≤ x équivaut à − x ≤ X ≤ x.
Z √x
p(t) dt où p est
D’après la formule fondamentale 5.1, cet événement a la probabilité
√
− x
la densité de probabilité gaussienne centrée réduite.
√
√
On obtient donc G(x) = Φ( x) − Φ(− x). Comme Φ′ (t) = p(t) =
dérivant les fonctions composées,
√1
2π
2
exp(− t2 ), en
√ √
√
√
G′ (x) = p( x)( x)′ − p(− x)(− x)′ .
Au total, G′ (x) = 2 ×
√1
2π
exp(− x2 ) ×
1
√
.
2 x
Comme on a pu dériver G en tout point de IR+ , sa dérivée est la densité de probabilité de
X 2 égale à
1
√
exp(−x/2)1lIR+ (x).
2πx
Conclusion : le défaut de cette méthode de dérivation est que souvent les fonctions de
répartition ne sont pas dérivables en tout point. Il est alors conseillé de vérifier que la
densité obtenue est bien d’intégrale 1.
40
II - Espérances et variances.
1. Espérance d’une variable aléatoire à densité.
♥ Définition : sous réserve de l’existence de l’intégrale on pose
Z +∞
IE(X) =
p(t) t dt.
−∞
Pn
C’est l’analogue avec une densité de probabilité de la formule IE(X) =
k=1 pk xk du
chapitre II.
Compément : si X est positive, l’espérance a toujours un sens à condition de la prendre
dans IR+ ∪ {+∞}. Quand l’intégrale diverge, on pose donc IE(X) = +∞.
Si X est de signe quelconque, on ne définit l’espérance que dans le cas où l’intégrale est
absolument convergente. On exige donc que IE(|X|) < +∞ pour définir IE(X).
Exemples de calculs.
a) Soit X de loi uniforme sur [a, b] avec a < b. L’intervalle est de longueur b − a.
1
”La” densité de probabilité est p(t) =
1l[a,b] (t).
−a
Rb +∞
Quand on reporte p(t) dans la formule −∞ p(t) t dt, on s’aperçoit qu’il ne subsiste qu’une
intégrale de a à b puisque p s’annule en dehors de [a, b].
Il reste
IE(X) =
Z
b
p(t) t dt =
a
qui est le milieu de l’intervalle [a, b].
1 b2 − a2
a+b
=
b−a
2
2
b) Soit X de loi exponentielle de paramètre θ.
R +∞
Quand on reporte p(t) = θ exp(−θt)1lIR+ (t) dans la formule −∞ p(t) t dt, on s’aperçoit
qu’il ne subsiste Rqu’une intégrale Rde 0 à l’infini puisque p s’annule sur IR− .
+∞
+∞
θ exp(−θt) t dt.
p(t) t dt = 0
Il reste IE(X) = 0
Une intégration par parties u′ (t) = θ exp(−θt) et v(t) = t donne :
Z +∞
1
IE(X) =
exp(−θt) dt = .
θ
0
2. Propriétés de l’espérance.
Ce sont exactement les mêmes que dans le chapitre II à ceci près que le symbole IE est
défini différemment.
Énonçons maintenant la formule de transfert qui permet le calcul de l’espérance d’une
fonction d’une variable aléatoire X à densité.
♥ 3. Formule de transfert
Énoncé. Soient f une fonction numérique continue et X une variable aléatoire possédant
la densité de probabilité t → p(t). Alors Y = f (X) est une variable aléatoire et son
R +∞
espérance IE(Y ) se calcule par la formule de transfert −∞ p(t)f (t) dt.
41
Exemple : soit X la variable aléatoire du a) et f la fonction carré.
Avec une loi uniforme sur [a, b], on trouve:
Z b
1 2
b3 − a3
a2 + ab + b2
2
IE(X ) =
t dt =
=
(à ne pas retenir !).
3(b − a)
3
a b−a
Attention ! Il ne faut surtout pas élever au carré les probabilités : on voit mal comment
p(t)2 pourrait être encore une densité de probabilité d’intégrale égale à 1.
4. Variance
Le but est de mesurer simplement la dispersion de X autour de son espérance.
♥ Définition.
On appelle (sans modifier la définition par rapport au chapitre
II) variance de X, notée
2
Var(X), le nombre réel positif Var(X) = IE (X − IE(X)) .
On peut donc écrire Var(X) = IE(X̃ 2 ) où X̃ = X − IE(X).
En pratique, on utilise la formule de Koenigs
var(X) = IE(X 2 ) − IE(X)2 .
Exemple : soit X possédant une loi uniforme sur [a, b].
D’après le calcul du paragraphe 3. et la formule de Koenigs,
2
a2 + ab + b2
4(a2 + ab + b2 ) − 3(a2 + 2ab + b2 )
a+b
(b − a)2
var(X) =
=
−
=
3
2
12
12
(à retenir !).
Vérification : quand a = b, la variable aléatoire X est constante, donc sa variance est nulle.
III- Les lois à densité les plus usuelles.
1. La loi uniforme sur un intervalle [a, b] avec a < b.
Voir plus haut (I. 3, exemple).
Quand a = b, la densité n’est plus définie. On doit interpréter cette variable aléatoire
comme une variable constante (= a = b) qui ne possède pas de densité de probabilité.
2. La loi exponentielle de paramètre θ > 0.
Définition. On dit qu’une variable aléatoire X suit la loi exponentielle de paramètre θ ssi
X possède la densité de probabilité t −→ θ exp(−θt)1lIR+ (t).
Cette loi sert souvent à modéliser les temps d’attente (prenant des valeurs continues, à
la différence de la loi géométrique qui modélise des attentes de longueur entière). On fait
surtout ce choix à cause de la propriété d’absence de mémoire (propriété c) plus loin).
Propriétés de la loi exponentielle de paramètre θ > 0 :
Soit X possédant la densité de probabilité précédente. Alors,
42
a) IE(X) = 1θ , (preuve laissée au lecteur en utilisant une intégration par parties).
b) var(X) = θ12 , (preuve laissée au lecteur en utilisant une intégration par parties). On
trouve IE(X 2 ) = θ22 , donc par la formule de Koenigs, var(X) = θ22 − θ12 .
c) X n’a pas de mémoire.
Supposons par exemple que le temps d’attente d’un bus exprimée en minutes suive une loi
exponentielle dont l’espérance est 10.
Imaginons un malheureux client qui a déjà attendu en vain son bus 15mn. Sachant cela,
quelle est la probabilité conditionnelle qu’il doive encore attendre au moins 5 minutes?
L’événement B = { attendre en vain au moins 15mn } est {X > 15}, alors que A est
1
{X > 20} en ajoutant 15 et 5. D’après a), le paramètre est identifié : θ = 10
.
IP(A∩B)
IP(A)
La probabilité conditionnelle est par définition IP(B) = IP(B) .
En utilisant la formule fondamentale 4, pour tout réel positif y,
Z +∞
IP(X > y) =
θ exp(−θt) dt = 1 − F (y) = exp(−θy)
y
si F est la fonction de répartition.
En substituant y = 20 et y = 15, après simplification par exp(−15θ) dans le rapport, on
trouve la probabilité conditionnelle exp(−5θ) qui est la même chose que si on ne conditionnait pas par B. On en conclut que le bus n’a pas conservé en mémoire qu’un client a
déjà attendu.
Plus généralement, pour tous les réels t et h strictement positifs, la probabilité conditionnelle IP(X > t + h /X > t) = IP(X > h).
Rq : les seules lois à densité qui vérifient cette propriété sont les lois exponentielles.
3. Loi gaussienne N (m, σ 2 ).
Définition : on dit qu’une variable aléatoire X possède la loi gaussienne (ou normale)
N (m, σ 2 ) ssi X possède la densité de probabilité
1
(t − m)2
.
t −→ √
exp −
2σ 2
2πσ 2
Le paramètre m s’appelle la moyenne (c’est en fait l’espérance), le paramètre strictement
positif σ est l’écart-type.
Loi gaussienne centrée réduite N (0, 1)
Elle correspond au cas particulier m = 0 et σ = 1. Sa densité de probabilité p est
1
t −→ p(t) = √ exp(−t2 /2).
2π
Rappelons l’autre définition possible :
X −m
suit la loi N (0, 1).
X suit la loi N (m, σ 2 ) ssi Z =
σ
Par conséquent, toute variable aléatoire X de loi N (m, σ 2 ) peut s’écrire sous la forme
m + σZ avec Z de loi N (0, 1).
43
Vérification de la cohérence des définitions
La proposition 7.1. permet de retrouver la densité de laloi N (m, σ 2 ) à partir de la densité
.
de probabilité p de la loi N (0, 1) : c’est t −→ σ1 p t−m
σ
♥ Théorème 3.1. Si X possède la loi N (m, σ 2 ), alors IE(X) = m et Var(X) = σ 2 .
Preuve : Commençons par établir ce résultat dans le cas centré et réduit.
Calcul de IE(Z)
2
2
Comme la dérivée de t −→ exp(− t2 ) est −t exp(− t2 ), on trouve
Z b
b
1 tp(t) dt = √
− exp(−t2 /2) 0 qui tend vers √12π × 1 quand b croı̂t vers +∞.
2π
0
Z +∞
1
tp(t) dt = √ .
Donc
2π
0
Z +∞
Z 0
−1
tp(t) dt = 0.
De même,
tp(t) dt = √ . En ajoutant les deux morceaux,
2π
−∞
−∞
À condition d’admettre l’existence de l’intégrale de −∞ à +∞, on pouvait prévoir ce
résultat par imparité de t −→ t p(t).
Calcul de Var(Z)
2
Attention, il n’existe pas de primitive simple de t −→ t2 exp(− t2 ). Grâce à une intégration
par parties,
Z b
Z b
2
t p(t) dt =
p(t) dt.
0
On en déduit que
2
IE(Z ) =
Z
0
+∞
2
t p(t) dt =
−∞
Z
+∞
p(t) dt = 1.
−∞
D’après la formule de Koenigs, var(Z) = IE(Z 2 ) − 02 = 1.
Cas général
On déduit immédiatement de IE(Z) = 0 et Var(Z) = 1 que IE(X) = IE(m + σZ) = m + 0 =
m (par linéarité) et Var(m + σZ) = Var(σZ) = σ 2 Var(Z). C.Q.F.D.
♥ Stabilité de la loi normale (admise). Théorème 3.2. Soient X et Y des variables
aléatoires indépendantes possédant respectivement les lois N (m1 , σ12 ) et N (m2 , σ22 ). Alors
X + Y possède la loi N (m1 + m2 , σ12 + σ22 ).
Conseil. Se souvenir que X + Y possède une loi normale. Il suffit alors d’identifier
l’espérance et la variance.
4. Complément : la loi de Cauchy.
Définition. On dit qu’une variable aléatoire X possède la loi de Cauchy ssi sa densité de
probabilité est
1
.
t −→ p(t) =
π(1 + t2 )
44
On peut montrer qu’elle ne possède pas d’espérance, puisque
Z
b
t p(t) dt =
0
1
b
ln(1 + t2 ) 0
2π
qui tend vers l’infini quand b croı̂t vers l’infini.
***********
Tableau des lois usuelles
nom
symbole
valeurs dans
nature
espérance
variance
Binômiale
B(n, p)
{0, ..., n}
discrète
np
npq
Poisson
P(λ)
IN
discrète
λ
λ
Géométrique
G∗ (p)
IN∗
discrète
1
p
q
p2
Gaussienne
N (m, σ 2 )
IR
continue
m
σ2
Uniforme
U(a, b)
[a, b]
continue
a+b
2
(b−a)2
12
Exponentielle
Exp(θ)
IR+
continue
1
θ
1
θ2
Attention : on parle aussi de la loi uniforme sur un ensemble fini {x1 , ..., xn} à ne pas
confondre avec la loi uniforme sur un intervalle de longueur strictement positive.
45
Complément : vecteurs aléatoires à densité, hors-programme en 2010.
Il s’agit de définir des objets (vecteurs de IRd ) aléatoires de dimension d > 1.
La définition naturelle de ces objets utilise la théorie de l’intégrale de Lebesgue, enseignée
en licence de mathématiques. Dans le cadre restreint de l’intégrale de Riemann (celle du
Deug, et la seule au programme du CAPES), des définitions rigoureuses sont vraiment
peu satisfaisantes et leur utilisation infiniment plus délicate qu’en dimension d = 1. En
particulier la notion de fonction continue par morceaux devient peu maniable. Pour intervertir l’ordre de calcul des intégrales multiples (en appliquant le théorème de Fubini), il
faut supposer que la densité de probabilité est assez régulière.
Plutôt que de chercher à appliquer une version étendue de la théorie de l’intégrale de
Riemann non généralisée multidimensionnelle exposée par exemple dans le cours de mathématiques spéciales Ramis, Deschamps, Odoux tome 4, chapitre 6, nous resterons très
vague sur le concept de fonction intégrable ” avec peu de discontinuités ”. Pour simplifier
les notations, seul le cas d = 2 est abordé ici. Un pavé est un rectangle de la forme
[a, b] × [a′ , b′ ] avec a ≤ b et a′ ≤ b′ .
1. Densités de probabilité et vecteurs aléatoires.
Définition. On appelle densité de probabilité sur IRd toute fonction positive p définie sur
un ensemble D ⊂ IRd assez régulier. On prolonge p sur le complémentaire en lui affectant
la valeur zéro. Alors p est une densité ssi la restriction
de p à tout pavé (fermé borné) est
R
Riemann intégrable et si l’intégrale généralisée D p(x, y)dxdy vaut 1.
Exemples : a) D = [a, b] × [a′ , b′ ] avec a < b et a′ < b′ . D est un pavé de surface S =
(b − a)(b′ − a′ ) > 0. La densité uniforme sur D vaut S1 dans D et 0 en dehors.
b) D = IR2 et p(x, y) =
1
2π
2
exp(− x
+y 2
).
2
c) D est le triangle {(x, y)/0 < x < y < 1} de surface 12 . La densité uniforme sur ce triangle
vaut 2 dedans et 0 dehors.
On dit qu’un vecteur aléatoire
V = (X, Y ) possède ”la” densité de probabilité p ssi pour
R
tout pavé A, IP(V ∈ A) = A p(x, y)dxdy.
R b R b′
Cela signifie que IP(a ≤ X ≤ b & a′ ≤ Y ≤ b′ ) = a a′ p(x, y) dxdy. C’est donc une
extension de la définition d’une va. réelle à densité du chapitre 4.
Remarque 1 : si V possède une densité, alors pour toute valeur (x, y) IP(V = (x, y)) = 0
puisque les points ont une surface nulle.
Ceci explique les guillemets dans ”la” densité. Celle-ci n’est pas unique, on peut la modifier
par exemple en un nombre fini de points, ou plus généralement sur une partie quarrable
de surface 0.
Remarque 2 : les deux composantes du vecteur V sont des variables aléatoires réelles.
46
2. Densités marginales.
Théorème : si V est un vecteur aléatoire à valeurs dans IR2 , ses deux composantes X et
Y possèdent des densités deRprobabilité.
X possède la densité x −→ IR p(x, y) dy appelée la première densité marginale.
R
Y possède la densité y −→ IR p(x, y) dx appelée la seconde densité marginale.
Remarque : il s’agit de la version continue des additions dans les tableaux des lois discrètes
du chapitre 2.
Exemples : la première densité marginale de la loi uniforme sur le rectangle non aplati
D = [a, b] × [a′ , b′ ] est la densité uniforme sur [a, b].
La première densité marginale de la loi uniforme sur le triangle de l’ex c) est x −→
2(1 − x)1l[0,1] (x).
Remarque : chaque densité marginale définit une loi de probabilité sur IR appelée loi
marginale.
3. Indépendance.
Définition. On rappelle que deux variables aléatoires réelles définies sur le même univers
sont indépendantes ssi pour tout a ≤ b et a′ ≤ b′ ,
IP(a ≤ X ≤ b & a′ ≤ Y ≤ b′ ) = IP(a ≤ X ≤ b)IP(a′ ≤ Y ≤ b′ )
c’est à dire que les événements {a ≤ X ≤ b} et {a′ ≤ Y ≤ b′ } sont indépendants.
Théorème : les composantes X et Y d’un vecteur aléatoire de densité p sont indépendantes ssi le produit des densités marginales est une densité de p.
Exemple : la densité de l’ex. b) est le produit de deux densités gaussiennes centrées réduites.
Par contre, les deux composantes de l’ex. c) ne sont pas indépendantes.
4. Formule de transfert.
Théorème : si f est une fonction continue et bornée, alors
Z
p(x, y)f (x, y) dxdy.
IE(f (V )) =
IR2
5. Produit de convolution de deux densités
Théorème et définition. Si X et Y sont deux variables aléatoires indépendantes qui
possèdent respectivement les densités p1 et p2 , alors X + Y possède la densité
Z +∞
p1 (x)p2 (t − x) dx.
t −→
−∞
Par symétrie, cette densité s’écrit aussi t −→
Z
+∞
−∞
p1 (t − x)p2 (x) dx.
Cette fonction de t s’appelle le produit de convolution de p1 et p2 .
47
Chapitre 5 : statistique paramétrique
I - Estimateurs
Cadre de la statistique.
On suppose qu’un certain phénomène suit une loi de probabilité µ inconnue. En statistique paramétrique, on connaı̂t partiellement la loi, à un ou plusieurs paramètres près, par
exemple on sait que c’est une loi exponentielle Exp(λ) dont la paramètre est inconnu, une
loi gaussienne N (m, σ 2 ) avec m et σ inconnus, une loi de Bernoulli B(1, p) avec p inconnu.
Pour avoir une certitude (partielle et seulement vraie avec une certaine probabilité) on
réalise un certain nombre n d’expériences aléatoires. D’où la
Définition. On appelle n échantillon de loi parente µ la donnée de n variables aléatoires
indépendantes de même loi µ, notées X1 , ..., Xn dans tout ce chapitre.
Interprétation : ces n variables aléatoires représentent par exemple des essais indépendants,
des mesures successives...Plus ils sont nombreux, meilleure sera la connaissance du paramètre inconnu.
On note x1 , ..., xn les n valeurs expérimentales observées, c’est à dire les réalisations
X1 (ω), ..., Xn(ω) des n variables aléatoires X1 , ..., Xn.
Les problèmes essentiels de la statistique sont de répondre à la vue des valeurs x1 , ..., xn à
une des questions suivantes :
a) Estimer un paramètre inconnu par un intervalle de confiance (ou à défaut par une valeur
unique).
b) Étant donné un intervalle de paramètres, décider si sa véritable valeur est dedans (avec
une probabilité plus grande qu’un seuil donné).
La question a) est un problème d’estimation alors que b) est un test d’hypothèse.
Définition. On appelle estimateur d’un paramètre réel θ une suite de variables aléatoires
Tn (X1 , ..., Xn) (n ≥ 1) où chaque Tn (X1 , ..., Xn) est une variable aléatoire fonction du n
échantillon X1 , ..., Xn.
Rq : un estimateur de θ n’a d’intérêt que si Tn converge vers θ quand n tend vers l’infini.
Pn
Pn
Exemple : X n = n1 i=1 Xi appelé moyenne empirique. Donc X n (ω) = n1 i=1 xi ,
souvent notée x quand il n’y a pas d’ambiguı̈té sur n.
Bien faire la différence entre la variable aléatoire X n et sa valeur expérimentale le
jour de l’expérience X n (ω).
Comment faire pour estimer une variance?
!
n
1 X
♥ Si on connaı̂t l’espérance m : Vn :=
(Xi − m)2 .
n i=1
♥ Si on m est inconnu : on se sert souvent de la variance d’échantilonnage
1
Σ2n =
n−1
n
X
i=1
48
(Xi − X n )2
!
dont la valeur expérimentale est le carré du σ(n−1) des machines Casio (n − 1 réfère au
dénominateur et pas au nombre d’épreuves qui est n).
♥
Définition. On appelle écart-type d’échantilonnage la racine
v carrée de la variance
u
n
u 1 X
t
(xi − x)2 .
d’échantilonnage. Sa valeur expérimentale est souvent notée s =
n − 1 i=1
On conseille d’utiliser une machine pour calculer ces quantités dans le cas où l’énoncé ne
donne que la liste des n valeurs numériques x1 , ..., xn. Si on tient à faire le calcul à la main,
on peut se servir de l’analogue du théorème de Koenigs :
!
n
n
X
X
2
(xi − x)
=
x2i − nx2 .
i=1
Alors s =
sP
i=1
n
i=1
x2i − nx2
.
n−1
Remarque. Il existe d’autres notations que s et Vn dans les livres.
n
X
1
Un autre estimateur de la variance. Il s’agit de σˆ2 :=
n
expérimentale est le carré du σ(n) des machines Casio :
i=1
2
σ(n)
(Xi − Xn )2
1
=
n
II - Cas des échantillons gaussiens
n
X
i=1
!
dont la valeur
!
(xi − X n (ω))2 .
1. Nouvelles lois de probabilités utilisées en statistique
a) Loi du χ2 à d degrés de liberté (d ∈ IN∗ ).
♥ Définition. On dit que la variable aléatoire C à la loi du χ2 à d degrés de liberté ssi
C est de la forme
d
X
C=
Ni2
i=1
où N1 , . . . Nd sont d variables aléatoires indépendantes de même loi gaussienne centrée
réduite.
Notation pour le nom de la loi : χ2d à l’anglo-saxonne
français).
hh
chi square
ii
ou khi deux (en
Exemple : si d = 1, C peut se mettre sous la forme Z 2 où Z est de loi N (0, 1). On peut
montrer par la méthode des fonctions de répartition que C a ici la densité de probabilité
1
exp(−t/2).
sur IR+ √
2πt
Propriétés de cette loi :
(i) Elle possède une densité de probabilité sur IR+ .
49
d
(ii) Cette densité est proportionnelle à t 2 −1 exp(−t/2).
Dessin du graphe : bosse sur IR+ , avec un maximum atteint en un point unique d − 2
(calcul facile à partir de (ii) ). Si d est assez grand, la demi-tangente en 0 est horizontale.
(iii) L’espérance de C est d (par linéarité).
De même que pour les densités normales, la fonction de répartition n’a pas d’expression
simple, c’est une intégrale non explicite puisque on ne connaı̂t pas de primitive simple. On
se sert donc d’une table ou d’une calculatrice.
Utilisation de la table : elle donne pour 1 ≤ d = n ≤ 30 et pour un nombre limité de
réels α des valeurs approchées des nombres b tels que IP(C ≤ b) = α.
Voir par exemple que la colonne correspondant à α = 0.5 est remplie de nombres de plus
en plus proches de d quand d croı̂t.
Conseil. Comparer les valeurs lues avec d.
b) Loi de Student à d degrés de liberté (d ∈ IN∗ ).
bf Définition. On dit qu’une variable aléatoire T à la loi de Student à d degrés de liberté
X
ssi T peut se mettre sous la forme q où X est une va. de loi N (0, 1) et Y une autre va.
Y
d
indépendante de loi du khi deux à d degrés de liberté (à ne pas retenir).
Propriétés de cette loi :
(i) Elle possède une densité de probabilité sur IR.
−(d+1)/2
t2
(ii) Cette densité (paire) est proportionnelle à 1 +
.
d
Exemple : si d = 1, c’est une loi de Cauchy.
(ii) Quand d croı̂t vers +∞, cette densité converge vers la densité gaussienne centrée
réduite.
En effet, limd→∞ 1 +
t2
d
−(d+1)/2
= exp(− 12 t2 ).
♥ Retenir Une loi de Student avec un nombre infini de degrés de liberté est une loi
N (0, 1).
Dessin du graphe : analogue à celui d’une densité gaussienne, mais plus étalé, de moins en
moins quand d augmente.
50
Ici la fonction
√ de répartition n’a pas d’expression très simple, bien que le changement de
variable t = d tan(θ) conduise à un calcul possible. (D’ailleurs ce n’est pas un hasard si
la fonction de répartition d’une densité de Cauchy contient la fonction arctangente). On
se sert donc en pratique d’une table ou d’une calculatrice.
Utilisation de la table :
Elle donne pour 1 ≤ d = n ≤ 30 ou d ∈ {30, 40, 60, 120, ∞} et pour un nombre limité de
réels α des valeurs approchées des nombres b tels que IP(|T | ≥ b) = α.
Cette formule est d’ailleurs rappelée en haut de la table.
En particulier la ligne d = ∞ peut servir à rechercher des antécédents de la fonction de
répartition Φ d’une loi N (0, 1).
Exemple : cherchons a tel que Φ(a) = IP(Z ≤ a) ≈ 0, 95.
Par passage au complémentaire, IP(Z ≥ a) ≈ 0, 05 puis par symétrie, on a alors IP(|Z| ≥
a) ≈ 0, 10. À l’intersection des lignes ∞ et des colonnes 0, 10 on trouve le fameux 1, 645.
2. Les quatre formules fondamentales
Soit (Xj )1≤j≤n un échantillon de taille n dont la variable aléatoire parente est distribuée
suivant une loi normale N (m, σ 2 ).
On note respectivement X n et Σ2n la moyenne empirique et la variance d’échantilonnage
de cet échantillon. Alors :
√
√
n
n
Xn − m
suit la loi N (0, 1)
σ
Xn − m
suit la loi de Student à n − 1 degrés de liberté.
Σn
2
n X
Xj − m
suit la loi du χ2 à n degrés de liberté.
σ
j=1
2
n X
Xj − X n
suit la loi du χ2 à n − 1 degrés de liberté.
σ
j=1
F1
F2
F3
F4
On peut démontrer facilement F1 et F3 , les deux autres sont admises.
Preuve de F1 .
D’après le théorème de stabilité des variables aléatoires gaussiennes indépendantes, Sn =
Pn
√ X n −m
de la
n
j=1 Xj et donc X n sont des variables aléatoires gaussiennes. Alors
σ
forme aXn + b est également une va gaussienne dont il suffit d’identifier l’espérance et
l’écart-type.
Preuve de F3 .
Il suffit de remarquer que Nj =
Xj −m
σ
suit une loi N (0, 1).
Remarque 1 (lien avec les estimateurs) :
La quantité C qui figure dans F3 est n Vσn2 .
51
Σ2
La quantité C qui figure dans F4 est (n − 1) σn2 .
Remarque 2 : ces formules étant exactes, il est possible de s’en servir pour rechercher des
intervalles même quand n est petit.
3. intervalles (bilatères) pour m
On se sert des formules F1 et F2 qui contiennent m. D’autre part, il faut retenir que
l’estimateur naturel pour m est X n , ce qui explique que la formule F3 qui pourrait être
utilisée (car elle contient aussi m) donne de très mauvais résultats.
Application numérique : trouver un intervalle de confiance pour m au niveau 95% dans le
cas n = 25, X 25 (ω) = 8.
a) Cas où σ n’est pas connu. On donne en plus s2 = 10 (par exemple). D’après la formule
F2 ,
√ X 25 − m
suit la loi de Student à 24 degrés de liberté.
T = 25
Σ25
D’après la table, IP(|T | ≥ 2, 064) ≈ 0, 05. Donc, au vu de l’expérience quiqdonne x =
√
X 25 (ω) = 8 et s = 10, avec une probabilité plus grande que 0.95, |8 − m| ≤ 10
25 × 2, 064.
q
q
10
; x + 2, 064 25
] ≈ [6.69; 9.31].
On obtient alors l’intervalle de confiance I = [x − 2, 064 10
25
b) Cas où σ est connu. On donne ici σ = 3 (par exemple).
√ X 25 − m
D’après la formule F1 , Z= 25
suit la loi gaussienne N (0, 1).
σ
D’après la table de la loi de Student avec n = ∞, avec une probabilité plus grande que
0,95, |Z| ≤ 1, 960. Donc avec une probabilité plus grande que 0.95, |8 − m| ≤ √325 × 1, 960.
On obtient alors l’intervalle de confiance I = [x − 1, 960 × 53 ; x + 1, 960 × 53 ] ≈ [6.82; 9.18].
4. intervalles bilatères pour l’écart-type σ
On se sert maintenant des formules F3 et F4 qui sont liées à des estimateurs naturels de
la variance, donc de sa racine carrée σ.
Définition on appelle intervalle de confiance bilatère un intervalle comportant deux
bornes finies (intéressantes).
Application numérique : trouver un intervalle de confiance bilatère pour σ au niveau 90%
dans le cas n = 10.
52
a) Cas où m est connu. On donne V10 (ω) = 4.
2
D’après la formule F3 , C = 10 Vσ10
à 10 degrés de liberté. D’après la table
2 suit la loi du χ
(colonne 0.05 pour le morceau d’aire à gauche et colonne 0.95 pour le morceau d’aire à
droite),
q IP(3, 94 ≤ C ≤ 18, 3) ≈ 0, 90. On en tire alors que dans au moins 90% des cas,
σ=
10∗4
C
appartient à ]1.47 ; 3.19[.
p
Remarquer qu’ici l’intervalle de confiance, bien que contenant V10 (ω), n’y est pas centré.
En fait, on divise la surface extrémale de 10% en deux par habitude puisque les tables ne
contiennent qu’un nombre limité de niveaux.
b) Cas où m n’est pas connu. On donne s2 = 5.
Σ2
La seule différence avec le a) qui précède est qu’on se sert de la formule F4 , 9 σ10
2 suit la loi
2
du χ à 9 degrés de liberté. Comme pour d = 9, IP(3, 33 ≤ C ≤ 16, 9) ≈ 0, 90, on obtient
l’intervalle ]1.63; 3.68[.
5. intervalles unilatères pour l’écart-type σ
Contrairement au paragraphe précédent où on demande un intervalle comportant deux
bornes finies (intéressantes) on peut considérer un autre type d’intervalles de confiance :
les intervalles unilatères de la forme ]0, c[ (se souvenir que σ est positif ! ).
Le cas des intervalles [c, +∞] est laissé au lecteur car il est beaucoup moins utilisé en
pratique (par manque d’intérêt statistique).
Application numérique : trouver un intervalle de confiance unilatère pour σ au niveau 90%
dans le cas n = 10.
a) Cas où m est connu. On donne V10 (ω) = 4.
2
D’après la formule F3 , 10 Vσ10
à 10 degrés de liberté. Comme on veut que
2 suit la loi du χ
10V10
σ grand soit rare, on recherche C = σ2 petit dans 10% des cas. D’après la colonne 0,10
on trouve IP(C ≤ 4, 87) ≈ 0, 10. Donc dans moins de 10% des cas, σ402 est ≤ 4, 87, ce qui
q
40
. On trouve l’intervalle de confiance ]0; 2.87[.
implique que pour 90% des cas, σ ≤ 4,87
b) Cas où m n’est pas connu. On donne s2 = 5.
Σ2 0
La seule différence avec le a) qui précède est qu’on se sert de la formule F4 , 9 σ12 suit
la loi du χ2 à 9 degrés de liberté. Comme pour d = 9 IP(C ≤ 4, 17) ≈ 0.10, on trouve
maintenant l’intervalle de confiance ]0, 3, 29[.
53
Remarquons que cet intervalle est plus grand que celui du a) (même si Σ2n et Vn étaient
égaux) parce-que la loi à 10 degrés a tendance à donner des valeurs plus grandes que la loi
à 9 degrés (ici le 4,87 est plus grand que 4,17).
6. Résumé
Méthode pour trouver un intervalle de confiance dans le cas d’un échantillon gaussien.
a) Lire l’énoncé pour savoir si l’intervalle de confiance porte sur m, σ voire même σ 2 .
Regarder si l’autre paramètre est lui aussi inconnu.
b) Sélectionner la seule formule Fk adéquate ( F1 ou F2 pour m, F3 ou F4 pour σ ). On
dispose alors d’une variable aléatoire Z, T ou bien C.
c) Construire au moyen d’une table un intervalle qui contient la variable aléatoire du b)
avec une probabilité plus grande que ce qui est demandé.
d) En déduire l’intervalle de confiance demandé en exprimant le paramètre inconnu en
fonction de la variable aléatoire.
54
Chapitre 6 : Tests
I - Principe général
On s’interroge sur la validité d’une hypothèse H0 qu’on appelle l’hypothèse nulle.
Sa négation s’appelle l’alternative (ou plus généralement l’alternative peut être toute
hypothèse H1 contredisant H0 ). On suppose H0 vraie et on examine s’il est possible
d’en déduire que les résultats expérimentaux sont anormaux, parce que leur probabilité
d’apparition en supposant H0 est faible.
Dans le cas contraire, on dit que H0 n’est pas rejetée (plutôt qu’acceptée).
Les deux types d’erreurs.
Définition. On appelle erreur de type 1 (ou I) celle qui consiste à rejeter à tort H0 . On
appelle erreur de type 2 (ou II) celle qui consiste à rejeter à tort H1 .
Il est impossible de rendre simultanément les deux erreurs de probabilité arbitrairement
petites. Alors par convention, on cherche en priorité à contrôler les erreurs de type 1 et à
rendre leur probabilité d’apparition plus petite que le seuil ( ou risque ) donné à l’avance.
Du fait de cette dissymétrie entre les deux types d’erreurs, le choix de l’hypothèse nulle
n’est pas indifférent : si l’hypothèse est hh l’accusé est innocent ii, c’est qu’on veut éviter une
erreur judiciaire, quitte à relâcher un coupable, par contre si c’est hh l’accusé est coupable ii,
c’est qu’on se place du point de vue sécuritaire. De même, qui a intérêt à choisir l’hypothèse
hh ce médicament est dangereux ii? (le fabriquant? le ministère de la santé?)
Définition. On appelle région de rejet au seuil (ou au risque) de x% tout événement D
x
lié aux variables aléatoires X1 , ..., Xn tel que si H0 est vérifiée, IP(D) ≤ 100
.
La région d’acceptation est le complémentaire de la région de rejet.
Le point de vue des tests est négatif : si l’hypothèse donne lieu à un événement de faible
probabilité on la rejette. Dans le cas contraire on ne la rejette pas, en attendant un autre
test ... C’est le décideur non statisticien qui doit prendre des responsabilités.
Remarque : à un niveau élémentaire comme ici, on n’évalue pas l’erreur de type II.
Remarque. Contrairement à ce que beaucoup de gens croient, plus le seuil d’un test est
voisin de 0, moins le test donne un résultat intéressant. En effet, le complémentaire de la
région de rejet est très grand et risque de contenir la valeur expérimentale. On sait d’avance
que l’hypothèse ne sera pas rejetée.
II- Cas des échantillons gaussiens
♥ Méthode résumée
a) Lire l’énoncé pour savoir si le test porte sur m, σ voire même σ 2 . Regarder si l’autre
paramètre est lui aussi inconnu.
b) Sélectionner la seule formule Fk adéquate ( F1 ou F2 pour m, F3 ou F4 pour σ ). On
dispose alors d’une variable aléatoire Z, T ou bien C.
c) Calculer la valeur expérimentale de la variable parmi Z, T ou C qui figure dans la
formule sélectionnée en b).
d) Construire la région d’acceptation du test. Si c’est un test d’égalité, elle a deux bornes.
S’il s’agit d’un test d’inégalité, elle est unilatère et faire attention au sens de l’inégalité.
55
e) Conclusion : si la valeur expérimentale du c) est dans la région d’acceptation, l’hypothèse
n’est pas rejetée. Sinon on la rejette.
A. Tests sur la moyenne m.
Pour simplifier on ne traite ici que le cas où σ est connu. Dans le cas contraire, il faut se
servir de la formule F2 et de la valeur expérimentale s à la place de σ. On obtiendrait ce
qui s’appelle un test de Student.
√
On rappelle que d’après la formule F1 , Z = n X nσ−m suit la loi N (0, 1). Pour simplifier
on va toujours prendre dans la suite le risque 0,05.
1. Test de m ≤ m0 contre m > m0
Règle : on prend D = {Z ≥ a} avec a tel que si m = m0 , IP(Z ≥ a) ≈ 0.05. En explicitant
en fonction de X n , la région de rejet est donc par un simple calcul {X n ≥ b}. avec
aσ
.
b = m0 + √
n
Si on ne demande pas explicitement la région d’acceptation (cela serait un exercice scolaire),
il suffit toujours de regarder si la valeur expérimentale de Z ( obtenue en remplaçant X n
par x et m par m0 ) est dans la région d’acceptation.
Justification intuitive de la règle (à retenir)
Si H0 est vérifiée, on a m ≤ m0 ; comme X n est voisin de m, l’événement {X n très grand}
a peu de chance de se produire, on peut donc choisir une région de rejet de cette forme.
Mais X n très grand équivaut à Z très grand.
Justification de la règle.
Supposons H0 vérifiée, c’est à dire m ≤ m0 .
b−m
0
Alors IP(X n ≥ b) = IP(Z ≥ b−m
est plus grand que b−m
σ ). Comme
σ
σ , IP(X n ≥ b)
0
est majorée par IP(Z ≥ b−m
). Donc pour rendre IP(X n ≥ b) rare, il suffit d’exiger que
σ
b−m0
IP(Z ≥ σ = a) ≤ 0.05.
2. Test de m ≥ m0 contre m < m0
Il suffit de changer le sens des inégalités.
Exemple : tester m ≥ 3 dans le cas n = 100, σ = 0.5, x = 3.1 au risque de 5%.
√
On trouve ici IP(Z < a = −1.645) ≈ 0.050. La valeur expérimentale Z(ω) est Z = 100 0.1
0.5
plus grand que a : on ne rejette pas l’hypothèse.
3. Test de m = m0 contre m 6= m0
Dans ce cas, on considère plus simplement une région de rejet D rare sous l’hypothèse H0
de la forme {|Z| > c}.
Exemple : Tester m = 3 dans le cas n = 50, σ = 6, x = 3.1 au risque 0.01.
√
Si H0 est vrai, Z = 50 X 506−3 suit la loi N (0, 1). Sa valeur expérimentale est 0.1179
qui est bien de valeur absolue < c ≈ 2.576 lu dans la table Student ( colonne 0.01 et ligne
∞ ). Conclusion : l’hypothèse n’est pas rejetée.
56
Dessin :
B. Test sur l’écart-type
1. Test de σ = σ0 contre σ 6= σ0
Pour simplifier on ne traite ici que le cas où m est connu. Dans le cas contraire, il faut se
servir de la formule F4 et de la valeur expérimentale de Xn à la place de m. D’après la
formule F3 ,
nVn
C = 2 suit la loi du χ2n .
σ
On considère une région de rejet D rare sous l’hypothèse H0 de la forme {C > v ou C < u}
en partageant en deux la surface.
Exemple. Tester σ = 3 dans le cas n = 10, V10 (ω) = 4 au risque 0, 10.
C suit la loi du χ2 à 10 degrés de libertés. En partageant en deux la surface 10% on
trouve le région d’acceptation {3.94 < C < 18.3}. Mais si l’hypothèse est vraie, la valeur
expérimentale de C est 10×4
≈ 4.44 dans cet intervalle, donc on ne rejette pas l’hypothèse.
9
Remarque fondamentale : lien avec les intervalles
On constate qu’une hypothèse σ = σ0 n’est pas rejetée ssi σ0 est dans l’intervalle de
confiance bilatère de même niveau pour σ. Cette remarque est généralisable : ce cours sur
les tests est une reformulation du cours sur les intervalles. Il est donc usuel de poser deux
fois le même calcul à un examen pour sanctionner ceux qui ne réfléchissent pas.
Dans notre exemple, 3 est bien dans ]1.47; 3.19[.
2. Test de σ ≤ σ0 contre σ > σ0
On utilise la région de rejet D = {C > u} avec IP(C > u) ≈ niveau
100 . En effet on veut que
2
Vn (qui ressemble à σ ) grand soit rare, ce qui équivaut à dire que C grand est rare.
Exemple. Tester σ ≤ 4 dans le cas n = 10, s = 1.0 au risque 10% (m étant inconnu pour
changer).
D’après la formule F4 ,
C=
9Σ210
suit la loi du χ29 .
σ2
57
9
plus petite que u = 14,7 obtenu à la ligne 9,
Si σ = 4, la valeur expérimentale de C est 16
colonne 0,90 de la table. Donc on ne rejette pas l’hypothèse.
III- Test du khi deux
But. Contrôler l’adéquation d’un modèle, ce qu’on appelle aussi la conformité d’un
échantillon.
Soit un phénomène aléatoire pouvant prendre des valeurs numériques dans N intervalles
disjoints (N est un entier quelconque ≥ 1, à ne pas confondre avec le nombre n d’expériences). On appelle plutôt en statistique ces intervalles des classes car on peut aussi
considérer le cas où le phénomène non numérique (qualitatif = non quantitatif) appartient
à un nombre fini de catégories. On note Ok le nombre de résultats expérimentaux qui
tombent dans la k-ième classe (initiale O comme observé). D’autre part on fait l’hypothèse
H0 que le phénomène est régi par une certaine loi de probabilité.
On veut savoir si ce modèle est adéquat. Posons alors Tk l’effectif théorique de la classe
qui s’obtient en multipliant le nombre n d’expériences par la probabilité théorique que la
variable aléatoire soit dans la classe. Donc Tk n’est pas forcément un entier contrairement
à Ok .
Méthode. On pose
C(ω) =
N
X
(Ok − Tk )2
k=1
Tk
dont la loi est approximativement du χ2 à N − 1 degrés de libertés où N est le nombre de
classes. (C’est une bonne approximation quand le nombre d’expériences n est grand).
Si la valeur expérimentale de C est en dehors de l’intervalle ]0, a[ avec a lu dans la table
tel que IP(C < a) ≈ niveau
, l’hypothèse est rejetée.
100
C est sensé mesurer l’écart entre l’observation et le modèle.
Un exemple. Le moine autrichien Gregor Mendel faisait pousser des pois pour mettre en
lumière les lois fondamentales de la génétique. Selon l’une d’elle, on devrait trouver des
3
9
pour les pois lisses et jaunes, 16
pour les pois lisses et verts,
proportions théoriques de 16
1
3
pour les pois ridés et jaunes et enfin 16
pour les ridés verts.
encore 16
Lisses jaunes
Lisses verts
Ridés jaunes
Ridés verts
Attendus Ti
312,75
104,25
104,25
34,75
Observés Oi
316
108
101
31
58
Les effectifs théoriques Ti des quatre classes s’obtiennent par 556× la proportion théorique.
2
P4
i)
≈ 0, 67. Avec 4 classes, on se sert de la table à 3 degrés de
Alors C(ω) = i=1 (Oi −T
Ti
liberté : on y lit IP(C3 ≤ 6, 25) ≈ 0, 10.
Au risque 0,10 on devrait donc ne pas rejeter l’hypothèse.
Remarque. Dans le cas où la valeur expérimentale de C est très petite, on parle de test
du χ2 trop bon et on s’interroge sur l’honnêteté de l’expérimentateur. Si C(ω) appartient
à [0, c] tel que IP(C < c) ≈ 0, 01 , il est usuel de conclure qu’il y a probablement une
tricherie.
Conseils d’utilisation. n doit être assez grand et toutes les classes théoriques d’effectifs
comparables (donc N ne doit pas être trop grand afin d’éviter les classes presque vides).
Ne pas hésiter à regrouper des classes s’il le faut. On peut bien sûr utiliser des classes
ouvertes de la forme {−∞ < X < a} ou {b < X < ∞}.
Par contre, si un effectif expérimental est anormalement petit, ne pas changer les classes :
cela signifie simplement qu’on risque fort de rejeter l’hypothèse puisque les données expérimentales ne correspondent pas à la théorie.
Complément : règle de Fisher. Pour tester une hypothèse du genre hh la loi est une
loi de Poisson ii avec le paramètre inconnu, il est d’usage d’estimer le paramètre (ici, on
prendrait comme valeur estimée θ̂ la moyenne empirique de l’échantillon) et de transformer
l’hypothèse en hh la loi est une loi de Poisson avec paramètre égal à θ̂ ii. Comme il s’agit
d’un paramètre estimé, on diminue d’une unité (supplémentaire) le nombre de degré de
liberté pour un test comportant deux bornes finies du χ2 .
Plus généralement, le nombre de degrés de libertés (nombre de classes - 1) est encore à
diminuer du nombre de paramètres estimés.
Conclusion. Ce test, à cause de sa simplicité est beaucoup trop utilisé en pratique et bien
souvent à tort. Par exemple, le générateur de nombre pseudo-aléatoires Randu fourni par
IBM a passé avec succès ce test, alors que Randu fournissait des résultats catastrophiques.
Il faut savoir que les simulations numériques réalisées pendant une trentaine d’années
devraient être jetées à la poubelle. La fonction Random de vos machines à calculer est bien
meilleure!
59
Téléchargement