Table des matières - Pages personnelles Université Rennes 2

publicité
Table des matières
1 Espérance conditionnelle
1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Cas absolument continu . . . . . . . . . . . . . . . . . .
1.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Probabilités conditionnelles . . . . . . . . . . . .
1.3.2 La régression . . . . . . . . . . . . . . . . . . . .
1.4 Interprétation géométrique de l’espérance conditionnelle
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
7
14
14
15
19
2 Vecteurs gaussiens et conditionnement
2.1 Rappels sur les vecteurs gaussiens . . . . . . . . .
2.1.1 variables gaussiennes . . . . . . . . . . . .
2.1.2 Vecteurs gaussiens . . . . . . . . . . . . .
2.2 Conditionnement des vecteurs gaussiens . . . . .
2.2.1 Conditionnement pour un couple gaussien
2.2.2 Hyperplan de régression . . . . . . . . . .
2.2.3 Espérance conditionnelle gaussienne . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
24
32
32
34
37
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
Chapitre 1
Espérance conditionnelle
1.1
Cas discret
On considère un couple aléatoire discret (X, Y ), c’est-à-dire une application mesurable
(Ω, F, P) → X × Y
(X, Y )
ω 7→ (X(ω), Y (ω))
où X = (xi )i∈I et Y = (yj )j∈J sont deux ensembles finis ou dénombrables.
La probabilité de tomber sur un couple (xi , yj ) est :
pij = P (X = xi , Y = yj ) .
La suite double (pij )i∈I,j∈J est appelée loi jointe du couple (X, Y ) et on a :
0 ≤ pij ≤ 1
P
i∈I,j∈J pij = 1
Exemple 1. On tire deux chiffres au hasard, indépendamment et de façon équiprobable entre 1 et 3. On
note X le maximum des chiffres obtenus et Y la somme des chiffres obtenus. On peut représenter la loi jointe
dans un tableau :
X=1
X=2
X=3
Y =2
1/9
0
0
Y =3
0
2/9
0
Y =4
0
1/9
2/9
Y =5
0
0
1/9
Y =6
0
0
1/9
Tab. 1.1 – Loi de (X, Y ).
Définition 1.1 (Lois marginales)
Soit (X, Y ) un couple aléatoire. Les variables X et Y sont appelées variables marginales. La loi de X est
appelée loi marginale. Elle entièrement déterminée par les probabilités pi• de tomber sur les points xi :
X
X
pi• = P (X = xi ) =
P (X = xi , Y = yj ) =
pij .
j∈J
j∈J
1
2
Chapitre 1. Espérance conditionnelle
De même la loi marginale de Y est déterminée par :
X
X
p•j = P (Y = yj ) =
P (X = xi , Y = yj ) =
pij .
i∈I
i∈I
Exemple 1. Pour l’exemple précédent, il suffit de sommer sur les lignes (resp. sur les colonnes) pour obtenir
la loi marginale de X (resp. de Y ) :
X=1
X=2
X=3
Y =2
1/9
0
0
p•1 = 1/9
Y =3
0
2/9
0
p•2 = 2/9
Y =4
0
1/9
2/9
p•3 = 3/9
Y =5
0
0
2/9
p•4 = 2/9
Y =6
0
0
1/9
p•5 = 1/9
p1• = 1/9
p2• = 3/9
p3• = 5/9
Tab. 1.2 – Lois jointe et marginales.
On peut aussi représenter la situation dans la figure 1.1, représentation spaciale dont on s’inspirera pour
interpréter le cas continu.
5
9
4
9
3
9
2
9
1
9
2
3
4
5
6
Y
1
2
3
X
Fig. 1.1 – Loi jointe (en traits pleins) et lois marginales (en pointillés).
Remarque
En général, la connaissance des lois marginales ne suffit pas reconstituer la loi jointe.
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.1. Cas discret
3
Exemple 2. En guise d’illustration, considérons une urne contenant deux boules blanches et une boule
noire. On tire deux boules de cette urne.
1er cas : tirage avec remise
On note, pour i = 1, 2 : Xi = 1 si la ieme boule est blanche et Xi = 0 si la ieme boule est noire. Les lois
marginales et jointe sont données dans le tableau suivant :
X2 = 1
X2 = 0
X1 = 1
4/9
2/6
2/3
X1 = 0
2/9
1/9
1/3
2/3
1/3
2nd cas : tirage sans remise
Cette fois, on note, pour i = 1, 2 : Yi = 1 si la ieme boule est blanche et Yi = 0 si la ieme boule est noire. Le
tableau est alors :
Y2 = 1
Y2 = 0
Y1 = 1
2/6
2/6
2/3
Y1 = 0
2/6
0
1/3
2/3
1/3
On constate que les lois marginales sont les mêmes alors que ce n’est pas le cas des lois jointes.
Nous pouvons obtenir facilement la loi jointe à partir des lois marginales dans un cas particulier : celui de
l’indépendance des deux variables.
Définition 1.2 (Indépendance)
Les variables aléatoires X et Y sont dites indépendantes lorsque :
∀ (i, j) ∈ I × J
P (X = xi , Y = yj ) = P (X = xi ) P (Y = yj ) ,
soit avec nos notations : pij = pi• p•j .
Exemple 2. Les variables X1 et X2 définies dans l’expérience précédente sont indépendantes mais ce n’est
pas le cas des variables Y1 et Y2 .
Définition 1.3 (Probabilités conditionnelles)
Soit xi ∈ X, la loi conditionnelle de Y sachant X = xi est la loi discrète prenant les valeurs yj avec les
probabilités :
P (X = xi , Y = yj )
pij
pj|i = P (Y = yj |X = xi ) =
=
.
P (X = xi )
pi•
Remarques
– La définition suppose que P (X = xi ) 6= 0 ce qui est le cas sinon xi n’a rien à faire dans
– La suite pj|i j∈J définit bien une probabilité car :
∀j ∈ J
0 ≤ pj|i ≤ 1 et
X
j∈J
Nicolas JEGOU - Rennes 2
pj|i =
X.
X P (X = xi , Y = yj )
= 1.
P (X = xi )
j∈J
Probabilités et conditionnement - MASS 3
4
Chapitre 1. Espérance conditionnelle
Exemple 1. Nous reprenons l’exemple du tableau 1.1. Les lois conditionnelles de Y sachant X = xi pour
i = 1, 2, 3 sont données dans le tableau suivant :
X=1
X=2
X=3
Y =2
1
0
0
Y =3
0
2/3
0
Y =4
0
1/3
2/5
Y =5
0
0
2/5
Y =6
0
0
1/5
Tab. 1.3 – Lois conditionnelles de Y sachant X = xi .
Exemple 3. Soit Y ∼ P(α) et Z ∼ P(β) deux variables de Poisson indépendantes. On sait que X =
Y + Z ∼ P(α + β). Soit n ∈ N, quelle est la loi de Y sachant X = n ?
Une fois X figé à n, Y prend ses valeurs dans {0, 1, · · · , n}.
Soit k ∈ {0, 1, · · · , n}, cherchons P(Y = k|X = n) :
P(Y = k, X = n)
P(X = n)
P(Y = k, Z = n − k)
=
P(X = n)
P(Y = k)P(Z = n − k)
=
P(X = n)
−α k
e α
e−β β n−k
=
×
/
k!
(n − k)!
P(Y = k|X = n) =
e−(α+β) (α + β)n
n!
!
n!
αk β n−k
×
k!(n − k)! (α + β)n
k n−k
α
β
k
= Cn
×
α+β
α+β
=
α
.
Finalement, sachant X = n, Y suit une loi binomiale B n, α+β
Revenons au cas général et supposons Y intégrable. Il est naturel de s’intéresser à la valeur moyenne de
la variable Y lorsque X = xi . C’est ce qu’on appelle l’espérance conditionnelle de Y sachant X = xi . Elle
s’écrit :
X
X
E [Y |X = xi ] =
yj P(Y = yj |X = xi ) =
yj pj|i .
j∈J
j∈J
Or on sait que X prend la valeur xi avec la probabilité pi• d’où la définition de la variable aléatoire suivante :
Définition 1.4 (Espérance conditionnelle)
Supposons Y intégrable. La variable aléatoire qui prend les valeurs E[Y |X = xi ] avec les probabilités pi• est
appelée espérance conditionnelle de Y sachant X et notée E[Y |X].
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.1. Cas discret
5
Remarques
– Il est clair qu’en général E[Y |X = xi ] est une valeur qui est fonction de xi . Il faut donc comprendre
qu’en général l’espérance conditionnelle E[Y |X] est une variable aléatoire qui pourra s’écrire
en fonction de X.
– Pourquoi supposer Y intégrable ?
On rappelle que Y intégrable signifie E[|Y |] < +∞ c’est-à-dire que la moyenne des valeurs absolues
des valeurs prises par Y est une quantité finie. Si l’on considère une variable d’espérance finie mais non
intégrable, on comprend que les valeurs positives qu’elle prend compensent les valeurs négatives pour en
moyenne rendre une quantité finie. Il est donc possible dans ce cas d’avoir une restriction des valeurs de
la variable dont la moyenne soit infinie alors qu’en les considérant toutes on aurait une moyenne finie. En
supposant Y intégrable, on se prémunit de ce genre de risques. Comme d’autre part, on peut considérer
E[Y |X = xi ] comme la moyenne des valeurs de Y restreintes au cas où X = xi , en prenant Y intégrable,
on est donc sûr d’avoir E[Y |X = xi ] fini pour tout xi .
Exemple 1. En reprenant le tableau 1.3, on obtient facilement E[Y |X = 1] = 2, E[Y |X = 2] = 10/3 et
E[Y |X = 3] = 24/5. Par ailleurs, P(X = 1) = 1/9, P (X = 2) = 3/9 et P(X = 3) = 5/9 donc E[Y |X] est la
variable aléatoire qui prend les valeurs 2, 10/3 et 24/5 avec les probabilités respectivement 1/9, 3/9 et 5/9.
Exemple 3. On reprend l’exemple où Y et Z suivent des lois de Poisson : Y sachant X = n suit une loi
binomiale donc :
αn
E[Y |X = n] =
∀n ∈ N
.
α+β
Ainsi :
αX
E[Y |X] =
α+β
et c’est bien une fonction de X.
Exemple d’une variable non-intégrable mais d’espérance finie. Considérons la variable X discrète
telle que :
π 2 /6
∀n ∈ N∗
P (X = (−1)n × n) = 2 .
n
On peut vérifier que cette variable aléatoire est d’espérance finie mais qu’elle n’est pas intégrable.
Théorème 1.1 (Calcul d’espérance par conditionnement)
Si Y est intégrable alors la variable aléatoire E[Y |X] aussi et on a :
E[E[Y |X]] = E[Y ].
Preuve
E[Y |X] est la variable aléatoire prenant les valeurs E[Y |X = xi ] avec les probabilités pi• donc :
E[E[Y |X]] =
X
pi• E[Y |X = Xi ] =
i∈I
X
i∈I
p




X X
X

pi• 
yj pj|i  =
yj pi• pj|i  ,
j∈J
i∈I
j∈J
ij
et les sommes mises en jeu sont absolument convergentes ; on peut donc intervertir les ordres
or pj|i = pi•
de sommations et :
!
X X
X
E[E[Y |X]] =
p•j yj = E[Y ].
pij yj =
j∈J
Nicolas JEGOU - Rennes 2
i∈I
j∈J
Probabilités et conditionnement - MASS 3
6
Chapitre 1. Espérance conditionnelle
Exemple 1. Nous obtenons :
1
9
E[E[Y |X]] = 2 × +
et cela correspond en effet au calcul de
10 3 24 5
× +
× =4
3
9
5
9
E[Y ] que l’on pouvait ici avoir facilement.
Exemple 3. Nous avons vu
E[Y |X] =
αX
,
α+β
et X = Y + Z ∼ P(α + β) donc on retrouve bien
α
α
× (α + β) = α = E[Y ].
E[X] =
α+β
α+β
E[E[Y |X] =
Propriété 1.1 (Espérance conditionnelle et indépendance)
Si Y est intégrable, si X et Y sont indépendantes alors la variable aléatoire
E[Y ].
E[Y |X] est constante égale à
Preuve
Si X et Y sont indépendantes alors,
∀i ∈ I, ∀j ∈ J
pij = pi• p•j
ainsi,
∀i ∈ I, ∀j ∈ J
Exprimons alors
pj|i =
pij
= p•j .
pi•
E[Y |X = xi ] pour un i quelconque :
E[Y |X = xi ] =
X
yj pj|i
j∈J
=
X
yj p•j
j∈J
= E[Y ]
Ainsi, la variable aléatoire
E[Y |X] est constante égale à E[Y ].
Utilisation du théorème de transfert. On est souvent amené à calculer E[h(X, Y )] où h est une fonction
de R2 dans R telle que le produit, la somme, la moyenne par exemple.
Le théorème de transfert assure que, sous réserve d’intégrabilité, cette espérance correspond à la somme
double :
X
E[h(X, Y )] =
h(xi , yi )pij .
i∈I,j∈J
Si h est à variable séparable (h(x, y) = f (x) × g(y)) alors cette formule se simplifie en :
X
E[h(X, Y )] =
f (xi )g(yi )pij
i∈I,j∈J
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.2. Cas absolument continu
7
et si en plus X et Y sont indépendantes alors :
E[h(X, Y )] =
X
X
f (xi )g(yi )pi• pj• =
f (xi )pi•
i∈
i∈I,j∈J
!

×
X
j∈J

g(yi )pj•  = E[f (X)]E[(g(Y )],
On est donc ramené au produit de deux sommes simples qui sont des espérances discrètes classiques.
Dans le cas général où h n’a pas cette forme et où X et Y ne sont pas indépendantes,
X
h(xi , yj )pij
E[h(X, Y )] =
i∈I,j∈J
=
XX
h(xi , yj )pj|i pi•
i∈I j∈J
=
X
i∈I
=
X


X

h(xi , yj )pj|i  pi•
j∈J
(E[h(xi , Y )]) pi•
i∈I
= E[E[X, Y ]|X]
On se ramène là encore au calcul de deux sommes simples.
1.2
Cas absolument continu
On considère maintenant un couple (X,
Y ) à valeurs dans R2 . Par définition, la loi jointe PX,Y du couple est
la mesure de probabilité sur R2 , B2 définie par :
∀B ∈ B2
PX,Y (B) = P ((X, Y ) ∈ B) ,
que l’on peut voir comme la probabilité que le point aléatoire M de coordonnées (X, Y ) tombe dans l’ensemble
borélien B.
Définition 1.5 (Loi jointe absolument continue)
On dit que la loi PX,Y est absolument continue s’il existe une fonction mesurable f : R2 , B2 → (R, B) telle
que :
Z
f (x, y)dxdy.
∀B ∈ B2 ,
PX,Y (B) =
B
La fonction f est appelée densité de probabilité du couple (X, Y ).
Pour qu’une fonction f soit une densité de probabilité, il suffit qu’elle soit positive et intègre à 1 :
Rf (x, y) ≥ 0
R2 f (x, y)dxdy = 1
Remarque
En pratique, on fait le parallèle avec le cas discret en remplaçant xi par x, yj par y, pij par f (x, y) et les
sommes par des intégrales.
Nicolas JEGOU - Rennes 2
Probabilités et conditionnement - MASS 3
8
Chapitre 1. Espérance conditionnelle
Exemple 4. On considère le couple (X, Y ) de densité :
f (x, y) = 2e−(x+y) 10≤x≤y .
Vérifions qu’il s’agit bien d’une densité.
f est positive et son intégrale sur R2 converge. Calculons cette intégrale :
Z
f (x, y)dxdy =
R2
=
Z
Z
Z
0
+∞ Z y
0
+∞
2e−y
0
+∞
−(x+y)
2e
Z
0
dx dy
y
−x
e dx dy
2e−y 1 − e−y dy
0
Z +∞
Z +∞
−y
e−2y dy
e dy − 2
=2
=
0
0
=1
La représentation de la densité f est donnée figure 1.2.
y
x
Fig. 1.2 – Densité jointe f (x, y) = 2e−(x+y) 10≤x≤y sur [0, 5] × [0, 5].
Définition 1.6 (Lois marginales)
Si le couple (X, Y ) est absolument continu, les variables marginales X et Y le sont aussi et la densité jointe
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.2. Cas absolument continu
9
détermine les densités marginales f (x) et f (y) :
Z
f (x, y)dy
f (x) = fX (x) =
et
f (y) = fY (y) =
R
Z
f (x, y)dx.
R
Exemple 4. Pour l’exemple précédent, on a f (x) = 0 si x < 0 et pour x ≥ 0 :
f (x) =
Z
+∞
−(x+y)
2e
−x
dy = 2e
Z
+∞
e−y dy = 2e−2x .
x
x
Ainsi,
f (x) = 2e−2x 1[0,+∞[ (x).
De même,
f (y) = 2e−y 1 − e−y
1[0,+∞[ (y).
Les densités marginales sont représentées en figure 1.3 et notons que X ∼ E(2).
Loi de y
0.0
0.0
0.1
0.5
0.2
1.0
0.3
1.5
0.4
2.0
0.5
Loi de X
0.0
0.5
1.0
1.5
2.0
0
1
2
x
3
4
5
6
y
Fig. 1.3 – Représentations des densités marginales f (x) et f (y).
Dans le cas général, par définition, les variables aléatoires X et Y sont indépendantes si pour tout couple de
boréliens B et B ′ de R, on a :
P(X ∈ B, Y ∈ B ′ ) = P(X ∈ B)P(Y ∈ B ′ ),
ou encore si pour toutes fonctions bornées (ou positives) g et h de R dans R :
E[g(X)h(Y )] = E[g(X)]E[h(Y )].
L’indépendance n’est en général pas facile à justifier en utilisant ces définitions mais elle se justifie simplement
si la loi jointe est absolument continue :
Nicolas JEGOU - Rennes 2
Probabilités et conditionnement - MASS 3
10
Chapitre 1. Espérance conditionnelle
Propriété 1.2 (Indépendance)
Avec les notations précédentes, les variables X et Y sont indépendantes si et seulement si pour tout couple
(x, y) de R2 :
f (x, y) = f (x)f (y).
Remarque
On peut souvent remarquer que deux variables ne sont pas indépendantes en raisonnant sur les supports. Le
support de la loi de X est l’adhérence de l’endroit où X a des chances de tomber :
Supp(X) = {x ∈ R : f (x) 6= 0} .
La propriété précédente montre donc que l’indépendance de X et Y implique que le support de (X, Y ) soit
le produit cartésien des supports de X et de Y . Dans notre exemple, le support de (X, Y ) est
(x, y) ∈ R2 : 0 ≤ x ≤ y
et cela ne correspond pas au produit cartésien des supports de X et Y : R+ × R+ .
On peut définir l’analogue des probabilités conditionnelles vues dans le cas discret.
Définition 1.7 (Lois conditionnelles)
La densité conditionnelle de Y sachant X = x est :
f (y|x) =
(
f (x,y)
f (x)
0
si f (x) 6= 0
si f (x) = 0
Interprétation graphique.
On obtient une allure de la densité conditionnelle f (y|x0 ) en coupant la
surface représentant la loi jointe par le plan d’équation x = x0 . On observe à l’intersection une représentation
de la fonction y 7→ f (y, x0 ) qui correspond au facteur de normalisation f (x0 ) près à celle de la fonction
y 7→ f (y|x0 ).
Exemple 4. Nous avons, pour tout x ≥ 0 :
f (y|x) =
f (x, y)
f (x)
2e−(x+y) 1{x≤y}
2e−2x
−(y−x)
=e
1{y≥x}
=
et pour tout y > 0 :
f (x|y) =
f (x, y)
f (y)
2e−(x+y) 1{x≤y}
2e−y (1 − e−y )
e−x 1{x≤y}
=
1 − e−y
=
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.2. Cas absolument continu
11
Remarques
Pour tout x fixé, la fonction y 7→ f (y|x) est une densité de probabilité c’est-à-dire qu’elle est positive et de
somme 1.
On a l’analogue des relations vues dans le cas discret :
f (y) =
Z
f (y|x)f (x)dx et f (x) =
R
Z
f (x|y)f (y)dy.
R
Si X et Y sont indépendantes, on a bien sûr :
fX|Y = fX et fY |X = fY .
Comme dans le cas discret, on cherche à définir l’espérance conditionnelle. Pour x fixé, l’espérance conditionnelle de Y sachant X = x est :
Z
E[Y |X = x] = yf (y|x)dy.
R
La fonction
φ : x 7→ E[Y |X = x]
est une fonction de la variable réelle x. φ(X) et donc une variable aléatoire : c’est l’espérance conditionnelle
de Y sachant X.
Définition 1.8 (Espérance conditionnelle)
La variable aléatoire qui prend les valeurs E[Y |X = x] avec la densité f (x) est appelée espérance conditionnelle de Y sachant X. On la note E[Y |X].
Exemple 4. Pour tout x ≥ 0, on a :
E[Y |X = x] =
=
Z
yf (y|x)dy
R
Z +∞
ye−(y−x) dy
x
= ex
Z
+∞
ye−y dy
x
=x+1
Ainsi,
E[Y |X = x] = (x + 1)1x≥0
et donc E[Y |X] = X + 1. Comme X ∼ E(2), la variable aléatoire
paramètre 2 translatée sur [1, +∞[ (cf. figure 1.4).
Nicolas JEGOU - Rennes 2
E[Y |X] suit une loi exponentielle de
Probabilités et conditionnement - MASS 3
Chapitre 1. Espérance conditionnelle
0.00
0.05
0.10
0.15
0.20
0.25
12
0
1
2
3
4
5
Fig. 1.4 – Densité de E[Y |X].
Propriété 1.3
Si Y est intégrable, alors la variable aléatoire
E[Y |X] aussi et :
E[E[Y |X]] = E[Y ].
Preuve
E[Y |X] est la variable aléatoire prenant les valeurs E[Y |X = x] avec la densité f (x) donc .
Z
E[E[Y |X]] = E[Y |X = x]f (x)dx
ZR Z
yf (y|x)dy f (x)dx
=
R
R
Z
Z
f (y|x)f (x)dx dy (Fubini)
y
=
R
R
Z
yf (y)dy
=
R
= E[Y ]
Exemple 4. On se souvient que la densité de la variable Y est :
f (y) = 2e−y 1 − e−y 1[0,+∞[ (y).
On peut donc obtenir
E[Y ] :
E[Y ] =
=
Z
yf (y)dy
R
Z +∞
0
=2−
=
Probabilités et conditionnement - MASS 3
1
2
2ye−y 1 − e−y dy
3
2
Nicolas JEGOU - Rennes 2
1.2. Cas absolument continu
13
On retrouve ce résultat en utilisant le fait que
E[Y |X] = X + 1 avec X ∼ E(2) :
E[Y ] = E[E[Y |X]]
= E[X + 1]
= E[X] + 1
=
3
2
Utilisation du théorème de transfert. Si h est une fonction de R2 dans R, on peut chercher à calculer
l’espérance de la variable aléatoire h(X, Y ) :
Z
h(x, y)f (x, y)dxdy.
E[h(X, Y )] =
R2
Sous réserve d’intégrabilité, c’est-à-dire à la condition que
Z
|h(x, y)|f (x, y)dxdy < +∞,
R2
on peut la calculer par conditionnement :
E[h(X, Y )] =
Z Z
R
R
h(x, y)f (y|x)dy f (x)dx.
D’où la définition suivante.
Définition 1.9 (Espérance conditionnelle d’un couple)
L’espérance conditionnelle de h(X, Y ) sachant X = x est :
E[h(X, Y )|X = x] =
Z
h(x, y)f (y|x)dy.
R
L’espérance conditionnelle de h(X, Y ) sachant X, notée E[h(X, Y )|X], est la variable aléatoire prenant les
valeurs E[h(X, Y )|X = x] avec la densité de probabilité f (x).
Propriété 1.4 (Propriétés de l’espérance conditionnelle)
Sous réserve d’intégrabilité des variables aléatoires, on a les propriétés suivantes :
– Calcul d’espérance par conditionnement :
Z
E[E[h(X, Y )|X]] = E[h(x, y)|X = x]f (x)dx = E[h(X, Y )].
R
– Indépendance : Si X et Y sont indépendantes, alors :
E[g(Y )|X] = E[g(Y )].
En particulier, on a :
Nicolas JEGOU - Rennes 2
E[Y |X] = E[Y ].
Probabilités et conditionnement - MASS 3
14
Chapitre 1. Espérance conditionnelle
– On a :
E[g(X)|X] = g(X)
donc en particulier :
E[X|X] = X.
– Linéarité :
E[αg(X) + βh(Y )|X] = αE[g(X)|X] + β E[h(Y )|X] = αg(X) + β E[h(Y )|X].
– Linéarité (bis) :
E[g(X)h(Y )|X] = g(X)E[h(Y )|X].
Remarques
Les preuves s’obtiennent sans difficulté en revenant à la définition de l’espérance conditionnelle.
Il faut bien comprendre que par exemple E[g(X)|X] est une variable aléatoire. C’est en effet la variable
aléatoire prenant les valeurs E[g(x)|x] avec la densité f (x). C’est donc la variable aléatoire prenant les
valeurs g(x) avec la densité f (x) et c’est par conséquent la variable aléatoire g(X).
1.3
1.3.1
Applications
Probabilités conditionnelles
Soit A un événement qui s’exprime en fonction de X et Y .
On peut lui associer la variable aléatoire indicatrice :

 Ω → {0, 1}
1A ω 7→ 1 si (X(ω), Y (ω)) ∈ A

0 sinon
et voir ainsi sa probabilité comme l’espérance de cette indicatrice :
Z
1A (x, y)f (x, y)dxdy.
P(A) = E[1A ] =
R2
Il est souvent plus facile de calculer cette quantité en commençant par geler l’une des variables et en intégrant
par rapport à l’autre. C’est le principe du conditionnement.
Définition 1.10 (Probabilités conditionnelles)
La probabilité conditionnelle de l’événement A sachant X = x est la quantité :
Z
1A (x, y)f (y|x)dy.
P(A|X = x) = E[1A |X = x] =
R
La probabilité conditionnelle de A sachant X, notée P(A|X) est la variable aléatoire prenant les valeurs
P(A|X = x) avec la densité f (x).
On peut alors appliquer la technique de calcul d’espérance par conditionnement pour le calcul de P(A).
Proposition 1 (Calcul de probabilité par conditionnement)
Z
P(A|X = x)f (x)dx.
P(A) =
R
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.3. Applications
15
Exemple 5. Soit X et Y deux variables aléatoires indépendantes avec X ∼ E(λ) et Y ∼ E(µ). On cherche
à calculer : P(X < Y ).
On pose :
A = {ω ∈ Ω : X(ω) < Y (ω)} .
Alors :
P(X < Y ) =
Z
Z
P(X < Y |X = x)f (x)dx =
R
P(x < Y |X = x)f (x)dx.
R
Du fait de l’indépendance des variables, P(x < Y |X = x) = P(x < Y ) = 1 − FY (x) = e−µx , et donc :
P(X < Y ) =
Z
−µx
e
f (x)dx =
R
On obtient ainsi :
P(X < Y ) =
1.3.2
Z
e−µx λe−λx dx.
R+
λ
.
λ+µ
La régression
Approximation d’une variable aléatoire par une constante
Soit Y une variable aléatoire de carré intégrable, c’est à dire telle que E[Y 2 ] < +∞. On veut approcher Y
par une constante ; plus précisément, si on cherche a ∈ R telle que l’erreur quadratique E[(Y − a)2 ] soit la
plus petite possible, la solution est donnée par l’espérance.
Proposition 2 (Approximation par une constante) Soit Y telle que E[Y 2 ] < +∞. Parmi tous les réels
a, la quantité E[(Y − a)2 ] est minimale lorsque a = E[Y ]. C’est-à-dire :
min E[(Y − a)2 ] = E[(Y − E[Y ])2 ] = E[Y 2 ] − (E[Y ])2 = Var(Y ).
a∈R
Preuve
Soit a ∈ R. Introduisons la fonction a 7→ E[(Y − a)2 ]. Nous pouvons écrire :
E[(Y − a)2 ] = E[Y 2 − 2aY + a2 ]
= E[Y 2 ] − 2aE[Y ] + a2
On reconnait un polynôme du second degré en a qui est en effet minimum pour a =
quadratique est alors :
E[(Y − E[Y ])2 ] = Var(Y ).
E[Y ] et l’erreur
Remarques
– En statistique, l’analogue de cette proposition est une propriété classique de la moyenne empirique d’une
série d’observations (yi )i=1···n : la moyenne des yi est la valeur la plus proche de l’ensemble des yi au sens
de la mesure quadratique.
– Si on cherche à minimiser l’erreur en norme L1 c’est-à-dire si on cherche a tel que E[|Y − a|] est minimale,
la solution est la médiane de Y .
Nicolas JEGOU - Rennes 2
Probabilités et conditionnement - MASS 3
16
Chapitre 1. Espérance conditionnelle
Approximation d’une variable aléatoire par une droite
On considère cette fois un couple aléatoire (X, Y ) et on suppose que les variables marginales X et Y sont de
carré intégrable. On cherche cette fois à approcher au mieux la variable aléatoire Y par une fonction affine
de la variable X.
Proposition 3 (Approximation par une droite) Soit X et Y deux variables aléatoires de carré intégrable. Parmi tous les couple de réels (a, b), la quantité E[(Y − (aX + b))2 ] est minimale lorsque :
Cov(X, Y )
σ 2 (X)
Cov(X, Y )
b = E[Y ] −
E[X]
σ 2 (X)
a=
L’erreur quadratique est alors :
min E[(Y − (aX + b))2 ] = σ 2 (Y )(1 − ρ2 )
a,b
où
ρ=
Cov(X, Y )
.
σ(X)σ(Y )
Preuve
On introduit la fonction φ : (a, b) 7→ E[(Y − (aX + b))2 ]. En développant, on obtient :
φ(a, b) = E[X 2 ]a2 + 2E[X]ab + b2 − 2E[XY ]a − 2E[Y ]b + E[Y 2 ]
Si cette fonction possède un point singulier, ce point est un minimum. Cherchons les points où les dérivées
partielles s’annulent : Le système
∂φ
2
∂a (a, b) = 2aE[X ] + 2bE[X] − 2E[XY ] = 0
∂φ
=0
∂b (a, b) = 2aE[X] + 2b − 2E[Y ]
a pour solution :
(
]−E[X]E[Y ]
a = E[XY
E[X 2 ]−E[X]2
b = E[Y ] − aE[X]
soit
Cov(X, Y )
σ 2 (X)
Cov(X, Y )
b = E[Y ] −
E[X]
σ 2 (X)
a=
En écrivant
Y − (aX + b) = Y − E[Y ] −
Cov(X, Y )
(X − E[X])
σ 2 (X)
puis en calculant l’espérance du carré de cette variable, on obtient (après calcul) :
φ(a, b) = σ 2 (Y )(1 − ρ2 ).
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.3. Applications
17
Remarques
– Lorsque les variables X et Y sont de carré intégrable, parler de la covariance de X et Y a un sens puisque
d’une part cela assure l’existence de E[X] et de E[Y ] et que d’autre part on a :
1
X 2 (ω) + Y 2 (ω) ,
∀ω ∈ Ω,
|X(ω)Y (ω)| ≤
2
donc, en passant à l’expérance
1
E[|XY |] ≤ E[X 2 ] + E[Y 2 ] < + ∞.
2
– L’existence du minimum pour la fonction φ suppose que Var(X) 6= 0. Mais Var(X) = 0 revient à dire que
X est presque sûrement constante auquel cas on est ramené à approcher Y par une constante ce qui a été
vu juste avant.
– Ce principe d’approximation est d’usage fréquent en statistique mais dans ce cadre on ne dispose que de
n couples (xi , yi )i=1···n d’observations des variables et l’idée est d’utiliser cet échantillon pour, à partir
d’une nouvelle observation de la variable X de faire une prévision pour Y . Lorsque le nuage de points
représentant les observations s’apparente à une droite, on cherche la droite qui approche le mieux ce nuage
en minimisant la somme des carrés :
n
X
(yi − (axi + b))2 .
i=1
La droite de régression obtenue est la même que précédemment mais en considérant cette fois espérances,
variances et covariances empiriques.
Exemple 4. On rappelle que :
• f (x, y) = 2e−(x+y) 10≤x≤y
• X ∼ E(2) c’est-à-dire f (x) = 2e−2x 1[0,+∞[
• f (y) = 2e−y (1 − e−y )1[0,+∞[
• E[X] = 1/2 et E[Y ] = 3/2
Rappelons également que si V ∼ E(λ) alors pour tout n ∈ N :
Calculons la droite de régression dans cet exemple :
E[V n ] =
Cov(X, Y ) = E[XY ] − E[X]E[Y ]
Z
3
xyf (x, y)dxdy −
=
4
R2
Z +∞ Z y
3
−(x+y)
2xye
dx dy −
=
4
0
0
Z +∞
3
2ye−y 1 − ye−y − e−y dy −
=
4
0
Z
Z +∞
Z +∞
2ye−2y dy −
ye−y dy −
=2
0
0
0
n!
.
λn
+∞
2y 2 e−2y dy −
3
4
1 1 3
=2− − −
2 2 4
1
=
4
Comme Var(X) = 1/4, on obtient a = 1 et par conséquent b = 1. La droite de régression a donc pour
équation : y = x + 1.
Nicolas JEGOU - Rennes 2
Probabilités et conditionnement - MASS 3
18
Chapitre 1. Espérance conditionnelle
Approximation d’une variable aléatoire par une fonction
On considère encore un couple aléatoire (X, Y ) avec Y de carré intégrable. On cherche à nouveau à approcher
au mieux Y par une fonction de X mais sans se restreindre à une classe de fonctions particulières. On
pose donc le problème ainsi : parmi toutes les fonctions de X, quelle est celle qui approche le mieux Y ?
Autremement dit, on cherche la fonction u : R → R qui rend minimale la quantité :
E[(Y − u(X))2 ].
Théorème 1.2 (Espérance conditionnelle et régression)
Supposons Y telle que E[Y 2 ] < +∞. Parmi toutes les fonctions u : R → R, l’erreur d’approximation
E[(Y − u(X))2 ] est minimale lorsque que u est la fonction dite de régression x 7→ E[Y |X = x], c’est-à-dire
lorsque u(X) = E[Y |X].
Preuve
Notons m(X) = E[Y |X] et montrons que pour toute fonction u : R → R,
E[(Y − u(X))2 ] ≥ E[(Y − m(X))2 ].
E[(Y − u(X))2 ] = E[(Y − m(X) + m(X) − u(X))2 ]
= E[(Y − m(X))2 ] + E[(m(X) − u(X))2 ] + 2E[(Y − m(X))(m(X) − u(X))]
Calculons
E[(Y − m(X))(m(X) − u(X))] par conditionnement :
E[(Y − m(X))(m(X) − u(X)] = E[E[(Y − m(X))(m(X) − u(X))|X]]
= E[(m(X) − u(X))E[(Y − m(X))|X]]
= E[(m(X) − u(X)) {E[Y |X] − E[m(X)|X]}]
= E[(m(X) − u(X)) {E[Y |X] − m(X)}]
Or m(X) = E[Y |X] donc
E[(Y − m(X))(m(X) − u(X)] = 0 et finalement on a bien :
E[(Y − u(X))2 ] = E[(Y − m(X))2 ] + E[(m(X) − u(X))2 ] ≥ E[(Y − m(X))2 ].
Le minimum obtenu fait l’objet d’une définition.
Définition 1.11
La quantité
σ 2 = min E[(Y − u(X))2 ] = E[(Y − E[Y |X])2 ]
u
est appelée erreur quadratique moyenne ou variance résiduelle.
Définition 1.12 (Courbe de régression)
La courbe x 7→ y = E[Y |X = x] est appelée courbe de régression de Y en X.
Par exemple, si les variables X et Y sont indépendantes, la courbe de régression de Y en X est la droite
horizontale d’équation y = E[Y ].
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.4. Interprétation géométrique de l’espérance conditionnelle
19
Exemple 4. La fonction de régression u : x 7→ E[Y |X = x] a déjà été calculée et on avait obtenu
u(X) = X + 1. Notons que sur cet exemple la fonction de régression coïncide avec la droite de régression. La
variance résiduelle est :
E[(Y − E[Y |X])2 ] = E[(Y − X − 1)2 ]
= 1 − 2E[XY ] − 2E[Y ] + 2E[X] + E[Y 2 ] + E[X 2 ]
= 1 − 2 − 3 + 1 + E[Y 2 ] + E[X 2 ]
De plus, en utilisant le rappel énoncé plus haut,
E[Y 2 ] =
R +∞
0
2y 2 e−y (1 − e−y )dy = 4 et
E[X 2 ] = 1/2 d’où :
3
2
E[(Y − E[Y |X])2 ] = .
1.4
Interprétation géométrique de l’espérance conditionnelle
Soit (Ω, F, P) un espace probabilisé. On note L2 (Ω, F, P) ou plus simplement L2 (Ω) l’ensemble des variables
aléatoires X : Ω → R de carré intégrable.
Propriété 1.5 (Propriétés de L2 (Ω))
– Si X et Y appartiennent à L2 (Ω), alors XY est intégrable.
– L2 (Ω) est un espace vectoriel.
Proposition 4 L’application
h., .i :
L2 (Ω) × L2 (Ω) → R
(X, Y ) 7→ hX, Y i = E[XY ]
est un produit scalaire sur L2 (Ω). La norme associée est :
p
kXk = E[X 2 ].
Remarque
Dire que deux variables sont orthogonales revient donc à dire que
revient à dire qu’elles sont non-corrélées.
E[XY ] = 0 ce qui, si elles sont centrées,
Propriété 1.6 (Propriétés de la norme dans L2 (Ω))
On a les propriétés habituelles d’une norme à savoir :
– la positivité : kXk ≥ 0 en général et kXk = 0 seulement pour X = 0,
– l’homogénéité : ∀a ∈ R, kaXk = |a|kXk,
– l’inégalité triangulaire : kX + Y k ≤ kXk + kY k,
– l’inégalité de Cauchy-Schwarz : hX, Y i ≤ kXkkY k.
Remarque (Interprétation du coefficient de corrélation linéaire ρ)
Dans la section précédente, au moment d’approcher une variable par une droite, nous avons défini le coefficient
de corrélation linéaire entre deux variables X et Y par :
ρ=
Nicolas JEGOU - Rennes 2
E[(X − E[X])(Y − E[Y ])]
Cov(X, Y )
p
.
=p
σ(X)σ(Y )
E[(X − E[X])2 ] E[(X − E[X])2 ]
Probabilités et conditionnement - MASS 3
20
Chapitre 1. Espérance conditionnelle
Nous avons donc :
hX − E[X], Y − E[Y ]i
kX − E[X]kkY − E[Y ]k
De l’inégalité de Cauchy-Schwarz nous déduisons : −1 ≤ ρ ≤ 1 et on comprend dès lors qu’une valeur de
ρ = ±1 correspond au cas où les variables X et Y sont liées par une relation Y = aX + b presque sûrement.
Cov(X,Y )
On comprend par ailleurs que ρ = 0 équivaut à a = σ(X)σ(Y
) = 0 et qu’alors le mieux qu’on puisse faire est
d’approcher Y par une constante.
Nous avions d’autre part calculé l’erreur d’approximation :
ρ=
min E[(Y − (aX + b))2 ] = σ 2 (Y )(1 − ρ2 ).
a,b
L’erreur d’approximation sera d’autant plus faible
– que ρ est proche de 1 ou -1 ce qui est normal puisqu’alors Y ≈ aX + b,
– et que σ(Y ) petit.
La norme k.k permet de mesurer la distance entre deux variables aléatoires :
p
d(X, Y ) = kX − Y k = E[(X − Y )2 ],
distance que l’on appelle naturellement distance en moyenne quadratique.
On peut alors associer à cette norme la notion de convergence en moyenne quadratique : la suite de variables
aléatoires (Xn )n≥0 converge en moyenne quadratique vers la variable aléatoire X si limn→+∞ Xn = X c’està-dire si :
lim E[(X − Xn )2 ] = 0.
n→+∞
On note alors :
2
Xn →L X.
Théorème 1.3 (Espace de Hilbert)
L’espace L2 (Ω) muni du produit scalaire précédent est complet, c’est à dire que toute suite (Xn )n≥0 de L2 (Ω)
vérifiant le critère de Cauchy converge en moyenne quadratique vers une variable aléatoire X de L2 (Ω).
Théorème 1.4 (Théorème de la projection orthogonale)
Soit H un sous espace fermé de de L2 (Ω). Pour tout Y de L2 (Ω), il existe une unique variable aléatoire de
H, notée πH (Y ), qui soit à plus courte distance de Y . On l’appelle le projeté orthogonale de Y sur H et elle
est entierement caractérisée par la double propriété suivante illustrée en figure 1.5 :
πH (Y ) ∈ H
Y − πH (Y ) ⊥ H
Y
Y − πH (Y )
πH (Y )
H
Fig. 1.5 – Projection orthogonale πH de Y sur H.
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
1.4. Interprétation géométrique de l’espérance conditionnelle
21
Remarque
L’existence et l’unicité du projeté orthogonal dans les espaces Euclidiens (espaces vectoriels de dimension
finie munis d’un produit scalaire) est connue depuis la 2ème année. Ici l’espace L2 (Ω) est muni d’un produit
scalaire mais il est de dimensison infinie : c’est la complétude qui permet d’avoir encore cette propriété.
Considérons maintenant une variable aléatoire X. On lui associe :
L2 (X) = u(X) avec u : R → R borélienne telle que
E[u2 (X)] < +∞ ,
ensemble des variables aléatoires qui s’expriment comme fonctions de X et de carré intégrable. Il se trouve
que L2 (X) est un sous-espace fermé de L2 (Ω) et on peut donc lui appliquer le théorème 1.4. Si on considère
une variable aléatoire Y de carré intégrable : il existe une unique variable πL2 (X) (Y ) dans le sous espace
L2 (X) qui soit à plus courte distance de Y . Nous avons vu dans le paragraphe sur la régression que cette
variable en question était justement l’espérance conditionnelle de Y sachant X. Il est donc naturel de donner
à l’espérance conditionnelle la définition suivante qui est plus générale que les précédentes :
Définition 1.13 (Espérance conditionnelle)
Soit (X, Y ) un couple aléatoire avec Y ∈ L2 (Ω). L’espérance conditionnelle de Y sachant X, notée E[Y |X]
est la projection orthogonale de Y sur le sous espace L2 (X) des variables aléatoires fonctions de X et de
carré intégrable (voir figure 1.6).
Y
E[Y |X]
L2 (X)
Fig. 1.6 – L’espérance conditionnelle comme projection orthogonale.
Propriété 1.7
Soit (X, Y ) un couple aléatoire avec Y ∈ L2 (Ω).
– Distance minimale : ∀Z ∈ L2 (X), kY − E[Y |X]k ≤ kY − Zk.
– Orthogonalité : ∀Z ∈ L2 (X), hY − E[Y |X], Zi = 0.
– Orthogonalité(bis) : ∀Z ∈ L2 (X), hY, Zi = hE[Y |X], Zi.
– Pythagore : kY k2 = kE[Y |X]k2 + kY − E[Y |X]k2 .
– Pythagore(bis) : kE[Y |X]k ≤ kY k, avec égalité si Y est une fonction de X.
– Linéarité : Soit Y1 et Y2 de carré intégrable, α et β deux réels, alors :
E[αY1 + βY2 |X] = αE[Y1 |X] + β E[Y2 |X].
– Linéarité(bis) : si u : R → R bornée, alors E[u(X)Y |X] = u(X)E[Y |X].
– Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0.
– Positivité(bis) : Si Y1 et Y2 sont de carrés intégrables, avec Y1 ≤ Y2 , alors
Nicolas JEGOU - Rennes 2
E[Y1 |X] ≤ E[Y2 |X].
Probabilités et conditionnement - MASS 3
22
Chapitre 1. Espérance conditionnelle
– Calcul Calcul d’espérance : E[E[Y |X]] = E[Y ].
– Espérance conditionnelle et indépendance : Si X et Y sont indépendantes, alors
E[Y |X] = E[Y ].
Remarques
– Les premières propriétés ont une interprétation géométrique simple avec la figure 1.6.
– Par commodité de notation, ces propriétés ont été écrites en termes de produits scalaires et de norme mais
il faut savoir les lire en termes d’espérances et d’espérances conditionnelles.
Probabilités et conditionnement - MASS 3
Nicolas JEGOU - Rennes 2
Téléchargement