Télécharger

publicité
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
Notes de cours et exercices, examens et corrigés
(1) Espaces probabilisés: tribus, mesures, variables aléatoires. Espérance et variance.
Indépendance. Moments, cumulants, fonction caractéristique.
(2) Classes de fonctions mesurables. Espaces L1 et L2 . Espaces de Hilbert. Projections
orthogonales, Matrices de Gram. Régression, mise à jour d’une estimation.
(3) Inégalité de Tchebychev et “Théorème d’or” de Jacques Bernoulli. Convergence
en loi, théorème de Lévy-Bochner. Loi des grands nombres et théorème de la limite
centrale. Note Historique et loi forte des grands nombres.
(4) Autour des théorèmes classiques: variables aléatoires à valeurs dans N, lois binomiales, lois de Poisson, limite de Poisson. Exemples et applications. Loi de Cauchy.
Schéma de Bernoulli.
(5) Espérance conditionnelle (I): conditionnement sur un évènement, sur une partition
finie, sur une variable aléatoire. Propriété de meilleure approximation au sens des
moindres carrés. Courbe et Droite de régression.
(6) Espérance conditionnelle (II). Sous-tribus et Intégration, l’espérance conditionnelle comme projection orthogonale. Le cas général (théorème de Kolmogorov.) Probabilité conditionnelle et variance conditionnelle.
(7) Vecteurs aléatoires. Lois conditionnelles. Désintégration radioactive et loi exponentielle. Le cas d’un échantillon fini. Processus de comptage.
(8) Le Processus de Poisson. Théorème de remise à zéro. Indépendance et stationnarité
des accroissements. Propriété de Markov. Répartition conditionnelle uniforme.
(9) Vecteurs gaussiens. Indépendance et Espérance conditionnelle dans le cadre gaussien. Processus Gaussiens. Processus de Wiener.
(10) Quelques propriétés du processus de Wiener (Résumé.)
Version du cours : 1-02-2001
Examens du 30 novembre 2000, du 11 janvier 2001 et du 31 janvier 2001 et leurs corrigés.
Examen du 17 septembre 2001 et son corrigé.
Formatage du polycopié : 6-09-2001
c
J.-F.
Burnol, 2001.
2
Université de Nice – Sophia Antipolis
J’ai rassemblé ici les feuilles distribuées aux étudiants de mon cours de Probabilités en
Maîtrise Ingéniérie Mathématique, année 2000-2001, 1er semestre, ainsi que les examens,
avec quelques modifications mineures, et dans une présentation typographique plus espacée.
Pour l’essentiel ces feuilles sont composées d’exercices (seuls les plus difficiles sont accompagnés d’une solution) alternant avec des notes de cours (il y a en tout 263 exercices,
sans compter les examens et leurs corrigés.)
Il y a de nombreuses imperfections, et les remarques et suggestions sont les bienvenues à
[email protected]. Les étudiants ne disposaient comme formation préalable pour la
plupart d’entre eux que d’un unique semestre de Probabilités en Licence, et effectivement
une bonne partie des notions abordées ici devraient l’être dès la Licence.
Un grand merci à Bernard Candelpergher et à Michel Miniconi pour leur efficace collaboration sur ce cours tout au long du semestre.
jf b.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
3
Notes de cours et exercices (1)
Espaces probabilisés: tribus, mesures, variables aléatoires. Espérance et variance. Indépendance. Moments, cumulants, fonction caractéristique.
Nous avons besoin de notions de niveau Licence introduites dans les cours sur la théorie de l’Intégration
et la Théorie des Probabilités. En voici quelques rappels:
Espaces mesurés et espaces probabilisés
Un espace mesuré est la donnée d’un ensemble non vide X , muni d’une tribu F de sous-ensembles,
appelées parties mesurables, telles que:
[1] ∅ ∈ F
[2] A ∈ F ⇒ X \ A ∈ F
[3] Toute union dénombrable de parties mesurables est également une partie mesurable.
et d’une mesure µ : F → [0, +∞] vérifiant:
[4] Pour toute famille dénombrable de parties mesurables Aj deux-à-deux disjointes
on a
µ(A1 ∪ A2 ∪ . . .) = µ(A1 ) + µ(A2 ) + . . .
Une tribu d’ensembles (propriétés [1],[2],[3]) est aussi appelée sigma–algèbre. La propriété [4] est dite
σ–additivité. Sur R il existe une plus petite tribu BR contenant tous les intervalles, elle est appelée
tribu des boréliens. Une application h : X → R est dite mesurable si pour tout intervalle I de R le sous
ensemble h−1 (I) := {x ∈ X | h(x) ∈ I} est une partie mesurable de X . Il revient au même de demander
h−1 (B) ∈ F pour tout borélien B ⊂ R. Pour X = R, F = BR , une fonction h : R → R mesurable en ce
sens est aussi appelée “Borélienne”.
Un espace probabilisé est un espace mesuré de masse totale 1 (µ(X ) = 1). On notera alors Ω plutôt
que X , P plutôt que µ, les parties mesurables sont appelées évènements, les fonctions mesurables sont
appelées variables aléatoires. On utilisera des notations condensées comme P (X ∈ I) au lieu de P ({ω ∈
Ω | X(ω) ∈ I}), ou encore ¬A (qui se prononce “non-A”) au lieu de Ω\A. On écrit parfois “A et B” au lieu
de A ∩ B, ou encore “A ou B” au lieu de A ∪ B. La distribution ou loi PX d’une variable aléatoire X est
la mesure de probabilité sur R (muni de la tribu des boréliens) vérifiant ∀a, b PX (]a, b]) = P (a < X ≤ b).
4
Université de Nice – Sophia Antipolis
Indépendance: Deux évènements sont indépendants si
P (A et B) = P (A)P (B)
Des évènements A1 , . . . , AN sont indépendants si pour tout J = 1, . . . , N :
∀ 1 ≤ i1 < i2 < . . . < iJ ≤ N
P (Ai1 et . . . et AiJ ) = P (Ai1 ) · · · P (AiJ )
Des variables aléatoires X1 , . . . , XN sont indépendantes si pour tout choix d’intervalles B1 , . . . , BN dans R les évènements X1 ∈ B1 , . . . , XN ∈ BN sont indépendants.
Références: n’importe quel livre de Théorie des Probabilités de niveau deuxième cycle expose ces notions
qui ont été universellement adoptées.
Attention à la terminologie: une variable aléatoire n’est donc pas une “variable” au sens où sont
habituellement employés x, y, z . . ., c’est une fonction, et d’ailleurs pas du tout aléatoire (au sens
de “incertaine”, “mal définie”, etc. . . ). Cette axiomatisation des notions probabilistes intuitives
fut proposée par Kolmogorov dans un ouvrage célèbre paru en 1933. Elle faisait suite à des
travaux par de nombreux auteurs depuis la fin du XIXème siècle et s’appuie en particulier sur la
théorie de l’intégration de Lebesgue (1904).
[1] On lance un tétraèdre, les couleurs des faces étant bleu, rouge, vert, et blanc. Soient A
l’évènement “la face cachée est bleue ou blanche”, B “la face cachée est rouge ou blanche”, C
“la face cachée est verte ou blanche”. Montrer que les évènements A, B, C sont deux-à-deux
indépendants mais ne sont pas indépendants dans leur ensemble.
[2] Soient X et Y deux variables aléatoires indépendantes. Soient g : R → R et h : R → R deux
fonctions boréliennes. Montrer que g(X) et h(Y ) sont indépendantes.
Théorie de l’intégration de Lebesgue
R
R
On associe à toute fonction h(x) (mesurable) positive son intégrale notée X h(x)dµ(x) ou h dµ
ou même µ(h). C’est un élément de [0, ∞] (la valeur +∞ est possible) P
que l’on obtient de la
manière suivante: si h est une fonction étagée, combinaison linéaire finie 1≤j≤n αj · 1Aj (x) de
P
fonctions indicatrices de parties mesurables alors µ(h) := 1≤j≤n αj µ(Aj ). (La fonction indicatrice
1A d’un sous-ensemble A ⊂ X est définie par 1A (x) = 1 si x ∈ A, 1A (x) = 0 sinon.) En général lorsque
h ≥ 0, µ(h) vaut supk≤h, k étagée µ(k).
R
Lorsque h n’est plus nécessairement
à
valeurs
positives
elle
est
dite
intégrable
si
|h| dµ < ∞. On
R
R
R
pose alors par définition h dµ = h+ dµ − h− dµ (avec h+R:= max(h, 0) et Rh− = − min(h, 0)).
C’est un nombre réel (les valeurs ±∞ étant exclues puisque h+ dµ < ∞ et h− dµ < ∞).
Maîtrise MIM 2000-2001: Probabilités-Statistiques
5
Théorème de la convergence dominée: Si hn (x) est une suite de fonctions
intégrables qui sont toutes dominées par une fonction intégrable fixe g(x)
∀x ∀n |hn (x)| ≤ g(x) et
Z
g(x)dx < +∞
X
et qui convergent en tout x vers une limite h(x) alors h est elle-même mesurable et
R
R
R
intégrable et limn→∞ hn dµ = hdµ. On a aussi limn→∞ |hn − h|dµ = 0.
Théorème de la convergence monotone: Soit hn (x) une suite croissante
∀x hn (x) ≤ hn+1 (x)
de fonctions positives mesurables convergeant en chaque x vers une limite h(x).
R
R
Alors h est mesurable et h dµ = limn→∞ hn dµ. Ainsi h est intégrable si et
R
seulement si hn dµ < C < ∞ pour une constante C indépendante de n.
Note: si h(x) est à valeurs dans C, on pose:
Z
Z
Z
Im(h(x)) dµ(x)
Re(h(x)) dµ(x) + i
h(x) dµ(x) =
X
X
X
Lorsque l’on travaille sur un espace probabilisé l’intégrale
Z
X(ω) dP (ω)
Ω
lorsqu’elle existe est appelée espérance de X et est notée E(X).
L’espérance de la fonction indicatrice d’un évènement est égale à la probabilité de
cet évènement.
Z
E(X) =
X(ω) dP (ω)
E(1A ) = P (A)
Ω
Théorème: Soit X une variable aléatoire et soit h : R → R une fonction borélienne. La variable
aléatoire h(X) est intégrable par rapport à P si et seulement si h est intégrable sur R par rapport
à la distribution PX de X. De plus les deux intégrales coïncident:
Z
Z
h(u) dPX (u)
h (X(ω)) dP (ω) =
EΩ (h(X)) =
Ω
R
6
Université de Nice – Sophia Antipolis
On dit que la distribution de la variable aléatoire X a une densité fX (u), si ∀a ≤ b
R
Rb
P (a ≤ X ≤ b) = a fX (u) du. Dans ce cas on a E(h(X)) = h(u)fX (u)du.
[3] (inégalité de Cauchy-Schwarz) Soit X de carré intégrable: E(|X|2 ) < ∞. Montrer que X est
intégrable. On définit la variance de X par
V(X) := E(X 2 ) − E(X)2
Montrer V(X) = E(|X − E(X)|2 ) et en déduire V(X) ≥ 0 et |E(X)| ≤
p
E(|X|2 ).
Pour montrer que X est intégrable il suffit d’utiliser |X| ≤ 1 + |X|2 . Ensuite l’inégalité demandée
provient du fait que la deuxième formule pour V(X) donne V(X) ≥ 0. Dorénavant, on dira
souvent “ X est à variance finie” au lieu de “X est de carré intégrable”.
Théorème: Soient X et Y deux variables aléatoires intégrables. Si X et Y sont
indépendantes alors XY est intégrable et
E(XY ) = E(X)E(Y )
[4] Démontrer le théorème précédent lorsque X et Y sont des variables simples.
Une “variable simple” est une variable aléatoire ne prenant qu’un nombre fini de valeurs distinctes,
on peut donc l’écrire comme une combinaison linéaire de fonctions indicatrices.
[5] Démontrer le théorème en toute généralité.
C’est un peu technique. En écrivant X = X + − X − et Y = Y + − Y − on se ramène au cas où X
2
et Y sont à valeurs positives. Soient N > 1 et XN = j/N sur {X ∈ [ Nj , j+1
N [ }, pour 0 ≤ j < N
et XN = N sur {X ≥ N }. Alors XN est une suite croissante convergeant vers X en tout ω ∈ Ω.
Chaque XN est indépendante de Y (pourquoi?). Par le théorème de la convergence monotone
E(XY ) = lim E(XN Y ) et E(X) = lim E(XN ). Il suffit donc de montrer E(XN Y ) = E(XN )E(Y ).
Remplaçant de même Y par des YM on est finalement réduit au cas de deux variables simples.
La covariance entre deux variables aléatoires X1 et X2 est définie dès que X1 , X2 ,
et X1 X2 sont intégrables, est nulle si X1 et X2 sont indépendantes, et vaut
C(X1 , X2 ) := E(X1 X2 ) − E(X1 )E(X2 )
[6] (inégalité de Cauchy-Schwarz, suite) Montrer que XY est intégrable dès que X
et Y sont à variances finies. Soit X c := X − E(X) et Y c := Y − E(Y ). Montrer
C(X, Y ) = E(X c Y c )
et
|C(X, Y )| ≤
p
V(X)V(Y )
Maîtrise MIM 2000-2001: Probabilités-Statistiques
2
7
2
De ∀x, y ∈ R |xy| ≤ |x| +|y|
déduisez 2E(|XY |) ≤ E(|X|2 ) + E(|Y |2 ). Remplacez X → λX,
2
p
Y
Y → λ et minimisez sur λ > 0 pour obtenir E(|XY |) ≤ E(|X|2 )E(|Y |2 ). Et si E(|X|2 ) = 0 ?
Moments
Les moments de X sont les espérances des puissances de X: Mn = E(X n ), n ≥ 1. On
pose M0 = R1. Pour que Mn existe il faut que X n soitR intégrable sur Ω. Ceci équivaut
n
n
à demander
R Rn |u| dPX (u) < ∞ et Mn vaut également R u dPX (u). Si X a une densité
Mn (X) = R u fX (u)du. Les moments centrés sont les quantités mn := Mn (X − E(X)).
[7] Montrer que si Mn (X) existe alors Mp (X) et mp (X) existent pour 1 ≤ p ≤ n.
−u2
[8] Soit X de densité fX (u) = a e 2 σ2 . Que vaut a (en fonction de σ > 0) ? (
R
2
R
e−πu du = 1.)
[9] Soit X comme dans l’exercice précédent. Montrer que X a des moments de tous ordres et les
calculer (ceux d’ordre impair sont nuls; les autres se calculent par récurrence avec une intégration par
parties.)
X suit la loi normale (centrée) de variance σ 2 et d’écart–type σ. On note: X ∼ N (0, σ 2 ) (on
rencontre parfois la notation N (0, σ) au lieu de N (0, σ 2 )).
Fonction caractéristique
Pour toute variable aléatoire X et tout nombre réel t les variables cos(tX) et sin(tX)
sont bornées donc intégrables. La fonction caractéristique de X est définie par
Z
itX
ϕX (t) := E(cos(tX)) + i E(sin(tX)) = E(e ) =
eitu dPX (u)
R
Théorème d’unicité (admis): Si deux variables aléatoires ont la même fonction
caractéristique alors elles ont la même loi.
La fonction caractéristique ϕX (t) est une fonction continue de t. Si X a des moments jusqu’à
l’ordre n on montre que ϕX (t) admet des dérivées sur R jusqu’à l’ordre n et que ses dérivées en
t = 0 sont données par:
(j)
0 ≤ j ≤ n ⇒ ϕX (0) = ij Mj (X)
Cumulants
Notons ψX (t) = log(ϕX (t)) (il s’agit ici du logarithme d’un nombre complexe; comme ϕX (t) est
une fonction continue de t qui vaut 1 en t = 0, elle est non nulle au moins dans un voisinage de
0, ce qui permet de définir ψX (t) dans ce voisinage comme l’unique fonction continue vérifiant
Université de Nice – Sophia Antipolis
8
ψX (0) = 0 et exp(ψX (t)) = ϕX (t).) Si X a des moments jusqu’à l’ordre n, ϕX (t) et donc ψX (t)
admettent des dérivées dans ce voisinage jusqu’à l’ordre n. Les cumulants κj (X) de X sont alors
définis par:
(j)
0 ≤ j ≤ n ⇒ ψX (0) = ij κj (X)
[10] On suppose que X est à variance finie. Montrer: κ0 = 0, κ1 = E(X), κ2 = V(X).
[11] On suppose E(|X|4 ) < ∞. Exprimer κ1 , κ2 , κ3 , κ4 en fonction de E(X), m2 , m3 , m4 .
Utilisez log(1 − z) = −z −
z2
2
− . . .. Le rapport
κ4
κ22
est appelé coefficient de kurtosis de (la loi de) X.
[12] Supposons que X a des moments et donc des cumulants jusqu’à l’ordre n. Soit a ∈ R une
constante. Comment s’expriment les cumulants de X + a en fonction de ceux de X? Soit λ 6= 0.
Comment s’expriment les cumulants de λX en fonction de ceux de X?
[13] Montrer que si X et Y sont indépendantes alors ϕX+Y = ϕX · ϕY . Comment s’expriment
alors les cumulants de X + Y en fonction de ceux de X et de Y ?
[14] Calculer la fonction caractéristique d’une variable normale.
Ind.: par la convergence dominée on a
Z X
Z
un
itu
e dPX (u) =
in tn dPX (u)
ϕX (t) =
n!
R n
R
Z n
X
X
1
Mn
u
dPX (u) =
in tn
= exp(− σ 2 t2 )
=
in tn
n!
2
R n!
n
n
2 ) et Y ∼ N (0, σ 2 ) deux variables normales indépendantes. Montrer
[15] Soient X ∼ N (0, σX
Y
2 + σ 2 )).
que X + Y est aussi une variable normale (de loi N (0, σX
Y
[16] Calculer les cumulants d’une variable normale.
[17] Soit X intégrable et centrée ayant des moments de tous ordres, d’écart–type
√
σ = m2 > 0. Soient Y1 , Y2 , . . . des variables aléatoires indépendantes et toutes
√ +YN . Calculer les cumulants κm (SN ) (m =
de même loi que X. Soit SN = Y1 + ...
σ N
2, 3, . . .) en fonction de ceux de X. Que se passe-t-il lorsque N → +∞?
Réfléchissez à cette question en ayant à l’esprit le résultat suivant:
Théorème: Toute variable aléatoire ayant les mêmes moments (ou les mêmes cumulants) qu’une
variable normale est une variable normale.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
9
Exercices supplémentaires et compléments
[18] Montrer que pour une suite croissante d’évènements A1 ⊂ A2 ⊂ . . . on a P (A1 ∪ A2 ∪
. . .) = limn→∞ P (An ). Et pour une suite décroissante B1 ⊃ B2 ⊃ . . . on a P (B1 ∩ B2 ∩ . . .) =
limn→∞ P (Bn ).
[19] (Borel–Cantelli I) Soient A1 , A2 , . . . des évènements tels que P (A1 ) + P (A2 ) + . . . < ∞ et
soit pour n ≥ 1 Bn = An ∪ An+1 ∪ . . .. Montrer P (B1 ∩ B2 ∩ . . .)
P= 0. Interprétation ?
(B1 , B2 , . . . est une suite décroissante d’évènements et P (Bn ) ≤ m≥n P (Am ).)
[20] (Borel–Cantelli II) Soient A1 , A2 , . . . des évènements indépendants tels que P (A1 ) + P (A2 ) +
. . . = ∞ et soit pour n ≥ 1 Bn = An ∪ An+1 ∪ . . .. Montrer P (B1 ∩ B2 ∩ . . .) = 1. Interprétation
?
Q
(Montrer ∀n j≥n (1 − P (Aj )) = 0 et en déduire ∀n P (¬Bn ) = 0.)
[21] Soit X une variable aléatoire de fonction de distribution FX (t) = P (X ≤ t). Montrer que FX
est une fonction croissante, continue à droite et vérifiant limt→−∞ FX (t) = 0, limt→+∞ FX (t) = 1.
[22] Soit X une variable aléatoire ne prenant qu’une quantité dénombrable de valeurs distinctes
x1 , x2 , . . .. Montrer que FX (t) est continue en tout t ∈ R \ {x1 , x2 , . . .} et a une discontinuité en
t = xi de hauteur P (X = xi ).
[23] On suppose que la distribution de la variable aléatoire X a une densité fX (u), c’est-à-dire
Rb
que ∀a ≤ b P (a ≤ X ≤ b) = a fX (u) du. Montrer que FX (t) est une fonction continue en tout
point.
Matrice des variances–covariances
La matrice des variances–covariances de X1 , . . . , Xn (de variances finies) est une matrice n × n
symétrique C = (ci,j ) définie par ∀ i, j ci,j := C(Xi , Xj ). En particulier la diagonale de C donne
les variances des Xi .
[24] Soient X1 , X2 , . . . , XN des variables aléatoires deux-à-deux indépendantes et de variances
finies. Montrer l’égalité V(X1 + . . . + XN ) = V(X1 ) + . . . + V(XN ).
 
α1
[25] Soient X1 , . . . , Xn de matrice des variances–covariances C. Pour tout vecteur α :=  · · · 
αn
montrer que αt · C · α est la variance de X := α1 X1 . . . + αn Xn et est donc positif (ou nul) (par
un théorème d’algèbre cela implique det(C) ≥ 0.)
Université de Nice – Sophia Antipolis
10
Théorème de dérivation sous le signe somme
Soit (X , F, µ) un espace mesuré. Soit I ⊂ R un intervalle ouvert, F (t, x) une
fonction sur I × X , mesurable par rapport à x pour chaque t. On suppose qu’il
existe une fonction intégrable g(x) avec
∀t, x |F (t, x)| ≤ g(x)
R
Soit A(t) = X F (t, x)dµ(x). Si F (t, x) est continue par rapport à t pour chaque
x fixé, alors A(t) est une fonction continue de t. Si F (t, x) est dérivable par rapport à t sur I pour chaque x fixé et si il existe une fonction intégrable k(x) avec
R ∂
∂
F (t, x)| ≤ k(x) alors A(t) est dérivable sur I et A′ (t) = X ∂t
F (t, x)dµ(x).
∀t, x | ∂t
[26] Montrer que ϕX (t) est une fonction continue de t. Montrer que si X a des moments jusqu’à
(j)
l’ordre n alors ϕX (t) admet des dérivées sur R jusqu’à l’ordre n et 0 ≤ j ≤ n ⇒ ϕX (0) =
j
i Mj (X).
[27] Soit X bornée. Montrer que X a des moments de tous ordres et que ϕX (t) =
(montrer que la série entière a un rayon de convergence infini).
P
n≥0 i
n Mn tn
n!
Distributions jointes et lois marginales
Soient X1 , . . . , Xn des variables aléatoires (sur le même espace probabilisé Ω). Leur distribution
(ou loi) jointe PX1 , ... ,Xn est la loi de probabilité sur Rn vérifiant
PX1 ,
... ,Xn
( ]a1 , b1 ] × . . . ×]an , bn ] ) = PΩ (a1 < X1 ≤ b1 et . . . et an < Xn ≤ bn )
Une loi de probabilité P sur Rn étant donnée, les fonctions coordonnées
Xi (u1 , . . . , un ) = ui
deviennent des variables aléatoires dont les lois individuelles sont appelées lois marginales de la
loi jointe P . Par exemple la fonction de distribution de X1 est
F1 (u) = P ( ] − ∞, u] × R × . . . × R )
Lorsque la loi jointe est une densité:
dP = f (u1 , . . . , un )du1 du2 . . . dun , chacune des Xi a une
R
densité, par exemple fX1 (u1 ) = Rn−1 f (u1 , . . . , un )du2 . . . dun . Pour que X1 , . . . , Xn soient
indépendantes il faut et il suffit que PX1 , ... ,Xn soit la mesure–produit de ses lois marginales (dans
le cas à densité: f (u1 , . . . , un ) = fX1 (u1 ) . . . fXn (un ) pour (presque) tout n-uple (u1 , . . . , un )).
Maîtrise MIM 2000-2001: Probabilités-Statistiques
11
Mesure de Lebesgue
La mesure de Lebesgue λ est l’unique mesure sur BR pour laquelle λ([a, b]) = λ(]a, b[) = b−a (b ≥
a) (note technique: habituellement on étend λ à BR∗ , une tribu plus vaste que BR et qui contient
en particulier tous les ensembles inclus dans des Boréliens de mesure nulle. Un ensemble A est
dans BR∗ si on peut trouver un Borélien B de sorte que la différence symétrique A△B soit inclus
dans un Borélien C
R de mesure nulle). On
R conserve pour les intégrales de fonctions mesurables
sur R la notation f (x) dx plutôt que f (x) dλ(x). Une fonction bornée sur un intervalle fini
qui est intégrable au sens de Riemann est intégrable au sens de Lebesgue et les deux intégrales
R∞
ont la même valeur. Une intégrale impropre comme 0 sin(x)
x dx n’est pas une intégrale au sens
de Lebesgue car elle n’est pas absolument convergente. Cependant on lui donnera la valeur π2 car
RX
π
on peut montrer limX→∞ 0 sin(x)
x dx = 2 .
Exercices
[28] Soient X et Y indépendantes de même distribution uniforme à valeurs sur le segment [0, L].
Quelle est la loi de X − Y ? Quelle est la loi de X + Y ?
[29] Soient X, Y , Z indépendantes uniformément distribuées sur le segment [0, 1]. Quelle est la
loi de X + Y + Z ?
a
[30] Soit X une variable aléatoire ayant une loi de densité 1+u
2 . Quelle est la valeur de a? Quelle
est la probabilité que |X| ≤ 1? Montrer que X n’a ni espérance ni variance.
[31] Soient k > 0 et X une variable aléatoire ayant une loi de densité f (u) = a u2 e−ku pour
u ≥ 0, f (u) = 0 sinon. Que vaut a? Quelle est l’espérance de X? sa variance? Quelle est la
probabilité que |X| ≤ k1 ?
[32] Soient t > 0. Quelle est la probabilité p(t) que deux variables indépendantes X et Y
uniformément distribuées sur [0, 1] vérifient X + Y ≤ 1 et XY ≤ t?
[33] Soit X une variable aléatoire ayant une loi de densité a e−|u| , −∞ < u < +∞. Quelle est la
valeur de a? Quelle est l’espérance de X? sa variance? Quelle est la probabilité que |X| ≤ 1 ?
[34] Un individu circulant dans un véhicule rencontre successivement des feux de circulation
indépendants chacun ayant probabilité 1/2 d’être au vert (ou au rouge). Soit X le nombre de
feux verts qu’il rencontre avant d’être arrété à un feu rouge. Quelle est la distribution de X?
Quelle est l’espérance de X? Quelle est la variance de X?
[35] On lance un dé. Soit X le résultat dans {1, 2, 3, 4, 5, 6}. Quelle est son espérance e ? et sa
variance σ 2 ? Quelle est la probabilité que |X − e| > σ ?
[36] On lance trois dés. Quelle est la probabilité pour que la somme des points excède (strictement) 10?
[37] (Problème du chevalier de Méré) Est-il plus probable d’obtenir au moins une fois un 6 en
lançant 4 fois un dé que d’obtenir au moins une fois les deux 6 en lançant 24 fois deux dés
simultanément?
12
Université de Nice – Sophia Antipolis
[38] On fait n tirages avec remise dans une urne contenant des jetons numérotés de 1 à N . Soit
X le plus petit numéro tiré. Quelle est la loi de X? Même question pour des tirages sans remise.
[39] (difficile) En un bureau de poste isolé on a comptabilisé en une année 500 lettres déposées.
En considérant que chacune a été déposée indépendamment des autres en un jour au hasard parmi
300, donner en fonction de k l’espérance du nombre de journées au cours desquelles exactement
k lettres ont été déposées, ainsi qu’une valeur approchée.
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
13
Notes de cours et exercices (2)
Classes de fonctions mesurables. Espaces L1 et L2 . Espaces de Hilbert. Projections orthogonales, Matrices de Gram. Régression, mise à jour d’une estimation.
Dans un premier temps nous continuons notre exploration de la théorie de l’intégration abstraite. C’est
assez technique mais ensuite nous reviendrons à des considérations plus terre-à-terre.
Rôle des ensembles de mesure nulle
Supposons qu’une v.a. (abréviation pour “variable aléatoire”) X vérifie E(|X|) = 0. Cela veut-il dire
que X = 0 ? Rappelons que X est une fonction sur Ω, la question est donc: est-ce que E(|X|) = 0
implique ∀ω X(ω) = 0 ? La réponse est non. Supposons par exemple que X soit la fonction indicatrice
d’un évènement A de probabilité nulle. On a X = 1 sur A et X = 0 sur ¬A. Par définition E(|X|) =
1 ∗ P (A) + 0 ∗ P (¬A) = P (A). Ainsi E(|X|) = 0 mais cependant il est faux que “X = 0 (partout)”. Ce
qui est vrai en général n’est pas “X(ω) = 0 (pour tout ω)” mais “X(ω) = 0 (pour presque tout ω)”, ce
qui signifie: “soit B l’évènement {X = 0}, alors P (B) = 1”. La démonstration est demandée en exercice.
[1] Démontrer: X est intégrable et E(|X|) = 0 ⇔ X = 0 avec probabilité 1.
On utilisera la notation “X = Y p.s.” ( p.s. = “presque sûrement”) pour signifier que l’évènement
X 6= Y est de probabilité nulle. Plus généralement, sur un espace mesuré on écrit “f (x) = g(x) p.p.”
( p.p. = “presque partout”) si l’ensemble des x où l’égalité est fausse est de mesure nulle. Voici un
théorème de convergence important qui utilise cette notion:
Théorème: Soient fn (x), n ∈ N des fonctions mesurables sur un espace mesuré X ,
P R
P
telles que n X |fn (x)| dµ(x) < ∞. Alors la série n fn (x) converge absolument
presque partout, et si on note F (x) la somme en ce cas, et F (x) = 0 sinon, alors
R
P R
F est intégrable et X F (x) dµ(x) = n X fn (x) dµ(x)
Ce théorème est dû à Lebesgue. On a aussi:
„
Théorème de la convergence dominée (2ieme version): Si hn (x) est une suite
de fonctions intégrables qui sont toutes presque partout dominées par une fonction
intégrable fixe g(x):
∀n : |hn (x)| ≤ g(x) p.p.
et qui convergent en presque tout x vers une limite h(x) alors h est elle-même
mesurable et intégrable (on définit h(x) de manière arbitraire sur les x où la série
R
R
R
diverge). De plus limn→∞ hn dµ = hdµ et limn→∞ |hn − h|dµ = 0
Note 1: Il revient au même de demander que pour presque tout x on ait ∀n |hn (x)| ≤ g(x) ou que pour
tout n on ait |hn (x)| ≤ g(x) p.p.
Université de Nice – Sophia Antipolis
14
Note: Dans le théorème de la convergence monotone et d’autres situations il est utile d’autoriser à une
fonction de prendre la valeur +∞. On retiendra la règle: l’intégrale de la constante +∞ sur une partie
de mesure nulle vaut 0 (∞ ∗ 0 = 0), c’est une convention très commode dans la théorie de l’intégration.
Classes d’équivalence de fonctions mesurables
[2] Sur un espace mesuré X on note f ∼ g si f (x) = g(x) p.p.. Montrer que “∼” est une relation
d’équivalence: ∀f f ∼ f
∀f, g f ∼ g ⇔ g ∼ f
∀f, g, h f ∼ g et g ∼ h ⇒ f ∼ h
[3] Montrer: f ∼ g et h ∼ k ⇒ (f + h) ∼ (g + k) et de même f ∼ g et h ∼ k ⇒ (f ∗ h) ∼ (g ∗ k). De
plus f ∼ g ⇒ ∀λ ∈ R λ · f ∼ λ · g.
R
R
[4] Soit f intégrable. Montrer: si g ∼ f alors g est intégrable et de plus X g(x)dµ(x) = X f (x)dµ(x).
Espaces L1 et L2
Définition: On note L1 (X , µ) (ou si il n’y a pas de risque de confusion simplement L1 ) l’espace des
classes d’équivalence de fonctions intégrables sur l’espace mesuré (X , µ). On pose
kf k1 =
Z
X
|f (x)| dµ(x)
Note: Bien que les éléments de L1 (X , µ) soient en réalité des classes d’équivalence il est une pratique
courante de continuer à en parler comme si il s’agissait toujours de fonctions sur X . En général cela ne
porte pas à confusion.
[5] Soit X ne comportant que deux points α et β. On suppose que toutes les parties (∅, {α}, {β} et X )
de X sont mesurables et que la mesure µ est définie µ({α}) = +∞, µ({β}) = 0. Quelle est la dimension
du R-espace vectoriel des fonctions mesurables? des fonctions intégrables? de l’espace L1 ?
Note: La terminologie peut prêter à confusion. En effet la notion de fonction mesurable ne nécessite
pas la présence d’une mesure, mais uniquement d’une tribu de sous-ensembles. Par contre la notion de
fonction intégrable dépend du choix de la mesure.
[6] Montrer que L1 est un espace vectoriel, et:
kf k1 = 0 ⇔ f = 0
kλ · f k1 = |λ|kf k1
kf + gk1 ≤ kf k1 + kgk1
On dit que L est un “espace vectoriel normé.” Il possède une propriété importante, qui se démontre
en utilisant les théorèmes de convergence de Lebesgue: il est “complet”, ce qui signifie que toute suite
de Cauchy y est convergente. C’est-à-dire: si fn est une suite d’éléments de L1 possédant la propriété
limn,m→∞ kfn − fm k1 = 0 alors il existe un (unique) élément f de L1 tel que limn→∞ kfn − f k1 = 0.
1
[7] Montrer en utilisant les théorèmes de convergence de Lebesgue que L1 est complet.
La solution est donnée en annexe.
Cette propriété est partagée par l’espace L2 que nous définissons maintenant, et c’est d’ailleurs surtout
pour L2 que nous en ferons bon usage à l’avenir.
Définition: On note L2 (X , µ) (ou si il n’y a pas de risque de confusion simplement L2 ) l’espace des
classes d’équivalence de fonctions de carrés intégrables sur l’espace mesuré (X , µ). On pose
kf k2 =
sZ
X
|f (x)|2 dµ(x)
Maîtrise MIM 2000-2001: Probabilités-Statistiques
15
[8] Montrer ∀a, b ∈ R 2|ab| ≤ (a2 + b2 ). En déduire:
2
2
f, g ∈ L2 ⇒ f · g ∈ L1 et 2kf gk1 ≤ (kf k2 ) + (kgk2 )
On peut améliorer la dernière inégalité:
[9] (Cauchy-Schwarz)
kf gk1 ≤ kf k2 kgk2
[10] Montrer que L2 est un espace vectoriel, et:
kf k2 = 0 ⇔ f = 0
kλ · f k2 = |λ|kf k2
kf + gk2 ≤ kf k2 + kgk2
Comme L1 , L2 est un “espace vectoriel normé.” Et comme L1 il est “complet”: toute suite de Cauchy
est convergente. La norme de L2 a une définition en apparence plus compliquée que celle de L1 , mais
l’espace L2 a un rôle plus étendu en Mathématiques que celui de L1 (une généralisation faisant un usage
essentiel des nombres complexes joue aussi un rôle très important en Physique Quantique.)
[11] Montrer que L2 est complet.
La solution est donnée en annexe.
Espace de Hilbert
2
RDéfinition: Pour f et g dans L on note (f, g) et on appelle “produit scalaire de f et de g” la quantité
f
(x)g(x)
dµ(x).
Le
produit
scalaire
est une forme bilinéaire symétrique définie positive, ce qui signifie:
X
(f, λg + µh) = λ(f, g) + µ(f, h)
(f, g) = (g, f )
(f, f ) ≥ 0
(f, f ) = 0 ⇔ f = 0
p
La norme k · k2 est reliée au produit scalaire par la relation kf k2 = (f, f ).
[12] Montrer que dans tout espace vectoriel sur R muni d’une “forme bilinéaire symétrique définie positive” on a
∀f, g
|(f, g)|2 ≤ (f, f )(g, g)
Cela s’obtient par exemple à partir du fait que le polynôme quadratique P (λ) = (f + λg, f + λg)
ne prend que des valeurs positives.
p
En déduire que kf k = (f, f ) a les propriétés d’une norme:
kf k = 0 ⇔ f = 0
kλ · f k = |λ|kf k
kf + gk ≤ kf k + kgk
On peut associer dans cette situation très générale un angle θ ∈ [0, π] à tout couple de vecteurs
non-nuls f et g par la relation (f, g) = cos(θ)kf k kgk (en effet kf(f,g)
k kgk est compris entre −1 et
+1).
Définition: On appelle Espace de Hilbert tout espace vectoriel réel muni d’une
forme bilinéaire symétrique définie positive et qui est complet pour la norme associée.
À l’origine se trouve la généralisation par Hilbert à partir de 1904
P de la géométrie Pythagoricienne à la dimension infinie (l’espace des suites (cn ) avec n |cn |2 < ∞) pour l’étude
des “équations intégrales” et des “séries de Fourier”. L’exercice [11] est (essentiellement)
un résultat obtenu par Riesz et Fischer en 1907: pour tout espace mesuré, l’espace des
classes d’équivalence de fonctions mesurables de carrés intégrables est un espace de Hilbert.
L’espace de Hilbert (avec l’emploi des nombres complexes) est fondamental en Physique
Quantique.
Université de Nice – Sophia Antipolis
16
Projections orthogonales et matrices de Gram
Définition: Soient v1 , . . . , vn (n ≥ 1) des vecteurs dans un espace de Hilbert H. La matrice n × n
symétrique définie par Gij = (vi , vj ) est appelée “matrice de Gram de v1 , . . . , vn ”. On dit que v1 , . . . , vn
forment un système orthogonal si leur matrice de Gram est diagonale. On dit que v1 , . . . , vn forment un
système orthonormé si leur matrice de Gram est la matrice identité.
[13] On suppose que v1 , . . . , vn est un système orthogonal indépendant. Soit V ⊂ H l’espace vectoriel
de dimension n qu’ils engendrent. Soit u un vecteur de H et soit
X (u, vj )
u∗ =
vj
(vj , vj )
j
Montrer ∀v ∈ V (u, v) = (u∗ , v) et ku − vk2 = ku − u∗ k2 + ku∗ − vk2 . Montrer qu’il existe un unique
v ∈ V qui minimise ku − vk et qu’il s’agit de u∗ . En déduire que u∗ ne dépend que de u et de l’espace
vectoriel V et pas du choix du système orthogonal.
On note u∗ = πV (u) et on dit que u∗ est la projection orthogonale de u sur V (en effet ∀v ∈ V
u∗ , v) = 0 autrement dit u − u∗ ⊥ V )
(u −
Montrer que πV est un “opérateur linéaire”:
∀u1 , u2
∀λ1 , λ2
πV (λ1 u1 + λ2 u2 ) = λ1 πV (u1 ) + λ2 πV (u2 )
Nous allons montrer que pour tout V ⊂ H de dimension finie on peut trouver un système orthogonal
indépendant et donc que πV existe.
[14] (Orthogonalisation de Gram-Schmidt) On suppose que v1 , . . . , vn sont linéairement indépendants
et forment une base du sous-espace V de H. On fait l’hypothèse de récurrence Hk d’avoir déterminé
un système orthogonal indépendant w1 , . . . , wk qui engendre le même espace vectoriel Vk que v1 , . . . , vk
(en prenant w1 = v1 , H1 est vérifiée.) On définit alors wk+1 par la formule: wk+1 = vk+1 − πVk (vk+1 ).
Montrer que Hk+1 est vérifiée avec ce choix de wk+1 . Donc Hn est vrai ce qui montre comment construire
un système orthogonal qui engendre Vn = V , et donc l’existence de πV .
[15] On suppose que v1 , . . . , vn sont linéairement indépendants. Montrer l’existence d’une matrice n × n
inversible A telle que G = At · A, en déduire det(G) > 0. (exprimer les vi dans une base orthonormée.)
[16] On suppose que v1 , . . . , vn sont linéairement dépendants. Montrer det(G) = 0.
[17] On suppose que v1 , . . . , vn ∈ H sont indépendants, de matrice de Gram G. Soit
V le sous-espace de H qu’ils engendrent. Soit u ∈ H. Montrer:

v1
.
πV (u) = [(u, v1 ) . . . (u, vn )] · G−1 ·  .. 
vn

(la notation utilise la multiplication matricielle)
[18] Soit H un espace de Hilbert et V ⊂ H un sous-espace vectoriel. Montrer que
la condition nécessaire et suffisante pour l’existence pour tout u ∈ H de u∗ ∈ V
minimisant la distance ku − vk sur tous les v ∈ V est que V soit “fermé”, ce qui
signifie: toute suite de Cauchy de vecteurs dans V a sa limite également dans V .
La solution est donnée en annexe.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
17
Matrices symétriques
[19] Soient v1 , . . . , vn des vecteurs de matrice de Gram G. Soit x ∈ Rn un vecteur colonne de coordonnées
les nombres réels x1 , . . . , xn . Soit v = x1 v1 + . . . + xn vn . Montrer que (v, v) vaut xt · G · x.
[20] Soit v1 , . . . , vn de matrice de Gram G et w1 , . . . , wm des combinaisons linéaires. Soit A la matrice
(n lignes, m colonnes) exprimant les wj en fonction des vi . Soit K la matrice de Gram de w1 , . . . , wm .
Montrer: K = At · G · A.
[21] On suppose que v1 , . . . , vn sont linéairement indépendants. Indiquer un moyen algorithmique efficace
pour calculer G−1 .
[22] Montrer qu’une matrice carrée G est une matrice de Gram (pour un bon choix d’espace H et de
vecteurs vi ) si et seulement si il existe une matrice carrée B avec G = B t · B si et seulement si il existe
une matrice rectangulaire A avec G = At · A.
Définition: On dit d’une matrice M = (mij ) symétrique qu’elle est positive si
∀x1 , . . . , xn
X
ij
mij xi xj ≥ 0
Elle est dite définie positive si elle est positive et de plus de déterminant non nul.
[23] Montrer qu’une matrice symétrique positive M = (mij ) est définie positive si et seulement si
∀x1 , . . . , xn
X
ij
mij xi xj = 0 ⇒ ∀i xi = 0
[24] Montrer qu’une matrice symétrique est une matrice de Gram si et seulement si elle est positive.
Meilleure estimation au sens des moindres carrés
Supposons données des v.a. X1 , . . . , Xn et Y . Dans la pratique on imagine avoir observé les valeurs
effectivement prises par les Xi et on veut estimer Y . La régression linéaire consiste à déterminer des
coefficients α0 , α1 , . . . , αn de sorte que l’approximation de Y par Y ∗ = α0 + α1 · X1 + . . . + αn · Xn soit
la “meilleure possible”. La meilleure estimation au sens des moindres carrés consiste à choisir comme
mesure de l’erreur kY −Y ∗ k2 . La raison principale de choisir spécifiquement la norme de L2 (= L2 (Ω, P ))
comme mesure de l’erreur est que l’on peut écrire la solution exacte de ce problème avec la notion de
projection orthogonale: soit V l’espace vectoriel engendré par X1 , . . . , Xn et par la v.a. certaine X0 = 1.
Alors Y ∗ = πV (Y ). Pour la suite nous ferons usage de la notion introduite en feuille 1 de matrice des
variances-covariances.
[25] Montrer que la matrice de Gram G de X0 (= 1), X1 , . . . , Xn et la matrice des variances-covariances
C de X1 , . . . , Xn ont le même déterminant.
[26] Montrer que X0 (= 1), X1 , . . . , Xn sont linéairement indépendants dans L2 si et seulement si la
matrice C des variances-covariances de X1 , . . . , Xn est inversible.
[27] On suppose que la matrice C des variances-covariances de X1 , . . . , Xn est inversible. Montrer que
la solution Y ∗ du problème de régression linéaire de Y par les Xi est donnée explicitement par

X1 − E(X1 )


..
Y ∗ = E(Y ) + C(Y, X1 ) . . . C(Y, Xn ) · C−1 · 

.

Xn − E(Xn )
18
Université de Nice – Sophia Antipolis
Mise à jour d’une projection orthogonale
[28] On imagine chercher à estimer une v.a. Y sous un flux d’information X1 , X2 , . . .. Soit Y|n la régression
de Y connaissant X1 , . . . , Xn . De même soit Xn+1|n la régression de Xn+1 connaissant X1 , . . . , Xn . Ainsi
ǫn+1|n = Xn+1 − Xn+1|n est la “nouvelle information” à l’instant n + 1. Soit δn l’erreur (quadratique)
E(|Y − Y|n |2 ). Montrer les relations de récurrence suivantes en supposant ∀n ǫn+1|n 6= 0:
Y|0 = E(Y )
δ0 = V(Y )
Y|n+1 = Y|n + C(Y, ǫn+1|n )
δn+1 = δn −
ǫn+1|n
V(ǫn+1|n )
C(Y, ǫn+1|n )2
V(ǫn+1|n )
[29] Connaissant X1 , . . . , Xn on se donne d’un seul coup k v.a. supplémentaires Xn+1 , . . . ,Xn+k . Montrer
les formules matricielles suivante (avec ǫn+k|n = Xn+k − Xn+k|n ):


ǫn+1|n


Y|n+k = Y|n + C(Y, ǫn+1|n ) . . . C(Y, ǫn+k|n ) · C(ǫn+1|n , . . . , ǫn+k|n )−1 ·  ... 
ǫn+k|n


C(Y, ǫn+1|n )


..
δn+k = δn − C(Y, ǫn+1|n ) . . . C(Y, ǫn+k|n ) · C(ǫn+1|n , . . . , ǫn+k|n )−1 · 

.
C(Y, ǫn+k|n )
Quelques démonstrations difficiles
L1 est complet
Soit (fn )n∈N une suite de Cauchy dans L1 (X , µ). On peut en extraire une sous-suite gk = fnk avec
P
P
n0 < n1 < . . . et kgk − gk+1 k1 ≤ 2−k . Comme
kgk − gk+1 k1 < ∞, la série k (gk (x) − gk+1 (x))
est presque partout absolument convergente, de limite intégrable G(x). De plus (par le théorème
P
P
de la convergence monotone) kG − 0≤k<N (gk − gk+1 )k1 ≤ k≥N kgk − gk+1 k1 qui tend vers 0
P
lorsque N → ∞. Donc G est la limite dans L1 de 0≤k<N (gk − gk+1 ), c’est-à-dire de g0 − gN . On
a aussi presque partout G(x) = limN (g0 (x) − gN (x)). Donc limN gN (x) existe presque partout
(= g0 (x) − G(x)) et est intégrable (car G et g0 le sont.) Soit f (x) cette (classe d’équivalence de)
fonction: f (x) = g0 (x) − G(x), qui est donc la limite pour la norme de L1 de la suite gk . Notons
A(N ) = supn,m≥N kfn − fm k1 . Par définition d’une suite de Cauchy on a limN →∞ A(N ) = 0.
Pour tout k et tout n ≥ nk on a kf − fn k1 ≤ kf − fnk k1 + kfnk − fn k1 ≤ kf − gk k1 + A(nk ) donc
limsupn→∞ kf − fn k1 ≤ kf − gk k1 + A(nk ). Comme k est arbitraire on le fait aller vers +∞ et
on obtient limsupn→∞ kf − fn k1 = 0. Donc f est la limite dans L1 de la suite (fn ).
Maîtrise MIM 2000-2001: Probabilités-Statistiques
19
L2 est complet
Soit (fn )n∈N une suite de Cauchy dans L2 (X , µ). On peut en extraire une sous-suite gk = fnk avec
n0 < n1 < . . . et kgk − gk+1 k2 ≤ 2−k . Posons u1 = g1 − g2 , u2 = g2 − g3 , etc. . . On commence par
P
montrer que la série j uj (x) est presque partout absolument convergente. Pour cela on évalue:
Z X
J
X
j=1
J Z
J
J
2
X
2
X
X
|uj (x)||uk (x)|dµ(x) ≤
|uj (x)| dµ(x) =
kuj k2 ≤ 1
kuj k2 kuk k2 =
j,k=1 X
j=1
j,k=1
2
Par le théorème de la convergence monotone on en déduit que X
j=1 |uj (x)| dµ(x) ≤ 1
P∞
P
et donc que pour presque tout x on a j=1 |uj (x)| < ∞. Posons alors U (x) = ∞
j=1 uj (x) (et
R
2
2
U (x) = 0 en cas de divergence.) On a X |U (x)| dµ(x) ≤ 1 donc U ∈ L . De plus par la même
R P∞
méthode on voit que
Z X
X
j>J
2
X
2
kuj k2 = 4−J
|uj (x)| dµ(x) ≤
j>J
P
P
Or pour presque tout x on a |U (x) − Jj=1 uj (x)| ≤ j>J |uj (x)| donc U est la limite dans L2
P
de Jj=1 uj = g1 − gJ+1 lorsque J → ∞. On a donc montré l’existence d’une limite (f = g1 − U )
dans L2 pour gk . Notons A(N ) = supn,m≥N kfn − fm k2 . Par définition d’une suite de Cauchy on
a limN →∞ A(N ) = 0. Pour tout k et tout n ≥ nk on a kf − fn k2 ≤ kf − fnk k2 + kfnk − fn k2 ≤
kf − gk k2 + A(nk ) donc limsupn→∞ kf − fn k2 ≤ kf − gk k2 + A(nk ). Donc limsupn→∞ kf − fn k2 ≤
limk→∞ (kf − gk k2 + A(nk )) = 0. Donc f est la limite dans L2 de la suite (fn ).
Projection orthogonale
Soit H un espace de Hilbert et V un sous-espace vectoriel. Supposons que pour tout u ∈ H il
existe u∗ dans V qui minimise ku − vk sur v ∈ V . Soit (vn ) une suite de Cauchy de vecteurs
tous dans V . Comme H est un espace de Hilbert, la suite converge vers un vecteur u ∈ H. On
a lim ku − vn k = 0 donc nécessairement ku − u∗ k = 0, mais alors u = u∗ . Ainsi toute suite de
Cauchy de vecteurs dans V a sa limite dans V . Un sous-espace de H ayant cette propriété est
dit “fermé”.
Nous allons maintenant montrer que réciproquement la projection orthogonale πV existe pour
tout sous-espace V fermé de l’espace de Hilbert H. Soit u ∈ H et notons α = inf v∈V ku − vk.
Soit (vn ) une suite de vecteurs de V avec α = lim ku − vn k. En utilisant l’identité suivante (dite
du parallélogramme):
kv − wk2 + kv + wk2 = 2kvk2 + 2kwk2
pour v = vn − u et w = vm − u on obtient
kvn − vm k2 + kvn + vm − 2uk2 = 2kvn − uk2 + 2kvm − uk2
Université de Nice – Sophia Antipolis
20
kvn − vm k2 = 2kvn − uk2 + 2kvm − uk2 − 4k
vn + vm
− uk2
2
kvn − vm k2 ≤ 2kvn − uk2 + 2kvm − uk2 − 4α2
d’où limsupn,m→∞ kvn − vm k2 ≤ 2α2 + 2α2 − 4α2 = 0, autrement dit (vn ) est une suite de
Cauchy. Soit u∗ sa limite qui est donc dans V (car celui-ci est supposé fermé.) On a ku − u∗ k =
lim ku − vn k = α, donc pour tout v ∈ V on a ku − vk ≥ ku − u∗ k. Soit w ∈ V quelconque
et considérons le polynôme P (t) = ku − u∗ + twk2 = ku − u∗ k2 + 2t(u − u∗ , w) + t2 kwk2 . Ce
polynôme a un minimum en t = 0 donc nécessairement (u − u∗ , w) = 0. De plus on a alors
ku − u∗ + wk2 = ku − u∗ k2 + kwk2 de sorte que ku − u∗ + wk > ku − u∗ k dès que w 6= 0.
Ainsi u∗ est l’unique vecteur de V avec ku − u∗ k = inf v∈V ku − vk, et il est aussi l’unique
vecteur de V avec ∀w ∈ V (u − u∗ , w) = 0. Comme u∗ est unique on peut le noter πV (u). La
propriété ∀w ∈ V (u − u∗ , w) = 0 justifie l’appellation de “projection orthogonale”. Finalement
les conditions (u − u∗ , w) = 0 sont linéaires, donc on vérifie aisément la propriété de linéarité
∀u1 , u2
∀λ1 , λ2
πV (λ1 u1 + λ2 u2 ) = λ1 πV (u1 ) + λ2 πV (u2 )
Ce théorème est le premier théorème sérieux de la très vaste Théorie des Espaces de Hilbert, aux
multiples ramifications en Mathématiques comme en Physique.
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
21
Notes de cours et exercices (3)
Inégalité de Tchebychev et “Théorème d’or” de Jacques Bernoulli. Convergence en loi, théorème de Lévy-Bochner. Loi des grands nombres et théorème
de la limite centrale.
Soient X une v.a. et X1 , X2 , . . . des v.a. indépendantes de même loi que X (on dit que les Xn sont i.i.d.:
indépendantes et identiquement distribuées.) Cette leçon est consacrée à des théorèmes classiques de
la Théorie des Probabilités, pour la démonstration complète desquels plus de deux siècles d’efforts par
de nombreux mathématiciens furent nécessaires, depuis les résultats de J. Bernoulli au XVIIième siècle
jusqu’aux travaux de Paul Lévy dans les années 1920.
Loi des grands nombres:
Si E(|X|) < ∞ alors
∀δ > 0
Pn
k=1 Xk
lim P − E(X) > δ = 0
n→∞
n
Théorème de la limite centrale:
p
Si E(|X|2 ) < ∞ et σ = V(X) > 0
∀a ≤ b lim P (aσ ≤
n→∞
Pn
k − E(X))
k=1 (X√
n
1
≤ bσ) = √
2π
Z
b
2
e−x
/2
dx
a
[1] Soit X vérifiant E(|X|2 ) < ∞. Montrer que la loi des grands nombres est une conséquence du
Théorème de la limite centrale.
Inégalité de Tchebychev et loi des grands nombres
[2] (Inégalité de Tchebychev) Soit Y de carré intégrable. Montrer
∀δ > 0 P (|Y | ≥ δ) ≤
E(|Y |2 )
δ2
et P (|Y − E(Y )| ≥ δ) ≤
Soient X tel que E(|X|2 ) < ∞, X1 , X2 , . . . i.i.d. de même loi que X et Sn =
V(Y )
δ2
Pn
k=1 Xk .
Université de Nice – Sophia Antipolis
22
[3] (Égalité de Bienaymé) Que vaut V(Sn ) ?
[4] Montrer la loi des grands nombres pour X.
[5] Soient Xn des v.a. deux-à-deux indépendantes, de variances bornées et telles que L =
limn→∞ E(Xn ) existe. Montrer que la loi des grands nombres s’applique:
Pn
k=1 Xk
− L > δ = 0
∀δ > 0 lim P n→∞
n
Ind.: on a L = limn→∞
Pn
E(Xk )
n
k=1
(moyenne de Césaro.)
Fonctions de distributions, inverses de Lévy
[6] Soit I un intervalle quelconque de R. Montrer que toute application Y : I → R croissante est mesurable pour la tribu B(I) des Boréliens et que l’ensemble des ses points de discontinuité est dénombrable.
[7] Dans la feuille 1 nous avons associé à toute v.a. X sa fonction de distribution FX (t) := P (X ≤ t).
Montrer que FX (t) est croissante, continue à droite, que limt→−∞ FX (t) = 0 et que limt→+∞ FX (t) = 1.
Nous allons montrer que toute fonction ayant ces propriétés est de la forme FX pour X bien choisi.
Définition: Une fonction de distribution est une fonction F : R → [0, 1] croissante,
continue à droite et telle que limt→−∞ F (t) = 0 et limt→+∞ F (t) = 1.
[8] (Inverse de Lévy) Soit F (t) une fonction de distribution. Soit Y :]0, 1[→ R
définie par: (un dessin aide à visualiser la situation) Y (ω) = inf {t ∈ R | F (t) ≥ ω}.
Montrer que Y est croissante. On considère ]0, 1[ comme un espace probabilisé pour
la mesure de Lebesgue m. Montrer que Y est une v.a. sur ]0, 1[ et que F (t) est sa
fonction de distribution au sens de la feuille 1 (∀t F (t) = m(Y ≤ t).)
Définition: Une suite de fonctions de distribution (Fn )n∈N converge (en distribution) vers la
fonction de distribution F si lim Fn (t) = F (t) en tout point de continuité de F (t). Notation:
Fn ⇒ F .
[9] Si Fn ⇒ F et Fn ⇒ G alors F = G.
Théorème de Skorohod: Si Fn ⇒ F alors les inverses de Lévy Yn (ω) convergent vers Y (ω) en
tout ω où Y est continue (donc en m−presque tout ω.)
Démonstration: (un cachet d’aspirine est recommandé) Soit ω ∈]0, 1[, fixé. Tout d’abord
(par définition) si t < Y (ω) alors F (t) < ω. Comme F n’a qu’un nombre dénombrable de
discontinuités, il existe de tels t arbitrairement proches de Y (ω) et vérifiant F (t) = lim Fn (t).
On a alors pour n grand Fn (t) < ω, d’où t < Yn (ω). Ainsi t ≤ liminf Yn (ω) et donc Y (ω) ≤
liminf Yn (ω). Posons maintenant Z(ω) = inf {t ∈ R | F (t) > ω}. Si F (t) > ω et si F (t) =
lim Fn (t) alors pour n grand Fn (t) > ω, donc t ≥ Yn (ω), donc t ≥ limsup Yn (ω). Ainsi Z(ω) ≥
limsup Yn (ω):
Y (ω) ≤ liminf Yn (ω) ≤ limsup Yn (ω) ≤ Z(ω)
Maîtrise MIM 2000-2001: Probabilités-Statistiques
23
Supposons Z(ω) > Y (ω). Pour t ∈ [Y (ω), Z(ω)[ on a F (t) ≥ ω mais pas F (t) > ω donc F (t) = ω.
Soit ε > 0 et u tel que F (u) ≥ ω+ε. Alors nécessairement u ≥ Z(ω), donc Y (ω+ε) ≥ Z(ω). Mais
alors Y n’est pas continue en ω. Ainsi si Y est continue en ω alors Y (ω) = Z(ω) (la réciproque
est vraie), lim Yn (ω) existe et vaut Y (ω).
Définition: Soit F une fonction de distribution et Y son inverse de Lévy. La loi de Y est appelée
mesure de Lebesgue-Stieltjes associée àR F : c’est donc (cf feuille 1) la mesure µF sur R définie
par
R µF (B) = m(Y
R ∈ B). On notera h(u) dF (u) l’intégration par rapport à µF . On a donc
h(u) dF (u) = h(u) dµF (u) = E(h(Y )).
[10] Montrer que µF est l’unique mesure sur R (muni de la tribu des Boréliens) vérifiant
∀a < b µF (]a, b]) = F (b) − F (a)
[11] On suppose Fn ⇒ F . Soit h(t) une fonction continue bornée sur R. Utiliser le Théorème de
Skorohod et le Théorème de la convergence dominée pour montrer
Z
Z
lim
h(t) dFn (t) =
h(t) dF (t)
n→∞
R
R
[12] Montrer la réciproque de l’exercice précédent.
Fonctions caractéristiques: le théorème de Lévy-Bochner
Définition: Une suite de v.a. (Xn )n∈N converge en loi vers une v.a. X si FXn ⇒ FX . Notation:
L(Xn ) → L(X).
Dans la feuille 1 nous avons associé à toute v.a. X sa fonction caractéristique ϕX (t) := E(ei tX ). Nous
admettons que deux variables aléatoires qui ont la même fonction caractéristique ont la même loi, ainsi
que le théorème fondamental suivant:
Théorème de Lévy-Bochner: Si f (t) = limn→∞ ϕXn (t) existe pour tout t et si
f (t) est continue en t = 0 alors f (t) est la fonction caractéristique d’une v.a. X et
L(Xn ) → L(X).
[13] Combiner les résultats précédents et montrer:
L(Xn ) → L(X)
⇐⇒
∀t lim ϕXn (t) = ϕX (t)
n→∞
Loi des grands nombres et théorème de la limite centrale
[14] Montrer que L(Xn ) → L(0) si et seulement si ∀δ > 0 limn→∞ P (|Xn | > δ) = 0.
(le “P” se rapporte à la mesure de probabilité sur l’espace où est défini Xn et peut varier à chaque n.)
[15] Montrer que L(Xn ) → N (0, 1) si et seulement si
∀a ≤ b
1
lim P (a ≤ Xn ≤ b) = √
n→∞
2π
Z
a
b
2
e−x
/2
dx
Université de Nice – Sophia Antipolis
24
[16] Reformuler la LGN et le TLC de la manière suivante:
X1 , X2 , . . . des v.a. i.i.d. de même loi que X.
Loi des grands nombres:
Si E(|X|) < ∞ alors
P
n
k=1 (Xk
L
n
− E(X))
Théorème de la limite
p centrale:
2
Si E(|X| ) < ∞ et σ = V(X) > 0
L
Pn
k − E(X))
k=1 (X√
n
Soient X une v.a. et
→ L(0)
→ N (0, σ)
[17] Montrer qu’il suffit de montrer la LGN (ou le TLC) lorsque E(X) = 0.
[18] Soit Z un nombre complexe et zn une suite de nombres complexes. Montrer
lim n · zn = Z
=⇒
n→∞
lim (1 + zn )n = eZ
Première démonstration: Pour n suffisamment grand on aura |zn | < 21 (car lim zn = 0) donc
P
k
le logarithme complexe log(1 + zn ) existe (et est donné par la série k≥1 (−1)k−1 zkn ). On aura
| log(1 + zn ) − zn | ≤
X |zn |k
k≥2
k
≤ C · |zn |2 avec C =
X
k≥2
1
≤1
k 2k−2
donc |n · log(1 + zn ) − n · zn | ≤ n · |zn |2
donc lim n · log(1 + zn ) = Z
n→∞
d’où le résultat recherché en prenant l’exponentielle (qui est une fonction continue).
P
Deuxième démonstration: On a (1 + zn )n = ∞
k=0 un,k avec un,k = 0 pour k > n et un,k =
n(n−1)···(n−k+1) k
zn pour 0 ≤ k ≤ n. Comme:
k!
∀k
et que eZ =
Zk
k k! ,
P
1(1 − n1 ) · · · (1 −
n→∞
k!
lim un,k = lim
n→∞
k−1
n )
le problème est de justifier
lim
n→∞
∞
X
k=0
un,k =
∞
X
k=0
lim un,k
n→∞
(nzn )k =
Zk
k!
Maîtrise MIM 2000-2001: Probabilités-Statistiques
25
Par un théorème classique sur les suites (qui est d’ailleurs généralisé
par le théorème de la converP
gence dominée) il suffit pour cela de trouver des vk ≥ 0 avec k vk < ∞ et ∀k, n |un,k | ≤ vk . Or
1
1 k
|un,k | ≤ k!
|nzn |k et il suffit de prendre vk = k!
C avec C = sup |nzn |.
[19] Montrer la loi des grands nombres.
Solution: On peut supposer
Pn E(X) = 0. Fixons t quelconque. Il suffit de montrer que la fonction
Xk
converge pour n → ∞ vers la fonction caractéristique de la
caractéristique ψn (t) de k=1
n
constante 0, c’est-à-dire vers 1. On a
Pn
Xk
i t k=1
n
ψn (t) = E e
Comme les Xk sont indépendantes on a
n
n
Y
Y
t
t
E(ei n Xk ) =
ψn (t) =
ϕ Xk ( )
n
k=1
k=1
Comme les Xk ont la même loi que X cela donne
t n
ψn (t) = ϕX ( )
n
Posons zn = ϕX ( nt ) − 1. Comme E(|X|) < ∞ on sait que ϕX (t) est dérivable en t = 0 de dérivée
égale à 0 (car E(X) = 0.) Donc lim n·zn = 0 et par conséquent lim ψn (t) = lim (1+zn )n = e0 = 1,
ce qui conclut la démonstration.
[20] Montrer le Théorème de la limite centrale.
Solution: On peut supposer
Pn E(X) = 0. Fixons t quelconque. Il suffit de montrer que la fonction
Xk
√
converge pour n → ∞ vers la fonction caractéristique de la loi
caractéristique ψn (t) de k=1
n
1
N (0, σ), c’est-à-dire vers la fonction t 7→ e− 2 σ
2 t2
. On a
Pn X k
√
i t k=1
n
ψn (t) = E e
Comme les Xk sont indépendantes on a
n
n
Y
Y
t
i √t X
E(e n k ) =
ψn (t) =
ϕ Xk ( √ )
n
k=1
k=1
Comme les Xk ont la même loi que X cela donne
n
t
ψn (t) = ϕX ( √ )
n
Posons zn = ϕX ( √tn ) − 1. Comme E(|X|2 ) < ∞ on sait que ϕX (t) admet des dérivées jusqu’à
l’ordre 2. En particulier en t = 0 on a ϕ′X (0) = i E(X) = 0 et ϕ′′X (0) = −E(X 2 ) = −σ 2 . Par
le développement de Taylor à l’ordre 2 on obtient donc lim n · zn = − 12 σ 2 t2 et par conséquent
1 2 2
lim ψn (t) = lim (1 + zn )n = e− 2 σ t , ce qui conclut la démonstration.
Note: La démonstration s’applique aussi pour σ = 0 avec comme conclusion
Pn
k − E(X))
k=1 (X
√
L
→ L(0)
n
Mais cela était évident a priori car si σ = 0, alors avec probabilité 1, tous les Xk valent E(X).
c
J.-F.
Burnol, 2001.
Université de Nice – Sophia Antipolis
26
Note historique sur les théorèmes limites classiques
Soit X une v.a. intégrable, X1 , X2 , . . . des v.a. i.i.d. de même loi que X et Sn =
Loi des grands nombres:
∀δ > 0
Pn
k=1 Xk .
Sn
− E(X) > δ = 0
lim P n→∞
n
Théorème de la limite centrale: Si E(|X|2 ) < ∞ et σ =
tout a et tout b tels que a ≤ b, on a:
p
V(X) > 0 alors pour
Z b
√ √
2
1
e−x /2 dx
lim P nE(X) + aσ n ≤ Sn ≤ nE(X) + bσ n = √
n→∞
2π a
Loi forte des grands nombres:
Sn
converge pour n → ∞ vers E(X) avec probabilité 1
n
Supposons que X soit la fonction indicatrice d’un évènement A qui se réalise avec probabilité
p (P (X = 1) = p, P (X = 0) = 1 − p). Une suite de v.a. i.i.d. de même loi que X s’appelle
un schéma de Bernoulli. La loi des grands nombres fut établie dans ce cas (et même plus
généralement lorsque X est une v.a. ne prenant qu’un nombre fini de valeurs distinctes) par J.
Bernoulli (1654-1705) dans son ouvrage Ars conjectandi (publication posthume en 1718.) Ce
“Théorème d’or” signifie que pour tout intervalle fixé autour de p, aussi petit soit-il mais ne se
réduisant pas simplement à {p}, la fréquence de réalisation de A lors de N épreuves indépendantes
a une probabilité tendant vers 1 de se trouver dans cet intervalle lorsque N → ∞.
Tchebychev (1821-1884) obtient en 1863 une démonstration du “Théorème d’or” avec une méthode ne nécessitant que très peu de calculs, et qui est valable pour X de carré intégrable. En 1924,
Khintchine (1894-1959) réussit à généraliser la méthode de Tchebychev au cas où l’on suppose
seulement E(|X|) < ∞. En fait le théorème de Bernoulli-Tchebychev-Khintchine ne nécessite pas
que les Xn soient globalement indépendantes: il suffit qu’elles soient deux-à-deux indépendantes,
et il existe même des généralisations qui autorisent de faibles dépendances entre les Xn . De plus
il n’est pas nécessaire que les Xn aient toutes la même loi: par exemple la loi des grands nombres
s’applique si les Xn sont indépendantes, de variances bornées et telles que lim E(Xn ) existe.
Le théorème de la limite centrale fut démontré par De Moivre (1667-1754) pour le schéma de
Bernoulli avec p = 1/2 dans son ouvrage Doctrine of Chances (1718), et par Laplace (1749-1827)
Maîtrise MIM 2000-2001: Probabilités-Statistiques
27
pour 0 < p < 1 dans sa Théorie analytique des Probabilités (1812.) Il est donc connu dans ce cas
sous le nom de “Théorème de De Moivre-Laplace.”
La loi des grands nombres (LGN) et le théorème de la limite centrale (TLC) portent sur le
comportement des lois de certaines v.a. et c’est avec le vocabulaire des fonctions de distribution
(FX (t) = P (X ≤ t)) qu’ils furent étudiés par Tchebychev (1821-1884) (qui introduit la “méthode
des moments”), Markov (1856-1922) (démonstration du TLC en 1898 pour X ayant des moments
de tous ordres), Liapunov (1857-1918) (démonstration du TLC par la méthode des fonctions
caractéristiques en 1900 pour E(|X|2+δ ) < ∞, δ > 0) et Paul Lévy (1886-1971) à partir de 1919,
qui présente sous une forme équivalente à celle retenue ici la LGN et le TLC dans son Calcul des
Probabilités (1925.)
La loi forte des grands nombres est un thème beaucoup plus récent introduit par Borel (1871-1956)
en 1909 sous la forme suivante: L’ensemble des x ∈]0, 1[ pour lesquels il y a asymptotiquement
autant de 0 que de 1 dans l’écriture en base 2 est de mesure de Lebesgue égale à 1. Ce travail
de Borel a joué un rôle très important dans l’évolution qui a amené Kolmogorov (1903-1987)
à proposer en 1933 dans son livre célèbre Fondations du calcul des probabilités (en allemand)
une axiomatique des Probabilités fondée sur la théorie de l’intégration de Lebesgue (1875-1941)
sur les espaces mesurés généraux. La loi forte est démontrée en 1917 par Cantelli (1875-1966)
pour le schéma de Bernoulli de paramètre p: soit A un évènement de probabilité p; alors avec
probabilité 1 la fréquence de réalisation de A lors d’épreuves successives indépendantes tend vers
p. La formulation définitive fut obtenue par Kolmogorov en 1930, et peut être vue aujourd’hui
sous différents angles dont celui de la Théorie des martingales ou celui de la Théorie ergodique.
La loi forte des grands nombres
[1] Montrer que la loi des grands nombres est une conséquence de la loi forte des grands nombres.
La loi forte des grands nombres pour E(|X|4 ) < ∞
P
Soient X tel que E(|X|) < ∞, X1 , X2 , . . . i.i.d. de même loi que X et Sn = nk=1 Xk . On veut
montrer que presque sûrement on a lim Snn = E(X). On suppose E(|X|4 ) < ∞ et, sans perte de
généralité que E(X) = 0.
[2] Montrer E(|Sn |4 ) = n · E(|X|4 ) + 3n(n − 1) · E(|X|2 )2 .
P
[3] En déduire que la série n | Snn |4 est presque partout convergente et conclure la démonstration
de la loi forte des grands nombres pour tout X vérifiant E(|X|4 ) < ∞.
P
[4] (variante) Soit ε > 0. En utilisant la formule pour E(|Sn |4 ), montrer que n P (|Sn | ≥ εn) <
∞ et en déduire par Borel-Cantelli (feuille 1) que avec probabilité 1 on a limsup | Snn | ≤ ε.
Conclure.
La loi forte des grands nombres pour E(|X|2 ) < ∞
On suppose E(|X|2 ) < ∞, et, sans perte de généralité que E(X) = 0.
Université de Nice – Sophia Antipolis
28
P
[5] En utilisant la formule de Bienaymé pour E(|Sn |2 ), montrer que n P (|Sn2 | ≥ εn2 ) < ∞
S
(pour tout ε > 0 fixé) et en déduire par Borel-Cantelli que avec probabilité 1 on a limsup | nn22 | = 0.
P
√
[6] Soit m = m(n) = [ n]2 le plus grand carré inférieur à n. Montrer lim m(n)
n≥1
n = 1 et
∞.
[7] Soit ε > 0. Montrer que pour tout ε > 0 et tout n ≥ 1 on a P (|Sn − Sm | ≥ εn) ≤
m
| = 0 avec probabilité 1.
En déduire par Borel-Cantelli que limsup | Sn −S
n
√
m
n2
<
√
2 m E(|X|2 )
.
n2
ε2
[8] Conclure la démonstration de lim | Snn | = 0 p.s.
La loi forte dans le cas divergent E(|X|) = +∞
[9] Soit Z une v.a. à valeurs dans [0, +∞[. Montrer
n).
Note: le cas E(Z) = ∞ n’est pas exclu.
P
n≥1 P (Z
≥ n) ≤ E(Z) ≤ 1 +
Soient X tel que E(|X|) = +∞, X1 , X2 , . . . i.i.d. de même loi que X et Sn =
[10] Soit C > 0. Montrer
Ind.:
P (| Xnn |
≥ C) =
P (| XCn |
Xn
n≥1 P (| n |
P
≥ n) =
P (| X
C|
> C) = ∞.
P
n≥1 P (Z
≥
Pn
k=1 Xk .
≥ n).
[11] En déduire en appliquant le lemme de Borel-Cantelli pour C = 1, 2, 3, . . . que avec probabilité
1 on a limsup | Xnn | = +∞.
[12] En déduire que avec probabilité 1 on a limsup | Snn | = +∞.
Ind.: exprimer
Xn
n
en fonction de
Sn
n
et de
Sn−1
n−1 .
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
29
Notes de cours et exercices (4)
Autour des théorèmes classiques: variables aléatoires à valeurs dans N, lois
binomiales, lois de Poisson, limite de Poisson. Exemples et applications. Loi de
Cauchy. Schéma de Bernoulli.
Variables aléatoires à valeurs dans N
Dans cette section toutes les variables aléatoires sont à valeurs dans N = {0, 1, 2, . . .}. On écrira
pk (X) au lieu de P (X = k).
[1] Décrire la fonction de distribution FX (t) = P (X ≤ t) d’une v.a. à valeurs dans N.
P
[2] Montrer l’identité E(X) = k≥1 P (X ≥ k) (dans les deux cas E(X) = +∞ et E(X) < ∞.)
[3] Montrer que L(Xn ) → L(X) si et seulement si on a ∀k ∈ N limn→∞ pk (Xn ) = pk (X) (Quels
sont les points de continuité de FX (t)?)
Définition: La fonction génératrice de X est:
T ∈ [0, 1] → GX (T ) =
X
pk (X)T k
k
Note: on peut aussi écrire GX (T ) = E(T X ).
[4] Montrer que GX (T ) est bien la somme d’une série convergente. Que vaut GX (1)?
[5] On suppose E(X) < ∞. Montrer que GX (T ) est dérivable (à gauche) en T = 1 et
E(X) = G′X (1)
Démonstration: C’est une conséquence du théorème de dérivation sous le signe somme de la feuille
1. On peut aussi le démontrer ainsi:
1 − (1 − h)k
= k(1 − θh)k−1
h
1 − (1 − h)k
∀h ∈]0, 1[ ∀k ≥ 1 k(1 − h)k−1 ≤
≤k
h
1 − (1 − h)k
GX (1) − GX (1 − h) X
=
pk (X)
or
h
h
∀h ∈]0, 1[
∀k ≥ 1 Rolle ⇒ ∃θ ∈]0, 1[
k≥1
donc
X
k≥1
pk (X)k(1 − h)k−1 ≤
GX (1) − GX (1 − h) X
≤
pk (X)k = E(X)
h
k≥1
Université de Nice – Sophia Antipolis
30
PN
Soit ε > 0. On peut trouver N avec k=1 pk (X)k ≥ E(X) − ε. Pour h suffisamment petit on aura
PN
PN
k−1
≥
k=1 pk (X)k − ε d’où:
k=1 pk (X)k(1 − h)
E(X) − 2ε ≤
GX (1) − GX (1 − h)
≤ E(X)
h
ce qui donne G′X (1) = E(X). Noter que la fin de la preuve peut être simplifiée par l’emploi de “liminf”.
Théorème:
(1) Si GX = GY alors X et Y ont la même loi.
(2) L(Xn ) → L(X) ⇐⇒ ∀T ∈ [0, 1] limn→∞ GXn (T ) = GX (T )
Démonstration de (2): (un peu technique) Supposons L(Xn ) → L(X). En T = 1 on a quoi qu’il arrive
GXn (1) = 1 = GX (1). Pour T < 1 la série définissant GXn (T ) est dominée terme-à-terme par la série
P k
convergente
T , et on peut donc intervertir les signes “limite” et “somme”. Donc limn→∞ GXn (T ) =
GX (T ). C’est un peu plus délicat dans l’autre sens. En prenant T = 0 on obtient lim p0 (Xn ) =
P
P
p0 (X). Donc, lim k≥1 pk (Xn )T k = k≥1 pk (Xn )T k . Pour T 6= 0 on peut diviser par T et on obtient
P
P
P
lim k≥0 pk+1 (Xn )T k = k≥0 pk+1 (X)T k . Notons An (T ) = k≥0 pk+1 (Xn )T k . Soit ε ∈]0, 1[. Alors
P
ε
ε
. De même avec A(ε) = k≥0 pk+1 (X)εk on a |A(ε)−p1 (X)| ≤ 1−ε
.
|An (ε)−p1 (Xn )| ≤ (ε+ε2 +. . .) = 1−ε
Donc
ε
ε ∈]0, 1[ ⇒ |p1 (X) − p1 (Xn )| ≤ 2
+ |A(ε) − An (ε)|
1−ε
ε ∈]0, 1[ ⇒
limsup |p1 (X) − p1 (Xn )| ≤ 2
n→∞
ε
1−ε
et finalement on fait tendre ε → 0. On a donc montré limn→∞ p1 (Xn ) = p1 (X) et on procède alors par
récurrence par la même méthode pour les valeurs suivantes de k.
[6] Montrer (1) en admettant (2).
[7] On suppose E(X 2 ) < ∞. Montrer E(X(X − 1)) = G′′X (1) et en déduire
V(X) = G′′X (1) + G′X (1) − G′X (1)2
(utiliser le “Théorème de dérivation sous le signe somme” de la feuille 1.)
[8] On suppose que X et Y sont indépendantes. Montrer:
∀T ∈ [0, 1] GX+Y (T ) = GX (T )GY (T )
[9] Soit 0 ≤ p ≤ 1. On se donne N variables aléatoires indépendantes X1 , . . . , XN telles que
P (Xi = 0) = 1 − p et P (Xi = 1) = p. Déterminer la fonction génératrice et la loi de la somme
SN = X1 + . . . + XN .
Maîtrise MIM 2000-2001: Probabilités-Statistiques
31
Lois binomiales
k pk (1 −
La loi binomiale B(N, p) est la loi déterminée dans l’exercice précédent: P (X = k) = CN
N
−k
p)
pour 0 ≤ k ≤ N et P (X = k) = 0 pour k > N . Dans ce contexte on note souvent par
convention q au lieu de 1 − p. La fonction génératrice est T → (q + pT )N .
[10] Soit X ∼ B(N, p). Quelle est l’espérance et quelle est la variance de X?
[11] Soit X ∼ B(N, p) et Y ∼ B(M, p) deux v.a. binomiales de même paramètre p. On les
suppose indépendantes. Quelle est la loi de leur somme X + Y ?
[12] Soit X ∼ B(1, p), c’est-à-dire P (X = 0) = 1 − p, P (X = 1) = p. Comment se traduisent
concrètement la loi des grands nombres et le théorème de la limite centrale dans ce cas, lorsque l’on
exprime les probabilités concernées à l’aide des coefficients du binôme? Note: il est possible de démontrer
le théorème de la limite centrale en utilisant adroitement la formule de Stirling pour estimer les coefficients
du binôme. C’est la méthode inaugurée par De Moivre et complétée par Laplace.
Lois de Poisson
La loi de Poisson P(λ) de paramètre λ ∈]0, +∞[ est à valeurs dans N et est définie par les
probabilités:
λk
pk (X) = P (X = k) = e−λ
k!
[13] Montrer que pk (X)Pest une fonction croissante de k pour 0 ≤ k ≤ λ et décroissante pour
k ≥ λ − 1. Vérifier que k pk (X) = 1. Que vaut P (X ≥ 1)? Que vaut E(X)?
[14] Donner une formule pour la fonction caractéristique ϕX (t) = E(ei tX ) de X ∼ P(λ) et pour
la fonction ψX (t) = log(ϕX (t)). Calculer tous les cumulants de X.
[15] Que valent en particulier E(X)? V(X)? E((X − λ)3 )? E((X − λ)4 )?
P
[16] Donner une formule pour la fonction génératrice E(T X ) = k pk (X)T k .
[17] Soient Xi ∼ P(λi ) des variables aléatoires de Poisson
indépendantes (1 ≤ i ≤ n.) Montrer
P
que leur somme est une loi de Poisson de paramètre 1≤i≤n λi .
[18] (Théorème limite de Poisson) On suppose N → ∞ et pN → 0 de telle sorte
que N pN tende vers une limite finie et non nulle λ. Montrer
B(N, pN ) → P(λ)
[19] En un bureau de poste isolé on a comptabilisé en une année 500 lettres déposées. On considère
que chacune a été déposée indépendamment des autres en un jour au hasard et qu’il y a 300 jours
d’ouverture. En un jour donné (par exemple le Premier Avril) soit X la v.a. qui correspond au nombre
de lettres déposées. Montrer que X suit une loi binomiale dont on donnera les paramètres. Donner λ tel
que la loi de X soit proche d’une loi de Poisson P(λ). Utiliser une calculatrice pour évaluer la qualité
de l’approximation.
Université de Nice – Sophia Antipolis
32
[20] On considère un volume V occupé par N molécules d’un gaz dans la limite (dite thermodynamique)
où V → ∞ et N → ∞ de sorte que la densité N
V admette une limite ρ finie et non nulle. En considérant
que les positions des molécules sont complètement indépendantes les unes des autres, donner la loi de la
variable aléatoire XW qui donne le nombre de molécules présentes dans un volume donné W .
[21] On fabrique à partir d’une masse de verre en fusion une grande quantité M de bouteilles. Le verre en
fusion contient des impuretés en nombre proportionnel au volume total, de sorte que leur nombre moyen
dans un petit volume correspondant à une bouteille soit x (autrement dit le nombre total d’impuretés
est xM ). Une seule impureté suffit à faire mettre une bouteille au rebut. Montrer que l’espérance du
pourcentage de bouteilles à mettre au rebut vaut approximativement (1 − exp(−x)) × 100%. Où est
l’erreur dans le raisonnement: “il y a M bouteilles fabriquées et xM impuretés, donc x × 100% bouteilles
défectueuses”. Commenter le cas où il y a autant d’impuretés que de bouteilles (x = 1). Le fabricant
constate 30% de rebut. Il décide de produire une quantité triple de bouteilles plus petites (avec la même
masse de verre). Quel sera le nouveau taux de rebut? Commenter ce dernier point dans le cadre de la
miniaturisation des composants électroniques.
La loi de Cauchy
Une variable aléatoire X à valeurs dans R suit une loi de Cauchy si
Z x
1
1
1 1
P (X ≤ x) =
du = + Arctg(x)
2
2 π
−∞ π 1 + u
Théorème: (admis) La fonction caractéristique de la loi de Cauchy est t 7→ exp(−|t|).
[22] Soient X1 , X2 , . . . , XN des variables aléatoires indépendants suivant chacune une loi de
Cauchy. Soit SN = X1 + X2 + . . . + XN . Montrer que SNN suit à nouveau une loi de Cauchy.
[23] Commenter l’exercice précédent du point de vue de la loi des grands nombres.
Quelques applications des théorèmes limites à l’analyse
[24] Soit f : [0, 1] → R une fonction continue. Donner une interprétation probabiliste à:
Z
x1 + . . . + xn
)dx1 dx2 . . . dxn
In =
f(
n
[0,1]n
et en déduire que limn→∞ In = f ( 21 ).
[25] Soit f : R → R une fonction continue et bornée. Donner une interprétation probabiliste à:
Z
x1 + . . . + xn dx1 dx2 . . . dxn
√
)
In =
f(
2n
n
[−1,1]n
et en déduire que limn→∞ In =
q
3
2π
R
3
R
2
f (u)e− 2 u du.
PN −1
[26] Donner une interprétation probabiliste à la quantité IN = exp(−N ) k=0 N k /k! et en déduire
limN →∞ IN = 12 (penser “Poisson” et “TLC”.)
[27] Soit f : [0, 1] → R une fonction continue. Donner une interprétation probabiliste au polynôme
suivant de p ∈ [0, 1]:
N
X
k
f
k k
CN
p (1 − p)N −k f ( )
BN
(p) =
N
k=0
Maîtrise MIM 2000-2001: Probabilités-Statistiques
33
f
et en déduire ∀p ∈ [0, 1] limN →∞ BN
(p) = f (p).
[28] (difficile) Montrer (en contrôlant les inégalités de Tchebychev qui apparaissent dans la preuve de la
loi des grands nombres) que dans l’exercice précédent la convergence est uniforme sur [0, 1]. Cela donne
suivant une méthode introduite par Bernstein (1912) le fameux théorème de Weierstrass qui dit que
toute fonction continue sur un intervalle fermé peut être uniformément approchée par des polynômes.
34
Université de Nice – Sophia Antipolis
Schéma de Bernoulli
Soit Ω = [0, 1[, muni de la tribu des Boréliens et de la mesure de Lebesgue m. Sur cet espace
probabilisé, nous allons construire des v.a. Xn , indépendantes et formant un schéma de Bernoulli
de paramètre p (0 < p < 1): P (Xn = 0) = q, P (Xn = 1) = p avec p + q = 1. Pour cela
soit T0 (x) = qx et T1 (x) = q + px. Ces deux applications affines de Ω dans lui-même sont
injectives et`Ω est la réunion disjointe de T0 (Ω) = [0, q[
` et de T1 (Ω) = [q, 1[, ce que nous
` notons:
Ω = T0 (Ω) T1 (Ω). On
en
déduit
T
(Ω)
=
T
T
(Ω)
T
T
(Ω)
et
T
(Ω)
=
T
T
(Ω)
T1 T1 (Ω)
0
0
0
0
1
1
1
0
`
`
`
et donc Ω = T0 T0 (Ω) T0 T1 (Ω) T1 T0 (Ω) T1 T1 (Ω). Plus généralement, associons à toute
suite finie σ = σ1 . . . σN de N “digits” (des 0 ou des 1) le composé Tσ = Tσ1 . . . Tσk . C’est une
transformation affine de Ω qui multiplie les longueurs des intervalles par pa(σ) q N −a(σ) où l’on a
noté a(σ) le nombre de 1 dans σ.`On note |σ| le nombre total de 0 et de 1. On montre par
récurrence pour tout N ≥ 1: Ω = |σ|=N Tσ (Ω). Il y a donc pour tout x ∈ Ω et tout N ≥ 1 un
unique choix de σ (N ) (x) = σ1 . . . σN tel que x ∈ Tσ(N ) (x) (Ω). On voit que σ (N +1) (x) a les mêmes
N premiers digits que σ (N ) (x). Cela permet donc de définir Xk (x) comme le k-ième digit de l’un
quelconque des σ (N ) (x) pour N ≥ k. On constate alors que par construction, pour tout N ≥ 1
et σ de longueur N :
n
o
Tσ (Ω) = x |X1 (x) = σ1 , . . . , XN (x) = σN
Cela permet de montrer ensuite que les Xi sont des variables aléatoires vérifiant P (Xi = 0) = q,
P (Xi = 1) = p, et qu’elles sont indépendantes
Q puisque la longueur de l’intervalle Tσ (Ω) vaut
pa(σ) q N −a(σ) et coïncide donc avec le produit 1≤i≤N P (Xi = σi ).
L’histoire ne s’arrête pas là: par exemple la transformation de Ω dans lui-même définie par
τ (x) = 1q x pour 0 ≤ x < q et τ (x) = p1 (x − q) pour q ≤ x < 1, est telle que ∀N ∀x XN (x) =
X1 (τ (. . . (τ (x)))) (τ composé N − 1 fois.) La transformation τ possède les propriété
∀B
m(τ −1 B) = m(B)
(invariance de la mesure de Lebesgue) et
τ −1 B = B
⇒
m(B) = 0 ou 1
(ergodicité; ici c’est un exemple de la loi du zéro-ou-un de Kolmogorov .) On se rattache alors au
cadre général de la Théorie Ergodique.
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
35
Notes de cours et exercices (5)
Espérance conditionnelle (I): conditionnement sur un évènement, sur une partition finie, sur une variable aléatoire. Propriété de meilleure approximation au
sens des moindres carrés. Courbe et Droite de régression.
Cette leçon est la première de la deuxième partie du cours, qui constituera une introduction aux Processus
Aléatoires. Elle est consacrée à la notion d’espérance conditionnelle. Cette notion très importante a des
aspects très concrets et des aspects très abstraits. Un rôle important est joué par la notion de projection
orthogonale (cf feuille 2.) Ici nous traitons principalement de situations où l’on peut donner des formules
explicites. Le cas général fera l’objet de la leçon suivante.
R
Note:
Pour un évènement A et une variable aléatoire X on écrira parfois A X(ω)dP (ω) au lieu de
R
X(ω)1A (ω)dP (ω). Cette intégrale est aussi égale à E(X · 1A ) et, dans le cas où E(X 2 ) < ∞, elle est
Ω
également le produit scalaire de X et de 1A dans L2 .
Espérance conditionnelle par rapport à un évènement
Définition: Pour un évènement A avec P (A) > 0 et une v.a. Y intégrable on appelle “espérance
conditionnelle de Y sachant A” la quantité
Z
1
E(Y |A) =
Y (ω)dP (ω)
P (A) A
Lorsque P (A) = 0 on pose par convention E(Y |A) = 0 (c’est un choix arbitraire.)
[1] Soit B un évènement. Montrer que E(1B |A) vaut P P(B∩A)
(A) , autrement dit elle est égale à
la probabilité conditionnelle P (B|A) de B sachant A (au sens des programmes de Licence et
antérieurs.)
Définition: (rappel) Deux évènements A1 et A2 sont indépendants si
P (A1 et A2 ) = P (A1 )P (A2 )
Une v.a. Y est dite indépendante d’un évènement A si pour tout Borélien B ∈ R on a
P (A et {Y ∈ B}) = P (A)P (Y ∈ B)
Deux v.a. X et Y sont dites indépendantes si pour tous Boréliens B et C dans R on a P ({X ∈ B} et {Y ∈
C}) = P (X ∈ B)P (Y ∈ C).
Nouvelle notation: On note A1 ⊲⊳ A2 si les évènements A1 et A2 sont indépendants. On note Y ⊲⊳ A si la variable aléatoire Y est indépendante de l’évènement
A. On note X ⊲⊳ Y si les variables aléatoires X et Y sont indépendantes.
[2] On suppose Y ⊲⊳ A. Montrer: E(Y |A) = E(Y ) si P (A) > 0. Indication: vérifiez que les v.a. Y
et 1A sont indépendantes et donc que E(Y 1A ) = E(Y )E(1A ) = E(Y ) P (A). Et si P (A) = 0?
36
Université de Nice – Sophia Antipolis
Espérance conditionnelle par rapport à une partition finie
On se donne une partition finie P de Ω: c’est-à-dire des évènements Ak (1 ≤ k ≤ N , N ≥ 1),
deux-à-deux disjoints et tels que Ω = ∪k Ak . On supposera que P (Ak ) > 0 pour 1 ≤ k ≤ M et
P (Ak ) = 0 pour M < k ≤ N .
[3] Soit V (P) l’espace vectoriel des variables aléatoires qui sont constantes sur chacun des
Ak . Donner une base et la dimension de V (P). On note W (P) l’espace vectoriel des classes
d’équivalence de fonctions dans V (P) pour la relation “être égales presque partout”. Donner la
dimension de W (P) et une base orthogonale au sens de L2 .
Définition: Soit Y intégrable. La variable aléatoire
Z=
N
X
k=1
E(Y |Ak )1Ak
est appelée “espérance conditionnelle de Y sachant P” et est notée E(Y |P).
Attention: L’espérance d’une variable aléatoire est un nombre réel.
Son espérance conditionnelle sachant un évènement est également un nombre réel.
Mais son espérance conditionnelle sachant une partition d’évènements est une nouvelle variable aléatoire.
Montrer les assertions suivantes:
[4] E(a1 Y1 + a2 Y2 |P) = a1 E(Y1 |P) + a2 E(Y2 |P) p.s.
[5] E(Y ) = E E(Y |P)
[6] ∀ W ∈ V (P) E(W · Y |P) = W · E(Y |P) p.s.
[7] Y ⊲⊳ P ⇒ E(Y |P) = E(Y ) p.s.
[8] Y ≥ 0 p.s. ⇒ E(Y |P) ≥ 0 p.s.
[9] Q ≺ P ⇒ E(Y |P) = E E(Y |Q)|P p.s.
(Linéarité)
(Formule des probabilités totales)
(Factorisation)
(Cas d’indépendance)
(Positivité)
(Transitivité)
Pour les exercices précédents on a utilisé les notations suivantes:
Y ⊲⊳ P signifie que Y est indépendante de chacun des évènements qui composent P.
Q ≺ P signifie que Q = {B1 , . . . , BK } est une nouvelle partition de Ω, plus fine que P: c’est-à-dire telle
que chaque Bj soit totalement inclus dans l’un des Ak .
Note importante: Ces identités, à l’exception du Cas d’indépendance, sont vraiment valables en tout
ω ∈ Ω, et pas seulement “presque sûrement”. Mais cela est une conséquence fortuite de notre convention
E(Y |A) = 0 si P (A) = 0. Dans le cadre général, la théorie ne définit que la classe d’équivalence d’une
espérance conditionnelle et c’est donc une bonne habitude de toujours ajouter des “ p.s.”. Bien sûr la
Formule des probabilités totales est une exception car elle stipule l’égalité de deux nombres réels.
[10] Justifier l’appellation Formule des probabilités totales (aussi appelée Formule de Bayes) en
l’appliquant à la fonction indicatrice Y = 1B d’un évènement B et en explicitant le résultat.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
37
L’espérance conditionnelle au sens des moindres carrés
Dans cette section on suppose que Y est de carré intégrable (E(Y 2 ) < ∞.)
[11] Montrer que E(Y |P ) est (égale presque partout à) la projection orthogonale de Y sur le
sous-espace W (P) ⊂ L2 des (classes d’équivalence de) variables aléatoires qui sont constantes sur
chacun des évènements de la partition P.
[12] Prouver la Formule des probabilités totales par un raisonnement dans L2 .
[13] Prouver la Transitivité par un raisonnement dans L2 après avoir résolu l’exercice suivant.
[14] Soient V et W deux sous-espaces fermés d’un espace de Hilbert H et πV , πW les projections
orthogonales correspondantes. Montrer V ⊂ W =⇒ πV = πV ◦ πW
L’espérance conditionnelle par rapport à une variable aléatoire
Nous commençons par un cas simple:
Définition: Soit X une variable aléatoire ne prenant qu’un nombre fini de valeurs distinctes x1 ,
. . . , xN . On appelle Espérance conditionnelle de Y sachant X et on note E(Y |X) la variable
aléatoire E(Y |P) où P est la partition définie par les Ak = {X = xk }.
[15] Soit Ω = [0, 1] avec la mesure de Lebesgue. Soit X défini par X = 1000 sur [0, 31 [, X = 0
sur [ 13 , 32 [ et X = −1 sur [ 32 , 1]. Calculer E(Y |X) successivement dans les trois cas Y (ω) = 1,
Y (ω) = ω, Y (ω) = ω 2 . Faites un dessin.
[16] On reprend l’exercice précédent mais de manière générale pour tout Y (intégrable.) Que
vaut E(Y |X)? On suppose E(|Y |2 ) < ∞. Que vaut Y ∗ (régression linéaire de Y par X)? Vérifier
que E(Y |X) approxime Y au moins aussi bien que Y ∗ .
[17] Montrer E(Y |X + 1) = E(Y |X). Plus généralement soit k : R → R injective. Montrer
E(Y |k(X)) = E(Y |X).
[18] Montrer qu’il existe une fonction g : R →RR (par exemple on
R peut trouver un polynôme qui
marche) avec E(Y |X) = g(X). Montrer que A E(Y |X) dP = A Y dP pour tout évènement A
qui est une union de quelques uns des Ak .
Voici la définition générale:
Université de Nice – Sophia Antipolis
38
Définition: Soient X et Y deux v.a. avec Y intégrable. On appelle “espérance conditionnelle de Y sachant X” toute variable aléatoire Z satisfaisant les trois conditions
suivantes:
(1) Z est intégrable.
(2) On peut trouver au moins une fonction Borélienne g : R → R avec
Z = g(X)
(3) Pour tout évènement A de la forme {X ∈ B} (avec B ⊂ R un Borélien.) il y
égalité:
Z
Z
Z dP =
Y dP
A
A
Dans la prochaine leçon nous montrerons:
Théorème: Soient X et Y deux v.a. avec Y intégrable. Il existe au moins une variable aléatoire
Z satisfaisant les trois conditions ci-dessus. Tout autre choix est égal presque partout à Z.
R
R
Note: Ce n’est pas évident mais il est vrai que si {α≤X≤β} Z dP = {α≤X≤β} Y dP pour tous les
α, β ∈ R alors la condition (3) est satisfaite. Cela est lié au fait qu’une mesure sur (les Boréliens
de) R est déterminée par ses valeurs sur les intervalles.
On imaginera dorénavant qu’un choix de solution a été fait une fois pour toutes. Ce choix sera
noté E(Y |X). Pour toute fonction g(x) telle que E(Y |X) soit égale presque partout à g(X) la
courbe y = g(x) est dite courbe de régression de Y sachant X.
Lorsque E(Y 2 ) < ∞ nous montrerons que kE(Y |X) − Y k2 donne la valeur minimale de kZ −
Y k2 parmi tous les Z vérifiant la condition (2): autrement dit E(Y |X) est une projection
orthogonale au sens de la feuille 2. Dans ce contexte la droite de régression de Y sachant
X est définie (lorsque E(X 2 ) < ∞ et 0 < V(X)) par
y = E(Y ) +
C(Y, X)
(x − E(X))
V(X)
et elle correspond à la régression linéaire de Y par X (cf feuille 2.)
La courbe de régression donne la meilleure estimation mesurable possible de Y
sachant X, au sens des moindres carrés, tandis que la droite de régression ne donne
que la meilleure estimation linéaire possible.
[19] Soit Ω = R que l’on considère comme un expace probabilisé pour la loi normale X ∼ N (0, 1).
Maîtrise MIM 2000-2001: Probabilités-Statistiques
39
Montrer que pour tout Y (ω) on a:
E(Y |X 2 )(ω) =
Y (ω) + Y (−ω)
p.s.
2
en vérifiant que les trois conditions (1), (2), (3), sont satisfaites par le terme de droite.
[20] On suppose dans l’exercice précédent que E(Y 2 ) < ∞. Vérifier par un calcul explicite que
E(Y |X 2 ) donne une meilleure approximation de Y au sens des moindres carrés que la régression
linéaire de Y sachant X 2 .
Théorème: On se place dans le cas où X et Y ont une loi-jointe qui possède une
densité f (x, y). La fonction g : R → R définie par
si 0 <
R
R f (x, y) dy
< ∞ et
R
R
y f (x, y) dy
g(x) = RR
R f (x, y) dy
R |y|f (x, y) dy
< ∞ et
g(x) = 0
sinon est une fonction Borélienne et y = g(x) est une courbe de régression de Y
sachant X: E(Y |X) = g(X) p.s.
[21] Soit Ω le carré [0, 1] × [0, 1] avec la tribu de Boréliens. Montrer que la mesure P donnée par
dP (x, y) = (x + y)dxdy est une mesure de probabilité sur Ω. Soient X et Y les v.a. X(x, y) = x,
Y (x, y) = y. Donner une courbe de régression et une droite de régression de Y sachant X.
Vérifier que E(Y |X) donne une meilleure approximation de Y au sens des moindres carrés que la
régression linéaire de Y sachant X.
c
J.-F.
Burnol, 2001.
40
Université de Nice – Sophia Antipolis
Notes de cours et exercices (6)
Espérance conditionnelle (II). Sous-tribus et Intégration, l’espérance conditionnelle comme projection orthogonale. Le cas général (théorème de Kolmogorov.) Probabilité conditionnelle et variance conditionnelle.
Cette leçon porte sur la notion d’espérance conditionnelle (Kolmogorov, 1933.) C’est assez abstrait.
Sous-tribus
Soit (Ω, F, P ) un espace probabilisé. La collection F des évènements est une “tribu”, c’est-à-dire elle
satisfait les propriétés suivantes:
[1] ∅ ∈ F
[2] A ∈ F ⇒ Ω \ A ∈ F
[3] Toute union dénombrable d’évènements est un évènement.
Définition: Une sous-tribu F1 (on dit aussi “sous-σ-algèbre”) de F est une collection d’évènements
(F1 ⊂ F) qui satisfait également les axiomes [1], [2], [3].
[1] Soit X une v.a. Montrer que la collection des évènements de la forme X ∈ B, où B parcourt
les Boréliens de R est une sous-tribu de F.
Définition: La tribu de l’exercice précédent est dite “tribu déclarée par X” et est notée σ(X).
Définition: Soit Y une v.a. et F1 une (sous-)tribu d’évènements. On dit que Y est F1 -mesurable si
σ(Y ) ⊂ F1 . On dit que Y est X-mesurable si elle est σ(X)-mesurable.
[2] Soient X et Y deux variables aléatoires. On suppose qu’il existe une fonction Borélienne
g : R → R telle que Y = g(X). Montrer que Y est X-mesurable.
Théorème: Soient X et Y deux variables aléatoires. Alors Y est X-mesurable si
et seulement si il existe (au moins) une fonction Borélienne g : R → R telle que
Y = g(X).
L’exercice précédent donne le théorème dans un sens. La réciproque est plus délicate et est
reléguée à un appendice.
[3] On suppose que Y est X-mesurable. Est-il exact que X soit Y -mesurable?
[4] On suppose que Y est à la fois X-mesurable et indépendante de X. Montrer que cela équivaut à
l’existence d’une constante égale à Y presque partout.
Pour résoudre l’exercice précédent il est conseillé de procéder par étapes:
[5] Un évènement est indépendant de lui-même si et seulement si il est soit de probabilité
nulle, soit de probabilité 1.
[6] Pour toute variable aléatoire Y il existe A avec P (Y ≤ A) < 1.
[7] Si Y est à la fois X mesurable et indépendante de X alors tout évènement de la forme
Y ≤ a est indépendant de lui-même. L’ensemble des a avec P (Y ≤ a) = 0 forment un
intervalle I non-vide et en posant β = sup I on obtient une constante β telle que Y = β p.p.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
41
Intégration et sous-tribus
Si F1 est une sous-tribu de F alors le triplet (Ω, F1 , P ) est aussi un espace probabilisé. Il a moins
d’évènements que (Ω, F, P ) mais leur confère les mêmes probabilités.
Théorème: Si Y est une v.a. F1 -mesurable alors Y est intégrable comme variable aléatoire sur (Ω, F1 , P )
si et seulement si elle est intégrable comme variable aléatoire
sur (Ω, F, P ). De plus les deux intégrales
R
coïncident (c’est pour cette raison que dans la notation Ω Y (ω) dP (ω) apparaissent Ω et P mais pas F.)
[8] Démontrer le théorème précédent.
[9]RSoit Y une v.a. F1 -mesurable. Montrer que Y est p.s. nulle si et seulement si on a “Y est intégrable
et A Y (ω)dP (ω) = 0 pour tout évènement A ∈ F1 .”
[10] Soit Y une v.a. F1 -mesurable. Montrer que Y est nulle p.p. sur (Ω, F1 , P ) si et seulement
si elle est nulle p.p. sur (Ω, F, P ). Montrer que l’espace vectoriel des classes d’équivalence de
fonctions F1 -mesurables est un sous-espace vectoriel de l’espace des classes d’équivalence de
fonctions F-mesurables.
[11] Soit Y une v.a. F1 -mesurable. Montrer que Y est de carré intégrable sur (Ω, F1 , P ) si et
seulement si elle est de carré intégrable sur (Ω, F, P ). Montrer que l’espace de Hilbert L2 (Ω, F1 , P )
est naturellement inclus comme sous-espace dans L2 (Ω, F, P ).
Théorème: L2 (Ω, F1 , P ) est un sous-espace fermé de L2 (Ω, F, P ).
[12] Démontrer le théorème précédent.
Espérance conditionnelle et projection orthogonale
Définition: Soit F1 une sous-tribu de F et Y une variable aléatoire intégrable. On appelle “espérance conditionnelle de Y sachant F1 ” toute variable aléatoire Z qui est F1 mesurable et dont la classe
d’équivalence (pour la relation “être égales p.p.”) est la projection orthogonale de (la classe de) Y sur
L2 (Ω, F1 , P ). On imaginera dorénavant qu’un choix de Z a été fait une fois pour toutes. Ce choix est
appelé “espérance conditionnelle de Y sachant F1 ” et est notée E(Y |F1 ).
Théorème: Soit F1 une sous-tribu de F et Y une variable aléatoire de carré intégrable. Pour qu’une variable aléatoire Z soit égale presque partout à E(Y |F1 ) il
faut et il suffit que les trois conditions suivantes soient satisfaites:
(1) Z est intégrable.
(2) Z est F1 -mesurable.
R
R
Z
dP
=
(3) ∀A ∈ F1
A Y dP
A
[13] Démontrer le théorème précédent.
Solution: Les intégrales qui apparaissent dans (3) sont aussi les produits scalaires de Y et de Z avec
la fonction indicatrice 1A . Donc si (la classe de) Z est la projection orthogonale de (la classe de) Y sur
L2 (Ω, F1 , P ) alors Y − Z est perpendiculaire à 1A et (3) est satisfait. Pour la réciproque il suffit de
montrer que la solution F
R 1 -mesurable à (3) est unique à équivalence près. Supposons qu’il y ait une
autre solution Z1 . Alors A (Z − Z1 ) dP = 0 pour tout A ∈ F1 et donc Z = Z1 p.s.
42
Université de Nice – Sophia Antipolis
Montrer les assertions suivantes:
[14] Si Y est F1 -mesurable alors E(Y |F1 ) = Y p.s.
[15] E(a1 Y1 + a2 Y2 |F1 ) = a1 E(Y1 |F1 ) + a2 E(Y2 |F1 ) p.s.
(Linéarité)
[16] E(Y ) = E E(Y |F1 )
(Formule des probabilités totales)
[17] Si W est bornée et F1 -mesurable: E(W · Y |F1 ) = W · E(Y |F1 ) p.s. (Factorisation)
[18] Y ⊲⊳ F1 ⇒ E(Y |F1 ) = E(Y ) p.s.
(Cas d’indépendance)
[19] Y ≥ 0 p.s. ⇒ E(Y |F1 ) ≥ 0 p.s.
[20] F1 ⊂ F2 ⇒ E(Y |F1 ) = E E(Y |F2 )|F1 p.s.
(Positivité)
(Transitivité)
L’espérance conditionnelle dans le cas général
Définition-Théorème (Kolmogorov, 1933):
Soit F1 ⊂ F une sous-tribu d’évènements et soit Y une variable aléatoire intégrable.
Il existe une variable aléatoire Z satisfaisant :
(1) Z est intégrable
(2) Z est F1 −mesurable
Z
Z
(3) ∀A ∈ F1
Z(ω)dP (ω) =
Y (ω)dP (ω)
A
A
Toute autre solution est égale presque partout à Z.
On imaginera dorénavant qu’un choix de solution a été fait une fois pour toutes. Ce
choix est appelé “espérance conditionnelle de Y sachant F1 ” et est notée E(Y |F1 ).
[21] (difficile) Démontrer le théorème précédent (la solution est donnée en appendice.)
[22] Montrer que toutes les propriétés données au bas de la page 2 dans le cas L2 restent valables
dans le cas L1 (pour certaines il suffit de vérifier les propriétés (1), (2) et (3), pour d’autres il
faut utiliser la construction de E(Y |F1 ) donnée en appendice.)
Pour la propriété de factorisation il suffit que W soit telle que W · Y soit intégrable.
[23] Montrer: E(Y |F1 ) ≤ E |Y | | F1 p.s..
Maîtrise MIM 2000-2001: Probabilités-Statistiques
43
Indication: Écrire Y = Y + − Y − avec Y + = max(Y, 0) et Y − = − min(Y, 0)
[24] On suppose Y ≥ 0 p.s. Montrer: E(Y |F1 ) = 0 p.s. ⇒ Y = 0 p.s.
Définition: On note σ(F1 , F2 ) la plus petit tribu qui contient simultanément F1 et F2 . On note
E(Y |F1 , F2 ) au lieu de E(Y |σ(F1 , F2 )).
La démonstration du théorème suivant est trop technique, même pour être mise en appendice:
Théorème: Si les évènements de F2 sont tous indépendants des évènements composant σ(Y, F1 ) alors
E(Y |F1 ) = E(Y |F1 , F2 ) p.s.
L’espérance conditionnelle dans certains cas particuliers
[25] Quel est le rapport entre la notion d’espérance conditionnelle par rapport à une sous-tribu
et la notion d’espérance conditionnelle par rapport à une partition?
[26] Quelle définition proposez-vous pour “l’espérance conditionnelle de la variable aléatoire Y
sachant la variable aléatoire X” pour retrouver la notion de la feuille 5?
Note: En ce qui concerne la formule explicite donnée dans la feuille 5 dans le cas où X et Y ont une loijointe qui possède une densité, elle est une conséquence du
sur les intégrales
R
R
R théorème de Fubini-Tonelli
multiples (grosso modo il s’agit du théorème qui dit que R2 α(x, y)dxdy = x∈R ( y∈R α(x, y) dy) dx.)
On notera σ(X1 , . . . , XN ) la plus petit tribu qui contient simultanément σ(X1 ), . . . , σ(XN ).
Théorème: La v.a. Y est σ(X1 , . . . , XN )-mesurable si et seulement si il existe (au moins) une fonction
Borélienne g : RN → R telle que Y = g(X1 , . . . , XN ).
[27] Quelle définition prendre pour l’espérance conditionnelle de Y sachant X1 , . . . , XN ?
[28] Montrer E(Y |X1 ) = E E(Y |X1 , X2 )X1 p.s.
La probabilité conditionnelle
Soit F1 une sous-tribu de F et A un évènement. La variable aléatoire E(1A |F1 ) est appelée
“probabilité conditionnelle de l’évènement A sachant F1 ” et est aussi notée P (A|F1 ).
[29] Si les évènements Aj (j ≥ 1) sont deux-à-deux disjoints alors
P (A1 ∪ A2 ∪ . . . |F1 ) = P (A1 |F1 ) + P (A2 |F1 ) + . . . p.s.
[30] Soit X une v.a. et x ∈ R tel que P (X = x) > 0. Montrer que sur {X = x} ⊂ Ω on a presque
partout P (A|X)(ω) = P (A|X = x) (où P (A|X = x) est la probabilité conditionnelle au sens des
évènements.)
La variance conditionnelle
Définition: On suppose Y de carré intégrable. On appelle variance conditionnelle de Y sachant
F1 la variable aléatoire suivante:
2 V(Y |F1 ) = E Y − E(Y |F1 ) F1
44
Université de Nice – Sophia Antipolis
[31] Montrer V(Y |F1 ) = E(Y 2 |F1 ) − E(Y |F1 )2 p.s.
[32] Montrer V(Y ) = V(E(Y |F1 )) + E(V(Y |F1 )).
V(E(Y |F1 )).
En particulier on a toujours V(Y ) ≥
[33] Montrer que V(Y ) = V(E(Y |F1 )) si et seulement si Y est égale p.p. à une v.a. F1 -mesurable.
[34] (pour les vraiment très motivés) On suppose F1 ⊂ F2 . Montrer
V(Y |F1 ) = V E Y |F2 |F1 + E V Y |F2 |F1 p.s.
Quelques démonstrations techniques
Démonstration du théorème de Kolmogorov: Le fait que la classe d’équivalence d’une
solution, si il en existe, soit unique découle de l’exercice [9] ci-dessus. De plus on sait déjà faire
dans le cas où E(Y 2 ) < ∞ et il est aussi clair que si le problème a une solution pour Y1 et Y2 il
en a aussi une pour toute combinaison linéaire a1 Y1 + a2 Y2 . En particulier ça marche pour toute
variable simple. En écrivant Y = 2 max(Y, 0) − |Y | on se ramène au cas où Y ≥ 0. Comme dans
l’exercice [5] de la feuille 1 il existe une suite croissante de variables simples positives Yn avec
lim Yn = Y . Posons Zn = E(Yn |F1 ). Par la propriété de positivité on a Z1 (ω) ≤ Z2 (ω) ≤ . . . p.s.
En prenant dans (3) A = Ω on voit que E(Zn ) = E(Yn ) ≤ E(Y ). Par le théorème de la
convergence monotone on en déduit que Z = lim Zn est finie p.s., est F1 -mesurable et intégrable
(on pose arbitrairement Z = 0 sur la partie F1 -mesurable et de probabilité nulle où soit la suite
(Zn ) n’est pas croissante, soit elle tend vers +∞.) En réappliquant le théorème de la convergence
monotone on montre alors que (3) est satisfait pour ce choix de Z.
Démonstration du théorème sur les fonctions σ(X)-mesurables: C’est vrai si Y = 1A
est la fonction indicatrice d’un évènement A. En effet A est alors dans σ(X) donc de la forme
{X ∈ B} pour un Borélien de R. On a ainsi Y = 1B (X). Par ailleurs, si ça marche pour Y1 et pour
Y2 ça marche aussi pour toute combinaison linéaire a1 Y1 +a2 Y2 . En écrivant Y = 2 max(Y, 0)−|Y |
on se ramène au cas Y ≥ 0. Soit Yn (n ≥ 1) une suite croissante de variables simples positives
σ(X)-mesurables et convergeant simplement vers Y . On peut donc écrire Yn = fn (X) avec des
fonctions Boréliennes fn . Remplaçons fn par gn = max(f1 , . . . , fn ): on a alors g1 ≤ g2 ≤ . . ..
Posons g(x) = lim gn (x) si la suite croissante gn (x) est bornée et donc convergente, et g(x) = 0
sinon. Alors g(x) est une fonction Borélienne et Y = g(X). Note: on a un résultat analogue pour
les fonctions σ(X1 , . . . , XN )-mesurables.
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
45
Notes de cours et exercices (7)
Vecteurs aléatoires. Lois conditionnelles. Désintégration radioactive et loi
exponentielle. Le cas d’un échantillon fini. Processus de comptage.
Vecteurs aléatoires et lois conditionnelles
Définition: Soit n ≥ 1. Un n-vecteur aléatoire Z est la donnée de n v.a. Z1 , . . . , Zn : Ω → R. La loi de
Z est la mesure de probabilité µZ sur Rn définie par
µZ (B) = P ({ω ∈ Ω| Z1 (ω), . . . , Zn (ω) ∈ B}
, ou encore avec des notations plus concises µZ (B) = P (Z ∈ B).
Si deux vecteurs aléatoires X = (X1 , . . . , Xn ) et Y = (Y1 , . . . , Ym ) sur Ω sont donnés on peut les
combiner en un (n + m)-vecteur aléatoire Z = (X, Y) = (X1 , . . . , Xn , Y1 , . . . , Ym ). Un certain nombre de
notions préalablement définies pour les variables aléatoires ont une généralisation évidente aux vecteurs
aléatoires, et il serait fastidieux de tout énumérer. Par exemple on note X ∼ Z si µX = µZ . On note
X ⊲⊳ Z et on dit que X et Z sont indépendantes si pour tout Borélien B ∈ B(Rn ) et pour tout Borélien
C ∈ B(Rm ) on a P (X ∈ B et Z ∈ C) = P (X ∈ B)P (Z ∈ C).
Note: Pour pouvoir écrire X ∼ Z il suffit de regarder les lois respectives de X et de Z, et ces derniers
peuvent donc être définis sur des espaces probabilisés distincts. Par contre X et Z doivent avoir le même
nombre de coordonnées. Par contre pour pouvoir écrire X ⊲⊳ Z le nombre de coordonnées peut différer
mais il faut que X et Z soient définis sur un espace Ω commun.
[1] On se donne une mesure de probabilité µ sur Rn muni de la tribu des Boréliens. Donner une
construction d’un vecteur aléatoire Z dont la loi est µ.
[2] Donner un exemple de trois variables aléatoires X, Y, Z telles que X ⊲⊳ Y et X ⊲⊳ Z mais telles que
X ⊲⊳ (Y + Z) soit faux.
[3] Soit X : Ω → R une v.a. et Z : Ω → Rn un n-vecteur aléatoire. On suppose X ⊲⊳ Z. Montrer que
pour toute fonction Borélienne g : Rn → R les variables aléatoires X et g(Z) sont indépendantes.
[4] Soient X : Ω → Rn et Z : Ω → Rm deux vecteurs aléatoires. Montrer que X ⊲⊳ Z si et seulement si
pour toutes fonctions Boréliennes f : Rn → R et g : Rm → R les variables aléatoires f (X) et g(Z) sont
indépendantes.
[5] Soit X : Ω → R une v.a. et Z = (Z1 , Z2 ) : Ω → R2 un 2-vecteur aléatoire. On suppose X ⊲⊳ Z.
Montrer X ⊲⊳ Z1 et X ⊲⊳ Z2 . La réciproque est-elle vraie?
[6] Soient X et Z deux vecteurs aléatoires indépendants. Montrer que chaque coordonnée de X est une
variable aléatoire indépendante de chaque coordonnée de Z. La réciproque est-elle vraie?
[7] Soient X, Y, Z des vecteurs aléatoires. On suppose X ⊲⊳ Y et X ⊲⊳ Z. Est-il exact que X ⊲⊳ (Y, Z)?
Définition: Soit A un évènement vérifiant P (A) > 0 et soit Z un vecteur aléatoire. On appelle loi
conditionnelle de Z sachant A la mesure de probabilité sur Rn définie par µZ|A (B) = P (Z ∈ B|A).
Note: On peut considérer A lui-même comme un espace probabilisé à condition de définir la probabilité
d’un évènement C ⊂ A par PA (C) = P (C|A) = PP (C)
(A) . La loi conditionnelle de Z sachant A est donc la
loi de la restriction Z|A du vecteur aléatoire Z au sous-ensemble A de Ω.
[8] Montrer: Z ⊲⊳ A ⇐⇒ µZ|A = µZ .
Définition: Soit I un ensemble dénombrable (fini ou infini) d’indices. Soient Ai , i ∈ I des évènements
dans Ω. On dit que (Ai )i∈I forme une quasi-partition de Ω si les conditions
suivantes sont satisfaites:
S
i 6= j ⇒ P (Ai ∩ Aj ) = 0
P ( i∈I Ai ) = 1
46
Université de Nice – Sophia Antipolis
[9] Soit (Ai )i∈I une collection dénombrable (finie ou infinie) d’évènements. Soit 1i la fonction indicatrice
de Ai . Montrer que (Ai )i∈I est une quasi-partition
de Ω si et seulement si:
P
1
(ω)
= 1 p.s.
i
i∈I
[10] Soit (Ai )i∈I une quasi-partition de Ω. Montrer
que pour tout évènement C on a
P
P (C) = i∈I P (C|Ai )P (Ai )
(formule des probabilités totales.)
[11] Soit (Ai )i∈I une quasi-partition de Ω. On suppose que pour tout i ∈ I on a P (Ai ) > 0. Soit C
un évènement. On suppose que P (C|Ai ) ne dépend pas de i ∈ I. Montrer que C est indépendant que
chacun des Ai .
[12] Soit (Ai )i∈I une quasi-partition de Ω telle que pour tout i ∈ I on a P (Ai ) > 0. Soit Z un vecteur
aléatoire. Montrer que Z est indépendant de chacun des Ai si et seulement si les lois conditionnelles
µZ|Ai ne dépendent pas de i ∈ I.
Désintégration radioactive et loi exponentielle
Supposons que l’on soit en train d’oberver un (noyau d’) atome d’un élément radioactif. À l’instant t = 0
on suppose que l’atome n’a pas encore subi de désintégration radioactive (on peut aussi imaginer que
l’on observe tout un ensemble d’atomes et on s’intéresse à l’instant de la première désintégration.) On
va représenter l’instant de cette désintégration par une variable aléatoire X à valeurs dans [0, +∞], et
imposer les conditions suivantes:
1. On a X > 0 avec probabilité 1.
2. Soit t ≥ 0 tel que P (X > t) > 0. Alors P (X > t + s | X > t) est une fonction g(s) (pour s ≥ 0) qui
ne dépend pas de t (mais uniquement de s.)
Nous allons montrer que sous ses conditions on a en fait: ou X = ∞ avec probabilité 1 ou X < ∞ avec
probabilité 1 (et dans ce cas X est bien une variable aléatoire au sens que nous avons utilisé jusqu’à
présent.) On peut reformuler cela ainsi: si une probabilité non nulle existe de désintégration, alors la
désintégration est certaine (à condition d’attendre suffisamment longtemps.) La condition 2 formalise
“l’absence de mémoire” de l’échantillon radioactif: si rien ne s’est produit jusqu’à l’instant t, alors ce qui
arrive après ne dépend que du temps qui s’écoule à partir de t. On va montrer que en fait P (X > t) > 0
pour tout t: on aurait donc pu formuler 2 sans cette condition, mais cela aurait donné un énoncé peu
élégant puisque dépendant de la définition arbitraire de la probabilité conditionnelle P (C|A) lorsque
P (A) = 0.
Théorème: Sous les conditions 1 et 2, soit X = ∞ avec probabilité 1, soit il existe
un paramètre λ ∈ ]0, +∞[, déterminé de manière unique, et tel que la variable
aléatoire X suive la loi exponentielle E(λ), c’est-à-dire la loi à densité g(u) = λ · e−λu
pour u ≥ 0, g(u) = 0 pour u < 0. De manière équivalente on a P (X > t) = e−λt
pour tout t ≥ 0. Le cas dégénéré correspond à λ = 0.
Démonstration: Pour t suffisamment petit on a par 1: P (X > t) > 0, donc en passant
à la limite pour t → 0 on obtient g(s) = P (X > s|X > 0) = P (X > s). Ainsi P (X >
t + s) = P (X > t)P (X > s) pour tout s ≥ 0 et tout t ≥ 0 avec P (X > t) > 0. Par
récurrence on a donc P (X > nt) = P (X > t)n dès que P (X > t) > 0 et pour tout n ≥ 1.
En particulier P (X > nt) > 0. Comme tout t suffisamment petit convient, on conclut que
P (X > T ) > 0 pour tout T et que P (X > t + s) = P (X > t)P (X > s) pour tous t et s. Donc
P (X = ∞) = P (X = ∞)2 et soit P (X = ∞) = 1 soit P (X = ∞) = 0. Plaçons nous dans cette
alternative: alors t > 0 ⇒ P (X > t) < 1. En effet si P (X > t) = 1 alors P (X > nt) = 1 pour
tout n ≥ 1 et donc P (X = ∞) = 1. Prenons en particulier t = 1 on peut donc écrire de manière
Maîtrise MIM 2000-2001: Probabilités-Statistiques
47
unique P (X > 1) = e−λ avec 0 < λ < ∞. On a P (X > 1) = P (X > 1b )b pour tout b ∈ N,
1
a
b ≥ 1. Donc P (X > 1b ) = e− b λ , puis P (X > ab ) = e− b λ . Ainsi P (X > q) = e−λq pour tout
rationnel q ≥ 0. Comme P (X > t) est une fonction décroissante
t on en déduit finalement
R ∞ de
−λu
−λt
du il s’agit bien de la loi
P (X > t) = e
pour tout t ≥ 0. Comme cela s’écrit aussi t λe
exponentielle E(λ).
[13] On n’impose plus la condition P (X = 0) = 0. Quelles sont les nouvelles possibilités?
[14] Montrer que l’espérance de X suivant la loi exponentielle E(λ) est τ = λ1 .
On appelle τ = E(X) le “temps moyen” et λ “l’intensité”.
[15] Quelle est la variance de E(λ)? Déterminer la fonction caractéristique E(eitX ), tous les
moments et tous les cumulants de X ∼ E(λ).
[16] Déterminer en fonction du temps-moyen τ le temps de demi-vie t1/2 qui est défini par la
relation P (X > t1/2 ) = 0.5.
[17] Justifier l’appellation “demi-vie” ainsi: on observe un échantillon de M ≥ 1 atomes radioactifs tous de la même intensité λ, et on suppose que les instants de désintégration des différents
atomes sont “indépendants” au sens probabiliste du terme. Soit YT le nombre d’atomes n’ayant
pas encore subi de désintégration à l’instant T . Quelle est la loi de YT ? Que vaut E(YT )? Quelle
est l’unique valeur de T pour laquelle E(YT ) = M
2 ?
Désintégration de M atomes
On étudie M ≥ 1 atomes radioactifs, en supposant que les instants des M désintégrations sont représentés
par les variables aléatoires X1 , . . . , XM suivant chacune la même loi exponentielle E(λ). On supposera que
X1 , . . . , XM sont des variables aléatoires indépendantes. Soient T1 , . . . , TM le réarrangement croissant
des instants de désintégration: T(ω) := (T1 (ω), . . . , TM (ω)) ne diffère de X(ω) := (X1 (ω), . . . , XM (ω))
que par une permutation des indices et de plus T1 (ω) ≤ . . . ≤ TM (ω).
[18] Montrer: Tk = min1≤i1 <...<ik ≤M max{Xi1 , . . . , Xik }. En déduire que T1 , T2 , . . . , TM sont des
variables aléatoires.
Il est utile de considérer l’action sur RM du groupe SM des permutations selon laquelle σ : {1, . . . , M } →
{1, . . . , M } envoie le point Q = (q1 , . . . , qM ) sur Qσ := (qσ(1) , . . . , qσ(M ) ). On a
∀ω ∈ Ω
∃σ ∈ SM
∀i
Ti (ω) = Xσ(i) (ω)
ou
∀ω ∈ Ω ∃σ ∈ SM
T(ω) = X(ω)σ
[19] Soient Q ∈ RM et σ, τ ∈ SM . Quelles sont les coordonnées de (Qσ )τ ?
[20] Pour toute partie B ⊂ RM on pose B σ = {Qσ | Q ∈ B}. Soit B ⊂ RM un Borélien. Montrer:
S
σ
T ∈ B = σ∈SM X ∈ B ∩ {0 ≤ x1 ≤ . . . ≤ xM } . En déduire une nouvelle démonstration que T1 , T2 ,
. . . , TM sont des variables aléatoires.
On pose T0 = 0 et X0 = 0 et on définit U1 = T1 , U2 = T2 − T1 , . . . , UM = TM − TM −1 .
Théorème: Les variables aléatoires U1 , . . . , UM sont indépendantes. La variable
aléatoire Uk suit la loi exponentielle E((M − k + 1)λ).
[21] Soit Z un n-vecteur aléatoire dont la loi est une loi à densité. Alors ∀i, j i 6= j ⇒ Zi 6= Zj p.s.
[22] Montrer que les évènements Aσ = {Xσ(1) ≤ . . . ≤ Xσ(M ) }, σ ∈ SM , forment une quasi-partition.
Université de Nice – Sophia Antipolis
48
Démonstration du théorème: soient Bi , pour 1 ≤ i ≤ M , des Boréliens dans [0, ∞[. Sur Aσ , on
a Ui = Xσ(i) − Xσ(i−1) (avec les conventions σ(0) = 0 et aussi X0 = 0.) Ainsi
P (∀i Ui ∈ Bi |Aσ ) = P (∀i Xσ(i) − Xσ(i−1) ∈ Bi |Aσ )
1
= P (∀i Xσ(i) − Xσ(i−1) ∈ Bi )
P (Aσ )
Z
1
=
λM e−λ(x1 +...+xM ) dx1 . . . dxM
P (Aσ ) ∀i xσ(i) −xσ(i−1) ∈Bi
En faisant le changement de variables (linéaire, de déterminant ±1): yi = xσ(i) − xσ(i−1) , et en
observant que x1 + . . . + xM = xσ(1) + . . . + xσ(M ) = M y1 + (M − 1)y2 + . . . + yM on obtient:
1
P (∀i Ui ∈ Bi |Aσ ) =
P (Aσ )
Z
λM e−λ(M y1 +(M −1)y2 +...+yM ) dy1 . . . dyM
∀i yi ∈Bi
En particulier en prenant Bi = R+ pour tout i cela permet de calculer
Z
1
1
1
...
λM e−λ(M y1 +(M −1)y2 +...+yM ) dy1 . . . dyM =
P (Aσ ) =
M M −1
1
∀i yi ≥0
et finalement
P (∀i Ui ∈ Bi |Aσ ) =
Z
∀i yi ∈Bi
M λe−M λy1 (M − 1)λe−(M −1)λy2 . . . λe−λyM dy1 . . . dyM
ce qui signifie exactement que la loi conditionnelle de U = (U1 , . . . , UM ) sachant Aσ est la loi
produit E(M λ) × E((M − 1)λ) × . . . × E(λ). Le théorème est démontré (puisque cette loi ne
dépend pas de σ ∈ SM ) et de plus nous voyons que U est indépendant des Aσ , σ ∈ SM .
[23] Quelle est l’espérance de TM ? sa variance? (indication: TM = U1 + . . . + UM .)
[24] Déterminer la (densité de la) loi de la variable aléatoire TM = max(X1 , . . . , XM ). (indication:
que vaut P (TM ≤ t)?)
[25] Soit C1 l’évènement T1 = X1 . Montrer, conditionnellement à C1 , que la variable aléatoire
X1 suit la loi E(M λ) et que les variables aléatoires Yk = Xk − X1 (pour 2 ≤ k ≤ M ) sont
indépendantes et suivent chacune la loi E(λ).
Processus de comptage
On se place dans le cadre de la section précédente. Pour M ≥ 1 et λ ∈ ]0, ∞[ fixés on associe à tout
nombre réel t ≥ 0 la fonction N (t) qui compte le nombre de désintégration ayant lieu entre l’instant 0 et
l’instant t (inclus). On a donc:
N (t) = max{k | U1 + . . . + Uk ≤ t} = max{k | Tk ≤ t}
[26] Montrer N (t) = 1{X1 ≤t} + . . . + 1{XM ≤t} . En déduire que N (t) est une variable aléatoire sur Ω et
donner sa loi.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
49
Note: Attention: N (t) n’est pas une variable aléatoire par rapport à t mais par rapport à ω ∈ Ω. Elle
est une fonction de t à valeurs dans les variables aléatoires sur Ω. Les variables aléatoires N (t), t ≥ 0
forment notre premier exemple de processus stochastique: une collection de variables aléatoires X(t)
(parfois notées Xt ) sur un même espace probabilisé, et paramétrées par t ∈ T avec T = R, ou Z, ou N,
ou encore [0, +∞[ comme ici.
[27] Pour ω fixé, N (t)(ω) est une fonction de t. Montrer que t 7→ N (t)(ω) est une fonction en escalier
croissante, qu’avec probabilité 1 on a N (t) = M pour t suffisamment grand et que (toujours avec
probabilité 1) les sauts de N (t) en ses discontinuités sont exactement de hauteur 1.
[28] Montrer pour 0 ≤ k ≤ M : Tk = inf{t | N (t) ≥ k}.
[29] Soient t1 ≤ t2 et L ∈ N. Montrer:
−λt1 L −(M −L)λt2
) e
P N (t1 ) = N (t2 ) = L = CL
M (1 − e
[30] Déduire de l’exercice précédent la valeur de P N (t1 ) = N (t2 ) . Retrouver ce résultat par un
raisonnement direct.
[31] On pose pour cet exercice N (M,λ) (t) = N (t). Déterminer (en fonction de L, t1 , t2 , et Λ = M λ avec
M → ∞, λ → 0 de sorte que Λ = M λ reste fixe) la valeur de:
pΛ (t1 , t2 , L) =
lim
M →∞, λ→0, M λ=Λ
P N (M,λ) (t1 ) = N (M,λ) (t2 ) = L
[32] Soit t1 ≥ 0. Soit Z(t1 ) > 0 le temps qu’il faut attendre au-delà de t1 pour observer une nouvelle
désintégration. Si N (t1 ) = M on pose Z(t1 ) = +∞. Montrer que Z(t1 ) est une variable aléatoire à
valeurs dans [0, +∞]. (Ind.: sur {N (t1 ) < M } on a Z(t1 ) = TL+1 − t1 avec L = N (t1 ).) Déterminer
la loi de Z(t1 ) conditionnellement à N (t1 ) = L (avec 0 ≤ L < M ). La variable aléatoire Z(t1 ) est-elle
indépendante de N (t1 )?
(M )
[33] Soit Tλ le vecteur aléatoire (T1 , . . . , TM ) donnant les instants successifs des M désintégrations.
Soit t1 ≥ 0. Montrer que conditionnellement à l’évènement {N (t1 ) = L} la loi du vecteur aléatoire
(M −L)
(TL+1 − t1 , TL+2 − t1 , . . . , TM − t1 ) est la même que la loi d’un vecteur aléatoire Tλ
correspondant
à la désintégration de M − L atomes d’intensité λ (on suppose 0 ≤ L < M .)
c
J.-F.
Burnol, 2001.
Université de Nice – Sophia Antipolis
50
Notes de cours et exercices (8)
Le Processus de Poisson. Théorème de remise à zéro. Indépendance et stationnarité des accroissements. Propriété de Markov. Répartition conditionnelle
uniforme.
[1] Soit L ≥ 1. Montrer:
R
0≤v1 ≤...≤vL ≤1
[2] Soit L ≥ 1 et T ≥ 0. Montrer:
R
dv1 . . . dvL =
1
L! .
∀i ui ≥0, u1 +...+uL ≤T
du1 . . . duL =
TL
L! .
Le Processus de Poisson: définition et premières propriétés
Soit Λ > 0. Soient Uk pour k ∈ N \ {0} des variables aléatoires indépendantes suivant chacune la loi
E(Λ). Avec probabilité 1 on a Uk ≥ 0. Quitte à remplacer l’espace probabilisé Ω par ∩k {Uk ≥ 0} on
supposera que l’on a en fait: ∀ω ∀k Uk (ω) ≥ 0.
On pose T0 = 0, T1 = U1 , et pour k ≥ 2: Tk = U1 + . . . + Uk . On a donc 0 = T0 ≤ T1 ≤ T2 ≤ . . .. On
appellera Tk “l’instant de la k-ième désintégration” par analogie aux instant successifs de désintégration
radioactive d’un échantillon comportant un très grand nombre d’atomes. Les variables aléatoires Tk
modélisent également les instants successifs des appels entrant à un standard téléphonique (sous certaines
hypothèses, par exemple celle d’invariance dans le temps du flux moyen entrant d’appels. En particulier
on ne tient pas compte (entre autres) de la différence entre jour et nuit.)
Définition: On appelle Processus de Poisson la collection des variables aléatoires
N (t) : Ω → N ∪ {∞} (pour t ≥ 0) définies par:
N (t)(ω) = sup{k ∈ N | Tk (ω) ≤ t}
On utilise aussi la notation Nt pour désigner la variable aléatoire N (t).
Note: une fonction X : Ω → R ∪ {∞, −∞} est dite mesurable (ou variable aléatoire au sens large) si
d’une part les parties X = +∞ et X = −∞ sont mesurables et si d’autre part la fonction 1{|X|<∞} · X
est mesurable. Attention: la loi de X n’est plus alors confinée à R mais vit sur R ∪ {∞, −∞}.
Note: en fait on va montrer que N (t) < ∞ avec probabilité 1.
[3] Montrer {Nt = L} = {TL ≤ t} ∩ {TL+1 > t} et {Nt = ∞} = ∩L {TL ≤ t} et en déduire que Nt est
bien une variable aléatoire au sens large.
[4] Montrer {Nt = ∞} ⊂ ∩L {UL ≤ t}. En déduire que P (Nt = ∞) = 0. Montrer que avec probabilité 1
on a Nt < ∞ pour tous les t ≥ 0 (simultanément.)
[5] Soient 0 ≤ t1 ≤ t2 et L ∈ N. Montrer: P (N (t1 ) = N (t2 ) = L) =
(Λt1 )L −Λt2
.
L! e
Preuve: L’évènement N (t1 ) = N (t2 ) = L coïncide avec l’intersection des évènements U1 + . . . +
UL ≤ t1 et U1 + . . . + UL+1 > t2 . La probabilité recherchée vaut donc (traiter séparément le cas
Maîtrise MIM 2000-2001: Probabilités-Statistiques
51
L = 0):
p(t1 , t2 , L) =
Z
=
Z
=
Z
∀i ui ≥0
u1 +...+uL ≤t1
u1 +...+uL+1 >t2
∀i ui ≥0
u1 +...+uL ≤t1
∀i ui ≥0
u1 +...+uL ≤t1
L −Λt2
=Λ e
Z
ΛL+1 e−Λ(u1 +...+uL+1 ) du1 . . . duL+1
ΛL e−Λ(u1 +...+uL )
Z
∞
t2 −(u1 +...+uL )
Λe−ΛuL+1 duL+1 du1 . . . duL
ΛL e−Λ(u1 +...+uL ) e−Λ(t2 −(u1 +...+uL )) du1 . . . duL
∀i ui ≥0
u1 +...+uL ≤t1
du1 . . . duL = ΛL
tL
1 −Λt2
e
L!
[6] Retrouver le résultat de l’exercice précédent en exhibant l’intégrale donnant P (N (t1 ) =
N (t2 ) = L) comme la limite d’une quantité analogue pour un échantillon fini de M atomes
radioactifs avec M → ∞ (exercices de la fin de la feuille 7).
[7] Déduire de la formule pour P (N (t1 ) = N (t2 ) = L) une nouvelle preuve que P (N (t) = ∞) = 0,
et montrer que N (t) suit la loi de Poisson P(Λt).
Théorème de remise à zéro
[8] Soit t0 ≥ 0 fixé. Soit Y le temps qu’il faut attendre au delà de t0 pour observer une (nouvelle)
désintégration. Montrer que Y est une variable aléatoire (au sens large), qu’elle est indépendante de la
variable aléatoire N (t0 ) et qu’elle suit la loi exponentielle de paramètre Λ.
Démonstration: C’est clair si t0 = 0 (car alors Y = U1 .) Si t0 > 0: sur l’évènement AL :=
{N (t0 ) = L} on a Y = TL+1 − t0 et sur A∞ = {N (t0 ) = ∞} on a Y = ∞. Donc Y est une
variable aléatoire (au sens large). Conditionnellement à AL on calcule:
P (Y > s| AL ) = P (N (t0 + s) = L| AL ) =
P (N (t0 + s) = N (t0 ) = L)
= e−Λs
P (N (t0 ) = L)
donc Y suit la loi exponentielle de paramètre Λ conditionnellement à AL . Comme ceux-ci pour
L ∈ N forment une quasi-partition cela donne le résultat recherché.
[9] Théorème: Soit t0 ≥ 0 fixé. Les variables aléatoires N (t+t0 )−N (t0 ) pour t ≥ 0
forment elles aussi un Processus de Poisson d’intensité Λ, et qui est indépendant de
la variable aléatoire N (t0 ).
Démonstration: On supposera t0 > 0. Sur {N (t0 ) = ∞} (qui est de probabilité nulle) la
différence N (t + t0 ) − N (t0 ) n’est pas définie, on convient qu’elle vaut ∞. Il faut tout d’abord
trouver des v.a.
P indépendantes Vk ≥ 0, k ≥ 1, de loi E(Λ) et telles que N (t + t0 ) − N (t0 ) =
sup{L ∈ N | k≤L Vk ≤ t} pour t ≥ 0. Cela montrera que t 7→ N (t + t0 ) − N (t) est un Processus
de Poisson. Sur N (t0 ) = ∞ on posera Vk = 0. Sur N (t0 ) < ∞ on pose V1 = TN (t0 )+1 − t0 (la
Université de Nice – Sophia Antipolis
52
variable Y de l’exercice précédent), et Vk = UN (t0 )+k pour k ≥ 2. Il nous faut montrer que les Vk
sont indépendantes de loi commune E(Λ).
P
[10] Vérifier explicitement que l’on a bien N (t + t0 ) − N (t0 ) = sup{L ∈ N | k≤L Vk ≤ t}.
Sur l’évènement AL = {N (t0 ) = L} on aura
V1 = TL+1 − t0 = U1 + . . . + UL+1 − t0 et k ≥ 2 ⇒ Vk = UL+k
Les AL pour L ∈ N forment une quasi-partition de Ω par des évènements de probabilités nonnulles. Déterminons la loi-jointe conditionnellement à AL du vecteur aléatoire (V1 , V2 , . . . , VK )
(pour K ≥ 2.) Soient Bk pour k = 1, . . . , K des Boréliens dans [0, ∞[.
P ((V1 , V2 , . . . , VK ) ∈ B1 × . . . × BK | AL ) =
=
P (AL et V1 ∈ B1 et V2 ∈ B2 et . . . et VK ∈ BK )
P (AL )
P (AL et TL+1 ∈ t0 + B1 et UL+2 ∈ B2 et . . . et UL+K ∈ BK )
P (AL )
L’évènement “AL et TL+1 ∈ t0 + B1 ” est σ(U1 , . . . , UL+1 )-mesurable puisqu’il coïncide avec
{TL ≤ t0 } ∩ {TL+1 > t0 } ∩ {TL+1 ∈ (t0 + B1 )}, il est donc indépendant des v.a. UL+k pour k ≥ 2
et on obtient:
= P (TL+1 ∈ t0 + B1 | AL ) × P (UL+2 ∈ B2 ) × . . . × P (UL+K ∈ BK )
La première probabilité est donnée par l’exercice précédent et les autres le sont par définition:
Z
Z
Z
−Λv2
−Λv1
Λe−ΛvK dvK
Λe
dv2 · . . . ·
dv1 ·
Λe
=
B1
B2
BK
Cela signifie que conditionnellement à AL les variables aléatoires V1 , . . . , VK sont indépendantes
et suivent chacune la loi exponentielle E(Λ). Les AL , L ∈ N formant une quasipartition le
résultat recherché est donc acquis. De plus nous pouvons aussi affirmer que le vecteur aléatoire
(V1 , V2 , . . . , VK ) est indépendant de chaque évènement AL et donc de la variable aléatoire N (t0 ),
C.Q.F.D.
Stationnarité et Indépendance des accroissements
Soient 0 ≤ t1 ≤ . . . ≤ tK (pour K ≥ 2.)
Stationnarité des accroissements.
[11] Montrer que la loi du vecteur aléatoire
(N (t2 + s) − N (t1 + s), . . . , N (tK + s) − N (tK−1 + s))
est la même pour tout s ≥ 0.
Indépendance des accroissements.
[12] Montrer que les variables aléatoires
N (t2 ) − N (t1 ), N (t3 ) − N (t2 ), . . . , N (tK ) − N (tK−1 )
sont indépendantes.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
53
Démonstration: On sait que pour s fixé t → N (t + s) − N (s) est un Processus de Poisson
d’intensité Λ. En écrivant N (tk +s)−N (tk−1 +s) sous la forme (N (tk +s)−N (s))−(N (tk−1 +s)−
N (s)) on en déduit que le vecteur aléatoire (N (t2 + s) − N (t1 + s), .., N (tK + s) − N (tK−1 + s))
a la même loi que le vecteur aléatoire (N (t2 ) − N (t1 ), . . . , N (tK ) − N (tK−1 )) et donc ne dépend
pas de la valeur de s.
On utilise maintenant que pour t1 fixé t → N (t + t1 ) − N (t1 ) est aussi un Processus de Poisson
de paramètre Λ. Comme N (tk ) − N (tk−1 ) = (N (tk ) − N (t1 )) − (N (tk−1 ) − N (t1 )) il en résulte
que les deux vecteurs aléatoires
N (t2 ) − N (t1 ), N (t3 ) − N (t2 ), . . . , N (tK ) − N (tK−1 )
et N (t2 − t1 ), N (t3 − t1 ) − N (t2 − t1 ), . . . , N (tK − t1 ) − N (tK−1 − t1 )
ont la même loi. De plus on sait par le Théorème de remise à zéro que la variable aléatoire
N (t2 − t1 ) est indépendante du vecteur aléatoire
N (t3 − t1 ) − N (t2 − t1 ), . . . , N (tK − t1 ) − N (tK−1 − t1 )
On peut donc procéder par récurrence: en effet si les coordonnées de ce vecteur sont mutuellement
indépendantes (hypothèse de récurrence, vrai trivialement pour K = 2 (pas de coordonnées) ou
K = 3 (une unique coordonnée)), il en résulte que les variables aléatoires N (t2 − t1 ), N (t3 − t1 ) −
N (t2 − t1 ), . . . , N (tK − t1 ) − N (tK−1 − t1 ) sont mutuellement indépendantes, et donc finalement
que le vecteur aléatoire (N (t2 ) − N (t1 ), N (t3 ) − N (t2 ), . . . , N (tK ) − N (tK−1 )) a des coordonnées
mutuellement indépendantes.
[13] Soient X et Y deux vecteurs aléatoires. On suppose X ⊲⊳ Y, que les coordonnées X1 , . . . , Xn
de X sont mutuellement indépendantes, et que les coordonnées Y1 , . . . , Ym de Y sont mutuellement indépendantes. Montrer que X1 , . . . , Xn , Y1 , . . . , Ym sont mutuellement indépendantes.
Propriété de Markov
[14] Montrer que conditionnellement à l’évènement N (t0 ) = L le “futur du processus” (les variables aléatoires N (t) pour t ≥ t0 ) est indépendant de son “passé” (les
variables N (u) pour u ≤ t0 ).
Autrement dit le “futur” ne dépend du “passé” que par le “présent”.
[15] On montrera tout d’abord le raffinement suivant du Théorème de remise à zéro: le processus
t 7→ N (t + t0 ) − N (t0 ) est indépendant des variables aléatoires N (u), u ≤ t0 . Cela résulte immédiatement
de l’indépendance des accroissements.
Université de Nice – Sophia Antipolis
54
Répartition conditionnelle uniforme des variables aléatoires Tk
[16] Soit L ≥ 1. Montrer que la loi du vecteur aléatoire (T1 , . . . , TL ) possède une densité qui
est donnée explicitement par ΛL e−Λ tL 10≤t1 ≤...≤tL . Indication: il suffit de faire le changement de
variable approprié dans la densité de la loi de (U1 , . . . , UL ).
[17] Soit t > 0 et L ≥ 1. Montrer que conditionnellement à l’évènement {N (t) = L} la loi du
vecteur aléatoire (T1 , . . . , TL ) est identique avec la loi du réarrangement croissant de L variables
aléatoires uniformément distribuées sur l’intervalle [0, t]. Indication: il suffit de calculer les densités de ces deux lois et de constater qu’elles coïncident avec C · 10≤x1 ≤...≤xL ≤t où la constante
de normalisation C vaut tL!L .
[18] Soient 0 ≤ t1 < t2 et L ≥ 1. Montrer que conditionnellement à l’évènement {N (t2 )−N (t1 ) =
L} la loi du vecteur aléatoire (TN (t1 )+1 , . . . , TN (t2 ) ) est identique avec la loi du réarrangement
croissant de L variables aléatoires uniformément distribuées sur l’intervalle [t1 , t2 ].
Exercices divers sur le Processus de Poisson
[19] Montrer que avec probabilité 1 on a 0 < T1 < T2 < T3 < . . .
[20] Montrer que limk→∞ Tk = ∞ presque sûrement (indication: quelle est la probabilité que
tous les Uk soient majorés par une constante?)
[21] Montrer que
Nt
t
converge en loi lorsque t → ∞ vers la constante Λ.
Note: en fait en utilisant la loi forte des grands nombres on montre: limt→∞
Nt
t
= Λ p.s.
[22] Soit k ≥ 1. Montrer que les évènements {Tk > t} et {N (t) < k} coïncident, en déduire la
valeur de P (Tk > t) puis la densité de la loi de Tk .
[23] Retrouver le résultat précédent en partant de la loi de (T1 , . . . , Tk ) et en intégrant par rapport
aux k − 1 premières variables.
[24] Soit k ≥ 1. Que valent E(Tk ) et V(Tk )? Plus généralement donner la fonction caractéristique
et tous les cumulants de Tk (utiliser Tk = U1 + . . . + Uk .)
[25] Soit t > 0 fixé. Quelle est la probabilité que N (t) soit pair? impair?
[26] Soient 0 < t < s et L1 , L2 ∈ N. Que vaut P (N (t) = L1 et N (s) = L2 )?
[27] Soient 0 < t < s et L ∈ N. Que vaut P (N (t) = L ou N (s) = L)?
[28] Soient 0 < t < s < u et L1 , L2 , L3 ∈ N. Que vaut P (N (t) = L1 et N (s) = L2 et N (t) =
L3 )?
[29] On pose Xt = Nt − Λt. Montrer que le processus (Xt )t≥0 est une martingale:
0 ≤ t ≤ s ⇒ E(Xs |Xt ) = Xt
[30] Soient I et J deux intervalles dans [0, ∞[. Soit XI = #{k ∈ N | Tk ∈ I}, et soit XJ = #{k ∈
N | Tk ∈ J}. Que vaut C(XI , XJ )? Montrer que XI et XJ sont indépendantes si I ∩ J = ∅.
[31] Soit t > 0 fixé. Soit U le temps qu’il faut attendre pour la première désintégration ayant lieu
après t, et soit V le temps qui s’est écoulé depuis la dernière désintégration ayant eu lieu avant
(ou exactement en) t (on convient Vt = t si T1 > t.) Que vaut P (U > x et V ≥ y)? En déduire
que les variables aléatoires U et V sont indépendantes, et donner leurs lois. Que vaut P (U ≥ V )?
Maîtrise MIM 2000-2001: Probabilités-Statistiques
55
Indication: {U > x et V ≥ y} = {N (t + x) = N (t) et N (t) = N (t − y)} (pour y ≤ t.)
[32] Dans le cadre de l’exercice précédent que vaut E(U + V )? Comparer avec l’écart de temps
moyen entre deux désintégrations (qui vaut 1/Λ) et commenter ce “paradoxe.”
[33] Soient 0 < t < s < u. Conditionnellement à l’évènement {N (u) = N (t) + 2}, quelle est la
probabilité que N (s) = N (t) + 1?
[34] Soient 0 < t < s < u et soit L ≥ 1. Conditionnellement à l’évènement {N (u) = N (t) + L},
quelle est la loi de N (s) − N (t)?
c
J.-F.
Burnol, 2001.
56
Université de Nice – Sophia Antipolis
Notes de cours et exercices (9)
Vecteurs gaussiens. Indépendance et Espérance conditionnelle dans le cadre
gaussien. Processus Gaussiens. Processus de Wiener.
Vecteurs aléatoires
Soit Y un vecteur aléatoire de coordonnées Y1 , . . . , Yn . Son espérance E(Y) est le vecteur de Rn de
coordonnées E(Y1 ), . . . , E(Yn ). Sa fonction caractéristique est la fonction de u = (u1 , . . . , un ) définie par
ϕY (u) = E(ei (u1 Y1 +...+un Yn ) ). Sa matrice des variances-covariances V(Y) (aussi notée C(Y)) est définie
par V(Y)i,j = C(Yi , Yj ). Il sera commode de considérer Y comme un vecteur colonne et u comme un
vecteur ligne de sorte que:
ϕY (u) = E(ei u·Y )
V(Y) = E (Y − E(Y)) ⊗ (Y − E(Y))t
On a utilisé la notation α ⊗ β (“produit de Kronecker”) pour désigner (αi βj )1≤i≤n,1≤j≤m qui est la


α1
.
matrice formée à partir de la colonne  ..  et de la ligne ( β1 . . . βm ). Si X et Y sont deux
αn
vecteurs aléatoires, leur covariance est la matrice C(X, Y) = E (X − E(X)) ⊗ (Y − E(Y))t (avec
C(X, Y)i,j = C(Xi , Yj )). Elle est bilinéaire en X et Y et sa matrice transposée est C(Y, X).
Théorème d’unicité (admis): Deux vecteurs aléatoires ont la même loi si et
seulement si ils ont la même fonction caractéristique.
[1] Soit Y à coordonnées indépendantes Y1 , . . . , Yn . Montrer: ϕY (u) = ϕY1 (u1 ) · · · · · ϕYn (un ).
[2] On suppose qu’il existe des variables aléatoires Z1 , . . . , Zn telles que ∀u ϕY (u) = ϕZ1 (u1 )·· · ··ϕZn (un ).
Montrer que les coordonnées de Y sont indépendantes et distribuées comme Z1 , . . . , Zn .
Vecteurs gaussiens
Définition: On dit qu’un vecteur aléatoire Y est un vecteur gaussien, ou que les variables
aléatoires Y1 , . . . , Yn suivent une loi jointe normale (ou une loi normale multidimensionnelle, ou
une loi gaussienne, etc. . . ) si il existe au moins une façon d’écrire Y = E(Y) + A · X avec une
matrice (n lignes, m colonnes) A et un vecteur aléatoire X = (X1 , . . . , Xm )t de coordonnées
indépendantes suivant chacune la loi normale N (0, 1).
Note: Si l’on considère les vj = Yj − E(Yj ) et les ui = Xi comme des vecteurs de l’espace vectoriel des
variables aléatoires alors la matrice qui exprime les vj comme combinaison linéaire des ui est une matrice
avec m lignes et n colonnes. Il s’agit en fait de la transposée At de A (et non pas de A.)
[3] Soit Y un vecteur gaussien à valeurs dans Rn . Soit B une matrice m × n et C une colonne m × 1
(formées avec des constantes.) Montrer que Z = C + B · Y est un vecteur gaussien.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
57
[4] Soit Y un vecteur Gaussien. Soient m = E(Y) et Γ = V(Y ). Montrer:
1
ϕY (u) = ei u·m e− 2 u·Γ·u
t
Ind.: utiliser une représentation Y = m + A · X. Montrer Γ = A · At et ϕY (u) = ei u·m ϕX (u · A).
Que vaut ϕX (v)?
[5] Montrer qu’un vecteur Gaussien Y a des coordonnées indépendantes si et seulement si sa
matrice des variances-covariances V(Y) est diagonale.
On note Y ∼ N (m, Γ) si Y a Γ comme matrice des variances-covariances et si m = E(Y). Si
Y ∼ N (m, Γ) et Z ∼ N (m, Γ) alors Y et Z suivent la même loi, puisqu’ils ont la même fonction
caractéristique.
[6] Soit Γ une matrice n × n symétrique et positive. Montrer qu’il existe un n-vecteur Gaussien
Y avec V(Y) = Γ. Indic.: Γ est de la forme B t · B avec B carrée par [II-24] et [II-22].
[7] Soit Y un vecteur aléatoire. Montrer qu’il existe un vecteur Gaussien Z qui a la même
espérance et les mêmes covariances que Y.
[8] Montrer qu’un vecteur aléatoire Y est un vecteur Gaussien si et seulement si toute combinaison
linéaire de ses coordonnées Y1 , . . . , Yn suit une loi normale unidimensionnelle (éventuellement un
Dirac.)
Démonstration: On peut supposer E(Y) = 0. On a alors ϕY (u) = E(ei uY ) =
1
1
t
e− 2 V(uY) = e− 2 uV(Y)u qui est la fonction caractéristique d’un vecteur de loi N (0, V(Y)).
Définition: Un vecteur Gaussien Y est dit dégénéré si det(V(Y)) = 0 et il est dit non dégénéré
dans le cas contraire.
[9] Montrer que la loi d’un vecteur Gaussien dégénéré n’est pas une loi à densité.
[10] Soit Y un vecteur Gaussien non-dégénéré. Montrer qu’il existe une matrice carrée inversible
A avec V(Y) = A · At . Montrer que le vecteur Gaussien X défini par X = A−1 · Y a des
coordonnées indépendantes suivant chacune la loi N (0, 1).
Indication: Par [II-22] la matrice
V(Y) est de la forme B t · B avec B une matrice carrée, nécessairement inversible.
[11] Soit Y ∼ N (m, Γ) un vecteur Gaussien non-dégénéré. Montrer que la loi de Y
possède une densité qui est donnée par la formule suivante:
fY (y) =
(2π)n/2
1
p
1
det(Γ)
t
e− 2 (y−m) ·Γ
−1
·(y−m)
Indication: écrire Γ = A · At et faire le changement de variables approprié.
1
t
[12] On suppose que le vecteur aléatoire Y a comme fonction caractéristique e− 2 u·H·u pour une certaine
matrice symétrique H. Montrer que Y est Gaussien de matrice des variances-covariances H. Indication:
la première chose c’est de montrer que H est nécessairement une matrice positive. Ensuite, ça roule.
58
Université de Nice – Sophia Antipolis
Espérance conditionnelle dans le cadre Gaussien
Pour X une v.a. et Y = (Y1 , . . . , Yn ) un vecteur aléatoire, on note:
E(X|Y) = E(X| Y1 , . . . , Yn )
Si X est un vecteur aléatoire, on note E(X|Y) le vecteur aléatoire
(E(X1 |Y), . . . , E(Xn |Y))
Par ailleurs on note RL(X|Y) le vecteur aléatoire dont les coordonnées RL(Xi |Y) sont les régressions
linéaires des coordonnées de X par Y1 , . . . , Yn .
Théorème: Si X et Y forment conjointement un vecteur Gaussien alors
E(X|Y) = RL(X|Y) p.s.
Démonstration: Les deux termes sont linéaires en X et égaux si X est une constante on peut donc
supposer E(X) = 0. De plus les deux termes ne sont pas modifiés si l’on ajoute à l’une des coordonnées
de Y une constante. On peut donc aussi supposer E(Y) = 0. Posons Z = RL(X|Y). C’est une certaine
combinaison linéaire des Yi . Le vecteur aléatoire W = (X − Z, Y) est un vecteur Gaussien et comme par
construction la différence X − Z n’est corrélée avec aucun des Yi , la fonction caractéristique ϕW (t, u)
se factorise en ϕX−Z (t) · ϕY (u). Ceci prouve que la loi de W est la loi-produit L(X − Z) × L(Y) et
donc que X − Z est indépendante de Y. Ainsi X − Z est indépendante de la tribu σ(Y1 , . . . , Yn ) et
donc E(X − Z|Y) = E(X − Z) = 0 p.s. Par linéarité on en déduit E(X|Y) = E(Z|Y) p.s. Mais Z est
σ(Y)-mesurable donc E(Z|Y) = Z p.s. En conclusion E(X|Y) = Z = RL(X|Y) p.s. CQFD.
Note: On sait que en toute généralité E(X|Y) est une projection orthogonale (si X est de variance finie.)
Dans le cadre gaussien on voit qu’il suffit pour la calculer de prendre la projection orthogonale sur l’espace
vectoriel de dimension finie engendrée par les constantes et par les coordonnées de Y. Attention: Il ne
suffit pas que X et les Yi soient séparément Gaussiennes.
[13] Soit Ω =]0, 1[ avec la tribu des Boréliens et la mesure de Lebesgue. Soit X : Ω → R l’inverse
de Lévy de la loi normale N (0, 1) et soit Y : Ω → R défini selon: Y (ω) = X(2ω) pour 0 < ω < 0.5,
Y (0.5) = 0 et Y (ω) = X(2(1 − ω)) pour 0.5 < ω < 1. Montrer que Y suit également la loi normale
N (0, 1). Montrer que les variables gaussiennes Y et X sont non-corrélées et donc RL(Y |X) = 0. Montrer
E(Y |X) = Y 6= RL(Y |X) (quelle est la tribu σ(X)?) Le vecteur aléatoire (Y, X) est-il un vecteur
Gaussien? Montrer E(X|Y ) = 0. Les v.a. Y et X sont-elles indépendantes?
Indication: utilisez le fait que X est “impaire” et Y “paire” par rapport à la symétrie ω 7→ 1 − ω.
[14] Soient X et Y deux variables aléatoires centrées de carrés intégrables. On suppose E(Y |X) = 0.
Montrer RL(Y |X) = 0. On suppose RL(Y |X) = 0. Cela implique-t-il E(Y |X) = 0?
[15] Sur Ω = R2 on considère la mesure de probabilité de densité:
x2
(y−x)2
(y+x)2
1 − 2
f (x, y) = 4π
(e− 2 + e− 2 )
e
Soient X et Y les fonctions coordonnées. Montrer que X et Y sont des gaussiennes (déterminer les
densités de leurs lois respectives.) Montrer qu’elles sont non-corrélées. Sont-elles indépendantes?
Le vecteur aléatoire (X, Y ) est-il un vecteur gaussien? Que valent E(X|Y ) et E(Y |X)?
Maîtrise MIM 2000-2001: Probabilités-Statistiques
59
[16] Soient Y et X deux vecteurs aléatoires formant conjointement un vecteur Gaussien. Montrer que E(Y | X) et Z := Y − E(Y | X) sont des vecteurs Gaussiens indépendants. Montrer que Z est centré. On suppose que X est non-dégénéré. Montrer
les formules matricielles:
E(Y | X) = E(Y) + C(Y, X) · V(X)−1 · (X − E(X))
V(Z) = V(Y) − C(Y, X) · V(X)−1 · C(X, Y)
Processus Stochastiques, Processus Gaussiens
Sot T un ensemble d’indices, le plus souvent il s’agit de N, Z, R ou encore de [0, +∞[. Un processus
stochastique (Xt )t∈T est simplement la collection de variables aléatoires Xt pour t ∈ T sur le même
espace probabilisé Ω. À chaque n ≥ 1 et chaque n-uple d’éléments t1 , . . . , tn de T est associée la loi
µX
t1 ,...,tn du vecteur aléatoire (Xt1 , . . . , Xtn ): on les appelle les “lois à n-points” du processus.
Lorsque T est Z ou R on dit que le processus est “stationnaire” si ses lois à n-points ne changent
pas lors du remplacement de t1 , . . . , tn par t1 + s, . . . , tn + s pour s quelconque. Lorsque T est Z ou
R ou N ou [0, +∞[ on dit que le processus est à “accroissements stationnaires” si la loi du vecteur
aléatoire des accroissements (Xt2 − Xt1 , . . . , Xtn − Xtn−1 ) (pour t1 ≤ t2 ≤ . . . ≤ tn ) est identique avec
celle de (Xt2 +s − Xt1 +s , . . . , Xtn +s − Xtn−1+s ). On dit qu’il est à “accroissements indépendants” si les
variables aléatoires Xt2 − Xt1 , . . . , Xtn − Xtn−1 sont indépendantes (pour tout n ≥ 1 et tout choix de
t1 ≤ t2 ≤ . . . ≤ tn ).
Le processus est dit être un Processus Gaussien si toutes ses “lois à n-points” (pour tous les n) sont des
lois gaussiennes. Il ne suffit donc pas que les variables aléatoires Xt soient séparément des gaussiennes.
Le Processus de Wiener
Le Processus de Wiener est un processus Gaussien avec T = [0, +∞[, à accroissements indépen√
dants et stationnaires, et tel que Xt ∼ N (0, t) (la variance de Xt est t, son écart-type est t.) Ses
trajectoires (t 7→ Xt (ω) pour ω fixé) sont des fonctions continues de t. Il est loin d’être évident
qu’un tel processus existe. Le Processus de Wiener est aussi appelé Mouvement Brownien, car
ses trajectoires ressemblent à et modélisent les mouvements erratiques décrits par le botaniste
Robert Brown en 1828 de particules microscopiques (du pollen) en suspension dans un fluide.
Dans un premier temps les scientifiques attribuèrent ces mouvements à une “force vitale”, mais il
apparut clairement ensuite que ce phénomène n’avait rien à voir avec la vie biologique. L’un des
articles de Albert Einstein (il faut citer aussi Smoluchowski à la même époque) de son “annus
mirabilis” (1905) porte sur l’utilisation de Lois Gaussiennes dépendant du temps pour la modélisation de ces mouvements, et sur l’idée que l’explication du phénomème physique se trouve dans
le “bombardement” permanent des grains du pollen par les molécules composant le fluide et
soumises à l’agitation thermique. Remarquablement il semble que Einstein ne connaissait pas
les observations de Brown lors de la rédaction de son article. Pour lui il s’agissait de prédire un
phénomène physique nouveau, et d’apporter la preuve de l’existence des atomes. Sur la base de
ces calculs et prédictions d’Einstein, l’expérimentateur Perrin put ensuite déterminer approximativement le nombre d’Avogadro, et donc la taille typique des atomes. En 1900 déjà, dans un
60
Université de Nice – Sophia Antipolis
travail précurseur mais très longtemps oublié, Louis Bachelier avait développé les mathématiques
de Gaussiennes évoluant dans le temps. On savait depuis Fourier que cela modélisait l’évolution
de la température dans un matériau, et Bachelier poursuivait une très originale analogie entre
“diffusion de la température par des particules microscopiques suivant des marches aléatoires”
et “évolution des cours des actions cotées en Bourse”! Il mit en avant de manière heuristique ce
que l’on appelle aujourd’hui la Propriété de Markov du Processus de Wiener et fit les premiers
calculs de produits financiers appelés aujourd’hui “options.” Ce n’est qu’à partir des années 1950
et 1960 que ses travaux furent redécouverts par les economistes, et il est aujourd’hui célébré par
eux comme un visionnaire et grand précurseur.
THÉORÈME (Norbert Wiener, 1923):
Soit Ω l’espace des fonctions continues f : [0, +∞[→ R, s’annulant en t = 0. Soit
F ⊂ P(Ω) la plus petite tribu comprenant les sous-ensembles de Ω de la forme
{f | a ≤ f (t) ≤ b} pour a, b ∈ R et t ≥ 0 fixes et quelconques.
Il existe une (unique) mesure de probabilité µW sur (Ω, F) pour laquelle les variables
aléatoires Wt : f 7→ f (t) pour t ∈ [0, ∞[ forment un Processus Gaussien à accroissements stationnaires et indépendants et tel que Wt soit une variable normale centrée
de variance t.
Cette mesure µW est appelée “mesure de Wiener” et le Processus (Wt )t≥0 est appelé
“Processus de Wiener.”
Plusieurs approches sont possibles pour la démonstration de ce théorème, aucune ne me semble suffisamment simple pour être exposée complètement dans le cadre de ce cours. Nous admettrons donc
l’existence de (Wt )t≥0 .
[17] Écrire explicitement l’intégrale multiple qui donne (pour 0 < t1 < . . . < tn et a1 ≤ b1 , . . . , an ≤ bn ):
P Wt1 ∈ [a1 , b1 ] et . . . et Wtn ∈ [an , bn ]
(ce genre d’évènement est communément appelé un “cylindre” ou un “slalom”.)
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
61
Notes de cours et exercices (10)
Quelques propriétés du processus de Wiener (Résumé.)
Nous avons admis le théoréme suivant:
THÉORÈME (Norbert Wiener, 1923):
Soit Ω l’espace des fonctions continues f : [0, +∞[→ R, s’annulant en t = 0. Soit
F ⊂ P(Ω) la plus petite tribu comprenant les sous-ensembles de Ω de la forme
{f | a ≤ f (t) ≤ b} pour a, b ∈ R et t ≥ 0 fixes et quelconques.
Il existe une (unique) mesure de probabilité µW sur (Ω, F) pour laquelle les variables
aléatoires Wt : f 7→ f (t) pour t ∈ [0, ∞[ forment un Processus Gaussien à accroissements stationnaires et indépendants et tel que Wt soit une variable normale centrée
de variance t.
Cette mesure µW est appelée “mesure de Wiener” et le Processus (Wt )t≥0 est appelé
“Processus de Wiener.”
Ce qui suit est le résumé des deux dernières leçons.
Le processus de Wiener étant Gaussien et centré, ses lois à n-points sont déterminées entièrement
par la fonction de covariance Γ(t, s) = C(Wt , Ws ). On la calcule et on obtient Γ(t, s) = min(t, s).
q
1
Soit λ > 0 et posons Zt =
λ · Wλt . Les Zt pour t ≥ 0 forment un nouveau processus
Gaussien centré qui a la même fonction de covariance que (Wt )t≥0 , donc les même lois à npoints. Considérons la transformation Rλ de Ω dans lui-même qui transforme la trajectoire ω =
( t 7→ f (t) ) en la trajectoire Rλ (ω) = ( t 7→ √1λ · f (λt) ). Par construction Zt (ω) = Wt (Rλ (ω))
(les Zt sont les “pullback” des Wt .) Mais alors leurs lois-jointes sont celles des Wt par rapport
au “push-forward” (aussi appelé “transfert”) (Rλ )∗ (µW ) de la mesure de Wiener c’est-à-dire
la mesure C 7→ µW (Rλ−1 (C)). Par unicité on a donc (Rλ )∗ (µW ) = µW , autrement dit on a
l’invariance de la mesure de Wiener sous le changement d’échelle Rλ .
Une autre transformation de Ω dans lui-même qui laisse invariante la mesure de Wiener est la
transformation ( t 7→ f (t) ) 7→ ( t 7→ −f (t) ). La raison en est plus élémentaire puisqu’il s’agit
simplement d’une conséquence de la symétrie des lois gaussiennes centrées pour la réflexion par
rapport à l’origine. Cette invariance vaut donc pour tout processus Gaussien centré.
En utilisant des arguments qui s’apparentent à ceux impliqués dans une inégalité générale de
Kolmogorov pour les martingales, on montre P (max0≤u≤1 Wu > x > 0) ≤ 2P (W1 > x). On
en déduit que la variable aléatoire Z = max0≤u≤1 |Wu | est d’espérance finie. Ceci, combiné à
Wn
n →n→∞ 0 p.s. (obtenu grâce à la loi forte des grands nombres), permet alors de montrer que
avec probabilité 1 on a limt→∞ Wt t = 0.
Considérons la transformation I de Ω dans lui-même qui transforme la trajectoire ω = ( t 7→ f (t) )
en la trajectoire ω = ( t 7→ tf ( 1t ) ) au cas où l’on a limt→∞ f (t)
t = 0 (de sorte que la nouvelle
Université de Nice – Sophia Antipolis
62
trajectoire peut être considérée comme débutant en 0 pour t = 0) et sinon I(ω) = ω (ou n’importe
quelle autre convention, puisque cela ne concerne qu’une partie de mesure nulle.) À nouveau le
processus (Zt )t≥0 , pull-back de (Wt )t≥0 par I, est un processus Gaussien centré. On constate que
sa fonction de covariance est à nouveau min(t, s) (puisque ts min( 1t , 1s ) = min(t, s) !) et donc par
le même raisonnement que ci-dessus, on conclut à l’invariance de la mesure de Wiener sous la
transformation (involutive) I de Ω. Toute propriété liée au comportement des trajectoires lorsque
t → ∞ a donc automatiquement sa traduction en une propriété du comportement des trajectoires
au voisinage de t = 0.
À ce sujet nous avons cité sans démonstration le théorème de Khintchine (1933; 1924 pour les
marches aléatoires) selon lequel on a avec probabilité 1 limsupt→∞ √ Wt
= 1 (et donc
liminf t→∞
√
Wt
2t log(log(t))
= −1). On peut donc affirmer
2t log(log(t))
Wt
q
limsupt→0
2t log(log( 1t ))
= 1, et ceci
montre que avec probabilité 1 la trajectoire n’est pas dérivable en t = 0.
Plus fortement on a le théorème de Paley-Wiener-Zygmund (1933) selon lequel avec probabilité
1 la trajectoire Brownienne n’est nulle part dérivable: nous avons conclu le cours en exposant
la démonstration de ce fait en suivant en cela la méthode de Dvoretzky-Erdös-Kac (1950). Plus
précisément on montre qu’il existe un évènement (F-mesurable) de probabilité 1 pour lequel toutes
les trajectoires correspondantes sont nulle part dérivables. Pour éviter de se poser la question de
savoir si le fait d’avoir au moins un point de dérivabilité définit une partie F-mesurable ou non
(sans doute non, en fait), ou des questions analogues pour d’autres propriétés, on remplace F
par sa complétion de Lebesgue en rajoutant toutes les parties négligeables.
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
63
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
PARTIEL DU 30 NOVEMBRE 2000
durée: 2 heures
Tous documents autorisés – Calculatrices autorisées
Il est interdit de communiquer par quelque moyen que ce soit avec d’autres candidats ou avec l’extérieur
pendant toute la durée de l’épreuve. Toute tentative de fraude fera l’objet d’un procès-verbal officiel et
sera sanctionnée suivant les règles en vigueur.
Les 4 problèmes sont indépendants et peuvent être traités dans l’ordre de
votre choix. Prenez le temps de lire soigneusement chaque énoncé et de
vérifier que vous répondez à chaque question posée.
[1] (4 points) Un polycopié comporte 200 fautes de frappe, que l’on suppose réparties
aléatoirement et indépendamment les unes des autres sur les 100 pages du manuscrit.
Quelle est la loi qui donne le nombre de fautes de frappe sur une page donnée (par
exemple la page 37), et quelle autre loi peut-on utiliser à titre d’approximation? Quelle
est alors approximativement la probabilité que la page 37 ne contienne aucune faute de
frappe?
[2] (5 points) On procède à 99 répétitions indépendantes d’une épreuve qui a une probabilité 0.55 de succès (et une probabilité 0.45 d’échec.) Soit X le nombre total de succès.
Quelle est l’espérance E de X? Quel est son écart-type Σ? Montrer qu’il y a à peu près
7 chances sur 10 que 50 ≤ X ≤ 59 et à peu près 9 chances sur 10 que 47 ≤ X ≤ 62
(utiliser les tableaux suivants qui donnent en fonction de h une valeur approchée de
R +h
2
I(h) = √12π −h e−u /2 du.)
h
I(h)
0.10
0.08
0.20
0.16
0.30
0.24
0.40
0.31
0.50
0.38
0.60
0.45
0.70
0.52
0.80
0.58
0.90
0.63
1.00
0.68
h
I(h)
1.10
0.73
1.20
0.77
1.30
0.81
1.40
0.84
1.50
0.87
1.60
0.89
1.70
0.91
1.80
0.93
1.90
0.94
2.00
0.95
[3] (6 points) Soit Ω = {(x, y) | 0 ≤ x ≤ 1, 0 ≤ y ≤ 1} = [0, 1] × [0, 1] muni de la mesure
c(x2 +y 2 )dxdy (pour une certaine constante c.) On choisit c de sorte que Ω soit un espace
probabilisé. Que vaut c? Soient X et Y les variables aléatoires X(x, y) = x et Y (x, y) = y.
Que valent E(X), E(Y ), E(X 2 ), E(Y 2 ), V(X), V(Y ), E(XY ), et C(X, Y )? Déterminer
la régression linéaire α + βX de Y par X. Déterminer l’espérance conditionnelle E(Y |X).
Aucune réponse numérique non justifiée ne sera considérée valable.
[4] (5 points) Soit Ω = {a, b, c, d} un ensemble avec 4 éléments. On prend comme tribu
F la collection de tous les sous-ensembles de Ω et on définit la mesure de probabilité par
P ({a}) = P ({b}) = P ({c}) = P ({d}) = 14 . Soient A1 l’évènement {a, d}, A2 = {b, d},
A3 = {c, d}. Soient X = 1A1 , Y = 1A2 et Z = 1A3 . Faire un tableau donnant les valeurs
prises par X, Y, Z en fonction de ω ∈ Ω. La variable aléatoire X est-elle Y -mesurable?
Déterminer la tribu σ(Y, Z) (la plus petite tribu qui contienne A2 et A3 ). La variable
aléatoire X est-elle σ(Y, Z)-mesurable? Montrer que X est indépendante de Y et aussi
de Z mais pas de la tribu σ(Y, Z). Que valent E(X), E(X|Y ), E(X|Z), et E(X|Y, Z)?
29/11/2000
Partiel – 1
Examen du 30 novembre 2000
Université de Nice – Sophia Antipolis
64
Corrigé
1
[1] Le nombre de fautes de frappe sur une page donnée suit une loi binomiale B(200, 100
)
1
puisque les 200 fautes de frappe sont indépendantes et ont chacune la probabilité 100 de
se trouver sur cette page. Cette loi est approximativement une loi de Poisson P(2). La
probabilité de n’avoir aucune faute sur cette page est donc environ e−2 = 0.1353 . . .
[2] X suit la loi binomiale B(99, 0.55), son espérance E est 99 × 0.55 = 54.45 et sa
variance 99 × 0.55 × 0.45 = 9∗11∗5∗11∗5∗9
. Son écart-type Σ est donc 9∗11∗5
100∗100
100 = 4.95. Par
le tableau et par le théorème de la limite centrale il y a à peu près 7 chances sur 10
que |X − E| ≤ 1.0 × Σ, soit: |X − 54.45| ≤ 4.95 ou encore (compte tenu de X ∈ N)
que 50 ≤ X ≤ 59 (Note: au lieu de h = 1.0 on peut aussi utiliser h = 1.1). Il y a
à peu près 9 chances sur 10 que |X − E| ≤ 1.6 × Σ ce qui donne 47 ≤ X ≤ 62 (car
54.45 − 1.6 ∗ 4.95 = 46.53 et 54.45 + 1.6 ∗ 4.95 = 62.37; on peut aussi utiliser h = 1.7 à
la place de h = 1.6).
RR 2
RR
[3] On calcule
x dxdy = 13 donc (x2 +y 2 ) dxdy = 32 . Il faut donc prendre c = 32 . On
RR
a E(X) = 23 (x3 + xy 2 ) dxdy = 32 ( 41 + 21 13 ) =RR58 . Il y a une symétrie qui échange X et Y
7
donc E(Y ) = 58 . De plus E(Y 2 ) = E(X 2 ) = 23 (x4 +x2RR
y 2 ) dxdy = 32 ( 15 + 31 13 ) = 15
. Donc
73
3
7
3 y + xy 3 ) dxdy = 3 2 1 1 = 3
(x
− 25
=
.
Enfin
E(XY
)
=
V(X) = V(Y ) = 15
64
15×64
2
2 42
8
25
et C(X, Y ) = E(XY ) − E(X)E(Y ) = 38 − 64
= −1
.
La
régression
linéaire
de
Y
par
64
15×64
C(Y,X)
5
X est donnée par la formule E(Y ) + V(X) (X − E(X)) soit 85 + −1
64
73 (X − 8 ) =
5
8
−
15
73 (X
− 85 ) =
régression x 7→
R1
55
15
73 − 73 X.
y (x2 +y 2 ) dy
R0 1
2
2
0 (x +y ) dy
=
L’espérance conditionnelle est donnée par la courbe de
x2 /2+1/4
x2 +1/3
et donc E(Y |X) =
6X 2 +3
.
12X 2 +4
[4] Les valeurs de (X, Y, Z) sont données par le tableau suivant:
a
b
c
d
X
1
0
0
1
Y
0
1
0
1
Z
0
0
1
1
La v.a. X n’est pas Y -mesurable puisqu’elle n’est pas constante sur A2 . Une tribu
contenant A2 et A3 contient leur intersection {d} et donc aussi {b} et {c} puis finalement
aussi {a}. Elle contient ainsi tous les singletons et donc tous les sous-ensembles de Ω
et en conclusion σ(Y, Z) = F. La v.a. X est donc σ(Y, Z) mesurable (d’ailleurs on a
par exemple la formule X = |Y + Z − 1|) et l’espérance conditionnelle E(X|Y, Z) est
simplement X. Si X était indépendante de σ(Y, Z) on aurait E(X|Y, Z) = E(X) = 12 ,
donc X n’est pas indépendante de σ(Y, Z). Par contre les v.a. X et Y sont indépendantes
puisque les évènements A1 et A2 sont indépendants (P (A1 ∩ A2 ) = 41 = P (A1 )P (A2 ))
et de même X et Z sont indépendantes. On a alors E(X|Y ) = 21 (vu comme variable
aléatoire constante) et le même résultat pour E(X|Z).
Partiel – 2
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
65
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
CONTRÔLE DU 10 JANVIER 2001
durée: 1 heure 30 minutes
Tous documents autorisés – Calculatrices autorisées
Il est interdit de communiquer par quelque moyen que ce soit avec d’autres candidats ou avec l’extérieur
pendant toute la durée de l’épreuve. Toute tentative de fraude fera l’objet d’un procès-verbal officiel et
sera sanctionnée suivant les règles en vigueur.
Les 3 problèmes sont indépendants et peuvent être traités dans l’ordre de
votre choix. Prenez le temps de lire soigneusement chaque énoncé et de
vérifier que vous répondez à chaque question posée.
[1] (2 points) Soient Z1 = (X1 , Y1 ) et Z2 = (X2 , Y2 ) deux vecteurs aléatoires. On
suppose que Z1 et Z2 sont indépendants
et possèdent la même loi. Montrer:
V(X1 ) = 21 E (X1 − X2 )2
et
C(X1 , Y1 ) = 21 E ((X1 − X2 )(Y1 − Y2 ))
[2] (4 points) Soit Nt , t ≥ 0 un Processus de Poisson d’intensité Λ ∈ ]0, +∞[. Soient
0 < t < s < u. Évaluer en fonction de Λ, t, s, u les probabilités suivantes:
1.
P (N (t) = 1 et N (s) = 2)
2.
P (N (s) = 2 | N (t) = 1)
3.
P (N (s) = 1 | N (u) = N (t))
4.
P (N (t) = 1 | N (s) = 2)
[3] (4 points) Soit Z = (X, Y ) le vecteur Gaussien de densité
f (x, y) =
3 − 1 (5x2 +8xy+5y2 )
e 2
2π
Donner sa matrice des variances-covariances Γ. Soit A l’évènement X > Y et soit W la
variable aléatoire max(X, Y ). Montrer
P (X ≤ t | A) = P (W ≤ t)
Montrer que W est indépendante de A.
08/01/2001
Contrôle – 1
Examen du 10 janvier 2001
66
Université de Nice – Sophia Antipolis
Corrigé
[1] On calcule sous les hypothèses de l’énoncé:
E (X1 − X2 )2 = E(X12 ) − 2E(X1 X2 ) + E(X22 ) = 2E(X12 ) − 2E(X1 )2 = 2V(X1 )
De même
E ((X1 − X2 )(Y1 − Y2 )) = E(X1 Y1 ) − E(X1 Y2 ) − E(X2 Y1 ) + E(X2 Y2 )
= 2E(X1 Y1 ) − 2E(X1 )E(Y1 ) = 2C(X1 , Y1 )
[2]
P (N (t) = 1 et N (s) = 2) = P (N (t) = 1)P (N (s) − N (t) = 1)
= e−Λt Λt e−Λ(s−t) Λ(s − t)
= Λ2 t(s − t) e−Λs
P (N (s) = 2 | N (t) = 1) = P (N (s − t) = 1) = Λ (s − t) e−Λ(s−t)
P (N (s) = 1 et N (u) = N (t))
P (N (s) = 1 | N (u) = N (t)) =
P (N (u) = N (t))
P (N (t) = 1 et N (u) = N (t))
=
P (N (u) = N (t))
e−Λt Λt e−Λ(u−t)
= e−Λt Λt
−Λ(u−t)
e
P (N (t) = 1 et N (s) − N (t) = 1)
P (N (t) = 1 | N (s) = 2) =
P (N (s) = 2)
=
e−Λt Λt e−Λ(s−t) Λ(s − t)
e−Λs 12 Λ2 s2
t(s − t)
=2
s2
=
[3] D’après la formule du cours, Γ est la matrice inverse de 54 45 soit Γ =
ailleurs on a
ZZ
1
f (x, y) dxdy
P (X ≤ t | A) =
x≤t
P (A)
x>y
1 5 −4
9 −4 5 .
Par
On remarque que f (x, y) = f (y, x) et donc que
ZZ
ZZ
f (x, y) dxdy =
f (x, y) dxdy
y<x≤t
x<y≤t
ZZ
1
=
f (x, y) dxdy
2
x≤t et y≤t
(On notera que la diagonale donne une contribution nulle). Par le même argument de
symétrie on obtient P (A) = 12 . Soit finalement
ZZ
P (X ≤ t | A) =
f (x, y) dxdy = P (W ≤ t)
x≤t et y≤t
Sur A on a W = X donc P (W ≤ t | A) = P (W ≤ t) ce qui montre que W est
indépendante de A.
Contrôle – 2
c
J.-F.
Burnol, 2001.
Maîtrise MIM 2000-2001: Probabilités-Statistiques
67
NOM:
PRÉNOM:
né(e) le:
à:
Replier et agrafer
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
EXAMEN DU 31 JANVIER 2001
durée: 3 heures
Tous documents autorisés – Calculatrices autorisées
Il est interdit de communiquer par quelque moyen que ce soit avec d’autres candidats ou avec l’extérieur
pendant toute la durée de l’épreuve. Toute tentative de fraude fera l’objet d’un procès-verbal officiel et
sera sanctionnée suivant les règles en vigueur.
Les problèmes sont indépendants et peuvent être traités dans l’ordre de votre choix. Leurs
énoncés, ci-dessous en petits caractères, sont reproduits en en-tête des pages suivantes. Le
soin apporté à la présentation des solutions sera pris en compte dans la notation.
[1] (3 points) On note ¬A le complémentaire d’un évènement A.
1. Soient A et B deux évènements. On suppose 0 < P (A) < 1. Montrer:
B ⊲⊳ A ⇐⇒ P (B|A) = P (B|¬A)
2. Soit X une variable aléatoire d’espérance 100 et d’écart-type 10. Montrer:
P (80 ≤ X ≤ 120) ≥ 43
[2] (3 points) Un boulanger a préparé 100 petits pains aux raisins, en mélangeant à sa pâte 500 raisins. Un
client achète un petit pain. Soit X la variable aléatoire égale au nombre de raisins contenus dans son petit
pain. Quelle est la loi de X? son espérance? son écart-type? Que vaut approximativement P (X = 0)?
[3] (4 points) Soient X1 et X2 deux variables aléatoires indépendantes, suivant chacune la loi N (0, 1).
Soit A l’évènement {X1 ≤ 0 et X2 = 0}. On définit R > 0 et θ ∈] − π, +π[ sur ¬A par la relation
X1 + iX2 = R exp(iθ).
1. Montrer que P (A) = 0.
2. Déterminer la loi jointe de R et θ.
3. Déterminer l’inverse de Lévy Y de la loi de R.
4. Soient U et V deux variables aléatoires
indépendantes et uniformément distribuées sur l’intervalle ]0, 1[.
q
Déterminer la loi de Z = cos(2πV )
1
).
2 log( U
[4] (3 points) Soit N (t), t ≥ 0 un Processus de Poisson d’intensité Λ ∈ ]0, +∞[. Soient 0 < t < s < u.
Évaluer en fonction de Λ, t, s, u les probabilités suivantes:
1. P (N (t) ≥ 1 ou N (s) ≥ 1 ou N (u) ≥ 1)
2. P (N (t) est pair)
3. P (N (t) est pair et N (s) est impair et N (u) est pair)
[5] (3 points) Soient E0 , E1 , E2 , et E3 des variables aléatoires indépendantes chacune de loi N (0, 1). On
pose X1 = E1 − E0 , X2 = E2 − E1 , X3 = E3 − E2 . Déterminer E(X2 | X1 , X3 ).
[6] (4 points) Soient X1 , X2 et Z trois variables aléatoires indépendantes. On suppose que X1 et X2 sont
chacune de loi N (0, 1) tandis que Z suit une loi de Bernoulli de paramètre 0 < p < 1 (P (Z = 0) = 1 − p,
P (Z = 1) = p.) On pose X = ZX1 + (1 − Z)X2 .
1. Montrer que X suit la loi N (0, 1) (on a P (X ≤ t) = P (X ≤ t et Z = 1) + P (X ≤ t et Z = 0)). Montrer
que X et Z sont indépendantes.
2. Que vaut P (X = X1 )? Le couple (X, X1 ) est-il gaussien?
3. Montrer E(X|X1 ) = pX1 .
R
R
4. Soit A un évènement σ(X, Z)-mesurable. Vérifier A X1 dP = A ZX dP en traitant d’abord le cas
A ⊂ {Z = 1} puis le cas A ⊂ {Z = 0}. En déduire E(X1 | X, Z) puis E(X1 | X).
29/01/2001
Examen – 1
Examen du 31 janvier 2001
68
Université de Nice – Sophia Antipolis
[1] (3 points) On note ¬A le complémentaire d’un évènement A.
1. Soient A et B deux évènements. On suppose 0 < P (A) < 1. Montrer:
B ⊲⊳ A ⇐⇒ P (B|A) = P (B|¬A)
2. Soit X une variable aléatoire d’espérance 100 et d’écart-type 10. Montrer:
P (80 ≤ X ≤ 120) ≥ 34
[2] (3 points) Un boulanger a préparé 100 petits pains aux raisins, en mélangeant à sa
pâte 500 raisins. Un client achète un petit pain. Soit X la variable aléatoire égale au
nombre de raisins contenus dans son petit pain. Quelle est la loi de X? son espérance?
son écart-type? Que vaut approximativement P (X = 0)?
[3] (4 points) Soient X1 et X2 deux variables aléatoires indépendantes, suivant chacune
la loi N (0, 1). Soit A l’évènement {X1 ≤ 0 et X2 = 0}. On définit R > 0 et θ ∈] − π, +π[
sur ¬A par la relation X1 + iX2 = R exp(iθ).
1. Montrer que P (A) = 0.
2. Déterminer la loi jointe de R et θ.
3. Déterminer l’inverse de Lévy Y de la loi de R.
4. Soient U et V deux variables aléatoires indépendantes
q et uniformément distribuées
sur l’intervalle ]0, 1[. Déterminer la loi de Z = cos(2πV ) 2 log( U1 ).
[4] (3 points) Soit N (t), t ≥ 0 un Processus de Poisson d’intensité Λ ∈ ]0, +∞[. Soient
0 < t < s < u. Évaluer en fonction de Λ, t, s, u les probabilités suivantes:
1. P (N (t) ≥ 1 ou N (s) ≥ 1 ou N (u) ≥ 1)
2. P (N (t) est pair)
3. P (N (t) est pair et N (s) est impair et N (u) est pair)
Examen – 2
Maîtrise MIM 2000-2001: Probabilités-Statistiques
69
[5] (3 points) Soient E0 , E1 , E2 , et E3 des variables aléatoires indépendantes chacune
de loi N (0, 1). On pose X1 = E1 − E0 , X2 = E2 − E1 , X3 = E3 − E2 . Déterminer
E(X2 | X1 , X3 ).
[6] (4 points) Soient X1 , X2 et Z trois variables aléatoires indépendantes. On suppose
que X1 et X2 sont chacune de loi N (0, 1) tandis que Z suit une loi de Bernoulli de
paramètre 0 < p < 1 (P (Z = 0) = 1 − p, P (Z = 1) = p.) On pose X = ZX1 + (1 − Z)X2 .
1. Montrer que X suit la loi N (0, 1) (on a P (X ≤ t) = P (X ≤ t et Z = 1) + P (X ≤
t et Z = 0)). Montrer que X et Z sont indépendantes.
2. Que vaut P (X = X1 )? Le couple (X, X1 ) est-il gaussien?
3. Montrer E(X|X1 ) = pX1 .
R
R
4. Soit A un évènement σ(X, Z)-mesurable. Vérifier A X1 dP = A ZX dP en traitant
d’abord le cas A ⊂ {Z = 1} puis le cas A ⊂ {Z = 0}. En déduire E(X1 | X, Z) puis
E(X1 | X).
Examen – 3
c
J.-F.
Burnol, 2001.
Université de Nice – Sophia Antipolis
70
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
EXAMEN DU 31 JANVIER 2001
durée: 3 heures
Tous documents autorisés – Calculatrices autorisées
CORRIGÉ
[1] (3 points) On note ¬A le complémentaire d’un évènement A.
1. Soient A et B deux évènements. On suppose 0 < P (A) < 1. Montrer:
B ⊲⊳ A ⇐⇒ P (B|A) = P (B|¬A)
2. Soit X une variable aléatoire d’espérance 100 et d’écart-type 10. Montrer:
P (80 ≤ X ≤ 120) ≥ 34
[2] (3 points) Un boulanger a préparé 100 petits pains aux raisins, en mélangeant à sa
pâte 500 raisins. Un client achète un petit pain. Soit X la variable aléatoire égale au
nombre de raisins contenus dans son petit pain. Quelle est la loi de X? son espérance?
son écart-type? Que vaut approximativement P (X = 0)?
[3] (4 points) Soient X1 et X2 deux variables aléatoires indépendantes, suivant chacune
la loi N (0, 1). Soit A l’évènement {X1 ≤ 0 et X2 = 0}. On définit R > 0 et θ ∈] − π, +π[
sur ¬A par la relation X1 + iX2 = R exp(iθ).
1. Montrer que P (A) = 0.
2. Déterminer la loi jointe de R et θ.
3. Déterminer l’inverse de Lévy Y de la loi de R.
4. Soient U et V deux variables aléatoires indépendantes
q et uniformément distribuées sur
l’intervalle ]0, 1[. Déterminer la loi de Z = cos(2πV ) 2 log( U1 ).
[4] (3 points) Soit N (t), t ≥ 0 un Processus de Poisson d’intensité Λ ∈ ]0, +∞[. Soient
0 < t < s < u. Évaluer en fonction de Λ, t, s, u les probabilités suivantes:
1. P (N (t) ≥ 1 ou N (s) ≥ 1 ou N (u) ≥ 1)
2. P (N (t) est pair)
3. P (N (t) est pair et N (s) est impair et N (u) est pair)
[5] (3 points) Soient E0 , E1 , E2 , et E3 des variables aléatoires indépendantes chacune
de loi N (0, 1). On pose X1 = E1 − E0 , X2 = E2 − E1 , X3 = E3 − E2 . Déterminer
E(X2 | X1 , X3 ).
[6] (4 points) Soient X1 , X2 et Z trois variables aléatoires indépendantes. On suppose que
X1 et X2 sont chacune de loi N (0, 1) tandis que Z suit une loi de Bernoulli de paramètre
0 < p < 1 (P (Z = 0) = 1 − p, P (Z = 1) = p.) On pose X = ZX1 + (1 − Z)X2 .
1. Montrer que X suit la loi N (0, 1) (on a P (X ≤ t) = P (X ≤ t et Z = 1) + P (X ≤
t et Z = 0)). Montrer que X et Z sont indépendantes.
2. Que vaut P (X = X1 )? Le couple (X, X1 ) est-il gaussien?
3. Montrer E(X|X1 ) = pX1 .
R
R
4. Soit A un évènement σ(X, Z)-mesurable. Vérifier A X1 dP = A ZX dP en traitant
d’abord le cas A ⊂ {Z = 1} puis le cas A ⊂ {Z = 0}. En déduire E(X1 | X, Z) puis
E(X1 | X).
30/01/2001
Examen (corrigé) – 1
Examen du 31 janvier 2001
Maîtrise MIM 2000-2001: Probabilités-Statistiques
71
[1] (3 points) On note ¬A le complémentaire d’un évènement A.
1. Soient A et B deux évènements. On suppose 0 < P (A) < 1. Montrer:
B ⊲⊳ A ⇐⇒ P (B|A) = P (B|¬A)
Si B ⊲⊳ A alors P (B|A) = P (B). On a P (B) = P (B|A)P (A) + P (B|¬A)P (¬A),
cela implique P (B)(1 − P (A)) = P (B|¬A)P (¬A) d’où P (B) = P (B|¬A) et donc
P (B|A) = P (B) = P (B|¬A). Réciproquement, si P (B|A) = P (B|¬A) alors P (B) =
P (B|A)(P (A) + P (¬A)) = P (B|A) ce qui équivaut à P (B)P (A) = P (B et A) soit
B ⊲⊳ A.
2. Soit X une variable aléatoire d’espérance 100 et d’écart-type 10. Montrer:
P (80 ≤ X ≤ 120) ≥ 43
On a l’inégalité de Tchebychev: P (|X − E(X)| ≥ λσ) ≤
donc P (|X − 100| ≥ 20) ≤ 14 d’où P (80 ≤ X ≤ 120) ≥ 43 .
1
λ2
(avec σ l’écart-type de X),
[2] (3 points) Un boulanger a préparé 100 petits pains aux raisins, en mélangeant à sa
pâte 500 raisins. Un client achète un petit pain. Soit X la variable aléatoire égale au
nombre de raisins contenus dans son petit pain. Quelle est la loi de X? son espérance?
son écart-type? Que vaut approximativement P (X = 0)?
On peut associer à chacun des 500 raisins une variable de Bernoulli Ri (1 ≤ i ≤ 500) qui
vaut 1 si le raisin en question se retrouve dans le petit pain acheté par le client. Ainsi Ri
1
prend la valeur 1 avec probabilité 100
et X est la somme des Ri . La loi de X est donc
1
99
la loi Binomiale B(500, 100 ), son espérance est N p = 5, sa variance est N pq = 5 100
, et
q
11
3
son écart-type est 2 5 ≃ 2.225. La loi est approximativement la loi de Poisson P(5) et
P (X = 0) ≃ e−5 ≃ 0.00674 soit moins d’une chance sur 100.
[3] (4 points) Soient X1 et X2 deux variables aléatoires indépendantes, suivant chacune
la loi N (0, 1). Soit A l’évènement {X1 ≤ 0 et X2 = 0}. On définit R > 0 et θ ∈] − π, +π[
sur ¬A par la relation X1 + iX2 = R exp(iθ).
1. Montrer que P (A) = 0.
On a A ⊂ {X2 = 0} or X2 a une loi à densité donc P (X2 = 0) = 0.
2. Déterminer la loi jointe de R et θ.
Soit B un Borélien du plan n’intersectant pas la demi-droite x1 ≤ 0, x2 = 0. On peut donc
introduire des coordonnées polaires r > 0 et ϑ ∈] − π, +π[, et en faisant le changement
de variables correspondant, on obtient:
Z
Z
−r 2
dϑ
1 − x21 +x22
2
dx1 dx2 =
r e 2 dr
P ((X1 , X2 ) ∈ B) =
e
2π
B
B 2π
Ceci montre que la loi jointe du couple (R, θ) est la loi produit de la loi à densité r e
sur ]0, +∞[ et de la loi uniforme sur ] − π, +π[.
Examen (corrigé) – 2
−r 2
2
Université de Nice – Sophia Antipolis
72
3. Déterminer l’inverse de Lévy Y de la loi de R.
La fonction de répartition F (t) vaut, pour t ≥ 0,
Lévy Y :]0, 1[→ R s’obtient par ω = 1 − e
−Y 2
2
Rt
−r 2
2
−t2
dr = 1 − e 2 . L’inverse de
p
soit Y (ω) = −2 log(1 − ω).
0 re
4. Soient U et V deux variables aléatoires indépendantes
q et uniformément distribuées
sur l’intervalle ]0, 1[. Déterminer la loi de Z = cos(2πV ) 2 log( U1 ).
Si U est uniforme sur ]0, 1[, alors 1 − U également. Par ailleurs si V est uniforme sur
]0, 1[ alors θ = 2πV − π est uniforme sur ] − π, +π[ et cos(2πV ) = − cos(θ). La loi de Z
est donc la même que celle de −X1 , autrement dit Z ∼ N (0, 1).
[4] (3 points) Soit N (t), t ≥ 0 un Processus de Poisson d’intensité Λ ∈ ]0, +∞[. Soient
0 < t < s < u. Évaluer en fonction de Λ, t, s, u les probabilités suivantes:
1. P (N (t) ≥ 1 ou N (s) ≥ 1 ou N (u) ≥ 1)
L’évènement {N (t) ≥ 1 ou N (s) ≥ 1 ou N (u) ≥ 1} coïncide avec l’évènement {N (u) ≥
1} car N est croissante. La probabilité vaut donc 1 − e−Λu puisque N (u) ∼ P(Λu).
2. P (N (t) est pair)
On sait que N (t) ∼ P(Λt). La probabilité vaut donc
2k
−Λt (Λt)
k=0 e
(2k)!
P∞
cosh pour le cosinus hyperbolique.) On a aussi P (N (t) est impair) =
cosh(Λt)
exp(Λt)
sinh(Λt)
exp(Λt) .
=
(on note
3. P (N (t) est pair et N (s) est impair et N (u) est pair)
La probabilité recherchée vaut également
P (N (t) est pair et N (s) − N (t) est impair et N (u) − N (s) est impair)
Comme les accroissements sont indépendants, elle vaut
cosh(Λt) sinh(Λ(s − t)) sinh(Λ(u − s))
exp(Λt) exp(Λ(s − t)) exp(Λ(u − s))
soit exp(−Λ u) cosh(Λt) sinh(Λ(s − t)) sinh(Λ(u − s)).
[5] (3 points) Soient E0 , E1 , E2 , et E3 des variables aléatoires indépendantes chacune
de loi N (0, 1). On pose X1 = E1 − E0 , X2 = E2 − E1 , X3 = E3 − E2 . Déterminer
E(X2 | X1 , X3 ).
Les variables X1 , X2 , X3 forment conjointement un vecteur Gaussien (centré.) Donc
l’espérance conditionnelle coïncide avec la régression linéaire, c’est-à-dire (puisque les
variables sont centrées) avec la projection orthogonale de X2 sur le plan engendré par X1
et X3 . On a donc E(X2 | X1 , X3 ) = αX1 + βX3 avec
−1 E(X1 X2 )
E(X1 X1 ) E(X1 X3 )
α
=
E(X3 X2 )
E(X3 X1 ) E(X3 X3 )
β
Examen (corrigé) – 3
Maîtrise MIM 2000-2001: Probabilités-Statistiques
73
Ici on a E(X1 X1 ) = E(X3 X3 ) = 2, E(X1 X3 ) = 0, et E(X1 X2 ) = E(X3 X2 ) = −1. On
conclut donc E(X2 | X1 , X3 ) = − 21 X1 − 21 X3 .
[6] (4 points) Soient X1 , X2 et Z trois variables aléatoires indépendantes. On suppose
que X1 et X2 sont chacune de loi N (0, 1) tandis que Z suit une loi de Bernoulli de
paramètre 0 < p < 1 (P (Z = 0) = 1 − p, P (Z = 1) = p.) On pose X = ZX1 + (1 − Z)X2 .
1. Montrer que X suit la loi N (0, 1) (on a P (X ≤ t) = P (X ≤ t et Z = 1) + P (X ≤
t et Z = 0)). Montrer que X et Z sont indépendantes.
P (X ≤ t) = P (X ≤ t et Z = 1) + P (X ≤ t et Z = 0)
= P (X1 ≤ t et Z = 1) + P (X2 ≤ t et Z = 0)
= P (X1 ≤ t)P (Z = 1) + P (X2 ≤ t)P (Z = 0)
Z t
Z t
−u2
−u2
1
1
2
e
e 2 du
=√
du (P (Z = 1) + P (Z = 0)) = √
2π −∞
2π −∞
Donc X ∼ N (0, 1). De plus P (X ≤ t et Z = 1) = P (X1 ≤ t et Z = 1) = P (X1 ≤
t)P (Z = 1) = P (X ≤ t)P (Z = 1) et cela implique X ⊲⊳ Z.
2. Que vaut P (X = X1 )? Le couple (X, X1 ) est-il gaussien?
On a X = X1 soit si X1 = X2 soit si X1 6= X2 et Z = 1. Donc P (X = X1 ) = P (X1 =
X2 ) + P (X1 6= X2 )P (Z = 1) = 0 + 1 × p = p. Si (X, X1 ) était gaussien la variable X − X1
serait gaussienne (éventuellement un Dirac). On aurait alors soit P (X − X1 = 0) = 0
soit P (X − X1 = 0) = 1. Comme 0 < p < 1 c’est donc que (X, X1 ) n’est pas gaussien.
3. Montrer E(X|X1 ) = pX1 .
On a E(X|X1 ) = E(ZX1 + (1 − Z)X2 | X1 ) = X1 E(Z | X1 ) + E((1 − Z)X2 | X1 ). Par
l’indépendance on obtient X1 E(Z) + E((1 − Z)X2 ) = pX1 + 0 = pX1 .
R
R
4. Soit A un évènement σ(X, Z)-mesurable. Vérifier A X1 dP = A ZX dP en traitant
d’abord le cas A ⊂ {Z = 1} puis le cas A ⊂ {Z = 0}. En déduire E(X1 | X, Z) puis
E(X1 | X).
On peut supposer P (A) > 0. Dans le cas où A ⊂ {Z = 1}, on a X1 = X = ZX sur
A. Dans le cas où A ⊂ {Z = 0}, A étant σ(X, Z)-mesurable est de la forme {X ∈
B} ∩ {Z = 0}. Mais X = X2 sur {Z
R = 0} donc A = {X2 ∈ B} ∩ {Z = 0}. Mais alors
RA est indépendante de X1 et donc A X1 dP = E(X1 )P (A) = 0. Par ailleurs on a bien
A ZX dP = 0 puisque Z = 0 sur A. On peut donc conclure que E(X1 | X, Z) = ZX. Par
transitivité on a E(X1 | X) = E(E(X1 | X, Z) | X) = E(ZX | X) = XE(Z | X). Comme Z
est indépendante de X on a E(Z | X) = E(Z) = p et donc finalement E(X1 | X) = pX.
Examen (corrigé) – 4
c
J.-F.
Burnol, 2001.
Université de Nice – Sophia Antipolis
74
NOM:
PRÉNOM:
né(e) le:
à:
Replier et agrafer
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
EXAMEN DU 17 SEPTEMBRE 2001
durée: 3 heures
Tous documents autorisés – Calculatrices autorisées
Il est interdit de communiquer par quelque moyen que ce soit avec d’autres candidats ou avec l’extérieur pendant
toute la durée de l’épreuve. Toute tentative de fraude fera l’objet d’un procès-verbal officiel et sera sanctionnée
suivant les règles en vigueur. Les problèmes sont indépendants et peuvent être traités dans l’ordre de
votre choix. Leurs énoncés, ci-dessous en petits caractères, sont reproduits en en-tête des pages
suivantes. Le soin apporté à la présentation des solutions sera pris en compte dans la notation.
[1] (3 points) Soient X et Y deux variables aléatoires indépendantes. Démontrer que cos(X) et
sin(Y ) sont indépendantes.
[2] (3 points) Soit X une variable aléatoire. On suppose que E(cos(X)) = 1.
Que vaut P (0 < X < 2π) ?
PN
[3] (3 points) On rappelle que
k=1 k = N (N + 1)/2 pour tout N ∈ N, N ≥ 1. Soit X une
variable aléatoire à valeurs dans N. Soit Ω l’espace probabilisé sur lequel est défini X. Soit ω ∈ Ω.
Montrer:
X
(2k − 1)1X≥k (ω) = X(ω)2
k≥1
2
Exprimer E(X ) en fonction des probabilités P (X ≥ k), k ≥ 1.
[4] (4 points) Soient T0 = 0, T1 , T2 , . . . les instants successifs de désintégration d’un Processus
de Poisson. On rappelle que les écarts successifs U1 = T1 , U2 = T2 − T1 , . . . sont des variables
aléatoires exponentielles indépendantes de même loi. Démontrer que l’on a limk→∞ Tk = +∞ avec
probabilité 1 (on notera que si les Tk sont bornés, les Uk le sont aussi).
[5] (3 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé). Est-il
possible (justifier) que leur matrice des variances-covariances Γ soit
0
+1
Γ = @ −1
−1
−1
+1
−1
1
−1
−1 A ?
+1
[6] (4 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé) formant
un vecteur Gaussien, centré, de matrice des variances-covariances Γ donnée par:
0
+2
Γ = @ −1
−1
−1
+2
−1
1
−1
−1 A
+2
Calculer l’espérance conditionnelle E(X2 | X1 , X3 ). Les variables aléatoires X1 , X2 , X3 sont-elles
mutuellement indépendantes ?
5/09/2001
Rattrapage – 1
Examen du 17 septembre 2001
Maîtrise MIM 2000-2001: Probabilités-Statistiques
75
[1] (3 points) Soient X et Y deux variables aléatoires indépendantes. Démontrer que
cos(X) et sin(Y ) sont indépendantes.
[2] (3 points) Soit X une variable aléatoire. On suppose que E(cos(X)) = 1.
Que vaut P (0 < X < 2π) ?
P
[3] (3 points) On rappelle que N
k=1 k = N (N + 1)/2 pour tout N ∈ N, N ≥ 1. Soit X
une variable aléatoire à valeurs dans N. Soit Ω l’espace probabilisé sur lequel est défini
X. Soit ω ∈ Ω. Montrer:
X
(2k − 1)1X≥k (ω) = X(ω)2
k≥1
Exprimer E(X 2 ) en fonction des probabilités P (X ≥ k), k ≥ 1.
[4] (4 points) Soient T0 = 0, T1 , T2 , . . . les instants successifs de désintégration d’un
Processus de Poisson. On rappelle que les écarts successifs U1 = T1 , U2 = T2 − T1 ,
. . . sont des variables aléatoires exponentielles indépendantes de même loi. Démontrer
que l’on a limk→∞ Tk = +∞ avec probabilité 1 (on notera que si les Tk sont bornés, les
Uk le sont aussi).
[5] (3 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé). Est-il possible (justifier) que leur matrice des variances-covariances Γ soit


+1 −1 −1
Γ =  −1 +1 −1  ?
−1 −1 +1
[6] (4 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé) formant un vecteur Gaussien, centré, de matrice des variances-covariances Γ donnée
par:


+2 −1 −1
Γ =  −1 +2 −1 
−1 −1 +2
Calculer l’espérance conditionnelle E(X2 | X1 , X3 ). Les variables aléatoires X1 , X2 , X3
sont-elles mutuellement indépendantes ?
Rattrapage – 2
Université de Nice – Sophia Antipolis
76
NOM:
PRÉNOM:
né(e) le:
à:
Replier et agrafer
Université de Nice – Sophia Antipolis
Maîtrise MIM 2000-2001: Probabilités et Statistiques (1er sem.)
EXAMEN DU 17 SEPTEMBRE 2001
durée: 3 heures
Tous documents autorisés – Calculatrices autorisées
Il est interdit de communiquer par quelque moyen que ce soit avec d’autres candidats ou avec l’extérieur pendant
toute la durée de l’épreuve. Toute tentative de fraude fera l’objet d’un procès-verbal officiel et sera sanctionnée
suivant les règles en vigueur. Les problèmes sont indépendants et peuvent être traités dans l’ordre de
votre choix. Leurs énoncés, ci-dessous en petits caractères, sont reproduits en en-tête des pages
suivantes. Le soin apporté à la présentation des solutions sera pris en compte dans la notation.
[1] (3 points) Soient X et Y deux variables aléatoires indépendantes. Démontrer que cos(X) et
sin(Y ) sont indépendantes.
[2] (3 points) Soit X une variable aléatoire. On suppose que E(cos(X)) = 1.
Que vaut P (0 < X < 2π) ?
PN
[3] (3 points) On rappelle que
k=1 k = N (N + 1)/2 pour tout N ∈ N, N ≥ 1. Soit X une
variable aléatoire à valeurs dans N. Soit Ω l’espace probabilisé sur lequel est défini X. Soit ω ∈ Ω.
Montrer:
X
(2k − 1)1X≥k (ω) = X(ω)2
k≥1
2
Exprimer E(X ) en fonction des probabilités P (X ≥ k), k ≥ 1.
[4] (4 points) Soient T0 = 0, T1 , T2 , . . . les instants successifs de désintégration d’un Processus
de Poisson. On rappelle que les écarts successifs U1 = T1 , U2 = T2 − T1 , . . . sont des variables
aléatoires exponentielles indépendantes de même loi. Démontrer que l’on a limk→∞ Tk = +∞ avec
probabilité 1 (on notera que si les Tk sont bornés, les Uk le sont aussi).
[5] (3 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé). Est-il
possible (justifier) que leur matrice des variances-covariances Γ soit
0
+1
Γ = @ −1
−1
−1
+1
−1
1
−1
−1 A ?
+1
[6] (4 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé) formant
un vecteur Gaussien, centré, de matrice des variances-covariances Γ donnée par:
0
+2
Γ = @ −1
−1
−1
+2
−1
1
−1
−1 A
+2
Calculer l’espérance conditionnelle E(X2 | X1 , X3 ). Les variables aléatoires X1 , X2 , X3 sont-elles
mutuellement indépendantes ?
5/09/2001
Septembre (corrigé) – 1
Examen du 17 septembre 2001
Maîtrise MIM 2000-2001: Probabilités-Statistiques
77
Corrigé
[1] (3 points) Soient X et Y deux variables aléatoires indépendantes. Démontrer que
cos(X) et sin(Y ) sont indépendantes.
Corrigé: Notons Z la variable aléatoire cos(X) et W la variable aléatoire sin(Y ). Soient
A et B deux Boréliens de R. L’image inverse par Z = cos(X) dans l’espace probabilisé
Ω du Borélien A de R est aussi l’image inverse par X du Borélien cos−1 (A) ⊂ R. De
même on a W −1 (B) = Y −1 (sin−1 (B)). Les évènements Z −1 (A) et W −1 (B) sont donc
indépendants par la définition de l’indépendance de X et de Y .
[2] (3 points) Soit X une variable aléatoire. On suppose que E(cos(X)) = 1.
Que vaut P (0 < X < 2π) ?
Corrigé: La probabilité recherchée est nulle. En effet si elle était strictement positive
il existerait alors (par l’additivité dénombrable des probabilités) N suffisamment grand
tel que l’on ait aussi P ( N1 ≤ X ≤ 2π − N1 ) > 0. Notons p cette probabilité. On a
E(cos(X)) ≤ p · cos( N1 ) + 1 − p. Mais cette somme est strictement inférieure à 1 puisque
c’est le cas pour cos( N1 ) et que p > 0. Contradiction.
P
[3] (3 points) On rappelle que N
k=1 k = N (N + 1)/2 pour tout N ∈ N, N ≥ 1. Soit X
une variable aléatoire à valeurs dans N. Soit Ω l’espace probabilisé sur lequel est défini
X. Soit ω ∈ Ω. Montrer:
X
(2k − 1)1X≥k (ω) = X(ω)2
k≥1
Exprimer E(X 2 ) en fonction des probabilités P (X ≥ k), k ≥ 1.
Corrigé: On a pour ω fixé:
X
(2k − 1)1X≥k (ω) =
k≥1
X
1≤k≤X(ω)
(2k − 1)
ce que l’on évalue par l’indication comme étant simplement (X(ω))2 . On a donc:
X
X
(2k − 1)P (X ≥ k)
E(X 2 ) =
(2k − 1)E(1k≤X ) =
k≥1
k≥1
[4] (4 points) Soient T0 = 0, T1 , T2 , . . . les instants successifs de désintégration d’un
Processus de Poisson. On rappelle que les écarts successifs U1 = T1 , U2 = T2 − T1 ,
. . . sont des variables aléatoires exponentielles indépendantes de même loi. Démontrer
que l’on a limk→∞ Tk = +∞ avec probabilité 1 (on notera que si les Tk sont bornés, les
Uk le sont aussi).
Septembre (corrigé) – 2
78
Université de Nice – Sophia Antipolis
Corrigé: On a Uk ≤ Tk . Donc si les Tk sont bornés supérieurement par une constante C
il en est de même des Uk . Cela n’arrive pour un k donné qu’avec au plus une probabilité
p(C) = 1 − exp(−λC), la même indépendamment de k, et strictement inférieure à 1.
Les Uk sont indépendantes donc les inégalités Uk ≤ C ne peuvent être simultanément
satisfaites pour tous les k que avec une probabilité nulle (0 = limn→∞ p(C)n ). On a
donc avec probabilité 1, lim Tk ≥ C. Mais C est arbitraire, donc en prenant C = 1,
2, . . . on obtient que avec probabilité 1 on a lim Tk = +∞ (additivité dénombrable des
probabilités).
[5] (3 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé). Est-il possible (justifier) que leur matrice des variances-covariances Γ soit

+1 −1 −1
Γ =  −1 +1 −1  ?
−1 −1 +1

Corrigé: Non c’est impossible car cette matrice a un déterminant strictement négatif (il
vaut −4).
[6] (4 points) Soient X1 , X2 , X3 trois variables aléatoires (sur le même espace probabilisé) formant un vecteur Gaussien, centré, de matrice des variances-covariances Γ donnée
par:


+2 −1 −1
Γ =  −1 +2 −1 
−1 −1 +2
Calculer l’espérance conditionnelle E(X2 | X1 , X3 ). Les variables aléatoires X1 , X2 , X3
sont-elles mutuellement indépendantes ?
Corrigé: On a E(X2 ) = a · X1 + b · X3 avec des coefficients a et b donnés par:
2 −1
[ a b ] = [ −1 −1 ] ·
−1 2
−1
ce qui donne après calcul a = −1 et aussi b = −1.
Par ailleurs on calcule le déterminant de la matrice Γ et on trouve zéro. Les variables
X1 , X2 , et X3 ne sont donc pas indépendantes.
En fait on a X1 + X2 + X3 = 0 (avec probabilité 1). En effet X1 et X3 sont indépendantes
puisque leur matrice 2 × 2 des covariances est inversible. Donc nécessairement X2 est
une combinaison linéaire de X1 et de X3 et coïncide avec son espérance conditionnelle
calculée précédemment. On peut aussi utiliser la matrice Γ pour évaluer la variance de
X1 + X2 + X3 , on trouve 0 donc X1 + X2 + X3 = 0 (avec probabilité 1).
Septembre (corrigé) – 3
c
J.-F.
Burnol, 2001.
Téléchargement