Mod`eles Aléatoires Discrets

publicité
M1 SAFIR
Université Claude Bernard Lyon 1
Année universitaire 2012-2013
Modèles Aléatoires Discrets
F. Bienvenüe-Duheille
1
Jusqu’à maintenant, les cours de probabilités que vous avez suivis se sont intéressés essentiellement à l’étude d’une variable aléatoire, notamment sa loi, son espérance, sa variance,
ou plus généralement à l’étude d’un couple ou vecteur aléatoire. Vous avez également étudié le
comportement de suites formées à partir de variables aléatoires indépendantes et identiquement
distribuées avec en particulier les lois des grands nombres et le théorème central limite mais
aussi tous les théorèmes statistiques.
L’objectif de ce cours est de s’intéresser à certains types de suite de variables aléatoires non
indépendantes qui sont regroupées sous la termininologie de processus markovien.
Avant de les aborder, nous revisiterons les notions essentielles de probabilité.
Chapitre 1
L’essentiel des probabilités
1
Probabilité, probabilité conditionnelle
1.1
Tribu
On se donne un espace Ω, le plus souvent abstrait. On le munit d’une tribu Σ : une tribu
Σ est une collection de sous-ensembles de Ω telle que :
– ∅ appartient à Σ ;
– Si un sous-ensemble A de Ω appartient à Σ, alors Ω\A appartient à Σ ;
– Si (An ) est une famille dénombrable de sous-ensembles de Ω tels que, pour tout n, An
appartient à Σ, alors la réunion des An appartient à Σ.
Un événement est un sous-ensemble de Ω appartenant à Σ.
Trivialement, une tribu est incluse dans l’ensemble P(Ω) des parties de Ω et on déduit
facilement de cette définition que toute intersection dénombrable d’événements de la tribu
appartient à la tribu. Par ailleurs l’ensemble P(Ω) est une tribu (la tribu totale) de même que
{∅, Ω} (la tribu triviale).
Exercice : Montrer que l’intersection de deux tribus est une tribu. Montrer par un contrexemple
que la réunion de deux tribus Σ1 et Σ2 sur un même espace Ω n’est généralement pas une
tribu. Donner également un exemple de sous-ensembles d’un espace Ω muni d’une tribu Σ tels
que A ⊂ B, B ∈ Σ mais A ∈
/ Σ. Indication pour les contrexemples : choisir Ω = {1, 2, 3},
Σ1 = {∅, {1}, {2, 3}, Ω} ; construire une tribu Σ2 analogue et telle que Σ1 ∪ Σ2 ne soit pas une
tribu ; trouver deux sous-ensembles A et B de Ω tels que A ⊂ B, B ∈ Σ1 mais A ∈
/ Σ1 .
Lorsque (Ai )i∈I est une famille (pas nécessairement dénombrable) d’événements de Ω, la
tribu engendrée par les (Ai ) est la plus petite tribu contenant tous les Ai . C’est aussi l’intersection de toutes les tribus contenant les Ai . On note cette tribu σ{Ai , i ∈ I}.
Lorsque l’ensemble Ω est dénombrable, on utilisera le plus souvent comme tribu l’ensemble
des parties de Ω, et lorsque Ω est égal à R ou Rd , on le munira généralement de la tribu
borélienne, c’est-à-dire de la plus petite tribu contenant tous les ouverts de R (respectivement, de
Rd ). On note cette tribu B(R) (respectivement B(Rd )). On peut montrer que la tribu borélienne
de R est également la tribu engendrée par les intervalles réels, ou encore par les intervalles du
type ] − ∞, a] lorsque a parcourt R.
2
3
1.2
Probabilité
Une mesure de probabilité P sur (Ω, Σ) est une fonction P : Σ → R telle que
– Pour tout A, P(A) ≥ 0,
– P(Ω) = 1,
– P
Pour toute famille dénombrable d’événements An deux à deux disjoints, on a P(∪An ) =
P(An )
Citons quelques unes des propriétés fondamentales vérifiées par une mesure de probabilité :
Proposition 1.1
– Pour tout A ∈ Σ, P(A) ∈ [0, 1].
– P(∅) = 0.
– Si A et B sont deux événements tels que A ⊂ B, alors P(A) ≤ P(B).
– Pour tout A ∈ Σ, P(A) = 1 − P(A)
– Pour toute famille dénombrable croissante (An ) (i.e. telle que, pour tout n, An ⊂ An+1 ),
on a P(∪An ) = lim P(An )
– Pour toute famille dénombrable décroissante (An ) (i.e. telle que, pour tout n, An+1 ⊂ An ),
on a P(∩An ) = lim P(An )
Une mesure de probabilité est dite discrète
P s’il existe un nombre dénombrable d’éléments
(ωn ) de Ω, deux à deux distincts, et tels que
P({ωn }) = 1.
La plus simple des probabilités discrètes est la mesure de Dirac en ω0 : si ω0 est un élément
fixé de Ω tel que {ω0 } ∈ Σ, on définit la mesure de Dirac en ω0 par : pour tout A ∈ Σ, P(A) = 1
si ω0 ∈ A et P(A) = 0 sinon.
Toute mesure discrète est une combinaison linéaire (à coefficient positifs et de somme totale
égale à 1) de mesures de Dirac.
Une mesure de probabilité µ sur (R, B(R)) sera dite à densité par rapport à la mesure de
Lebesgue sur R s’il existe une fonction borélienne positive f telle pour tout A ∈ B(R), on a
Z
µ(A) =
1A (t)f (t) dt.
R
L’intégrale de f sur R est alors égale à 1, et pour tout singleton {x} de R, on a µ({x}) = 0.
1.3
Probabilité conditionnelle
Pour tout événement B de probabilité strictement positive et pour tout événement A, on
définit la probabilité conditionnelle de A sachant B par
PB (A) = P(A|B) = P(A ∩ B)/P(B).
De fait, on ne considère plus que la partie de A incluse dans B, et on renormalise de sorte que
l’application A → P(A|B) est une (nouvelle) mesure de probabilité sur Ω.
Les probabilités conditionnelles interviennent de façon naturelle lorsque l’on effectue plusieurs expériences successives pour lesquelles le cadre de la n-ième expérience est influencé par le
résultat des expériences précédentes : par exemple, si on dispose d’une urne contenant r jetons
rouges et j jetons jaunes et que l’on effectue deux tirages successifs et sans remise dans cette
urne en notant les couleurs des jetons obtenus, il est facile de décrire la deuxième expérience
sachant le résultat du premier tirage. On peut alors dresser un arbre de probabilité dont les
sommets sont les résultats des tirages successifs et en faisant figurer sur les arêtes les probabilités
conditionnelles de tirage sachant le chemin parcouru dans l’arbre.
4
1.4
Indépendance
Deux événements A et B sont dits indépendants si P(A ∩ B) = P(A)P(B). Si P(B) > 0, il
est équivalent de dire que P(A|B) = P(A).
Remarquons que la notion d’indépendance est liée à la probabilité : si on munit Ω d’une
autre mesure de probabilité, les événements indépendants ne sont plus les mêmes.
Le plus souvent, l’indépendance de deux événements résultera du contexte (les deux événements sont liés à des expériences aléatoires sans influence réciproque). Parfois l’indépendance
résultera du calcul des probabilités lui-même. Par exemple, si on lance un dé à six faces équilibré
et si on considère les événements A =« Le résultat est pair » et B =« Le résultat est multiple de
trois », on aura P(A) = 1/2, P(B) = 1/3 et P(A ∩ B) = 1/6. Ces deux événements sont donc
indépendants. Si on s’intéresse à une expérience similaire mais réalisée avec un dé équilibré à
quatre face, ces mêmes événements ne sont plus indépendants.
2
2.1
Variable aléatoire
Définition
Une variable aléatoire est une fonction mesurable X de (Ω, Σ) dans (R, B(R)) (respectivement (N, P(N))), c’est à dire que pour tout borélien B (respectivement : pour toute partie B
de N), l’image réciproque de B par X appartient à Σ. On note cette image réciproque X −1 (B).
C’est bien sûr le sous-ensemble de Ω défini par X −1 (B) = {ω, X(ω) ∈ B}, dont l’écriture se
simplifie en {X ∈ B}.
La tribu σ(X) engendrée par une variable aléatoire X est la plus petite tribu qui la rende
mesurable : lorsque X est à valeurs réelles, on a
σ(X) = {{X ∈ B}; B ∈ B(R)} = σ{{X ∈] − ∞, a]}, a ∈ R}.
C’est une sous-tribu de la tribu Σ.
Si X et Y sont deux variables aléatoires, on dit que X est σ(Y )-mesurable si la tribu
engendrée par X est incluse dans la tribu engendrée par Y . Concrètement, c’est équivalent
(pour des variables aléatoires à valeurs réelles) au fait qu’il existe une fonction borélienne
f : R → R (c’est-à-dire que f est une fonction mesurable de (R, B(R)) dans lui-même) telle que
X = f (Y ).
La loi d’une variable aléatoire X est la mesure de probabilité µ sur (R, B(R)) définie
pour tout borélien B par µ(B) = P({X ∈ B}). La mesure µ est aussi appelée mesure image de
P par X et est parfois notée X(P).
La loi d’une variable aléatoire n’est qu’une information partielle sur cette variable : connaı̂tre
la loi de X n’implique pas de connaı̂tre X(ω), pour tout ω ∈ Ω. Deux variables aléatoires X
et Y peuvent ainsi suivre la même loi (c’est-à-dire être égale en loi), alors que la probabilité
pour que X soit égale à Y (c’est-à-dire la probabilité de l’événement {ω, X(ω) = Y (ω)}) est
strictement inférieure à 1, voire égale à 0.
La variable aléatoire X sera discrète si sa loi est une probabilité discrète (ce qui équivaut
au fait qu’il existe un ensemble dénombrable A de réels tel que P(X ∈ A) = 1). Dans ce cas,
la loi de X est complètement déterminée par la donnée de l’ensemble dénombrable A ainsi
5
que par les réels P(X = a), pour tout a ∈ A. On peut donner une expression (à utiliser avec
parcimonie !) de la mesure-image de X à l’aide des mesures de Dirac :
X
µ=
P(X = a)δa .
a∈A
Si la loi de X est une mesure à densité par rapport à la mesure de Lebesgue sur R, on dit
que X est une variable aléatoire à densité (ou encore continue).
Bien entendu, toutes les variables aléatoires ne sont pas discrètes ou continues !
La notion d’indépendance se transpose au cas des variables aléatoires : deux variables aléatoires X et Y sont indépendantes si, pour tout choix de boréliens (ou d’intervalles) A et B,
les événements {X ∈ A} et {Y ∈ B} sont indépendants. C’est équivalent à l’indépendance des
tribus σ(X) et σ(Y ).
Un exemple de variable aléatoire discrète.
Si on étudie un lancer de pièce équilibrée, on ne pourra pas décrire l’ensemble Ω (qui pourrait
par exemple être constitué de tous les paramètres du lancer). Pour une valeur ω des paramètres,
on note X(ω) = 1 si la pièce tombe sur pile et X(ω) = 0 sinon. X est donc une variable
aléatoire discrète, à valeurs dans {0, 1}. La traduction du fait que la pièce est équilibrée est
P({X = 1}) = P({X = 0}) = 1/2. La loi de X peut s’écrire µ = (δ0 + δ1 )/2, où δi désigne la
mesure de Dirac en i. Dans ce cas, on utilisera rarement l’écrire de la loi en terme de mesure
de Dirac : dire que P(X = 0) = P(X = 1) = 1/2 est sûrement une manière bien plus élégante
d’écrire la loi de X !
Un exemple de variable aléatoire à densité.
On étudie l’instant X de la première panne d’un composant électronique, que l’on suppose
non soumis à un phénomène d’usure. Soit s un instant fixé. S’il n’y a pas d’usure, pour tout
t ≥ 0, la probabilité conditionnelle P(X > t + s|X > s) ne doit pas dépendre de s : autrement
dit, on a
P(X > t + s|X > s) = P(X > t).
La propriété précédente s’écrit alors
P(X > t + s|X > s) =
P{X > t + s}
P ({X > t + s} ∩ {X > s})
=
P{X > s)}
P{X > s}
Notons G la fonction définie pour tout t dans R+ par G(t) = P(X > t). La fonction G est alors
solution de l’équation fonctionnelle
∀t, s ≥ 0, G(t + s) = G(t)G(s).
Si on ajoute une hypothèse de continuité de G, on peut alors conclure qu’il existe un réel λ tel
que, pour tout t ≥ 0, G(t) = exp(−λt).
1 − G est la fonction de répartition de la loi de X : c’est une fonction nulle en 0, dérivable
sur R+ et de dérivée t → λ exp(−λt) sur R+ . Il reste à remarquer que P(X < 0) = 0 pour
affirmer que X admet pour densité la fonction t → λ exp(−λt)1R+ . La loi ainsi obtenue est la
loi exponentielle de paramètre λ.
6
2.2
Intégrale
On souhaite construire une intégrale sur Ω par rapport à P. Les propriétés essentielles que
l’on demande à cette intégrale sont d’être une opération linéaire et de bien se comporter dans
les passages à la limite.
Indicatrice
On commence par définir l’intégrale d’une indicatrice : Pour tout A ∈ Σ, on pose
Z
1A dP = µ(A).
Ω
Linéarité
Ensuite, on utilise la linéarité. Si X est une variable aléatoire étagée (combinaison linéaire
finie et à coefficients positifs de fonction indicatrices), c’est-à-dire, si l’on peut écrire X sous la
forme
n
X
X=
αk 1Ak
k=1
où les αk sont des réels positifs, alors on pose
Z
n
X
αk P(Ak ).
X dP =
Ω
k=1
Ayant supposé les αk positifs, cette somme a bien un sens, et sa valeur ne dépend pas d’un
changement de choix des (Ak ) qui conduirait à la même fonction étagée.
Limite
On définit ensuite l’espérance d’une fonction mesurable positive (ou variable aléatoire) X
par passage à la limite : on approche X par une suite croissante de fonctions étagées Xn . Une
telle suite de Xn est obtenue par exemple en posant
Xn = max([nX]/n, n)
où [x] désigne la partie entière du réel x. On vérifie alors que la limite de la suite
dépend pas de la suite (Xn ) choisie (suite croissante de limite X) avant de poser
Z
Z
X dP = lim Xn dP.
Ω
R
Ω
Xn dP ne
Ω
Cas général
Il reste à traiter le cas des fonctions mesurables quelconques (sans hypothèse de positivité).
Si X est une fonction mesurable de Ω dans R, on note X + = max(X, 0) sa partie positive et
X − = max(−X, 0) sa partie négative. On ne définit l’intégrale de X que dans le cas où X + et
X − sont intégrables, et dans ce cas, on pose
Z
Z
Z
+
X dP =
X dP − X − dP.
Ω
Ω
Ω
7
2.3
Espérance, variance
R
L’espérance (ou moyenne) d’une variable aléatoire X est la quantité
E(X)
=
X dP, qui
Ω
R
est bien définie dès que X est intégrable, c’est-à-dire dans le cas où Ω |X| dP est finie.
L’espérance est un paramètre dit de position : cela signifie que E(X + λ) = E(X) + λ.
Si µ est la mesure-image de P par X, on peut montrer que
Z
E(X) =
x dµ(x).
R
Dans le cas où X admet une densité f , on a
Z
E(X) =
xf (x) dx
R
et si X est une variable aléatoire discrète, à valeurs dans un ensemble A dénombrable, on a
Z X
x
(P(X = a) dδa )
E(X) =
R
X
=
a∈A
Z
P(X = a)
x dδa
R
a∈A
En reprenant la construction de l’intégrale par rapport à une mesure, et en se plaçant dans le
cas où cette mesure est la mesure de Dirac, on constate que, pour toute fonction réelle f ,
Z
f dδa = f (a)
R
et que l’on a en particulier
Z
x dδa (x) = a.
R
On retrouve donc l’expression bien connue de l’espérance d’une variable aléatoire discrète :
X
E(X) =
aP(X = a).
a∈X(Ω)
Plus généralement,
R pour toute fonction h borélienne sur R (ou Rcontinue par morceaux), on
peut montrer que, si Ω |h(X)| dP est finie, alors on a E(h(X)) = Ω h(X)dP.
Si X admet f pour densité, l’espérance de h(X) se calcule par
Z
E(h(X)) =
h(x)f (x) dx
R
et si X est une variable aléatoire discrète, on aura
X
E(h(X)) =
h(a)P(X = a)
a∈X(Ω)
Ces expressions n’ont bien entendu un sens que lorsque h(X) est intégrable ou positif.
8
Remarque importante : Une des difficultés dans la manipulation des espérances est de bien
prendre conscience de l’ensemble sur lequel on intègre, soit sur Ω par rapport à la probabilité
P, soit sur R par rapport à une mesure sur R (densité par rapport à la mesure de Lebesgue,
ou à des combinaisons linéaires de mesures de Dirac par exemple). Obligez-vous à écrire les
variables d’intégration ; par exemple, si X est une variable aléatoire de loi µ, de densité f , on
écrira :
Z
Z
Z
E(X) =
X(ω) dP(ω) =
Ω
x dµ(x) =
R
x f (x) dx
R
Supposons maintenant que X soit de carré intégrable (E(X 2 ) < ∞). Alors X est intégrable
(preuve à faire soit à l’aide de l’inégalité de Cauchy-Schwarz, soit « à la main »).
La variance d’une variable aléatoire de carré intégrable est la quantité définie par
var (X) = E((X − E(X))2 ).
On peut remarquer que l’on a aussi var (X) = E(X 2 ) − (E(X))2 et que var (X) ≥ 0. La
variance représente la dispersion de la variable aléatoire autour de sa moyenne : plus la variance
est grande, plus la variable prend des valeurs éloignées de l’espérance. C’est un paramètre dit
de dispersion.
La variance permet de caractériser la constance d’une variable aléatoire : X est constante
si et seulement si sa variance est nulle. Mis à part ce cas très précis, la variance et l’espérance
ne suffisent pas pour caractériser la loi d’une variable aléatoire.
2.4
Espérance et loi
Le problème se pose souvent d’obtenir une expression de la loi d’une variable aléatoire X,
construite à partir d’une ou plusieurs variables aléatoires. Si on pense que X est discrète, on
détermine le plus finement possible l’ensemble X(Ω) et on calcule les probabilités P(X = x)
pour tout x ∈ X(Ω).
Si on pense que X a une densité, et que le calcul de la fonction de répartition x → P(X ≤ x)
n’est pas immédiat, une bonne méthode consiste souvent à se donner une fonction test h : R → R
(positive et borélienne) et d’essayer d’écrire E(h(X)) sous la forme
Z
E(h(X)) =
h(x)f (x) dx.
R
Si on y parvient, on aura prouvé que X admet une densité, et la fonction f sera cette densité.
NB : Attention à ne pas particulariser la fonction h : le calcul de E(h(X)) doit être fait pour
toute fonction h, et pas seulement pour la fonction identité !
Il est parfois possible de calculer, pour tout α ∈ R, φ(α) = E(exp(iαX)). Cette fonction φ,
appelée fonction caractéristique, caractérise la loi des variables aléatoires. La transformation de
Fourier permet d’obtenir la densité (lorsqu’elle existe) comme une intégrale liée à φ. De plus,
les dérivées successives de φ en α = 0 sont liées aux moments de φ et permettent de retrouver
notamment l’espérance et la variance de X.
9
3
Convergence
3.1
Différents modes
Une suite de variables aléatoires étant une suite de fonctions, on peut définir différents modes
de convergence.
Le plus proche de la convergence point par point d’une suite de fonctions est la convergence
presque sûre :
Définition 1.2 On dit que la suite (Xn ) de variables aléatoires converge presque sûrement vers
une variable aléatoire X si la probabilité de l’événement
C = {ω, la suite réelle (Xn (ω))converge et a dmet pour limite X(ω)}
est égale à 1.
Remarque : Pour une suite de variables aléatoires, la convergence point par point n’est pas
raisonnable : en effet, en toute rigueur, les variables aléatoires ne sont pas définies point par
point, mais uniquement à des « presque sûrement » près ; on ne peut donc pas leur demander
de converger point par point.
On peut également définir les convergences en probabilité (ou en mesure) et en moyenne :
Définition 1.3
– La suite (Xn ) converge en probabilité vers X si, pour tout ε > 0, la
probabilité de l’événement {|Xn − X| > ε} tend vers 0.
– La suite (Xn ) converge en moyenne (ou dans L1 ) vers X si, pour tout n assez grand, Xn
est intégrable et si E(|Xn − X|) tend vers 0.
– La suite (Xn ) converge dans Lp vers X si, pour tout n assez grand, |Xn |p est intégrable
et si E(|Xn − X|p ) tend vers 0.
De tous ces modes de convergence, la convergence presque sûre est la plus exigeante : c’est
le seul mode qui fait intervenir simultanément toutes les (Xn − X), au moins pour tout n assez
grand. Pour étudier une convergence en moyenne ou en probabilité, on ne regarde qu’une seule
variable Xn − X.
Il est relativement facile de vérifier que, si une suite de variables aléatoires converge presque
sûrement, elle converge en probabilité. En effet, fixons ε et notons
Bn,ε = {|Xn − X| > ε}.
Notons également
C = {∀ε > 0, ∃N, ∀n ≥ N, |Xn − X| ≤ ε} = ∩ε ∪N ∩n≥N {|Xn − X| ≤ ε}.
C est précisément l’ensemble des ω tels que Xn (ω) tend vers X(ω).
On a également :
Ω\C = C = {ω, ∃ε > 0, ∀N, ∃n ≥ N, |Xn − X| > ε}
[ \ [
=
{|Xn − X| > ε}
ε>0,ε∈Q N n≥N
10
Si la suite (Xn ) converge presque sûrement vers X, la probabilité de C̄ est nulle donc, pour
tout ε > 0,
!
\ [
P
{|Xn − X| > ε} = 0.
N n≥N
S
Les événements CN,ε = n≥N {|Xn − X| > ε} forment une famille décroissante d’événements
donc lim P(CN,ε ) = P(∩N CN,ε ) = 0. Pour conclure, il suffit de remarquer que BN est inclus
dans CN , ce qui implique limN P(BN,ε ) = 0.
On peut également également montrer (en utilisant l’inégalité de Tchebychev énoncée cidessous prop. 1.8) que la convergence en moyenne ou en moyenne quadratique implique la
convergence en probabilité.
Un dernier type de convergence se détache des différents modes de convergence des suites
de fonctions : il s’agit de la convergence en loi.
Définition 1.4 On dit que (Xn ) converge en loi vers X si, pour tout x ∈ R tel que P(X =
x) = 0, on a lim P(Xn ≤ x) = P(X ≤ x).
Autrement dit, (Xn ) converge en loi vers X si les fonctions de réparation des Xn convergent
vers la fonction de répartition de X, en tout point de continuité de la fonction de répartition
de X. C’est le plus faible des modes de convergence au sens où si une suite converge en loi, on
n’a aucune information sur le comportement des suites (Xn (ω)). On peut montrer que si une
suite converge en probabilité, alors elle converge en loi.
3.2
Convergence des espérances : monotonie
On a utilisé pour construire l’intégrale le fait que la limite de l’intégrale d’une suite croissante
est égale à l’intégrale de la limite de la suite de fonctions. Plus précisément, si (Xn ) est une
suite croissante de variables aléatoires positives et si on pose X = lim Xn , alors
lim E(Xn ) = E(X).
Ce résultat est vrai sans hypothèse d’intégrabilité des Xn ou de X : c’est le théorème de
convergence monotone (ou de Beppo-Levi) pour une suite de fonctions positives.
3.3
Convergence des espérances : Lebesgue
N’oublions pas le théorème de convergence dominée de Lebesgue qui permet d’étudier la
limite des espérances des suite non monotones des fonctions :
Soit (Xn ) une suite de variables aléatoires. On suppose qu’il existe une variable aléatoire X
intégrable telle que : pour tout n et pour tout ω, |Xn (ω)| ≤ X(ω). On suppose également que,
pour presque tout ω, la suite Xn (ω) converge vers un réel (éventuellement infini) noté X(ω).
Alors : X est mesurable, intégrable et on a
lim E(Xn ) = E(X).
L’hypothèse cruciale dans ce résultat est l’hypothèse de domination : il ne suffit pas que
la majoration soit vraie pour tout n assez grand (dépendant de ω), et il faut que la variable
aléatoire majorante soit intégrable.
11
3.4
Lemme de Borel-Cantelli
Les deux parties du lemme de Borel-Cantelli forment un outil essentiel pour étudier les
convergences des suites d’événements ou de variables aléatoires.
Lemme 1.5 On se donne une suite d’événements (An ) et on note B l’événement
B = ∩N ∪n≥N An .
P
– Si n P(An ) converge alors P(B) = 0.
P
– Si les An sont des événements indépendants tels que la série
n P(An ) diverge, alors
P(B) = 1.
Remarquons que ω appartient à B si et seulement s’il appartient à une infinité des An .
Le premier résultat s’obtient par une simple majoration suivie d’un passage à la limite.
La preuve de la deuxième partie est nettement plus technique.
3.5
Loi du tout ou rien
Proposition 1.6 On se donne sur une suite (Xn ) de variables aléatoires indépendantes et on
note pour tout n, Gn = σ{Xn+1 , Xn+2 , . . .}. Soit A un événement tel que A ∈ ∩n Gn . Alors
P(A) = 0 ou 1.
Preuve : Notons pour tout n, Fn = σ{X1 , . . . , Xn }, F = ∪n Fn et G = ∩n Gn .
On a clairement G ⊂ F.
Par ailleurs, pour tout n fixé, et pour tout k ≥ n, Gk est indépendante de Fn , donc G est
indépendante de Fn . En passant à la limite, on conclut que G est indépendante de F.
Soit maintenant A ∈ G : par indépendance des tribus, A est indépendant de tout événement
de F. Or on a également A ∈ F, donc A est indépendant de lui-même, ce qui implique que
P(A) = 0 ou 1.
P
La loi du tout ou rien sert à étudier des événements asymptotiques du type { La série
Xn
converge }, ou {(X1 + . . . + Xn )/n tend vers c}, car on peut les écrire à partir de la sous-suite
(Xn )n≥n0 pour tout n0 . Les événements considérés sont donc de probabilité 0 ou 1, pour peu
les variables aléatoires (Xn ) soient indépendantes. Déterminer laquelle des deux valeurs est la
bonne est une autre histoire !
4
4.1
Lois des grands nombres
Loi faible des grands nombres
Théorème 1.7 (Loi faible des grands nombres) Soit (Xn ) une suite de variables aléatoires
indépendantes et de même loi. On suppose que X1 est de carré intégrable et on note m = E(X1 ).
On note, pour tout n ≥ 1, Yn = (X1 + · · · + Xn )/n. On a alors
lim E((Yn − m)2 ) = 0
n
et, pour tout ε > 0,
lim P (|Yn − m| ≥ ε) = 0.
n
12
La preuve de ce théorème est basée sur le calcul explicite de E((Tn − m)2 ) et l’utilisation de
l’inégalité de Tchebychev.
En effet,
n2 E (Yn − m)2 = E ((X1 − m) + . . . + (Xn − m))2
n
X
X
=
E (Xj − m)2 + 2
E ((Xi − m)(Xj − m))
j=1
i<j
La première somme se simplifie en utilisant le fait que les (Xi ) suivent la même loi et la deuxième
en utilisant leur indépendance. On obtient
X
E ((Xi − m)) E ((Xj − m)) = nE (X1 − m)2
n2 E (Yn − m)2 = nE (X1 − m)2 + 2
i<j
On est donc en mesure de conclure que E((Yn − m)2 ) tend vers 0. On dit également que (Yn )
tend vers m en moyenne quadratique.
Énonçons maintenant l’inégalité de Tchebychev :
Proposition 1.8 Soit X une variable aléatoire de carré intégrable. On a, pour tout λ > 0,
2
E(X 2 )
P(|X| ≥ λ) ≤
.
λ
Il reste à appliquer ce résultat en remplaçant X par Yn − m : pour tout ε > 0,
P (|Yn − m| ≥ ε) ≤
1
1
E((Yn − m)2 ) = 2 E (X1 − m)2 .
2
ε
nε
Pour tout ε fixé, on peut faire tendre n vers l’infini, ce qui produit le résultat souhaité.
Preuve de 1.8 : Pour tout réel x, on a la minoration :
x2 ≥ λ2 1||x≥λ
On applique cette minoration à la variable aléatoire X et on intègre. Il vient :
E(X 2 ) ≥ λ2 E(1|X|≥λ ) = λ2 P(|X| ≥ λ).
4.2
Loi forte des grands nombres
Théorème 1.9 (Loi forte de grands nombres) Soit (Xn ) une suite de variables aléatoires
indépendantes et de même loi. On suppose que X1 est intégrable et on note m = E(X1 ). On
note, pour tout n ≥ 1, Yn = (X1 + · · · + Xn )/n et
C = {ω ∈ Ω, la suite (Yn (ω))est convergente et de limite m}.
Alors P(C) = 1. On dit que (Yn ) converge presque sûrement vers m.
13
Réciproquement, on peut montrer, par la loi du tout ou rien, que la probabilité pour que la
suite (Yn ) (construite à partir de variables aléatoires indépendantes et de même loi) converge
ne peut être égale que à 0 ou 1 et, lorsque cette probabilité vaut 1, la limite de (Yn ) ne peut
être que déterministe et les (Xn ) sont alors intégrables.
Les lois des grands nombres permettent de justifier le fait que, si on répète un grand nombre
de fois et de façon indépendante une expérience, la moyenne arithmétique des valeurs obtenues
s’approche de son espérance. Par exemple, si on compte les succès et les échecs d’un tirage de
Bernoulli (lancer de dé par exemple), la proportion de succès dans l’échantillon obtenu tend
vers la probabilité de succès de l’expérience.
4.3
Théorème central limite
On reste dans le cas où les variables aléatoire (Xn ) sont indépendantes, de même loi et
intégrables d’espérance m. La loi forte des grands nombres donne le comportement asymptotique
de la suite (Yn − m), et également de celui de (X1 + · · · + Xn ). On a effet pour presque tout ω,
X1 (ω) + · · · + Xn (ω) ∼ nm
Cette expression est un développement limité de X1 +· · ·+Xn . On peut obtenir le terme suivant
de ce développement limité, mais pas en limite presque sûre : c’est l’information contenue dans
le théorème central limite.
Théorème 1.10 Soit (Xn ) une suite de variables aléatoires indépendantes et identiquement
distribuées. On suppose que les (Xn ) sont de carré intégrable et on note m = E(X1 ) et σ 2 =
var (X1 ). On a alors pour tout x ∈ R fixé,
Z x
√ (Yn − m)
dt
2
n
≤ x −→
e−t /2 √
P
σ
2π
−∞
et
Z x
X1 + · · · + Xn − nm
dt
2
√
P
e−t /2 √
≤ x −→
2
2π
nσ
−∞
√
Cela équivaut à : n(Yn − m)/σ converge en loi vers la loi normale centrée réduite.
Remarquons qu’il s’agit d’une limite en loi et que l’on ne peut espérer mieux (convergence en
probabilité par exemple).
Ce théorème explique le rôle central de la loi normale dans la théorie des probabilités et des
statistiques : si on somme des objets similaires et indépendants, on obtient après renormalisation
une variable gaussienne.
Il est bon de√noter également que lorsque les (Xn ) sont indépendantes et de loi normale
N (m, σ 2 ), alors n(Yn − m)/σ est de loi normale centrée et de variance 1 : autrement dit, la
suite est stationnaire en loi.
5
5.1
Conditionnement
Définition
Nous avons déjà vu la notion de probabilité conditionnelle, sachant un événement de probabilité strictement positive. Il est possible de donner un sens à des conditionnements par rapport
à des événements de probabilité nulle, lorsque l’on conditionne par rapport à une tribu
14
Définition 1.11 Soit X : (Ω, Σ) → (R, B(R)) une variable aléatoire intégrable et F une tribu,
sous-tribu de la tribu Σ. On définit l’espérance conditionnelle de X sachant F comme étant
l’unique variable aléatoire Y mesurable par rapport à la tribu F telle que, pour tout A ∈ F,
E(X1A ) = E(Y (1A ). On la note E(X|F).
Pour justifier l’existence et l’unicité de la variable aléatoire Y , plaçons-nous dans le cas où
X est une variable aléatoire positive. L’application
µ:F → R
A → E(X1A )
est une mesure positive et telle que, si P(A) = 0 alors µ(A) = 0 : cette mesure est absolument
continue par rapport à P. Le théorème de Radon-Nikodym implique qu’il existe une unique
variable aléatoire Y mesurable par rapport à F et telle que dµ = Y dP, ce qui permet de
conclure.
5.2
Probabilité et espérance conditionnelle
Quel est le lien entre l’espérance conditionnelle et les probabilités conditionnelles ? Considérons deux événements A et B et notons F = {∅, Ω, B, B̄} la tribu engendrée par B et étudions
E(1A |F).
La tribu F étant particulièrement simple, il n’est pas très compliqué d’expliciter toutes les
variables aléatoires Y F-mesurables : choisissons ωB ∈ B et notons yB = Y (ωB ). L’événement
{Y = yB } appartient à F et contient ωB donc,
– soit {Y = yB } = Ω et la variable aléatoire Y est constante,
– soit {Y = yB } = B. Dans ce cas, on choisit ωC ∈ B̄ et on note yC = Y (ωC ). On a
nécessairement {Y = yC } = B̄ et Y = yB 1B + yC 1B̄ .
Les variables aléatoires F-mesurables sont donc toutes de la forme Y = yB 1B + yC 1B̄ , où yB et
yC sont des constantes.
Déterminer l’espérance conditionnelle Y = E(1A |F) revient maintenant à trouver une variable aléatoire de la forme Y = yB 1B + yC 1B̄ . Pour cela, on utilise la définition de l’espérance
conditionnelle.
On doit avoir E(1A 1B ) = E(Y 1B ) et E(1A 1B̄ ) = E(Y 1B̄ ).
La première relation se traduit par P(A ∩ B) = yB P(B) et la deuxième par P(A ∩ B̄) =
yC P(B̄). Les réels yB et yC sont donc les probabilités conditionnelles de A sachant respectivement B et B̄.
5.3
Propriétés
Proposition 1.12 Soient X et Y deux variables aléatoires et F une tribu.
– E(X) = E(E(X|F)).
– Si X est F-mesurable, E(X|F) = X.
– Si X est indépendante de F, E(X|F) = E(X).
– Si Y est F-mesurable et si XY est intégrable, E(XY |F) = Y E(X|F).
– Si φ : R → R est une fonction convexe, φ(E(X|F) ≤ E(φ(X)|F).
15
5.4
Le cas gaussien
Le calcul d’une espérance conditionnelle n’a rien de simple en général, mais dans le cas des
vecteurs gaussiens, conditionner revient à projeter.
Définition 1.13 Un vecteur aléatoire (X1 , . . . , Xn ) est dit gaussien si toute combinaison linéaire de ses coordonnées suit une loi normale sur R ou est constante.
NB : Dans la suite, les lois des variables aléatoires constantes seront considérées comme des lois
normales (de variance nulle).
Proposition 1.14 Un vecteur aléatoire est gaussien si et seulement s’il existe un vecteur m et
une matrice Γ ∈ Mn (R) tels que, pour tout α = (α1 , . . . , αn ) ∈ Rn ,
X
1
E exp(i
αk Xk ) = exp ihα, mi − hα, Γαi
2
On a alors mk = E(Xk ) et Γjk = cov(Xj , Xk ).
Le vecteur m est le vecteur des moyennes et la matrice Γ est la matrice de covariance du
vecteur (X1 , . . . , Xn ).
En particulier, on peut remarquer que le vecteur est à composantes indépendantes si et
seulement si sa matrice de covariance est diagonale : pour les vecteurs gaussiens, être non
covarié équivaut à être indépendant.
Considérons maintenant un vecteur gaussien centré (X, Y1 , . . . , Yk ), notons F la tribu
engendrée par (Y1 , . . . , Yk ). Nous allons vérifier que le projeté orthogonal (dans L2 (P)) de X
sur l’espace vectoriel engendré par {Y1 , . . . , Yk } est l’espérance conditionnelle de X sachant F.
Notons Z ce projeté : Z est une combinaison linéaire des (Yl ), et on a cov((X − Z), Yj ) = 0
pour tout j. Or le vecteur (X − Z, Y1 , . . . , Yk ) est gaussien : la nullité des covariances implique
donc que (X − Z) est indépendante de F.
Écrivons maintenant X = (X − Z) + Z et calculons E(X|F). On a
E(X|F) = E(X − Z|F) + E(Z|F).
D’après la remarque précédente, (X−Z) est indépendante de F donc E(X−Z|F) = E(X−Z) =
0 ; de plus, Z est une combinaison linéaire des (Yj ) est Z est F−mesurable donc E(Z|F) = Z.
Résumons ce résultat dans la proposition suivante :
Proposition 1.15 Lorsque le vecteur (X, Y1 , . . . , Yk ) est gaussien centré, l’espérance conditionnelle de X sachant la tribu engendrée par {Y1 , . . . , Yk } est égal à la variable aléatoire Z,
projeté orthogonalPdans L2 (P) de X sur l’espace vectoriel engendré par les (YP
j ). On identifie Z
en écrivant Z = λj Yj où les λj sont solutions de : pour tout j, cov(X − λl Yl , Yj ) = 0.
Si le vecteur (X, Y1 , . . . , Yn ) est gaussien mais non centré, on le centre en posant X̃ =
X − E(X) et, pour tout j, Ỹj = Yj − E(Yj ). Le vecteur (X̃, Y˜1 , . . . , Y˜n est gaussien ,centré,n de
même patrice de covariance que le vecteur (X, Y1 , . . . , Yn ). On applique ensuite le traitement
décrit ci-dessus pour obtenir E(X̃|Y˜1 , . . . , Y˜n ) sous la forme
X
E(X̃|Y˜1 , . . . , Y˜n ) =
λj Y˜j
16
où les λj sont solutions du système linéaire : pour tout j
X
E(X̃ Y˜j ) =
λi E(Ỹi Y˜j )
i
ce qui est équivalent à : pour tout j,
cov(X, Yj ) =
X
λi cov(Yi , Yj )
i
Pour revenir à l’espérance initiale, on remarque que la tribu engendrée par (Y1 , . . . , Yn ) est
la même que celle engendrée par (Y˜1 , . . . , Y˜n ) et on utilise la linéarité de l’espérance :
E(X|Y1 , . . . , Yn ) = E(X|Y˜1 , . . . , Y˜n )
= E(X) + E(X̃|Y˜1 , . . . , Y˜n )
X
= E(X) +
λi Ỹi
i
= E(X) +
X
i
λi (Yi − E(Yi ))
Chapitre 2
Chaı̂nes de Markov
1
Définitions
1.1
Le modèle
On dispose :
– d’un espace d’états, c’est-à-dire d’un ensemble E fini ou dénombrable,
– d’une loi de probabilité µ0 sur E qui jouera le rôle de loi initiale,
– des probabilités de transition (ou de passage) de x vers y, c’est-à-dire d’une famille
(p(x, y))(x,y)∈E 2 de nombres réels positifs vérifiant
X
p(x, y) = 1.
y∈E
Remarque : Lorsque l’espace d’états E est fini (en particulier si E = {1, . . . , K} pour un
certain entier K), les (p(x, y)) peuvent être écrits sous la forme d’une matrice, appelée matrice
de transition, et dans ce cas, les « sommes en ligne » de cette matrice doivent toutes être égales
à 1. On dit que cette matrice est stochastique. Chaque ligne de cette matrice représente les
poids d’une mesure de probabilité sur l’espace d’états E.
Définition 2.1 Une chaı̂ne de Markov (Xn )n≥0 sur E, de loi initiale µ0 , de probabilités de
transition (p(x, y))x,y est une suite de variables aléatoires à valeurs dans E telle que
1. pour tout x ∈ E, P(X0 = x) = µ0 (x),
2. pour tout n ≥ 1 et pour tout (n + 1)-uplet (x0 , x1 , . . . , xn ) ∈ E n+1 , on a
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = µ0 (x0 )p(x0 , x1 )p(x1 , x2 ) . . . p(xn−1 , xn ).
En particulier, on aura p(x, y) = P(X1 = y|X0 = x) = P(Xn+1 = y|Xn = x).
On notera par la suite p(n) (x, y) = P(Xn = y|X0 = x) = P(Xn+k = y|Xk = x), c’est-à-dire
la probabilité de passer de l’état x à l’état y en n étapes.
Remarque : La notation des probabilités conditionnelles dans le cadre des chaı̂nes de Markov
sera systématiquement du type P(A|B) et non PB (A) car l’événement B sera souvent trop
lourd à écrire pour être mis en indice.
Dans la suite de ce cours, E désignera un ensemble fini ou dénombrable et
(p(x, y))x,y∈E des probabilités de transition. On notera fréquemment Π la matrice de
transition associée, ce qui suppose d’avoir ordonné les éléments de E.
17
18
Exemples :
– Le concept de chaı̂ne de Markov a été inventé par le mathématicien russe Andrei Markov
(1856-1922) qui a étudié la succession des lettres dans le roman Eugène Onéguine de
Pouchkine.
– Une suite de variables aléatoires indépendantes et identiquement distribuées constitue une
chaı̂ne de Markov (le vérifier !), mais ce n’est évidemment pas un cas générique.
– Le nombre de succès consécutifs dans un schéma de Bernoulli forme une chaı̂ne de Markov.
– On peut modéliser le niveau de stock de produits (avec par exemple un réapprovisionnement dès que le stock est inférieur à un seuil), l’état d’une machine (fonctionnement /
panne / réparation), la santé d’un individu (sain / malade / mort, avec éventuellement
différents niveaux de gravité de la maladie).
– On peut également utiliser une chaı̂ne de Markov pour modéliser le temps qu’il fait. Les
états seront alors par exemple : beau, nuageux, pluvieux. Dans le modèle le plus simple, le
temps d’un jour donné ne dépend que du temps de la veille. On peut également envisager
une modélisation faisant intervenir le temps de deux jours successifs (ou plus). Les états
seront alors les neuf couples (beau, beau), (beau, nuageux), (beau, pluvieux), (nuageux,
beau), ... , la première coordonnée désignant le temps de l’avant-veille et la deuxième le
temps de la veille. Un certain nombre de transitions est alors impossible (par exemple
de (beau, beau) vers (pluvieux, pluvieux)). Pourquoi ? Lister les différentes transitions
possibles.
La proposition suivante permet de caractériser les chaı̂nes de Markov.
Proposition 2.2 (Propriété de Markov) Une suite de variables aléatoires (Xn )n≥0 est une
chaı̂ne de Markov de probabilités de transition (p(x, y)) si et seulement si, pour tout n ≥ 0 et
tout (n + 2)–uplet (x0 , x1 , . . . , xn , xn+1 ) de E n+2 tel que P(Xn = xn , . . . , X1 = x1 , X0 = x0 ) > 0,
on a
P(Xn+1 = xn+1 |Xn = xn , . . . , X1 = x1 , X0 = x0 ) = P(Xn+1 = xn+1 |Xn = xn ) = p(xn , xn+1 ).
(2.1)
Remarque : La proposition précédente peut tout à fait être utilisée comme définition d’une
chaı̂ne de Markov !
La proposition signifie concrètement que la loi des trajectoires dans le futur d’une chaı̂ne de
Markov conditionnée par le passé et le présent de la chaı̂ne est la même que la loi du futur de
cette chaı̂ne, conditionnée uniquement par l’état présent. Le chemin parcouru pour arriver à un
état donné ne modifie pas la loi du futur sachant l’état de la chaı̂ne à l’instant n. Pour vérifier
qu’une suite de variables aléatoires est une chaı̂ne de Markov, il ne suffit pas de vérifier que
les probabilités conditionnelles P(Xn+1 = y|Xn = x) ne dépendent pas du rang n !
Preuve de la proposition 2.2 : Supposons qu’une suite (Xn )n≥0 de variables aléatoires vérifie
l’égalité 2.1 ci-dessus, pour tout (n + 1)-uplet ; notons µ la loi de la variable aléatoire X0 et
montrons, par récurrence sur n, que (Xn )n≥0 est une chaı̂ne de Markov.
L’hypothèse de récurrence Hn est :
Pour tout (n + 1)-uplet (x0 , . . . , xn ) ∈ E n+1 ,
(Hn )
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = µ(x0 )p(x0 , x1 ) . . . p(xn−1 , xn )
L’hypothèse H1 est bien vérifiée puisque,
19
– pour tous (x0 , x1 ) ∈ E 2 tels que µ(x0 ) > 0 on a
P(X0 = x0 , X1 = x1 ) = P(X1 = x1 |X0 = x0 )P(X0 = x0 ) = p(x0 , x1 )µ(x0 ).
– si µ(x0 ) = 0, on a pour tout x1 ∈ E
0 ≤ P(X0 = x0 , X1 = x1 ) ≤ P(X0 = x0 ) = 0 = µ(x0 )p(x0 , x1 )
Supposons maintenant que Hn est vérifiée et prouvons que Hn+1 l’est également. Fixons un
(n + 2)-uplet (x0 , . . . , xn+1 ) ∈ E n+2 tel que P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) > 0. On a
P(X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1 ) =P(Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn )
× P(X0 = x0 , X1 = x1 , . . . , Xn = xn ).
L’égalité 2.1 et l’hypothèse de récurrence au rang n permettent maintenant d’écrire
P(X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1 ) = µ(x0 )p(x0 , x1 ) . . . p(xn−1 , xn )p(xn , xn+1 ).
Le cas P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = 0 se traite de la même façon que le cas µ(x0 ) = 0
dans l’initialisation de la récurrence.
La preuve de la réciproque est laissée en exercice.
Exercice :
1. On se donne une chaı̂ne de Markov (Xn )n≥0 de mesure initiale µ0 et de probabilités de
transition (p(x, y)). Écrire la loi conjointe de (X0 , X1 ), et la loi de X1 , puis la loi conjointe
de (X0 , X1 , X2 ) et la loi de X2 à l’aide de µ0 et des probabilités de transition.
2. On se place dans le cas où E = {1, . . . , K} pour un certain entier K. Si on note Π la
matrice de transition, V le vecteur dont la ie coordonnée est µ(i), écrire ces résultats de
façon matricielle.
3. Expliciter également E(f (X1 )) pour toute fonction f : E → R positive ou bornée.
Dans la suite, c’est les probabilités de transition qui seront importantes, beaucoup plus
que la loi initiale. Le plus souvent, on parlera ainsi d’une chaı̂ne de Markov de probabilités de
transition données, sans préciser la loi initiale. Néanmoins, on utilisera les notations suivantes
pour spécifier la loi initiale :
– Si e ∈ E est un état, Pe désignera la mesure de probabilité se rapportant à la chaı̂ne
vérifiant X0 = e presque sûrement. On a ainsi Pe (Xn = x) = P(Xn = x|X0 = e), et en
particulier Pe (X0 = x) = 1 si x = e et 0 sinon et Pe (X1 = x) = p(e, x).
– Si µ est une mesure sur E, Pµ désignera la P
loi de la chaı̂ne de mesure initiale µ. On aura
donc Pµ (X0 = x) = µ(x) et Pµ (X1 = x) = y∈E µ(y)p(y, x).
De façon similaire, lorsque l’on calcule des espérances, on écrit Ee ou Eµ .
Le fait d’être une chaı̂ne de Markov n’est pas stable par les opérations habituelles (somme,
produit...). L’une des opérations que l’on peut faire pour conserver le caractère markovien est
décrite dans la proposition suivante :
Proposition 2.3 Soit (Xn )n≥0 une chaı̂ne de Markov dont les probabilités de transition sont
données par la matrice (éventuellement infinie) Π = (p(x, y)). Alors la suite (X2n )n≥0 est une
chaı̂ne de Markov de probabilités de transition, notées Π(2) = (p(2) (x, y)), données par
X
p(2) (x, y) =
p(x, z)p(z, y).
z∈E
20
Remarque : La matrice Π(2) est le carré de la matrice Π.
1.2
Les contraintes du modèle
Étudions pour une chaı̂ne de Markov (Xn )n≥0 sur un espace d’état E le temps passé dans
un état donné avant de le quitter. Supposons pour fixer les idées X0 = x p.s. et notons
T = inf{n ≥ 1, Xn 6= x}.
T − 1 est alors le temps passé en l’état x avant de le quitter. On a bien sûr
Px (T = 1) = Px (X1 6= x) = 1 − p(x, x)
et plus généralement, pour n ≥ 2 :
Px (T = n) = Px (X1 = x, . . . , Xn−1 = x, Xn 6= x)
= Px (X1 = x, . . . , Xn−1 = x) − Px (X1 = x, . . . , Xn−1 = x, Xn = x)
= (p(x, x))n−1 − (p(x, x))n = (p(x, x))n−1 (1 − p(x, x))
La loi de T est donc une loi géométrique. C’est une loi sans mémoire, qui vérifie
P(T ≥ n + k|T ≥ n) = P(T ≥ k).
Une possibilité pour éviter cela est de permettre que les probabilités de transitions dépendent
du temps n : la loi de (X0 , . . . , Xn ) est alors donnée par
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = µ0 (x0 )p(x0 , x1 , 1)p(x1 , x2 , 2) . . . p(xn−1 , xn , n)
et on a p(x, y, n) = P(Xn = y|Xn−1 = x). On parle alors de chaı̂ne de Markov inhomogène
en temps, par opposition aux chaı̂nes de Markov décrites au paragraphe 1.1 qui sont dites
homogènes en temps.
Le problème est alors que les résultats décrits dans la suite de ce chapitre ne s’appliquent
plus. La seule méthode pour étudier de telles chaı̂nes de Markov consiste à effectuer des simulations informatiques.
1.3
Construction
Exercice : On se place sur un espace d’états E fini ou dénombrable et on se donne
– une fonction f : E × [0, 1] → E
– une variable aléatoire X0 à valeurs dans E
– une suite de variables aléatoires (Un )n≥0 de loi uniforme sur [0, 1], indépendantes entre
elles et indépendantes de X0 .
On construit alors une suite (Xn ) de variables aléatoires en posant, pour tout n ≥ 1, Xn =
f (Xn−1 , Un ). Montrer que la suite (Xn )n≥0 forme une chaı̂ne de Markov. Quelles sont ses probabilités de transition ?
Étant donné une matrice de transition et une loi initiale, il est possible de construire une
chaı̂ne de Markov comme dans l’exercice ci-dessus :
21
Proposition 2.4 Soit (p(x, y)) des probabilités de transition sur un espace d’états E et µ0
une mesure de probabilité sur E. Alors il existe une fonction f : E × [0, 1] → R, une variable
aléatoire X0 de loi µ0 et une suite de variables aléatoires (Un ) de loi uniforme sur [0, 1] telles
que la suite (Xn ) définie pour tout n ≥ 1 par Xn = f (Xn−1 , Un ) forme une chaı̂ne de Markov
de probabilité de transition (p(x, y)).
2
Propriétés
2.1
Irréductiblité
On se donne une chaı̂ne de Markov (Xn )n≥0 sur un espace d’états E fini ou dénombrable.
Définition 2.5
que
– Deux états x et y communiquent s’il existe deux entiers n, m > 0 tels
P(Xn = y|X0 = x) > 0 et P(Xm = x|X0 = y) > 0.
– La chaı̂ne sera dite irréductible si tous les états communiquent.
Lorsuqe les probabilité ci-dessus sont strictmeent positive, on dit que l’on peut passer de x vers
y en n pas (ou étapes), et de y vers x en m étapes.
L’irréductibilité traduit donc la possibilité de passer d’un état à tout autre, même avec une
très faible probabilité, et en autorisant toutes les longueurs de chemin.
Pour vérifier qu’une chaı̂ne de Markov est irréductible, il est souvent utile de dessiner un
graphe orienté dont les sommets sont les états de la chaı̂ne et où une arête représente une
transition possible (l’arête (x, y) existe uniquement si p(x, y) > 0).
Proposition 2.6 S’il existe un chemin fermé passant au moins une fois par tous les états de
la chaı̂ne (on dit que le graphe est connexe), alors la chaı̂ne est irréductible.
Remarques :
1. La réciproque de cette proposition est fausse si l’ensemble E est infini.
2. La notion d’irréductibilité dépend uniquement des probabilités de transition, et non de la
loi initiale.
2.2
Stationnarité, réversibilité
Définition 2.7 Une mesure de probabilité µ est dite stationnaire pour les probabilités de
transition (p(x, y)) si, pour tout x ∈ E, Pµ (X1 = x) = µ(x), c’est-à-dire que si µ est la loi de
X0 , alors c’est aussi celle de X1 , et de Xn pour tout n ≥ 1. De façon pratique, une mesure µ,
donnée par les µ(x), x ∈ E, est stationnaire pour (p(x, y)) si elle vérifie
(
P
µ(x) = 1
Px∈E
∀x ∈ E,
y∈E µ(y)p(y, x) = µ(x).
(2.2)
22
Attention : Si les p(x, y) sont disposés sous la forme d’une matrice notée Π (les x représentant
les lignes et les y les colonnes), µ est solution d’un système donné par les colonnes de cette
matrice. En fait, µ est très exactement un vecteur propre de la transposée de Π, associé à la
valeur propre 1. Pourquoi 1 est-il toujours valeur propre de Π ?
Remarque : Si la loi de X0 est la mesure stationnaire (ou une mesure stationnaire s’il en existe
plusieurs), les (Xn ) forment une suite de variables aléatoires identiquement distribuées (mais
pas indépendantes en général !).
Exercice : Vérifiez que la chaı̂ne de Markov formée par une suite de variables aléatoires indépendantes et identiquement distribuées est irréductible sur son support. Quelle est la mesure
stationnaire ?
Définition 2.8 Une chaı̂ne de Markov est dite réversible s’il existe une mesure de probabilité
µ sur E telle que, pour tous x, y ∈ E,
µ(x)p(x, y) = µ(y)p(y, x)
Proposition 2.9 Si une mesure de probabilité est réversible pour la matrice de transition
(p(x, y)), alors c’est une mesure stationnaire.
2.3
Transience, récurrence, période
Une des questions importantes qui se posent face à une chaı̂ne de Markov est de savoir
si, partant d’un point, on y revient avec probabilité 1. Autrement dit, si on se promène en
suivant une chaı̂ne de Markov, est-on sûr de repasser par son point de départ ? Pour étudier ces
questions, on fixe donc un état x ∈ E et on travaille avec la mesure Px , c’est-à-dire que l’on a
X0 = x p.s..
On notera τx l’instant du premier retour en x : τx = inf{n ≥ 1, Xn = x}. Si la chaı̂ne
ne repasse jamais par l’état x, c’est-à-dire, si pour tout n ≥ 1, Xn 6= x, on pose τx = +∞.
Définition 2.10
– L’état x est transient ou transitoire si Px (τx < ∞) < 1.
– L’état x est récurrent si Px (τx < ∞) = 1.
– L’état x est récurrent positif si Ex (τx ) < ∞.
– L’état x est récurrent nul si Px (τx < ∞) = 1 et Ex (τx ) = ∞.
– La période de l’état x est le pgcd (plus grand commun diviseur) de toutes les longueurs
de chemins reliant x à lui-même, et parcourus avec une probabilité strictement positive.
Lorsque le pgcd obtenu est égal à 1, on dit que l’état x est apériodique.
– Lorsque tous les états d’une chaı̂ne de Markov sont de la même nature, on dit que la chaı̂ne
est, selon le cas, transiente, récurrente positive ou récurrente nulle. On parle également
de période de la chaı̂ne si tous les états ont la même période.
Attention : La récurrence et la transience ne sont pas directement liées à l’irréductibilité de
la chaı̂ne de Markov : la chaı̂ne peut tout à fait être irréductible sans qu’aucun de ses états ne
soit récurrent.
23
2.4
Caractérisation de la récurrence/transience
Rappelons que l’on note p(n) (x, y) = Px (Xn = y) = P(Xn = y|X0 = x) et que p(n) (x, y)
est le terme (x, y) de la matrice Πn . La proposition suivante permet de caractériser la récurrence/transience d’un état :
Théorème 2.11 (Caractérisation de la récurrente/transience) .
1. x est récurrent ⇐⇒ Px (∃ une infinité d’indices n tels que Xn = x) = 1.
P
2. x est transient ⇐⇒ n≥1 p(n) (x, x) < ∞.
P
3. x est récurrent nul ⇐⇒ n≥1 p(n) (x, x) = ∞ et limn p(n) (x, x) = 0.
4. Si x est récurrent positif et apériodique, p(n) (x, x) admet une limite strictement positive.
5. Si x est récurrent positif et périodique de période t, p(nt) (x, x) admet une limite strictement
positive.
Preuve du point 1. Fixons un état x.
Px (On revient au moins 2 fois en x) = Px (∪n {τx = n, Xn = x, ∃m > n, Xm = x})
X
=
Px (τx = n, Xn = x, ∃m > n, Xm = x)
n
=
X
Px (∃m > n, Xm = x|τx = n, Xn = x) ×
n
Px (τx = n, Xn = x)
=
X
=
X
Px (∃m > n, Xm = x|Xn = x)Px (τx = n)
n
Px (τx < ∞)Px (τx = n)
n
= (Px (τx < ∞))2
Où utilise-t-on le caractère markovien ?
Plus généralement, Px (On revient au moins n fois en x) = (Px (τx < ∞))n .
Comme les événements {On revient au moins n fois en x} sont décroissants, on a
Px (On revient une infinité de fois en x) = lim(Px (τx < ∞))n
n
Si x est récurrent, Px (τx < ∞) = 1, on en déduit que la chaı̂ne issue de x repasse presque
sûrement en x une infinité de fois.
Si x est transient, on obtient que la probabilité que la chaı̂ne repasse une infinité de fois en
x est nulle.
Preuve du point 2. P
• Supposons que n p(n) (x, x) < ∞. On a donc
lim
N
X
n≥N
P(Xn = x) = 0.
24
On en déduit que
!
lim P
N
[
{Xn = x}
=0
n≥N
puis que
!
Px
\ [
{Xn = x}
= 0.
N n≥N
L’événement précédent est l’ensemble :
{ω ∈ Ω; il existe une sous-suite infinie nk (ω) telle que Xnk (ω) = x},
ou, autrement dit, c’est l’ensemble des ω pour lesquels la suite (Xn (ω))n visite l’état x une
infinité de fois.
Puisque cet événement est de probabilité nulle, le point 1 implique que x est transient.
• Supposons maintenant que x est transient et notons Nx le nombre de passages de (Xn )n≥0
par x. En reprenant la preuve du point 1, on voit que Px {Nx ≥ l} = (Px (τx < ∞))l , c’està-dire que Nx suit une loi géométrique sur N de paramètre 1 − Px (τx < ∞). En particulier,
Ex (Nx ) < ∞.
Or
!
X
Ex (Nx ) = Ex
1Xn =x
n≥1
=
X
=
X
Ex (1Xn =x )
n≥1
p(n) (x, x).
n≥1
On a donc équivalence entre transience d’un état et convergence de la série
P
n
p(n) (x, x). Proposition 2.12 Si x et y sont deux états qui communiquent, ils sont de même nature (récurrents positifs, récurrents nuls ou transients) et sont de même période.
Preuve : Soient x et y deux états qui communiquent. Choisissons deux entiers N et M tels que
α = p(N ) (x, y) > 0 et β = p(M ) (y, x) > 0.
Pour tout n positif, on a :
p(N +M +n) (x, x) ≥ p(N ) (x, y)p(n) (y, y)p(M ) (y, x) = αβp(n) (y, y)
(2.3)
et
p(N +M +n) (y, y) ≥ p(M ) (y, x)p(n) (x, x)p(N ) (x, y) = αβp(n) (x, x)
(2.4)
P (n)
P (n)
donc les séries n p (x, x) et n p (y, y) convergent ou divergent simultanément et la limite
de p(n) (x, x) (ou de p(nt) (x, x)) lorsque n tend vers +∞ est non nulle si et seulement si la limite
de p(n) (y, y) (ou de p(nt) (y, y)) est non nulle : x est récurrent nul si et seulement si y l’est.
Passons maintenant à l’étude de la période.
25
Supposons que x soit de période t. Comme p(N +M ) (x, x) ≥ p(N ) (x, y)p(M ) (y, x) > 0, N +
M est nécessairement divisible par t. On en déduit que si n n’est pas un multiple de t,
p(N +M +n) (x, x) = 0 ; puis en utilisant la relation 2.3, il vient que, toujours si n n’est pas un
multiple de t, p(n) (y, y) = 0.
Donc la période de y est un multiple de celle de x : nécessairement, les deux périodes sont
égales.
On déduit immédiatement de la proposition précédente le corollaire suivant :
Corollaire 2.13 Si la chaı̂ne est irréductible, tous les états de la chaı̂ne sont de même nature
et ont la même période. On parle alors suivant les cas de la récurrence, la transience ou la
période de la chaı̂ne.
En particulier, si la matrice de transition d’une chaı̂ne irréductible comporte un terme non nul
sur la diagonale, tous les états sont apériodiques.
3
Limites
Dans cette section, on se place dans le cas d’une chaı̂ne de Markov (Xn ) irréductible sur
un espace d’états E fini ou dénombrable, de probabilités de transition Π = (p(x, y)).
Rappelons que τx désigne le premier instant où la chaı̂ne, issue de x repasse par l’état x.
C’est une variable aléatoire à valeurs dans N∗ ∪ {+∞}. On note
ν(x) =
1
Ex (τx )
Remarquons que si l’état x est transient, τx est une variable aléatoire qui vaut +∞ avec une
probabilité non nulle, donc Ex (τx ) = +∞ et ν(x) = 0.
Par définition de la récurrence nulle d’un état, on a également ν(x) = 0 si x est récurrent
nul.
3.1
Théorème ergodique
Théorème 2.14
1. Si (Xn ) est transiente ou récurrente nulle, elle n’admet pas de probabilité invariante et ν(x) = 0 pour tout x ∈ E.
2. Quelle que soit la loi de X0 , pour tout x ∈ E, on a
n
1X
ps
1Xk =x −→ ν(x)
n k=1
(2.5)
Le deuxième point de ce théorème donne le comportement asymptotique de la fréquence
empirique avec laquelle la chaı̂ne « visite » un état donné : dès que Ex (τx ) < ∞, ce nombre de
visites entre les instants 1 et n est asymptotiquement proportionnel à n.
Théorème 2.15 (Théorème ergodique) Si (Xn ) est une chaı̂ne de Markov récurrente positive et irréductible, on a
26
1. PourPtout x dans E, on a ν(x) > 0 ; ν définit une mesure de probabilité sur E (c’est-à-dire
que x ν(x) = 1) et c’est l’unique probabilité invariante de (Xn ).
2. Pour toute mesure initiale et pour toute fonction f : E × E → R telle que
X
Eν (|f (X0 , X1 )|) =
|f (x, y)|ν(x)p(x, y) < ∞
x,y
on a
n
X
1X
ps
f (Xk−1 , Xk ) −→ Eν (f (X0 , X1 )) =
f (x, y)ν(x)p(x, y)
n k=1
x,y
Le deuxième point du théorème 2.14 est un cas particulier du théorème 2.15 : l’état x étant
fixé, il suffit de considérer la fonction f définie sur E × E par f (s, t) = 1t=x . On remarque
ensuite que, puisque d’après le point 1 de 2.15, ν est une mesure de probabilité stationnaire,
Eν (1X1 =x ) = Pν (X1 = x) = ν(x).
Remarque : La fonction f : E ×E → R ci-dessus est souvent appelée
P « fonction de coût » ; elle
représente les coûts/gains associés à une transition.PLa quantité k≤n f (Xk−1 , Xk ) sera alors
le coût total du chemin de longueur n considéré et k≤n f (Xk−1 , Xk )/n est le coût empirique
moyen d’une transition le long de ce chemin.
Ces théorèmes permettent de lier la récurrence positive d’une chaı̂ne (irréductible) à l’existence d’une mesure stationnaire. On obtient les deux corollaires fondamentaux suivants :
Corollaire 2.16 Si la chaı̂ne est irréductible, elle admet une mesure stationnaire si et seulement si la chaı̂ne est récurrente positive. Dans ce cas, la mesure stationnaire est unique et est
donnée par ν.
Corollaire 2.17 Si la chaı̂ne est irréductible sur un espace d’états finis, alors elle est récurrente
positive et son unique mesure stationnaire est ν.
Le théorème 2.15 peut être vu comme une extension de la loi forte des grands nombres : en
effet, une suite (Xn ) de variables aléatoires indépendantes constitue une chaı̂ne de Markov dont
la mesure stationnaire est la loi de X0 . En considérant une fonction f du type f (x, y) = g(x),
où g : E → R est une fonction telle que
X
|g(x)|ν(x) < ∞
x
on retrouve précisément l’énoncé de la loi forte des grands nombres. Le résultat 2.15 est bien
entendu plus général puisqu’il concerne des suites de variables aléatoires dépendantes.
Résumé :
– Si la chaı̂ne est irréductible, il existe au plus une mesure stationnaire.
– Si la chaı̂ne est irréductible, il existe une mesure stationnaire µ si et seulement tous les
états sont récurrents positifs et on a alors Ex (τx ) = 1/µ(x), pour tout x ∈ E.
– En particulier si l’espace d’états est fini et si la chaı̂ne est irréductible, tous les états sont
positivement récurrents et de même période.
27
– Si la chaı̂ne est irréductible et positivement récurrente, pour toute mesure initiale et pour
toute fonction f : E × E → R telle que Eν |f (X0 , X1 )| < ∞,
n
X
1X
ps
f (Xk−1 , Xk ) −→ Eν (f (X0 , X1 )) =
f (x, y)ν(x)p(x, y)
n k=1
x,y
Remarque : C’est le théorème ergodique qui permet d’affirmer l’existence et l’unicité de la
mesure stationnaire d’une chaı̂ne irréductible et récurrence positive. Néanmoins, dans la pratique, c’est les équations (2.2), page 21, qui permettront d’expliciter cette mesure stationnaire.
Puis, à partir de la mesure stationnaire, on calculera Ex (τx ) et la fréquence asymptotique de
visite de l’état x.
3.2
Convergence en loi
Théorème 2.18 Si la chaı̂ne (Xn ) est irréductible, apériodique et admet une mesure stationnaire ν, alors (Xn ) converge en loi vers ν. C’est-à-dire que pour toute loi initiale µ0 et pour
tout x ∈ E, on
lim Pµ0 (Xn = x) = ν(x).
n
3.3
Preuves partielles des résultats de convergence
Commençons par la preuve du corollaire 2.17. On admet
P pour le moment le théorème 2.14 et
on somme sur x dans E la limite : on obtient que 1 = x ν(x). Ainsi, ν n’est pas constamment
nul donc, d’après le théorème 2.14, la chaı̂ne n’est pas transiente, ni récurrente nulle. Elle ne
peut être que récurrente positive. Le théorème 2.15 permet de conclure que ν est la mesure
invariante.
Passons maintenant à la preuve du théorème 2.14. Rappelons que (Xn ) est une chaı̂ne
de Markov irréductible de probabilités de transition Π et que l’on pose, pour tout x ∈ E,
ν(x) = 1/Ex (τx ).
Lemme 2.19 Si la limite (2.5) du théorème 2.14 est vérifiée et si Π admet une probabilité
invariante µ, alors µ = ν.
En effet, puisque
n
1X
1X =x
n k=1 k
est dominé par 1, on peut utiliser le théorème de convergence dominé de Lebesgue en intégrant
par rapport à Eµ . On obtient
!
n
1X
1X
Eµ
1Xk =x =
Pµ (Xk = x) −→ ν(x)
n k=1
n k≤n
La stationnarité de µ implique que, pour tout k, Pµ (Xk = x) = µ(x). Le membre de gauche
ci-dessus est donc égal à µ(x). On a donc µ = ν. En particulier, sous réserve que la limite (2.5)
28
est vérifiée, ceci prouve que, si la mesure stationnaire existe, elle est unique. Ceci termine la
preuve du lemme 2.19.
Attaquons maintenant la preuve de la limite 2.5 et considérons dans un premier temps le
cas des chaı̂nes transientes.
Lemme 2.20 Supposons que la chaı̂ne (Xn ) est transiente. Alors la limite (2.5) est vérifiée et
la chaı̂ne n’admet pas de mesure stationnaire.
En effet, la chaı̂ne étant transiente, on a Ex (τx ) = +∞ pour tout x, donc ν = 0 pour tout
x ∈ E. De plus, on a vu que, pour un état transient, le nombre de visite de cet état par la
chaı̂ne de Markov est fini presque sûrement. On a donc p.s.
1X
1X =x −→ 0 = ν(x).
n k≤n k
Le lemme 2.19 implique alors que la mesure stationnaire n’existe pas [La mesure nulle n’est pas
une mesure de probabilité !].
Il reste à étudier le cas des chaı̂nes récurrentes.
Soit donc (Xn ) une chaı̂ne de Markov récurrente. Notons Nn le nombre de visites de l’état
x avant l’instant n :
X
Nn =
1Xk =x .
k≤n
Il faut montrer que la suite Nn /n tend p.s. vers 1/Ex (τx ).
Considérons les instants successifs τj = τj,x de visites de l’état x par la chaı̂ne puis tj =
τj − τj−1 . La chaı̂ne étant récurrente, le nombre de visites de l’état x par la chaı̂ne est infini et
donc les τj sont tous finis p.s.
Le caractère markovien implique que les (tj )j≥2 sont indépendants et identiquement distribués (de même loi que τ1 conditionnellement à X0 = x). On utilise alors la loi forte des grands
nombres :
1X
τj
=
ti −→ Ex (τx ).
j
j i≤j
On remarque alors que, par construction, τNn ≤ n < τNn +1 . Donc
τNn
n
τNn +1 Nn + 1
≤
<
Nn
Nn
Nn + 1 Nn
Or les Nn tendent vers +∞ : les (τNn ) et les (τNn +1 ) constituent donc une sous-suite de la suite
(τn ). On peut donc conclure que n/Nn converge presque sûrement vers Ex (τx ).
4
4.1
Simulation
Pourquoi faire
Lorsque l’on simule un échantillon aléatoire, on répète généralement un certain nombre k de
fois la même opération, et on obtient un échantillon de taille k, c’est-à-dire k nombres répartis
suivant une loi fixée.
29
Pour simuler une chaı̂ne de Markov, l’objectif est différent : il faut simuler les chemins
X0 → X1 → . . . → Xn . Un échantillon de taille 1 est donc un chemin, dont on fixe a priori la
longueur n.
La simulation peut avoir plusieurs buts :
– Obtenir une estimation du coût moyen d’un chemin. Dans ce cas, un échantillon de taille
1 suffit, puisque Cn /n tend presque sûrement vers Eµ (c(X0 , X1 )).
– Simuler la mesure stationnaire, en obtenir un histogramme ou faire des tests sur cette loi,
sans la calculer explicitement. Pour n assez grand, Xn suit « presque » la loi stationnaire,
lorsque la chaı̂ne est irréductible et apériodique, et si cette loi existe. Pour obtenir une
simulation de la mesure stationnaire, on peut donc simuler k chemins x0 → x1 → . . . → xn ,
en ne gardant que xn .
4.2
Les ingrédients
Il faut connaı̂tre la loi initiale et chacune des probabilités de transition.
La loi initiale n’est pas très importante dans le cas des chaı̂nes irréductibles et apériodiques
admettant une mesure stationnaire, puisque très rapidement, la loi de Xn est très proche de la
loi stationnaire.
Il faut évidemment également disposer d’une liste suffisamment longue de nombres uniformément répartis sur [0, 1].
4.3
La recette
Pour obtenir un chemin simulé, on commence par simuler l’état initial x0 suivant la loi
initiale. La loi de X1 sachant {X0 = x0 } est ensuite donnée par p(x0 , x) : P(X1 = x|X0 =
x0 ) = p(x0 , x) ; on simule donc une valeur suivant la loi donnée par la ligne x0 de la matrice de
transition et on obtient une valeur x1 . Pour simuler X2 , on recommence de la même façon, mais
avec la loi donnée par la ligne x1 de la matrice de transition et ainsi de suite, jusqu’à obtenir le
chemin de longueur désirée.
Attention : Même si la loi initiale est la mesure stationnaire µ, cela ne revient pas du tout
au même de simuler n fois µ (comme on le ferait pour obtenir un échantillon « standard »),
et de simuler le chemin de la chaı̂ne de Markov, pour lequel il peut y avoir par exemple des
transitions interdites.
Pour simuler des lois discrètes : Nous décrivons ici comment simuler une loi discrète ν
sur {1, . . . , m}, donnée par p1 = ν(1), . . . , pm = ν(m).
Pour obtenir un échantillon de taille 1, on découpe l’intervalle [0, 1] en m sous-intervalles
de longueur p1 , p2 , . . . , pm . On a ainsi par exemple I1 = [0, p1 [, I2 = [p1 , p1 + p2 [, . . ., Im−1 =
[p1 + . . . + pm−2 , p1 + . . . + pm−1 [ et Im = [1 − pm , 1]. On prend une valeur u (la première valeur)
de l’échantillon uniforme, et si u appartient à l’intervalle Ij , on pose x1 = j.
Pour obtenir un échantillon de taille k, on recommence k fois l’opération précédente, en
renouvelant le tirage de la valeur uniforme : on utilise successivement u1 , u2 , . . ., uk .
En résumé, le plus simple est de commencer par décrire la méthode de simulation choisie,
pour chacune des lois dont on va avoir besoin : la loi initiale, puis la loi donnée par chacune
des lignes de la matrice. On procède alors à la simulation en utilisant l’échantillon uniforme,
sans reprendre deux fois le même ui . Si on a besoin de plusieurs chemins, on applique autant
30
de fois qu’il le faut la méthode, en utilisant à chaque fois des échantillon uniformes disjoints :
par exemple les n + 1 premières valeurs de l’échantillon uniforme permettront de construire le
premier chemin de longueur n, les n + 1 valeurs suivantes le deuxième chemin et ainsi de suite.
Chapitre 3
Processus de Poisson
Un processus de Poisson (Nt )t≥0 est une famille particulière de variables aléatoires à valeurs
entières, indexées par le temps t ∈ R+ et vérifiant la propriété de Markov.
1
Définition
Définition 3.1 Un processus (Nt )t≥0 est un processus de Poisson (homogène) si et seulement
si les trois propriétés suivantes sont vérifiées :
1. N0 = 0 p.s.
2. Pour tous t > s ≥ 0, Nt − Ns suit une loi de Poisson d’espérance λ(t − s), où λ est un
réel strictement positif.
3. Pour tous 0 ≤ t1 < t2 < · · · < tn , les variables aléatoires Nt1 , Nt2 − Nt1 , . . . , Ntn − Ntn−1
sont indépendantes.
Remarque : Les deux dernières propriétés impliquent que le processus de Poisson est un
processus à accroissements indépendants et stationnaires (PAIS).
On déduit immédiatement de la définition la proposition suivante :
Proposition 3.2
– Pour tout t > 0, Nt suit une loi de Poisson d’espérance λt.
– (Nt ) est un processus croissant et à valeurs entières (donc constant par morceaux).
Convention : Un processus de Poisson est continu à droite.
Le théorème suivant fait le lien entre processus de Poisson et suite de variables aléatoires
indépendantes et explique comment construire un processus de Poisson.
Théorème 3.3
– Soit (Nt ) un processus de Poisson d’espérance E(Nt ) = λt. On note,
pour tout n ≥ 0,
Sn = inf{t ≥ 0, Nt = n}
puis, pour tout n ≥ 1, Xn = Sn − Sn−1 .
Alors la suite (Xn ) forme une suite de variables aléatoires indépendantes de loi exponentielle de paramètre λ.
31
32
– Réciproquement, Soient (Xn ) une suite de variables aléatoires indépendantes et de loi
exponentielle de paramètre λ > 0, et (Sn ) la suite de ses sommes partielles.
On note, pour tout t ≥ 0, Rt = card{n ≥ 1, Sn ≤ t} ; alors (Rt ) est un processus de
Poisson homogène d’espérance E(Rt ) = λt.
On déduit de la définition d’un processus de Poisson et du théorème précédent la proposition
suivante :
Proposition 3.4 La hauteur des sauts d’un processus de Poisson (Nt ) est toujours égale à 1 :
P(Pour tout t, Nt − Nt− = 0 ou 1) = 1
Un processus de Poisson est donc complètement déterminé si on connaı̂t ses instants de
sauts.
2
Quelques propriétés
Proposition 3.5 Soit (Nt ) un processus de Poisson homogène d’espérance E(Nt ) = λt. On
note (Sn ) la suite des instants de saut de (Nt ) et on définit la suite (Xn )n≥1 par X1 = S1 et,
pour tout n ≥ 2, Xn = Sn − Sn−1 .
On a pour tous x, t > 0 et tout a > 0
•
1
E(Nt )
=
t
E(X1 )
a
E(X1 )
• P(SNt +1 − t > x) = e−λx = P(X1 ≥ t)
Z ∞
λe−λu du = e−λx si x < t
• P(t − SNt > x) =
• E(Nt+a ) − E(Nt ) =
x
• P(SNt +1 − t > x et t − SNt > y) = e−λ(x+y) = P(X1 ≥ x)P(X1 ≥ y) si y < t.
En particulier, les variables aléatoires SNt +1 − t et t − SNt sont indépendantes et SNt +1 − t est
de loi exponentielle.
Le preuve de cette proposition est basées sur le calcul explicite des lois de Nt et SNt .
Un paradoxe. On pourrait penser que XNt +1 (c’est-à-dire la hauteur du pas qui permet de
dépasser t) est de moyenne 1/λ. Il n’en est rien, puisqu’il est la somme des deux variables
SNt +1 − t et t − SNt , et que SNt +1 − t suit une loi exponentielle de moyenne 1/λ. Donc, si on
s’est fixé un instant t, le premier saut de (Nu ) après t a lieu en moyenne 1/λ unité de temps
après t. On en déduit que E(XNt +1 ) > 1/λ.
La proposition ci-dessus permet d’affirmer que les variables aléatoires représentant le laps
de temps entre t et le premier instant de saut après t et entre le dernier instant de saut avant t
et t sont indépendantes. Ce n’est qu’un des aspects de la propriété de Markov :
Le processus de Poisson est un processus marokovien :
Proposition 3.6 Si (Nt ) est un processus de Poisson, alors pour tout s > t, la variable aléatoire Ns − Nt est indépendante de Nu pour tout u ≤ s.
Plus précisément, le processus (Nt+h − Nt )h≥0 est indépendant du processus (Nu )u≤t .
33
3
Processus de Poisson inhomogène
Soit m : R+ → R+ une fonction croissante et continue, telle que m(0) = 0. Un processus
de Poisson inhomogène de moyenne m(t) est un processus (Rt )t≥0 càd-làg, à valeurs dans N,
vérifiant :
– R0 = 0,
– Pour tout t > 0, Rt − Rt− = 0 ou 1,
– Pour tout t ≥ 0, la variable aléatoire Rt suit une loi de Poisson de moyenne m(t),
– Pour tous t ≥ s ≥ 0, Rt − Rs suit une loi de Poisson de moyenne m(t) − m(s),
– Pour tous 0 ≤ t1 ≤ t2 ≤ · · · ≤ tn , les variables aléatoires Rt1 , Rt2 − Rt1 , . . . , Rtn − Rtn−1
sont indépendantes.
4
4.1
Simulation des processus de Poisson
Le processus de Poisson homogène
Il existe deux méthodes standard pour simuler un processus de Poisson (Nt ) homogène de
moyenne ENt = λt sur un intervalle de temps [0, T ]. Le principe commun de ces deux méthodes
est de simuler les instants de saut du processus.
Première méthode : On part d’un échantillon aléatoire (ui ) de nombres uniformément distribués sur l’intervalle [0, 1]. Puisque les intervalles de temps entre deux sauts consécutifs forment
une suite de variables aléatoires de loi exponentielle, on peut poser xi = −λ−1 ln ui . Les instants
de saut sont alors donnés par t1 = x1 et, pour tout n ≥ 2, tn = tn−1 +xn . On arrête la simulation
lorsque tn > T . Le processus simulé comptera alors n − 1 sauts sur l’intervalle [0, T ].
Deuxième méthode : On commence par simuler le nombre de sauts du processus entre 0
et T , qui suit une loi de Poisson de moyenne λT . Conditionnellement au nombre de sauts sur
[0, T ], les instants de saut sont uniformément distribués sur [0, T ]. Si la simulation du nombre
de sauts fournit comme résultat n, les instants de saut seront donc T.u1 , T.u2 , . . . , T.un . Cette
méthode, utile d’un point de vue théorique, présente deux inconvénients pratiques. D’une part,
la méthode la plus utilisée pour simuler une variable de Poisson est basée sur les sommes
d’exponentielles ; autrement dit, en simulant une variable de Poisson, on obtient directement
les instants de saut du processus de Poisson. D’autre part, les instants de sauts obtenus par
cette méthode ne sont pas classés par ordre croissant. Il est donc nécessaire de trier les valeurs
obtenues pour reconstituer le processus, et un tri est une opération lourde du point de vue
informatique dès que l’échantillon est grand.
4.2
Le processus de Poisson général
On souhaite simuler un processus de Poisson de moyenne E(Rt ) = m(t) où m est une
fonction croissante et dérivable sur [0, T ]. On notera λ(t) = m0 (t) et on supposera que
sup λ(t) = λ̃ < ∞.
[0,T ]
On commence par simuler un processus de Poisson homogène de moyenne λ̃t sur [0, T ], avec
pour instants de saut simulés s1 , . . . , sn . On va maintenant supprimer certains des si par une
méthode du rejet : on prend un échantillon uniforme (ui )i≤n indépendant de celui utilisé pour
34
construire les instants (si )i≤n . On conserve si comme instant de saut du processus inhomogène
si ui ≤ λ(t)/λ∗ et on le supprime sinon. Les instants de saut du processus non-homogène simulé
sont donc les instants non supprimés.
Table des matières
1 L’essentiel des probabilités
1
Probabilité, probabilité conditionnelle . . . . . .
1.1
Tribu . . . . . . . . . . . . . . . . . . . .
1.2
Probabilité . . . . . . . . . . . . . . . .
1.3
Probabilité conditionnelle . . . . . . . .
1.4
Indépendance . . . . . . . . . . . . . . .
2
Variable aléatoire . . . . . . . . . . . . . . . . .
2.1
Définition . . . . . . . . . . . . . . . . .
2.2
Intégrale . . . . . . . . . . . . . . . . . .
2.3
Espérance, variance . . . . . . . . . . . .
2.4
Espérance et loi . . . . . . . . . . . . . .
3
Convergence . . . . . . . . . . . . . . . . . . . .
3.1
Différents modes . . . . . . . . . . . . .
3.2
Convergence des espérances : monotonie
3.3
Convergence des espérances : Lebesgue .
3.4
Lemme de Borel-Cantelli . . . . . . . . .
3.5
Loi du tout ou rien . . . . . . . . . . . .
4
Lois des grands nombres . . . . . . . . . . . . .
4.1
Loi faible des grands nombres . . . . . .
4.2
Loi forte des grands nombres . . . . . . .
4.3
Théorème central limite . . . . . . . . .
5
Conditionnement . . . . . . . . . . . . . . . . .
5.1
Définition . . . . . . . . . . . . . . . . .
5.2
Probabilité et espérance conditionnelle .
5.3
Propriétés . . . . . . . . . . . . . . . . .
5.4
Le cas gaussien . . . . . . . . . . . . . .
2 Chaı̂nes de Markov
1
Définitions . . . . . . . . . . . . . . . .
1.1
Le modèle . . . . . . . . . . . .
1.2
Les contraintes du modèle . . .
1.3
Construction . . . . . . . . . .
2
Propriétés . . . . . . . . . . . . . . . .
2.1
Irréductiblité . . . . . . . . . .
2.2
Stationnarité, réversibilité . . .
2.3
Transience, récurrence, période
35
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
2
3
3
4
4
4
6
7
8
9
9
10
10
11
11
11
11
12
13
13
13
14
14
15
.
.
.
.
.
.
.
.
17
17
17
20
20
21
21
21
22
36
3
4
2.4
Caractérisation de la récurrence/transience . .
Limites . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Théorème ergodique . . . . . . . . . . . . . .
3.2
Convergence en loi . . . . . . . . . . . . . . .
3.3
Preuves partielles des résultats de convergence
Simulation . . . . . . . . . . . . . . . . . . . . . . . .
4.1
Pourquoi faire . . . . . . . . . . . . . . . . . .
4.2
Les ingrédients . . . . . . . . . . . . . . . . .
4.3
La recette . . . . . . . . . . . . . . . . . . . .
3 Processus de Poisson
1
Définition . . . . . . . . . . . . . . . . . .
2
Quelques propriétés . . . . . . . . . . . . .
3
Processus de Poisson inhomogène . . . . .
4
Simulation des processus de Poisson . . . .
4.1
Le processus de Poisson homogène
4.2
Le processus de Poisson général . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
25
25
27
27
28
28
29
29
.
.
.
.
.
.
31
31
32
33
33
33
33
Téléchargement