Chaînes de Markov

publicité
1
Cahier de Mathématiques Appliquées no 11
Chaînes de Markov
B. Ycart
Un modèle d’évolution dynamique en temps discret dans lequel on fait dépendre l’évolution future de l’état présent et du hasard est une chaîne de
Markov. On en rencontre dans de nombreux domaines d’applications, des
sciences de la vie à l’informatique. Ces notes traitent surtout les chaînes à
espaces d’états finis, et mettent l’accent sur le traitement algébrique à partir
des matrices de transition. Le matériel présenté reste à un niveau élémentaire, et se trouve dans la plupart des références classiques, comme les livres
suivants.
N. Bouleau Processus stochastiques et applications.
Hermann, Paris, 1988.
W. Feller Introduction to probability theory and its applications, Vol. 1.
Wiley, London, 1968.
J.G. Kemeny, L. Snell Finite Markov chains.
Van Nostrand, Princeton, 1960.
Ce “cahier de mathématiques appliquées” doit beaucoup aux relectures
scrupuleuses de Romain Abraham, au dynamisme de Sylvie Sevestre-Ghalila,
au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des études
Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur du
Centre des Publications Universitaires de la Tunisie.
2
Cahier de Mathématiques Appliquées no 11
Table des matières
1 Modèles markoviens
1.1 Définition algorithmique . . . . . .
1.2 Espace d’états fini ou dénombrable
1.3 Informatique . . . . . . . . . . . .
1.4 Génétique . . . . . . . . . . . . . .
1.5 Planification économique . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
5
9
11
13
2 Traitement mathématique
2.1 Formules récurrentes . . . . .
2.2 Classification des états . . . .
2.3 Mesures stationnaires . . . .
2.4 Comportement asymptotique
2.5 Mesures réversibles . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
19
24
29
32
3 Modèles sur IN
3.1 Le problème de la ruine du joueur . . . . . . . . . . . . . . .
3.2 Un modèle simple de file d’attente . . . . . . . . . . . . . . .
3.3 Le problème de l’extinction du nom . . . . . . . . . . . . . .
36
36
40
44
4 Exercices
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
Chaînes de Markov
1
Modèles markoviens
1.1
Définition algorithmique
Une chaîne de Markov est classiquement définie comme une suite de variables aléatoires pour laquelle la meilleure prédiction que l’on puisse faire
pour l’étape n + 1 si on connaît toutes les valeurs antérieures est la même
que si on ne connaît que la valeur à l’étape n (le futur et le passé sont indépendants conditionnellement au présent). Nous partons ici d’une définition
moins classique, mais plus proche des applications.
Définition 1.1 Soit E un espace mesurable. Une chaîne de Markov sur E
est une suite de variables aléatoires (Xn ) , n ∈ IN à valeurs dans E telle qu’il
existe :
1. une suite (Un ) , n ∈ IN de variables aléatoires indépendantes et de même
loi, à valeurs dans un espace probabilisé U ,
2. une application mesurable Φ de IN × E × U dans E vérifiant :
∀n ∈ IN ,
Xn+1 = Φ(n, Xn , Un ) .
On distingue plusieurs cas particuliers.
• Si l’application Φ ne dépend pas de n, la chaîne est dite homogène.
• Si l’application Φ ne dépend pas de x, la chaîne est une suite de variables indépendantes. Si Φ ne dépend ni de n ni de x, ces variables
indépendantes sont de plus identiquement distribuées.
• Si l’application Φ ne dépend pas de u, Φ définit un système itératif.
La chaîne est une suite récurrente (déterministe si sa valeur initiale est
déterministe).
Toutes les chaînes de Markov que nous considérons ici sont homogènes. On
peut toujours passer du cas non homogène au cas homogène en remplaçant
Xn par le couple (n, Xn ).
C’est évidemment aux appels d’un générateur pseudo-aléatoire qu’il faut
penser pour la suite (Un ) de la définition 1.1. Nous désignons par Random
un générateur pseudo-aléatoire, qui “retourne des réels au hasard entre 0 et
1”. En d’autres termes, nous supposons que tout vecteur constitué d’appels
successifs de Random est une réalisation d’un vecteur de variables aléatoires
indépendantes et de même loi, uniforme sur l’intervalle [0, 1].
En pratique une chaîne de Markov est simulée de manière itérative comme
le dit la définition 1.1. Une initialisation dans E est d’abord choisie (aléatoire
ou non). Puis chaque nouveau pas est simulé selon une loi de probabilité
dépendant du point atteint précédemment. Cette simulation utilise un ou
plusieurs appels de Random successifs, qui constituent la variable Un .
Cahier de Mathématiques Appliquées no 11
4
En toute rigueur, les chaînes de Markov au sens de la définition 1.1 devraient s’appeler “chaînes de Markov simulables”. Elles vérifient la propriété
suivante, dite “propriété de Markov”.
Proposition 1.2 Soit (Xn ), n ∈ IN une chaîne de Markov.
Pour tout n ≥ 0 et pour toute suite d’états i0 , . . . , in ∈ E, la loi conditionnelle
de Xn+1 sachant “X0 = i0 , . . . , Xn = in ” est égale à la loi conditionnelle de
Xn+1 sachant “Xn = in ”.
Démonstration : Notons IP la loi de probabilité conjointe de X0 et de la suite
(Un ). D’après la définition 1.1, Un est indépendante de X0 , . . . , Xn . Pour tout
sous ensemble mesurable B de E, on a :
IP[Xn+1 ∈ B | X0 = i0 , . . . , Xn = in ]
= IP[Φ(Xn , Un ) ∈ B | X0 = i0 , . . . , Xn = in ]
= IP[Φ(in , Un ) ∈ B]
= IP[Xn+1 ∈ B | Xn = in ] .
Cette propriété d’“oubli du passé” constitue la définition classique des chaînes
de Markov. Il est naturel de se demander s’il existe des chaînes de Markov,
au sens de la proposition 1.2, qui ne soient pas simulables. Il n’en existe pas
si E est dénombrable, ou si E est IRd , muni de sa tribu de boréliens. On n’en
rencontrera donc jamais en pratique.
Exemple : Marches aléatoires.
Soit (Un ), n ∈ IN une suite de variables aléatoires indépendantes et de même
loi sur IRd . La suite de variables aléatoires (Xn ), n ∈ IN définie par X0 ∈ IRd
et :
∀n ,
Xn+1 = Xn + Un ,
est une chaîne de Markov. Comme cas particulier, si Un suit la loi normale
Nd (0, hId ), on obtient une discrétisation du mouvement brownien standard
sur IRd (figure 1).
Plus généralement, soit (G, ∗) un groupe topologique quelconque, muni de
sa tribu des boréliens. Soit π une loi de probabilité sur G, et (Un ) une suite
de variables aléatoires de même loi π sur G. La suite de variables aléatoires
définie par X0 ∈ G et pour tout n ≥ 0 :
Xn+1 = Xn ∗ Un ,
est une chaîne de Markov sur G, dite “marche aléatoire de pas π”. Les marches
aléatoires sur les groupes constituent un cas particulier important des chaînes
de Markov.
5
Chaînes de Markov
Brownien standard dans le plan
10
5
.
0
-5
-10
-10
-5
0
5
10
Figure 1 – Mouvement brownien standard dans le plan : trajectoire jusqu’en
t = 10.
1.2
Espace d’états fini ou dénombrable
Lorsque E = {i, j, . . .} est un ensemble fini ou dénombrable, la loi de
la variable aléatoire Φ(n, i, Un ) (définition 1.1) avec laquelle on tire le pas
n+1 à partir du pas n, est habituellement notée sous forme matricielle. Si la
chaîne est homogène, cette loi ne dépend pas de n. Dans ce cas, on note pij
la probabilité de choisir l’état j à partir de l’état i :
pij = IP[Φ(i, Un ) = j] = IP[Xn+1 = j | Xn = i] ,
∀i, j ∈ E .
Dans la relation ci-dessus, IP désigne encore la loi conjointe de X0 et de la
suite (Un ). La probabilité pij porte le nom de “probabilité de transition de i
à j”. La matrice :
P = (pij )i,j∈E ,
est la matrice de transition de la chaîne. Dans ce qui suit, la définition usuelle
des matrices est étendue au cas dénombrable, les vecteurs indicés par E sont
des vecteurs colonnes. La matrice de transition a des coefficients positifs ou
nuls, et la somme des éléments d’une même ligne vaut 1. Comme nous le verrons dans les exemples des paragraphes suivants, il arrive fréquemment dans
les applications que pour un état i donné, le nombre d’états j directement
accessibles depuis i (tels que pij > 0) soit faible. La matrice de transition est
alors très creuse (elle contient beaucoup de zéros). Il est plus économique de
résumer les probabilités de transitions par le diagramme de transition. C’est
un graphe orienté et pondéré, dont l’ensemble des sommets est E. Une arête
Cahier de Mathématiques Appliquées no 11
6
de poids pij va de i à j si pij > 0 (voir par exemple les figures 3, section 2.2
et 4, section 2.4).
Exemple : Marche aléatoire symétrique sur un graphe.
Supposons E muni d’une structure de graphe non orienté G = (E, A), où A
Marche symetrique dans le plan
20
10
.
0
-10
-20
-20
-10
0
10
20
Figure 2 – Marche aléatoire symétrique dans le plan : 200 pas, partant de
l’origine.
désigne l’ensemble des arêtes :
n
o
A ⊂ {i, j} , i, j ∈ E .
Les sommets j tels que {i, j} ∈ A sont les voisins de i, et on suppose que leur
nombre (le degré de i) est borné : on note r le degré maximal.
o
n
r = sup {j ∈ E : {i, j} ∈ A} ,
i∈E
où | · | désigne le cardinal d’un ensemble fini. Définissons la matrice de transition P = (pij ) par :
1
pij = si {i, j} ∈ A ,
r
= 0 si {i, j} ∈
/A,
les coefficients diagonaux étant tels que la somme des éléments d’une même
ligne vaut 1. La chaîne de Markov de matrice de transition P s’appelle marche
aléatoire symétrique sur le graphe G. Considérons par exemple E = ZZd , muni
7
Chaînes de Markov
de sa structure de réseau habituelle :
n
o
A = {i, j} ∈ (ZZd )2 , ki − jk = 1 ,
où k · k désigne la norme euclidienne. La marche aléatoire symétrique sur ce
graphe (figure 2) est aussi une marche aléatoire sur le groupe (ZZd , +), dont
le pas est la loi uniforme sur l’ensemble des 2d vecteurs de ZZd de norme 1.
Il existe une analogie étroite entre les chaînes de Markov symétriques et les
réseaux électriques. Les états de E sont vus comme les sommets d’un réseau,
reliés par des lignes électriques. L’analogue de la probabilité de transition pij
est la conductance (inverse de la résistance) de la ligne reliant i à j.
L’algorithme de simulation d’une chaîne de Markov homogène de matrice
de transition P est le suivant.
n ←− 0
Initialiser X
Répéter
i ←− X
(état présent)
choisir j avec probabilité pij
X ←− j
(état suivant)
n ←− n+1
Jusqu’à (arrêt de la simulation)
L’algorithme ci-dessus correspond bien à la définition 1.1, dans la mesure où
les choix successifs sont effectués à l’aide d’appels de Random renouvelés à
chaque itération (considérés comme indépendants des précédents). Supposons
par exemple que la loi (pij )j∈E soit simulée par inversion. Notons :
• Un le n-ième appel de Random.
• Φ l’application de E × [0, 1] dans E qui au couple (i, u) associe l’inverse
de la fonction de répartition de la loi (pij )j∈E , évalué en u.
L’algorithme calcule bien Xn+1 = Φ(Xn , Un ).
Ceci a une portée plutôt théorique. Il ne faut pas en déduire que c’est forcément par inversion que l’on doit simuler la loi (pij )j∈E . Dans certains cas un
autre type de simulation (par exemple par rejet ou décomposition) pourra
s’avérer plus efficace.
Exemple : Voici une matrice de transition sur E = {a, b, c, d, e}.
a b c d e
a 0.2 0.2 0.2 0.2 0.2
b 0 0.2 0.3 0 0.5
P =
c 0.3 0.3 0 0.4 0
d 0 0.3 0.3 0.3 0.1
e 0
1
0
0
0
Cahier de Mathématiques Appliquées no 11
8
L’algorithme ci-après simule une chaîne de Markov de matrice de transition
P . Il n’est pas optimal mais il illustre quelques méthodes standard. Dans le
logiciel Scilab, la fonction grand(n,’markov’,P,x0) retourne une réalisation
des n premiers pas d’une chaîne de Markov de matrice de transition P, partant
de l’état initial x0.
Tableau E = [a, b, c, d, e]
n ←− 0
Initialiser X
Répéter
i ←− X
(état présent)
Selon i
i = a : j ←− E[Random({1, . . . , 5})]
i = b : Choix ←− Random
Si (Choix < 0.5) alors j ←− e
sinon Si (Choix < 0.8) alors j ←− c
sinon j ←− b
finSi
finSi
i = c : Choix ←− Random
Si (Choix < 0.4) alors j ←− d
sinon j ←− E[Random({1, 2})]
finSi
i = d : Répéter
Test ←− Vrai
j ←− E[Random({2, . . . , 5})]
Si j = e alors
Si (Random > 1/3) alors
Test ←− Faux
finSi
finSi
Jusqu’à (Test=Vrai)
i = e : j ←− b
finSelon
X ←− j
(état suivant)
n ←− n+1
Jusqu’à (arrêt de la simulation)
La loi d’une chaîne de Markov (Xn ) est entièrement déterminée par la
donnée de la loi de X0 et de la matrice de transition P , au sens où pour tout
n, la loi conjointe de (X0 , . . . , Xn ) s’exprime en fonction de la loi de X0 et
de P .
Chaînes de Markov
9
Proposition 1.3 Soit (Xn ) une chaîne de Markov homogène de matrice de
transition P . Pour toute suite d’états i0 , i1 , . . . , in de E, on a :
IP[X0 = i0 et . . . et Xn = in ] = IP[X0 = i0 ] pi0 i1 . . . pin−1 in .
Démonstration : La formule est vraie pour n = 0. Supposons-la vraie pour n.
Si
IP[X0 = i0 et . . . et Xn = in ] = 0 ,
alors pour tout in+1 ,
IP[X0 = i0 et . . . et Xn+1 = in+1 ] = 0 .
Sinon, on peut conditionner par “X0 = i0 et . . . et Xn = in ” :
IP[X0 = i0 et . . . et Xn+1 = in+1 ]
= IP[Xn+1 = in+1 | X0 = i0 et . . . et Xn = in ]IP[X0 = i0 et . . . et Xn = in ]
= IP[Xn+1 = in+1 | Xn = in ]IP[X0 = i0 et . . . et Xn = in ]
= pin in+1 IP[X0 = i0 et . . . et Xn = in ] .
Le résultat est donc vrai à l’ordre n + 1.
Dans les paragraphes suivants, nous décrivons des exemples de chaînes de
Markov, intervenant dans différents types d’applications.
1.3
Informatique
Tout algorithme itératif faisant intervenir une source de nombres aléatoires simule en fait une chaîne de Markov. Il n’est donc pas étonnant que les
applications des chaînes de Markov en algorithmique soient nombreuses. Le
premier exemple que nous donnerons concerne la recherche de préfixes dans
un fichier binaire.
On recherche un mot binaire donné dans un fichier. Quel sera le coût de
l’algorithme ? En algorithmique, on donne en général deux réponses à ce type
de question : le cas le pire, et le cas le plus favorable. Ici les deux réponses sont
triviales : au mieux on trouvera le mot cherché immédiatement, au pire, on ne
le trouvera qu’à la fin du fichier. Comme dans de nombreux autres cas, une
analyse probabiliste donne une réponse plus intéressante, car plus proche des
situations rencontrées en pratique. L’analyse probabiliste d’un algorithme
consiste à supposer que l’entrée est aléatoire, et à déterminer la loi de la
variable égale au coût de l’algorithme pour cette entrée. Ici, supposons que
les bits du fichier soient des variables aléatoires de même loi, uniforme sur
{0, 1}. On peut reformuler le problème en termes du jeu de pile ou face. Si on
joue à pile ou face avec une pièce équilibrée, jusqu’à ce qu’apparaisse un mot
donné de l’alphabet {P, F }, combien devra-t-on attendre ? Si deux joueurs
10
Cahier de Mathématiques Appliquées no 11
jouent chacun deux mots différents, jusqu’à ce que le premier des deux mots
apparaisse, combien de temps le jeu durera-t-il ? Quelle est la probabilité de
gain de chacun des deux joueurs ? On répond à ces questions en étudiant des
chaînes de Markov.
Soit (Un ) la suite des tirages (indépendants de loi uniforme sur {0, 1}). Soit
A = (ai )1≤i≤l le mot binaire cherché, de longueur l. Pour tout k = 1, . . . , l,
on note Ak le mot A tronqué à ses k premières lettres :
∀k = 1, . . . , l ,
Ak = (ai )1≤i≤k .
Pour tout entier n on définit la variable aléatoire Xn , à valeurs dans {0, . . . , l}
comme le nombre de bits parmi les derniers tirages jusqu’au n-ième qui coïncident avec le début de A.
Xn = 0
si n = 0 ou ∀k = 1, . . . , l (Un−k+1 , . . . , Un ) 6= Ak
Xn = k ∈ {1 . . . , l−1} si (Un−k+1 , . . . , Un ) = Ak
et (Un−k−i , . . . , Un ) 6= Ak+i+1 , ∀i = 0, . . . , l−k−1
Xn = l
si (Un−l+1 , . . . , Un ) = Al = A .
Un vérifie facilement que (Xn ) est une chaîne de Markov. L’expression des
probabilités de transition pij dépend du mot A (cf. exercice 5). Le temps
d’atteinte du mot cherché est le premier indice n tel que Xn = l. Sa loi
dépend également du mot A.
Les chaînes de Markov interviennent aussi dans la modélisation du fonctionnement des réseaux informatiques. Notre second exemple est un modèle
simple de ressources partagées. Considérons un réseau constitué d’unités, représentées par les sommets d’un graphe, qui partagent des ressources, représentées par des arêtes. Une unité ne peut fonctionner que si les unités voisines,
avec lesquelles elle partage des ressources, ne fonctionnent pas. Comment faire
en sorte que les temps de fonctionnement soient également répartis entre les
unités ? Une des réponses possibles consiste à définir la suite des configurations de fonctionnement comme une chaîne de Markov.
Notons S l’ensemble des sommets (unités) et B l’ensemble des arêtes
(ressources). Nous identifierons une configuration possible à l’ensemble des
unités qui fonctionnent dans cette configuration. Si une unité appartient à
un tel ensemble, aucune de ses voisines sur le graphe ne peut y appartenir.
En théorie des graphes, un sous-ensemble de sommets qui ne contient pas
deux sommets voisins s’appelle un stable. L’ensemble E des états de notre
modèle est donc l’ensemble des stables du graphe (S, B). Une configuration
initiale étant donnée, l’évolution de la chaîne se fait comme suit. A chaque
étape on choisit une unité au hasard. Si elle fonctionne, on la met au repos.
Sinon, et si toutes ses voisines sont au repos, on la met en fonctionnement.
Remarquons qu’à partir d’une configuration donnée, on ne peut atteindre
qu’une configuration différant de la première par une coordonnée au plus.
Chaînes de Markov
11
Chaque ligne de la matrice de transition comporte donc au plus |S| termes
non nuls. Voici l’algorithme, écrit en termes d’ensembles stables.
R ←− ∅
t ←− 0
Répéter
choisir x au hasard dans S
Si (x ∈ R)
alors R ←− R \ {x}
sinon
Si (∀y ∈ R , {x, y} ∈
/ B)
alors R ←− R ∪ {x}
finSi
finSi
t ←− t + 1
Jusqu’à (arrêt de la simulation)
L’ensemble des stables E est un sous-ensemble de l’ensemble E ′ de tous les
sous-ensembles de S. E ′ est naturellement muni d’une structure de graphe
(hypercube), pour laquelle deux sous-ensembles sont voisins s’ils diffèrent en
un seul élément. L’algorithme ci-dessus simule la marche aléatoire symétrique
sur cet hypercube (à chaque pas on choisit un élément de S au hasard, on le
rajoute à l’ensemble courant s’il n’y était pas, on le retranche sinon). Pour
obtenir une marche aléatoire symétrique sur l’ensemble des stables, il suffit
d’imposer la contrainte que l’on ne peut rajouter un élément x à R que si
R ∪ {x} est encore stable.
1.4
Génétique
La transmission des patrimoines génétiques au cours des générations successives est un exemple standard de chaîne de Markov : le génotype de chaque
individu ne dépend de ceux de ses ancêtres qu’à travers ses parents.
Le premier modèle de génétique qui ait été introduit est extrêmement
rudimentaire. Il s’agit de suivre la répartition d’un gène particulier, noté g,
au cours de générations successives, dans une population dont la taille reste
fixée. Les individus sont supposés n’avoir qu’un seul chromosome, porteur ou
non du gène g. Ce chromosome provient d’un parent unique, choisi au hasard
dans la génération précédente. Tout se passe comme si les chromosomes de
la génération n constituaient un pool de taille N , dans lequel les N chromosomes de la génération n + 1 sont tirés au hasard avec remise. Le nombre de
chromosomes porteurs du gène g est noté Xn . La suite (Xn ) constitue une
chaîne de Markov. Les hypothèses de modélisation conduisent à dire que la
loi conditionnelle de Xn+1 sachant “Xn = i” est la loi binomiale de paramètres N et i/N . Remarquons que si Xn = 0 ou Xn = N , alors la chaîne est
constante à partir de la génération n : on dit que ces états sont “absorbants”
(cf. section 2.4). Pour tout i, j = 0, . . . , N , la probabilité de transition de i à
Cahier de Mathématiques Appliquées no 11
12
j s’écrit donc :
pij =
i N −j
N
i j
1−
.
j
N
N
Bien évidemment, les hypothèses de ce modèle sont beaucoup trop restrictives pour être applicables aux populations humaines. D’autres modèles
ont été introduits, comme le modèle de Moran. Il considère des générations
successives, sans intersections, pour lesquelles le nombre de mâles est fixé à
N1 et le nombre de femelles à N2 . Le gène d’intérêt est g. Pour chaque individu, il peut apparaître sur un chromosome paternel, ou sur le chromosome
maternel de la même paire. L’état de la population à la n-ième génération
est décrit par un vecteur à 6 coordonnées entières :
s = (m0 , m1 , m2 , f0 , f1 , f2 ) .
Dans ce vecteur, pour k = 0, 1, 2, mk (respectivement fk ) est le nombre
de mâles (respectivement de femelles) ayant k copies du gène g dans leur
génotype. Evidemment, quelle que soit la génération n on a :
m0 + m 1 + m2 = N1
et f0 + f1 + f2 = N2 .
(1.1)
L’espace d’états du modèle est donc le sous-ensemble E de IN6 des i =
(m0 , m1 , m2 , f0 , f1 , f2 ) vérifiant (1.1). On souhaite définir une chaîne de Markov homogène (Xn ) sur E. On doit donc définir les probabilités de transition
pij . Soit i = (m0 , m1 , m2 , f0 , f1 , f2 ) un état fixé et supposons-le atteint à la
génération n : Xn = i. Les probabilités des différents états possibles à la
génération n+1 dépendent tout d’abord des fréquences d’apparition du gène
g parmi les mâles et les femelles de la génération n. Ces proportions sont
notées respectivement x(m) et x(f ) .
x(m) =
m1 + 2m2
2N1
et x(f ) =
f1 + 2f2
.
2N2
(1.2)
Pour constituer la génération suivante, on suppose que les gamètes mâles
et femelles sont appariés au hasard, selon le schéma dit “multinomial”. En
d’autres termes, chacun des N1 mâles et chacune des N2 femelles de la génération n+1 choisit au hasard un gène paternel parmi les 2N1 présents à la
génération n, et un gène maternel parmi les 2N2 possibles. A la conception,
les probabilités pour un individu de la génération n+1 d’avoir 0, 1 ou 2 copies
(0)
(0)
(0)
du gène g sont notées P0 , P1 et P2 respectivement. Si les proportions
du gène g parmi les mâles et les femelles de la génération n sont x(m) et x(f ) ,
le schéma multinomial implique :
(0)
P0 = (1 − x(m) )(1 − x(f ) ) ,
(0)
P1 = x(m) (1 − x(f ) ) + (1 − x(m) )x(f ) ,
(0)
P2 = x(m) x(f ) .
(1.3)
13
Chaînes de Markov
Cependant, du fait de la sélection, on doit pondérer ces probabilités par des
(m)
(f )
(m)
“facteurs de viabilité” wk et wk . Pour k = 0, 1, 2, wk (respectivement
(f )
wk ) mesure la possibilité pour un mâle (respectivement une femelle) avec k
copies du gène g dans son génotype de transmettre ses gènes à la génération
(m)
(f )
suivante. Notons Pk (respectivement Pk ) les probabilités pour les mâles
(respectivement les femelles) d’atteindre l’âge de reproduction avec k copies
(0)
du gène g. Si les probabilités à la conception sont les Pk de la formule (1.3),
alors les probabilités à l’âge de reproduction seront, pour k = 0, 1, 2 :
(m)
Pk
(f )
Pk
(m)
=
=
(0)
w k Pk
(m)
w0
(0)
P0
(m)
+ w1
(0)
P1
(f )
(0)
(f )
(0)
(m)
+ w2
(0)
P2
w k Pk
(f )
(0)
w 0 P0
+ w 1 P1
(f )
(0)
+ w 2 P2
,
(1.4)
·
Après sélection les génotypes des N1 mâles et des N2 femelles sont suppo(m)
(f )
sés choisis indépendamment avec les probabilités Pk et Pk . En d’autres
termes, les lois de probabilité des vecteurs (m0 , m1 , m2 ) et (f0 , f1 , f2 ) sont
multinomiales, de paramètres respectifs :
(m)
(N1 , P0
(m)
, P1
(m)
, P2
(f )
(f )
(f )
) et (N2 , P0 , P1 , P2 ) ,
et ces vecteurs sont indépendants.
On peut maintenant décrire explicitement les probabilités de transition
pij de la chaîne de Markov homogène sur E.
Si i = (m0 , m1 , m2 , f0 , f1 , f2 ) et j = (m′0 , m′1 , m′2 , f0′ , f1′ , f2′ ) sont deux éléments de E, alors la probabilité de transition pij de i vers j est :
m′2
m′1 m′0 N1 !
(m)
(m)
(m)
P
P
P
×
2
1
0
m′0 !m′1 !m′2 !
′
′
′
N2 ! (f ) f0 (f ) f1 (f ) f2
P
,
P
P
2
1
f0′ !f1′ !f2′ ! 0
(m)
(m)
(f )
(1.5)
(f )
où pour k = 0, 1, 2, les probabilités Pk = Pk (i) et Pk = Pk (i) sont
déduites de i = (m0 , m1 , m2 , f0 , f1 , f2 ) par les formules (1.2), (1.3) et (1.4).
1.5
Planification économique
Un des objectifs de l’utilisation de modèles probabilistes dans les applications est la prédiction en environnement incertain. Etant donnée l’information
disponible à un instant donné, que peut on prédire pour ce qui va suivre ?
Dire d’une suite de décisions qu’elle est une suite de variables aléatoires indépendantes revient à dire que l’information apportée par chaque réalisation
n’est pas prise en compte par la suite. Les chaînes de Markov, parce qu’elles
Cahier de Mathématiques Appliquées no 11
14
modélisent la prise en compte de l’information présente pour les décisions futures, sont l’outil le plus simple pour la planification économique. Nous nous
contenterons d’illustrer ceci par un modèle de gestion de stock.
On considère un magasin proposant à la vente un article particulier. Les
commandes au fournisseur s’effectuent à la semaine. Les nombres d’articles
demandés chaque semaine sont vus comme des réalisations de variables aléatoires indépendantes et de même loi. Cette loi peut être estimée statistiquement et elle est supposée connue. Pour une semaine donnée, on note pk la
probabilité que k articles soient demandés, et rk = 1 − p0 − · · · − pk la probabilité que plus de k articles soient demandés. Le stock maximum d’articles
en magasin est de S. A la fin de chaque semaine, le responsable du stock
décide :
• de ne pas commander de nouveaux articles s’il lui en reste au moins s
en stock,
• de reconstituer le stock maximum de S articles s’il lui en reste strictement moins de s.
Notons Xn le nombre d’articles restant en stock à la fin de la n-ième semaine.
Sous les hypothèses ci-dessus, la suite (Xn ) est une chaîne de Markov, à
valeurs dans l’espace d’états {0, . . . , S}. Voici sa matrice de transition pour
le cas particulier s = 3, S = 7.
0
0 r6
1 r6
2 r6
3 r2
4 r3
5 r4
6 r5
7 r6
1
p6
p6
p6
p2
p3
p4
p5
p6
2
p5
p5
p5
p1
p2
p3
p4
p5
3
p4
p4
p4
p0
p1
p2
p3
p4
4
p3
p3
p3
0
p0
p1
p2
p3
5
p2
p2
p2
0
0
p0
p1
p2
6
p1
p1
p1
0
0
0
p0
p1
7
p0
p0
p0
0
0
0
0
p0
Connaissant les probabilités de vente, les coûts de stockage et les bénéfices de
vente, l’étude de la chaîne de Markov permettra au gestionnaire de prévoir
son bénéfice moyen par semaine et, par exemple, d’optimiser s.
2
2.1
Traitement mathématique
Formules récurrentes
Dans ce paragraphe, nous donnons les techniques de calcul pour un certain nombre de quantités liées aux transitions d’une chaîne de Markov sur un
ensemble fini ou dénombrable. Ces calculs se font par des algorithmes itératifs, que nous présentons comme des formules récurrentes. On peut aussi les
présenter sous forme matricielle. La forme matricielle, si elle est en général
15
Chaînes de Markov
beaucoup plus compacte, n’est d’aucune utilité pratique, dans la mesure où
elle ne fait que traduire un algorithme de calcul itératif. Plutôt que de retenir des formules matricielles, il est conseillé d’apprendre à voir une chaîne
de Markov comme un système dynamique aléatoire : c’est un promeneur qui
saute d’état en état, et décide du prochain saut en fonction uniquement de
l’état où il se trouve, en oubliant le chemin suivi pour en arriver là.
Nous commençons par les “probabilités de transition en m pas”.
Définition 2.1 On appelle probabilité de transition de i à j en m pas la
(m)
probabilité, notée pij :
(m)
pij
= IP[Xm = j | X0 = i] = IP[Xn+m = j | Xn = i] .
(m)
Nous dirons aussi que pij
est la probabilité d’aller de i à j en m pas. Dans la
(m)
pij ,
on peut comprendre la notation IP[Xm = j | X0 = i] soit
définition de
comme une probabilité conditionnelle, soit comme une probabilité relative à
la loi de la suite (Un ), quand l’initialisation est fixée à X0 = i.
Proposition 2.2 La matrice des probabilité de transition en m pas est la
puissance m-ième de la matrice P :
(m)
pij
= Pm .
i,j∈E
(1)
Démonstration : Pour n = 1, on a par définition pij = pij . Il nous suffit donc
de montrer que pour tout n > 1 :
(m−1)
(m)
P .
= pij
pij
i,j∈E
i,j∈E
Ecrivons pour cela :
(m)
pij
= IP[Xm = j | X0 = i]
X
=
IP[Xm = j | Xm−1 = k et X0 = i]IP[Xm−1 = k | X0 = i]
k∈E
=
X
IP[Xm = j | Xm−1 = k]IP[Xm−1 = k | X0 = i]
X
pik
k∈E
=
(m−1)
pkj .
k∈E
Plus que la formule matricielle, c’est l’interprétation de la formule itérative
qu’elle traduit qui est importante. Par exemple, la formule matricielle P m =
P l P m−l se développe comme suit. Pout tout i, j ∈ E :
X (l) (m−l)
(m)
pij =
pik pkj
.
(2.1)
k∈E
Cahier de Mathématiques Appliquées no 11
16
Cette formule porte le nom de Chapman-Kolmogorov. Il faut la lire comme
suit : “aller de i à j en m pas, c’est aller de i à un certain k en l pas, puis
de k à j en m−l pas”.
Passons maintenant aux lois marginales des Xn . Rappelons que les vecteurs indicés par E sont des vecteurs colonnes.
Proposition 2.3 Notons p(m) la loi de Xm :
p(m) = (pi (m))i∈E = (IP[Xm = i])i∈E .
On a, pour tout m ≥ 1 :
p(m) = tP p(m−1) = tP m p(0) .
On peut donc voir l’évolution en loi de la suite (Xn ) comme un système itératif linéaire dont tP est la matrice d’évolution. La démonstration de cette proposition, comme des autres résultats de cette section, est assez élémentaire,
en utilisant la formule des probabilités totales. Nous donnons simplement les
formes développées, suivies de leur interprétation.
X
pi (m) =
pk (m−1) pki .
(2.2)
k∈E
“Pour être en i au m-ième pas, il faut être en k au (m − 1)-ième pas, puis
passer de k à i en un pas.”
X
(m)
pi (m) =
pk (0) pki .
(2.3)
k∈E
“Pour être en i au m-ième pas, il faut, partant de k, passer de k à i en m
pas.”
Nous définissons maintenant les probabilités de premier passage.
Définition 2.4 On appelle probabilité de premier passage de i à j en m pas
(m)
et on note fij la quantité :
(m)
fij
= IP[Xm = j et Xm−1 6= j . . . et X1 6= j | X0 = i] .
(1)
(1)
On a bien sûr fij = pij = pij . Nous ne donnerons pas d’expression ma(m)
tricielle pour les fij . Nous nous contenterons de deux formules itératives,
suivies de leur interprétation.
X
(m)
(m−1)
fij =
pik fkj
.
(2.4)
k6=j
17
Chaînes de Markov
“Pour arriver en j pour la première fois en m pas partant de i, il faut aller
de i à k 6= j au premier pas, puis aller de k à j pour la première fois en m−1
pas.”
m−1
X (l) (m−l)
(m)
(m)
fij pjj
.
(2.5)
pij = fij +
l=1
“Pour aller de i à j en m pas, il faut soit y arriver pour la première fois,
soit y être arrivé pour la première fois en l pas, puis y être revenu au bout
de m−l pas.”
(m)
A priori, pour i et j fixés, les probabilités fij correspondent à des événements disjoints. Leur somme, que l’on notera fij , est la probabilité d’atteindre
j en partant de i. Ces probabilités vérifient :
X
fij = pij +
pik fkj .
(2.6)
k6=j
“Pour arriver en j en partant de i, il faut soit y aller au premier pas, soit
aller en k 6= j, puis aller de k à j.”
Il peut se faire que fij soit strictement inférieure à 1. Dans le cas où elle
est égale à 1, le nombre de pas nécessaires pour atteindre j en partant de i
est une variable aléatoire à valeurs dans IN∗ . Son espérance est la somme :
∞
X
(m)
m fij
.
m=1
Cette somme peut être infinie. C’est le temps moyen de premier passage de i
à j. Il sera noté eij . On étend sa définition à tous les couples (i, j) ∈ E × E
en posant eij = ∞ si fij < 1.
Proposition 2.5 Pour tout i, j ∈ E, on a :
X
eij = 1 +
pik ekj .
(2.7)
k6=j
L’interprétation de (2.7) est : “pour aller de i à j, il faut effectuer un premier
saut, puis, si ce saut amène en k 6= j, aller de k à j.”
Démonstration : Nous écrivons les formules suivantes sous réserve de convergence des séries.
eij =
=
∞
X
m=1
∞
X
(m)
m fij
∞
X
M =1 m=M
(m)
fij
.
Cahier de Mathématiques Appliquées no 11
18
Or d’après (2.4) :
∞
X
(m)
fij
=
m=M
X
∞
X
pik
(m)
fkj .
m=M −1
k6=j
On en déduit :
∞
X
∞
X
(m)
fij
=
M =2 m=M
X
pik
eij −
∞
X
(m)
=
m=1
fij
∞
X
(m)
fkj ,
M =1 m=M
k6=j
soit :
∞
X
X
pik ekj
k6=j
P∞
(m)
Dans le cas où eij est fini, la somme m=1 fij vaut 1, ce qui entraîne (2.7).
Si eij est infini, deux cas sont possibles. Soit fij < 1, alors au moins un des k
tels que pik > 0 est tel que fkj < 1, et donc les deux membres de (2.7) sont
infinis. Si fij = 1, alors pour tous les états k tels que pik > 0, on a fkj = 1.
Mais nécessairement pour au moins un d’entre eux, on a ekj = ∞.
Exemple : Chaîne à deux états.
Sur ce cas particulier, nous mettons en relief des caractéristiques qui restent
vraies pour un nombre fini quelconque d’états.
Considérons sur E = {0, 1} la matrice de transition P suivante :
1−α α
,
P =
β 1−β
où α et β sont deux réels dans l’intervalle [0, 1]. Nous écarterons les deux
cas particuliers où la chaîne est déterministe : α = β = 0 et α = β = 1. La
matrice P admet pour valeurs propres 1 et (1−α−β), dont la valeur absolue
est strictement inférieure à 1. La matrice P m des probabilités de transition
en m pas s’écrit :
(1−α−β)m
1
βα
α −α
m
+
P =
−β β
α+β β α
α+β
Quand m tend vers l’infini, P m converge vers une matrice dont les deux lignes
sont égales. Chacune des deux lignes est une loi de probabilité, c’est aussi un
vecteur propre de tP associé à la valeur propre 1.
Les probabilités de premier passage sont les suivantes, pour m ≥ 2 :
(m)
(m)
f00 = αβ(1 − β)m−2 , f01 = α(1 − α)m−1 ,
(m)
(m)
f10 = β(1 − β)m−1 , f11 = αβ(1 − α)m−2 .
(m)
(m)
Les expressions de f01 et f10 donnent les lois des temps de séjour en 0 et
1 respectivement. Ce sont des lois géométriques. Voici les temps moyens de
19
Chaînes de Markov
premier passage, si α et β sont strictement positifs :
e00 = 1 +
2.2
1
1
β
α
, e01 = , e10 = , e11 = 1 + ,
β
α
β
α
Classification des états
Les états d’une chaîne de Markov se classifient en fonction de la possibilité
qu’a la chaîne d’atteindre les uns à partir des autres.
Définition 2.6 Soient i et j deux états de E. On dit que j est accessible
depuis i si et seulement si il existe un entier m ∈ IN∗ et une suite d’états
k0 = i, k1 , . . . , km = j tels que pik1 pk1 k2 . . . pkm−1 j > 0.
En d’autres termes, j est accessible depuis i si il existe un chemin dans le
diagramme de transition, partant de i et arrivant en j. Ceci se traduit également en termes des probabilités de transition en m pas et des probabilités
de premier passage.
Proposition 2.7 L’état j est accessible depuis i si et seulement si il existe
(m)
(m)
m tel que pij > 0, ou encore tel que fij > 0.
(m)
Démonstration : On sait que pij est le coefficient d’ordre i, j de la matrice
P m . Son expression développée est :
X
(m)
pij =
pik1 pk1 k2 . . . pkm−1 j .
k1 ,...,km−1 ∈E
Cette somme de termes positifs ou nuls est strictement positive si et seulement
si un de ses termes au moins est non nul. Or le produit pik1 pk1 k2 . . . pkm−1 j est
non nul si et seulement si (ssi) chacun de ses facteurs est strictement positif.
Pour les probabilités de premier passage, on déduit le résultat de (2.5). Définition 2.8 On dit que deux états i et j communiquent si chacun est
accessible depuis l’autre.
La relation de communication est symétrique et transitive, mais elle n’est pas
nécessairement réflexive (quand la chaîne quitte un état i elle peut ne jamais
y revenir).
Définition 2.9 On appelle classe irréductible tout sous ensemble d’états,
maximal au sens de l’inclusion, composé d’états qui communiquent deux à
deux.
Si tous les états de E communiquent deux à deux, E tout entier est la seule
classe irréductible. On dit alors que la chaîne est irréductible. Dans le cas
général E se partitionne en états isolés dans lesquels on ne revient jamais
une fois qu’on les a quittés, et en classes irréductibles disjointes. Le résultat
Cahier de Mathématiques Appliquées no 11
20
fondamental est que les états d’une même classe irréductible ont des propriétés équivalentes vis à vis de la chaîne. Ce que l’on entend par “propriété” d’un
état est précisé dans ce qui suit.
Définition 2.10 L’état i est dit périodique de période k > 1 si tous les
(m)
entiers m tels que pii > 0 sont multiples de k. Un état qui n’admet pas de
période est dit apériodique.
Si i est périodique de période k et communique avec j, on démontre que j est
également de période k. Les classes irréductibles périodiques constituent un
cas particulier que l’on ne rencontre pas dans les applications. Remarquons
que si pii > 0, l’état i, et tous les états avec lequel il communique sont
apériodiques. De plus, si une classe irréductible est périodique de période
k pour la chaîne de Markov (Xn ), alors la suite (Xnk ) , n ∈ IN est encore
une chaîne de Markov, de matrice de transition P k , pour laquelle la classe
considérée est apériodique.
C’est le temps de premier retour qui permet de distinguer les propriétés
des états.
Définition 2.11 L’état i est dit :
• transient si fii < 1,
• récurrent nul si fii = 1 et eii = ∞,
• récurrent positif si fii = 1 et eii < ∞.
Les états apériodiques, récurrents positifs sont dits ergodiques. Comme cas
(m)
(m)
particulier d’état transient, on retrouve les états pour lesquels fii = pii =
0, pour tout m ≥ 1. Ce sont ceux que l’on quitte au premier pas, pour ne
jamais y revenir. Si un état transient est tel que 0 < fii < 1, le nombre
de séjours dans l’état i suit la loi géométrique de paramètre 1 − fii . Il est
presque sûrement fini, d’espérance 1/(1−fii ). Les états transients sont ceux
dans lesquels on ne passe qu’un nombre fini de fois. Par opposition, on revient
dans un état récurrent positif en moyenne tous les eii pas, donc une infinité
de fois. La définition 2.11 a été donnée sous sa forme la plus intuitive, en
termes des probabilités de premier retour fii . Elle se traduit en termes des
(m)
probabilités de transition en m pas pii de la façon suivante :
Proposition 2.12 L’état i est :
P (m)
• transient si la série m pii converge,
P (m)
(m)
• récurrent nul si la série m pii diverge mais son terme général pii
tend vers 0,
(m)
• récurrent positif si pii ne tend pas vers 0.
En fait, si i est récurrent positif et apériodique (ergodique), nous montrerons
(m)
plus loin que pii tend vers une limite strictement positive.
Démonstration : Nous utilisons la formule (2.5) sous la forme :
(m)
pii
(m)
= fii
(m−1)
+ fii
(1) (m−1)
pii + · · · + fii pii
.
21
Chaînes de Markov
En sommant sur m on obtient :
X (m) X (m)
,
pii
pii = fii 1 +
m
m
soit :
(1 − fii )
X
(m)
pii
= fii .
m
P (m)
Donc la série m pii converge si et seulement si fii < 1.
Nous admettons que la série définissant eii converge si et seulement si
(m)
pii ne tend pas vers 0.
Proposition 2.13 Si deux états communiquent, alors ils sont de même nature.
Cette proposition permet de qualifier de transiente (respectivement : récurrente nulle, récurrente positive), toute classe irréductible dont un élément
(et donc tous les éléments) sont transients (resp. : récurrents nuls, récurrents
positifs).
Démonstration : Si i et j communiquent, il existe deux instants h et l tels
(l)
(h)
que pij > 0 et pji > 0. Pour tout m ≥ h + l, on a :
(m)
pii
et
(m)
(h) (m−h−l) (l)
pji
≥ pij pjj
,
(l) (m−h−l) (h)
pjj ≥ pji pii
pij .
P (m) P (m)
Les deux séries m pii et m pjj sont donc de même nature et les convergences vers 0 de leurs termes généraux sont vraies ou fausses simultanément.
Dans le cas où l’espace d’états est fini, la classification des états se lit immédiatement sur le graphe de transition.
Proposition 2.14 Soit C ⊂ E une classe irréductible. Si au moins une
transition permet de sortir de C :
∃i ∈ C , ∃j ∈
/C,
pi,j > 0 ,
alors la classe C est transiente. Si la classe C est finie et si aucune transition
ne permet d’en sortir, alors C est récurrente positive.
Démonstration : La formule (2.4), sommée par rapport à m, donne :
fii = pii +
X
k6=i
pik fki .
Cahier de Mathématiques Appliquées no 11
22
1/4
1/4
h
1/3
1/4
1/4
1/3
d
e
1/3
1
1/3
1/3
j
i
1/3
1
3/4
1
f
1
a
1/2
c
b
1/2
1/3
g
2/3
1/4
Figure 3 – Diagramme de transition d’une chaîne de Markov. Les classes
récurrentes sont entourées en pointillés.
Or :
1 = pii +
X
pik .
k6=i
Donc fii = 1 est possible si et seulement si les fki valent 1 également, pour
(m)
tous les états k tels que pik = 1. Mais fki = 1 entraîne que fki > 0 pour
au moins un m, donc i est accessible depuis k, donc i et k communiquent. Si
un état i est récurrent, tous les états k tels que pik > 0 sont dans la même
classe. Donc on ne peut pas sortir d’une classe récurrente.
Nous montrerons plus loin que dans une classe irréductible finie dont on ne
sort pas, pnii tend vers une limite strictement positive, dans le cas apériodique.
En particulier tout état d’une telle classe est récurrent positif.
Nous verrons au paragraphe 3.1 des exemples de chaînes irréductibles transientes ou récurrentes nulles, sur un espace d’états infini.
23
Chaînes de Markov
Exemple : Sur E = {a, b, . . . , j}, considérons la matrice de transition P
suivante :
a b c d
a 1/2 0 1/2 0
e f g
0 0 0
h
0
i
0
j
0
b 0 1/3 0
0
0 0 2/3 0
0
0
c 1
0
0
0
0 0 0
0
0
0
d 0
0
0
0
1 0 0
0
0
0
e 0
0
0 1/3 1/3 0 0
0 1/3 0
f 0
0
0
0
0 1 0
0
g 0
0
0
0
0 0 1/4 0 3/4 0
h 0
0 1/4 1/4 0 0 0 1/4 0 1/4
i 0
1
0
0
j 0 1/3 0
0
0
0 0 0
0
0
0
0 1/3 0 0
0
0 1/3
La classification des états se lit clairement sur le diagramme de transition
(figure 3). Les classes irréductibles sont les suivantes :
1. {f } : récurrente,
2. {a, c} : récurrente,
3. {b, g, i} : récurrente,
4. {d, e} : transiente,
5. {h} : transiente,
6. {j} : transiente.
On peut souhaiter changer l’ordre des états pour rassembler les classes irréductibles. Ceci revient à effectuer un changement de base sur P , dont la
matrice est une matrice de permutation. Par exemple :
f a
f 1 0
c
0
b
0
g
0
i
0
d
0
e
0
h
0
j
0
a 0 1/2 1/2 0
0
0
0
0
0
0
c0 1
0
0
0
0
0
0
0
b0 0
0 1/3 2/3 0
0
0
0
0
g 0 0
0
0 1/4 3/4 0
0
0
0
i0 0
0
1
0
0
0
0
0
0
d0 0
0
0
0
0
0
1
0
0
e0 0
0
0
0 1/3 1/3 1/3 0
0
0
h 0 0 1/4 0
j 0 0
0
0 1/3 0
0 1/4 0 1/4 1/4
0
0 1/3 0 1/3
Cahier de Mathématiques Appliquées no 11
24
Aux classes récurrentes correspondent des blocs diagonaux qui sont euxmêmes des matrices de transition.
2.3
Mesures stationnaires
Sur l’exemple de la chaîne à deux états, traité au paragraphe 2.1, nous
avions constaté que la matrice P n convergeait à vitesse exponentielle vers une
matrice dont toutes les lignes étaient des vecteurs propres de tP , associés à la
valeur propre 1. Ceci est une propriété générale des matrices de transition sur
un ensemble fini. En effet, si P n converge, alors sa limite L vérifie LP = L.
En d’autres termes, les lignes de L sont les transposées de vecteurs colonnes
v vérifiant tP v = v. De plus, comme toutes les lignes de P n sont des lois de
probabilité, cette propriété se conserve par passage à la limite et v est donc
une loi de probabilité. De telles lois sont des mesures stationnaires.
Définition 2.15 On appelle mesure stationnaire d’une chaîne de Markov
de matrice de transition P toute loi de probabilité sur E, v = (vi ) , i ∈ E
vérifiant :
t
Pv = v .
La formule (2.2) du paragraphe 2.1 montre que la loi p(m) de la chaîne au
m-ième pas vérifie :
p(m) = tP p(m−1) = tP m p(0) .
Soit v une mesure stationnaire. Si la loi de X0 est v, alors la loi de Xm
sera également v pour tout m. C’est ce qui justifie le qualificatif de stationnaire. Cela signifie que la probabilité de se trouver dans un état donné reste
constante au cours du temps, bien que la chaîne saute constamment d’état
en état. Une mesure stationnaire doit être comprise comme un équilibre dynamique “en moyenne” pour le modèle.
Nous verrons plus loin qu’une mesure stationnaire ne peut charger que
les états récurrents positifs. Le théorème 2.16 ci-dessous a pour conséquence
que toute chaîne irréductible sur un ensemble fini est récurrente positive. Au
paragraphe 3.1, nous constaterons sur quelques exemples que la situation est
différente sur un ensemble infini.
Théorème 2.16 Soit P la matrice d’une chaîne de Markov irréductible et
apériodique sur l’ensemble fini E. Il existe une unique mesure stationnaire
π = (πi ) , i ∈ E. Elle possède les propriétés suivantes :
1. Pour tout i ∈ E, πi est strictement positif.
(m)
2. Pour tout i, j ∈ E, pij
converge vers πj quand m tend vers l’infini.
3. Quelle que soit la loi de X0 , la loi de Xm converge vers π quand m tend
vers l’infini.
25
Chaînes de Markov
4. Pour toute fonction f de E dans IR :
M −1
X
1 X
f (Xm ) =
f (i)πi ,
M →∞ M
m=0
lim
p.s.
i∈E
5. Pour tout i ∈ E, le temps moyen de retour en i, eii est égal à 1/πi .
Interprétations : L’existence d’une mesure stationnaire n’est pas un miracle. Du fait que la somme des coefficients d’une même ligne vaut 1, tout
vecteur constant est vecteur propre de P associé à la valeur propre 1. Donc tP
admet aussi 1 comme valeur propre. Le fait qu’une loi de probabilité puisse
être vecteur propre associé à 1 est toujours vrai dans le cas fini, pas nécessairement dans le cas infini. Ce qui est particulier au cas irréductible apériodique,
c’est que la mesure stationnaire est unique et qu’elle charge tous les états
avec une probabilité strictement positive. Le fait que la limite quand m tend
(m)
vers l’infini de pii soit non nulle entraîne que i est récurrent positif. Sur un
ensemble fini, une chaîne irréductible et apériodique est ergodique.
Le point 2 peut se traduire comme suit :
lim IP[Xn+m = j | Xn = i] = πj .
m→∞
Les comportements de la chaîne en deux instants éloignés l’un de l’autre sont
à peu près indépendants. Quelle que soit l’information disponible sur le passé,
la meilleure prédiction que l’on puisse faire à horizon lointain est la mesure
stationnaire.
Le point 3 est une conséquence immédiate de 2. Nous montrerons en fait
que la convergence en loi vers la mesure stationnaire se fait à vitesse exponentielle. Concrètement, cela signifie que la mesure stationnaire, qui en théorie
n’est qu’un comportement à l’infini, peut être atteinte en pratique dans les
simulations au bout d’un nombre d’itérations raisonnable. Malheureusement
cette vitesse de convergence dépend également de la taille de l’espace d’états
et de la vitesse avec laquelle la chaîne peut le parcourir. Il peut se faire, sur
des espaces d’états très gros, que la mesure stationnaire ne puisse jamais être
observée à l’échelle de temps des simulations.
Dans 4, il faut comprendre la fonction f comme un coût associé aux visites dans les différents états. Dans l’exemple du paragraphe 1.5 f (k) serait
le bilan d’une P
semaine terminée avec k articles en magasin. Le membre de
gauche (1/M ) f (Xm ) est le coût moyen observé sur une période de temps
d’amplitude M . Le membre de droite est l’espérance du coût d’une étape en
régime stationnaire. En pratique, si l’espace d’états est très grand, il arrive
que l’on ne puisse pas calculer la mesure stationnaire π. On peut néanmoins
calculer une valeur approchée du coût moyen en régime stationnaire en effectuant la moyenne des coûts observés sur une seule trajectoire simulée.
Dans le cas P
particulier où f est la fonction indicatrice de l’état i, la
moyenne (1/M ) m 11i (Xm ) est la proportion du temps que la chaîne a passé
Cahier de Mathématiques Appliquées no 11
26
dans l’état i entre 0 et M −1. Le point 4 affirme que sur une longue période
de temps, cette proportion est la probabilité stationnaire πi . Mais si sur un
intervalle d’amplitude M il y a eu environ M πi visites, alors en moyenne
l’intervalle de temps entre deux visites était de 1/πi . C’est effectivement la
valeur de eii , d’après le point 5.
Démonstration : Elle est basée sur le théorème de Perron-Frobenius, que nous
admettons.
Théorème 2.17 Soit A une matrice carrée finie dont tous les coefficients
sont strictement positifs. Alors A a une valeur propre simple α qui est réelle,
strictement positive, et supérieure au module de toute autre valeur propre. A
cette valeur propre, dite maximale, est associé un vecteur propre dont toutes
les coordonnées sont strictement positives.
Le premier pas consiste à montrer qu’une certaine puissance de P est à coefficients strictement positifs. Pour cela montrons d’abord que pour tout i ∈ E,
(m)
pii est non nul à partir d’un certain m. C’est une conséquence de l’apério(m)
dicité. Observons que l’ensemble des entiers m tels que pii > 0 contient au
(u)
moins deux entiers premiers entre eux, disons u et v. De plus, si pii > 0 et
(v)
(hu+kv)
pii > 0, alors pour tout h, k ∈ IN, pii
> 0. Tout se ramène donc à montrer que si u et v sont deux entiers premiers entre eux, alors tous les entiers
à partir d’un certain rang s’écrivent sous la forme hu + kv, avec h, k ∈ IN.
Examinons tout d’abord le cas particulier v = u + 1. Pour tout a > u et
b ≤ u, on a :
au + b = (a − b)u + b(u + 1) .
Donc tous les entiers au-delà de u(u + 1) s’écrivent bien sous la forme souhaitée. Montrons maintenant que le cas général se ramène à ce cas particulier.
Si u et v sont premiers entre eux, alors il existe deux entiers α et β, l’un
positif et l’autre négatif, tels que αu + βv = 1. Sans perte de généralité,
supposons α > 0 et β < 0. Alors αu = −βv + 1, donc αu et −βv sont deux
entiers positifs consécutifs. Tout entier au-delà de (αu)(−βv) s’écrit comme
combinaison entière de αu et −βv, donc de u et v.
(m)
Pour tout i ∈ E, choisissons un entier m(i) tel que pii > 0 pour
m ≥ m(i). Pour tout i 6= j ∈ E, choisissons un entier m(i, j) tel que
(m(i,j))
pij
> 0 (c’est possible car tous les états communiquent, par définition
de l’irréductibilité). Posons enfin :
m0 = max m(i, j) + max m(i) .
i,j∈E
i∈E
Alors pour tout i, j ∈ E,
(m0 )
pij
(m0 −m(i,j))
≥ pii
(m(i,j))
pij
>0.
On peut donc appliquer le théorème de Perron-Frobenius à P m0 .
27
Chaînes de Markov
Montrons d’abord que la valeur propre maximale α est 1. Soit v = (vi )
un vecteur propre de P m0 associé à α. Pour tout i ∈ E on a :
X
X (m )
(m )
αvi =
pij 0 vj ≤ max vj
pij 0 = max vj .
j∈E
j∈E
j∈E
Donc α ≤ 1. Comme 1 est valeur propre et α maximale, on a nécessairement
α = 1. Les autres valeurs propres de P m0 , donc aussi de P , sont de module
strictement inférieur à 1. Ecrivons la matrice P sous la forme :


1 0 ... 0

0
 −1

P =C.
C ,
.
. B 
0
où la matrice de passage C a pour première colonne t(1, . . . , 1). Il est possible
de choisir C de sorte que B soit une matrice triangulaire du type suivant :


λ1 ∗ . . . ∗

.. 
 0 ...
. 
 ,
B=
 .

 ..
∗ 
0 . . . 0 λk
où λ1 , . . . , λk sont les valeurs propres de P différentes de 1, et les coefficients
au-dessus de la diagonale, notés ∗, sont de module inférieur à ǫ, arbitraire.
Pour toute matrice carrée A = (aij ), indicée par E, notons kAk la norme :
X
|aij | .
kAk = max
i∈E
j∈E
Fixons ρ tel que max |λi | < ρ < 1. Il est possible de choisir ǫ et C tels que
kBk < 1. Notons alors L la matrice :


1 0 ... 0

0
 −1

L=C.
C .
 ..
0 
0
Comme la norme k · k est une norme d’algèbre, on aura, pour tout n ≥ 1 :
kP n − Lk ≤ kCkkC −1 kkBkn .
Ceci montre que les coefficients de P n convergent vers ceux de L à vitesse
exponentielle.
La matrice L est telle que toutes ses colonnes sont proportionnelles au
premier vecteur colonne de C, qui est constant. Donc toutes les lignes de L
Cahier de Mathématiques Appliquées no 11
28
sont identiques. En raisonnant de même sur tP , on voit que les lignes de L
sont proportionnelles à un vecteur propre de tP , associé à la valeur propre 1.
Or les lignes de P , comme de P n sont des lois de probabilité, propriété qui se
conserve par passage à la limite. Comme la valeur propre 1 est simple, tous
les vecteurs propres sont proportionnels et il n’y en a qu’un qui soit une loi de
probabilité. C’est la mesure stationnaire π, qui est nécessairement unique, et
à coefficients strictement positifs, d’après le théorème de Perron-Frobenius.
Les points 1 et 2 sont donc démontrés. Le point 3 est conséquence immédiate
du précédent et de la formule p(n) = tP n p(0).
En ce qui concerne le point 4, nous nous contenterons de démontrer que
la convergence a lieu en probabilité, et nous admettrons qu’elle est presque
sûre. Toute fonction de E dans IR s’écrit comme combinaison linéaire d’indicatrices :
X
f =
f (i) 11i .
i∈E
Il suffit donc de démontrer que pour tout i ∈ E :
M −1
1 X
11i (Xm ) = πi .
m→∞ M
m=0
lim
Nous montrons séparément que l’espérance tend vers πi et que la variance
vers 0.
−1
M −1
h 1 M
i
X
1 X
IE
1
1
(X
)
=
pi (m) .
i
m
M m=0
M m=0
Or d’après le point 3, la suite (pi (m)) converge vers πi . Elle converge donc
vers la même valeur au sens de Cesaro. Calculons maintenant la variance.
V ar
−1
M −1
i
h 1 M
X
1 X
1
1
V ar[11i (Xm )]
i (Xm ) =
M m=0
M 2 m=0
+
M −1 M −m
2 X X
Cov[11i (Xm ) ,
M 2 m=0
11i (Xm+l )] .
l=1
Or :
V ar[11i (Xm )] = pi (m)(1 − pi (m)) ,
converge vers πi (1−πi ). La somme de ces variances divisée par M 2 tend donc
vers 0.
(l)
Cov[11i (Xm ) , 11i (Xm+l )] = pi (m) pii − pi (m + l) .
(l)
Pour m fixé, les suites (pii ) et (pi (m + l)) tendent vers πi , à vitesse exponentielle. Donc il existe deux constantes K > 0 et ρ < 1 telles que :
M
−m
X
l=1
Cov[11i (Xm ) ,
11i (Xm+l )] ≤ pi (m)K 1 −1 ρ .
29
Chaînes de Markov
La somme de ces covariances divisée par M 2 tend donc vers 0, d’où la convergence en probabilité.
Reste à démontrer le point 5. Au vu du point précédent, il est naturel que l’intervalle moyen entre deux visites en i soit 1/πi , si la proportion
asymptotique de ces visites est πi . Notons T1 , T2 , . . . les intervalles de temps
successifs entre deux visites en i. On démontre que les Ti sont des variables
aléatoires indépendantes et de même loi, d’espérance commune eii . Notons
NM le nombre de visites entre 0 et M − 1. On a :
NM =
M
−1
X
11i (Xm ) = inf{n ≥ 1 t.q. T1 + · · · + Tn > M } .
m=0
La famille de variables aléatoires (NM ) est ce qu’on appelle un processus de
renouvellement. Par la loi des grands nombres, on a :
n
1X
Tl = eii .
n→∞ n
lim
l=1
Pour M grand, M/NM doit donc être proche de eii . D’autre part nous avons
montré que NM /M converge vers πi . Ceci impose que πi soit égal à 1/eii .
On peut rendre rigoureux ce qui précède, dans le cadre de théorèmes plus
généraux sur les processus de renouvellement que nous n’expliciterons pas. 2.4
Comportement asymptotique
L’étude du paragraphe précédent nous permet de décrire complètement le
comportement asymptotique d’une chaîne de Markov de matrice de transition
P quelconque sur un ensemble fini. Comme nous l’avons vu au paragraphe
2.2, les états se séparent en classes irréductibles dont certaines sont transientes (celles dont on peut sortir), et les autres récurrentes positives. Parmi
les classes récurrentes, certaines peuvent être périodiques. La matrice de transition d’une chaine sur une classe récurrente périodique de période k admet
pour valeurs propres 1 et toutes les racines k-ièmes de l’unité. La matrice P n
ne converge donc pas dans ce cas-là. Nous l’écartons désormais.
Les classes irréductibles récurrentes et apériodiques relèvent du théorème
2.16. Si C est une telle classe, la restriction de P à C est une matrice de
transition sur C qui est irréductible et apériodique. Il lui correspond donc
une mesure stationnaire unique qui charge positivement tous les états de la
classe, et aucun autre.
La proposition suivante montre que les états transients ne jouent aucun
rôle dans le comportement asymptotique de la chaîne.
(m)
Proposition 2.18 Soit i un état transient. Alors pour tout j ∈ E pji est
le terme général d’une série convergente. Si v est une mesure stationnaire,
alors vi = 0.
Cahier de Mathématiques Appliquées no 11
30
En d’autres termes, si L est la limite de la matrice P m quand m tend vers
l’infini, les colonnes de L dont les indices correspondent à des états transients
sont nulles.
(m)
Démonstration : Pour un état i transient, nous avons déjà montré que pii est
le terme général d’une série convergente. Si j est récurrent, seuls les éléments
de sa propre classe, qui sont également récurrents, sont accessibles depuis j.
(m)
Donc pji est nul pour tout m. On peut donc supposer désormais que j est
transient. Fixons l ≥ 1. On a :
X (l) (m)
(m+l)
pii
=
pij pji .
j∈E
(m)
Ceci entraîne que pji est le terme général d’une série convergente, pour
tous les j accessibles depuis i. Soit C la classe irréductible de i. Alors la
chaîne ne reste qu’un nombre fini de pas dans C. Partant d’une autre classe
transiente, la chaîne séjournera dans un nombre fini de classes transientes
avant d’atteindre C. Partant de j, la probabilité qu’elle se trouve en i au
m-ième pas est inférieure à la probabilité que la chaîne se trouve encore dans
la classe de i. Or le nombre de pas total passé dans l’ensemble des classes
transientes est presque sûrement fini. Ceci est équivalent à dire que la probabilité que la chaîne soit dans une classe transiente en m est le terme général
d’une série convergente.
Si v est une mesure stationnaire, elle vérifie, pour tout m ≥ 1 :
X
(m)
vi =
vj pji .
j∈E
On a donc nécessairement vi = 0.
La proposition suivante décrit les probabilités d’atteinte fij .
Proposition 2.19 Si l’état i est récurrent alors fij vaut 1 pour les états j
qui communiquent avec i, 0 pour tous les autres.
Si j1 , j2 sont deux états de la même classe récurrente, alors pour tout i ∈ E,
fij1 = fij2 .
Démonstration : Nous montrons d’abord la première assertion. On ne sort pas
d’une classe récurrente. Donc pour tous les états j en dehors de la classe de
i, fij = 0. Pour les états de la classe C de i, les fij sont solution du système
suivant (équation (2.6)).
X
fij = pij +
pik fkj , ∀j ∈ C .
k6=j
La seule solution de ce système est fij ≡ 1.
Pour la deuxième assertion, soit C une classe récurrente, j1 et j2 deux
éléments de C, et i un état quelconque. Comme fj2 j1 = 1, l’équation vérifiée
31
Chaînes de Markov
par fij1 peut s’écrire :
fij1 = pij1 + pij2 +
X
pik fkj .
k6=j1 ,j2
Les fij1 et les fij2 sont solution du même système d’équations, ils sont donc
égaux.
Les mesures associées aux différentes classes récurrentes sont linéairement
indépendantes, et correspondent à autant de vecteurs propres de tP associés
à la valeur propre 1. La multiplicité de la valeur propre 1 est donc égale au
nombre de classes récurrentes. Toute mesure stationnaire de P est une combinaison convexe des mesures stationnaires associées aux différentes classes
récurrentes.
Nous sommes maintenant en mesure de compléter la description de la
matrice L = limm→∞ P m . Si i est un état récurrent, alors la ligne d’indice
i de L est la mesure stationnaire associée à la classe récurrente de i. Cette
mesure ne charge que les états de la même classe de i. Il peut se faire que i
soit seul dans sa classe récurrente, si pii = 1. Dans ce cas i est dit absorbant
et la mesure stationnaire correspondante est la masse de Dirac en i. Si i est
un état transient, alors la ligne d’indice i de L est une combinaison convexe
des mesures stationnaires πC des différentes classes récurrentes, affectées des
coefficients fiC , valeurs communes des fij pour j ∈ C.
Exemple : Voici une matrice de transition P sur {1, 2, . . . , 7} (le diagramme
de transition est celui de la figure 4).
1 2 3
1 0.2 0.8 0
4
0
5
0
6
0
7
0
2 0.7 0.3 0
0
0
0
0
3 0
0 0.3 0.5 0.2 0
0
4 0
0 0.6 0 0.4 0
0
5 0
0
0
0 0.4 0.6 0
6 0 0.1 0.1 0.2 0.2 0.3 0.1
7 0.1 0.1 0.1 0 0.1 0.2 0.4
Il y a deux classes récurrentes :
C = {1, 2}
et D = {3, 4, 5} .
Leurs mesures stationnaires respectives sont :
πC = t(0.47 , 0.53 , 0 , 0 , 0 , 0 , 0) et πD = t(0 , 0 , 0.26 , 0.30 , 0.43 , 0 , 0) .
Cahier de Mathématiques Appliquées no 11
32
0.4
0.3
0.1
6
7
0.1
0.1
0.2
0.2
0.1
0.1
0.1
0.1
0.2
0.6
5
0.4
0.2
0.4
0.7
1
0.6
2
3
0.8
0.2
4
0.5
0.3
C
D
0.3
Figure 4 – Diagramme de transition d’une chaîne de Markov. Les classes
récurrentes sont entourées en pointillés.
En ce qui concerne les probabilités d’atteinte à partir des deux états
transients 6 et 7, on trouve :
f6C = 0.2 , f6D = 0.8 , f7C = 0.4 , f7D = 0.6 .
L’ensemble des mesures stationnaires est :
{ απC + (1 − α)πD , α ∈ [0, 1] }
Selon la loi de X0 , chacune de ces mesures stationnaires peut être la limite
de la loi de Xn . Supposons en effet que la loi de X0 soit :
p(0) = t(α1 , α2 , α3 , α4 , α5 , α6 , α7 ) .
Alors la loi de Xn converge quand n tend vers l’infini vers :
(α1 + α2 + 0.2α6 + 0.4α7 ) πC + (α3 + α4 + α5 + 0.8α6 + 0.6α7 ) πD .
2.5
Mesures réversibles
La convergence d’une chaîne vers sa mesure stationnaire est souvent utilisée dans les applications. C’est même un outil essentiel pour simuler de
manière approchée des lois de probabilité sur de grands espaces d’états. Mais
33
Chaînes de Markov
si la taille de l’espace interdit l’énumération des états, elle interdit a fortiori
d’écrire le système linéaire reliant les probabilités de transition à une mesure stationnaire (définition 2.15). La réversibilité est un cas particulier de
stationnarité, beaucoup plus simple à appréhender algorithmiquement.
Définition 2.20 Soit π = (πi )i∈E une mesure de probabilité sur E. On dit
que π est une mesure réversible pour la chaîne de Markov de matrice de
transition P , ou que la matrice P est π-réversible, si :
πi pij = πj pji ,
∀i, j ∈ E .
(2.8)
Observons tout d’abord qu’une mesure réversible est nécessairement stationnaire. En effet si on somme par rapport à j l’équation (2.8), on obtient :
πi =
X
πj pji ,
∀i ∈ E ,
j∈E
qui est la condition de stationnarité.
Soit (Xt ) , t ∈ IN une chaîne de matrice de transition P . Si π est une
mesure réversible et si la loi de Xt est π, alors non seulement la loi de Xt+1
est encore π (stationnarité), mais on a :
IP[Xt = i et Xt+1 = j] = IP[Xt = j et Xt+1 = i] .
C’est la raison pour laquelle on parle de mesure réversible. Soit P une matrice
de transition π-réversible. Soient i et j deux états tels que πi > 0 et πj = 0.
Alors pij = 0. Donc la restriction de P à l’ensemble des états i tels que
πi > 0 est encore une matrice de transition, qui est réversible par rapport à
la restriction de π à son support. Quitte à réduire l’espace d’états, on peut
donc se ramener au cas où la mesure réversible π est strictement positive
(πi > 0, ∀i ∈ E). C’est ce que nous supposerons désormais.
Pour donner des exemples de chaînes admettant une mesure réversible, nous
commençons par une observation immédiate, mais qui contient déjà bon
nombre d’applications.
Proposition 2.21 Supposons que P soit une matrice de transition symétrique, alors P admet la loi uniforme sur E comme mesure réversible.
C’est le cas en particulier pour la marche aléatoire symétrique sur E, muni
d’une structure de graphe non orienté (cf. 1.2).
Des critères pour vérifier si une matrice de transition donnée admet ou
non une mesure réversible ont été donnés par Kolmogorov. Nous nous intéresserons plutôt ici à la construction d’une matrice de transition π-réversible,
quand π est une mesure donnée. Voici une méthode générale.
34
Cahier de Mathématiques Appliquées no 11
Proposition 2.22 Soit Q = (qij ) une matrice de transition irréductible sur
E, vérifiant :
qij > 0 =⇒ qji > 0 , ∀i, j ∈ E .
Soit π = (πi )i∈E une loi de probabilité strictement positive sur E. Définissons
la matrice de transition P = (pij ) de la façon suivante : pour i 6= j,
πj qji
pij = qij min
, 1 si qij 6= 0 ,
πi qij
(2.9)
=0
sinon .
Les coefficients diagonaux sont tels que la somme des éléments d’une même
ligne vaut 1.
La matrice de transition P est π-réversible.
Observons que π peut n’être connue qu’à un coefficient de proportionnalité
près, puisque la définition des pij ne fait intervenir que les rapports πj /πi .
Démonstration : Soient i 6= j deux états. Supposons sans perte de géneralité
que πj qji < πi qij . Alors pij = πj qji /πi et pji = qji , de sorte que la condition
de réversibilité (2.8) est satisfaite.
On peut voir la proposition 2.22 comme une extension de la méthode de rejet
qui permet de simuler une loi de probabilité quelconque à partir d’une autre.
La matrice Q s’appelle matrice de sélection. L’algorithme correspondant porte
le nom d’algorithme de Metropolis.
Initialiser X
t ←− 0
Répéter
i ←− X
choisir j avec probabilité qij
ρ ←− (pj ∗ qji )/(pi ∗ qij )
Si (ρ ≥ 1) alors
X ←− j
sinon
Si (Random < ρ) alors
X ←− j
finSi
finSi
t ←− t+1
Jusqu’à (arrêt de la simulation)
Tel qu’il est écrit, cet algorithme n’est évidemment pas optimisé. Dans la
plupart des applications, la matrice de transition Q est symétrique, ce qui
simplifie le calcul du coefficient d’acceptation ρ (remarquer qu’il vaut mieux
dans ce cas tester si πj < πi avant de faire le calcul de ρ). Très souvent,
l’espace des états est naturellement muni d’une structure de graphe déduite
35
Chaînes de Markov
du contexte d’application, et on choisit alors pour Q la matrice de transition
de la marche aléatoire symétrique sur ce graphe.
Exemple : Ensemble des stables d’un graphe.
Nous revenons ici sur le modèle de ressources partagées de 1.3. Les unités
susceptibles de fonctionner sont les sommets d’un graphe dont les arêtes
sont les ressources qu’elles partagent. Un sous ensemble d’unités R ne peut
fonctionner que si :
∀x, y ∈ R , {x, y} ∈
/B,
c’est à dire si R est stable. Nous avons déjà écrit l’algorithme de simulation
de la marche aléatoire symétrique sur l’ensemble E des stables, muni de sa
structure héritée de l’hypercube, pour laquelle deux stables sont voisins s’il
diffèrent par un seul sommet. La chaîne de Markov que cet algorithme engendre est irréductible et apériodique, et elle admet la loi uniforme sur E pour
mesure réversible. En simulant cette chaîne pendant suffisamment longtemps,
on est donc capable de simuler la loi uniforme sur l’ensemble des stables, sans
avoir besoin de connaître son cardinal, qui grandit exponentiellement avec le
nombre d’unités.
Supposons maintenant que l’on veuille simuler la loi de probabilité p = (p(R))
sur E telle que la probabilité de tout stable R est donnée par :
1 |R|
λ ,
Z
P
où λ est un réel strictement positif, et Z = R∈E λ|R| . Il est inutile de calculer
la constante de normalisation Z pour appliquer l’algorithme de Metropolis
(proposition 2.22). Pour λ > 1, l’algorithme est le suivant (on le modifierait
de manière évidente pour λ < 1).
pR =
R ←− ∅
t ←− 0
Répéter
choisir x au hasard dans S
Si (x ∈ R)
alors
Si (Random < 1/λ) alors R ←− R \ {x}
finSi
sinon
Si (∀y ∈ R , {x, y} ∈
/ B)
alors R ←− R ∪ {x}
finSi
finSi
t ←− t + 1
Jusqu’à (arrêt de la simulation)
Cahier de Mathématiques Appliquées no 11
36
Supposons que λ soit suffisamment grand (par exemple λ = 10). La loi
de probabilité p présente la particularité de charger préférentiellement les
configurations ou un maximum d’unités sont en fonctionnement : si deux
configurations diffèrent par une unité, le rapport de leurs probabilités est 10,
en faveur de celle qui a une unité de plus en fonctionnement. Simuler la loi
de probabilité p pour λ grand est donc une manière approchée d’optimiser le
nombre d’unités en fonctionnement dans le problème de ressources partagées.
3
3.1
Modèles sur IN
Le problème de la ruine du joueur
Un joueur joue à un jeu (pile ou face, roulette, . . . ) où il gagne un montant
fixe avec probabilité p, et perd le même montant avec probabilité 1−p. Si Un
désigne le bilan de la n-ième partie :
IP[Un = +1] = p , IP[Un = −1] = 1−p .
On suppose que les parties sont indépendantes. Soit Xn la fortune du joueur
à l’issue de la n-ième partie. On a :
Xn+1 = Xn + Un+1 .
De sorte que la suite (Xn ) est une chaîne de Markov. A priori, Xn prend
ses valeurs dans l’ensemble ZZ. Cependant des considérations économiques
évidentes conduisent à limiter l’étendue des dégâts. On envisagera plusieurs
types de limitations.
Deux bornes absorbantes : Nous supposerons que le joueur, partant d’une
fortune initiale i décide d’arrêter soit s’il est ruiné (Xn = 0), soit s’il a
atteint une fortune a > i (son adversaire est ruiné ou lui-même est devenu
sage). L’ensemble des états est E = {0, . . . , a}. En notant q = 1−p, la matrice
de transition s’écrit :


1 0 0 ... 0

.
 q 0 p . . . .. 



 .. .. ..

0 . . .
P =


.
 ..
0



q 0 p
0
... 0 0 1
Les états 0 et a sont absorbants, tous les autres états sont transients (le
diagramme de transition est celui de la figure 5).
Nous commençons par calculer la probabilité fi0 avec laquelle le jeu se
termine par la ruine du joueur. La probabilité que le jeu se termine par la
37
Chaînes de Markov
p
0
1
p
i−1
p
i
i+1
a−1
1
a
1
q
q
q
Figure 5 – Diagramme de transition pour le jeu de pile ou face avec bornes
absorbantes.
fortune a est fia = 1 − fi0 . On a évidemment f00 = 1 et fa0 = 0. Pour
i = 1, . . . , a−1, les fi0 sont solution de l’équation de récurrence :
fi0 = pfi+1 0 + (1−p)fi−1 0 .
On trouve :
fi0 =
1−p
p
a
1−p
p
−
a
1−p
p
i
,
−1
si p 6= 1/2, et fi0 = 1 − i/a si p = 1/2. Le gain du joueur quand la partie
se termine est une variable aléatoire G qui prend les valeurs −i et a−i avec
probabilités fi0 et 1−fi0 . L’espérance de gain est donc :
IE[G] = a(1 − fi0 ) − i .
Cette espérance a le signe de p − 1/2. Si p = 1/2 (jeu équitable), elle est
nulle quelle que soit la fortune initiale. La durée moyenne de la partie est le
temps moyen d’atteinte des états 0 ou a, partant de i. Notons-la ei . Les ei
sont solution de l’équation :
ei = 1 + pei+1 + (1 − p)ei−1 ,
avec e0 = ea = 0. On trouve :
ei =
1−p
p
i
−1
a
i
a
−
,
1 − 2p 1 − 2p 1−p − 1
p
si p 6= 1/2 et ei = i(a − i) si p = 1/2. Voici quelques valeurs numériques,
Cahier de Mathématiques Appliquées no 11
38
d’abord pour un jeu équitable, puis défavorable au joueur.
p
i
a fi0 IE[G]
ei
0.5
9
10 0.1
0
9
90 100 0.1
0
900
0.5
0.5 900 1000 0.1
0 90000
0 47500
0.5 950 1000 0.05
0 1.6 107
0.5 8000 10000 0.2
0.45
9
10 0.210 −1.1
11
0.45 90 100 0.866 −76.6 765.6
0.45 99 100 0.182 −17.2 171.8
0.4
90 100 0.983 −88.3 441.3
0.4
99 100 0.333 −32.3 161.7
Comme on le voit, il est préférable de s’abstenir de jouer si le jeu est défavorable, et ce même si on se fixe un objectif raisonnable.
Une borne absorbante : Supposons que l’adversaire soit infiniment riche ou le
joueur peu raisonnable. La chaîne de Markov est maintenant définie sur IN,
avec un état absorbant, 0 et une classe irréductible transiente formée de tous
les autres états. On obtient la probabilité de ruine et la durée moyenne du jeu
en faisant tendre a vers l’infini dans les formules précédentes. La probabilité
de ruine fi0 est :
fi0

 1 si p ≤ 1/2 ,
i
=
1−p

si p > 1/2 .
p
La durée moyenne du jeu est :
ei =


i
si p < 1/2 ,
1 − 2p
 +∞ si p ≥ 1/2 .
Si le jeu est défavorable ou équitable, le joueur est certain de se ruiner. S’il
est strictement défavorable, cette ruine surviendra au bout d’un temps fini
en moyenne. S’il est équitable, l’espérance du temps de ruine est infinie.
Si le jeu est favorable au joueur, il est possible qu’il se ruine, mais il y a
une probabilité strictement positive qu’il devienne infiniment riche.
Une borne réfléchissante : Le joueur joue contre un adversaire infiniment riche
mais celui-ci, magnanime, l’autorise à continuer le jeu même s’il est ruiné. En
39
Chaînes de Markov
posant q = 1 − p, la matrice de transition devient :

q p 0 ...

 q 0 p ...

 .. .. ..

P = 0 . . .
.
 ..








 .




Dans ce cas, tous les états de IN communiquent et la chaîne est irréductible.
p=0.45
Xn
100
75
50
25
n
0
.
0
200
400
600
800
1000
Figure 6 – Jeu de pile ou face défavorable : marche aléatoire récurrente
positive.
S’il existe une mesure stationnaire π, elle vérifie : π0 = qπ0 + qπ1 , et pour
tout i ≥ 1 :
πi = pπi−1 + qπi+1 .
L’équation caractéristique associée a pour racines 1 et p/q Le fait que π soit
une mesure de probabilité impose que πi soit le terme général d’une série
convergente. Ce n’est possible que si au moins une des racines de l’équation
caractéristique est de module strictement inférieur à 1. Ceci ne peut avoir
lieu que si p < 1/2. Si p ≥ 1/2, il n’existe pas de mesure stationnaire. Si
p < 1/2, notons ρ = p/(1−p) < 1. La mesure stationnaire unique est :
π = ((1−ρ)ρi )i∈E .
Cahier de Mathématiques Appliquées no 11
40
p=0.5
Xn
100
75
50
25
n
0
.
0
200
400
600
800
1000
Figure 7 – Jeu de pile ou face équitable : marche aléatoire récurrente nulle.
• Si p < 1/2, la probabilité d’atteinte de 0 est 1 à partir de n’importe quel
état, comme nous l’avons vu précédemment. Donc l’état 0 est récurrent.
De plus le temps moyen de retour en 0 est fini. Donc 0 est récurrent
positif, et il en est de même de tous les autres états (figure 6). On vérifie
que quel que soit l’état de départ, la loi de Xn converge vers la mesure
stationnaire π quand m tend vers l’infini.
• Dans le cas p = 1/2, la probabilité de retour en 0 est 1 mais le temps
moyen de retour est infini : tous les états sont récurrents nuls (figure
7).
• Si p > 1/2, la probabilité de retour en 0 est strictement inférieure à 1.
L’état 0 est donc transient, comme tous les autres états (figure 8).
3.2
Un modèle simple de file d’attente
Nous considérons ici une file d’attente à un seul serveur. Les clients sont
servis un par un, et le temps de service de chaque client est fixe. L’unité
de temps est ce temps de service. Le nombre de clients arrivant dans la file
pendant la n-ième unité de temps est une variable aléatoire An . On supposera
que les An sont indépendantes et de même loi q = (qk ) sur IN. Un client
arrivant alors que la file est vide attend l’unité de temps suivante pour être
servi. Nous notons Xn le nombre de clients présents dans le système à la
fin de la n-ième unité de temps. Si Xn est strictement positif, alors Xn+1 =
Xn − 1 + An+1 (un client est parti, et An+1 sont arrivés). Si Xn est nul, alors
41
Chaînes de Markov
p=0.55
Xn
100
75
50
25
n
0 .
0
200
400
600
800
1000
Figure 8 – Jeu de pile ou face favorable : marche aléatoire transiente.
Xn+1 = An+1 . On peut donc écrire :
Xn+1 = Xn − 11IN ∗ (Xn ) + An+1 ,
(3.1)
ce qui montre que (Xn ) est une chaîne de Markov, à valeurs dans IN.
Le comportement asymptotique de la chaîne (Xn ) est facile à deviner
intuitivement. Notons ρ l’espérance de la loi q :
ρ=
∞
X
k qk .
k=1
Ce paramètre ρ est le nombre moyen de clients qui arrivent pendant un temps
de service. C’est le coefficient d’occupation de la file. Si ρ < 1, le serveur peut
faire face à toutes les demandes : les clients ne s’accumulent pas et un régime
d’équilibre peut s’établir. La chaîne (Xn ) est récurrente positive (figure 9).
Si ρ > 1, les clients sont trop nombreux et la file sature : le nombre moyen
de clients à l’instant n croît en moyenne comme n(ρ − 1). La chaîne Xn
tend presque sûrement vers +∞ et elle est donc transiente (figure 10). On
démontre que la chaîne est récurrente nulle pour ρ = 1. Nous donnons ci-après
les justifications les plus faciles.
Proposition 3.1 Si ρ > 1, la chaîne (Xn ) tend vers l’infini presque sûrement, elle est donc transiente. Si ρ < 1 la chaîne est récurrente.
Démonstration : A partir de la définition (formule (3.1)), on peut écrire im-
Cahier de Mathématiques Appliquées no 11
42
File equilibree
Xn
100
75
50
25
n
0
.
0
2000
4000
6000
8000
10000
Figure 9 – File d’attente en équilibre. Le nombre de clients arrivant par
unité de temps suit la loi de Poisson de paramètre ρ = 0.99. Simulation sur
10000 services.
File saturee
Xn
200
150
100
50
n
0
.
0
2000
4000
6000
8000
10000
Figure 10 – File d’attente saturée. Le nombre de clients arrivant par unité
de temps suit la loi de Poisson de paramètre ρ = 1.01. Simulation sur 10000
services.
43
Chaînes de Markov
médiatement :
Xn ≥ −n +
n
X
An
i=1
n
1 X
= n −1+
Am .
n m=1
Pn
D’après la loi forte des grands nombres, n1 m=1 Am converge presque sûrement vers ρ, d’où le résultat
dans le cas ρ > 1.
Pn
Supposons X0 = i et m=1 Am < n. On voit aisément à partir de la même
formule (3.1), que parmi X1 , . . . , Xn , au moins une des valeurs
Pn est égale à
i. La probabilité fii de retour en i est donc minorée par IP[ m=1 Am < n].
Pour ρ < 1, cette probabilité tend vers 1 quand n tend vers l’infini, donc
fii = 1.
Dans le cas où un régime d’équilibre s’établit, il est possible de calculer
explicitement la fonction génératrice de la mesure stationnaire.
Proposition 3.2 Notons g la fonction génératrice de la loi q des nombres
d’arrivées par unité de temps. La chaîne (Xn ) admet une mesure stationnaire
si et seulement si le coefficient d’occupation ρ est strictement inférieur à 1.
Dans ce cas, la fonction génératrice de cette mesure stationnaire est :
f (z) =
(1 − ρ)(1 − z)g(z)
.
g(z) − z
Démonstration : La fonction génératrice de la loi q est définie par :
g(z) =
∞
X
z k qk .
k=0
Le coefficient d’occupation est la dérivée de g en 1 :
ρ=
∞
X
k qk = g ′ (1) .
k=0
A partir de la formule de définition (3.1), il est facile d’écrire les probabilités
de transition de la chaîne. On obtient p0j = qj pour tout j ≥ 0, et pour
i > 0, pij = qj−i+1 si j ≥ i − 1, pij = 0 sinon. Notons π = (πi ) la mesure
stationnaire. Si elle existe, elle vérifie le système d’équations suivant :

π0 = π0 q 0 + π 1 q 1




π1 = π0 q 1 + π 1 q 1 + π2 q 0



..
.


π
=
π0 qk + π1 qk + · · · + πk+1 q0

k



..

.
Cahier de Mathématiques Appliquées no 11
P
La fonction génératrice de π est définie par f (z) =
πk z k . Pour la faire
k
apparaître, on multiplie par z la k-ième équation du système et on somme :
44
f (z) = π0 g(z) + π1 g(z) + · · · + πk+1 z k g(z)
g(z) π0 z − π0 + f (z) .
=
z
On en déduit une expression de f (z) en fonction de π0 et g(z) :
f (z) = π0
(1 − z)g(z)
.
g(z) − z
Pour déterminer la valeur de π0 , il faut utiliser le fait que π doit être une
mesure de probabilité et que donc f (1) doit être égal à 1. Or z = 1 annule le numérateur et le dénominateur de l’expression ci-dessus. Pour lever
l’indétermination, on écrit :
g(z) = 1 + (z − 1)ρ + o(z − 1) .
On en déduit facilement que π0 = 1−ρ. Donc la mesure stationnaire ne peut
être une loi de probabilité que si ρ < 1.
Comme cas particulier, supposons que q soit la loi binomiale négative
1
). Sa fonction génératrice est :
BN (1, 1+ρ
g(z) =
1
.
1 + ρ − ρz
On obtient :
f (z) =
1−ρ
.
1 − ρz
La mesure stationnaire (loi du nombre de clients dans la file à l’équilibre) est
ρ
.
donc la loi BN (1, 1−ρ), d’espérance 1−ρ
3.3
Le problème de l’extinction du nom
La chaîne que nous étudions ici porte le nom de “processus de GaltonWatson”, du nom des mathématiciens qui l’ont introduite comme modèle
de perpétuation des lignées chez les pairs d’Angleterre à la fin du XIXème
siècle. Les instants successifs sont interprétés comme des générations. Les
individus sont des “Lords”, qui transmettent leur titre uniquement à leurs
fils. La variable aléatoire Xn sera comprise comme le nombre d’hommes de
la lignée à la n-ième génération. Chaque individu d’une génération donnée
contribue à la génération suivante par un nombre aléatoire d’individus, sa
descendance. Toutes les descendances sont supposées indépendantes et de
même loi.
45
Chaînes de Markov
Nous commençons par montrer que (Xn ) est une chaîne de Markov. Pour
cela, donnons-nous une famille (Dnm ) , n, m ∈ IN de variables aléatoires
indépendantes et de même loi à valeurs dans IN. La variable Dnm est le
nombre de descendants du m-ième individu de la génération n. On a :
Xn+1 =
Xn
X
Dnm .
i=1
On a donc bien défini une chaîne de Markov à valeurs dans IN, pour laquelle
0 est un état absorbant. Le problème posé est du même type que celui de la
ruine du joueur : il faut déterminer la probabilité que la lignée s’éteigne, à
savoir que la chaîne soit absorbée en 0.
Pour tout i = 0, 1, . . ., on note qi la probabilité qu’un individu ait i descendants. La fonction génératrice de la descendance d’un individu est notée
g:
∞
X
z i qi .
g(z) =
i=0
Le nombre moyen de descendants d’un individu (supposé fini !) est noté µ.
µ=
∞
X
i qi = g ′ (1) .
i=0
S’il y a i individus à la n-ième génération (Xn = i), alors Xn+1 sera la
somme des descendances de ces i individus, qui sont des variables aléatoires
indépendantes. La fonction génératrice de la loi conditionnelle de Xn+1 sachant Xn = i sera donc le produit des fonctions génératrices des descendances
des i individus, soit g i . Les probabilités de transition n’ont pas d’expression
simple, mais :
∞
X
z j pij = g i (z) .
j=0
Théorème 3.3 La probabilité d’extinction pour une lignée de i individus est
fi0 = η i , où η est la plus petite solution de l’équation g(z) = z dans [0, 1].
• Si µ ≤ 1, alors η = fi0 = 1 : l’extinction est certaine.
• Si µ > 1, l’équation g(z) = z a une unique solution η telle que 0 < η <
1. L’extinction est possible (si q0 > 0) mais pas certaine.
Ce que dit ce théorème est intuitivement évident : pour que la lignée ait une
chance de perdurer, il faut que chaque individu ait plus d’un descendant en
moyenne.
Démonstration : Commençons par écarter deux cas particuliers triviaux.
1. Si q0 = 0, tout individu a au moins un descendant et la population ne
peut pas disparaître.
Cahier de Mathématiques Appliquées no 11
46
Points fixes de g
g(z)
1
g sous-critique
g sur-critique
z
0
.
0
1
Figure 11 – Fonction génératrice de la descendance.
2. Si q0 + q1 = 1, la population ne peut que rester constante (si q0 = 0)
ou diminuer et donc disparaître certainement.
La probabilité qu’une lignée commençant avec i individus disparaisse à la
(m)
(M )
m-ième génération est la probabilité de premier passage fi0 . Notons Fi0
la somme :
M
X
(m)
(M )
fi0 .
Fi0 =
m=1
C’est la probabilité que chacune des i lignées issues des individus initiaux
disparaisse avant la M -ième génération. Or ces i lignées sont indépendantes,
et identiquement distribuées. On a donc :
i
(M )
(M )
Fi0 = F10
.
(1)
Or, f10 = q0 et pour tout m ≥ 2 :
(m)
f10
=
∞
X
(m−1)
qi fi0
.
i=1
En sommant sur m de 1 à M , on obtient :
(M )
F10
= q0 +
∞
X
i
(M −1)
qi F10
i=1
(M −1)
= g(F10
).
47
Chaînes de Markov
La probabilité d’absorption en 0 partant de i, fi0 , est la limite de la suite
(M )
(Fi0 ). Cette suite est croissante et majorée par 1. Elle converge donc. Sa
limite vérifie :
fi0 = (f10 )i ,
et de plus :
f10 = g(f10 ) .
(M )
(F10 )
Comme la suite
l’équation g(z) = z.
est croissante, sa limite est la plus petite solution de
La fonction g(z) est convexe dans [0, 1] et croît de g(0) = q0 à g(1) = 1.
Deux cas sont possibles.
• Cas sous-critique
Si la dérivée de g en 1 est inférieure ou égale à 1, alors g(z) reste au
dessus de sa tangente en 1. On a donc g(z) − z > 0 pour tout z < 1.
Donc 1 est la plus petite solution de l’équation. Dans ce cas fi0 = 1, et
l’extinction est certaine.
• Cas sur-critique
Si la dérivée de g en 1 est strictement supérieure à 1, alors g(z) − z
est strictement négatif pour un certain z < 1. Comme g(0) = q0 > 0,
l’équation g(z) = z a une solution η strictement comprise entre 0 et 1
(voir figure 11).
Cahier de Mathématiques Appliquées no 11
48
4
Exercices
Exercice 1 Les matrices suivantes sont des matrices de transition sur
I = {1, . . . , x}, x = 4, 5 ou 7.

1
0
0

0



 0 1/2 1/2 0 




 0 1/2 1/2 0 


1/2 0 0 1/2

0.8 0 0.2 0
0 0 0 0.5 0.5
0
0 0.4 0.6 0

 0


 0


 0.8

0




0.2 0.8 0




0 0 0.4 0.6 


0 0 0 1 


0 0.2 0 0 

1 0 0 0

 0.7


 0


 0


 0


 0

0.3 0
0
0
0
0
0
0
0 0.3 0.5 0.2 0
0 0.6 0 0.4 0
0
0 0.4 0.6 0
0.1 0.1 0.2 0.2 0.3
0


0 


0 


0 


0 


0.1 

0.1 0.1 0.1 0 0.1 0.2 0.4
1
0

0.2 0.8 0
0



 0.6 0.4 0 0 




 0 0.2 0.3 0.5 


0 0 0.5 0.5



 0 0.2 0 0.5 0.3 




 0.5 0 0.5 0 0 




 0 0 1 0 0 


0.3 0 0.5 0 0.2
0


 0 0.4 0.6 0 




 0.8 0 0.2 0 


0.2 0.3 0 0.5


 0 0 1 0 




 1 0 0 0 


0.3 0.4 0 0.3

0
0.5 0

 0


 0.3


 0

0
0

 0


 0


 0


 0


 1/2



0 0.4 


0 0.7 0 0 


0 1 0 0 

1 0 0 0
0.6 0
1/2 0 1/2 0

 0


 0


 1/4

1/3

0 0.5 0
0


1/4 0 3/4 0 


0 1/3 0 2/3 


1/2 0 1/4 0 

0 1/3 0 1/3
0 1/2 1/4 1/4 0
0 1/3 0 2/3 0
0
0
0
0 1/3
0
0
0
0 1/2
0
0
0
0 3/4
1/2 0
0
0
0
1/4 3/4 0
0
0
0
0


0 


2/3 


1/2 


1/4 


0 

0
Chaînes de Markov

0.8 0 0

 0 0 0


 0.1 0 0.9


 0 0 0


 0 0.3 0


 0 0 1

0 0.5 0
49
0
0 0.2 0
0
1
0
0
0
0
0.5 0
0
0 0.7 0
0


0 


0 


0.5 


0 


0 

0
0
0
0 0.5 0
0

 0


 0.8


 0


 0


 0


0
0 1 0
0
0 0


0.2 0 0 0.4 0.4 0 


0 0 0 0.2 0 0 


0 0 0 0 1 0


0 1 0 0 0 0


0 0 0.7 0 0.3 0 

0 0 0
0
0 1
Pour chacune de ces matrices P :
1. Représenter le diagramme de transitions et classifier les états.
2. Déterminer l’ensemble des mesures stationnaires.
3. Pour tout couple d’états (i, j), calculer la probabilité fij d’atteindre j
à partir de i.
4. Si une chaîne de Markov (Xn ) , n ∈ IN a pour matrice de transition P
et pour loi initiale α = (αi ), déterminer la limite de la loi de Xn quand
n tend vers l’infini.
5. Pour n = 10, 20, . . . , 100, calculer numériquement P n .
6. Pour i ∈ I, simuler 10000 trajectoires de la chaîne de matrice P , partant de X0 = i, jusqu’au temps N = 100. Pour n = 10, 20, . . . , 100,
tester l’adéquation de la distribution empirique des 10000 trajectoires
au temps t avec la distribution théorique de Xn , calculée numériquement à la question précédente.
7. Pour i ∈ I, tirer une trajectoire partant de X0 = i jusqu’au temps N =
106 et calculer la proportion empirique du temps passé dans chacun
des états. Tester l’adéquation de cette distribution empirique avec la
mesure stationnaire de l’une des classes récurrentes de la chaîne.
Exercice 2 Quatre points A, B, C, D sont placés sur un cercle, dans le sens
des aiguilles d’une montre. Le jeu consiste à tourner sur ces quatre points,
en partant de A, toujours dans le même sens, d’autant de pas que le nombre
indiqué par un dé à 6 faces. On note Xn le point sur lequel on arrive au
n-ième lancer de dé (Xn ∈ {A, B, C, D}).
1. Montrer que (Xn ) , n ∈ IN est une chaîne de Markov et écrire sa matrice
de transition P .
2. Pour n = 10, 20, . . . , 100, calculer numériquement P n .
3. Simuler 10000 trajectoires de la chaîne (Xn ), jusqu’au temps N = 100.
Pour n = 10, 20, . . . , 100, tester l’adéquation de la distribution empirique des 10000 trajectoires au temps t avec la distribution théorique
de Xn , calculée numériquement à la question précédente.
4. Quelle est la limite en loi de Xn quand n tend vers l’infini ?
Cahier de Mathématiques Appliquées no 11
50
5. Simuler 10000 trajectoires de la chaîne (Xn )
6. Simuler une trajectoire jusqu’au temps N = 106 et calculer la proportion empirique du temps passé dans chacun des états. Tester l’adéquation de cette distribution empirique avec la mesure stationnaire de la
chaîne.
7. On décide de terminer le jeu dès qu’on tombe sur A ou C, la partie étant
gagnée si on est tombé sur A, perdue sur C. Quelle est la probabilité
de gagner ?
8. Combien de pas en moyenne aura-t-on effectué quand la partie se terminera ?
9. Simuler 10000 trajectoires de la chaîne, arrêtées en A ou C. Calculer
la fréquence d’arrêt en A et comparer avec la probabilité de gain. Calculer la longueur moyenne des trajectoires et comparer avec le résultat
théorique de la question précédente.
Exercice 3 Deux joueurs A et B jouent au jeu suivant. Chaque joueur lance
une pièce non truquée. Si l’un des deux obtient pile et l’autre face, le jeu
s’arrête et celui qui a obtenu pile a gagné. Si tous les deux obtiennent pile,
la partie est nulle et le jeu s’arrête. Sinon, ils jouent une autre partie.
1. Calculer la probabilité que le jeu s’arrête à la n-ième partie.
2. Calculer la probabilité que A gagne en moins de n parties.
3. Calculer la probabilité que le jeu s’arrête sur une partie nulle.
4. Quelle est la durée moyenne du jeu en nombre de parties ?
5. Simuler 10000 parties, et vérifier expérimentalement les résultats théoriques des questions précédentes.
Exercice 4 Une souris est lancée dans le labyrinthe suivant. Elle commence
en A où se trouve sa cage. En B il y a un morceau de fromage, en C un
chat affamé. La souris parcourt les couloirs en choisissant au hasard parmi
les couloirs offerts à chaque nouvelle intersection. Elle met une seconde en
moyenne entre deux intersections.
11111
00000
00000
11111
00000
11111
00000
11111
00000
11111
00000
11111
000000
111111
00000
11111
00000
11111
000000
111111
00000
11111
00000
11111
000000
111111
00000
11111
00000
11111
000000
111111
00000
11111
00000
11111
C
D
A
F
E
B
51
Chaînes de Markov
1. Quelle est la probabilité que la souris se fasse manger le ventre plein ?
2. Quelle est la probabilité que la souris revoit sa chère cage avant de se
faire manger ?
3. Quelle est la probabilité que la souris n’ait pas revu sa cage et se fasse
manger le ventre vide ?
4. Combien de temps durera ce jeu cruel ?
5. Simuler 10000 parcours, et vérifier expérimentalement les résultats théoriques des questions précédentes.
Exercice 5 Le jeu de Penney.
Cet exercice développe l’exemple donné en 1.3. Le but est d’étudier les occurrences de séquences binaires données à l’intérieur d’une suite de tirages de
pile ou face. Dans ce qui suit (ǫn )n≥1 désigne une suite de tirages de pile ou
face, à savoir une suite de variables aléatoires indépendantes identiquement
distribuées, suivant la loi de Bernoulli de paramètre 1/2.
∀n ≥ 1 ,
P rob[ǫn = 0] = P rob[ǫn = 1] =
1
.
2
Première partie
On s’intéresse aux occurrences successives d’un “mot” binaire donné.
Soit A = (ai )1≤i≤ℓ un mot binaire de longueur ℓ.
∀i = 1, . . . , ℓ ,
ai = 0 ou 1 .
Pour tout k = 1, . . . , ℓ, on note Ak le mot A tronqué à ses k premières lettres :
∀k = 1, . . . , ℓ ,
Ak = (ai )1≤i≤k .
Pour tout entier n on définit la variable aléatoire Xn , à valeurs dans {0, . . . , ℓ}
comme le nombre de bits parmi les derniers tirages jusqu’au n-ième qui coïncident avec le début de A.
Xn = 0
si n = 0 ou ∀k = 1, . . . , ℓ (ǫn−k+1 , . . . , ǫn ) 6= Ak
Xn = k ∈ {1 . . . , ℓ−1} si (ǫn−k+1 , . . . , ǫn ) = Ak
et (ǫn−k−i , . . . , ǫn ) 6= Ak+i+1 , ∀i = 0, . . . , ℓ − k − 1
Xn = ℓ
si (ǫn−ℓ+1 , . . . , ǫn ) = Aℓ = A .
1. Montrer que (Xn )n∈IN est une chaîne de Markov.
2. Montrer que la loi de la chaîne (Xn ) ne change pas si on remplace
A = (ai )1≤i≤ℓ par A = (1 − ai )1≤i≤ℓ .
52
Cahier de Mathématiques Appliquées no 11
3. Expliciter le diagramme et la matrice de transitions de la chaîne (Xn )
dans les cas suivants.
a) A = (1, 1, . . . , 1) (ℓ termes égaux à 1).
b) A = (1, . . . , 1, 0) (ℓ−1 termes égaux à 1 suivis d’un 0).
c) A = (1, 0, 1).
d) A = (1, 1, 0, 0).
e) A = (1, 0, 1, 1).
f) A = (0, 1, 1, 1).
4. Ecrire un algorithme qui prenne en entrée un mot binaire donné comme
un tableau de booléens, et qui retourne en sortie la matrice de transition
de la chaîne (Xn ).
5. Ecrire un programme de simulation. Ce programme prend en entrée un
mot binaire donné comme un tableau de booléens, et un nombre de pas
n. Il retourne le tableau des n valeurs prises par la chaîne (Xn ), à partir
de X0 = 0.
Deuxième partie
On s’intéresse à l’instant de première apparition du mot A = (ai )1≤i≤ℓ à
savoir le premier indice n pour lequel la chaîne (Xn ) atteint l’état ℓ.
Pour tout k = 0, . . . , ℓ−1 et pour tout n ≥ 1, on note qk (n) la probabilité
d’atteindre pour la première fois l’état ℓ en exactement n pas, à partir de
l’état k.
qk (n) = IP[Xm+n = ℓ , Xm+n−1 6= ℓ , . . . , Xm+1 6= ℓ |Xm = k] .
1. Soit P = (pij ) la matrice de transition de la chaîne (Xn ). Montrer que
pour tout k = 0, . . . , ℓ − 1 qk (1) = pkℓ et pour tout n > 1,
qk (n) =
ℓ−1
X
pkj qj (n − 1) .
j=0
2. Pour tout k = 0, . . . , ℓ − 1 montrer que (qk (n))n∈IN est une loi de
probabilité sur IN∗ .
On note gk la fonction génératrice de cette loi de probabilité, et mk son
espérance.
+∞
X
qk (n) z n ,
gk (z) =
mk
=
n=1
+∞
X
n qk (n) .
n=1
On note G(z) et M les vecteurs :
G(z) = (gk (z))0≤k≤ℓ−1
et M = (mk )0≤k≤ℓ−1 .
53
Chaînes de Markov
On note Pℓ le vecteur formé des ℓ premiers termes de la dernière colonne
de P et P ′ la matrice obtenue en ôtant la dernière ligne et la dernière
colonne de P .
Pℓ = (piℓ )0≤i≤ℓ−1
et P ′ = (pij )0≤i,j≤ℓ−1 .
On note enfin I la matrice identité de dimension ℓ et
IRℓ dont toutes les coordonnées valent 1.
11 le vecteur de
3. Montrer que :
G(z) = z(I − zP ′ )−1 Pℓ
et M = (I − P ′ )−1 11 .
4. Soit N la variable aléatoire égale au premier indice d’apparition du mot
A dans la suite (ǫn ). Quelle est la fonction génératrice de la loi de N ?
Quelle est son espérance ?
5. Calculer la fonction génératrice de la loi de N pour A = (1, 1) puis
A = (1, 0).
6. Calculer l’espérance de N dans les cas suivants :
a) A = (1, 1, . . . , 1) (ℓ termes égaux à 1).
b) A = (1, . . . , 1, 0) (ℓ−1 termes égaux à 1 suivis d’un 0).
c) A = (1, 0, 1).
d) A = (1, 1, 0, 0).
e) A = (1, 0, 1, 1).
f) A = (0, 1, 1, 1).
7. Soit A un mot binaire quelconque. On définit le mot binaire R(A) =
(r1 , . . . , rℓ ), qui compte les auto-recouvrements partiels de A, de la façon
suivante. Pour tout k = 1, . . . , ℓ,
rk = 1 si (a1 , . . . , aℓ−k+1 ) = (ak , . . . , aℓ )
= 0 sinon .
On admettra que le temps moyen de première apparition de A est égal
à 2 fois la valeur entière de R(A) :
IE[N ] = 2
ℓ
X
rk 2ℓ−k .
k=1
a) Vérifier les résultats de la question précédente.
b) Calculer le temps moyen de première apparition de :
A = (1, 1, 0, 1, 1, 0, 1, 1, 0) .
8. Vérifier par la simulation les résultats des questions 6 et 7. On donnera
pour chacun des temps moyens un intervalle de confiance d’amplitude
inférieure à 0.1, au niveau de confiance 0.99.
Cahier de Mathématiques Appliquées no 11
54
Troisième partie
Le jeu de Penney consiste à faire jouer deux mots binaires A et B l’un
contre l’autre jusqu’à l’instant d’apparition du premier d’entre eux. C’est
celui des deux mots qui apparaît le premier qui gagne. Selon A et B, il
pourrait se faire que l’un des deux ne puisse jamais gagner, ou que les deux
gagnent simultanément. Afin de simplifier les écritures et d’éviter ces cas
particuliers, nous supposerons que A et B sont deux mots binaires distincts
de même longueur ℓ. Le but est de calculer la durée moyenne d’une partie
ainsi que la probabilité que chacun des deux mots a de gagner.
1. La suite de tirages (ǫn ) étant fixée, on lui associe les deux chaînes de
Markov (Xn )n∈IN et (Yn )n∈IN où (Xn ) est la chaîne associée au mot
A comme dans la première partie, et (Yn ) correspond à B de façon
analogue. Montrer que ((Xn , Yn ))n∈IN est une chaîne de Markov sur
{0, . . . , ℓ}2 . Les variables aléatoires Xn et Yn peuvent-elles être indépendantes ?
2. Expliciter le diagramme de transitions de la chaîne ((Xn , Yn )) dans le
cas :
A = (1, 1, . . . , 1) ; B = (1, . . . , 1, 0) .
3. Même question pour le cas :
A = (1, 1, . . . , 1)
;
B = (0, . . . , 0, 1) .
A
B
Pour k et h différents de ℓ, on note qk,h
(n) (respectivement qk,h
(n)) la
probabilité que A (resp. B) gagne au bout de n coups en partant de
l’état (k, h).
A
qk,h
(n) = IP[Xm+n = ℓ, Xm+n−1 6= ℓ, . . . , Xm+1 6= ℓ,
Ym+n−1 6= ℓ, . . . , Ym+1 6= ℓ | (Xm , Ym ) = (k, h)] .
4. On note mk,h la durée moyenne du jeu en partant de l’état (k, h).
mk,h =
+∞
X
A
B
n (qk,h
(n) + qk,h
(n)) .
n=1
Montrer que les mk,h sont solution du système :
∀k, h 6= ℓ ,
mk,h =
ℓ−1
ℓ−1 X
X
p(k,h)(k′ ,h′ ) mk′ ,h′ ,
k′ =0 h′ =0
où les p(k,h)(k′ ,h′ ) désignent les probabilités de transition de la chaîne
{(Xn , Yn ) ; n ∈ IN}.
55
Chaînes de Markov
A
5. On note qk,h
la probabilité que A gagne le jeu en partant de l’état (k, h).
A
qk,h
=
+∞
X
A
qk,h
(n) .
n=1
A
Montrer que les qk,h
sont solution du système :
∀k, h 6= ℓ ,
A
qk,h
=
ℓ−1
ℓ−1 X
X
p(k,h)(k′ ,h′ ) qkA′ ,h′ +
k′ =0 h′ =0
ℓ−1
X
p(k,h)(ℓ,h′ ) .
h′ =0
6. Calculer la durée moyenne du jeu et la probabilité que A gagne dans
les cas suivants :
a) A = (1, 1) ; B = (1, 0).
b) A = (1, 1) ; B = (0, 1).
7. Soient A et B deux mots quelconques. On définit le mot R(A, B) =
(r1 , . . . , rℓ ), qui compte les recouvrements partiels de A par B, de la
façon suivante. Pour tout k = 1, . . . , ℓ,
rk = 1 si (b1 , . . . , bℓ−k+1 ) = (ak , . . . , aℓ )
= 0 sinon .
On note ρ(A), ρ(B), ρ(A, B) et ρ(B, A) les valeurs entières des mots
binaires R(A), R(B), R(A, B) et R(B, A). On admettra la formule donnant la probabilité que A gagne le jeu de Penney :
A
q0,0
=
ρ(B) − ρ(B, A)
.
ρ(B) − ρ(B, A) + ρ(A) − ρ(A, B)
Vérifier les résultats de la question précédente.
8. Calculer la probabilité que A gagne dans les cas suivants :
a) A = (1,1,0,1) ; B = (1,0,1,1).
b) A = (1,0,1,1) ; B = (0,1,1,1).
c) A = (0,1,1,1) ; B = (1,1,0,1).
9. Vérifier par la simulation les résultats de la question précédente. Dans
chacun des trois cas, on donnera un intervalle de confiance pour la
probabilité de gain de A, d’amplitude inférieure à 0.01. On donnera
également un intervalle de confiance pour la durée moyenne de chacune
des trois parties. Les niveaux de confiance sont toujours fixés à 0.99.
Exercice 6 Des objets, nommés x, y1 , y2 , . . . , yN −1 , sont rangés dans un tableau de taille N dans lequel on accède de manière séquentielle. A chaque
accès au tableau, on recherche l’un des N objets, soit x avec probabilité a, soit
l’un des N−1 autres, avec probabilité b pour chacun d’eux (a + (N−1)b = 1).
Le choix à chaque accès est indépendant des recherches précédentes.
Cahier de Mathématiques Appliquées no 11
56
Les probabilités d’accès a et b sont a priori inconnues, mais on soupçonne
que l’objet x est plus fréquemment appelé que les autres. Dans toute la suite
on supposera donc a > b. A chaque accès, on décide de déplacer l’objet
choisi, de manière à ce qu’il soit placé plus près de la tête du tableau s’il est
fréquemment appelé. Deux stratégies sont envisagées.
1. Move ahead : Si l’objet choisi est le premier, il n’est pas déplacé. Sinon,
il est échangé avec l’objet qui le précédait. On note Xn ∈ {1, . . . , N } le
rang de l’objet x dans le tableau à l’issue du n-ième accès.
(a) Montrer que (Xn ) , n ∈ IN est une chaîne de Markov homogène.
(b) Ecrire le diagramme de transition et la matrice de transition de la
chaîne (Xn ).
(c) Soit p = (pi ) , i = 1, . . . , N la mesure stationnaire de la chaîne
(Xn ). Montrer que pour tout i = 2, . . . , N ,
b
pi
= .
pi−1
a
(d) En déduire que la suite des pi est décroissante (on dit que la stratégie est auto-arrangeante).
2. Move to front : Si l’objet choisi est le premier, il n’est pas déplacé.
Sinon, il est placé en tête, et les objets qui le précédaient sont décalés
vers la droite. On note Yn ∈ {1, . . . , N } le rang de l’objet x dans le
tableau à l’issue du n-ième accès.
(a) Montrer que (Yn ) , n ∈ IN est une chaîne de Markov homogène.
(b) Ecrire le diagramme de transition et la matrice de transition de la
chaîne (Yn ).
(c) Soit q = (qi ) , i = 1, . . . , N la mesure stationnaire de la chaîne
(Yn ). Montrer que pour tout i = 2, . . . , N ,
qi
qi−1
=
(N − i + 1)b
.
a + (N − i)b
(d) En déduire que la suite des qi est décroissante.
3. Comparaison :
(a) Montrer que pour tout i = 2, . . . , N ,
qi
pi
<
.
pi−1
qi−1
(b) En déduire que p1 > q1 .
(c) Laquelle des deux stratégies choisiriez-vous ?
57
Chaînes de Markov
(d) Ecrire un programme de simulation pour les deux stratégies. Le
programme prend en entrée le nombre d’objets N , la probabilité
a et un nombre d’itérations T . On suppose qu’à l’origine, l’objet x
est à la place N . A chaque tirage d’objet effectué, la nouvelle place
de x est calculée pour les deux stratégies. Pour N = 1000, a = 0.01
et T = 10000, représenter les deux trajectoires des chaînes (Xn )
et (Yn ). Pour N = 10, a = 0.5 et T = 106 , calculer la distribution empirique des places occupées par x pour chacune des deux
stratégies et tester l’adéquation avec la distribution stationnaire
théorique.
Exercice 7 On place un rat dans le labyrinthe suivant.
1
2
3
4
5
6
7
8
9
1. A chaque fois qu’il se retrouve dans une des 9 cases, le rat choisit
une des portes disponibles au hasard, et indépendamment de ses choix
précédents. Soit Xn le numéro de la n-ième case visitée par le rat.
Montrer que (Xn ) , n ∈ IN est une chaîne de Markov et représenter son
diagramme de transitions.
2. On considère la partition de l’espace d’états en les trois classes suivantes :
a = {1, 3, 7, 9} b = {2, 4, 6, 8} c = {5} .
On note Yn la classe à laquelle appartient Xn . Montrer que (Yn ) , n ∈ IN
est une chaîne de Markov et écrire sa matrice de transition.
3. Déterminer la mesure stationnaire de la chaîne (Yn ). En déduire la
mesure stationnaire de la chaîne (Xn ).
4. Si le rat part de l’un des coins, et franchit une case toutes les secondes,
combien de temps mettra-t-il en moyenne à atteindre le fromage qui se
trouve au centre ?
5. Simuler 10000 trajectoires de la chaîne (Xn ) et vérifier expérimentalement les résultats des questions précédentes.
6. Le rat n’est pas si bête : à chaque fois qu’il a passé une porte, il choisit
sa prochaine porte au hasard parmi les portes disponibles différentes de
celle qu’il vient d’emprunter. A la n-ième porte franchie, on note Zn le
couple formé des numéros de la case de départ et de la case d’arrivée.
Montrer que (Zn ) , n ∈ IN) est une chaîne de Markov et représenter son
diagramme de transitions.
Cahier de Mathématiques Appliquées no 11
58
7. Sous ces nouvelles hypothèses, montrer que (Xn ) n’est pas une chaîne
de Markov.
8. On définit Tn par :
Tn = (x, y) ⇐⇒ Zn ∈ x × y ,
où x et y sont deux éléments quelconques de {a, b, c}. Montrer que
(Tn ) , n ∈ IN est une chaîne de Markov et représenter son diagramme
de transitions.
9. Si le rat part de l’un des coins, et franchit une case toutes les secondes,
combien de temps mettra-t-il en moyenne à atteindre le fromage qui se
trouve au centre ?
10. Simuler 10000 trajectoires de la chaîne (Zn ) et vérifier epérimentalement le résultat de la question précédente.
Exercice 8
1. Ecrire un algorithme de simulation approchée par chaîne de Markov
pour la loi uniforme sur :
(a) L’ensemble des vecteurs (k1 , . . . , kd ), à coefficients entiers positifs
ou nuls, tels que k1 + · · · + kd = n (les entiers d et n sont fixés).
(b) La sphère unité de IRd .
(c) L’ensemble des sous ensembles à n éléments d’un ensemble à d
éléments.
(d) L’ensemble des tables de contingence de taille d, de marges fixées.
Une table de contingence A est une matrice d×d à coefficients entiers positifs ou nuls, où L = A11 (sommes par lignes) et C = tA11
(sommes par colonnes) sont des vecteurs fixés (tels que t 11L =
t
11C).
(e) L’ensemble des arbres à d sommets.
(f) L’ensemble des graphes connexes à d sommets.
2. Ecrire un algorithme de Metropolis pour la simulation approchée des
lois de probabilité suivantes.
(a) La loi sur l’ensemble des vecteurs d’entiers (k1 , . . . , kd ) de somme
n qui est telle que la probabilité d’un vecteur soit proportionnelle
à sa première coordonnée.
(b) La loi sur la sphère unité de IRd dont la densité est proportionnelle
au carré de la première coordonnée.
(c) La loi sur l’ensemble des sous-ensembles à n éléments de {1, . . . , d},
telle que la probabilité d’un sous-ensemble soit proportionnelle à
la somme de ses éléments.
59
Chaînes de Markov
(d) La loi sur l’ensemble des tables de contingence de taille d, de
marges fixées, telle que la probabilité d’une table de contingence
soit proportionnelle à la somme des éléments de sa diagonale principale.
(e) La loi sur l’ensemble des arbres à d sommets, telle que la probabilité d’un arbre soit proportionnelle à son diamètre (nombre
maximum d’arêtes dans un chemin minimal joignant deux sommets).
(f) La loi sur l’ensemble des graphes connexes à d sommets, telle que la
probabilité d’un graphe connexe soit proportionnelle à son nombre
d’arêtes.
Exercice 9 Soit F (les filles) et G (les garçons) deux ensembles finis non
vides. On appelle “noce” un ensemble N ⊂ F × G de couples tel que :
∀f ∈ F , |{g ∈ G ; (f, g) ∈ N }| ≤ 1 et ∀g ∈ G , |{f ∈ F ; (f, g) ∈ N }| ≤ 1 .
(Chaque individu a au plus un conjoint, mais peut rester célibataire.) On
note E l’ensemble des noces. On note πF et πG les projections canoniques,
de sorte que πF (N ) est l’ensemble des filles mariées, et πG (N ) l’ensemble des
garçons mariés de la noce N .
1. L’algorithme A suivant simule une chaîne de Markov sur E.
N = ∅ ; n ←− 0
Répéter
choisir f ∈ F avec probabilité 1/|F |
choisir g ∈ G avec probabilité 1/|G|
Selon ((f, g))
cas ((f, g) ∈ N )
alors N ←− N \ {(f, g)}
cas (f ∈
/ πF (N ) et g ∈
/SπG (N ))
alors N ←− N {(f, g)}
finSelon
n ←− n+1
Jusqu’à (arrêt de la simulation)
(ils sont mariés ensemble)
(divorce)
(ils sont célibataires)
(mariage)
(a) Expliciter les probabilités de transition de cette chaîne. Montrer
qu’elle est irréductible et apériodique. Montrer qu’elle admet la loi
uniforme sur E comme mesure réversible.
(b) Dans le cas |F | = |G| = 2, l’ensemble E a 7 éléments. Représenter
le diagramme de transitions de la chaîne entre ces 7 éléments.
2. L’algorithme B suivant simule une autre chaîne de Markov sur E.
N = ∅ ; n ←− 0
Répéter
Cahier de Mathématiques Appliquées no 11
60
choisir f ∈ F avec probabilité 1/|F |
choisir g ∈ G avec probabilité 1/|G|
Selon ((f, g))
cas ((f, g) ∈ N )
(ils sont mariés
ensemble)
alors N ←− N \ {(f, g)}
cas (f ∈
/ πF (N ) et g ∈
/SπG (N ))
(ils sont célibataires)
alors N ←− N {(f, g)}
cas ((f, g ′ ) ∈ N et (f ′ , g) ∈ N )
(ils sont mariés
ailleurs)
S
alors N ←− (N \ {(f, g ′ ), (f ′ , g)}) {(f, g), (f ′ , g ′ )}
cas (f ∈
/ πF (N ) et (f ′ , g) ∈ N )
(elle est libre, pas
lui)
S
alors N ←− (N \ {(f ′ , g)}) {(f, g)}
cas (g ∈
/ πG (N ) et (f, g ′ ) ∈ N ) S (il est libre, pas elle)
alors N ←− (N \ {(f, g ′ )}) {(f, g)}
finSelon
n ←− n+1
Jusqu’à (arrêt de la simulation)
Reprendre a), b) et c) de la question précédente pour ce nouvel algorithme.
3. Ecrire un algorithme qui simule une chaîne de Markov admettant pour
mesure réversible la loi de probabilité sur E telle que la probabilité
d’une noce N soit proportionnelle à λ|N | , où λ est un réel supérieur à
1 fixé.
4. Chaque individu a ses préférences, qui sont des réels strictement positifs : pf (g) est la préférence de la fille f pour le garçon g, cf est sa
préférence pour le célibat. De même qg (f ) est la préférence du garçon
g pour la fille f , et dg sa préférence pour le célibat. (Il peut malheureusement arriver que cf > pf (g) ∀g, alors que ∀g , qg (f ) > dg ).
On définit l’“harmonie” comme la fonction h qui à une noce N associe :
X
X
X
h(N ) =
(pf (g) + qg (f )) +
cf +
dg .
(f,g)∈N
f ∈π
/ F (N )
g ∈π
/ G (N )
Le but du jeu est évidemment de trouver une noce dans :
Emax = { N ∈ E t.q. h(N ) ≥ h(N ′ ) , ∀N ′ ∈ E } .
Ecrire un algorithme qui simule une chaîne de Markov admettant pour
mesure réversible la loi de probabilité sur E telle que la probabilité
1
d’une noce N soit proportionnelle à e− T h(N ) , où T est un réel strictement positif fixé. Montrer que quand T décroît vers 0, cette loi de
probabilité converge vers la loi uniforme sur Emax .
61
Chaînes de Markov
Exercice 10 Soit N un entier. On note (XnN , YnN )n∈IN la marche aléatoire
sur IR × IR, partant de (X0N , Y0N ) = (0, 1), telle que les suites de variables
N
N
− XnN ) et (Yn+1
− YnN ) soient indépendantes entre elles,
aléatoires (Xn+1
formées de variables indépendantes et de même loi :
N
N
IP[Xn+1
− XnN = −1/N ] = IP[Xn+1
− XnN = 1/N ] = 1/2 ,
N
N
IP[Yn+1
− YnN = −1/N ] = IP[Yn+1
− YnN = 1/N ] = 1/2 .
A chaque pas la marche choisit au hasard entre les 4 points diagonalement
opposés sur les 4 carrés de côté 1/N voisins.
Première partie
On s’intéresse à l’instant de sortie et à l’abscisse de sortie de la marche
aléatoire ainsi définie hors du demi plan supérieur.
L’instant de sortie est la variable aléatoire T N définie par :
T N = k ⇐⇒ YiN > 0 ∀i < k et YkN = 0 .
L’abscisse de sortie U N est l’abscisse de la marche aléatoire à l’instant de
sortie T N .
T N = k =⇒ U N = XkN .
1. Déterminer la fonction génératrice de T N .
2. En déduire la fonction caractéristique de U N .
3. Montrer que la suite (U N ) converge en loi, quand N tend vers l’infini,
vers la loi de Cauchy, de densité :
1
.
π(1 + x2 )
4. Implémenter un algorithme de simulation de la marche aléatoire, de
manière à réaliser une étude expérimentale du comportement asymptotique de T N et U N . Les sorties attendues sont par exemple :
– les courbes des intervalles de confiance de niveau 0.99 pour les espérances de T N et U N en fonction de N .
– des histogrammes de T N , pour N “assez grand”.
– des histogrammes de U N , pour N “assez grand”, superposés avec la
densité de la loi de Cauchy.
5. On modifie la loi des pas de la marche aléatoire qui se déplace maintenant verticalement et horizontalement au lieu de se déplacer en diagonale :
N
N
− YnN ) = (1/N, 0)]
IP[(Xn+1
− XnN , Yn+1
=
N
N
IP[(Xn+1
− XnN , Yn+1
− YnN ) = (0, 1/N )]
=
N
N
− YnN ) = (−1/N, 0)] =
− XnN , Yn+1
IP[(Xn+1
N
N
IP[(Xn+1
− XnN , Yn+1
− YnN ) = (0, −1/N )] = 1/4 .
Cahier de Mathématiques Appliquées no 11
62
Qu’est-ce qui change dans l’étude précédente ?
Deuxième partie
On s’intéresse maintenant à l’instant de sortie et à l’abscisse de sortie de
la marche aléatoire hors de la bande de plan IR×]0, 2[.
L’instant de sortie est la variable aléatoire T N définie par :
T N = k ⇐⇒ 0 < YiN < 2 ∀i < k et YkN ∈ {0, 2} .
Soient U N et V N l’abscisse et l’ordonnée de la marche aléatoire à l’instant
de sortie T N .
T N = k =⇒ (U N , V N ) = (XkN , YkN ) .
1. Montrer que U N et V N sont indépendantes. Quelle est la loi de V N ?
Montrer que la loi de U N est symétrique :
∀k ∈ IN IP[U N = k] = IP[U N = −k] .
2. Déterminer la fonction génératrice de T N .
3. En déduire la fonction caractéristique de U N .
4. Montrer que la suite (U N ) converge en loi, quand N tend vers l’infini,
vers une loi dont la densité est a/ cosh(bx), où a et b sont des paramètres
à calculer.
5. Reprendre les questions 4 et 5 de la première partie.
Exercice 11 Le but de l’exercice est d’étudier le comportement asymptotique de marches aléatoires sur ZZd .
1. Soit (Un ) , n ∈ IN une suite de variables aléatoires indépendantes et de
même loi, telles que IP[Un = 1] = p et IP[Un = −1] = 1−p. On définit
une marche aléatoire sur ZZ par X0 ∈ ZZ (indépendante de la suite (Un )
et pour tout n ≥ 0 :
Xn+1 = Xn + Un .
(n)
On note px,x la probabilité que la chaîne soit en x au n-ième pas, si
(n)
elle est partie de x. Montrer que px,x est nul si n est impair. Pour tout
m ≥ 1, montrer que :
2m m
p(2m)
=
p (1 − p)m .
x,x
m
(2m)
Donner un équivalent de px,x quand m tend vers l’infini. En déduire
que (Xn ) est récurrente nulle pour p = 1/2 et transiente sinon.
2. Pour d ≥ 1, considérons d chaînes de Markov indépendantes
(Xn(1) ), . . . , (Xn(d) ) ,
Chaînes de Markov
63
chacune de même loi que la chaîne (Xn ) de la question précédente.
(1)
(d)
Pour n ∈ IN, on note Zn le n-uplet (Xn , . . . , Xn ). Montrer que (Zn )
d
est une chaîne de Markov. Pour z ∈ ZZ . Calculer IP[Zn = z | Z0 = z].
Montrer que la chaîne est récurrente nulle si p = 1/2 et d = 1 ou 2,
transiente dans tous les autres cas.
3. Pour d = 1, 2, . . . , 10, simuler une trajectoire de la chaîne (Zn ) jusqu’au temps n = 106 , partant de Z0 = 0. Représenter la trajectoire des
variables aléatoires kZn k, où k · k désigne la norme euclidienne.
4. Pour d = 1, 2, . . . , 10, simuler 10000 trajectoires de la chaîne (Zn )
jusqu’au temps n = 100, partant de Z0 = 0. Représenter sur un
même graphique un histogramme des réalisations de kZn k, pour n =
10, 20, . . . , 100. Représenter en fonction de n une estimation de IE[kZn k].
Exercice 12 On considère une file d’attente à un seul serveur. Les clients
arrivent un par un, à chaque unité de temps. Pour la n-ième unité de temps,
on donne au serveur un quota Dn de clients à servir : si moins de Dn clients
sont présents, ils sont tous servis, sinon Dn sont servis. Les Dn sont des
variables aléatoires indépendantes et de même loi q = (qk ) sur IN. Le nombre
de clients présents dans le système à la n-ième unité de temps est noté Xn .
Il est défini par :
Xn+1 = max{0, Xn + 1 − Dn } ,
donc (Xn ) est une chaîne de Markov. On note ρ le coefficient d’occupation
de la file, de sorte que l’espérance de Dn est 1/ρ.
1. Montrer que pour tout n ≥ 1, Xn ≥ X0 + n − (D1 + · · · + Dn ). En
déduire que la chaîne est transiente pour ρ > 1.
2. Si X0 = 0, montrer que D1 + · · · + Dn > n entraîne qu’il existe m ≤ n
tel que Xm = 0. En déduire que la chaîne (Xn ) est récurrente pour
ρ < 1.
3. On note g la fonction génératrice de la loi q. On suppose q0 > 0 et
ρ < 1. Montrer que l’équation g(z) = z admet une solution strictement
comprise entre 0 et 1, que l’on notera η.
4. Pour tout i ∈ IN, on pose πi = (1−η)η i . Montrer que la mesure π = (πi )
(loi BN (1, 1−η)) est stationnaire pour la chaîne (Xn ).
ρ
). Montrer que la mesure
5. On suppose que la loi q est la loi BN (1, 1+ρ
stationnaire est la loi BN (1, 1−ρ).
6. On choisit pour q la loi de Poisson de paramètre 1/ρ. Pour ρ = 0.99
puis ρ = 1.01, simuler une trajectoire de la chaîne (Xn ) sur 10000 pas.
Représenter graphiquement les trajectoires obtenues, et comparer avec
les figures 9 et 10. Pour ρ = 0.1, 0.2, . . . , 0.9, calculer numériquement la
valeur de η. Simuler une trajectoire jusqu’au temps 106 , et calculer les
fréquences empiriques de chacun des états visités. Tester l’ajustement
de cette distribution empirique avec la loi BN (1, 1−η).
Index
Markov, 3
matrice
de sélection, 34
de transition, 5
mesure
réversible, 32
stationnaire, 23, 43
mouvement brownien, 4, 5
algorithme
de Metropolis, 34
itératif, 3, 9
markovien, 3
chaîne
de Markov, 3
récurrente nulle, 39
récurrente positive, 41
transiente, 39, 41
Chapmann-Kolmogorov, 16
classe
irréductible, 19
périodique, 20, 29
récurrente nulle, 21
récurrente positive, 21, 29
transiente, 21
classification des états, 19
périodique
état, 20
classe, 20, 29
probabilité
de premier passage, 16, 30
de transition, 15, 20
Random, 3
récurrent
nul, 20
positif, 20
ruine du joueur, 35
diagramme de transition, 6, 22
état
simulation
d’une chaîne de Markov, 3
simulation d’une chaîne de Markov, 8
stables d’un graphe, 10, 34
absorbant, 31, 36, 44
ergodique, 20
périodique, 20
récurrent nul, 20, 39
récurrent positif, 20
transient, 20, 29, 39
temps moyen
de premier passage, 17
de premier retour, 20
théorème
de Perron-Frobenius, 25
ergodique, 24
transition
diagramme de, 6
matrice de, 5
probabilité de, 15
file d’attente, 40
Galton-Watson, 44
génétique, 11
gestion de stock, 14
irréductible
classe, 19
lois marginales, 16
marche aléatoire, 4
sur un groupe, 4
symétrique, 6, 11, 33
64
Téléchargement