1 Cahier de Mathématiques Appliquées no 11 Chaînes de Markov B. Ycart Un modèle d’évolution dynamique en temps discret dans lequel on fait dépendre l’évolution future de l’état présent et du hasard est une chaîne de Markov. On en rencontre dans de nombreux domaines d’applications, des sciences de la vie à l’informatique. Ces notes traitent surtout les chaînes à espaces d’états finis, et mettent l’accent sur le traitement algébrique à partir des matrices de transition. Le matériel présenté reste à un niveau élémentaire, et se trouve dans la plupart des références classiques, comme les livres suivants. N. Bouleau Processus stochastiques et applications. Hermann, Paris, 1988. W. Feller Introduction to probability theory and its applications, Vol. 1. Wiley, London, 1968. J.G. Kemeny, L. Snell Finite Markov chains. Van Nostrand, Princeton, 1960. Ce “cahier de mathématiques appliquées” doit beaucoup aux relectures scrupuleuses de Romain Abraham, au dynamisme de Sylvie Sevestre-Ghalila, au soutien de l’Ecole Supérieure de la Statistique et de l’Analyse de l’Information de Tunisie, par son directeur Makki Ksouri et son directeur des études Nacef Elloumi, ainsi qu’à la compétence de Habib Bouchriha, directeur du Centre des Publications Universitaires de la Tunisie. 2 Cahier de Mathématiques Appliquées no 11 Table des matières 1 Modèles markoviens 1.1 Définition algorithmique . . . . . . 1.2 Espace d’états fini ou dénombrable 1.3 Informatique . . . . . . . . . . . . 1.4 Génétique . . . . . . . . . . . . . . 1.5 Planification économique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 9 11 13 2 Traitement mathématique 2.1 Formules récurrentes . . . . . 2.2 Classification des états . . . . 2.3 Mesures stationnaires . . . . 2.4 Comportement asymptotique 2.5 Mesures réversibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 19 24 29 32 3 Modèles sur IN 3.1 Le problème de la ruine du joueur . . . . . . . . . . . . . . . 3.2 Un modèle simple de file d’attente . . . . . . . . . . . . . . . 3.3 Le problème de l’extinction du nom . . . . . . . . . . . . . . 36 36 40 44 4 Exercices 48 . . . . . . . . . . . . . . . 3 Chaînes de Markov 1 Modèles markoviens 1.1 Définition algorithmique Une chaîne de Markov est classiquement définie comme une suite de variables aléatoires pour laquelle la meilleure prédiction que l’on puisse faire pour l’étape n + 1 si on connaît toutes les valeurs antérieures est la même que si on ne connaît que la valeur à l’étape n (le futur et le passé sont indépendants conditionnellement au présent). Nous partons ici d’une définition moins classique, mais plus proche des applications. Définition 1.1 Soit E un espace mesurable. Une chaîne de Markov sur E est une suite de variables aléatoires (Xn ) , n ∈ IN à valeurs dans E telle qu’il existe : 1. une suite (Un ) , n ∈ IN de variables aléatoires indépendantes et de même loi, à valeurs dans un espace probabilisé U , 2. une application mesurable Φ de IN × E × U dans E vérifiant : ∀n ∈ IN , Xn+1 = Φ(n, Xn , Un ) . On distingue plusieurs cas particuliers. • Si l’application Φ ne dépend pas de n, la chaîne est dite homogène. • Si l’application Φ ne dépend pas de x, la chaîne est une suite de variables indépendantes. Si Φ ne dépend ni de n ni de x, ces variables indépendantes sont de plus identiquement distribuées. • Si l’application Φ ne dépend pas de u, Φ définit un système itératif. La chaîne est une suite récurrente (déterministe si sa valeur initiale est déterministe). Toutes les chaînes de Markov que nous considérons ici sont homogènes. On peut toujours passer du cas non homogène au cas homogène en remplaçant Xn par le couple (n, Xn ). C’est évidemment aux appels d’un générateur pseudo-aléatoire qu’il faut penser pour la suite (Un ) de la définition 1.1. Nous désignons par Random un générateur pseudo-aléatoire, qui “retourne des réels au hasard entre 0 et 1”. En d’autres termes, nous supposons que tout vecteur constitué d’appels successifs de Random est une réalisation d’un vecteur de variables aléatoires indépendantes et de même loi, uniforme sur l’intervalle [0, 1]. En pratique une chaîne de Markov est simulée de manière itérative comme le dit la définition 1.1. Une initialisation dans E est d’abord choisie (aléatoire ou non). Puis chaque nouveau pas est simulé selon une loi de probabilité dépendant du point atteint précédemment. Cette simulation utilise un ou plusieurs appels de Random successifs, qui constituent la variable Un . Cahier de Mathématiques Appliquées no 11 4 En toute rigueur, les chaînes de Markov au sens de la définition 1.1 devraient s’appeler “chaînes de Markov simulables”. Elles vérifient la propriété suivante, dite “propriété de Markov”. Proposition 1.2 Soit (Xn ), n ∈ IN une chaîne de Markov. Pour tout n ≥ 0 et pour toute suite d’états i0 , . . . , in ∈ E, la loi conditionnelle de Xn+1 sachant “X0 = i0 , . . . , Xn = in ” est égale à la loi conditionnelle de Xn+1 sachant “Xn = in ”. Démonstration : Notons IP la loi de probabilité conjointe de X0 et de la suite (Un ). D’après la définition 1.1, Un est indépendante de X0 , . . . , Xn . Pour tout sous ensemble mesurable B de E, on a : IP[Xn+1 ∈ B | X0 = i0 , . . . , Xn = in ] = IP[Φ(Xn , Un ) ∈ B | X0 = i0 , . . . , Xn = in ] = IP[Φ(in , Un ) ∈ B] = IP[Xn+1 ∈ B | Xn = in ] . Cette propriété d’“oubli du passé” constitue la définition classique des chaînes de Markov. Il est naturel de se demander s’il existe des chaînes de Markov, au sens de la proposition 1.2, qui ne soient pas simulables. Il n’en existe pas si E est dénombrable, ou si E est IRd , muni de sa tribu de boréliens. On n’en rencontrera donc jamais en pratique. Exemple : Marches aléatoires. Soit (Un ), n ∈ IN une suite de variables aléatoires indépendantes et de même loi sur IRd . La suite de variables aléatoires (Xn ), n ∈ IN définie par X0 ∈ IRd et : ∀n , Xn+1 = Xn + Un , est une chaîne de Markov. Comme cas particulier, si Un suit la loi normale Nd (0, hId ), on obtient une discrétisation du mouvement brownien standard sur IRd (figure 1). Plus généralement, soit (G, ∗) un groupe topologique quelconque, muni de sa tribu des boréliens. Soit π une loi de probabilité sur G, et (Un ) une suite de variables aléatoires de même loi π sur G. La suite de variables aléatoires définie par X0 ∈ G et pour tout n ≥ 0 : Xn+1 = Xn ∗ Un , est une chaîne de Markov sur G, dite “marche aléatoire de pas π”. Les marches aléatoires sur les groupes constituent un cas particulier important des chaînes de Markov. 5 Chaînes de Markov Brownien standard dans le plan 10 5 . 0 -5 -10 -10 -5 0 5 10 Figure 1 – Mouvement brownien standard dans le plan : trajectoire jusqu’en t = 10. 1.2 Espace d’états fini ou dénombrable Lorsque E = {i, j, . . .} est un ensemble fini ou dénombrable, la loi de la variable aléatoire Φ(n, i, Un ) (définition 1.1) avec laquelle on tire le pas n+1 à partir du pas n, est habituellement notée sous forme matricielle. Si la chaîne est homogène, cette loi ne dépend pas de n. Dans ce cas, on note pij la probabilité de choisir l’état j à partir de l’état i : pij = IP[Φ(i, Un ) = j] = IP[Xn+1 = j | Xn = i] , ∀i, j ∈ E . Dans la relation ci-dessus, IP désigne encore la loi conjointe de X0 et de la suite (Un ). La probabilité pij porte le nom de “probabilité de transition de i à j”. La matrice : P = (pij )i,j∈E , est la matrice de transition de la chaîne. Dans ce qui suit, la définition usuelle des matrices est étendue au cas dénombrable, les vecteurs indicés par E sont des vecteurs colonnes. La matrice de transition a des coefficients positifs ou nuls, et la somme des éléments d’une même ligne vaut 1. Comme nous le verrons dans les exemples des paragraphes suivants, il arrive fréquemment dans les applications que pour un état i donné, le nombre d’états j directement accessibles depuis i (tels que pij > 0) soit faible. La matrice de transition est alors très creuse (elle contient beaucoup de zéros). Il est plus économique de résumer les probabilités de transitions par le diagramme de transition. C’est un graphe orienté et pondéré, dont l’ensemble des sommets est E. Une arête Cahier de Mathématiques Appliquées no 11 6 de poids pij va de i à j si pij > 0 (voir par exemple les figures 3, section 2.2 et 4, section 2.4). Exemple : Marche aléatoire symétrique sur un graphe. Supposons E muni d’une structure de graphe non orienté G = (E, A), où A Marche symetrique dans le plan 20 10 . 0 -10 -20 -20 -10 0 10 20 Figure 2 – Marche aléatoire symétrique dans le plan : 200 pas, partant de l’origine. désigne l’ensemble des arêtes : n o A ⊂ {i, j} , i, j ∈ E . Les sommets j tels que {i, j} ∈ A sont les voisins de i, et on suppose que leur nombre (le degré de i) est borné : on note r le degré maximal. o n r = sup {j ∈ E : {i, j} ∈ A} , i∈E où | · | désigne le cardinal d’un ensemble fini. Définissons la matrice de transition P = (pij ) par : 1 pij = si {i, j} ∈ A , r = 0 si {i, j} ∈ /A, les coefficients diagonaux étant tels que la somme des éléments d’une même ligne vaut 1. La chaîne de Markov de matrice de transition P s’appelle marche aléatoire symétrique sur le graphe G. Considérons par exemple E = ZZd , muni 7 Chaînes de Markov de sa structure de réseau habituelle : n o A = {i, j} ∈ (ZZd )2 , ki − jk = 1 , où k · k désigne la norme euclidienne. La marche aléatoire symétrique sur ce graphe (figure 2) est aussi une marche aléatoire sur le groupe (ZZd , +), dont le pas est la loi uniforme sur l’ensemble des 2d vecteurs de ZZd de norme 1. Il existe une analogie étroite entre les chaînes de Markov symétriques et les réseaux électriques. Les états de E sont vus comme les sommets d’un réseau, reliés par des lignes électriques. L’analogue de la probabilité de transition pij est la conductance (inverse de la résistance) de la ligne reliant i à j. L’algorithme de simulation d’une chaîne de Markov homogène de matrice de transition P est le suivant. n ←− 0 Initialiser X Répéter i ←− X (état présent) choisir j avec probabilité pij X ←− j (état suivant) n ←− n+1 Jusqu’à (arrêt de la simulation) L’algorithme ci-dessus correspond bien à la définition 1.1, dans la mesure où les choix successifs sont effectués à l’aide d’appels de Random renouvelés à chaque itération (considérés comme indépendants des précédents). Supposons par exemple que la loi (pij )j∈E soit simulée par inversion. Notons : • Un le n-ième appel de Random. • Φ l’application de E × [0, 1] dans E qui au couple (i, u) associe l’inverse de la fonction de répartition de la loi (pij )j∈E , évalué en u. L’algorithme calcule bien Xn+1 = Φ(Xn , Un ). Ceci a une portée plutôt théorique. Il ne faut pas en déduire que c’est forcément par inversion que l’on doit simuler la loi (pij )j∈E . Dans certains cas un autre type de simulation (par exemple par rejet ou décomposition) pourra s’avérer plus efficace. Exemple : Voici une matrice de transition sur E = {a, b, c, d, e}. a b c d e a 0.2 0.2 0.2 0.2 0.2 b 0 0.2 0.3 0 0.5 P = c 0.3 0.3 0 0.4 0 d 0 0.3 0.3 0.3 0.1 e 0 1 0 0 0 Cahier de Mathématiques Appliquées no 11 8 L’algorithme ci-après simule une chaîne de Markov de matrice de transition P . Il n’est pas optimal mais il illustre quelques méthodes standard. Dans le logiciel Scilab, la fonction grand(n,’markov’,P,x0) retourne une réalisation des n premiers pas d’une chaîne de Markov de matrice de transition P, partant de l’état initial x0. Tableau E = [a, b, c, d, e] n ←− 0 Initialiser X Répéter i ←− X (état présent) Selon i i = a : j ←− E[Random({1, . . . , 5})] i = b : Choix ←− Random Si (Choix < 0.5) alors j ←− e sinon Si (Choix < 0.8) alors j ←− c sinon j ←− b finSi finSi i = c : Choix ←− Random Si (Choix < 0.4) alors j ←− d sinon j ←− E[Random({1, 2})] finSi i = d : Répéter Test ←− Vrai j ←− E[Random({2, . . . , 5})] Si j = e alors Si (Random > 1/3) alors Test ←− Faux finSi finSi Jusqu’à (Test=Vrai) i = e : j ←− b finSelon X ←− j (état suivant) n ←− n+1 Jusqu’à (arrêt de la simulation) La loi d’une chaîne de Markov (Xn ) est entièrement déterminée par la donnée de la loi de X0 et de la matrice de transition P , au sens où pour tout n, la loi conjointe de (X0 , . . . , Xn ) s’exprime en fonction de la loi de X0 et de P . Chaînes de Markov 9 Proposition 1.3 Soit (Xn ) une chaîne de Markov homogène de matrice de transition P . Pour toute suite d’états i0 , i1 , . . . , in de E, on a : IP[X0 = i0 et . . . et Xn = in ] = IP[X0 = i0 ] pi0 i1 . . . pin−1 in . Démonstration : La formule est vraie pour n = 0. Supposons-la vraie pour n. Si IP[X0 = i0 et . . . et Xn = in ] = 0 , alors pour tout in+1 , IP[X0 = i0 et . . . et Xn+1 = in+1 ] = 0 . Sinon, on peut conditionner par “X0 = i0 et . . . et Xn = in ” : IP[X0 = i0 et . . . et Xn+1 = in+1 ] = IP[Xn+1 = in+1 | X0 = i0 et . . . et Xn = in ]IP[X0 = i0 et . . . et Xn = in ] = IP[Xn+1 = in+1 | Xn = in ]IP[X0 = i0 et . . . et Xn = in ] = pin in+1 IP[X0 = i0 et . . . et Xn = in ] . Le résultat est donc vrai à l’ordre n + 1. Dans les paragraphes suivants, nous décrivons des exemples de chaînes de Markov, intervenant dans différents types d’applications. 1.3 Informatique Tout algorithme itératif faisant intervenir une source de nombres aléatoires simule en fait une chaîne de Markov. Il n’est donc pas étonnant que les applications des chaînes de Markov en algorithmique soient nombreuses. Le premier exemple que nous donnerons concerne la recherche de préfixes dans un fichier binaire. On recherche un mot binaire donné dans un fichier. Quel sera le coût de l’algorithme ? En algorithmique, on donne en général deux réponses à ce type de question : le cas le pire, et le cas le plus favorable. Ici les deux réponses sont triviales : au mieux on trouvera le mot cherché immédiatement, au pire, on ne le trouvera qu’à la fin du fichier. Comme dans de nombreux autres cas, une analyse probabiliste donne une réponse plus intéressante, car plus proche des situations rencontrées en pratique. L’analyse probabiliste d’un algorithme consiste à supposer que l’entrée est aléatoire, et à déterminer la loi de la variable égale au coût de l’algorithme pour cette entrée. Ici, supposons que les bits du fichier soient des variables aléatoires de même loi, uniforme sur {0, 1}. On peut reformuler le problème en termes du jeu de pile ou face. Si on joue à pile ou face avec une pièce équilibrée, jusqu’à ce qu’apparaisse un mot donné de l’alphabet {P, F }, combien devra-t-on attendre ? Si deux joueurs 10 Cahier de Mathématiques Appliquées no 11 jouent chacun deux mots différents, jusqu’à ce que le premier des deux mots apparaisse, combien de temps le jeu durera-t-il ? Quelle est la probabilité de gain de chacun des deux joueurs ? On répond à ces questions en étudiant des chaînes de Markov. Soit (Un ) la suite des tirages (indépendants de loi uniforme sur {0, 1}). Soit A = (ai )1≤i≤l le mot binaire cherché, de longueur l. Pour tout k = 1, . . . , l, on note Ak le mot A tronqué à ses k premières lettres : ∀k = 1, . . . , l , Ak = (ai )1≤i≤k . Pour tout entier n on définit la variable aléatoire Xn , à valeurs dans {0, . . . , l} comme le nombre de bits parmi les derniers tirages jusqu’au n-ième qui coïncident avec le début de A. Xn = 0 si n = 0 ou ∀k = 1, . . . , l (Un−k+1 , . . . , Un ) 6= Ak Xn = k ∈ {1 . . . , l−1} si (Un−k+1 , . . . , Un ) = Ak et (Un−k−i , . . . , Un ) 6= Ak+i+1 , ∀i = 0, . . . , l−k−1 Xn = l si (Un−l+1 , . . . , Un ) = Al = A . Un vérifie facilement que (Xn ) est une chaîne de Markov. L’expression des probabilités de transition pij dépend du mot A (cf. exercice 5). Le temps d’atteinte du mot cherché est le premier indice n tel que Xn = l. Sa loi dépend également du mot A. Les chaînes de Markov interviennent aussi dans la modélisation du fonctionnement des réseaux informatiques. Notre second exemple est un modèle simple de ressources partagées. Considérons un réseau constitué d’unités, représentées par les sommets d’un graphe, qui partagent des ressources, représentées par des arêtes. Une unité ne peut fonctionner que si les unités voisines, avec lesquelles elle partage des ressources, ne fonctionnent pas. Comment faire en sorte que les temps de fonctionnement soient également répartis entre les unités ? Une des réponses possibles consiste à définir la suite des configurations de fonctionnement comme une chaîne de Markov. Notons S l’ensemble des sommets (unités) et B l’ensemble des arêtes (ressources). Nous identifierons une configuration possible à l’ensemble des unités qui fonctionnent dans cette configuration. Si une unité appartient à un tel ensemble, aucune de ses voisines sur le graphe ne peut y appartenir. En théorie des graphes, un sous-ensemble de sommets qui ne contient pas deux sommets voisins s’appelle un stable. L’ensemble E des états de notre modèle est donc l’ensemble des stables du graphe (S, B). Une configuration initiale étant donnée, l’évolution de la chaîne se fait comme suit. A chaque étape on choisit une unité au hasard. Si elle fonctionne, on la met au repos. Sinon, et si toutes ses voisines sont au repos, on la met en fonctionnement. Remarquons qu’à partir d’une configuration donnée, on ne peut atteindre qu’une configuration différant de la première par une coordonnée au plus. Chaînes de Markov 11 Chaque ligne de la matrice de transition comporte donc au plus |S| termes non nuls. Voici l’algorithme, écrit en termes d’ensembles stables. R ←− ∅ t ←− 0 Répéter choisir x au hasard dans S Si (x ∈ R) alors R ←− R \ {x} sinon Si (∀y ∈ R , {x, y} ∈ / B) alors R ←− R ∪ {x} finSi finSi t ←− t + 1 Jusqu’à (arrêt de la simulation) L’ensemble des stables E est un sous-ensemble de l’ensemble E ′ de tous les sous-ensembles de S. E ′ est naturellement muni d’une structure de graphe (hypercube), pour laquelle deux sous-ensembles sont voisins s’ils diffèrent en un seul élément. L’algorithme ci-dessus simule la marche aléatoire symétrique sur cet hypercube (à chaque pas on choisit un élément de S au hasard, on le rajoute à l’ensemble courant s’il n’y était pas, on le retranche sinon). Pour obtenir une marche aléatoire symétrique sur l’ensemble des stables, il suffit d’imposer la contrainte que l’on ne peut rajouter un élément x à R que si R ∪ {x} est encore stable. 1.4 Génétique La transmission des patrimoines génétiques au cours des générations successives est un exemple standard de chaîne de Markov : le génotype de chaque individu ne dépend de ceux de ses ancêtres qu’à travers ses parents. Le premier modèle de génétique qui ait été introduit est extrêmement rudimentaire. Il s’agit de suivre la répartition d’un gène particulier, noté g, au cours de générations successives, dans une population dont la taille reste fixée. Les individus sont supposés n’avoir qu’un seul chromosome, porteur ou non du gène g. Ce chromosome provient d’un parent unique, choisi au hasard dans la génération précédente. Tout se passe comme si les chromosomes de la génération n constituaient un pool de taille N , dans lequel les N chromosomes de la génération n + 1 sont tirés au hasard avec remise. Le nombre de chromosomes porteurs du gène g est noté Xn . La suite (Xn ) constitue une chaîne de Markov. Les hypothèses de modélisation conduisent à dire que la loi conditionnelle de Xn+1 sachant “Xn = i” est la loi binomiale de paramètres N et i/N . Remarquons que si Xn = 0 ou Xn = N , alors la chaîne est constante à partir de la génération n : on dit que ces états sont “absorbants” (cf. section 2.4). Pour tout i, j = 0, . . . , N , la probabilité de transition de i à Cahier de Mathématiques Appliquées no 11 12 j s’écrit donc : pij = i N −j N i j 1− . j N N Bien évidemment, les hypothèses de ce modèle sont beaucoup trop restrictives pour être applicables aux populations humaines. D’autres modèles ont été introduits, comme le modèle de Moran. Il considère des générations successives, sans intersections, pour lesquelles le nombre de mâles est fixé à N1 et le nombre de femelles à N2 . Le gène d’intérêt est g. Pour chaque individu, il peut apparaître sur un chromosome paternel, ou sur le chromosome maternel de la même paire. L’état de la population à la n-ième génération est décrit par un vecteur à 6 coordonnées entières : s = (m0 , m1 , m2 , f0 , f1 , f2 ) . Dans ce vecteur, pour k = 0, 1, 2, mk (respectivement fk ) est le nombre de mâles (respectivement de femelles) ayant k copies du gène g dans leur génotype. Evidemment, quelle que soit la génération n on a : m0 + m 1 + m2 = N1 et f0 + f1 + f2 = N2 . (1.1) L’espace d’états du modèle est donc le sous-ensemble E de IN6 des i = (m0 , m1 , m2 , f0 , f1 , f2 ) vérifiant (1.1). On souhaite définir une chaîne de Markov homogène (Xn ) sur E. On doit donc définir les probabilités de transition pij . Soit i = (m0 , m1 , m2 , f0 , f1 , f2 ) un état fixé et supposons-le atteint à la génération n : Xn = i. Les probabilités des différents états possibles à la génération n+1 dépendent tout d’abord des fréquences d’apparition du gène g parmi les mâles et les femelles de la génération n. Ces proportions sont notées respectivement x(m) et x(f ) . x(m) = m1 + 2m2 2N1 et x(f ) = f1 + 2f2 . 2N2 (1.2) Pour constituer la génération suivante, on suppose que les gamètes mâles et femelles sont appariés au hasard, selon le schéma dit “multinomial”. En d’autres termes, chacun des N1 mâles et chacune des N2 femelles de la génération n+1 choisit au hasard un gène paternel parmi les 2N1 présents à la génération n, et un gène maternel parmi les 2N2 possibles. A la conception, les probabilités pour un individu de la génération n+1 d’avoir 0, 1 ou 2 copies (0) (0) (0) du gène g sont notées P0 , P1 et P2 respectivement. Si les proportions du gène g parmi les mâles et les femelles de la génération n sont x(m) et x(f ) , le schéma multinomial implique : (0) P0 = (1 − x(m) )(1 − x(f ) ) , (0) P1 = x(m) (1 − x(f ) ) + (1 − x(m) )x(f ) , (0) P2 = x(m) x(f ) . (1.3) 13 Chaînes de Markov Cependant, du fait de la sélection, on doit pondérer ces probabilités par des (m) (f ) (m) “facteurs de viabilité” wk et wk . Pour k = 0, 1, 2, wk (respectivement (f ) wk ) mesure la possibilité pour un mâle (respectivement une femelle) avec k copies du gène g dans son génotype de transmettre ses gènes à la génération (m) (f ) suivante. Notons Pk (respectivement Pk ) les probabilités pour les mâles (respectivement les femelles) d’atteindre l’âge de reproduction avec k copies (0) du gène g. Si les probabilités à la conception sont les Pk de la formule (1.3), alors les probabilités à l’âge de reproduction seront, pour k = 0, 1, 2 : (m) Pk (f ) Pk (m) = = (0) w k Pk (m) w0 (0) P0 (m) + w1 (0) P1 (f ) (0) (f ) (0) (m) + w2 (0) P2 w k Pk (f ) (0) w 0 P0 + w 1 P1 (f ) (0) + w 2 P2 , (1.4) · Après sélection les génotypes des N1 mâles et des N2 femelles sont suppo(m) (f ) sés choisis indépendamment avec les probabilités Pk et Pk . En d’autres termes, les lois de probabilité des vecteurs (m0 , m1 , m2 ) et (f0 , f1 , f2 ) sont multinomiales, de paramètres respectifs : (m) (N1 , P0 (m) , P1 (m) , P2 (f ) (f ) (f ) ) et (N2 , P0 , P1 , P2 ) , et ces vecteurs sont indépendants. On peut maintenant décrire explicitement les probabilités de transition pij de la chaîne de Markov homogène sur E. Si i = (m0 , m1 , m2 , f0 , f1 , f2 ) et j = (m′0 , m′1 , m′2 , f0′ , f1′ , f2′ ) sont deux éléments de E, alors la probabilité de transition pij de i vers j est : m′2 m′1 m′0 N1 ! (m) (m) (m) P P P × 2 1 0 m′0 !m′1 !m′2 ! ′ ′ ′ N2 ! (f ) f0 (f ) f1 (f ) f2 P , P P 2 1 f0′ !f1′ !f2′ ! 0 (m) (m) (f ) (1.5) (f ) où pour k = 0, 1, 2, les probabilités Pk = Pk (i) et Pk = Pk (i) sont déduites de i = (m0 , m1 , m2 , f0 , f1 , f2 ) par les formules (1.2), (1.3) et (1.4). 1.5 Planification économique Un des objectifs de l’utilisation de modèles probabilistes dans les applications est la prédiction en environnement incertain. Etant donnée l’information disponible à un instant donné, que peut on prédire pour ce qui va suivre ? Dire d’une suite de décisions qu’elle est une suite de variables aléatoires indépendantes revient à dire que l’information apportée par chaque réalisation n’est pas prise en compte par la suite. Les chaînes de Markov, parce qu’elles Cahier de Mathématiques Appliquées no 11 14 modélisent la prise en compte de l’information présente pour les décisions futures, sont l’outil le plus simple pour la planification économique. Nous nous contenterons d’illustrer ceci par un modèle de gestion de stock. On considère un magasin proposant à la vente un article particulier. Les commandes au fournisseur s’effectuent à la semaine. Les nombres d’articles demandés chaque semaine sont vus comme des réalisations de variables aléatoires indépendantes et de même loi. Cette loi peut être estimée statistiquement et elle est supposée connue. Pour une semaine donnée, on note pk la probabilité que k articles soient demandés, et rk = 1 − p0 − · · · − pk la probabilité que plus de k articles soient demandés. Le stock maximum d’articles en magasin est de S. A la fin de chaque semaine, le responsable du stock décide : • de ne pas commander de nouveaux articles s’il lui en reste au moins s en stock, • de reconstituer le stock maximum de S articles s’il lui en reste strictement moins de s. Notons Xn le nombre d’articles restant en stock à la fin de la n-ième semaine. Sous les hypothèses ci-dessus, la suite (Xn ) est une chaîne de Markov, à valeurs dans l’espace d’états {0, . . . , S}. Voici sa matrice de transition pour le cas particulier s = 3, S = 7. 0 0 r6 1 r6 2 r6 3 r2 4 r3 5 r4 6 r5 7 r6 1 p6 p6 p6 p2 p3 p4 p5 p6 2 p5 p5 p5 p1 p2 p3 p4 p5 3 p4 p4 p4 p0 p1 p2 p3 p4 4 p3 p3 p3 0 p0 p1 p2 p3 5 p2 p2 p2 0 0 p0 p1 p2 6 p1 p1 p1 0 0 0 p0 p1 7 p0 p0 p0 0 0 0 0 p0 Connaissant les probabilités de vente, les coûts de stockage et les bénéfices de vente, l’étude de la chaîne de Markov permettra au gestionnaire de prévoir son bénéfice moyen par semaine et, par exemple, d’optimiser s. 2 2.1 Traitement mathématique Formules récurrentes Dans ce paragraphe, nous donnons les techniques de calcul pour un certain nombre de quantités liées aux transitions d’une chaîne de Markov sur un ensemble fini ou dénombrable. Ces calculs se font par des algorithmes itératifs, que nous présentons comme des formules récurrentes. On peut aussi les présenter sous forme matricielle. La forme matricielle, si elle est en général 15 Chaînes de Markov beaucoup plus compacte, n’est d’aucune utilité pratique, dans la mesure où elle ne fait que traduire un algorithme de calcul itératif. Plutôt que de retenir des formules matricielles, il est conseillé d’apprendre à voir une chaîne de Markov comme un système dynamique aléatoire : c’est un promeneur qui saute d’état en état, et décide du prochain saut en fonction uniquement de l’état où il se trouve, en oubliant le chemin suivi pour en arriver là. Nous commençons par les “probabilités de transition en m pas”. Définition 2.1 On appelle probabilité de transition de i à j en m pas la (m) probabilité, notée pij : (m) pij = IP[Xm = j | X0 = i] = IP[Xn+m = j | Xn = i] . (m) Nous dirons aussi que pij est la probabilité d’aller de i à j en m pas. Dans la (m) pij , on peut comprendre la notation IP[Xm = j | X0 = i] soit définition de comme une probabilité conditionnelle, soit comme une probabilité relative à la loi de la suite (Un ), quand l’initialisation est fixée à X0 = i. Proposition 2.2 La matrice des probabilité de transition en m pas est la puissance m-ième de la matrice P : (m) pij = Pm . i,j∈E (1) Démonstration : Pour n = 1, on a par définition pij = pij . Il nous suffit donc de montrer que pour tout n > 1 : (m−1) (m) P . = pij pij i,j∈E i,j∈E Ecrivons pour cela : (m) pij = IP[Xm = j | X0 = i] X = IP[Xm = j | Xm−1 = k et X0 = i]IP[Xm−1 = k | X0 = i] k∈E = X IP[Xm = j | Xm−1 = k]IP[Xm−1 = k | X0 = i] X pik k∈E = (m−1) pkj . k∈E Plus que la formule matricielle, c’est l’interprétation de la formule itérative qu’elle traduit qui est importante. Par exemple, la formule matricielle P m = P l P m−l se développe comme suit. Pout tout i, j ∈ E : X (l) (m−l) (m) pij = pik pkj . (2.1) k∈E Cahier de Mathématiques Appliquées no 11 16 Cette formule porte le nom de Chapman-Kolmogorov. Il faut la lire comme suit : “aller de i à j en m pas, c’est aller de i à un certain k en l pas, puis de k à j en m−l pas”. Passons maintenant aux lois marginales des Xn . Rappelons que les vecteurs indicés par E sont des vecteurs colonnes. Proposition 2.3 Notons p(m) la loi de Xm : p(m) = (pi (m))i∈E = (IP[Xm = i])i∈E . On a, pour tout m ≥ 1 : p(m) = tP p(m−1) = tP m p(0) . On peut donc voir l’évolution en loi de la suite (Xn ) comme un système itératif linéaire dont tP est la matrice d’évolution. La démonstration de cette proposition, comme des autres résultats de cette section, est assez élémentaire, en utilisant la formule des probabilités totales. Nous donnons simplement les formes développées, suivies de leur interprétation. X pi (m) = pk (m−1) pki . (2.2) k∈E “Pour être en i au m-ième pas, il faut être en k au (m − 1)-ième pas, puis passer de k à i en un pas.” X (m) pi (m) = pk (0) pki . (2.3) k∈E “Pour être en i au m-ième pas, il faut, partant de k, passer de k à i en m pas.” Nous définissons maintenant les probabilités de premier passage. Définition 2.4 On appelle probabilité de premier passage de i à j en m pas (m) et on note fij la quantité : (m) fij = IP[Xm = j et Xm−1 6= j . . . et X1 6= j | X0 = i] . (1) (1) On a bien sûr fij = pij = pij . Nous ne donnerons pas d’expression ma(m) tricielle pour les fij . Nous nous contenterons de deux formules itératives, suivies de leur interprétation. X (m) (m−1) fij = pik fkj . (2.4) k6=j 17 Chaînes de Markov “Pour arriver en j pour la première fois en m pas partant de i, il faut aller de i à k 6= j au premier pas, puis aller de k à j pour la première fois en m−1 pas.” m−1 X (l) (m−l) (m) (m) fij pjj . (2.5) pij = fij + l=1 “Pour aller de i à j en m pas, il faut soit y arriver pour la première fois, soit y être arrivé pour la première fois en l pas, puis y être revenu au bout de m−l pas.” (m) A priori, pour i et j fixés, les probabilités fij correspondent à des événements disjoints. Leur somme, que l’on notera fij , est la probabilité d’atteindre j en partant de i. Ces probabilités vérifient : X fij = pij + pik fkj . (2.6) k6=j “Pour arriver en j en partant de i, il faut soit y aller au premier pas, soit aller en k 6= j, puis aller de k à j.” Il peut se faire que fij soit strictement inférieure à 1. Dans le cas où elle est égale à 1, le nombre de pas nécessaires pour atteindre j en partant de i est une variable aléatoire à valeurs dans IN∗ . Son espérance est la somme : ∞ X (m) m fij . m=1 Cette somme peut être infinie. C’est le temps moyen de premier passage de i à j. Il sera noté eij . On étend sa définition à tous les couples (i, j) ∈ E × E en posant eij = ∞ si fij < 1. Proposition 2.5 Pour tout i, j ∈ E, on a : X eij = 1 + pik ekj . (2.7) k6=j L’interprétation de (2.7) est : “pour aller de i à j, il faut effectuer un premier saut, puis, si ce saut amène en k 6= j, aller de k à j.” Démonstration : Nous écrivons les formules suivantes sous réserve de convergence des séries. eij = = ∞ X m=1 ∞ X (m) m fij ∞ X M =1 m=M (m) fij . Cahier de Mathématiques Appliquées no 11 18 Or d’après (2.4) : ∞ X (m) fij = m=M X ∞ X pik (m) fkj . m=M −1 k6=j On en déduit : ∞ X ∞ X (m) fij = M =2 m=M X pik eij − ∞ X (m) = m=1 fij ∞ X (m) fkj , M =1 m=M k6=j soit : ∞ X X pik ekj k6=j P∞ (m) Dans le cas où eij est fini, la somme m=1 fij vaut 1, ce qui entraîne (2.7). Si eij est infini, deux cas sont possibles. Soit fij < 1, alors au moins un des k tels que pik > 0 est tel que fkj < 1, et donc les deux membres de (2.7) sont infinis. Si fij = 1, alors pour tous les états k tels que pik > 0, on a fkj = 1. Mais nécessairement pour au moins un d’entre eux, on a ekj = ∞. Exemple : Chaîne à deux états. Sur ce cas particulier, nous mettons en relief des caractéristiques qui restent vraies pour un nombre fini quelconque d’états. Considérons sur E = {0, 1} la matrice de transition P suivante : 1−α α , P = β 1−β où α et β sont deux réels dans l’intervalle [0, 1]. Nous écarterons les deux cas particuliers où la chaîne est déterministe : α = β = 0 et α = β = 1. La matrice P admet pour valeurs propres 1 et (1−α−β), dont la valeur absolue est strictement inférieure à 1. La matrice P m des probabilités de transition en m pas s’écrit : (1−α−β)m 1 βα α −α m + P = −β β α+β β α α+β Quand m tend vers l’infini, P m converge vers une matrice dont les deux lignes sont égales. Chacune des deux lignes est une loi de probabilité, c’est aussi un vecteur propre de tP associé à la valeur propre 1. Les probabilités de premier passage sont les suivantes, pour m ≥ 2 : (m) (m) f00 = αβ(1 − β)m−2 , f01 = α(1 − α)m−1 , (m) (m) f10 = β(1 − β)m−1 , f11 = αβ(1 − α)m−2 . (m) (m) Les expressions de f01 et f10 donnent les lois des temps de séjour en 0 et 1 respectivement. Ce sont des lois géométriques. Voici les temps moyens de 19 Chaînes de Markov premier passage, si α et β sont strictement positifs : e00 = 1 + 2.2 1 1 β α , e01 = , e10 = , e11 = 1 + , β α β α Classification des états Les états d’une chaîne de Markov se classifient en fonction de la possibilité qu’a la chaîne d’atteindre les uns à partir des autres. Définition 2.6 Soient i et j deux états de E. On dit que j est accessible depuis i si et seulement si il existe un entier m ∈ IN∗ et une suite d’états k0 = i, k1 , . . . , km = j tels que pik1 pk1 k2 . . . pkm−1 j > 0. En d’autres termes, j est accessible depuis i si il existe un chemin dans le diagramme de transition, partant de i et arrivant en j. Ceci se traduit également en termes des probabilités de transition en m pas et des probabilités de premier passage. Proposition 2.7 L’état j est accessible depuis i si et seulement si il existe (m) (m) m tel que pij > 0, ou encore tel que fij > 0. (m) Démonstration : On sait que pij est le coefficient d’ordre i, j de la matrice P m . Son expression développée est : X (m) pij = pik1 pk1 k2 . . . pkm−1 j . k1 ,...,km−1 ∈E Cette somme de termes positifs ou nuls est strictement positive si et seulement si un de ses termes au moins est non nul. Or le produit pik1 pk1 k2 . . . pkm−1 j est non nul si et seulement si (ssi) chacun de ses facteurs est strictement positif. Pour les probabilités de premier passage, on déduit le résultat de (2.5). Définition 2.8 On dit que deux états i et j communiquent si chacun est accessible depuis l’autre. La relation de communication est symétrique et transitive, mais elle n’est pas nécessairement réflexive (quand la chaîne quitte un état i elle peut ne jamais y revenir). Définition 2.9 On appelle classe irréductible tout sous ensemble d’états, maximal au sens de l’inclusion, composé d’états qui communiquent deux à deux. Si tous les états de E communiquent deux à deux, E tout entier est la seule classe irréductible. On dit alors que la chaîne est irréductible. Dans le cas général E se partitionne en états isolés dans lesquels on ne revient jamais une fois qu’on les a quittés, et en classes irréductibles disjointes. Le résultat Cahier de Mathématiques Appliquées no 11 20 fondamental est que les états d’une même classe irréductible ont des propriétés équivalentes vis à vis de la chaîne. Ce que l’on entend par “propriété” d’un état est précisé dans ce qui suit. Définition 2.10 L’état i est dit périodique de période k > 1 si tous les (m) entiers m tels que pii > 0 sont multiples de k. Un état qui n’admet pas de période est dit apériodique. Si i est périodique de période k et communique avec j, on démontre que j est également de période k. Les classes irréductibles périodiques constituent un cas particulier que l’on ne rencontre pas dans les applications. Remarquons que si pii > 0, l’état i, et tous les états avec lequel il communique sont apériodiques. De plus, si une classe irréductible est périodique de période k pour la chaîne de Markov (Xn ), alors la suite (Xnk ) , n ∈ IN est encore une chaîne de Markov, de matrice de transition P k , pour laquelle la classe considérée est apériodique. C’est le temps de premier retour qui permet de distinguer les propriétés des états. Définition 2.11 L’état i est dit : • transient si fii < 1, • récurrent nul si fii = 1 et eii = ∞, • récurrent positif si fii = 1 et eii < ∞. Les états apériodiques, récurrents positifs sont dits ergodiques. Comme cas (m) (m) particulier d’état transient, on retrouve les états pour lesquels fii = pii = 0, pour tout m ≥ 1. Ce sont ceux que l’on quitte au premier pas, pour ne jamais y revenir. Si un état transient est tel que 0 < fii < 1, le nombre de séjours dans l’état i suit la loi géométrique de paramètre 1 − fii . Il est presque sûrement fini, d’espérance 1/(1−fii ). Les états transients sont ceux dans lesquels on ne passe qu’un nombre fini de fois. Par opposition, on revient dans un état récurrent positif en moyenne tous les eii pas, donc une infinité de fois. La définition 2.11 a été donnée sous sa forme la plus intuitive, en termes des probabilités de premier retour fii . Elle se traduit en termes des (m) probabilités de transition en m pas pii de la façon suivante : Proposition 2.12 L’état i est : P (m) • transient si la série m pii converge, P (m) (m) • récurrent nul si la série m pii diverge mais son terme général pii tend vers 0, (m) • récurrent positif si pii ne tend pas vers 0. En fait, si i est récurrent positif et apériodique (ergodique), nous montrerons (m) plus loin que pii tend vers une limite strictement positive. Démonstration : Nous utilisons la formule (2.5) sous la forme : (m) pii (m) = fii (m−1) + fii (1) (m−1) pii + · · · + fii pii . 21 Chaînes de Markov En sommant sur m on obtient : X (m) X (m) , pii pii = fii 1 + m m soit : (1 − fii ) X (m) pii = fii . m P (m) Donc la série m pii converge si et seulement si fii < 1. Nous admettons que la série définissant eii converge si et seulement si (m) pii ne tend pas vers 0. Proposition 2.13 Si deux états communiquent, alors ils sont de même nature. Cette proposition permet de qualifier de transiente (respectivement : récurrente nulle, récurrente positive), toute classe irréductible dont un élément (et donc tous les éléments) sont transients (resp. : récurrents nuls, récurrents positifs). Démonstration : Si i et j communiquent, il existe deux instants h et l tels (l) (h) que pij > 0 et pji > 0. Pour tout m ≥ h + l, on a : (m) pii et (m) (h) (m−h−l) (l) pji ≥ pij pjj , (l) (m−h−l) (h) pjj ≥ pji pii pij . P (m) P (m) Les deux séries m pii et m pjj sont donc de même nature et les convergences vers 0 de leurs termes généraux sont vraies ou fausses simultanément. Dans le cas où l’espace d’états est fini, la classification des états se lit immédiatement sur le graphe de transition. Proposition 2.14 Soit C ⊂ E une classe irréductible. Si au moins une transition permet de sortir de C : ∃i ∈ C , ∃j ∈ /C, pi,j > 0 , alors la classe C est transiente. Si la classe C est finie et si aucune transition ne permet d’en sortir, alors C est récurrente positive. Démonstration : La formule (2.4), sommée par rapport à m, donne : fii = pii + X k6=i pik fki . Cahier de Mathématiques Appliquées no 11 22 1/4 1/4 h 1/3 1/4 1/4 1/3 d e 1/3 1 1/3 1/3 j i 1/3 1 3/4 1 f 1 a 1/2 c b 1/2 1/3 g 2/3 1/4 Figure 3 – Diagramme de transition d’une chaîne de Markov. Les classes récurrentes sont entourées en pointillés. Or : 1 = pii + X pik . k6=i Donc fii = 1 est possible si et seulement si les fki valent 1 également, pour (m) tous les états k tels que pik = 1. Mais fki = 1 entraîne que fki > 0 pour au moins un m, donc i est accessible depuis k, donc i et k communiquent. Si un état i est récurrent, tous les états k tels que pik > 0 sont dans la même classe. Donc on ne peut pas sortir d’une classe récurrente. Nous montrerons plus loin que dans une classe irréductible finie dont on ne sort pas, pnii tend vers une limite strictement positive, dans le cas apériodique. En particulier tout état d’une telle classe est récurrent positif. Nous verrons au paragraphe 3.1 des exemples de chaînes irréductibles transientes ou récurrentes nulles, sur un espace d’états infini. 23 Chaînes de Markov Exemple : Sur E = {a, b, . . . , j}, considérons la matrice de transition P suivante : a b c d a 1/2 0 1/2 0 e f g 0 0 0 h 0 i 0 j 0 b 0 1/3 0 0 0 0 2/3 0 0 0 c 1 0 0 0 0 0 0 0 0 0 d 0 0 0 0 1 0 0 0 0 0 e 0 0 0 1/3 1/3 0 0 0 1/3 0 f 0 0 0 0 0 1 0 0 g 0 0 0 0 0 0 1/4 0 3/4 0 h 0 0 1/4 1/4 0 0 0 1/4 0 1/4 i 0 1 0 0 j 0 1/3 0 0 0 0 0 0 0 0 0 0 1/3 0 0 0 0 1/3 La classification des états se lit clairement sur le diagramme de transition (figure 3). Les classes irréductibles sont les suivantes : 1. {f } : récurrente, 2. {a, c} : récurrente, 3. {b, g, i} : récurrente, 4. {d, e} : transiente, 5. {h} : transiente, 6. {j} : transiente. On peut souhaiter changer l’ordre des états pour rassembler les classes irréductibles. Ceci revient à effectuer un changement de base sur P , dont la matrice est une matrice de permutation. Par exemple : f a f 1 0 c 0 b 0 g 0 i 0 d 0 e 0 h 0 j 0 a 0 1/2 1/2 0 0 0 0 0 0 0 c0 1 0 0 0 0 0 0 0 b0 0 0 1/3 2/3 0 0 0 0 0 g 0 0 0 0 1/4 3/4 0 0 0 0 i0 0 0 1 0 0 0 0 0 0 d0 0 0 0 0 0 0 1 0 0 e0 0 0 0 0 1/3 1/3 1/3 0 0 0 h 0 0 1/4 0 j 0 0 0 0 1/3 0 0 1/4 0 1/4 1/4 0 0 1/3 0 1/3 Cahier de Mathématiques Appliquées no 11 24 Aux classes récurrentes correspondent des blocs diagonaux qui sont euxmêmes des matrices de transition. 2.3 Mesures stationnaires Sur l’exemple de la chaîne à deux états, traité au paragraphe 2.1, nous avions constaté que la matrice P n convergeait à vitesse exponentielle vers une matrice dont toutes les lignes étaient des vecteurs propres de tP , associés à la valeur propre 1. Ceci est une propriété générale des matrices de transition sur un ensemble fini. En effet, si P n converge, alors sa limite L vérifie LP = L. En d’autres termes, les lignes de L sont les transposées de vecteurs colonnes v vérifiant tP v = v. De plus, comme toutes les lignes de P n sont des lois de probabilité, cette propriété se conserve par passage à la limite et v est donc une loi de probabilité. De telles lois sont des mesures stationnaires. Définition 2.15 On appelle mesure stationnaire d’une chaîne de Markov de matrice de transition P toute loi de probabilité sur E, v = (vi ) , i ∈ E vérifiant : t Pv = v . La formule (2.2) du paragraphe 2.1 montre que la loi p(m) de la chaîne au m-ième pas vérifie : p(m) = tP p(m−1) = tP m p(0) . Soit v une mesure stationnaire. Si la loi de X0 est v, alors la loi de Xm sera également v pour tout m. C’est ce qui justifie le qualificatif de stationnaire. Cela signifie que la probabilité de se trouver dans un état donné reste constante au cours du temps, bien que la chaîne saute constamment d’état en état. Une mesure stationnaire doit être comprise comme un équilibre dynamique “en moyenne” pour le modèle. Nous verrons plus loin qu’une mesure stationnaire ne peut charger que les états récurrents positifs. Le théorème 2.16 ci-dessous a pour conséquence que toute chaîne irréductible sur un ensemble fini est récurrente positive. Au paragraphe 3.1, nous constaterons sur quelques exemples que la situation est différente sur un ensemble infini. Théorème 2.16 Soit P la matrice d’une chaîne de Markov irréductible et apériodique sur l’ensemble fini E. Il existe une unique mesure stationnaire π = (πi ) , i ∈ E. Elle possède les propriétés suivantes : 1. Pour tout i ∈ E, πi est strictement positif. (m) 2. Pour tout i, j ∈ E, pij converge vers πj quand m tend vers l’infini. 3. Quelle que soit la loi de X0 , la loi de Xm converge vers π quand m tend vers l’infini. 25 Chaînes de Markov 4. Pour toute fonction f de E dans IR : M −1 X 1 X f (Xm ) = f (i)πi , M →∞ M m=0 lim p.s. i∈E 5. Pour tout i ∈ E, le temps moyen de retour en i, eii est égal à 1/πi . Interprétations : L’existence d’une mesure stationnaire n’est pas un miracle. Du fait que la somme des coefficients d’une même ligne vaut 1, tout vecteur constant est vecteur propre de P associé à la valeur propre 1. Donc tP admet aussi 1 comme valeur propre. Le fait qu’une loi de probabilité puisse être vecteur propre associé à 1 est toujours vrai dans le cas fini, pas nécessairement dans le cas infini. Ce qui est particulier au cas irréductible apériodique, c’est que la mesure stationnaire est unique et qu’elle charge tous les états avec une probabilité strictement positive. Le fait que la limite quand m tend (m) vers l’infini de pii soit non nulle entraîne que i est récurrent positif. Sur un ensemble fini, une chaîne irréductible et apériodique est ergodique. Le point 2 peut se traduire comme suit : lim IP[Xn+m = j | Xn = i] = πj . m→∞ Les comportements de la chaîne en deux instants éloignés l’un de l’autre sont à peu près indépendants. Quelle que soit l’information disponible sur le passé, la meilleure prédiction que l’on puisse faire à horizon lointain est la mesure stationnaire. Le point 3 est une conséquence immédiate de 2. Nous montrerons en fait que la convergence en loi vers la mesure stationnaire se fait à vitesse exponentielle. Concrètement, cela signifie que la mesure stationnaire, qui en théorie n’est qu’un comportement à l’infini, peut être atteinte en pratique dans les simulations au bout d’un nombre d’itérations raisonnable. Malheureusement cette vitesse de convergence dépend également de la taille de l’espace d’états et de la vitesse avec laquelle la chaîne peut le parcourir. Il peut se faire, sur des espaces d’états très gros, que la mesure stationnaire ne puisse jamais être observée à l’échelle de temps des simulations. Dans 4, il faut comprendre la fonction f comme un coût associé aux visites dans les différents états. Dans l’exemple du paragraphe 1.5 f (k) serait le bilan d’une P semaine terminée avec k articles en magasin. Le membre de gauche (1/M ) f (Xm ) est le coût moyen observé sur une période de temps d’amplitude M . Le membre de droite est l’espérance du coût d’une étape en régime stationnaire. En pratique, si l’espace d’états est très grand, il arrive que l’on ne puisse pas calculer la mesure stationnaire π. On peut néanmoins calculer une valeur approchée du coût moyen en régime stationnaire en effectuant la moyenne des coûts observés sur une seule trajectoire simulée. Dans le cas P particulier où f est la fonction indicatrice de l’état i, la moyenne (1/M ) m 11i (Xm ) est la proportion du temps que la chaîne a passé Cahier de Mathématiques Appliquées no 11 26 dans l’état i entre 0 et M −1. Le point 4 affirme que sur une longue période de temps, cette proportion est la probabilité stationnaire πi . Mais si sur un intervalle d’amplitude M il y a eu environ M πi visites, alors en moyenne l’intervalle de temps entre deux visites était de 1/πi . C’est effectivement la valeur de eii , d’après le point 5. Démonstration : Elle est basée sur le théorème de Perron-Frobenius, que nous admettons. Théorème 2.17 Soit A une matrice carrée finie dont tous les coefficients sont strictement positifs. Alors A a une valeur propre simple α qui est réelle, strictement positive, et supérieure au module de toute autre valeur propre. A cette valeur propre, dite maximale, est associé un vecteur propre dont toutes les coordonnées sont strictement positives. Le premier pas consiste à montrer qu’une certaine puissance de P est à coefficients strictement positifs. Pour cela montrons d’abord que pour tout i ∈ E, (m) pii est non nul à partir d’un certain m. C’est une conséquence de l’apério(m) dicité. Observons que l’ensemble des entiers m tels que pii > 0 contient au (u) moins deux entiers premiers entre eux, disons u et v. De plus, si pii > 0 et (v) (hu+kv) pii > 0, alors pour tout h, k ∈ IN, pii > 0. Tout se ramène donc à montrer que si u et v sont deux entiers premiers entre eux, alors tous les entiers à partir d’un certain rang s’écrivent sous la forme hu + kv, avec h, k ∈ IN. Examinons tout d’abord le cas particulier v = u + 1. Pour tout a > u et b ≤ u, on a : au + b = (a − b)u + b(u + 1) . Donc tous les entiers au-delà de u(u + 1) s’écrivent bien sous la forme souhaitée. Montrons maintenant que le cas général se ramène à ce cas particulier. Si u et v sont premiers entre eux, alors il existe deux entiers α et β, l’un positif et l’autre négatif, tels que αu + βv = 1. Sans perte de généralité, supposons α > 0 et β < 0. Alors αu = −βv + 1, donc αu et −βv sont deux entiers positifs consécutifs. Tout entier au-delà de (αu)(−βv) s’écrit comme combinaison entière de αu et −βv, donc de u et v. (m) Pour tout i ∈ E, choisissons un entier m(i) tel que pii > 0 pour m ≥ m(i). Pour tout i 6= j ∈ E, choisissons un entier m(i, j) tel que (m(i,j)) pij > 0 (c’est possible car tous les états communiquent, par définition de l’irréductibilité). Posons enfin : m0 = max m(i, j) + max m(i) . i,j∈E i∈E Alors pour tout i, j ∈ E, (m0 ) pij (m0 −m(i,j)) ≥ pii (m(i,j)) pij >0. On peut donc appliquer le théorème de Perron-Frobenius à P m0 . 27 Chaînes de Markov Montrons d’abord que la valeur propre maximale α est 1. Soit v = (vi ) un vecteur propre de P m0 associé à α. Pour tout i ∈ E on a : X X (m ) (m ) αvi = pij 0 vj ≤ max vj pij 0 = max vj . j∈E j∈E j∈E Donc α ≤ 1. Comme 1 est valeur propre et α maximale, on a nécessairement α = 1. Les autres valeurs propres de P m0 , donc aussi de P , sont de module strictement inférieur à 1. Ecrivons la matrice P sous la forme : 1 0 ... 0 0 −1 P =C. C , . . B 0 où la matrice de passage C a pour première colonne t(1, . . . , 1). Il est possible de choisir C de sorte que B soit une matrice triangulaire du type suivant : λ1 ∗ . . . ∗ .. 0 ... . , B= . .. ∗ 0 . . . 0 λk où λ1 , . . . , λk sont les valeurs propres de P différentes de 1, et les coefficients au-dessus de la diagonale, notés ∗, sont de module inférieur à ǫ, arbitraire. Pour toute matrice carrée A = (aij ), indicée par E, notons kAk la norme : X |aij | . kAk = max i∈E j∈E Fixons ρ tel que max |λi | < ρ < 1. Il est possible de choisir ǫ et C tels que kBk < 1. Notons alors L la matrice : 1 0 ... 0 0 −1 L=C. C . .. 0 0 Comme la norme k · k est une norme d’algèbre, on aura, pour tout n ≥ 1 : kP n − Lk ≤ kCkkC −1 kkBkn . Ceci montre que les coefficients de P n convergent vers ceux de L à vitesse exponentielle. La matrice L est telle que toutes ses colonnes sont proportionnelles au premier vecteur colonne de C, qui est constant. Donc toutes les lignes de L Cahier de Mathématiques Appliquées no 11 28 sont identiques. En raisonnant de même sur tP , on voit que les lignes de L sont proportionnelles à un vecteur propre de tP , associé à la valeur propre 1. Or les lignes de P , comme de P n sont des lois de probabilité, propriété qui se conserve par passage à la limite. Comme la valeur propre 1 est simple, tous les vecteurs propres sont proportionnels et il n’y en a qu’un qui soit une loi de probabilité. C’est la mesure stationnaire π, qui est nécessairement unique, et à coefficients strictement positifs, d’après le théorème de Perron-Frobenius. Les points 1 et 2 sont donc démontrés. Le point 3 est conséquence immédiate du précédent et de la formule p(n) = tP n p(0). En ce qui concerne le point 4, nous nous contenterons de démontrer que la convergence a lieu en probabilité, et nous admettrons qu’elle est presque sûre. Toute fonction de E dans IR s’écrit comme combinaison linéaire d’indicatrices : X f = f (i) 11i . i∈E Il suffit donc de démontrer que pour tout i ∈ E : M −1 1 X 11i (Xm ) = πi . m→∞ M m=0 lim Nous montrons séparément que l’espérance tend vers πi et que la variance vers 0. −1 M −1 h 1 M i X 1 X IE 1 1 (X ) = pi (m) . i m M m=0 M m=0 Or d’après le point 3, la suite (pi (m)) converge vers πi . Elle converge donc vers la même valeur au sens de Cesaro. Calculons maintenant la variance. V ar −1 M −1 i h 1 M X 1 X 1 1 V ar[11i (Xm )] i (Xm ) = M m=0 M 2 m=0 + M −1 M −m 2 X X Cov[11i (Xm ) , M 2 m=0 11i (Xm+l )] . l=1 Or : V ar[11i (Xm )] = pi (m)(1 − pi (m)) , converge vers πi (1−πi ). La somme de ces variances divisée par M 2 tend donc vers 0. (l) Cov[11i (Xm ) , 11i (Xm+l )] = pi (m) pii − pi (m + l) . (l) Pour m fixé, les suites (pii ) et (pi (m + l)) tendent vers πi , à vitesse exponentielle. Donc il existe deux constantes K > 0 et ρ < 1 telles que : M −m X l=1 Cov[11i (Xm ) , 11i (Xm+l )] ≤ pi (m)K 1 −1 ρ . 29 Chaînes de Markov La somme de ces covariances divisée par M 2 tend donc vers 0, d’où la convergence en probabilité. Reste à démontrer le point 5. Au vu du point précédent, il est naturel que l’intervalle moyen entre deux visites en i soit 1/πi , si la proportion asymptotique de ces visites est πi . Notons T1 , T2 , . . . les intervalles de temps successifs entre deux visites en i. On démontre que les Ti sont des variables aléatoires indépendantes et de même loi, d’espérance commune eii . Notons NM le nombre de visites entre 0 et M − 1. On a : NM = M −1 X 11i (Xm ) = inf{n ≥ 1 t.q. T1 + · · · + Tn > M } . m=0 La famille de variables aléatoires (NM ) est ce qu’on appelle un processus de renouvellement. Par la loi des grands nombres, on a : n 1X Tl = eii . n→∞ n lim l=1 Pour M grand, M/NM doit donc être proche de eii . D’autre part nous avons montré que NM /M converge vers πi . Ceci impose que πi soit égal à 1/eii . On peut rendre rigoureux ce qui précède, dans le cadre de théorèmes plus généraux sur les processus de renouvellement que nous n’expliciterons pas. 2.4 Comportement asymptotique L’étude du paragraphe précédent nous permet de décrire complètement le comportement asymptotique d’une chaîne de Markov de matrice de transition P quelconque sur un ensemble fini. Comme nous l’avons vu au paragraphe 2.2, les états se séparent en classes irréductibles dont certaines sont transientes (celles dont on peut sortir), et les autres récurrentes positives. Parmi les classes récurrentes, certaines peuvent être périodiques. La matrice de transition d’une chaine sur une classe récurrente périodique de période k admet pour valeurs propres 1 et toutes les racines k-ièmes de l’unité. La matrice P n ne converge donc pas dans ce cas-là. Nous l’écartons désormais. Les classes irréductibles récurrentes et apériodiques relèvent du théorème 2.16. Si C est une telle classe, la restriction de P à C est une matrice de transition sur C qui est irréductible et apériodique. Il lui correspond donc une mesure stationnaire unique qui charge positivement tous les états de la classe, et aucun autre. La proposition suivante montre que les états transients ne jouent aucun rôle dans le comportement asymptotique de la chaîne. (m) Proposition 2.18 Soit i un état transient. Alors pour tout j ∈ E pji est le terme général d’une série convergente. Si v est une mesure stationnaire, alors vi = 0. Cahier de Mathématiques Appliquées no 11 30 En d’autres termes, si L est la limite de la matrice P m quand m tend vers l’infini, les colonnes de L dont les indices correspondent à des états transients sont nulles. (m) Démonstration : Pour un état i transient, nous avons déjà montré que pii est le terme général d’une série convergente. Si j est récurrent, seuls les éléments de sa propre classe, qui sont également récurrents, sont accessibles depuis j. (m) Donc pji est nul pour tout m. On peut donc supposer désormais que j est transient. Fixons l ≥ 1. On a : X (l) (m) (m+l) pii = pij pji . j∈E (m) Ceci entraîne que pji est le terme général d’une série convergente, pour tous les j accessibles depuis i. Soit C la classe irréductible de i. Alors la chaîne ne reste qu’un nombre fini de pas dans C. Partant d’une autre classe transiente, la chaîne séjournera dans un nombre fini de classes transientes avant d’atteindre C. Partant de j, la probabilité qu’elle se trouve en i au m-ième pas est inférieure à la probabilité que la chaîne se trouve encore dans la classe de i. Or le nombre de pas total passé dans l’ensemble des classes transientes est presque sûrement fini. Ceci est équivalent à dire que la probabilité que la chaîne soit dans une classe transiente en m est le terme général d’une série convergente. Si v est une mesure stationnaire, elle vérifie, pour tout m ≥ 1 : X (m) vi = vj pji . j∈E On a donc nécessairement vi = 0. La proposition suivante décrit les probabilités d’atteinte fij . Proposition 2.19 Si l’état i est récurrent alors fij vaut 1 pour les états j qui communiquent avec i, 0 pour tous les autres. Si j1 , j2 sont deux états de la même classe récurrente, alors pour tout i ∈ E, fij1 = fij2 . Démonstration : Nous montrons d’abord la première assertion. On ne sort pas d’une classe récurrente. Donc pour tous les états j en dehors de la classe de i, fij = 0. Pour les états de la classe C de i, les fij sont solution du système suivant (équation (2.6)). X fij = pij + pik fkj , ∀j ∈ C . k6=j La seule solution de ce système est fij ≡ 1. Pour la deuxième assertion, soit C une classe récurrente, j1 et j2 deux éléments de C, et i un état quelconque. Comme fj2 j1 = 1, l’équation vérifiée 31 Chaînes de Markov par fij1 peut s’écrire : fij1 = pij1 + pij2 + X pik fkj . k6=j1 ,j2 Les fij1 et les fij2 sont solution du même système d’équations, ils sont donc égaux. Les mesures associées aux différentes classes récurrentes sont linéairement indépendantes, et correspondent à autant de vecteurs propres de tP associés à la valeur propre 1. La multiplicité de la valeur propre 1 est donc égale au nombre de classes récurrentes. Toute mesure stationnaire de P est une combinaison convexe des mesures stationnaires associées aux différentes classes récurrentes. Nous sommes maintenant en mesure de compléter la description de la matrice L = limm→∞ P m . Si i est un état récurrent, alors la ligne d’indice i de L est la mesure stationnaire associée à la classe récurrente de i. Cette mesure ne charge que les états de la même classe de i. Il peut se faire que i soit seul dans sa classe récurrente, si pii = 1. Dans ce cas i est dit absorbant et la mesure stationnaire correspondante est la masse de Dirac en i. Si i est un état transient, alors la ligne d’indice i de L est une combinaison convexe des mesures stationnaires πC des différentes classes récurrentes, affectées des coefficients fiC , valeurs communes des fij pour j ∈ C. Exemple : Voici une matrice de transition P sur {1, 2, . . . , 7} (le diagramme de transition est celui de la figure 4). 1 2 3 1 0.2 0.8 0 4 0 5 0 6 0 7 0 2 0.7 0.3 0 0 0 0 0 3 0 0 0.3 0.5 0.2 0 0 4 0 0 0.6 0 0.4 0 0 5 0 0 0 0 0.4 0.6 0 6 0 0.1 0.1 0.2 0.2 0.3 0.1 7 0.1 0.1 0.1 0 0.1 0.2 0.4 Il y a deux classes récurrentes : C = {1, 2} et D = {3, 4, 5} . Leurs mesures stationnaires respectives sont : πC = t(0.47 , 0.53 , 0 , 0 , 0 , 0 , 0) et πD = t(0 , 0 , 0.26 , 0.30 , 0.43 , 0 , 0) . Cahier de Mathématiques Appliquées no 11 32 0.4 0.3 0.1 6 7 0.1 0.1 0.2 0.2 0.1 0.1 0.1 0.1 0.2 0.6 5 0.4 0.2 0.4 0.7 1 0.6 2 3 0.8 0.2 4 0.5 0.3 C D 0.3 Figure 4 – Diagramme de transition d’une chaîne de Markov. Les classes récurrentes sont entourées en pointillés. En ce qui concerne les probabilités d’atteinte à partir des deux états transients 6 et 7, on trouve : f6C = 0.2 , f6D = 0.8 , f7C = 0.4 , f7D = 0.6 . L’ensemble des mesures stationnaires est : { απC + (1 − α)πD , α ∈ [0, 1] } Selon la loi de X0 , chacune de ces mesures stationnaires peut être la limite de la loi de Xn . Supposons en effet que la loi de X0 soit : p(0) = t(α1 , α2 , α3 , α4 , α5 , α6 , α7 ) . Alors la loi de Xn converge quand n tend vers l’infini vers : (α1 + α2 + 0.2α6 + 0.4α7 ) πC + (α3 + α4 + α5 + 0.8α6 + 0.6α7 ) πD . 2.5 Mesures réversibles La convergence d’une chaîne vers sa mesure stationnaire est souvent utilisée dans les applications. C’est même un outil essentiel pour simuler de manière approchée des lois de probabilité sur de grands espaces d’états. Mais 33 Chaînes de Markov si la taille de l’espace interdit l’énumération des états, elle interdit a fortiori d’écrire le système linéaire reliant les probabilités de transition à une mesure stationnaire (définition 2.15). La réversibilité est un cas particulier de stationnarité, beaucoup plus simple à appréhender algorithmiquement. Définition 2.20 Soit π = (πi )i∈E une mesure de probabilité sur E. On dit que π est une mesure réversible pour la chaîne de Markov de matrice de transition P , ou que la matrice P est π-réversible, si : πi pij = πj pji , ∀i, j ∈ E . (2.8) Observons tout d’abord qu’une mesure réversible est nécessairement stationnaire. En effet si on somme par rapport à j l’équation (2.8), on obtient : πi = X πj pji , ∀i ∈ E , j∈E qui est la condition de stationnarité. Soit (Xt ) , t ∈ IN une chaîne de matrice de transition P . Si π est une mesure réversible et si la loi de Xt est π, alors non seulement la loi de Xt+1 est encore π (stationnarité), mais on a : IP[Xt = i et Xt+1 = j] = IP[Xt = j et Xt+1 = i] . C’est la raison pour laquelle on parle de mesure réversible. Soit P une matrice de transition π-réversible. Soient i et j deux états tels que πi > 0 et πj = 0. Alors pij = 0. Donc la restriction de P à l’ensemble des états i tels que πi > 0 est encore une matrice de transition, qui est réversible par rapport à la restriction de π à son support. Quitte à réduire l’espace d’états, on peut donc se ramener au cas où la mesure réversible π est strictement positive (πi > 0, ∀i ∈ E). C’est ce que nous supposerons désormais. Pour donner des exemples de chaînes admettant une mesure réversible, nous commençons par une observation immédiate, mais qui contient déjà bon nombre d’applications. Proposition 2.21 Supposons que P soit une matrice de transition symétrique, alors P admet la loi uniforme sur E comme mesure réversible. C’est le cas en particulier pour la marche aléatoire symétrique sur E, muni d’une structure de graphe non orienté (cf. 1.2). Des critères pour vérifier si une matrice de transition donnée admet ou non une mesure réversible ont été donnés par Kolmogorov. Nous nous intéresserons plutôt ici à la construction d’une matrice de transition π-réversible, quand π est une mesure donnée. Voici une méthode générale. 34 Cahier de Mathématiques Appliquées no 11 Proposition 2.22 Soit Q = (qij ) une matrice de transition irréductible sur E, vérifiant : qij > 0 =⇒ qji > 0 , ∀i, j ∈ E . Soit π = (πi )i∈E une loi de probabilité strictement positive sur E. Définissons la matrice de transition P = (pij ) de la façon suivante : pour i 6= j, πj qji pij = qij min , 1 si qij 6= 0 , πi qij (2.9) =0 sinon . Les coefficients diagonaux sont tels que la somme des éléments d’une même ligne vaut 1. La matrice de transition P est π-réversible. Observons que π peut n’être connue qu’à un coefficient de proportionnalité près, puisque la définition des pij ne fait intervenir que les rapports πj /πi . Démonstration : Soient i 6= j deux états. Supposons sans perte de géneralité que πj qji < πi qij . Alors pij = πj qji /πi et pji = qji , de sorte que la condition de réversibilité (2.8) est satisfaite. On peut voir la proposition 2.22 comme une extension de la méthode de rejet qui permet de simuler une loi de probabilité quelconque à partir d’une autre. La matrice Q s’appelle matrice de sélection. L’algorithme correspondant porte le nom d’algorithme de Metropolis. Initialiser X t ←− 0 Répéter i ←− X choisir j avec probabilité qij ρ ←− (pj ∗ qji )/(pi ∗ qij ) Si (ρ ≥ 1) alors X ←− j sinon Si (Random < ρ) alors X ←− j finSi finSi t ←− t+1 Jusqu’à (arrêt de la simulation) Tel qu’il est écrit, cet algorithme n’est évidemment pas optimisé. Dans la plupart des applications, la matrice de transition Q est symétrique, ce qui simplifie le calcul du coefficient d’acceptation ρ (remarquer qu’il vaut mieux dans ce cas tester si πj < πi avant de faire le calcul de ρ). Très souvent, l’espace des états est naturellement muni d’une structure de graphe déduite 35 Chaînes de Markov du contexte d’application, et on choisit alors pour Q la matrice de transition de la marche aléatoire symétrique sur ce graphe. Exemple : Ensemble des stables d’un graphe. Nous revenons ici sur le modèle de ressources partagées de 1.3. Les unités susceptibles de fonctionner sont les sommets d’un graphe dont les arêtes sont les ressources qu’elles partagent. Un sous ensemble d’unités R ne peut fonctionner que si : ∀x, y ∈ R , {x, y} ∈ /B, c’est à dire si R est stable. Nous avons déjà écrit l’algorithme de simulation de la marche aléatoire symétrique sur l’ensemble E des stables, muni de sa structure héritée de l’hypercube, pour laquelle deux stables sont voisins s’il diffèrent par un seul sommet. La chaîne de Markov que cet algorithme engendre est irréductible et apériodique, et elle admet la loi uniforme sur E pour mesure réversible. En simulant cette chaîne pendant suffisamment longtemps, on est donc capable de simuler la loi uniforme sur l’ensemble des stables, sans avoir besoin de connaître son cardinal, qui grandit exponentiellement avec le nombre d’unités. Supposons maintenant que l’on veuille simuler la loi de probabilité p = (p(R)) sur E telle que la probabilité de tout stable R est donnée par : 1 |R| λ , Z P où λ est un réel strictement positif, et Z = R∈E λ|R| . Il est inutile de calculer la constante de normalisation Z pour appliquer l’algorithme de Metropolis (proposition 2.22). Pour λ > 1, l’algorithme est le suivant (on le modifierait de manière évidente pour λ < 1). pR = R ←− ∅ t ←− 0 Répéter choisir x au hasard dans S Si (x ∈ R) alors Si (Random < 1/λ) alors R ←− R \ {x} finSi sinon Si (∀y ∈ R , {x, y} ∈ / B) alors R ←− R ∪ {x} finSi finSi t ←− t + 1 Jusqu’à (arrêt de la simulation) Cahier de Mathématiques Appliquées no 11 36 Supposons que λ soit suffisamment grand (par exemple λ = 10). La loi de probabilité p présente la particularité de charger préférentiellement les configurations ou un maximum d’unités sont en fonctionnement : si deux configurations diffèrent par une unité, le rapport de leurs probabilités est 10, en faveur de celle qui a une unité de plus en fonctionnement. Simuler la loi de probabilité p pour λ grand est donc une manière approchée d’optimiser le nombre d’unités en fonctionnement dans le problème de ressources partagées. 3 3.1 Modèles sur IN Le problème de la ruine du joueur Un joueur joue à un jeu (pile ou face, roulette, . . . ) où il gagne un montant fixe avec probabilité p, et perd le même montant avec probabilité 1−p. Si Un désigne le bilan de la n-ième partie : IP[Un = +1] = p , IP[Un = −1] = 1−p . On suppose que les parties sont indépendantes. Soit Xn la fortune du joueur à l’issue de la n-ième partie. On a : Xn+1 = Xn + Un+1 . De sorte que la suite (Xn ) est une chaîne de Markov. A priori, Xn prend ses valeurs dans l’ensemble ZZ. Cependant des considérations économiques évidentes conduisent à limiter l’étendue des dégâts. On envisagera plusieurs types de limitations. Deux bornes absorbantes : Nous supposerons que le joueur, partant d’une fortune initiale i décide d’arrêter soit s’il est ruiné (Xn = 0), soit s’il a atteint une fortune a > i (son adversaire est ruiné ou lui-même est devenu sage). L’ensemble des états est E = {0, . . . , a}. En notant q = 1−p, la matrice de transition s’écrit : 1 0 0 ... 0 . q 0 p . . . .. .. .. .. 0 . . . P = . .. 0 q 0 p 0 ... 0 0 1 Les états 0 et a sont absorbants, tous les autres états sont transients (le diagramme de transition est celui de la figure 5). Nous commençons par calculer la probabilité fi0 avec laquelle le jeu se termine par la ruine du joueur. La probabilité que le jeu se termine par la 37 Chaînes de Markov p 0 1 p i−1 p i i+1 a−1 1 a 1 q q q Figure 5 – Diagramme de transition pour le jeu de pile ou face avec bornes absorbantes. fortune a est fia = 1 − fi0 . On a évidemment f00 = 1 et fa0 = 0. Pour i = 1, . . . , a−1, les fi0 sont solution de l’équation de récurrence : fi0 = pfi+1 0 + (1−p)fi−1 0 . On trouve : fi0 = 1−p p a 1−p p − a 1−p p i , −1 si p 6= 1/2, et fi0 = 1 − i/a si p = 1/2. Le gain du joueur quand la partie se termine est une variable aléatoire G qui prend les valeurs −i et a−i avec probabilités fi0 et 1−fi0 . L’espérance de gain est donc : IE[G] = a(1 − fi0 ) − i . Cette espérance a le signe de p − 1/2. Si p = 1/2 (jeu équitable), elle est nulle quelle que soit la fortune initiale. La durée moyenne de la partie est le temps moyen d’atteinte des états 0 ou a, partant de i. Notons-la ei . Les ei sont solution de l’équation : ei = 1 + pei+1 + (1 − p)ei−1 , avec e0 = ea = 0. On trouve : ei = 1−p p i −1 a i a − , 1 − 2p 1 − 2p 1−p − 1 p si p 6= 1/2 et ei = i(a − i) si p = 1/2. Voici quelques valeurs numériques, Cahier de Mathématiques Appliquées no 11 38 d’abord pour un jeu équitable, puis défavorable au joueur. p i a fi0 IE[G] ei 0.5 9 10 0.1 0 9 90 100 0.1 0 900 0.5 0.5 900 1000 0.1 0 90000 0 47500 0.5 950 1000 0.05 0 1.6 107 0.5 8000 10000 0.2 0.45 9 10 0.210 −1.1 11 0.45 90 100 0.866 −76.6 765.6 0.45 99 100 0.182 −17.2 171.8 0.4 90 100 0.983 −88.3 441.3 0.4 99 100 0.333 −32.3 161.7 Comme on le voit, il est préférable de s’abstenir de jouer si le jeu est défavorable, et ce même si on se fixe un objectif raisonnable. Une borne absorbante : Supposons que l’adversaire soit infiniment riche ou le joueur peu raisonnable. La chaîne de Markov est maintenant définie sur IN, avec un état absorbant, 0 et une classe irréductible transiente formée de tous les autres états. On obtient la probabilité de ruine et la durée moyenne du jeu en faisant tendre a vers l’infini dans les formules précédentes. La probabilité de ruine fi0 est : fi0 1 si p ≤ 1/2 , i = 1−p si p > 1/2 . p La durée moyenne du jeu est : ei = i si p < 1/2 , 1 − 2p +∞ si p ≥ 1/2 . Si le jeu est défavorable ou équitable, le joueur est certain de se ruiner. S’il est strictement défavorable, cette ruine surviendra au bout d’un temps fini en moyenne. S’il est équitable, l’espérance du temps de ruine est infinie. Si le jeu est favorable au joueur, il est possible qu’il se ruine, mais il y a une probabilité strictement positive qu’il devienne infiniment riche. Une borne réfléchissante : Le joueur joue contre un adversaire infiniment riche mais celui-ci, magnanime, l’autorise à continuer le jeu même s’il est ruiné. En 39 Chaînes de Markov posant q = 1 − p, la matrice de transition devient : q p 0 ... q 0 p ... .. .. .. P = 0 . . . . .. . Dans ce cas, tous les états de IN communiquent et la chaîne est irréductible. p=0.45 Xn 100 75 50 25 n 0 . 0 200 400 600 800 1000 Figure 6 – Jeu de pile ou face défavorable : marche aléatoire récurrente positive. S’il existe une mesure stationnaire π, elle vérifie : π0 = qπ0 + qπ1 , et pour tout i ≥ 1 : πi = pπi−1 + qπi+1 . L’équation caractéristique associée a pour racines 1 et p/q Le fait que π soit une mesure de probabilité impose que πi soit le terme général d’une série convergente. Ce n’est possible que si au moins une des racines de l’équation caractéristique est de module strictement inférieur à 1. Ceci ne peut avoir lieu que si p < 1/2. Si p ≥ 1/2, il n’existe pas de mesure stationnaire. Si p < 1/2, notons ρ = p/(1−p) < 1. La mesure stationnaire unique est : π = ((1−ρ)ρi )i∈E . Cahier de Mathématiques Appliquées no 11 40 p=0.5 Xn 100 75 50 25 n 0 . 0 200 400 600 800 1000 Figure 7 – Jeu de pile ou face équitable : marche aléatoire récurrente nulle. • Si p < 1/2, la probabilité d’atteinte de 0 est 1 à partir de n’importe quel état, comme nous l’avons vu précédemment. Donc l’état 0 est récurrent. De plus le temps moyen de retour en 0 est fini. Donc 0 est récurrent positif, et il en est de même de tous les autres états (figure 6). On vérifie que quel que soit l’état de départ, la loi de Xn converge vers la mesure stationnaire π quand m tend vers l’infini. • Dans le cas p = 1/2, la probabilité de retour en 0 est 1 mais le temps moyen de retour est infini : tous les états sont récurrents nuls (figure 7). • Si p > 1/2, la probabilité de retour en 0 est strictement inférieure à 1. L’état 0 est donc transient, comme tous les autres états (figure 8). 3.2 Un modèle simple de file d’attente Nous considérons ici une file d’attente à un seul serveur. Les clients sont servis un par un, et le temps de service de chaque client est fixe. L’unité de temps est ce temps de service. Le nombre de clients arrivant dans la file pendant la n-ième unité de temps est une variable aléatoire An . On supposera que les An sont indépendantes et de même loi q = (qk ) sur IN. Un client arrivant alors que la file est vide attend l’unité de temps suivante pour être servi. Nous notons Xn le nombre de clients présents dans le système à la fin de la n-ième unité de temps. Si Xn est strictement positif, alors Xn+1 = Xn − 1 + An+1 (un client est parti, et An+1 sont arrivés). Si Xn est nul, alors 41 Chaînes de Markov p=0.55 Xn 100 75 50 25 n 0 . 0 200 400 600 800 1000 Figure 8 – Jeu de pile ou face favorable : marche aléatoire transiente. Xn+1 = An+1 . On peut donc écrire : Xn+1 = Xn − 11IN ∗ (Xn ) + An+1 , (3.1) ce qui montre que (Xn ) est une chaîne de Markov, à valeurs dans IN. Le comportement asymptotique de la chaîne (Xn ) est facile à deviner intuitivement. Notons ρ l’espérance de la loi q : ρ= ∞ X k qk . k=1 Ce paramètre ρ est le nombre moyen de clients qui arrivent pendant un temps de service. C’est le coefficient d’occupation de la file. Si ρ < 1, le serveur peut faire face à toutes les demandes : les clients ne s’accumulent pas et un régime d’équilibre peut s’établir. La chaîne (Xn ) est récurrente positive (figure 9). Si ρ > 1, les clients sont trop nombreux et la file sature : le nombre moyen de clients à l’instant n croît en moyenne comme n(ρ − 1). La chaîne Xn tend presque sûrement vers +∞ et elle est donc transiente (figure 10). On démontre que la chaîne est récurrente nulle pour ρ = 1. Nous donnons ci-après les justifications les plus faciles. Proposition 3.1 Si ρ > 1, la chaîne (Xn ) tend vers l’infini presque sûrement, elle est donc transiente. Si ρ < 1 la chaîne est récurrente. Démonstration : A partir de la définition (formule (3.1)), on peut écrire im- Cahier de Mathématiques Appliquées no 11 42 File equilibree Xn 100 75 50 25 n 0 . 0 2000 4000 6000 8000 10000 Figure 9 – File d’attente en équilibre. Le nombre de clients arrivant par unité de temps suit la loi de Poisson de paramètre ρ = 0.99. Simulation sur 10000 services. File saturee Xn 200 150 100 50 n 0 . 0 2000 4000 6000 8000 10000 Figure 10 – File d’attente saturée. Le nombre de clients arrivant par unité de temps suit la loi de Poisson de paramètre ρ = 1.01. Simulation sur 10000 services. 43 Chaînes de Markov médiatement : Xn ≥ −n + n X An i=1 n 1 X = n −1+ Am . n m=1 Pn D’après la loi forte des grands nombres, n1 m=1 Am converge presque sûrement vers ρ, d’où le résultat dans le cas ρ > 1. Pn Supposons X0 = i et m=1 Am < n. On voit aisément à partir de la même formule (3.1), que parmi X1 , . . . , Xn , au moins une des valeurs Pn est égale à i. La probabilité fii de retour en i est donc minorée par IP[ m=1 Am < n]. Pour ρ < 1, cette probabilité tend vers 1 quand n tend vers l’infini, donc fii = 1. Dans le cas où un régime d’équilibre s’établit, il est possible de calculer explicitement la fonction génératrice de la mesure stationnaire. Proposition 3.2 Notons g la fonction génératrice de la loi q des nombres d’arrivées par unité de temps. La chaîne (Xn ) admet une mesure stationnaire si et seulement si le coefficient d’occupation ρ est strictement inférieur à 1. Dans ce cas, la fonction génératrice de cette mesure stationnaire est : f (z) = (1 − ρ)(1 − z)g(z) . g(z) − z Démonstration : La fonction génératrice de la loi q est définie par : g(z) = ∞ X z k qk . k=0 Le coefficient d’occupation est la dérivée de g en 1 : ρ= ∞ X k qk = g ′ (1) . k=0 A partir de la formule de définition (3.1), il est facile d’écrire les probabilités de transition de la chaîne. On obtient p0j = qj pour tout j ≥ 0, et pour i > 0, pij = qj−i+1 si j ≥ i − 1, pij = 0 sinon. Notons π = (πi ) la mesure stationnaire. Si elle existe, elle vérifie le système d’équations suivant : π0 = π0 q 0 + π 1 q 1 π1 = π0 q 1 + π 1 q 1 + π2 q 0 .. . π = π0 qk + π1 qk + · · · + πk+1 q0 k .. . Cahier de Mathématiques Appliquées no 11 P La fonction génératrice de π est définie par f (z) = πk z k . Pour la faire k apparaître, on multiplie par z la k-ième équation du système et on somme : 44 f (z) = π0 g(z) + π1 g(z) + · · · + πk+1 z k g(z) g(z) π0 z − π0 + f (z) . = z On en déduit une expression de f (z) en fonction de π0 et g(z) : f (z) = π0 (1 − z)g(z) . g(z) − z Pour déterminer la valeur de π0 , il faut utiliser le fait que π doit être une mesure de probabilité et que donc f (1) doit être égal à 1. Or z = 1 annule le numérateur et le dénominateur de l’expression ci-dessus. Pour lever l’indétermination, on écrit : g(z) = 1 + (z − 1)ρ + o(z − 1) . On en déduit facilement que π0 = 1−ρ. Donc la mesure stationnaire ne peut être une loi de probabilité que si ρ < 1. Comme cas particulier, supposons que q soit la loi binomiale négative 1 ). Sa fonction génératrice est : BN (1, 1+ρ g(z) = 1 . 1 + ρ − ρz On obtient : f (z) = 1−ρ . 1 − ρz La mesure stationnaire (loi du nombre de clients dans la file à l’équilibre) est ρ . donc la loi BN (1, 1−ρ), d’espérance 1−ρ 3.3 Le problème de l’extinction du nom La chaîne que nous étudions ici porte le nom de “processus de GaltonWatson”, du nom des mathématiciens qui l’ont introduite comme modèle de perpétuation des lignées chez les pairs d’Angleterre à la fin du XIXème siècle. Les instants successifs sont interprétés comme des générations. Les individus sont des “Lords”, qui transmettent leur titre uniquement à leurs fils. La variable aléatoire Xn sera comprise comme le nombre d’hommes de la lignée à la n-ième génération. Chaque individu d’une génération donnée contribue à la génération suivante par un nombre aléatoire d’individus, sa descendance. Toutes les descendances sont supposées indépendantes et de même loi. 45 Chaînes de Markov Nous commençons par montrer que (Xn ) est une chaîne de Markov. Pour cela, donnons-nous une famille (Dnm ) , n, m ∈ IN de variables aléatoires indépendantes et de même loi à valeurs dans IN. La variable Dnm est le nombre de descendants du m-ième individu de la génération n. On a : Xn+1 = Xn X Dnm . i=1 On a donc bien défini une chaîne de Markov à valeurs dans IN, pour laquelle 0 est un état absorbant. Le problème posé est du même type que celui de la ruine du joueur : il faut déterminer la probabilité que la lignée s’éteigne, à savoir que la chaîne soit absorbée en 0. Pour tout i = 0, 1, . . ., on note qi la probabilité qu’un individu ait i descendants. La fonction génératrice de la descendance d’un individu est notée g: ∞ X z i qi . g(z) = i=0 Le nombre moyen de descendants d’un individu (supposé fini !) est noté µ. µ= ∞ X i qi = g ′ (1) . i=0 S’il y a i individus à la n-ième génération (Xn = i), alors Xn+1 sera la somme des descendances de ces i individus, qui sont des variables aléatoires indépendantes. La fonction génératrice de la loi conditionnelle de Xn+1 sachant Xn = i sera donc le produit des fonctions génératrices des descendances des i individus, soit g i . Les probabilités de transition n’ont pas d’expression simple, mais : ∞ X z j pij = g i (z) . j=0 Théorème 3.3 La probabilité d’extinction pour une lignée de i individus est fi0 = η i , où η est la plus petite solution de l’équation g(z) = z dans [0, 1]. • Si µ ≤ 1, alors η = fi0 = 1 : l’extinction est certaine. • Si µ > 1, l’équation g(z) = z a une unique solution η telle que 0 < η < 1. L’extinction est possible (si q0 > 0) mais pas certaine. Ce que dit ce théorème est intuitivement évident : pour que la lignée ait une chance de perdurer, il faut que chaque individu ait plus d’un descendant en moyenne. Démonstration : Commençons par écarter deux cas particuliers triviaux. 1. Si q0 = 0, tout individu a au moins un descendant et la population ne peut pas disparaître. Cahier de Mathématiques Appliquées no 11 46 Points fixes de g g(z) 1 g sous-critique g sur-critique z 0 . 0 1 Figure 11 – Fonction génératrice de la descendance. 2. Si q0 + q1 = 1, la population ne peut que rester constante (si q0 = 0) ou diminuer et donc disparaître certainement. La probabilité qu’une lignée commençant avec i individus disparaisse à la (m) (M ) m-ième génération est la probabilité de premier passage fi0 . Notons Fi0 la somme : M X (m) (M ) fi0 . Fi0 = m=1 C’est la probabilité que chacune des i lignées issues des individus initiaux disparaisse avant la M -ième génération. Or ces i lignées sont indépendantes, et identiquement distribuées. On a donc : i (M ) (M ) Fi0 = F10 . (1) Or, f10 = q0 et pour tout m ≥ 2 : (m) f10 = ∞ X (m−1) qi fi0 . i=1 En sommant sur m de 1 à M , on obtient : (M ) F10 = q0 + ∞ X i (M −1) qi F10 i=1 (M −1) = g(F10 ). 47 Chaînes de Markov La probabilité d’absorption en 0 partant de i, fi0 , est la limite de la suite (M ) (Fi0 ). Cette suite est croissante et majorée par 1. Elle converge donc. Sa limite vérifie : fi0 = (f10 )i , et de plus : f10 = g(f10 ) . (M ) (F10 ) Comme la suite l’équation g(z) = z. est croissante, sa limite est la plus petite solution de La fonction g(z) est convexe dans [0, 1] et croît de g(0) = q0 à g(1) = 1. Deux cas sont possibles. • Cas sous-critique Si la dérivée de g en 1 est inférieure ou égale à 1, alors g(z) reste au dessus de sa tangente en 1. On a donc g(z) − z > 0 pour tout z < 1. Donc 1 est la plus petite solution de l’équation. Dans ce cas fi0 = 1, et l’extinction est certaine. • Cas sur-critique Si la dérivée de g en 1 est strictement supérieure à 1, alors g(z) − z est strictement négatif pour un certain z < 1. Comme g(0) = q0 > 0, l’équation g(z) = z a une solution η strictement comprise entre 0 et 1 (voir figure 11). Cahier de Mathématiques Appliquées no 11 48 4 Exercices Exercice 1 Les matrices suivantes sont des matrices de transition sur I = {1, . . . , x}, x = 4, 5 ou 7. 1 0 0 0 0 1/2 1/2 0 0 1/2 1/2 0 1/2 0 0 1/2 0.8 0 0.2 0 0 0 0 0.5 0.5 0 0 0.4 0.6 0 0 0 0.8 0 0.2 0.8 0 0 0 0.4 0.6 0 0 0 1 0 0.2 0 0 1 0 0 0 0.7 0 0 0 0 0.3 0 0 0 0 0 0 0 0 0.3 0.5 0.2 0 0 0.6 0 0.4 0 0 0 0.4 0.6 0 0.1 0.1 0.2 0.2 0.3 0 0 0 0 0 0.1 0.1 0.1 0.1 0 0.1 0.2 0.4 1 0 0.2 0.8 0 0 0.6 0.4 0 0 0 0.2 0.3 0.5 0 0 0.5 0.5 0 0.2 0 0.5 0.3 0.5 0 0.5 0 0 0 0 1 0 0 0.3 0 0.5 0 0.2 0 0 0.4 0.6 0 0.8 0 0.2 0 0.2 0.3 0 0.5 0 0 1 0 1 0 0 0 0.3 0.4 0 0.3 0 0.5 0 0 0.3 0 0 0 0 0 0 0 1/2 0 0.4 0 0.7 0 0 0 1 0 0 1 0 0 0 0.6 0 1/2 0 1/2 0 0 0 1/4 1/3 0 0.5 0 0 1/4 0 3/4 0 0 1/3 0 2/3 1/2 0 1/4 0 0 1/3 0 1/3 0 1/2 1/4 1/4 0 0 1/3 0 2/3 0 0 0 0 0 1/3 0 0 0 0 1/2 0 0 0 0 3/4 1/2 0 0 0 0 1/4 3/4 0 0 0 0 0 0 2/3 1/2 1/4 0 0 Chaînes de Markov 0.8 0 0 0 0 0 0.1 0 0.9 0 0 0 0 0.3 0 0 0 1 0 0.5 0 49 0 0 0.2 0 0 1 0 0 0 0 0.5 0 0 0 0.7 0 0 0 0 0.5 0 0 0 0 0 0 0.5 0 0 0 0.8 0 0 0 0 0 1 0 0 0 0 0.2 0 0 0.4 0.4 0 0 0 0 0.2 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0.7 0 0.3 0 0 0 0 0 0 1 Pour chacune de ces matrices P : 1. Représenter le diagramme de transitions et classifier les états. 2. Déterminer l’ensemble des mesures stationnaires. 3. Pour tout couple d’états (i, j), calculer la probabilité fij d’atteindre j à partir de i. 4. Si une chaîne de Markov (Xn ) , n ∈ IN a pour matrice de transition P et pour loi initiale α = (αi ), déterminer la limite de la loi de Xn quand n tend vers l’infini. 5. Pour n = 10, 20, . . . , 100, calculer numériquement P n . 6. Pour i ∈ I, simuler 10000 trajectoires de la chaîne de matrice P , partant de X0 = i, jusqu’au temps N = 100. Pour n = 10, 20, . . . , 100, tester l’adéquation de la distribution empirique des 10000 trajectoires au temps t avec la distribution théorique de Xn , calculée numériquement à la question précédente. 7. Pour i ∈ I, tirer une trajectoire partant de X0 = i jusqu’au temps N = 106 et calculer la proportion empirique du temps passé dans chacun des états. Tester l’adéquation de cette distribution empirique avec la mesure stationnaire de l’une des classes récurrentes de la chaîne. Exercice 2 Quatre points A, B, C, D sont placés sur un cercle, dans le sens des aiguilles d’une montre. Le jeu consiste à tourner sur ces quatre points, en partant de A, toujours dans le même sens, d’autant de pas que le nombre indiqué par un dé à 6 faces. On note Xn le point sur lequel on arrive au n-ième lancer de dé (Xn ∈ {A, B, C, D}). 1. Montrer que (Xn ) , n ∈ IN est une chaîne de Markov et écrire sa matrice de transition P . 2. Pour n = 10, 20, . . . , 100, calculer numériquement P n . 3. Simuler 10000 trajectoires de la chaîne (Xn ), jusqu’au temps N = 100. Pour n = 10, 20, . . . , 100, tester l’adéquation de la distribution empirique des 10000 trajectoires au temps t avec la distribution théorique de Xn , calculée numériquement à la question précédente. 4. Quelle est la limite en loi de Xn quand n tend vers l’infini ? Cahier de Mathématiques Appliquées no 11 50 5. Simuler 10000 trajectoires de la chaîne (Xn ) 6. Simuler une trajectoire jusqu’au temps N = 106 et calculer la proportion empirique du temps passé dans chacun des états. Tester l’adéquation de cette distribution empirique avec la mesure stationnaire de la chaîne. 7. On décide de terminer le jeu dès qu’on tombe sur A ou C, la partie étant gagnée si on est tombé sur A, perdue sur C. Quelle est la probabilité de gagner ? 8. Combien de pas en moyenne aura-t-on effectué quand la partie se terminera ? 9. Simuler 10000 trajectoires de la chaîne, arrêtées en A ou C. Calculer la fréquence d’arrêt en A et comparer avec la probabilité de gain. Calculer la longueur moyenne des trajectoires et comparer avec le résultat théorique de la question précédente. Exercice 3 Deux joueurs A et B jouent au jeu suivant. Chaque joueur lance une pièce non truquée. Si l’un des deux obtient pile et l’autre face, le jeu s’arrête et celui qui a obtenu pile a gagné. Si tous les deux obtiennent pile, la partie est nulle et le jeu s’arrête. Sinon, ils jouent une autre partie. 1. Calculer la probabilité que le jeu s’arrête à la n-ième partie. 2. Calculer la probabilité que A gagne en moins de n parties. 3. Calculer la probabilité que le jeu s’arrête sur une partie nulle. 4. Quelle est la durée moyenne du jeu en nombre de parties ? 5. Simuler 10000 parties, et vérifier expérimentalement les résultats théoriques des questions précédentes. Exercice 4 Une souris est lancée dans le labyrinthe suivant. Elle commence en A où se trouve sa cage. En B il y a un morceau de fromage, en C un chat affamé. La souris parcourt les couloirs en choisissant au hasard parmi les couloirs offerts à chaque nouvelle intersection. Elle met une seconde en moyenne entre deux intersections. 11111 00000 00000 11111 00000 11111 00000 11111 00000 11111 00000 11111 000000 111111 00000 11111 00000 11111 000000 111111 00000 11111 00000 11111 000000 111111 00000 11111 00000 11111 000000 111111 00000 11111 00000 11111 C D A F E B 51 Chaînes de Markov 1. Quelle est la probabilité que la souris se fasse manger le ventre plein ? 2. Quelle est la probabilité que la souris revoit sa chère cage avant de se faire manger ? 3. Quelle est la probabilité que la souris n’ait pas revu sa cage et se fasse manger le ventre vide ? 4. Combien de temps durera ce jeu cruel ? 5. Simuler 10000 parcours, et vérifier expérimentalement les résultats théoriques des questions précédentes. Exercice 5 Le jeu de Penney. Cet exercice développe l’exemple donné en 1.3. Le but est d’étudier les occurrences de séquences binaires données à l’intérieur d’une suite de tirages de pile ou face. Dans ce qui suit (ǫn )n≥1 désigne une suite de tirages de pile ou face, à savoir une suite de variables aléatoires indépendantes identiquement distribuées, suivant la loi de Bernoulli de paramètre 1/2. ∀n ≥ 1 , P rob[ǫn = 0] = P rob[ǫn = 1] = 1 . 2 Première partie On s’intéresse aux occurrences successives d’un “mot” binaire donné. Soit A = (ai )1≤i≤ℓ un mot binaire de longueur ℓ. ∀i = 1, . . . , ℓ , ai = 0 ou 1 . Pour tout k = 1, . . . , ℓ, on note Ak le mot A tronqué à ses k premières lettres : ∀k = 1, . . . , ℓ , Ak = (ai )1≤i≤k . Pour tout entier n on définit la variable aléatoire Xn , à valeurs dans {0, . . . , ℓ} comme le nombre de bits parmi les derniers tirages jusqu’au n-ième qui coïncident avec le début de A. Xn = 0 si n = 0 ou ∀k = 1, . . . , ℓ (ǫn−k+1 , . . . , ǫn ) 6= Ak Xn = k ∈ {1 . . . , ℓ−1} si (ǫn−k+1 , . . . , ǫn ) = Ak et (ǫn−k−i , . . . , ǫn ) 6= Ak+i+1 , ∀i = 0, . . . , ℓ − k − 1 Xn = ℓ si (ǫn−ℓ+1 , . . . , ǫn ) = Aℓ = A . 1. Montrer que (Xn )n∈IN est une chaîne de Markov. 2. Montrer que la loi de la chaîne (Xn ) ne change pas si on remplace A = (ai )1≤i≤ℓ par A = (1 − ai )1≤i≤ℓ . 52 Cahier de Mathématiques Appliquées no 11 3. Expliciter le diagramme et la matrice de transitions de la chaîne (Xn ) dans les cas suivants. a) A = (1, 1, . . . , 1) (ℓ termes égaux à 1). b) A = (1, . . . , 1, 0) (ℓ−1 termes égaux à 1 suivis d’un 0). c) A = (1, 0, 1). d) A = (1, 1, 0, 0). e) A = (1, 0, 1, 1). f) A = (0, 1, 1, 1). 4. Ecrire un algorithme qui prenne en entrée un mot binaire donné comme un tableau de booléens, et qui retourne en sortie la matrice de transition de la chaîne (Xn ). 5. Ecrire un programme de simulation. Ce programme prend en entrée un mot binaire donné comme un tableau de booléens, et un nombre de pas n. Il retourne le tableau des n valeurs prises par la chaîne (Xn ), à partir de X0 = 0. Deuxième partie On s’intéresse à l’instant de première apparition du mot A = (ai )1≤i≤ℓ à savoir le premier indice n pour lequel la chaîne (Xn ) atteint l’état ℓ. Pour tout k = 0, . . . , ℓ−1 et pour tout n ≥ 1, on note qk (n) la probabilité d’atteindre pour la première fois l’état ℓ en exactement n pas, à partir de l’état k. qk (n) = IP[Xm+n = ℓ , Xm+n−1 6= ℓ , . . . , Xm+1 6= ℓ |Xm = k] . 1. Soit P = (pij ) la matrice de transition de la chaîne (Xn ). Montrer que pour tout k = 0, . . . , ℓ − 1 qk (1) = pkℓ et pour tout n > 1, qk (n) = ℓ−1 X pkj qj (n − 1) . j=0 2. Pour tout k = 0, . . . , ℓ − 1 montrer que (qk (n))n∈IN est une loi de probabilité sur IN∗ . On note gk la fonction génératrice de cette loi de probabilité, et mk son espérance. +∞ X qk (n) z n , gk (z) = mk = n=1 +∞ X n qk (n) . n=1 On note G(z) et M les vecteurs : G(z) = (gk (z))0≤k≤ℓ−1 et M = (mk )0≤k≤ℓ−1 . 53 Chaînes de Markov On note Pℓ le vecteur formé des ℓ premiers termes de la dernière colonne de P et P ′ la matrice obtenue en ôtant la dernière ligne et la dernière colonne de P . Pℓ = (piℓ )0≤i≤ℓ−1 et P ′ = (pij )0≤i,j≤ℓ−1 . On note enfin I la matrice identité de dimension ℓ et IRℓ dont toutes les coordonnées valent 1. 11 le vecteur de 3. Montrer que : G(z) = z(I − zP ′ )−1 Pℓ et M = (I − P ′ )−1 11 . 4. Soit N la variable aléatoire égale au premier indice d’apparition du mot A dans la suite (ǫn ). Quelle est la fonction génératrice de la loi de N ? Quelle est son espérance ? 5. Calculer la fonction génératrice de la loi de N pour A = (1, 1) puis A = (1, 0). 6. Calculer l’espérance de N dans les cas suivants : a) A = (1, 1, . . . , 1) (ℓ termes égaux à 1). b) A = (1, . . . , 1, 0) (ℓ−1 termes égaux à 1 suivis d’un 0). c) A = (1, 0, 1). d) A = (1, 1, 0, 0). e) A = (1, 0, 1, 1). f) A = (0, 1, 1, 1). 7. Soit A un mot binaire quelconque. On définit le mot binaire R(A) = (r1 , . . . , rℓ ), qui compte les auto-recouvrements partiels de A, de la façon suivante. Pour tout k = 1, . . . , ℓ, rk = 1 si (a1 , . . . , aℓ−k+1 ) = (ak , . . . , aℓ ) = 0 sinon . On admettra que le temps moyen de première apparition de A est égal à 2 fois la valeur entière de R(A) : IE[N ] = 2 ℓ X rk 2ℓ−k . k=1 a) Vérifier les résultats de la question précédente. b) Calculer le temps moyen de première apparition de : A = (1, 1, 0, 1, 1, 0, 1, 1, 0) . 8. Vérifier par la simulation les résultats des questions 6 et 7. On donnera pour chacun des temps moyens un intervalle de confiance d’amplitude inférieure à 0.1, au niveau de confiance 0.99. Cahier de Mathématiques Appliquées no 11 54 Troisième partie Le jeu de Penney consiste à faire jouer deux mots binaires A et B l’un contre l’autre jusqu’à l’instant d’apparition du premier d’entre eux. C’est celui des deux mots qui apparaît le premier qui gagne. Selon A et B, il pourrait se faire que l’un des deux ne puisse jamais gagner, ou que les deux gagnent simultanément. Afin de simplifier les écritures et d’éviter ces cas particuliers, nous supposerons que A et B sont deux mots binaires distincts de même longueur ℓ. Le but est de calculer la durée moyenne d’une partie ainsi que la probabilité que chacun des deux mots a de gagner. 1. La suite de tirages (ǫn ) étant fixée, on lui associe les deux chaînes de Markov (Xn )n∈IN et (Yn )n∈IN où (Xn ) est la chaîne associée au mot A comme dans la première partie, et (Yn ) correspond à B de façon analogue. Montrer que ((Xn , Yn ))n∈IN est une chaîne de Markov sur {0, . . . , ℓ}2 . Les variables aléatoires Xn et Yn peuvent-elles être indépendantes ? 2. Expliciter le diagramme de transitions de la chaîne ((Xn , Yn )) dans le cas : A = (1, 1, . . . , 1) ; B = (1, . . . , 1, 0) . 3. Même question pour le cas : A = (1, 1, . . . , 1) ; B = (0, . . . , 0, 1) . A B Pour k et h différents de ℓ, on note qk,h (n) (respectivement qk,h (n)) la probabilité que A (resp. B) gagne au bout de n coups en partant de l’état (k, h). A qk,h (n) = IP[Xm+n = ℓ, Xm+n−1 6= ℓ, . . . , Xm+1 6= ℓ, Ym+n−1 6= ℓ, . . . , Ym+1 6= ℓ | (Xm , Ym ) = (k, h)] . 4. On note mk,h la durée moyenne du jeu en partant de l’état (k, h). mk,h = +∞ X A B n (qk,h (n) + qk,h (n)) . n=1 Montrer que les mk,h sont solution du système : ∀k, h 6= ℓ , mk,h = ℓ−1 ℓ−1 X X p(k,h)(k′ ,h′ ) mk′ ,h′ , k′ =0 h′ =0 où les p(k,h)(k′ ,h′ ) désignent les probabilités de transition de la chaîne {(Xn , Yn ) ; n ∈ IN}. 55 Chaînes de Markov A 5. On note qk,h la probabilité que A gagne le jeu en partant de l’état (k, h). A qk,h = +∞ X A qk,h (n) . n=1 A Montrer que les qk,h sont solution du système : ∀k, h 6= ℓ , A qk,h = ℓ−1 ℓ−1 X X p(k,h)(k′ ,h′ ) qkA′ ,h′ + k′ =0 h′ =0 ℓ−1 X p(k,h)(ℓ,h′ ) . h′ =0 6. Calculer la durée moyenne du jeu et la probabilité que A gagne dans les cas suivants : a) A = (1, 1) ; B = (1, 0). b) A = (1, 1) ; B = (0, 1). 7. Soient A et B deux mots quelconques. On définit le mot R(A, B) = (r1 , . . . , rℓ ), qui compte les recouvrements partiels de A par B, de la façon suivante. Pour tout k = 1, . . . , ℓ, rk = 1 si (b1 , . . . , bℓ−k+1 ) = (ak , . . . , aℓ ) = 0 sinon . On note ρ(A), ρ(B), ρ(A, B) et ρ(B, A) les valeurs entières des mots binaires R(A), R(B), R(A, B) et R(B, A). On admettra la formule donnant la probabilité que A gagne le jeu de Penney : A q0,0 = ρ(B) − ρ(B, A) . ρ(B) − ρ(B, A) + ρ(A) − ρ(A, B) Vérifier les résultats de la question précédente. 8. Calculer la probabilité que A gagne dans les cas suivants : a) A = (1,1,0,1) ; B = (1,0,1,1). b) A = (1,0,1,1) ; B = (0,1,1,1). c) A = (0,1,1,1) ; B = (1,1,0,1). 9. Vérifier par la simulation les résultats de la question précédente. Dans chacun des trois cas, on donnera un intervalle de confiance pour la probabilité de gain de A, d’amplitude inférieure à 0.01. On donnera également un intervalle de confiance pour la durée moyenne de chacune des trois parties. Les niveaux de confiance sont toujours fixés à 0.99. Exercice 6 Des objets, nommés x, y1 , y2 , . . . , yN −1 , sont rangés dans un tableau de taille N dans lequel on accède de manière séquentielle. A chaque accès au tableau, on recherche l’un des N objets, soit x avec probabilité a, soit l’un des N−1 autres, avec probabilité b pour chacun d’eux (a + (N−1)b = 1). Le choix à chaque accès est indépendant des recherches précédentes. Cahier de Mathématiques Appliquées no 11 56 Les probabilités d’accès a et b sont a priori inconnues, mais on soupçonne que l’objet x est plus fréquemment appelé que les autres. Dans toute la suite on supposera donc a > b. A chaque accès, on décide de déplacer l’objet choisi, de manière à ce qu’il soit placé plus près de la tête du tableau s’il est fréquemment appelé. Deux stratégies sont envisagées. 1. Move ahead : Si l’objet choisi est le premier, il n’est pas déplacé. Sinon, il est échangé avec l’objet qui le précédait. On note Xn ∈ {1, . . . , N } le rang de l’objet x dans le tableau à l’issue du n-ième accès. (a) Montrer que (Xn ) , n ∈ IN est une chaîne de Markov homogène. (b) Ecrire le diagramme de transition et la matrice de transition de la chaîne (Xn ). (c) Soit p = (pi ) , i = 1, . . . , N la mesure stationnaire de la chaîne (Xn ). Montrer que pour tout i = 2, . . . , N , b pi = . pi−1 a (d) En déduire que la suite des pi est décroissante (on dit que la stratégie est auto-arrangeante). 2. Move to front : Si l’objet choisi est le premier, il n’est pas déplacé. Sinon, il est placé en tête, et les objets qui le précédaient sont décalés vers la droite. On note Yn ∈ {1, . . . , N } le rang de l’objet x dans le tableau à l’issue du n-ième accès. (a) Montrer que (Yn ) , n ∈ IN est une chaîne de Markov homogène. (b) Ecrire le diagramme de transition et la matrice de transition de la chaîne (Yn ). (c) Soit q = (qi ) , i = 1, . . . , N la mesure stationnaire de la chaîne (Yn ). Montrer que pour tout i = 2, . . . , N , qi qi−1 = (N − i + 1)b . a + (N − i)b (d) En déduire que la suite des qi est décroissante. 3. Comparaison : (a) Montrer que pour tout i = 2, . . . , N , qi pi < . pi−1 qi−1 (b) En déduire que p1 > q1 . (c) Laquelle des deux stratégies choisiriez-vous ? 57 Chaînes de Markov (d) Ecrire un programme de simulation pour les deux stratégies. Le programme prend en entrée le nombre d’objets N , la probabilité a et un nombre d’itérations T . On suppose qu’à l’origine, l’objet x est à la place N . A chaque tirage d’objet effectué, la nouvelle place de x est calculée pour les deux stratégies. Pour N = 1000, a = 0.01 et T = 10000, représenter les deux trajectoires des chaînes (Xn ) et (Yn ). Pour N = 10, a = 0.5 et T = 106 , calculer la distribution empirique des places occupées par x pour chacune des deux stratégies et tester l’adéquation avec la distribution stationnaire théorique. Exercice 7 On place un rat dans le labyrinthe suivant. 1 2 3 4 5 6 7 8 9 1. A chaque fois qu’il se retrouve dans une des 9 cases, le rat choisit une des portes disponibles au hasard, et indépendamment de ses choix précédents. Soit Xn le numéro de la n-ième case visitée par le rat. Montrer que (Xn ) , n ∈ IN est une chaîne de Markov et représenter son diagramme de transitions. 2. On considère la partition de l’espace d’états en les trois classes suivantes : a = {1, 3, 7, 9} b = {2, 4, 6, 8} c = {5} . On note Yn la classe à laquelle appartient Xn . Montrer que (Yn ) , n ∈ IN est une chaîne de Markov et écrire sa matrice de transition. 3. Déterminer la mesure stationnaire de la chaîne (Yn ). En déduire la mesure stationnaire de la chaîne (Xn ). 4. Si le rat part de l’un des coins, et franchit une case toutes les secondes, combien de temps mettra-t-il en moyenne à atteindre le fromage qui se trouve au centre ? 5. Simuler 10000 trajectoires de la chaîne (Xn ) et vérifier expérimentalement les résultats des questions précédentes. 6. Le rat n’est pas si bête : à chaque fois qu’il a passé une porte, il choisit sa prochaine porte au hasard parmi les portes disponibles différentes de celle qu’il vient d’emprunter. A la n-ième porte franchie, on note Zn le couple formé des numéros de la case de départ et de la case d’arrivée. Montrer que (Zn ) , n ∈ IN) est une chaîne de Markov et représenter son diagramme de transitions. Cahier de Mathématiques Appliquées no 11 58 7. Sous ces nouvelles hypothèses, montrer que (Xn ) n’est pas une chaîne de Markov. 8. On définit Tn par : Tn = (x, y) ⇐⇒ Zn ∈ x × y , où x et y sont deux éléments quelconques de {a, b, c}. Montrer que (Tn ) , n ∈ IN est une chaîne de Markov et représenter son diagramme de transitions. 9. Si le rat part de l’un des coins, et franchit une case toutes les secondes, combien de temps mettra-t-il en moyenne à atteindre le fromage qui se trouve au centre ? 10. Simuler 10000 trajectoires de la chaîne (Zn ) et vérifier epérimentalement le résultat de la question précédente. Exercice 8 1. Ecrire un algorithme de simulation approchée par chaîne de Markov pour la loi uniforme sur : (a) L’ensemble des vecteurs (k1 , . . . , kd ), à coefficients entiers positifs ou nuls, tels que k1 + · · · + kd = n (les entiers d et n sont fixés). (b) La sphère unité de IRd . (c) L’ensemble des sous ensembles à n éléments d’un ensemble à d éléments. (d) L’ensemble des tables de contingence de taille d, de marges fixées. Une table de contingence A est une matrice d×d à coefficients entiers positifs ou nuls, où L = A11 (sommes par lignes) et C = tA11 (sommes par colonnes) sont des vecteurs fixés (tels que t 11L = t 11C). (e) L’ensemble des arbres à d sommets. (f) L’ensemble des graphes connexes à d sommets. 2. Ecrire un algorithme de Metropolis pour la simulation approchée des lois de probabilité suivantes. (a) La loi sur l’ensemble des vecteurs d’entiers (k1 , . . . , kd ) de somme n qui est telle que la probabilité d’un vecteur soit proportionnelle à sa première coordonnée. (b) La loi sur la sphère unité de IRd dont la densité est proportionnelle au carré de la première coordonnée. (c) La loi sur l’ensemble des sous-ensembles à n éléments de {1, . . . , d}, telle que la probabilité d’un sous-ensemble soit proportionnelle à la somme de ses éléments. 59 Chaînes de Markov (d) La loi sur l’ensemble des tables de contingence de taille d, de marges fixées, telle que la probabilité d’une table de contingence soit proportionnelle à la somme des éléments de sa diagonale principale. (e) La loi sur l’ensemble des arbres à d sommets, telle que la probabilité d’un arbre soit proportionnelle à son diamètre (nombre maximum d’arêtes dans un chemin minimal joignant deux sommets). (f) La loi sur l’ensemble des graphes connexes à d sommets, telle que la probabilité d’un graphe connexe soit proportionnelle à son nombre d’arêtes. Exercice 9 Soit F (les filles) et G (les garçons) deux ensembles finis non vides. On appelle “noce” un ensemble N ⊂ F × G de couples tel que : ∀f ∈ F , |{g ∈ G ; (f, g) ∈ N }| ≤ 1 et ∀g ∈ G , |{f ∈ F ; (f, g) ∈ N }| ≤ 1 . (Chaque individu a au plus un conjoint, mais peut rester célibataire.) On note E l’ensemble des noces. On note πF et πG les projections canoniques, de sorte que πF (N ) est l’ensemble des filles mariées, et πG (N ) l’ensemble des garçons mariés de la noce N . 1. L’algorithme A suivant simule une chaîne de Markov sur E. N = ∅ ; n ←− 0 Répéter choisir f ∈ F avec probabilité 1/|F | choisir g ∈ G avec probabilité 1/|G| Selon ((f, g)) cas ((f, g) ∈ N ) alors N ←− N \ {(f, g)} cas (f ∈ / πF (N ) et g ∈ /SπG (N )) alors N ←− N {(f, g)} finSelon n ←− n+1 Jusqu’à (arrêt de la simulation) (ils sont mariés ensemble) (divorce) (ils sont célibataires) (mariage) (a) Expliciter les probabilités de transition de cette chaîne. Montrer qu’elle est irréductible et apériodique. Montrer qu’elle admet la loi uniforme sur E comme mesure réversible. (b) Dans le cas |F | = |G| = 2, l’ensemble E a 7 éléments. Représenter le diagramme de transitions de la chaîne entre ces 7 éléments. 2. L’algorithme B suivant simule une autre chaîne de Markov sur E. N = ∅ ; n ←− 0 Répéter Cahier de Mathématiques Appliquées no 11 60 choisir f ∈ F avec probabilité 1/|F | choisir g ∈ G avec probabilité 1/|G| Selon ((f, g)) cas ((f, g) ∈ N ) (ils sont mariés ensemble) alors N ←− N \ {(f, g)} cas (f ∈ / πF (N ) et g ∈ /SπG (N )) (ils sont célibataires) alors N ←− N {(f, g)} cas ((f, g ′ ) ∈ N et (f ′ , g) ∈ N ) (ils sont mariés ailleurs) S alors N ←− (N \ {(f, g ′ ), (f ′ , g)}) {(f, g), (f ′ , g ′ )} cas (f ∈ / πF (N ) et (f ′ , g) ∈ N ) (elle est libre, pas lui) S alors N ←− (N \ {(f ′ , g)}) {(f, g)} cas (g ∈ / πG (N ) et (f, g ′ ) ∈ N ) S (il est libre, pas elle) alors N ←− (N \ {(f, g ′ )}) {(f, g)} finSelon n ←− n+1 Jusqu’à (arrêt de la simulation) Reprendre a), b) et c) de la question précédente pour ce nouvel algorithme. 3. Ecrire un algorithme qui simule une chaîne de Markov admettant pour mesure réversible la loi de probabilité sur E telle que la probabilité d’une noce N soit proportionnelle à λ|N | , où λ est un réel supérieur à 1 fixé. 4. Chaque individu a ses préférences, qui sont des réels strictement positifs : pf (g) est la préférence de la fille f pour le garçon g, cf est sa préférence pour le célibat. De même qg (f ) est la préférence du garçon g pour la fille f , et dg sa préférence pour le célibat. (Il peut malheureusement arriver que cf > pf (g) ∀g, alors que ∀g , qg (f ) > dg ). On définit l’“harmonie” comme la fonction h qui à une noce N associe : X X X h(N ) = (pf (g) + qg (f )) + cf + dg . (f,g)∈N f ∈π / F (N ) g ∈π / G (N ) Le but du jeu est évidemment de trouver une noce dans : Emax = { N ∈ E t.q. h(N ) ≥ h(N ′ ) , ∀N ′ ∈ E } . Ecrire un algorithme qui simule une chaîne de Markov admettant pour mesure réversible la loi de probabilité sur E telle que la probabilité 1 d’une noce N soit proportionnelle à e− T h(N ) , où T est un réel strictement positif fixé. Montrer que quand T décroît vers 0, cette loi de probabilité converge vers la loi uniforme sur Emax . 61 Chaînes de Markov Exercice 10 Soit N un entier. On note (XnN , YnN )n∈IN la marche aléatoire sur IR × IR, partant de (X0N , Y0N ) = (0, 1), telle que les suites de variables N N − XnN ) et (Yn+1 − YnN ) soient indépendantes entre elles, aléatoires (Xn+1 formées de variables indépendantes et de même loi : N N IP[Xn+1 − XnN = −1/N ] = IP[Xn+1 − XnN = 1/N ] = 1/2 , N N IP[Yn+1 − YnN = −1/N ] = IP[Yn+1 − YnN = 1/N ] = 1/2 . A chaque pas la marche choisit au hasard entre les 4 points diagonalement opposés sur les 4 carrés de côté 1/N voisins. Première partie On s’intéresse à l’instant de sortie et à l’abscisse de sortie de la marche aléatoire ainsi définie hors du demi plan supérieur. L’instant de sortie est la variable aléatoire T N définie par : T N = k ⇐⇒ YiN > 0 ∀i < k et YkN = 0 . L’abscisse de sortie U N est l’abscisse de la marche aléatoire à l’instant de sortie T N . T N = k =⇒ U N = XkN . 1. Déterminer la fonction génératrice de T N . 2. En déduire la fonction caractéristique de U N . 3. Montrer que la suite (U N ) converge en loi, quand N tend vers l’infini, vers la loi de Cauchy, de densité : 1 . π(1 + x2 ) 4. Implémenter un algorithme de simulation de la marche aléatoire, de manière à réaliser une étude expérimentale du comportement asymptotique de T N et U N . Les sorties attendues sont par exemple : – les courbes des intervalles de confiance de niveau 0.99 pour les espérances de T N et U N en fonction de N . – des histogrammes de T N , pour N “assez grand”. – des histogrammes de U N , pour N “assez grand”, superposés avec la densité de la loi de Cauchy. 5. On modifie la loi des pas de la marche aléatoire qui se déplace maintenant verticalement et horizontalement au lieu de se déplacer en diagonale : N N − YnN ) = (1/N, 0)] IP[(Xn+1 − XnN , Yn+1 = N N IP[(Xn+1 − XnN , Yn+1 − YnN ) = (0, 1/N )] = N N − YnN ) = (−1/N, 0)] = − XnN , Yn+1 IP[(Xn+1 N N IP[(Xn+1 − XnN , Yn+1 − YnN ) = (0, −1/N )] = 1/4 . Cahier de Mathématiques Appliquées no 11 62 Qu’est-ce qui change dans l’étude précédente ? Deuxième partie On s’intéresse maintenant à l’instant de sortie et à l’abscisse de sortie de la marche aléatoire hors de la bande de plan IR×]0, 2[. L’instant de sortie est la variable aléatoire T N définie par : T N = k ⇐⇒ 0 < YiN < 2 ∀i < k et YkN ∈ {0, 2} . Soient U N et V N l’abscisse et l’ordonnée de la marche aléatoire à l’instant de sortie T N . T N = k =⇒ (U N , V N ) = (XkN , YkN ) . 1. Montrer que U N et V N sont indépendantes. Quelle est la loi de V N ? Montrer que la loi de U N est symétrique : ∀k ∈ IN IP[U N = k] = IP[U N = −k] . 2. Déterminer la fonction génératrice de T N . 3. En déduire la fonction caractéristique de U N . 4. Montrer que la suite (U N ) converge en loi, quand N tend vers l’infini, vers une loi dont la densité est a/ cosh(bx), où a et b sont des paramètres à calculer. 5. Reprendre les questions 4 et 5 de la première partie. Exercice 11 Le but de l’exercice est d’étudier le comportement asymptotique de marches aléatoires sur ZZd . 1. Soit (Un ) , n ∈ IN une suite de variables aléatoires indépendantes et de même loi, telles que IP[Un = 1] = p et IP[Un = −1] = 1−p. On définit une marche aléatoire sur ZZ par X0 ∈ ZZ (indépendante de la suite (Un ) et pour tout n ≥ 0 : Xn+1 = Xn + Un . (n) On note px,x la probabilité que la chaîne soit en x au n-ième pas, si (n) elle est partie de x. Montrer que px,x est nul si n est impair. Pour tout m ≥ 1, montrer que : 2m m p(2m) = p (1 − p)m . x,x m (2m) Donner un équivalent de px,x quand m tend vers l’infini. En déduire que (Xn ) est récurrente nulle pour p = 1/2 et transiente sinon. 2. Pour d ≥ 1, considérons d chaînes de Markov indépendantes (Xn(1) ), . . . , (Xn(d) ) , Chaînes de Markov 63 chacune de même loi que la chaîne (Xn ) de la question précédente. (1) (d) Pour n ∈ IN, on note Zn le n-uplet (Xn , . . . , Xn ). Montrer que (Zn ) d est une chaîne de Markov. Pour z ∈ ZZ . Calculer IP[Zn = z | Z0 = z]. Montrer que la chaîne est récurrente nulle si p = 1/2 et d = 1 ou 2, transiente dans tous les autres cas. 3. Pour d = 1, 2, . . . , 10, simuler une trajectoire de la chaîne (Zn ) jusqu’au temps n = 106 , partant de Z0 = 0. Représenter la trajectoire des variables aléatoires kZn k, où k · k désigne la norme euclidienne. 4. Pour d = 1, 2, . . . , 10, simuler 10000 trajectoires de la chaîne (Zn ) jusqu’au temps n = 100, partant de Z0 = 0. Représenter sur un même graphique un histogramme des réalisations de kZn k, pour n = 10, 20, . . . , 100. Représenter en fonction de n une estimation de IE[kZn k]. Exercice 12 On considère une file d’attente à un seul serveur. Les clients arrivent un par un, à chaque unité de temps. Pour la n-ième unité de temps, on donne au serveur un quota Dn de clients à servir : si moins de Dn clients sont présents, ils sont tous servis, sinon Dn sont servis. Les Dn sont des variables aléatoires indépendantes et de même loi q = (qk ) sur IN. Le nombre de clients présents dans le système à la n-ième unité de temps est noté Xn . Il est défini par : Xn+1 = max{0, Xn + 1 − Dn } , donc (Xn ) est une chaîne de Markov. On note ρ le coefficient d’occupation de la file, de sorte que l’espérance de Dn est 1/ρ. 1. Montrer que pour tout n ≥ 1, Xn ≥ X0 + n − (D1 + · · · + Dn ). En déduire que la chaîne est transiente pour ρ > 1. 2. Si X0 = 0, montrer que D1 + · · · + Dn > n entraîne qu’il existe m ≤ n tel que Xm = 0. En déduire que la chaîne (Xn ) est récurrente pour ρ < 1. 3. On note g la fonction génératrice de la loi q. On suppose q0 > 0 et ρ < 1. Montrer que l’équation g(z) = z admet une solution strictement comprise entre 0 et 1, que l’on notera η. 4. Pour tout i ∈ IN, on pose πi = (1−η)η i . Montrer que la mesure π = (πi ) (loi BN (1, 1−η)) est stationnaire pour la chaîne (Xn ). ρ ). Montrer que la mesure 5. On suppose que la loi q est la loi BN (1, 1+ρ stationnaire est la loi BN (1, 1−ρ). 6. On choisit pour q la loi de Poisson de paramètre 1/ρ. Pour ρ = 0.99 puis ρ = 1.01, simuler une trajectoire de la chaîne (Xn ) sur 10000 pas. Représenter graphiquement les trajectoires obtenues, et comparer avec les figures 9 et 10. Pour ρ = 0.1, 0.2, . . . , 0.9, calculer numériquement la valeur de η. Simuler une trajectoire jusqu’au temps 106 , et calculer les fréquences empiriques de chacun des états visités. Tester l’ajustement de cette distribution empirique avec la loi BN (1, 1−η). Index Markov, 3 matrice de sélection, 34 de transition, 5 mesure réversible, 32 stationnaire, 23, 43 mouvement brownien, 4, 5 algorithme de Metropolis, 34 itératif, 3, 9 markovien, 3 chaîne de Markov, 3 récurrente nulle, 39 récurrente positive, 41 transiente, 39, 41 Chapmann-Kolmogorov, 16 classe irréductible, 19 périodique, 20, 29 récurrente nulle, 21 récurrente positive, 21, 29 transiente, 21 classification des états, 19 périodique état, 20 classe, 20, 29 probabilité de premier passage, 16, 30 de transition, 15, 20 Random, 3 récurrent nul, 20 positif, 20 ruine du joueur, 35 diagramme de transition, 6, 22 état simulation d’une chaîne de Markov, 3 simulation d’une chaîne de Markov, 8 stables d’un graphe, 10, 34 absorbant, 31, 36, 44 ergodique, 20 périodique, 20 récurrent nul, 20, 39 récurrent positif, 20 transient, 20, 29, 39 temps moyen de premier passage, 17 de premier retour, 20 théorème de Perron-Frobenius, 25 ergodique, 24 transition diagramme de, 6 matrice de, 5 probabilité de, 15 file d’attente, 40 Galton-Watson, 44 génétique, 11 gestion de stock, 14 irréductible classe, 19 lois marginales, 16 marche aléatoire, 4 sur un groupe, 4 symétrique, 6, 11, 33 64