Champs de Markov 1 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Espace probabilisé Généralités Réalisation Observation Épreuve Résultat d’une expérience aléatoire (événement élémentaire ω) Ensemble fondamental (Ω) : ensemble de toutes les épreuves Événement aléatoire A={ ω / A est réalisé si ω est le résultat de l’expérience } 2 Exemple: Le lancer de dé ω = 1, 2, 3, 4, 5 ou 6 Ω = {1, 2, 3, 4, 5, 6} A = {1,3,5} lancers impairs B = {2,4,6} lancers pairs Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Relations entre événements P(Ω) : ensemble des événements A et A : événements contraires ∅ : événement impossible Ω : événement certain A1∩A2=∅ ⇒ A1 et A2 sont incompatibles A1∩A2 → réalisation de A1 et A2 A1∪A2 → réalisation de A1 ou A2 A1⇒A2 → A1⊂A2 système exhaustif : 3 Partition de Ω A i ∩ A j =∅ (i ≠ j ) n A i = Ω i =1 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Espace probabilisable : Définition : Soit T un ensemble de parties de Ω, T est une tribu si et seulement si : (1) Ω ∈ T (2) A ∈ T alors A∈T n (3) ∀ n entier An ∈ T ⇒ (Ai )∈T i =1 Un couple (Ω,T) formé d’un ensemble et d’une tribu sur cet ensemble est un espace probabilisable. Remarque: Si Ω est fini (ou dénombrable) on peut prendre T = P(Ω) 4 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Notion de probabilité Définition : P est une probabilité sur un espace probabilisable (Ω,T) : • P : T → [0,1] • ∀ Α ∈ T alors 0≤P(A)≤1 • P(Ω)=1 • P(∅)=0 • Si ∃An un ensemble de parties de Ω telle que: ∀ (i,j) entiers Ai∩Aj=∅ alors P(UAi)=ΣP(Ai) 5 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Formules n n i=1 i =1 •∀ A1,...,An événements incompatibles 2 à 2 P( : A i ) = ∑ P(A i ) •∀ A,B P(A∪B)=P(A)+P(B)-P(A∩B) •∀ A, P(A)=1−P(A) •∀ A,B A⊆B ⇒ P(A)≤P(B) n n •∀ A1,...,An P( A ) ≤ ∑ P(A ) i i=1 6 i =1 i Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Probabilité conditionnelle - Indépendance Probabilité conditionnelle de B sachant A: P(B / A) = (probabilités composées) • • • P(•/A) est une loi de probabilité sur (Ω,T). ∀ le conditionnement A, si P(A)=0 alors ∀B on a P(B/A)=0 P(A1∩...∩An)=P(A1).P(A2/A1).P(A3/A1∩A2)...P(An/A1∩...∩An-1) Formule de Bayes (Ω,T,P) espace probabilisé, (Ak) k entier, système exhaustif P(B)= ∑P(B/Ak )P(Ak ) : formule des probabilités totales k entier P(A m /B)= P(A m)P(B/Am) m ∑P(A )P(B/A ) k 7 P(B ∩ A) P(A) : Formule de Bayes k k =1 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Exemple1 un lot contient 12 articles dont 4 sont défectueux. On tire au hasard trois articles du lot, l’un après l’autre (sans remise). Calculer la probabilité p pour que les trois articles ne soient pas défectueux a={les trois articles ne soient pas défectueux} ai={le i-ème article tiré ne soit pas défectueux} a=a1 ∩ a2 ∩ a3 p(a)=p(a1 ∩ a2 ∩ a3)=p(a1).p(a2/a1).p(a3/(a1 ∩ a2))=8/12*7/11*6/10 Exemple2 : trois machines A, B, C fabriquant respectivement 50%, 30%, 20% du nombre total de pièces. Le pourcentage de pièces défectueuses de chaque machine est de 3%, 4%, 5% pour A, B et C. Si on prend une pièce au hasard quelle est la probabilité que ce soit une pièce défectueuse : Probabilités totale = p(D)=Σp(Hi)*p(D/Hi) P(A)=50%*3%+30%*4%+20%*5%=1,5%+1,2%+1%=3,7% 8 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Indépendance A et B sont indépendants si : • P(B/A)=P(B) 9 • P(A/B)=P(A) • P(A∩B)=P(A).P(B) • P(A∪B)=P(A)+P(B)-P(A∩B) Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Modèle probabiliste en théorie de l’information canal ENTREE alphabet A={α1,...,αn} SORTIE alphabet B={β1,...,βm} P(β/α) : probabilité conditionnelle de recevoir β quand on a envoyé α Modélisation du canal : (A,Π,B) Π=(Pij) i=1,...,n ; j=1,...,m ∀ (i,j) Pij≥0 ∀ i Σj Pij = 1 Une matrice vérifiant ces conditions est dite stochastique. P(•/αi) est la ième ligne de Π. 10 P(αi,βj)=P(βj/αi).P(αi) (pour un observateur) P(βj /αi) : loi a posteriori (point de vue de la sortie) P(αi) : loi a priori (point de vue de l’entrée) Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Variables aléatoires Une variable aléatoire est une fonction dont le résultat dépend du hasard. Soit (Ω,T,P), X variable aléatoire sur (Ω,T,P) si et seulement si : X:Ω→D⊂R ∀ d ∈ D, X-1(d) ∈ T Remarque : X est une variable aléatoire discrète si X(Ω) est dénombrable. Exemple : T={ ∅,Ω,Ip={1,3,5},Pa={2,4,6} } P(Ω)=1, P(∅)=0, P(Pa)=1/2, P(Ip)=1/2 X: Ω →D X(1)=X(3)=4, X(2)=X(4)=6, X(5)=X(6)=11 X-1(4)={1,3} ne fait pas partie de notre tribu donc X n’est pas une variable aléatoire. P(X=d)=P(X-1(d))=PX(d) PX est la loi de distribution de la probabilité de X. Fx (d)=P(X<d)= ∑Px (d') 11 : fonction de répartition d'< d Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Espérance et variance d’une variable aléatoire : E(X) = ∑ X(ω ) P(ω ) = ∑ dPX (d) ω ∈Ω d ∈D mn(X)= ∑d n P(X=d)=E(Xn) moment d’ordre n de X d∈D Remarque : Pour un moment centré on prend (d-E(X))n au lieu de dn. Var(X) = E((X-E(X))2) = E(X2)-(E(X))2 Remarque : Pour l’écart type on prend la racine carrée de la variance. Γ(X,Y) = cov(X,Y) = E((X-E(X))(Y-E(Y))) 12 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Propriétés • X≤Y ⇒ E(X)≤E(Y) E(aX+bY)=aE(X)+bE(Y) • si X et Y sont indépendantes : 13 E(XY)=E(X)E(Y) var(X+Y)=var(X)+var(Y) cov(X,Y)=0 Champs de Markov - A. Dipanda Principes généraux sur les probabilités discrètes Variables aléatoires multidimensionnelles ⇒ notion de vecteur de variables aléatoires. Soit un couple de variables aléatoires (X,Y). X:Ω→D Y : Ω → D’ P(X,Y)=P(X=d,Y=d’) → loi conjointe de deux lois marginales Lois conditionnelles P((X = x i ) ∩ (Y = y j )) Pij P(X = x i /Y = y j ) = = P(Y = y j ) Pj P((X,Y)/Z)=P((X/Y),Z).P(Y/Z) 14 Champs de Markov - A. Dipanda Quelques lois usuelles 1.Variable aléatoire uniforme Une variable aléatoire uniformément répartie entre [0, +a] est une variable aléatoire continue à valeurs dans [0, +a] dont la densité de probabilité est de la forme : p(x)=1/a si x∈[0, +a] p(x)=0 si x∉[0,+a] On peut calculer: E(x)=a/2 et Var(x)=a2/12 15 ESIREM 5A - Qualité des réseaux (2) - A. Dipanda Quelques lois usuelles 2. La loi géométrique modifiée P[X=n]=(1-a)an pour n=0,1,2,…. Interprétation: (paramètre a) Exemple de la variable aléatoire représentant le nombre consécutifs de tirages de « pile » dans le lancer de pièce P[X=n] : probabilité de tirer « pile » exactement n fois de suite E(X)=a/(1-a) Var(X)=a/(1-a)2 La propriété « sans mémoire »: P[X≤n+n0/X≥ n0]=P[X ≤n] 16 ESIREM 5A - Qualité des réseaux (2) - A. Dipanda Quelques lois usuelles 3. La loi de Poisson λn −λ P[X =n]= e (paramètre λ) n! E(X) = λ V(X)= λ 17 La somme de deux lois de Poisson indépendantes de paramètres λ1 et λ2 est une loi de Poisson de paramètre λ1+ λ2 ESIREM 5A - Qualité des réseaux (2) - A. Dipanda Quelques lois usuelles 4. La loi exponentielle Une variable aléatoire exponentielle est une variable aléatoire continue prenant valeur dans [0, +∞] et dont la densité de probabilité est de la forme : p(x)= λe-λx pour x≥0 p(x)=0 pour x<0 18 F(x)=1-e-λx pour x ≥0 F(x)=0 pour x<0 E(X)=1/λ Var(x)=1/λ2 La loi exponentielle possède la propriété « sans mémoire » ESIREM 5A - Qualité des réseaux (2) - A. Dipanda Chaînes de Markov Généralités sur les modèles stochastiques Approche stochastique Une forme est un signal continu observable dans le temps à différents endroits : états d’observation Le modèle donne: les probabilités de transition d’état à état et les probabilités d’observation par état. Un modèle stochastique peut être défini comme un processus aléatoire qui peut changer d’état au hasard et à tout instant. 19 Champs de Markov - A. Dipanda Chaînes de Markov Exemple: 6 s2 4 46 8 s3 s6 s7 9 s4 6 s5 20 États d’observation: 7 Observations: (5) {4,6,7,8,9} Instants: t =1..8 Champs de Markov - A. Dipanda 4 s1 Chaînes de Markov Généralités sur les modèles stochastiques Modèle stochastique: S={s1,...,sn} ensemble d’états t : t1 ... tT (on a T instants différents) évolution du système : st1→st2→...→ stT X(t)=sti avec t ∈ 1,...,T X(1)= st1 état initial P(st1,st2,...,stT) = P(stT/st1,...,stT-1).P(st1,...,stT-1) = P(st1).P(st2/st1).P(st3/st1,st2)...P(stT/st1,...,stT-1) La loi de probabilité à un instant dépend de la totalité de l’histoire du système. → mémorisation du passé 21 Champs de Markov - A. Dipanda Chaînes de Markov Propriétés de Markov ∀ t, P(X(t)=si/X(t-1)=sj,X(t-2)=sk,...,X(1)=sp)=P(X(t)=si/X(t-1)=sj) P(qt=si/qt-1=sj...q1=sp)=P(qt=si/qt-1=sj) → Propriété de Markov au 1er ordre Modèles de Markov homogènes ∀ t,k P(qt=si/qt-1=sj)=P(qt+k=si/qt+k-1=sj) matrice de transition A=[aij] aij=P(qt=sj/qt-1=si) 1≤i≤n, 1≤j≤n avec aij≥0 ∀ (i,j) n ∑a ij =1 ∀ i → A est une matrice stochastique j=1 22 Champs de Markov - A. Dipanda Processus stochastiques Deux paramètres sont à prendre en compte: le temps (discret ou non) l’ensemble des états (discret ou non) Différents cas: Processus à espace d’états discret et à temps discret Exemple: nombre d’appels échangés suivant le jour de l’année Processus à espace d’états continu et à temps discret Temps moyen de traitement en fonction du jour du mois Processus à espace d’états discret et à temps continu Nombre de messages arrivant dans le temps t 23 Processus à espace d’états continu et à temps continu temps d’attente d’un client arrivant à l’instant t Champs de Markov - A. Dipanda Chaînes de Markov Exemple : prévision du parcours d’un étudiant. p1 1 : première année 2 : deuxième année a : abandon s : succès L2 24 q1 0 A= 0 0 p1 q2 0 0 q2 q1 S={1, 2, a, s} r1 r2 1 0 1 p2 1 2 r1 s r2 a 0 p2 0 1 1 P(12s) = P(1).P(2/1).P(S/2) = 1.p1.p2 Champs de Markov - A. Dipanda Chaînes de Markov Modèles de Markov cachés (HMM) Une forme est représentée par deux suites de variables aléatoires : - cachée : q1, q2, ...qT avec qi ∈ {s1, s2, ...sN } ensemble des états - observable: o1, o2, ...oT suite des observations avec oi∈{v1, v2,...vM} exemple : Lancer d’une pièce de monnaie {P,F} chaîne de Markov observable : 2 états (1:P ; 2 : F) et deux observations 1-P(p) P(p) 1 2 1-P(p) P(p) 25 Champs de Markov - A. Dipanda O : pppffpf....p S : 1112212...1 Chaînes de Markov chaîne de Markov cachée : on peut prendre le nombre d’états que l’on juge nécessaire sans qu’il n’y ait de rapport avec la réalité du problème. Les états ne sont pas reliés à l’observation. chaîne de Markov cachée à deux états : a12 a11 1 P(p)=p1 P(f)=p2 26 2 a21 a22 P(f)=p2 P(p)=1-p2 Champs de Markov - A. Dipanda O : pppffpf....p S : 2211221...1 Chaînes de Markov chaîne de Markov cachée à trois états a13 a11 1 3 a33 a31 etat P(p) P(f) a23 a12 a32 a12 2 a22 27 Champs de Markov - A. Dipanda 1 2 3 p1 p2 p3 1-p1 1-p2 1-p3 Chaînes de Markov Notations • λ=(A,B,Π) • • • • N états → S={s1,...,sN} (qt état à l’instant t, qt ∈ S) M symboles observables →V={v1,...,vM} (ot observation à l’instant t, ot ∈ V) A matrice des probabilités de transition entre les états B matrice des probabilités d’observation des symboles aux différents états M bj(k) = probabilité d’observer vk à l’état sj : b j (k) ≥ 0 et ∀ j ∑ b j (k) =1 k=1 • Π ensemble des probabilités initiales Πi : probabilité d’être à l’état si au départ Πi=P(q1=si) N Π i ≥ 0 et 28 ∑Π i =1 i=1 Champs de Markov - A. Dipanda Chaînes de Markov Classification des états Une CMTD est irréductible ssi de tout état i on peut atteindre tout autre état j ∀i et j, ∃m>1 tel pij(m) >0 29 Toute CMTD non irréductible possède au moins une sous-chaîne absorbante Un état est périodique si on ne peut y revenir qu’après un nombre d’étapes multiple de K>1 La période d’une CMTD est égale au PGCD de la période de chacun de ses états. Si ce PGCD est égal à 1 la CMTD est apériodique Champs de Markov - A. Dipanda Chaînes de Markov 5 1 2 3 4 5 1 2 3 4 6 30 Champs de Markov - A. Dipanda Chaînes de Markov On définit : f jj(n ) : la probabilité que le premier retour en j ait lieu n étapes après l’avoir quitté. f jj : la probabilité de revenir en j après l’avoir quitté. f jj =∑ f jjn n =1 M j =∑n f jj(n) Mj : le temps moyen de retour en j : n =1 Un état est - transitoire si f jj <1 - récurrent si f jj =1 récurrent nul si Mj =∝ récurrent non nul si Mj <∝ 31 Champs de Markov - A. Dipanda Chaînes de Markov Régime transitoire L’analyse du régime transitoire d’une CMTD consiste à déterminer le vecteur π(n) des probabilités d’états πj(n) = P[Xn=j]. πj(n) est la probabilité pour que le système se trouve à l’état j à la nième étape du processus [π(n) ] = [π1(n), π2(n), π3(n) …] Ce vecteur des probabilités dépend de: 32 La matrice de transition P Du vecteur des probabilités initiales π(0) Formule des probabilités totales: πj(n) =P[Xn=j]=∑iP[Xn=j/Xn-1=i]P[Xn-1=i] Ce qui donne: πj(n) = ∑iπi(n-1) Pij Sous forme matricielle on a: π(n) = π(n-1) P On obtient ainsi: π(n) = π(0) Pn Champs de Markov - A. Dipanda Chaînes de Markov Exercice 1: On considère un système stochastique de huit états codés par des triplets de valeurs binaires (ex : 101). La transition d’un état vers un autre se fait en modifiant aléatoirement deux des valeurs du code de l’état de départ. On suppose que l’évolution du système est un modèle d’une chaîne de Markov cachée avec deux symboles observables 0 et 1. L’observation à un état donné correspond au caractère « central » du code de l’état. 1) Dessiner le graphe des transitions de ce système. 2) Dire si cette chaîne est irréductible et périodique. 3) En considérant que la probabilité d’être à l’instant 0 à l’état «000» est égale à 0.7, et à l’état «001» est égale à 0.3, donner les différents éléments qui modélisent cette chaîne. 4) Calculer la probabilité de l’observation : «0110». 33 Champs de Markov - A. Dipanda Chaînes de Markov Exercice2 : On cherche la limite lorsque n tend vers l’infini du vecteur des probabilités π(n). π j = lim π (j n ) n →∞ Propriété : Dans une CMTD irréductible et apériodique, le vecteur π des probabilités limites existe toujours et est indépendant de la distribution des probabilités initiales π(0). Soit tous les états sont transitoires ou récurrents nuls (si la CMTD est infini) et πj=0 pour tout état j. Soit tous les états sont récurrents non nuls (si la CMTD est finie) et les πj sont solutions du système : π j = ∑ π i pij pour tout j ∈ E i∈E πi =1 ∑ i∈E Vérifier la propriété précédente en considérant la CMTD ci-dessous : 0.6 0.6 0.4 1 0.2 2 0.2 34 0.6 3 0.4 Champs de Markov - A. Dipanda Champs de Markov Système de voisinage Soit l’application g: S → P(S) s → gs={ t ∈ S / (s,t) ∈ U } ‘voisins de s’ g(s) = { gs / s ∈ S } est un système de voisinage, s’il possède les propriétés: 1. ∀ s ∈ S, s ∉ gs 2. ∀ (s,r) ∈ S2, r ∈ gs ⇒ s ∈ gr degré dg (s) = ‘nombre de voisins de s’ degré dg (S) = maxs∈S dg(s) Un graphe est régulier si ∀s dg(s)= ‘constante’. Un graphe est complet si tous les sommets sont mutuellement voisins c-à-d si ∀ s, dg(s)=card(S)-1. 35 Champs de Markov - A. Dipanda Champs de Markov Système de voisinage 36 Champs de Markov - A. Dipanda Champs de Markov Image et voisinage Image (m,n) : matrice mxn à valeurs dans Λ={0,1,...,Ng}. Un point de l’image est un site ou (un pixel) → élément (i,j) de la matrice. Soit un ensemble S={s1,...,sN=m*n} défini dans une grille régulière. Image : S → Λ : ensemble des niveaux de gris de l’image. Image(s) = ng(s) 37 2 0 0 2 2 0 1 2 1 0 3 2 Champs de Markov - A. Dipanda Champs de Markov Notion de distance Une distance est une application qui vérifie les propriétés suivantes si considère 3 pixels: x1, x2, x3: ◊ D(x1, x2) ≥ 0 ◊ D(x1, x2) = 0 si et seulement si x1 = x2 ◊ D(x1, x2) = D(x2, x1) symmétrie ◊ D(x1, x3) ≤D(x1, x2) + D(x2, x3) Exemples: Si on considère deux sites s1(x1,y1) and s2(x2,y2) Distance Euclidienne : Distance de Manhattan D1= x1− x2 + y1− y2 Distance Chessboard 38 D∞=max( x1− x2, y1− y2 ) Champs de Markov - A. Dipanda Champs de Markov Notion de distance Pour un site s donné on définit une suite de voisinages correspondant à des ‘couches’ de plus en plus éloignées. g1s =argmin(D(s,t)) : Voisinage d’ordre 1 de s. t≠S n −1 n ( D ( s , t )) g g s =argmin s : n −1 t∉ g s Voisinage d’ordre n de s Remarque : On parle aussi du voisinage en 4-connexité ou en 8-connexité en considérant soit les 4 premiers voisins (), soit les 8 premiers voisins pour le voisinage d’ordre 1 () 39 Champs de Markov - A. Dipanda Champs de Markov Cliques Un système de voisinage g est équivalent à un ensemble C dont les éléments c sont appelés cliques et vérifient : ∃ s ∈ S / c={s} 2. ∀ (s,t) ∈ c, t ∈ gs ordre (c) = card(c) 1. Exemple : Nombre de cliques sur une image 3x3 40 s1 s2 s3 s4 s5 s6 s7 s8 s9 4-connexité : 9 cliques d’ordre 1 (les points) 12 cliques d’ordre 2 ({s1,s2},{s3,s6}...) 0 clique d’ordre supérieur à 2 Champs de Markov - A. Dipanda 8-connexité : 9 cliques d’ordre 1 20 cliques d’ordre 2 16 cliques d’ordre 3 0 clique d’ordre supérieur à 4 Champs de Markov 2 4 8 41 Champs de Markov - A. Dipanda Champs de Markov On considère qu’en chaque site de l’image est définie une variable aléatoire à valeurs dans Λ. Un champ aléatoire est un réseau de variables aléatoires (vecteur de variables aléatoires). Une image est une réalisation (ou une configuration) d’un champ aléatoire X, X=(Xs, s∈S). Ω est l’ensemble des configurations possibles. Nombre de réalisations possibles (card(Ω))= (N g ) N avec Ng : nombre de niveaux de gris et N : taille de l’image 42 Champs de Markov - A. Dipanda Champs de Markov 43 2 2 6 7 0 0 4 5 0 0 2 5 2 2 7 7 0 3 1 4 0 3 1 7 4 4 7 7 1 2 3 3 1 1 7 3 0 0 2 5 0 0 2 2 0 0 2 2 0 3 1 4 0 3 1 2 0 0 2 2 1 1 2 2 1 1 2 2 1 1 2 2 Champs de Markov - A. Dipanda Champs de Markov Un champ aléatoire X=(Xs, s∈S) est markovien si et seulement si il existe un système de voisinage g sur S tel que : ∀ x ∈ Ω, P(x)>0 P(xs/xr, r∈S-{s})=P(xs/xr, r∈gs) ⇔ le comportement en s est totalement déterminé par la réalisation de ses voisins (→ notion d’interaction locale entre les sites) Avantages : dépendances locales uniquement comportement isotropique (pas de direction privilégiée) Inconvénient : probabilité difficile à calculer ⇒ estimation des paramètres difficile 44 Champs de Markov - A. Dipanda Champs de Markov Distribution de Gibbs Soit Ω un espace de configurations sur S et A une partie finie non vide de S. Un potentiel sur A est une application réelle définie sur Ω et fonction uniquement des variables aléatoires xs , s∈A. VA : Ω → R x → VA(x) ⇒ ∀ x,y deux configurations qui coïncident en A sont telles que VA(x)=VA(y). Un champ aléatoire X sur S suit une distribution de Gibbs (ou est un champ de Gibbs) si et seulement si il existe un système de voisinage g sur S et une famille V={Vc, c∈C} de potentiels sur les cliques du graphe G={S,g} tels que: P(X = x) = p(x) = Z1 exp(− ∑ Vc (x)) c ∈C Z = ∑ exp(-∑ Vc (x)) x∈Ω c∈C avec Z constante de normalisation (fonction de partition) et U(x) = ∑ VC (x) : fonction énergie c∈C P( X = x) = Z1 exp(−U ( x)) 45 Champs de Markov - A. Dipanda Champs de Markov Théorème de Hammersley-Clifford : Il y a équivalence entre les champs de Markov et les champs de Gibbs. X est un champ de Markov relativement à un système de voisinage g ssi P(X=x) est une distribution de Gibbs relativement à g. Intéret : Fournit une méthode de calcul de P(x). Problème à résoudre : Les calculs de P(x) sont trop importants du fait de U(x) et Z, on doit donc passer par un échantillonnage. 46 Champs de Markov - A. Dipanda Champs de Markov Echantillonnage d’une distribution de Gibbs Nécessite l’utilisation des techniques itératives pour laquelle la connaissance de Z n’est pas obligatoire (dynamique de Monte-Carlo) Deux méthodes : algorithme de Métropolis échantillonneur de Gibbs But : Construire une chaîne de Markov {X(n)}n∈N dont la distribution stationnaire est Π et la chaîne converge vers Π indépendamment de la configuration initiale X(0). P(X= x) = p(x) = Z1 exp( − U( x)) = Π( x) 47 Champs de Markov - A. Dipanda Champs de Markov si ∃ n / ∀ (x,y) Pxyn>0 alors la chaîne est irréductible. si ∃x pgcd(n,Pxxn)=1 alors la chaîne est apériodique. Théorème : Soit {X(n)}n∈N une chaîne de Markov irréductible et apériodique. Si elle admet une distribution stationnaire Π, alors celle-ci est unique et ∀ (x,y) ∈ Ω2, limn→∞ (P(X(n)=x/X(0)=y)=Π(x)) 48 Champs de Markov - A. Dipanda Champs de Markov Notons : Pxy : probabilité de passage de x vers y en 1 pas et Pxym : probabilité de passage de x vers y en m pas ∀ n ∈ N, ∀ (x,y) ∈ Ω2 Pxy= P(X(n+1) =y/X(n)=x) Pxym=P(X(n+m) =y/X(n)=x) P(X(n + 1) = x) = ∑ P(X(n) = y).p yx y∈Ω ∀ x ∈ Ω, Π (x) = ∑ Π (y).p yx y∈Ω Π stationnaire ⇔ ∀ (x, y) ∈ Ω × Ω, Π (x).p xy = Π ( y ). p yx propriété d' équilibre détaillé 49 Champs de Markov - A. Dipanda Champs de Markov Algorithme de Métropolis On considère Q une matrice stochastique et irréductible sur Ω (matrice de tentation). Les transitions entre états à partir de Q sont soumises à une fonction d’acceptation : Transition x→y : acceptée avec la probabilité axy et refusée avec la probabilité 1-axy ⇒ matrice de transition : P=[ Pxy] alors Pxy=qxy.axy p xx = qxx a xx + ∑ (1 - a xy )qxy y≠x 50 Champs de Markov - A. Dipanda Champs de Markov Propriété d’équilibre : a xy a yx = Π (y)q yx Π (x)q xy Π (y)q yx F(z) a =z où F est une fonction dans [0,1] vérifiant Ceci est réalisé si xy = F 1 F( z ) Π (x)q xy selon Métropolis-Hasting : F(z)=min(z,1) z= Π(y)q yx Π(x)q xy Π(y) si Q symétrique : z = Π(x) et donc F(z)=min(exp(-(U(y)-U(x))),1) 51 Champs de Markov - A. Dipanda Champs de Markov transition de x vers y : acceptée avec la probabilité 1 si U(y)≤U(x) acceptée avec la probabilité exp(-∆U) si U(y)≥U(x) axy=min(exp(-∆U),1) calcul de ∆U : U(x)= ∑ Vc(x) et U(y)= ∑ Vc(y) c∈C c∈C ⇒ un volume de calculs très important. 52 Champs de Markov - A. Dipanda Champs de Markov Si x et y ne diffèrent qu’en un seul point donc ∆U se ramène au calcul des potentiels sur les cliques contenant ce point : xS-{s}=yS-{s} ⇒ ∀ c ∈ C, s ∉ C ⇒ Vc(x)=Vc(y) ∆U = ∑ (V (y)-V (x)) c∈C,s∈C c c La transition x→y ne modifiera qu’un seul site, le site s ⇒ il suffit de faire des réactualisations locales 53 Champs de Markov - A. Dipanda Champs de Markov Soit Qs la matrice de tentation ‘locale’ en s, Λ1 si x et y coincident en S - {s} s ∀ (x, y) ∈ Ω × Ω qxy = 0 sinon p xys = Λ1 exp( −[U(y) − U(x)]+ ) si xS -{s } = y S -{s } Ps = s p xx = 1 − ∑ p xys y≠x avec exp(-[U(y)-U(x)]+) = min (exp(-(U(y)-U(x)),1) 54 Champs de Markov - A. Dipanda Champs de Markov Algorithme de remise à jour locale Fonction Metropolis(s,x,U) : configuration s : site courant x : configuration courante U : fonction énergie début y=x tirer λ de Λ selon une loi uniforme ys=λ ∆U= ∑(V (y)-V (x)) c c c∈C,s∈C si ∆U≤0 alors xs=λ si ∆U>0 {tirer a dans [0,1] selon une loi uniforme si a<exp(-∆U) alors xs=λ} retourner(x) fin 55 Champs de Markov - A. Dipanda Champs de Markov Deux types de parcours sont possibles: aléatoire déterministe (séquentiel avec ordre prédéfini) Procédure Metropolis(x0,U) début x=xo répéter indéfiniment tirer s x=Metropolis(s,x,U) finrépéter fin 56 Champs de Markov - A. Dipanda Champs de Markov Echantillonneur de Gibbs Utilisation des caractéristiques locales du champ de Markov. Une transition d’états s’obtient en 2 étapes : (1) Choisir un site s (2) Tirer une nouvelle image x’s pour le site s d’après la distribution conditionnelle locale : P (x’s / xr r ∈ Ns ) = exp (- ∑V ( x' , x )) c e∈ Cs 57 Champs de Markov - A. Dipanda x’r = xr pour r≠s. Champs de Markov Fonction Gibbs (s, n, U, T) début Pour chaque λi de Λ xs ← λi pi ← exp (-∑ Vc (e' , O)) e∈C fin pour Tirer a dans [0, 1] selon une loi uniforme. s Trouver le plus petit j tel que xs ← λj Retourner (xs) Fin procédure 58 ∑ ∑ j pi >a i =1 Champs de Markov - A. Dipanda Λ i =1 pi Champs de Markov Procédure Gibbs_1(n0 , V) n0 : configuration initiale V:∑ T←1 x ← n0 répéter indéfiniment Tirer s de S selon une loi uniforme xs ← GIBBS (s, n, V, T) fin répéter fin 59 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images extraction un jeu de données un ensemble d’informations cachées ‘sous-jacentes’ Un jeu de données connues: observations attachées à un ensemble de sites S (constituées d’une ou plusieurs images) Des informations cachées : étiquettes (primitives ou labels) attachées à un ensemble de sites S’ (constituées de niveaux de gris, de vecteurs déplacement, de numéro de classe, …..) 60 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images On a besoin d’un modèle décrivant la formation des observations à partir des primitives, c’est un problème inverse. Remarque: D’une manière générale il y a perte d’informations entre les primitives et les observations → problème mal posé ⇒ Emission d’hypothèses sur les propriétés des primitives et les intégrer dans la reconstruction (connaissance a priori). On fait de la régularisation (ou lissage). Champ des observations (Y) 61 modèle Champs de Markov - A. Dipanda Champ des étiquettes (X) Champs de Markov en analyse d’images Cas de l’analyse du mouvement Champ des observations: couple d’images successives dans une séquence Champ des étiquettes: vecteurs déplacements calculés sur chaque pixel de l’image 62 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images 63 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Cas de la segmentation 64 Champs de Markov - A. Dipanda Modélisation markovienne en analyse d’images Mise en forme d’un problème d’analyse d’images à l’aide de champs markoviens 1. Définition de deux champs : • le champ des observations noté Y Ce champ représente l’ensemble des données sur lesquelles s’appuie l’analyse. • le champ des étiquettes (ou primitives) noté X Une réalisation x={xs, s∈S} de ce champ représente l’information sous-jacente que l’on cherche à extraire des observations. 65 Champs de Markov - A. Dipanda Modélisation markovienne en analyse d’images 2. Construction d’un modèle statistique Il repose sur : des connaissances globales du problème (relations entre le champ des observations et le champ des primitives); des connaissances a priori sur le champ des primitives (interactions locales entre les primitives). L’objectif est le suivant : «connaissant le champ des observations y, estimer la (ou une) réalisation x* du champ des primitives, qui est à l’origine de y.» On parle alors de problème inverse. Ceci peut se formaliser par le calcul de la distribution de probabilité P(e/o). 66 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Estimation bayesienne On considère le champ aléatoire couplé (X,Y). Le problème revient à trouver un modèle probabiliste permettant : • de spécifier la distribution conditionnelle qui donne la vraisemblance des observations → X est une transformation stochastique de Y • l’introduction des connaissances a priori par la spécification de la marginale X→PX Pour une réalisation y de Y, on a la distribution a posteriori des étiquettes par PXY ( x, y) PX/Y ( x / y) = PY ( y) 67 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Un estimateur e est une application qui associe à tout champ d’observation une configuration estimée : e : Ωobs → Ωetiq y → e(y) qualité de l’estimation : ⇒ définir une distance ou une fonction de coût C(x,e(y)) Le risque associé à un estimateur est : R(e) = E(C(x,e(y))) = ∑ y ∈Ω obs 68 PY ( y) ∑ C( x,e( y)) P x ∈Ω etiq Champs de Markov - A. Dipanda X/Y ( x / y) = ∑P y ∈Ω obs Y ( y). r ( e) Champs de Markov en analyse d’images Un estimateur optimal minimise le risque : R(e)→e(y)∈ argminr(e)=argmin ∑C(x,z)PX/Y(x, y) x∈Ω x∈Ω • estimateur du maximum à posteriori (MAP) : r(e)=1-PX/Y(x/y) e (y)∈ argmaxPX/Y (x/ y) x∈Ω On cherche les modes de la distribution a postériori 69 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Le théorème de Bayes P(y / x)P(x) P(x/ y)= P(y) êMAP =argmax P(y / x)P(x) e∈Ωe P(y / x)= 1 exp(−U(y / x)) Z êMAP =argmax(exp(−U(y / x)−U(x))) P(x)= 1 exp(−U(x)) Z êMAP =argmin(U(y / x)+U(x)) e∈Ωe e∈Ωe Problème à résoudre : Minimiser (U(y/x)+U(x)) 70 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Estimation du mouvement : champ des vitesses à estimer : w = {ws = (us , vs ), s ∈ S } avec us = dx dt et dy vs = dt champ des observations f = { f (s, t), f (s+ w.dt, t + dt), s ∈ S} f (s, t) : intensité du point dans l’image à l’instant t u ∈ {-um, ..., um} et v ∈ {-vm, ..., vm} 71 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images 8-Voisinage (cliques d’ordre 2) U ( y / x ) = ∑ ( f ( s, t ) − f ( s + ws .dt , t.dt )) 2 s∈S Invariance de la luminance d’un point de la scène lors d’un petit déplacement 72 Champs de Markov - A. Dipanda U(x)=β2 ∑ ws −wr 2 {s,r}∈C contrainte de régularité continuité du champ des vecteurs Champs de Markov en analyse d’images Le problème de l’estimation des étiquettes se ramène à un problème de minimisation d’une fonction énergie qui aura une formulation en général pas « simple ». Deux types d’algorithmes d’optimisation peuvent être utilisés : les algorithmes stochastiques : Quelque soit la fonction d’énergie, ils permettent d’atteindre le minimum global ; Le recuit simulé: il utilise une variable supplémentaire appelée température qui permet de « sortir » des puits d’énergie. Les algorithmes génétiques: ils simulent l’évolution d’une population d’individus dans le milieu naturel les algorithmes déterministes : Plus rapides que les algorithmes stochastiques, mais convergent vers le premier minimum local rencontré par une descente déterministe de la fonction d’énergie. L’ICM Le gradient 73 Champs de Markov - A. Dipanda 74 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Energie Configuration finale A Plage d’initialisation A 75 Configuration finale B Plage d’initialisation B Champs de Markov - A. Dipanda configurations Champs de Markov en analyse d’images Recuit simulé: Combinaison de deux procédures : une procédure d’échantillonnage ( Métropolis ou Echantillonneur de Gibbs) de la distribution de Gibbs à la température T : 1 − U (e, o ) Pt (e) = exp T − U (e, o ) z t = ∑ exp T x ∈Ω 76 zt une procédure de décroissance de la température T Champs de Markov - A. Dipanda Champs de Markov en analyse d’images 77 Algorithme Recuit_Par_Paliers(T0, α, x0, r, U, y) T0 : température initiale; α : taux de refroidissement; x0 : configuration initiale; r : seuil du critère d’arrêt U : fonction d’énergie; y : observations; N : nombre de points dans l’image début T ← T0 compteur ← r; x ← x0 Tant que compteur >= r faire compteur ← 0; T ← T × α; n ←0 Tant que n < N faire n ← n+1; λ ← x s n x ← Gibbs (sn, x, U(x, y), T) si x s ≠ λ alors compteur ← compteur +1 fsi n Fin tant que n ← N+1 Tant que n>1 faire n ← n-1; λ ← x sn x ← Gibbs (sn, x, U(x, y), T) si x s ≠ λ alors compteur ← compteur +1 fsi n Fin tant que Fin tant que Fin Champs de Markov - A. Dipanda Champs de Markov en analyse d’images 78 Algorithme (ICM) : ICM(x0,r,U,y) début cpt=r; x=x0 tant que cpt≥r faire cpt=0; n=0 tant que n<N faire n=n+1 λ=xSn x=Gibbs_Gele(Sn,x,U(.,y)) si x≠λ alors cpt=cpt+1 fin tant que n=N+1 tant que n>1 faire n=n-1 λ=xSn x=Gibbs_Gele(Sn,x,U(.,y)) si x≠λ alors cpt=cpt+1 fin tant que fin tant que fin Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Procédure Gibbs_Gele(s,x,U) début i=0 i0=1 tant que i<|Λ| faire i=i+1 xS=λi si i=1 alors Umin=Ui si Ui<Umin alors Umin=Ui i0=i fin tant que xS=λi0 retourner(x) fin 79 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Méthode de relaxation multirésolution : décomposition hiérarchique du processus de relaxation sur des «réductions» successives de l’espace complet des configurations. convergence plus rapide et amélioration des solutions finales Processus Construction d’une pyramide d’observations au moyen de filtrages et de sous échantillonnages successifs du champ initial des observations → transformation pyramidale. Résultat Une succession d’images {0l , l = L, ...., 0} du champ des observations, supportées par des grilles {Sl , l = L, ...., 0} de taille réduite. A cette pyramide des observations, on associe une pyramide de primitives équivalentes : el , l = L, ...., 0 80 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Niveau L Estimation Formation de la pyramide Niveau 0 Pyramide des étiquettes 81 Pyramide des observations Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Soit Ul la fonction d’énergie définie à la résolution l et Ωl l’espace des configuration. La relaxation multirésolution consisite, à un niveau l, à estimer la configuration êl telle que : êl =arg minU l (el ,ol ) e l ∈Ω l L’estimation à un niveau de résolution donnée peut être menée par un algorithme déterministe de type ICM ou non. La coopération entre les différents niveaux de résolution est effectuée grâce à une stratégie de parcours de la pyramide. La stratégie descendante “ coarse-to-fine ” est la plus utilisée. Evolution des basses résolutions vers les hautes résolutions. 82 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images On admet que le paysage énergétique aux basses résolutions est lisse et comporte moins de minima locaux. ⇒ Exploration des “ grandes vallées ” de la fonction énergie aux basses résolutions, et affinement au fur et à mesure que les résolutions deviennent plus fines (paysages plus complexes). La propagation des champs de primitives d’un niveau de résolution est réalisée par l’interpolation sur la nouvelle échelle (duplication du père vers les fils - décimation des fils vers le père). Soit par l’utilisation de bases d’ondelettes. 83 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Exemple de pyramide (4 niveaux) 84 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images 85 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Algorithme de multirésolution (n, x0n, ri, Ui, i=0..n, y, H) n+1 : nombre de niveaux; x0n : configuration initiale du niveau n ri : seuil du critère d’arrêt au niveau i; Ui : énergie au niveau i H : filtre passe-bas début i←0 Tant que i<n faire yi ← [(↓z)oH](yi-1) Fin tant que i ← n+1 Tant que i>0 faire i ← i-1 si i=n alors xi ← x0n sinon xi ← Di+1fsi xi ← ICM (xi, ri, Ui, yi ) Fin tant que fin 86 Champs de Markov - A. Dipanda Champs de Markov en analyse d’images Résultat Niveau i duplication Initialisation Niveau (i-1) relaxation Di→i-1 () 87 Champs de Markov - A. Dipanda Résultat Niveau (i-1)