Master Recherche Optique, Photonique, Signal et Image Option Signal-Image Introduction aux Modèles Markoviens pour le Signal et l’Image Stéphane DERRODE [email protected] Version 1.3 - Janvier 2012 2 Notes bibliographiques Ce cours présente une introduction aux modèles markoviens pour le traitement numérique du signal et de l’image. Les modèles statistiques exposés ici sont classiques (modèle aveugle, chaîne de Markov, champs de Markov), et quelques passages de ce document s’inspire largement de cours ou de rapports techniques, certains disponibles sur Internet, dont voici les principaux : ? Olivier Cappé, Modèles de mélange et modèles de Markov cachés pour le traitement automatique de la parole, juin 2000, http://www.tsi.enst.fr/~cappe/cours/tap.pdf. ? Wojciech Pieczynski et Alain Hillion, Bases mathématiques pour le traitement des images de télédétection, Master Statistique, Université Paris VI, mars 2006. ? François Le Gland : Introduction au filtrage en temps discret. Filtrage de Kalman et Modèles de Markov cachés, Université de Rennes 1, Master Recherche Électronique, spécialité SISEA (Signal, Image, Systèmes Embarqués, Automatique), http://www.irisa.fr/aspi/legland/rennes-1/ ? Polycopié de cours de M. Sigelle and F. Tupin [ST99] intitulé Champs de Markov en traitement d’images, perso.telecom-paristech.fr/~tupin/cours/polymrf.pdf. D’autres part, un certain nombre d’articles et de livres qui traitent en détail les sujets abordés dans ce cours peuvent être consultés : ? Article de L. R. Rabiner [Rab89] intitulé A tutorial on hidden Markov models and selected applications in speech recognition, http://www.cs.ubc.ca/~murphyk/Bayes/rabiner.pdf. ? Article de W. Pieczynski [Pie03], intitulé Modèles de Markov en traitement d’images, http://www-public. int-evry.fr/~pieczyn/A31.pdf. ? Rapport technique de J. Bilmes [Bil97] intitulé A gentle tutorial on the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models, http://www.icsi.berkeley.edu/ ftp/global/pub/techreports/1997/tr-97-021.pdf. ? Livre de O. Cappé, E. Moulines et T. Rydén [CMR05], intitulé Inference in hidden Markov models. Mais bien sûr, des centaines d’autres références sont possibles. . . ! 3 4 Table des matières 1 Introduction et motivations 8 2 Décision bayésienne 11 2.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2 Stratégie bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3 Exemple : cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Modèle de mélange - cas indépendant 17 3.1 Modèle de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 L’algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 EM et mélange gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.1 Quantité intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.2 Formules de ré-estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.4 Simulations et exemples en segmentation d’images . . . . . . . . . . . . . . . . . . . . . . . . 27 3.5 Synoptique de l’algorithme complet de mélange aveugle . . . . . . . . . . . . . . . . . . . . . 28 3.3 4 Chaînes de Markov cachées 4.1 4.2 31 Le modèle de chaîne de Markov cachée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1.1 Loi de X a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.1.2 Loi de (X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.1.3 Probabilités « forward-backward » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.1.4 Loi de X a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Décision bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.2.1 39 Critère du MPM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4.2.2 Critère du MAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 L’algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.1 Quantité intermédiaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3.2 Ré-estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.4 Simulations et exemples en segmentation d’images . . . . . . . . . . . . . . . . . . . . . . . . 44 4.5 Synoptique de l’algorithme des CMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.3 5 Champs de Markov cachés 49 Loi de X a priori : champs de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.1.1 Champs de Gibbs, champs de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.1.2 Echantillonneurs de Gibbs et de Metropolis . . . . . . . . . . . . . . . . . . . . . . . . 51 5.1.2.1 Echantillonneur de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5.1.2.2 L’algorithme de Metropolis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Quelques MRF fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1.3.1 Modèle d’Ising . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.1.3.2 Modèle de Potts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.1.3.3 Modèle markovien gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.2 Loi a posteriori et loi conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.3 Décision bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.1 Critère du MPM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.3.2 Critère TPM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.3.3 Critère du MAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3.4 Algorithme ICM (approximation du MAP) . . . . . . . . . . . . . . . . . . . . . . . . 59 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.4.1 Estimation avec échantillon d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 60 5.4.2 Estimation sans échantillon d’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . 61 Exemples en segmentation d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.5.1 Segmentation d’une image radar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.5.2 Comparaison de méthodes de segmentation . . . . . . . . . . . . . . . . . . . . . . . . 63 5.1 5.1.3 5.4 5.5 6 Filtrage de Kalman et extensions 67 6.1 Système linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 6.2 Filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 6 6.3 6.2.1 Prédiction/correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.2.2 Théorème de Kalman-Bucy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 6.2.3 Démonstration du théorème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Filtre de Kalman étendu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Bibliographie 73 7 Chapitre 1 Introduction et motivations L’étude probabiliste des phénomènes s’introduit naturellement lorsqu’il existe une incertitude sur la mesure décrivant un phénomène. Considérons deux phénomènes « mesurés » par deux réels x et y. Lorsqu’on cherche à étudier des liens entre les deux phénomènes il existe, en dehors de la théorie des probabilités, deux possibilités : soit un lien déterministe y = f (x), soit aucun lien. Le calcul des probabilités permet d’introduire une infinité de « liens intermédiaires » : les deux phénomènes peuvent être plus au moins liés. Lorsqu’on « observe » x, on dispose sur y d’une certaine information, sans pour autant pouvoir le calculer explicitement. Cette information est modélisée par une « mesure de probabilité » notée P Y |x : pour tout A ⊂ R, P Y |x [A] est un nombre dans [0, 1] donnant la « probabilité » pour que y soit dans A. y est ainsi considéré comme réalisation d’une variable aléatoire Y et P Y |x est la loi de Y conditionnelle à x. Si on veut faire des raisonnements généraux, valables pour tout x, on est amené à le considérer également comme une réalisation d’une variable aléatoire X dont le comportement est décrit par la loi de probabilité PX . On arrive ainsi à la loi de probabilité du couple (X, Y ), donnée par PX et la famille P Y |x , x ∈ R, modélisant les « liens stochastiques » entre les deux phénomènes. Ce type de modélisations peut être utile dans le traitement de certains problèmes se posant en imagerie. D’une façon générale X contient l’information que l’on recherche mais n’est pas directement observable (on dit généralement qu’elle est « cachée »). On observe, ou mesure, Y = y et on cherche à retrouver, ou à « estimer », la réalisation cachée x. Considérons, à titre d’exemple, le problème suivant : on cherche à savoir, à partir d’une image satellite, si un certain pixel de l’image représente de la forêt ou de l’eau. X prend ainsi ses valeurs dans un ensemble de deux éléments Ω = {ω1 = "eau", ω2 = "forêt"} et l’observation Y = y est donnée par un nombre représentant un niveau de gris. La loi de X, appelée « a priori », est donc une probabilité sur Ω et modélise, de façon générale, la connaissance que l’on a sur le phénomène modélisé par X « a priori », i.e. sans aucune mesure. Si on sait, dans notre exemple, que l’image a été prise dans une région où il y a trois fois plus d’eau que de forêt, on posera PX (ω1 ) = 0.75 et PX (ω2 ) = 0.25. Les deux lois conditionnelles P Y |ω1 et P Y |ω2 modélisent plusieurs phénomènes différents. Les classes « eau » et « forêt » ne produisent pas une mesure unique (présence de vagues, « variabilité naturelle » de la forêt. . . ), d’où une variation stochastique de la mesure Y = y. À cette variation peuvent s’ajouter divers « bruits », dus à la transmission, l’acquisition. . . L’étape suivante, après la définition de la loi du couple PX,Y modélisant les interactions stochastiques entre les « mesures » décrivant les phénomènes, est la définition d’une règle de calcul de la réalisation cachée X = x à partir de la réalisation observée Y = y. Une fois retenue, la règle, ou « stratégie », y = s(x) est déterministe. Mais, contrairement au cas de lien déterministe entre y et x, on dispose généralement de plusieurs choix possibles. Le choix est opéré à partir d’un « critère de qualité », ce dernier étant fonction des résultats que l’on attend de s. Si on reprend l’exemple ci-dessus on peut considérer comme critère de qualité la « probabilité de se tromper » qui peut, pour s donnée, être calculée à partir de PX,Y . La stratégie 8 (a) (b) Figure 1.1 – Deux exemples : (a) Signal illustrant l’impact de la nicotine sur le rythme cardiaque. (b) Image satellitaire (SPOT) de l’île de la réunion. s qui optimise ce critère est la stratégie bayésienne avec la fonction de perte « 0 − 1 ». Si pour une raison quelconque on considère que les deux types d’erreurs « décider qu’il y a de l’eau alors qu’il y a de la forêt » et « décider qu’il y a de la forêt alors qu’il y a de l’eau » ne sont pas de gravité égale, ce qui est fréquent dans les problèmes de détection, on modifie la fonction de perte et on arrive à une stratégie s différente de la précédente. Dans la pratique le calcul explicite optimisant un critère donné est parfois impossible, on est alors amené à rechercher une stratégie s « sous-optimale ». Finalement, lorsque PX,Y est donnée, on choisit un critère correspondant à la nature du problème que l’on veut résoudre et on cherche s optimisant ce critère. En fait, PX,Y est rarement connue avec précision dans la pratique et on doit, dans une phase préalable d’« estimation », rechercher des paramètres dont la connaissance est suffisante pour la détermination de s. Le cas le plus fréquent est celui où on a une idée sur la forme générale de PX,Y et on considère qu’elle fait partie d’une famille PX,Y,θ , θ ∈ Θ. On cherche alors à estimer θ. En reprenant notre exemple, supposons que les lois de Y conditionnelles à ω1 et ω2 sont gaussiennes, notons f1 et f2 les densités correspondantes. Nous sommes dans le cas « paramétrique », θ a six composantes : ? les lois « a priori » : π(k) = PX=ωk , k ∈ Ω ; ? les moyennes et écarts-type définissant f1 et f2 : θ k = {µk , σk }, k ∈ Ω. Dans les cas « paramétrique » et « non paramétrique », on distingue deux sous-cas : 1. estimation avec « échantillon d’apprentissage » (supervisée) et 2. estimation « sans échantillon d’apprentissage » (non supervisée). Le premier est celui où on dispose d’un échantillon x01 , x02 , . . . , x0M de réalisations de X. Les réalisations de Y étant toujours observables, on estime alors les paramètres nécessaires à la détermination de s à partir 0 de (x01 , y10 ), . . . , (x0N , yN ). Dans notre exemple simple le cas « avec échantillon d’apprentissage » est celui où on dispose dans l’image de M endroits où la nature du terrain ("eau" ou "forêt") est connue. Notons x = {x1 , . . . , xM } l’échantillon « observé », x1 = {x1 , . . . , xP } et x2 = {x1 , . . . , xQ } les sous-échantillons P "eau" et "forêt" (P + Q = M ). Les lois a priori π(1) et π(2) peuvent être estimées par les fréquences M et Q M , et les paramètres θ k , k ∈ Ω des gaussiennes par les moyennes et écarts-type empiriques calculés à partir des deux sous-échantillons x1 et x2 . Le deuxième est celui où les paramètres nécessaires à la détermination de s doivent être estimés à partir de l’échantillon y de Y , dont la loi est un mélange de lois gaussiennes : on arrive au problème statistique général de reconnaissance de mélange. Le cas le plus général, mais aussi le plus difficile à traiter, est celui de 9 l’estimation non paramétrique sans échantillon d’apprentissage. Finalement la démarche générale, que l’on retrouve dans le traitement de nombreux problèmes (en traitement de signal, économie, médecine, . . . ) est la suivante : ? on définit la forme générale de PX,Y ; ? on définit un critère de qualité de l’« estimation » de X = x (caché) à partir de Y = y (observé). ? on recherche une « stratégie » s optimisant le critère choisi. ? on estime les paramètres nécessaires à la mise en œuvre de s. L’objectif du cours est de présenter l’utilisation des modèles de Markov, dans le cadre du traitement numérique du signal. Les modèles présentés sont très généraux, et peuvent s’appliquer directement dans d’autres domaines comme l’économie et la finance, la génomique, la reconnaissance de formes. . . Dans ce cours, nous ne nous intéresserons qu’aux modèles à temps discret (indice n discret) et à états discrets (X ∈ Ω ⊂ Z), qui correspondent bien aux signaux numériques tels que ceux extraits de la parole [HCF+ 06], ou aux images considérées comme des matrices de niveaux de gris. Ces deux domaines ont d’ailleurs largement contribué au développement des modèles de chaîne de Markov cachée et de champs de Markov caché, que nous détaillons plus particulièrement dans ce cours. La démarche générale présentée ci-dessus conduit à plusieurs modélisations stochastiques qui différent selon les hypothèses de dépendance que l’on considère pour modéliser les liens stochastiques entre les données observées et les données cachées. Le cours commence par introduire le principe de la stratégie bayésienne de la décision (chapitre 1). Puis, nous continuons en posant le problème de l’estimation d’un mélange fini dans le cas aveugle, c’est-à-dire celui où les échantillons sont supposés indépendants les uns des autres (variables i.i.d.). Nous détaillons l’algorithme itératif EM (Expectation-Maximization) et les formules de ré-estimation dans le cas gaussien (chapitre 2). Cette hypothèse d’indépendance pouvant apparaître trop restrictive dans bon nombre d’applications (séries chronologiques, images. . . ), nous poursuivons avec deux modélisations qui permettent de considérer des liens plus riches entre les données : les chaînes de Markov (1D) et champs de Markov (2D), présentés dans les chapitres 3 et 4 respectivement. Pour ces deux modèles, nous détaillons les algorithmes d’estimation EM associés (cas gaussien), permettant d’aboutir à des méthodes de classification non supervisées. Les algorithmes sont illustrés dans le contexte de la segmentation d’images, en particulier sur les images radar pour lesquelles ces méthodes markoviennes s’avèrent robustes et particulièrement performantes. 10 Chapitre 2 Décision bayésienne Nous présentons brièvement dans ce chapitre le principe de la classification bayésienne, qui est traitée dans bon nombre d’ouvrages classiques. Une présentation orientée « reconnaissance de formes » peut être consultée dans [DHS01] (chapitres 2 et 3 essentiellement) et dans [TK06] (chapitre 2 essentiellement). Les démarches considérées ici sont très générales et s’appliquent à un grand nombre de problèmes en dehors de la classification des signaux et de la segmentation statistique d’images. 2.1 Position du problème Selon le schéma général, on observe une réalisation d’une variable aléatoire Y (une valeur y de R) et on souhaite « estimer » la valeur cachée k du paramètre. L’ensemble des paramètres Ω sera supposé fini, Ω = {1, . . . , K}, ses éléments appelés « classes » et tout estimateur « stratégie de classification » 1 . Supposons maintenant que nous nous trouvons devant un problème de classification des données et que nous connaissons la fréquence d’apparition des classes. Par exemple, on classe les individus en classe « homme » et « femme », uniquement à partir de leur poids. On sait a priori (ce qui signifie ici « avant l’observation ») que la population que nous devons classer contient deux tiers d’hommes et un tiers de femmes. Une telle connaissance a priori peut être modélisée par une probabilité (dite a priori) sur Ω. Cette probabilité peut alors être considérée comme la loi d’une variable aléatoire X et les p (. |X = k ) apparaissent comme les lois de Y conditionnelles à X. Finalement, la loi a priori p (X = k) = p (k) = π(k) sur Ω et les lois conditionnelles p (y |X = k ) = fk (y) sur R définissent une probabilité p (y, k) = π(k) fk (y) sur R × Ω 2 , dite loi du couple ou loi conjointe. La loi p (y) est appelée densité mélange ou, plus simplement, mélange p (y) = K X p (y, k) = k=1 K X π(k) fk (y). (2.1) k=1 La probabilité conditionnelle p (k |y ) (sachant y ∈ R) sur Ω, dite loi a posteriori s’écrit p (k |y ) = p (y, k) π(k) fk (y) = K . p (y) X π(i) fi (y) (2.2) i=1 1. Par abus de notation, et lorsque cela ne peut engendrer de confusion, nous écrirons p (x) à la place de p (X = x), x ∈ Ω et p (y) à la place de p (Y ∈ dy), y ∈ R. 2. par rapport à la mesure δ ⊗ ν, où δ est la mesure de comptage et ν la mesure de Lebesgue sur R. 11 Intuitivement, la différence entre la probabilité a priori p (k) et la probabilité a posteriori p (k |y ) sur Ω illustre l’apport de l’information (sur l’identité de la classe non observable) contenue dans l’observation (a priori signifie « avant » l’observation, et a posteriori signifie « après » l’observation). On retrouve le fait que si les variables sont indépendantes, l’observation de l’une d’entre elles n’apporte aucune connaissance sur le comportement de l’autre et donc ces deux probabilités sont égales. 2.2 Stratégie bayésienne Considérons une probabilité sur Ω × R qui est une loi d’un couple de variables aléatoires (X, Y ). Ainsi (x, y) ∈ Ω × R étant une réalisation de (X, Y ), le problème de la classification devient celui de l’estimation de la réalisation inobservable de la variable X à partir de la variable observable Y . Considérons une stratégie de classification ŝ : R −→ Ω. Pour chaque réalisation (x, y) = (X, Y ), ŝ peut donner la bonne réponse, i.e. ŝ(y) = x , ou se tromper, i.e. ŝ(y) 6= x. Supposons que les différentes erreurs ne sont pas de gravité équivalente. On le modélise en définissant une application L : Ω × Ω −→ R+ dite fonction de perte : ( 0 si i = j, L(i, j) = (2.3) λi,j sinon. Le nombre réel λi,j modélise la gravité de l’erreur « on a choisi la classe i alors que la vraie classe est j ». Insistons sur le fait que la « perte » modélisée par L ne fait pas partie de la modélisation probabiliste considérée. Par ailleurs, à une erreur donnée, deux utilisateurs peuvent avoir des intérêts différents, et donc les pertes qu’ils associent à une même erreur peuvent être différentes. Ainsi que nous allons le voir dans la suite, la possibilité de l’utilisation des fonctions de perte différentes introduit une grande généralité - et une grande souplesse - des modèles probabilistes utilisés à des fins de classification des données. À stratégie ŝ et fonction de perte L données, comment mesurer la qualité de ŝ ? Supposons que l’on a N observations indépendantes y = {y1 , . . . , yN }, chacune correspondant à une classe inconnue, à classer. En notant x = {x1 , . . . , xN } les classes correspondantes, la perte globale est L (ŝ(y1 ), x1 ) + . . . + L (ŝ(yN ), xN ) . On cherche à minimiser cette perte globale, ce qui revient à minimiser son quotient par N . Par la loi des grands nombres, ce dernier tend vers : L (ŝ(y1 ), x1 ) + . . . + L (ŝ(yN ), xN ) −→ E [L (ŝ(Y ), X)] . N →+∞ N On constate qu’à « long terme », la qualité d’une stratégie ŝ est mesurée par E [L (ŝ(Y ), X)], qui est appelée « perte moyenne ». La stratégie bayésienne ŝB est celle parmi toutes les stratégies pour laquelle la perte moyenne est minimale : E [L (ŝB (Y ), X)] = min E [L (ŝ(Y ), X)]. (2.4) ŝ La qualité de ŝB est ainsi appréhendée via la loi des grands nombres et on ne peut rien dire pour une seule observation (ou même un petit nombre). Montrons que la stratégie bayésienne associée à la fonction de perte définie par l’équation (2.3) est " # K K X X [ŝB (y) = k] ⇐⇒ ∀j ∈ Ω, λk,i p (i |y ) ≤ λj,i p (i |y ) , i=1 i=1 soit encore ŝB (y) = arg min j∈Ω K X i=1 12 λj,i p (i |y ). (2.5) Démonstration : En appliquant la formule de Fubini 3 à E [L (ŝ(Y ), X)], on peut écrire : E [L (ŝ(Y ), X)] = E E [ L (ŝ(Y ), X)| Y ] . | {z } φ(y) 4 Nous obtenons : φ(y) = K X L (ŝ(y), i) p (i |y ). i=1 PK L’élément ŝ(y) = k, qui minimise φ(y), minimise la quantité i=1 λj,i p (i |y ), ce qui donne (2.5). Notons en R effet que ŝB ainsi déterminée minimise bien E [L (ŝ(Y ), X)] car on a E [φ(Y )] = R φ(y) p (y) dy, et donc la minimisation de φ en tout point minimise bien l’intégrale (car p(y) > 0). Remarque 1 : Pour calculer la perte moyenne ξ (qui est minimale pour la stratégie bayésienne) associée à la stratégie ŝ et à la fonction de perte L, on utilise toujours le résultat de la note 3 (en conditionnant par X) et celui de la note 4 : Z φ(y) p (y) dy = ξ = E [L (ŝ(Y ), X)] = Z X K R π(i)fi (y) L (ŝ(y), i) dy. R i=1 Nous disposons ainsi de la stratégie qui assure, à long terme, d’avoir une perte minimale et, de plus, il est possible de calculer sa valeur (cf. exemple ci-après). Remarque 2 : Ainsi la stratégie bayésienne dépend des λi,j que l’on choisit de façon subjective. Si on souhaite détecter une classe donnée avec une précision , on peut calculer les coefficients λi,j de façon à ce que la stratégie bayésienne correspondante vérifie cette condition. Ce type de possibilités montre la puissance de la modélisation en question. Exemple : Soit Ω = {1, . . . , K} et la fonction de perte L0−1 définie par : ( 0 si i = j L0−1 (i, j) = 1 sinon (2.6) L0−1 (ŝ(y), k) désigne alors la valeur, au point (k, y), de la fonction indicatrice du sous-ensemble de Ω × R sur lequel ŝ se trompe et donc E [L0−1 (ŝ(Y ), X)] représente la probabilité pour que ŝ se trompe. Ainsi dans ce cas la stratégie bayésienne ŝB définie par ŝB (y) = k si ∀j ∈ Ω, p (k |y ) ≥ p (j |y ) , (2.7) qui est un cas particulier de (2.5), est celle pour laquelle la probabilité de se tromper est minimale 5 . Sachant qu’en vertu de la loi des grands nombres la probabilité d’un événement peut être vue comme la fréquence de son apparition lorsque le phénomène se reproduit un grand nombre de fois de façon indépendante, la stratégie définie ci-dessus est celle qui produira, lorsqu’on l’utilisera dans un grand nombre de cas indépendants, la plus petite proportion d’erreurs. Ainsi ŝB (y) consiste, dans ce cas, à associer à chaque y ∈ R l’élément de Ω dont la probabilité a posteriori, i.e. conditionnelle à Y = y, est maximale. Cette règle de décision est aussi appelée celle du « maximum de vraisemblance a posteriori ». Notons que les probabilités a posteriori de (2.7) peuvent être remplacées par les « fonctions discriminantes » π(j)fj (y), et la stratégie ŝB (y) s’écrire ŝB (y) = k si ∀j ∈ Ω, π(k)fk (y) ≥ π(j)fj (y) (2.8) 3. Pour deux variables aléatoires réelles U , V et une fonction quelconque Ψ, la formule de Fubini est E [Ψ(U, V )] = E [E [ Ψ(U, V )| U ]] = E [E [ Ψ(U, V )| V ]]. Z h(u) p (u |v ) du. 4. En utilisant la version discrète du résultat classique suivant : E [ h(U )| V = v] = R 5. On le démontre en exprimant l’eq. (2.5) dans ce cas particulier de 2 classes : nous sélectionnons la classe 1 si λ1,1 p (1 |y ) + λ1,2 p (2 |y ) = p (2 |y ) est plus petit que λ2,1 p (1 |y ) + λ2,2 p (2 |y ) = p (1 |y ), d’où le résultat. 13 Figure 2.1 – Dessin de deux densités gaussiennes de paramètres θ1 = {100, 6} et θ2 = {110, 3}. Cette dernière écriture est intéressante pour son interprétation graphique (cf. question 1 de la section 2.3). La perte minimale définie dans la remarque précédente s’écrit dans le cas de la fonction de perte L0−1 Z p (y) − max π(i)fi (y) dy. ξ= i∈Ω R (2.9) ou, plus simplement encore dans le cas de 2 classes : Z ξ= min π(i)fi (y) dy. R i∈Ω (2.10) Ce résultat sera interprété dans la question 2 de la section 2.3. Remarque 3 : Pour faciliter la lecture, nous avons pour l’instant considéré le cas scalaire, c’est-à-dire y ∈ R (D = 1). Les résultats énoncés s’étendent sans difficulté au cas vectoriel où les observations sont vectorielles, c’est-à-dire y ∈ RD (D > 1). 2.3 Exemple : cas gaussien Dans le contexte gaussien considéré ici, notons µk et Σk les vecteurs moyens et les matrices de covariance n o D × D correspondantes, θk = µk , Σk . On rappelle que fk (.) est décrite par l’expression analytique suivante : 1 1 − 21 −1 t fk y = exp − (y − µk ) Σk (y − µk ) . (2.11) D |Σk | 2 (2π) 2 Lorsque D = 1, nous retrouvons bien évidemment la densité d’une gaussienne mono-dimensionnelle θk = {µk , σk } : " 2 # 1 1 y − µk √ fk (y) = exp − . (2.12) 2 σk σk 2π À titre d’exemple, la figure 2.1 montre deux gaussiennes qui serviront pour les exercices suivants. Questions 1. Considérons le cas de deux gaussiennes de paramètres θ1 = {0, σ} et θ2 = {a, σ/2} (a réel) et de proportions π(1) = 1/3 et π(2) = 2/3. Calculer de manière analytique les seuils de décision bayésienne, c’est-à-dire les Υ valeurs {τ1 , . . . , τΥ } qui séparent les deux classes sur R. Calculer les valeurs numériques pour les lois dont les valeurs des paramètres sont données dans la figure 2.1. 14 (a) (b) Figure 2.2 – (a) Mélange des deux lois gaussiennes de la figure 2.1 dans des proportions données par π(1) = 1/3 et π(2) = 2/3. (b) En couleur cyan (resp. magenta) apparaît la courbe de « π(k) fk (.) » maximum (resp. minimum). Réponse. 1 1 √ exp − 2 3 σ 2π 1 exp 2 2 y σ " = 1 4 √ exp − 2 3 σ 2π = 4 3y 2 − 8ay + 4a2 = 4σ 2 ln 2 3y 2 − 8ay + 4a2 − 4σ 2 ln 2 = 0. " 2(y − a) σ 2 − 2 y σ y−a 2 # σ 2 # Le discriminant ∆ = 64a2 − 12 (4a2 − 4σ 2 ln 2) = 16 a2 + 3σ 2 ln 2 est toujours positif et les racines réelles (c’est à dire les seuils de décision) sont données par τ1 = √ 8a− ∆ 6 et τ2 = √ 8a+ ∆ . 6 En utilisant les valeurs numériques de la figure 2.1, nous obtenons ∆ = 2797.8, τ1 = 104.5 et τ2 = 122.1, ce que l’on peut vérifier sur le graphe (b) de la figure 2.2. Ainsi, les valeurs de y comprises dans ]τ1 ; τ2 [ sont associées à la classe 2, alors que les valeurs en dehors de cet intervalle sont associées à la classe 1. Nous avons autant de chance de commettre une erreur ou de ne pas en commettre en décidant, au niveau des seuils (y = τ1 et y = τ2 ), de classer la donnée dans l’une ou l’autre classe. La graphe (a) de la figure 2.2 représente le mélange des deux classes, cf. eq. (2.1). La courbe cyan du graphe (b) représente, en chaque valeur y, la plus forte valeur π(k)fk (y) pour k ∈ Ω, alors que la courbe magenta représente le minimum. Questions 2. Dans le cas de la fonction de perte L0−1 définie par l’éq. (2.6), calculer de manière analytique la perte moyenne ξ, cf. eq. (2.9), en utilisant les paramètres de la question 1. Calculer les valeurs numériques pour les valeurs des paramètres données dans la figure 2.1. Réponse. La courbe magenta modélise la probabilité de se tromper et la courbe la cyan la probabilité de ne pas commettre d’erreur. La perte moyenne est donc représentée par la surface sous la courbe magenta, et est calculée en intégrant cette fonction. 15 Calcul : τ1 Z Z τ2 Z π(2)f2 (y) dy + ξ= −∞ π(2)f2 (y) dy . τ1 | {z } A +∞ π(1)f1 (y) dy + τ2 | {z } B | {z C } Nous obtenons pour le terme A : A Z τ1 y−a 2 dy 2 σ " √ 2 # Z τ1 2 (y − a) 2 2 √ √ exp − dy. σ 3σ 2 π −∞ 4 √ 3 σ 2π = = 1 exp − 2 −∞ √ √ 2 2 En posant z = (y − a) (ainsi dz = dy), nous avons σ σ 1 2 A= √ 3 π 2 En notant erf(x) = √ π Z Z τ1 −a 2σ exp −z 2 dz. −∞ x exp −z 2 dz avec limx→∞ erf (x) = 1, nous avons 0 A= 1 3 √ 2 (τ1 − a) σ 1 + erf . Par un calcul similaire, nous obtenons pour B et C : B = C = τ2 τ1 √ √ − erf σ 2 σ 2 √ 2 1 1 − erf (τ2 − a) . 3 σ 1 6 erf , En utilisant les valeurs numériques, nous obtenons A = 0.023, B = 0.075 et C = 1.71 10−5 , ce qui donne finalement une perte moyenne de ξ = 0.098. Questions 3. Calculer les seuils de décision bayésienne dans le cas suivant : µ2 = µ1 et σ2 = 2σ1 . De même avec deux lois exponentielles de paramètres λ1 et λ2 (on rappelle que la densité d’une loi exponentielle s’écrit, pour y > 0, f (y) = λ exp [−λy]). Questions 4. Si on remplace la fonction de perte L0−1 en 0 si i = j L0 (i, j) = 1 2 1 si i = 1 et j = 2 (2.13) si i = 2 et j = 1 qu’obtenons-nous (les erreurs n’ont pas le même poids) ? Même question pour L1−0 (on favorise les erreurs). Comment pondérer les pertes entre les classes de manière à avoir le même pourcentage d’erreur pour chacune des deux classes (i.e. α1 = α2 dans la question 2) ? Questions 5. Exercice 3 de l’examen de février 2010. 16 Chapitre 3 Modèle de mélange - cas indépendant n o On considère ici un signal numérique se présentant sous forme d’un vecteur y = y 1 , . . . , y n , . . . , y N de N t vecteurs de paramètres y n = yn1 , . . . , ynD de dimension D, observés à intervalle régulier. Pour exemple, on peut citer ? les pixels d’une image à niveaux de gris (D = 1) ou multi-spectrale (D = 3, 4 ou 5), ? les températures et pressions dans le cadre d’applications météorologiques (D = 2), ? les coefficients cepstraux, dans le cadre du traitement de la parole (D = 10 ou 20), . . . On trouve sur Internet des démonstrateurs sur les modèles de mélange et l’algorithme EM, notamment http: //wiki.stat.ucla.edu/socr/index.php/SOCR_EduMaterials_ModelerActivities_MixtureModel_1. 3.1 Modèle de mélange Le modèle de mélange probabiliste (probabilistic mixture model) [TSM85] consiste à supposer que les vecteurs observés y n sont des réalisations de variables aléatoires Y n mutuellement indépendantes 1 , qui suivent toutes une même loi f (.) ayant la forme suivante : K X f yn = π(k) fk y n . (3.1) k=1 PK Chaque fk (.) est une densité de probabilité et les π(k) sont des scalaires positifs tels que k=1 π(k) = 1. Nous allons voir que ce modèle peut être interprété en supposant que les données observées sont réparties dans K classes (appelées aussi composantes du mélange). 1. Soient A1 , . . . , Am , m événements. On dit qu’ils sont mutuellement indépendants si pour toute famille J d’indices dans [1, . . . , m], nous avons : ! P \ Aj = j∈J Y j∈J Ils sont en particulier deux à deux indépendants (réciproque fausse). 17 P (Aj ). (a) (b) (c) (d) Figure 3.1 – Échantillon (a) et indicatrices (b) de N = 20 valeurs générées à l’aide d’un mélange de K = 3 composantes gaussiennes : (c) et (d). Les proportions théoriques (ayant servies à la simulation) sont données par π(1) = 0.1 (rouge), π(2) = 0.55 (vert) et π(3) = 0.35 (bleu). Les paramètres θk = {µk , σk } des 3 gaussiennes sont donnés par (−2, 4), (−0.8, 1) et (1, 2). Remarque 1 : On parle de modèle de mélange paramétrique lorsque les densités fk (.) des composantes sont issues de familles paramétriques telles que les lois gaussienne, gamma, . . . On notera θk les paramètres de fk (.) et Θ = {θ1 , . . . , θK }. À titre d’illustration la courbe (d) de la figure 3.1 montre le résultat du mélange de trois lois gaussiennes 1D. Un exemple de mélange de trois lois gaussiennes 2D est illustré dans la figure 3.2. Les vecteurs moyens, cf. (2.11) page 14, sont donnés par µ1 = (−3, −1)t , µ2 = (0, 0)t , µ3 = (2, 0)t , et les matrices de covariance par 1 0.5 2 −0.8 1 0.1 , Σ2 = , Σ3 = 0.5 2 −0.8 2 0.1 3 On distingue les trois formes ellipsoïdales (qui n’ont d’ailleurs pas la même orientation, ce qui traduit le fait que les matrices de covariances sont différentes pour chaque composante du mélange). Il est clair que selon la manière dont les vecteurs moyens des composantes diffèrent, l’individualisation des composantes sera plus où moins marquée. Σ1 = 18 Figure 3.2 – Représentation des courbes isoprobabilité d’un mélange de trois lois gaussiennes 2D selon les mêmes proportions que dans la figure 3.1. Remarque 2 : Comment réalise t’on un tirage aléatoire selon un mélange pondéré de densités ? Cela se fait en deux étapes 1. D’abord on tire un numéro k de classe selon les probabilités {π(i)}i∈Ω . 2. Ensuite, on tire selon la densité sélectionnée fk (.). Pour illustrer ce résultat, nous avons conduit l’expérience suivante, cf. figure 3.3. Nous avons ajouté un bruit gaussien à chacune des classes de l’image de cible (a) dont la classe noire représente environ 2/3 des pixels de l’image, et la classe blanche 1/3. Nous avons procédé de la manière suivante. Nous avons bruité chacun des pixels noirs avec la loi gaussienne f2 de paramètres {110, 3}. Les pixels de la classe blanche ont quand à eux été bruités avec la loi f1 de paramètres {100, 6}. L’image bruitée et son histogramme sont présentés dans les figures (b) et (c). Nous avons alors appliqué la décision bayésienne avec l’ensemble des paramètres de la simulation, et obtenu l’image classée (d). L’erreur de classification obtenue en comptant le nombre de pixels différents entre (a) et (d) s’élève à 9.76%. Ce résultat est une bonne approximation du calcul théorique (rappel : ξ = 0.098), ce qui est conforme au principe de la loi des grands nombres car l’image a pour dimensions 128 × 128 = 16384 pixels. Il est remarquable de constater que le pourcentage d’erreur dans la classe noire est de α1 = 3.36% (ce qui correspond bien à une erreur de 2.26% par rapport au total des pixels, à rapprocher de A + C), alors que celui dans la classe blanche est de α2 = 22.60% (ce qui correspond bien à une erreur de 7.40% par rapport au total des pixels, à rapprocher de B). Ainsi les erreurs commises entres les deux classes ne sont pas les mêmes : une classe est bien plus erronée que la seconde. À titre d’illustration, la figure 3.4 montre le résultat d’un tirage de 4000 échantillons issus du mélange 2D décrit dans la remarque ci-dessus. Le poids de chaque composante du mélange π(k) se traduit par la proportion statistique de vecteurs venant de chacune des composantes (par application de la loi des grands nombres). La figure 3.5 montre le résultat d’un tirage de 128 × 128 échantillons avec les mêmes paramètres que ceux utilisés pour obtenir l’image 3.3(b). Ces deux images sont donc issues du même mélange et ont approximativement le même histogramme. Par contre, elles présentent des aspects très différents. . . Comme le laisse présager ce qui précède, la variable indicatrice Xn est une donnée constitutive du problème qui présente l’inconvénient de ne pouvoir être observée en pratique : on observe des réalisations du vecteur aléatoire Y n sans savoir de manière certaine quelle est la classe du mélange associée à chaque observation. Au sens de l’algorithme EM, la variable Xn constitue une donnée latente, c’est-à-dire fortement suggérée par le problème considéré (on parle également de donnée non-observée ou manquante). Nous verrons que l’introduction de ces données non-observées permet de résoudre de manière élégante un problème d’estimation relativement complexe. Ce modèle est décrit par le terme « aveugle » dans la mesure où il ne prend pas en compte l’influence des autres échantillons. Cette hypothèse est acceptable dans certaines applications, mais la prise en compte de 19 (a) (b) (c) (d) Figure 3.3 – Décision bayésienne sur une image bruitée avec paramètres connus. (a) image originale (π(2) ' 0.33 et π(1) ' 0.67). (b) image bruitée avec les paramètres donnés dans le texte et (c) son histogramme normalisé, à rapprocher du mélange des deux lois gaussiennes de la figure 2.2(a). (d) image classée obtenue par décision bayésienne. 20 Figure 3.4 – Tirage aléatoire de 4000 échantillons issus du mélange de trois gaussiennes 2D présenté dans la remarque ci-dessus. La couleur de chaque point montre la classe k à laquelle l’échantillon appartient. Figure 3.5 – Image construite par tirage selon le même mélange que celui utilisé pour obtenir la figure 3.3(b). l’aspect séquentiel (c’est à dire l’ordre dans lequel les données sont lues, comme les séries chronologiques ou spatiales) s’avère parfois primordial. Les modèles markoviens que nous aborderons dans les chapitres 4 et 5 permettront d’infléchir cette hypothèse. 3.2 L’algorithme EM L’algorithme « Expectation-Maximization (EM) » [DLR77, MK96, Bil97] est une méthode générale pour trouver l’estimée du maximum de vraisemblance d’un ensemble de paramètres (noté Θ) d’une distribution donnée à partir d’un échantillon. On sait en effet que cette stratégie d’estimation conduit à des estimateurs asymptotiquement efficace, c’est-à-dire « optimaux » lorsque le nombre de données observées devient important. Le problème est que la fonction de vraisemblance L prend ici la forme relativement complexe suivante : N X K Y L Θ|y = p y|Θ = π(k) fk y n , (3.2) n=1 k=1 n o où y = y 1 , . . . , y n , . . . , y N désigne l’ensemble des N vecteurs dont on dispose pour estimer les paramètres du modèle, et Θ regroupe les paramètres du modèle à estimer, c’est-à-dire les proportions π(k), les moyennes µk et les matrices de covariance Σk pour k ∈ Ω = {1, . . . , K} d’un mélange gaussien. Dans cette équation, les densités fk (.) doivent être remplacées par leur expression donnée à l’équation (2.11). On conçoit aisément qu’il y ait quelques difficultés à maximiser la fonction de vraisemblance définie par (3.2) 21 par rapport aux paramètres Θ du modèle. Outre une expression analytique plutôt complexe, cette fonction de vraisemblance présente le défaut de ne pas être convexe, c’est-à-dire qu’elle n’admet a priori pas de maximum unique [Min83]. Par conséquent même l’utilisation d’algorithmes d’optimisation classiques (gradient, Newton) est ici délicate car il faudrait auparavant cerner le domaine dans lequel on désire rechercher la valeur optimale de Θ, chose qui est plutôt malaisée lorsque Θ est un paramètre de dimension très élevée comportant des données non-homogènes (par exemple les poids π(k) et les matrices de covariance Σk ). 3.2.1 Principe L’algorithme EM apporte une solution extrêmement générale à ce type de problèmes pour lesquels le modèle statistique considéré peut être complété en faisant appel à des données latentes. Dans le cas du modèle de mélange nous avons vu que la variable non observée, qu’il est judicieux de faire intervenir, est l’indicatrice de la composante du mélange xn associée à chaque vecteur observé y n . Si ces données latentes pouvaient être observées, la solution du problème serait beaucoup plus simple. L’idée à la base de l’algorithme EM consiste à raisonner sur les données complètes (données observées et données latentes) tout en prenant en compte le fait que l’information disponible sur les données latentes ne peut venir que des données observées. Le principe de l’algorithme EM est de compenser les données manquantes en les remplaçant par leur moyenne. Ceci se traduit par l’algorithme itératif suivant : 1. estimer les données manquantes étant donné la valeur courante des paramètres, 2. estimer les nouveaux paramètres étant donné les estimées des données manquantes courantes, 3. réitérer les étapes 1. et 2. jusqu’à convergence. Plus précisément, chaque itération ` se décompose en deux étapes [DLR77] : ë Expectation Calcul de la fonction auxiliaire Q Θ|Θ(`) h i Q Θ|Θ(`) = E ln p y, x |Θ y, Θ(`) . où ? ? ? ? (3.3) Θ désigne les vrais paramètres, Θ(`) désigne la valeur estimée des paramètres du modèle à la `e itération de l’algorithme, y et x désignent respectivement l’ensemble des données observées et des données latentes associées, p y, x |Θ = L Θ|x, y désigne la vraisemblance conjointe des données observées et latentes. ë Maximisation de la fonction auxiliaire Θ(`+1) = arg max Q Θ|Θ(`) , Θ (3.4) permettant d’obtenir une nouvelle estimée Θ(`+1) . 3.2.2 Propriétés Propriété 1 : La et la plus importante propriété de l’algorithme EM est le fait que la suite des n première o (`) valeurs estimées Θ est construite de façon à ce que la vraisemblance des données observées augmente 22 à chaque itération de l’algorithme. En effet X = ln p y Θ(`) ln p y Θ(`) p x y, Θ(`) x | {z } p x, y Θ(`) X = p x y, Θ(`) ln (`) p x Θ y, x X X p x y, Θ(`) ln p x, y Θ(`) − p x y, Θ(`) ln p x y, Θ(`) = =1 x x i i h = E ln p x, y Θ(`) y, Θ(`) − E ln p x y, Θ(`) y, Θ(`) | {z } | {z } h Q(Θ(`) |Θ(`) ) (3.5) R(Θ(`) |Θ(`) ) et ln p y |Θ = ln X p x, y |Θ x (`) p x y, Θ ln p x, y |Θ p x y, Θ(`) x p x, y |Θ y, Θ(`) ln E p x y, Θ(`) = = X Or d’après l’inégalité de Jensen 2 , sachant que la fonction ln est concave et non convexe p x, y |Θ y, Θ(`) ln p y |Θ ≥ E ln (`) p x y, Θ h h i i ≥ E ln p x, y |Θ y, Θ(`) − E ln p x y, Θ(`) y, Θ(`) {z } | {z } | Q(Θ|Θ(`) ) (3.6) R(Θ(`) |Θ(`) ) Si Θ(`+1) = arg maxΘ Q Θ|Θ(`) , alors Q(Θ(`+1) |Θ(`) ) ≥ Q(Θ(`) |Θ(`) ), et donc depuis (3.5) et (3.6) ln p y Θ(`+1) − ln p y Θ(`) ≥ Q(Θ(`+1) |Θ(`) ) − R(Θ(`) |Θ(`) ) − Q(Θ(`) |Θ(`) ) + R(Θ(`) |Θ(`) ) ≥ Q(Θ(`+1) |Θ(`) ) − Q(Θ(`) |Θ(`) ) ≥ 0 Ainsi la vraisemblance croit toujours, ce qui constitue une condition suffisante pour assurer la convergence de EM. La première vertu de l’algorithme EM est donc de permettre de construire une suite d’estimateurs des paramètres du modèle pour laquelle la vraisemblance croît. Bien sûr, ce qui rend l’algorithme EM intéressant en pratique est le fait que les deux équations (3.3) et (3.4) vont avoir une forme analytique explicite, et ce pour une classe très large de modèles statistiques. Ce point est détaillé pour les modèles de mélange au paragraphe 3.3, puis pour les modèles de Markov cachés conditionnellement gaussiens aux chapitres 4 et 5. Propriété 2 : La seconde propriété importante de l’algorithme EM et que si l’on différencie la quantité 2. qui dit que pour une fonction φ convexe, i.e. ∀t ∈ [0, 1], φ(tx+(1−t)y) ≤ tφ(x)+(1−t)φ(y), nous avons φ (E [X]) ≤ E [φ(X)] 23 intermédiaire par rapport au paramètre Θ, il vient h i (`) (`) ∂Q Θ|Θ ∂E ln p x y, Θ y, Θ ∂ ln p y |Θ = + ∂Θ ∂Θ ∂Θ (`) Θ=Θ | {z } Θ=Θ(`) A Intéressons nous au terme terme A : h i ∂E ln p x y, Θ y, Θ(`) ∂Θ Or, lorsque Θ = Θ(`) , A peut s’écrire : " # X ∂p x y, Θ A|Θ=Θ(`) = ∂Θ x . (3.7) Θ=Θ(`) ∂ X = ln p x y, Θ p x y, Θ(`) ∂Θ x i X ∂ h = ln p x y, Θ p x y, Θ(`) ∂Θ x (`) X p x y, Θ ∂p x y, Θ . = ∂Θ p x y, Θ x Θ=Θ(`) ∂ X = p x y, Θ ∂Θ x Θ=Θ(`) ∂1 = = 0. ∂Θ Θ=Θ(`) L’algorithme EM possède donc une seconde vertu, en ce qu’il permet de calculer le gradient de la fonction d’objectif (la vraisemblance) aux points Θ(`) . Cette propriété est très importante pour la convergence de l’algorithme puisque qu’elle implique que les points stables de l’algorithme (c’est-à-dire des points tels que Q (Θ|Θ∗ ) soit maximum en Θ∗ ) sont des points stationnaires de la vraisemblance, c’est à dire pour lesquels ∂ ln p(y|Θ ) = 0. ∂Θ ∗ Θ=Θ Avec quelques hypothèses concernant la régularité de la fonction intermédiaire Q(.) et la structure topologique de l’espace des paramètres Θ, l’éq. (3.7) permet de montrer que l’algorithme EM ne peut converger que vers des points stationnaires de la vraisemblance. En pratique, la vraisemblance n’étant pas une fonction convexe des paramètres Θ, c’est-à-dire pouvant présenter plusieurs maximums locaux, le comportement de l’algorithme EM dépend fortement de la valeur initiale Θ(0) depuis laquelle on le fait démarrer. Variantes de EM : L’algorithme EM, bien que très performant et souvent simple à mettre en œuvre, pose quand même parfois quelques problèmes qui ont donné lieu à des développements complémentaires. On distingue trois variantes qui permettent de palier (au moins partiellement) à certaines difficultés connues de EM : ý GEM ( Generalized EM) GEM a été proposé en même temps qu’EM par Dempster et al. [DLR77] qui ont prouvé que pour assurer la convergence vers un maximum local de vraisemblance, il n’est pas nécessaire de maximiser Q à chaque étape mais qu’une simple amélioration de Q est suffisante. ý CEM ( Classification EM) L’algorithme EM se positionne dans une optique estimation, c’est-à-dire qu’on cherche à maximiser la vraisemblance du paramètre, sans considération de la classification faite a posteriori en utilisant la règle de Bayes. L’approche classification, proposée par Celeux et Govaert [CG91] consiste à optimiser, non pas la vraisemblance du paramètre, mais directement la vraisemblance complétée. ý SEM ( Stochastic EM) Afin de réduire le risque de tomber dans un maximum local de vraisemblance, Celeux et Diebolt [CD85] proposent d’intercaler une étape stochastique de classification entre les étapes E et M. 3.3 EM et mélange gaussien Nous commençons par expliciter le calcul de la quantité Q Θ|Θ(`) (valable pour n’importe quel type de loi), puis nous donnons les formules de ré-estimation des paramètres dans le cas d’un mélange gaussien. 24 3.3.1 Quantité intermédiaire Pour le modèle de mélange, nous avons déjà rencontré la densité conjointe des données observées et des données latentes. On en déduit que la log-vraisemblance des données complètes s’écrit N X K X ln p y, x |Θ = I(Xn =k) . ln π(k) fk y n n=1 k=1 Dans cette équation le logarithme est passé à l’intérieur de la sommation sur l’indice k uniquement car cette somme se réduit à un seul terme du fait de la présence des fonctions indicatrices. La quantité intermédiaire de l’algorithme EM s’écrit donc N X K X i h Q Θ|Θ(`) = E I(Xn =k) y, Θ(`) ln π(k) fk y n (3.8) n=1 k=1 avec fk y n = fk y n |µk , Σk . Le dernier terme de cette équation s’écrit h i E I(Xn =k) y, Θ(`) = K X I(Xn =j) p Xn = j y, Θ(`) j=1 = p Xn = k y, Θ(`) = γn(`) (k). (`) À l’itération `, le calcul de la quantité intermédiaire de l’algorithme EM se réduit donc au calcul de γn (k) pour 1 ≤ n ≤ N et 1 ≤ k ≤ K. Ces quantités peuvent être calculées simplement par application de la formule de Bayes p Xn = k Θ(`) p y n Xn = k, Θ(`) p Xn = k Θ(`) p y n Xn = k, Θ(`) γn(`) (k) = = K , X p y n Θ(`) (`) p Xn = j Θ p y n Xn = j, Θ(`) j=1 que l’on peut écrire, étant entendu que les quantités du membre de droite sont calculées à partir des paramètres estimés à l’itération (`), (`) π (`) (k) fk y n γn(`) (k) = K . (3.9) X (`) (`) π (j) fj yn j=1 En insérant ces valeurs dans (3.8), nous pouvons écrire N X K X Q Θ|Θ(`) = γn(`) (k) ln π(k) fk y n . (3.10) n=1 k=1 3.3.2 Formules de ré-estimation des paramètres C’est la maximisation de l’eq. (3.8) par rapport aux paramètres π(k), µk et Σk qui fournit les nouvelles valeurs estimées pour l’itération ` + 1. Le problème est que cette quantité dépend de paramètres vectoriels (µk ), voire matriciels (Σk ). Pour simplifier, nous proposons dans la suite les démonstrations concernant le cas de mélanges scalaires. 25 ý Moyenne : En dérivant (3.10) par rapport à µk , nous écrivons h i (`) N ∂ γn ∂Q Θ|Θ(`) (k) ln (fk (yn )) X = ∂µk ∂µk n=1 h i (`) N ∂ γn (k) ln (fk (yn )) ∂ [ln (f (y ))] X k n = ∂ [ln (f (y ))] ∂µ k n k n=1 N X = yn − µk , σk2 γn(`) (k) n=1 ce qui donne, en annulant la dérivée N X (`+1) µk = γn(`) (k) yn n=1 N X . (3.11) γn(`) (k) n=1 ý Variance : En dérivant (3.10) par rapport à σk2 , nous écrivons i h (`) N ∂ γn (k) ln (fk (yn )) ∂Q Θ|Θ(`) X = ∂σk2 ∂σk2 n=1 i h (`) N ∂ γn (k) ln (fk (yn )) ∂ [ln (f (y ))] X k n = 2 ∂ [ln (f (y ))] ∂σ k n k n=1 N 2 X (yn − µk ) 1 = γn(`) (k) − 2 , 4 2σk 2σk n=1 ce qui donne, en annulant la dérivée N X (`+1) 2 (σk ) = γn(`) (k) (`+1) yn − µk 2 n=1 N X . (3.12) γn(`) (k) n=1 ý Le cas des poids des composantes de mélange π(k) est plus délicat car il faut prendre en compte PK la contrainte : π(j) = 1 par le biais de la technique des multiplicateurs de Lagrange. On note j=1 PK (`) P Θ|Θ = Q Θ|Θ(`) + 1 − j=1 π(j) λk ∂P Θ|Θ(`) h i (`) N ∂ γn (k) ln (π(k)) X = ∂π(k) ∂π(k) n=1 N X = γn(`) (k) n=1 d’où, en annulant la dérivée π (`+1) (k) = 1 λk λk = PN N X K X 1 − λk , π(k) (`) n=1 − λk γn (k). Or étant donné γn(`) (j) = n=1 j=1 N X n=1 26 1 = N, PK j=1 π(j) = 1, nous avons (a) (b) Figure 3.6 – Deux images de classes utilisées pour l’initialisation des paramètres. (a) obtenue à partir d’un initialisation au hasard ; (b) obtenue par une initialisation avec l’algorithme des k-moyennes. d’où le résultat final π (`+1) (k) = N 1 X (`) γ (k). N n=1 n (3.13) On peut retenir cet algorithme en se souvenant que la probabilité a priori est re-estimée par la moyenne des probabilités a posteriori, les moyennes sont re-estimées par les moyennes des observations « pondérées par les probabilités a posteriori », et les variances sont re-estimées par les variances empiriques en considérant des observations « pondérées par les probabilités a posteriori ». 3.4 Simulations et exemples en segmentation d’images La segmentation supervisée de l’image 3.3(b) par décision bayésienne produit un taux d’erreur de 9.76%. Voyons maintenant les taux d’erreur obtenus lorsque l’on estime les paramètres avec EM, à partir d’un initialisation de ces paramètres selon les deux cas de figures suivants : CAS 1 : initialisation au hasard. Nous avons généré une image de deux classes en procédant par tirage aléatoire uniforme et équiprobable. L’image ainsi obtenue, observable sur la figure 3.6(a), produit un taux d’erreur de 49.26% par rapport à l’image originale. En utilisant cette image de classes et l’image bruitée, et des estimateurs à partir des données complètes pour estimer Θ(0) , nous avons obtenu, après ` = 300 itérations de EM, les estimées suivantes : {π̂(1) = 0.68; π̂(2) = 0.32}, µ̂1 = 99.75; σ̂12 = 34.706 et µ̂2 = 109.97; σ̂22 = 9.09 (à comparer avec les vrais paramètres). Le résultat de segmentation, obtenu par décision bayésienne sur la base de ces estimées, est observable sur la figure 3.7(a). CAS 2 : initialisation par l’algorithmes des k-moyennes. Ici, nous avons segmenté l’image avec l’algorithme des k-moyennes. L’image ainsi obtenue, observable sur la figure 3.6(b), produit un taux d’erreur de 12.87% par rapport à l’image originale. En utilisant cette image de classes et l’image bruitée, et des estimateurs à partir des données complètes pour estimer Θ(0) , nous avons obtenu, après ` = 300 itérations de EM, les estimées suivantes : {π̂(1) = 0.32; π̂(2) = 0.68}, µ̂1 = 99.76; σ̂12 = 34.71 et µ̂2 = 109.97; σ̂22 = 9.09 (à comparer avec les vrais paramètres). Le résultat de segmentation, obtenu par décision bayésienne sur la base de ces estimées, est observable sur la figure 3.7(b). Ces deux résultats montrent la grande robustesse de EM qui, à partir de deux points de départ Θ(0) très différents, conduit a deux estimées Θ(100) très proches des vrais paramètres. Ce bon résultat est obtenu car la fonction de vraisemblance de cet exemple est très lisse et présente peu de maxima locaux. Il est quand même important de souligner le nombre d’itérations nécessaires dans le premier cas (cf. courbes présentées dans la remarque ci-dessous). 27 (a) τ = 9.51% (b) τ = 9.46% Figure 3.7 – Segmentation par décision bayésienne suite à une estimation EM. (a) cas 1 ; (b) cas 2. Remarque 3 : À titre d’illustration, la figure 3.8 dresse l’évolution des paramètres du mélange de la figure 3.3(b) et de la quantité intermédiaire Q(.) de l’eq. 3.10 au cours de l’algorithme EM, à partir d’une initialisation au hasard (cas 1). La convergence est lente mais illustre bien la capacité de EM à retrouver les paramètres cachés, même très éloignés ! Remarque 4 : Pour illustrer le concept dans le cas d’un mélange 2D, nous avons segmenté une image de galaxie constituée de 2 bandes spectrales, cf. figure 3.9. Les résultats de segmentation pour 2, 3 et 4 classes sont présentés dans la figure 3.10. 3.5 Synoptique de l’algorithme complet de mélange aveugle L’algorithme de la figure 3.11 reprend l’ensemble des étapes nécessaires pour réaliser la segmentation non supervisée d’un signal numérique à l’aide du modèle de mélange aveugle développé dans ce chapitre. Questions 1. Exercice 2 de l’examen de février 2011. 28 (a) Proportions π(k) (b) Moyennes µk (c) Variances σk2 (d) Q Figure 3.8 – Tracés de l’évolution de l’estimation des paramètres du mélange de la figure 3.3(b) par EM. Les traits horizontaux représentent les vrais valeurs vers lesquelles les courbes devraient converger. (a) Bande J (b) Bande R Figure 3.9 – Les deux bandes d’une image bi-spectrale de galaxie. 29 (a) 2 classes (b) 3 classes (c) 4 classes Figure 3.10 – Segmentation de l’image 3.9 en 2, 3 et 4 classes. Require: y et K 1. Initialisation : Donner une valeur initiale aux paramètres. Segmenter y −→ x(0) . Estimer les paramètres sur les données complètes y, x(0) −→ Θ(0) . 2. Estimation EM : Trouver Θ(L) à partir de Θ(0) . for ` = 1 to L do {À partir des paramètres Θ(`) } (`) Calculer les probabilités a posteriori : γn (.). (`+1) (`+1) Estimer des paramètres du bruit : µk et Σk . Estimer des probabilités a priori : π (`+1) (.) . end for 3. Segmentation : Appliquer la décision bayésienne. Figure 3.11 – Segmentation non supervisée par mélange aveugle gaussien. 30 Chapitre 4 Chaînes de Markov cachées Comme nous avons pu le voir précédemment, les résultats des deux chapitres précédents (Décision bayésienne et EM sur données indépendantes) peuvent s’appliquer directement à la segmentation d’images en procédant « pixel par pixel ». Soit S = [1, N ] l’ensemble des pixels, qui se présente généralement sous forme d’une grille rectangulaire. Pour chaque observation y n (un nombre pour une image numérique) sur le pixel n ∈ S, on applique la règle de l’eq. (2.5), page 12 qui donne ŝB (y n ) = xn . Nous avons vu que cette utilisation de la stratégie Bayésienne assure une optimalité de la classification. Cependant, la classification est faite « point par point » (on ne tient pas compte des « voisins ») et l’optimalité concerne uniquement ce type de démarche. Intuitivement, lorsque l’on classe un pixel n, regarder des pixels voisins de n devrait apporter de l’information supplémentaire. Notons bien que nous ne connaissons pas les classes des pixels voisins, mais uniquement les observations faites sur ces pixels. Tenir compte des valeurs des autres pixels revient à supposer que les différentes variables aléatoires associées aux pixels ne sont pas nécessairement indépendantes. L’objectif des modélisations markoviennes est d’introduire des modèles permettant de tenir compte de cette dépendance. La modélisation par champs de Markov est bien adaptée à la structure 2D des images (on parle de « dépendance spatiale ») ; nous aborderons cette modélisation dans le chapitre suivant. La modélisation par chaîne de Markov, présentée dans ce chapitre, est bien adaptée aux signaux numériques 1D et correspond bien souvent à une « dépendance temporelle » (série chronologique d’observations). Les références sur ce modèle à consulter sont en priorité [MZ97, Rab89]. Remarque 1 : Il est possible d’utiliser une modélisation par chaîne de Markov pour segmenter les images. La démarche consiste à « déplier l’image » en un vecteur 1D. Ce dépliement peut être réalisé ligne par ligne, colonne par colonne, ou bien en zig-zag à partir d’un coin (technique utilisée dans les méthodes de codage par DCT). Il est aussi possible d’utiliser les « Space Filling Curves » [Sag94]. Une « courbe qui remplit l’espace » est une courbe qui parcourt un espace multi-dimensionnel (inclus dans Z2 dans notre cas) en passant une et une seule fois par tous les pixels de cet espace. Parmi celles-ci, la courbe de Hilbert se construit de manière récursive, ce qui lui confère une structure auto-similaire, cf. figure 4.1. Elle possède une propriété importante : le passage d’un point de la courbe à son voisin (sur la courbe) ne s’accompagne jamais d’un déplacement supérieur à un pixel dans l’image. Ainsi la courbe reste longtemps dans une zone restreinte de l’image. Ces parcours sont inversibles, ce qui permet, une fois les traitements effectués sur le signal 1D, de reconstruire l’image 2D. Ainsi, quand nous parlerons d’image, il faudra comprendre l’agencement spatial des pixels issu du dépliement de l’image en une chaîne grâce au parcours de Hilbert. Précisons enfin que ce parcours a été étendu par W. Skarbeck [Ska92] pour prendre en compte des images dont les nombres de lignes L et de colonnes C sont paires et non plus uniquement des puissances de deux comme dans la courbe initiale. On considère donc deux processus stochastiques : 31 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 y y1 yn−1 yn yn+1 yN Figure 4.1 – Construction du parcours de Hilbert pour une image 8 × 8. À chaque pixel de coordonnées (l, c) est associée une abscisse n indiquant le numéro d’ordre dans le parcours de la courbe, depuis la position initiale (1, 1) → n = 1 jusqu’à la position finale (1, 8) → n = 64. ? le processus observé Y = {Y 1 , . . . , Y N } 1 où chaque variable vecteur aléatoire Y n est à valeur dans RD , et ? le processus caché X = {X1 , . . . , XN } où chaque variable aléatoire est à valeur dans Ω = [1, K]. Les réalisations de X sont inobservables (justifiant l’appellation « caché ») et le problème de la segmentation est celui de l’estimation de X = x à partir de l’observation Y = y (i.e. le signal numérique à classer). On parle aussi de la restauration de X. Ce chapitre suit la démarche générale présentée dans l’introduction. Nous abordons d’abord la définition de la loi du couple de processus (X, Y ) à partir de la loi a priori p (X) et la famille P Y |x des lois de Y conditionnelles à X = x. Ceci nous permet d’établir que, conditionnellement à Y , X est une chaîne de Markov non homogène. Puis, nous explicitons deux méthodes de décision bayésienne, i.e. le « MPM » et le « MAP », pour lesquels nous donnons des procédures exactes de calcul (c’est à dire sans avoir recours à des simulations). Nous abordons enfin le problème de l’estimation des paramètres du modèles par EM [DLR77, MK96, Bil97], en établissant les équations équivalentes au modèle de mélange indépendant présenté dans le chapitre précédent. La dernière section est consacrée aux exercices et aux simulations numériques. 4.1 Le modèle de chaîne de Markov cachée Le processus aléatoire X est une variable aléatoire discrète prenant ses valeurs dans ΩN . Le cardinal de ce dernier ensemble est trop important pour qu’on puisse calculer la probabilité de chaque élément (nombre de réalisations possibles est K N ) ; il est ainsi impossible de traiter le problème de la classification bayésienne directement. Exemple pour une image : N = 256 × 256 et K = 4. Un des moyens pour contourner cette difficulté est de supposer l’indépendance des variables Xn (chapitre précédent), mais sa justification intuitive reste difficile dans de nombreuses applications. Le modèle des chaînes de Markov permet de contourner cette difficulté. Ainsi, le modèle de chaîne de Markov cachée est plus riche que le modèle de mélange dans le sens où il permet de rendre compte des interactions temporelles en substituant à l’hypothèse de V.A. i.i.d. celle d’une évolution markovienne. 1. La notation Y 1:n désignera la séquence de V.A. Y 1, . . . , Y n . 32 4.1.1 Loi de X a priori Une série de variables aléatoires X = {X1 , . . . , XN } prenant leurs valeurs dans l’ensemble des états (ou classes) Ω = [1, K] est une chaîne de Markov si elle vérifie pour tout n ≥ 1 : p xn x1:n−1 = p (xn |xn−1 ) . (4.1) La loi du processus X est alors déterminée par la loi de X1 , dite « loi initiale », π(k) = p (X1 = k) 2 et la suite de matrices de transitions a(n) (k, l) = p (xn+1 = l |xn = k ). Nous supposerons dans la suite que la chaîne de Markov est homogène (indépendante de l’indice temporel) et qu’en particulier c(n) (k, l) = p (xn = k, xn+1 = l) ne dépendent pas de n (on note alors c(k, l)). La loi initiale π(k) = p (X1 = k) est alors donnée par π(k) = K X c(k, l). l=1 La matrice de transitions A, dont les éléments s’écrivent a(k, l) = p (X2 = l |X1 = k ), est alors également indépendante de n et donnée par c(k, l) a(k, l) = . π(k) La loi de probabilité du vecteur aléatoire X s’écrit donc p (x) = p (x1 ) p (x2:N |x1 ) = p (x1 ) p (x2 |x1 ) p (x3:N |x1 , x2 ) = p (x1 ) p (x2 |x1 ) p (x3:N |x2 ) = ... = p (x1 ) p (x2 |x1 ) . . . p (xn |xn−1 ) . que nous pouvons finalement écrire p (x) = π(x1 ) N Y a (xn−1 , xn ). (4.2) n=2 Simulations 1 : Les courbes (a) et (b) de la figure 4.2 montrent deux simulations de chaînes de Markov à K = 3 classes, avec les mêmes probabilités initiales données par π(1) = 0.1, π(2) = 0.55, π(3) = 0.35, et les matrices de transitions respectives suivantes : 0.7 A1 = 0.3 0.2 0.1 0.6 0.3 0.2 0.1 , 0.5 0.2 A2 = 0.4 0.3 0.4 0.3 0.5 0.4 0.3 0.2 La simulation de x se fait par tirage successif : xn est le résultat du tirage selon les probabilités {a(xn−1 , k)}k∈Ω a . a. Pour x1 , on tire selon les probabilités a priori. 2. Les probabilités initiales ont le même rôle que les probabilités a priori du chapitre précédent. 33 (a) CM - A1 (b) CM - A2 Figure 4.2 – Les courbes montrent deux simulations de chaînes de Markov à K = 3 classes, avec les probabilités initiales et les matrices de transition données dans le texte. 4.1.2 Loi de (X, Y ) Il nous faut maintenant définir les lois de Y conditionnelles à X. Pour cela, nous allons émettre deux hypothèses H1 Conditionnellement aux états {Xn }, les observations {Yn } sont mutuellement indépendantes : N Y p y n |x . p y |x = (4.3) n=1 H2 Chaque observation Yn ne dépend que de l’état Xn au même instant : p y n |x = p y n |xn . (4.4) Ainsi la loi du couple (X, Y ) est définie par : p x, y = p (x) N Y p y n |xn , n=1 = p (x1 ) p y 1 |x1 N Y p (xn |xn−1 ) p y n |xn , n=2 soit finalement N Y p x, y = π(x1 ) fx1 y 1 a(xn−1 , xn ) fxn y n . (4.5) n=2 Les densités conditionnelles fxn y n = p y n |xn sont également appelées lois d’attache aux données ou lois d’émission selon que le modèle est utilisé en traitement du signal ou en traitement des images. Elles représentent notre connaissance sur la dispersion des niveaux de gris associée à chaque classe (bruit, variation naturelle des valeurs. . . ). Ces K densités sont généralement considérées gaussiennes mais d’autres formes de distributions (paramétrique ou non) restent possibles. De manière locale, les hypothèses permettent d’écrire directement à partir de (4.3) p y n , y n+1 |xn , xn+1 = fxn y n fxn+1 y n+1 , (4.6) 34 Figure 4.3 – Représentation de la structure de dépendance d’une CMC à bruit indépendant. et donc p xn , xn+1 , y n , y n+1 = c(xn , xn+1 ) fxn y n fxn+1 y n+1 . On note également que p xn+1 , y n+1 xn , y n = = p y n , y n+1 , xn+1 |xn p yn , y n+1 |xn , xn+1 = p (xn+1 |xn ) p y n |xn p y n |xn p y n+1 |xn+1 p (xn+1 |xn ) , en utilisant l’eq. (4.6), soit p xn+1 , y n+1 xn , y n = a(xn , xn+1 ) fxn+1 y n+1 . (4.7) Ce dernier résultat aboutit au schéma de la figure 4.3 qui représente la structure de dépendance entre les processus X et Y selon les deux hypothèses énoncées ci-dessus. De la même manière, on montre que p xn+1 , y n+1 x1:n , y 1:n = p xn+1 , y n+1 xn , y n , c’est à dire que le processus joint Z = (X, Y ) (zn = (xn , yn )) est markovien homogène, tout comme X, à la différence que son espace d’états n’est pas fini (il est mixte entre Ω et R). Ainsi, il est aisé de montrer que le processus Y |X est une chaîne de Markov homogène. Par contre, le processus observé Y seul n’est pas markovien puisque p y n y 1:n−1 = K X p y n , Xn = k y 1:n−1 k=1 = K X y 1:n−1 p y n Xn = k, p Xn = k y 1:n−1 k=1 = K X fk y n p Xn = k y 1:n−1 . k=1 Par analogie avec le filtre le Kalman, le terme p Xn = k y 1:n−1 apparait comme une prédiction de l’état suivant connaissant les observations passées. Ainsi la loi de Y n conditionnellement à son passé est un modèle de mélange dont les poids p Xn = k y 1:n−1 dépendent du passé complet du signal (et pas seulement de Y n−1 ). Nous verrons ce qu’il est de la markovianité de la loi de X a posteriori (X |Y ) dans la section 4.1.4, page 38. 35 (a) Bruitage de 4.2(a) (b) Bruitage de 4.2(b) (c) Histogramme (a) (d) Histogramme (b) Figure 4.4 – (a) et (b) Bruitage des deux chaînes de la fig. 4.2 avec les mêmes densités gaussiennes que pour les simulations de la fig. 3.1, page 18. Les figures (c) et (d) montrent les histogrammes dans les deux cas mais avec des simulations de 5000 échantillons. Simulations 2 : Les courbes (a) et (b) de la fig. 4.4 montrent le résultat du bruitage des deux chaînes de Markov de la fig. 4.2. Une fois la chaîne de Markov x simulées, la valeur bruitée yn de chaque état xn est obtenue en effectuant un tirage selon la loi de densité fxn (.). On parle de bruit indépendant. Les courbes (c) et (d) montrent les histogrammes pour ces deux cas mais avec des simulations de 5000 échantillons. Il est intéressant de remarquer que les deux mélanges sont sensiblement différents entre eux, et également différent du mélange avec les mêmes paramètres mais sous hypothèse d’indépendance (cf. fig. 3.1(d), page 18). Ceci montre l’influence de la markovianité sur le mélange. 4.1.3 Probabilités « forward-backward » Nous définissons dans ce paragraphe les probabilités « forward-backward » ou « avant-arrière » qui jouent un rôle crucial, aussi bien au niveau de la décision (section 4.2) que de l’estimation des paramètres par EM (section 4.3). Nous définissons directement la version conditionnelle des probabilités « avant-arrière », proposée par P. A. Devijver [Dev85] pour pallier aux problème numériques d’« underflow » des probabilités « avant-arrière » originales proposées par Baum et al. [BPSW70]. 36 ý Notons αn (.) les probabilités « avant » 1 αn (k) = p Xn = k y 1:n = p Xn = k, y n y 1:n−1 , Sn avec Sn = p y n y 1:n−1 , n > 1 le facteur de normalisation. Elles se calculent par récursion ? n=1: p X1 = k, y 1 π(k) fk y 1 . = K ∀k ∈ Ω, α1 (k) = p X1 = k y 1 = X p y1 π(l) fl y 1 l=1 ? 1≤n<N −1 : ∀k ∈ Ω, αn+1 (k) = = = = = 1 p Xn+1 = k, y n+1 y 1:n Sn+1 1 p y n+1 Xn+1 = k, y 1:n p Xn+1 = k y 1:n Sn+1 1 Sn+1 p y n+1 |Xn+1 = k K X p Xn = l, Xn+1 = k y 1:n l=1 1 fk y n+1 Sn+1 1 fk y n+1 Sn+1 K X l=1 K X p Xn+1 = k Xn = l, y 1:n p Xn = l y 1:n a (l, k) αn (l). l=1 On voit apparaître, en seconde ligne, le terme de prédiction, qui s’écrit donc p Xn+1 = k y 1:n = PK l=1 a (l, k) αn (l). ý Notons βn (.) les probabilités « arrière » |X = k p y n+1:N |Xn = k p y n 1 n+1:N = . βn (k) = S n+1 p y n+1:N y 1:n p y n+2:N y 1:n+1 Elles se calculent par récursion ? n=N : ∀k ∈ Ω, βN (k) = 1. ? 1≤n<N : ∀k ∈ Ω, βn (k) = = = = K X 1 1 Sn+1 p y n+2:N y 1:n+1 l=1 1 1 K X Sn+1 p y n+2:N y 1:n+1 l=1 1 Sn+1 1 Sn+1 p y n+1:N , Xn+1 = l |Xn = k K X a(k, l) p y n+1 | Xn= k, Xn+1 a(k, l) fl y n+1 βn+1 (l). l=1 37 p (Xn+1 = l |Xn = k ) p y n+1 , y n+2:N |Xn = k, Xn+1 = l l=1 K X p y n+2:N | Xn= k, Xn+1 = l =l p y n+2:N y 1:n+1 4.1.4 Loi de X a posteriori Intéressons-nous maintenant à la loi de X a posteriori et calculons ãn (k, l) = p Xn+1 p Xn+1 = l, Xn = k y = l Xn = k, y = PK . j=1 p Xn+1 = j, Xn = k y Or X p Xn+1 = l, Xn = k y = p x y = xn+2 ,...,xN ∈Ω 1 p y X (4.8) p x, y . xn+2 ,...,xN ∈Ω Soit, en utilisant l’expression de la loi du couple (4.5), X a(k, l)fl y n+1 a(l, xn+2 )fxn+2 y n+2 . . . a(xN −1 , xN )fxN y N ãn (k, l) = xn+2 ,...,xN ∈Ω a(k, xn+1 )fxn+1 y n+1 . . . a(xN −1 , xN )fxN y N X . xn+1 ,...,xN ∈Ω Enfin, à partir de la définition récursive des probabilités arrières de l’eq. (4.8), le produit des termes Sn+2 . . . SN au numérateur et au dénominateur s’annulant, nous obtenons a(k, l) fl y n+1 βn+1 (l) , ãn (k, l) = K X a(k, m) fm y n+1 βn+1 (m) m=1 soit finalement ãn (k, l) = a(k, l) fl y n+1 βn+1 (l) Sn+1 βn (k) . (4.9) Ainsi, la loi de X a posteriori est celle d’une chaîne de Markov non homogène dont la matrice de transition est définie par les probabilités de l’eq. (4.9). La loi initiale par donnée par, cf. (4.13) (4.10) p X1 = k y = γ1 (k) = α1 (k) β1 (k). Remarque 2 : L’intérêt de préciser la loi de X a posteriori se justifie lorsqu’on utilise les méthodes d’estimation SEM [CD85] et ICE [Pie94], qui peuvent être utilisées à la place de l’algorithme EM. Celles-ci font en effet appel à des réalisations de X a posteriori, simulables grâce aux équations (4.10) et (4.9). 4.2 Décision bayésienne L’estimation de X à partir de Y est réalisée en appliquant une règle de décision bayésienne. Comme présenté dans le premier chapitre, cette règle est construite à partir d’une fonction L qui mesure la perte entre x et son estimé ŝ(y) = x̂. Comme on le sait, l’estimateur bayésien de X correspondant à la perte L est celui qui minimise le coût moyen : ŝ(y) = x̂ = arg min E L (X = x, x̂)| y x̂∈ΩN = arg min x̂∈ΩN X L (X = x, x̂) p X = x y . x∈ΩN En traitement du signal et des images, deux fonctions de pertes sont le plus souvent utilisées, aboutissant aux estimateurs bien connus suivants : le MPM et le MAP. Comme nous allons maintenant le voir, les chaînes de Markov permettent le calcul explicite des solutions bayésiennes de classification, contrairement au modèle des champs de Markov qui fait appel à des méthodes d’approximation de type Monte-Carlo (MPM) ou recuit simulé (MAP). 38 4.2.1 Critère du MPM La fonction de coût de l’estimateur du Maximum a Posteriori des Marges (MPM) est proportionnelle au nombre de pixels mal classés N X L1 (x, x̂) = 1xn 6=x̂n , n=1 Or E L (X = x, x̂)| y = X L (X = x, x̂) p X = x y x∈ΩN = N X X L (xn , x̂n ) p x y x∈ΩN n=1 = N X X L (xn , x̂n ) p x y n=1 x∈ΩN = N X X X L (xn , x̂n ) p xn , xn y n=1 xn ∈Ω xn ∈ΩN −1 = N X X L (xn , x̂n ) p xn y , n=1 xn ∈Ω soit finalement N X E L (xn , x̂n )| y . E L (X = x, x̂)| y = (4.11) n=1 L’espérance globale se décompose en l’espérance en chaque site et donc la décision peut se prendre en chaque site. L’estimateur correspondant a donc pour expression X PM x̂M = arg min L (xn , x̂n ) p Xn = xn y n x̂n ∈Ω xn ∈Ω X p Xn = xn y = arg min = arg min 1 − p Xn = x̂n y x̂n ∈Ω xn 6=x̂n x̂n ∈Ω Soit finalement ∀n ∈ [1 · · · N ], PM x̂M = arg max p Xn = x̂n y . n x̂n ∈Ω (4.12) Il est maintenant facile d’exprimer γn (k) = p Xn = k y , appelées « probabilités marginales a posteriori » 3 en fonction des probabilités avant et arrière selon : p Xn = k, y n+1:N y 1:n γn (k) = p y n+1:N y 1:n βn (k) = p y n+1:N Xn = k, y 1:n p Xn = k y 1:n p y n+1:N |Xn = k y 1:n p y n+1:N Xn = k, . = αn (k) βn (k) p y n+1:N |Xn = k 3. Ce sont bien les mêmes que celles présentées dans le chapitre précédent. 39 Soit finalement γn (k) = αn (k) βn (k) . (4.13) Nous en profitons pour définir l’expression des probabilités conjointes a posteriori ξn (k, i) p Xn = k, Xn+1 = i y = ãn (k, i) γn (k), qui nous serviront par la suite et qui s’écrivent : ξn (k, i) = 4.2.2 αn (k) βn+1 (i) a(k, i) fi y n+1 Sn+1 . = (4.14) Critère du MAP La stratégie Maximum A Posteriori (MAP) consiste à pénaliser de la même façon toutes les configurations estimées qui sont différentes de x. La fonction de coût correspondante est donnée par L2 (x, x̂) = 1{x6=x̂} , et l’estimateur correspondant a pour expression x̂M AP = = = arg min x̂∈ΩN arg min x̂∈ΩN X L (x, x̂) p X = x y x∈ΩN X p X = x y x6=x̂ arg min 1 − p X = x̂ y . x̂∈ΩN Soit finalement x̂M AP = arg max p X = x̂ y = arg max p y, X = x̂ = arg max p y |X = x̂ p (X = x̂) . x̂∈ΩN x̂∈ΩN x̂∈ΩN (4.15) Le MAP a pour principal inconvénient de pénaliser aveuglément les erreurs, indépendamment du nombre de sites erronés. La question que l’on se pose est la suivante : « Étant donné Θ, comment calculer de manière n efficace la o séquence d’états x = {x1 , . . . , xN }, pour laquelle la probabilité d’une séquence observée y = y 1 , . . . , y N est maximale ? » L’algorithme de Viterbi [For73, Rab89] (méthode de « programmation dynamique ») donne la solution de ce problème d’estimation. La présentation de l’algorithme que nous donnons s’inspire largement de celle présentée dans [TK06], pages 309-311. La figure 4.5 montre un diagramme où chaque point d’une colonne représente l’une des K classes. Les colonnes successives correspondent aux observations successives. Les flèches désignent les transitions d’une classe vers une autre, comme les observations sont obtenues séquentiellement. Ainsi, chaque xn correspond à un chemin spécifique de transitions successives. Chaque transition d’une classe i vers une classe j est caractérisée par la probabilité p (j |i ). La tâche qui consiste à maximiser l’eq. (4.15) peut s’écrire de la manière suivante. Pour chercher le chemin optimal, nous devons associer un coût à chacune des transitions, cf. eq. (4.7), page 35 : d (xn−1 = i, xn = j) = p xn = j, y n xn−1 = i, y n−1 = a(i, j) fj y n . Nous noterons, de manière abusive, d (x0 , x1 = j) = π(j) fj y 1 le coût initial. 40 Figure 4.5 – Diagramme en trellis pour l’algorithme de Viterbi. On cherche à calculer le coût sur un chemin du diagramme noté c. En désignant xc(n) la classe du ne élément du chemin c, le coût total d’un chemin c s’écrit : P = N Y d xc(n−1) , xc(n) , n=1 en utilisant l’eq. (4.5). Nous chercherons plutôt a optimiser la quantité équivalente suivante : D = ln P = N X N X ln d xc(n−1) , xc(n) ≡ d xc(n−1) , xc(n) . n=1 n=1 Le coût d’atteindre l’état xc(n) à l’échantillon n <= N , s’écrit n X D xc(n) = d xc(m−1) , xc(m) . m=1 Le coût maximum d’atteindre l’état k au ne élément du chemin se décompose récursivement de la manière suivante : δn (k) = max δn−1 (j) + d xc(n−1) = j, xc(n) = k , (4.16) j∈Ω avec ∀k ∈ Ω, δ0 (k) = 0. Il est maintenant immédiat de voir que le chemin optimal se termine par la classe : x?N = arg max δn (k). k∈Ω (4.17) En revenant à la figure 4.5, on s’aperçoit qu’il y a K transitions possibles pour chaque nœud xn . La relation récursive de l’eq. (4.16) suggère que, dans la recherche d’un maximum, nous n’avons besoin de conserver 41 1. Récurrence Pour n = 1 δ (k) = π(k) f y 1 k 1 ψ1 (k) = 0; Pour 2 ≤ n ≤ N δn (k) = max δn−1 (j) + d xc(n−1) = j, xc(n)=k j∈Ω ψn (k) = arg max δn−1 (j) + d xc(n−1) = j, xc(n)=k j∈Ω 2. Décodage Pour n = N x?N = arg max δN (k) k∈Ω Pour 1 ≤ n < N x?n = ψn+1 x?n+1 Figure 4.6 – L’algorithme de Viterbi. qu’une seule de ces transitions pour chaque nœud : celle qui donne le coût maximal δn (k). Ainsi, à chaque étape il y a uniquement K chemins possibles. Ainsi le nombre d’opérations est K pour chaque nœud, K 2 pour tous les nœuds, et donc N K 2 au total. Ce dernier nombre est à comparer avec la méthode brutale qui comporte N K N étapes. L’algorithme est repris entièrement dans la figure 4.6. Remarque 3 : L’estimateur MPM minimise, en moyenne, le nombre d’observations mal classées, ce qui correspond au taux d’erreur de classification, contrairement au MAP qui pénalise de la même façon une erreur sur un pixel et une erreur sur plusieurs pixels. 4.3 L’algorithme EM Comme dans le cas indépendant, nous commençons par expliciter la quantité Q Θ|Θ(`) , puis nous donnons les formules de re-estimation (appelées « formules de ré-estimation de Baum-Welch ») de tous les paramètres du modèle des chaînes de Markov cachées. 4.3.1 Quantité intermédiaire En procédant comme au paragraphe 3.3.1, on écrit le logarithme de la vraisemblance complétée selon : " ln p y, x |Θ = ln π(x1 )fx1 y 1 N Y a(xn−1 , xn )fxn y n # n=2 = ln [π(x1 )] + N X N h i X ln fxn y n + ln [a(xn−1 , xn )]. n=1 n=2 42 Ainsi la quantité intermédiaire s’écrit h i = E ln p y, x |Θ y, Θ(`) , Q Θ|Θ(`) K X h i ln [π(k)] E I(X1 =k) y, Θ(`) k=1 = + K X N X i h i h ln fk y n E I(Xn =k) y, Θ(`) k=1 n=1 + K X K X N X i h ln [a(k, i)] E I(Xn−1 =k,Xn =i) y, Θ(`) k=1 i=1 n=2 soit K X (`) Q Θ|Θ(`) = γ1 (k) ln [π(k)] + K X N X h i γn(`) (k) ln fk y n k=1 n=1 k=1 + K X K X N X ξn(`) (k, i) ln [a(k, i)], (4.18) k=1 i=1 n=2 (`) (`) en notant respectivement γn (.) et ξn (., .) les quantités des équations (4.13) et (4.14), lorsqu’elles sont calculées à partir des probabilités αn (.), βn (.), a(., .) et f. (.) obtenues à l’itération `. 4.3.2 Ré-estimation des paramètres La forme de la quantité intermédiaire de l’algorithme EM est donc très proche de celle obtenue pour le modèle de mélange en (3.10). La partie maximisation par rapport aux différents paramètres du modèles fait intervenir trois quantités différentes. ý Pour les paramètres des densités gaussiennes Υ, c’est le premier terme de (4.18) qui intervient. Dans la mesure où celui-ci est exactement l’analogue de celui obtenu pour le mélange en (3.10), les équations de ré-estimation des vecteurs moyens et des matrices de covariances sont donc exactement identiques aux équations (3.11) et (3.12) : N X µ(`+1) = k γn(`) (k) y n n=1 N X , (4.19) γn(`) (k) n=1 et N X (`+1) Σk = γn(`) (k) y n − µ(`+1) k y n − µ(`+1) k n=1 N X 0 . (4.20) γn(`) (k) n=1 ý Intéressons aux paramètres de la loi de X (Ψ). Pour la distribution initiale π, c’est le troisième terme PK de (4.18) qu’il est nécessaire de considérer. Compte tenu de la contrainte j=1 π(j) = 1, la résolution se fait comme dans le cas du modèle de mélange, et on obtient une formule analogue à (3.13) : π (`+1) (k) = N 1 X (`) γ (k). N n=1 n 43 (4.21) Enfin, pour la matrice de transition, chaque ligne vérifie une contrainte de normalisation qui conduit à introduire autant de multiplicateurs de Lagrange. En procédant comme dans le cas des mélanges (pour les poids du mélange), on trouve N −1 X a(`+1) (k, i) = ξn(`) (k, i) n=1 N −1 X . (4.22) γn(`) (k) n=1 Comme dans le cas d’un mélange aveugle, l’algorithme EM permet d’obtenir des formules explicites de ré-estimation des paramètres, ce qui en fait l’un de ses principaux intérêts. En contre-partie, l’algorithme converge vers un maximum local de la vraisemblance, ne garantissant pas l’optimalité des paramètres trouvés. D’autres méthodes d’estimation existent, telles que SEM [CD85] (Stochastic EM ) et ICE [Pie94] (Iterated Conditional Estimation). Ces méthodes estiment certains des paramètres en utilisant des estimateurs à partir des données complètes, en simulant X conditionnellement Y . 4.4 Simulations et exemples en segmentation d’images Nous reprenons exactement les mêmes données que celles de la section 3.4, page 27, et nous présentons des expériences numériques similaires. Ainsi, dans cette expérience, les observations sont des scalaires et les lois d’attache aux données 1D. À partir de l’image bruitée de la figure 3.3(b), nous avons estimé les paramètres de la chaîne de Markov cachée avec EM. Pour cela, nous avons initialisé les paramètres Θ(0) soit (CAS 1) avec une initialisation des classes au hasard (cf. fig. 3.6(a)), soit (CAS 2) avec une initialisation des classes par l’algorithme des k-moyennes (cf. fig. 3.6(b)) : CAS 1 - Initialisation au hasard En utilisant cette image de classes et l’image bruitée, et des estimateurs à partir des données complètes pour estimer Θ(0) , nous avons obtenu, après ` = 300 itérations de EM, les estimées suivantes : {π̂(1) = 0.67; π̂(2) = 0.33}, {â(1, 1) = 0.99, â(1, 2) = 0.01, â(2, 1) = 0.02, â(2, 2) = 0.98}, µ̂1 = 95.12; σ̂12 = 41.25 et 2 µ̂2 = 109.61; σ̂2 = 66.71 (à comparer avec les vrais paramètres). Les résultats de segmentation MPM et MAP, obtenus par décision bayésienne sur la base de ces estimées, sont observables sur les figures (a) et (b) de 4.7. CAS 2 - Initialisation par K-moyennes En utilisant cette image de classes et l’image bruitée, et des estimateurs à partir des données complètes, nous avons obtenu, après ` = 300 itérations de EM, les estimées suivantes : {π̂(1) = 0.67; π̂(2) = 0.33}, {â(1, 1) = 0.99, â(1, 2) = 0.01, â(2, 1) = 0.02, â(2, 2) = 0.98}, µ̂1 = 95.13; σ̂12 = 41.40 et µ̂2 = 109.68; σ̂22 = 66.23 (à comparer avec les vrais paramètres). Les résultats de segmentation MPM et MAP, obtenus par décision bayésienne sur la base de ces estimées, sont observables sur les figures (c) et (d) de 4.7. Remarque 4 : À titre d’illustration, la figure 4.8 dresse l’évolution des paramètres du mélange de la figure 3.3(b), page 20 et de la log-vraisemblance au cours de l’algorithme EM, à partir d’une initialisation au hasard (cas 1). Il est remarquable de constater que la convergence numériques des paramètres est bien plus rapide que dans le cas indépendant. Remarque 5 : Pour illustrer le concept dans le cas d’un mélange 2D, nous avons segmenté la même image de galaxie que celle utilisée pour le cas de mélange indépendant (cf. figure 3.9, page 29). Les résultats de segmentation (critère MPM) pour 2, 3 et 4 classes sont présentés dans la figure 4.9. Ils offrent une segmentation plus homogène (moins de pixels isolés) que la méthode de mélange aveugle. 44 (a) MPM - τ = 1.90% (b) MAP - τ = 1.95% (c) MPM - τ = 1.90% (d) MAP - τ = 1.95% Figure 4.7 – Segmentation par décision bayésienne suite à une estimation du mélange par EM/CMC. (a) et (b) cas 1 ; (c) et (d) cas 2. 4.5 Synoptique de l’algorithme des CMC L’algorithme de la figure 4.10 reprend l’ensemble des étapes nécessaires pour réaliser la segmentation non supervisée d’un signal numérique à l’aide du modèle de chaîne de Markov cachée. Pour les images, une étape préalable consiste à convertir l’image 2D en un signal 1D, avec le parcours de Peano (cf. fig 4.1), et à réaliser l’opération inverse sur le signal segmenté, pour reconstituer l’image segmentée. 45 (a) Proportions π(k) (b) Coeff. a(1, 1) (c) Moyennes µk (d) Variances σk2 (e) Log-vraisemblance Figure 4.8 – Tracés de l’évolution de l’estimation des paramètres du mélange de la figure 3.3(b) par EM/CMC. Les lignes représentent les vrais valeurs. 46 (a) 2 classes (b) 3 classes (c) 4 classes Figure 4.9 – Segmentation de l’image 3.9 en 2, 3 et 4 classes (critère MPM). Require: y et K 1. Initialisation : Donner une valeur initiale aux paramètres. Segmenter y −→ x(0) . Estimer les paramètres sur les données complètes y, x(0) −→ Θ(0) . 2. Estimation EM : Trouver Θ(L) à partir de Θ(0) . for ` = 1 to L do {À partir des paramètres Θ(`) } Calculer les probabilités « avant-arrière » : αn (.)(`) et βn (.)(`) . (`) (`) Calculer les probabilités a posteriori : γn (.) et ξn (., .). (`+1) (`+1) Estimer des paramètres du bruit : µk et Σk . (`+1) (`+1) Estimer des paramètres de Markov : π (.) et a (., .). end for 3. Segmentation : Appliquer une décision bayésienne. (L) MPM : directement à partir de γn (.). MAP : algorithme de Viterbi (utilisant Θ(L) ). Figure 4.10 – Segmentation non supervisée par EM/CMC gaussien. 47 48 Chapitre 5 Champs de Markov cachés Tout comme nous l’avons fait dans le chapitre précédent, nous allons tenir compte des valeurs des pixels voisins, c’est à dire que nous allons supposer que les différentes variables aléatoires associées aux pixels ne sont pas nécessairement indépendantes. Si le voisinage se définit par l’échantillon précédent dans le modèle par chaîne, il est défini sur une fenêtre 2D, dans le modèle par champs. Ce modèle est donc particulièrement bien adapté au traitement des images et a suscité beaucoup d’intérêts depuis les travaux précurseurs de D. Geman [GG84], J. Besag [Bes86], B. Chalmond [Cha89] et J. Marroquin [MMT87] dans la fin des années 80. Une synthèse intéressante sur les champs de Markov cachés et leurs applications en traitement des images est proposée dans le livre de S. Z. Li [Li01] et dans l’article de P. Pérez [P9́8]. On considère donc toujours deux processus stochastiques : le processus observé Y et le processus caché X. Le problème que l’on se pose reste l’estimation d’une réalisation de X à partir de l’observation y. Dans ce modèle, les processus ne sont plus des vecteurs aléatoires, mais des champs aléatoires. Pour X : X1,1 , X= ..., XL,1 , . . . , X1,C ..., ... . . . , XL,C Pour éviter les indices de ligne et de colonne, et lorsqu’il n’y aura pas de confusion possible, la notation suivante sera utilisée Xs , s ∈ S, S désignant l’ensemble des sites du champs. Le nombre total de variables aléatoires est égale à N = L × C, c’est à dire le nombre de pixels de l’image que l’on souhaite traiter. En nous référant toujours à la démarche proposée en introduction, nous établissons les lois de X a priori et a posteriori en introduisant les hypothèses nécessaires pour appliquer des règles de décisions bayésiennes (MAP et MPM) et estimer l’ensemble des paramètres du modèle. 5.1 5.1.1 Loi de X a priori : champs de Markov Champs de Gibbs, champs de Markov Le champs X est markovien s’il vérifie l’hypothèse suivante : Hypothèse 1 : Pour tout s ∈ S, p (Xs |Xt , t 6= s ) = p (Xs |Xt , t ∈ Vs ) ou Vs est un « voisinage » de s dont la forme géométrique est indépendante de s 1 . 1. On ne considère généralement que le 4-voisinage et le 8-voisinage. 49 (a) 4-voisinage (b) 8-voisinage Figure 5.1 – Cliques associées aux 4- et 8-voisinages. Par cette formulation, la dépendance conditionnelle de l’une des variables, par rapport à l’ensemble des variables du champs, est restreinte à son voisinage immédiat V. Supposons que toutes les configurations du champs X ont une probabilité non nulle de se réaliser. On a alors pour tout x ∈ ΩN : p (X = x) = γ e−U (x) . (5.1) où U est dite « fonction énergie » et γ est une constante de normalisation. L’important théorème de Hammersley-Clifford établit un lien entre la forme géométrique des voisinages V et la forme de U. Définition : Soit V un voisinage d’une forme géométrique donnée (généralement 4- ou 8-voisinage). On appelle « clique » tout sous-ensemble c de S vérifiant l’une de deux conditions suivantes : 1. c est un singleton. 2. tous les éléments de c sont mutuellement voisins. Notons que pour un type de voisinage donné, on distingue plusieurs types de cliques. À titre d’exemple, il y a 3 types de cliques associés au voisinage formé des quatre plus proches voisins, donnant lieu à 5 relations différentes, cf. fig. 5.1(a). Il y a 10 types de cliques associés au voisinage des huit plus proches voisins, donnant lieu à 21 relations différentes, cf. fig. 5.1(b). On notera par C l’ensemble des cliques. Théorème de Hammersley-Clifford : le champs X est markovien avec la probabilité de toutes les réalisations non nulle si et seulement si la fonction énergie de sa distribution (5.1) est donnée par X U (x) = ϕc (xc ), (5.2) c∈C où xc = (xs )s∈c , C désigne l’ensemble de toutes les cliques et ϕc (.) une application qui associe un nombre réel à chaque configuration de clique. On détaille souvent dans la somme les différents types de cliques : XX U (x) = ϕi (xc ), (5.3) i c∈Ci où i désigne les « sortes » de cliques, Ci l’ensemble des cliques de la sorte i dans l’ensemble C. Ainsi si la forme de V est simple, la forme des cliques est simple et l’énergie, donnée par les ϕi , est explicitement calculable. La loi de X, donnée par (5.1), est donc « partiellement » connue, la constante γ étant 50 impossible à calculer. Par contre les lois conditionnelles de Xs sachant X Vs sont explicitement calculables et leur forme est généralement simple : ce fait est à l’origine de la possibilité de simulation, par des procédures itératives, des réalisations de X. Comme nous le verrons par la suite, cette possibilité est à l’origine de toute une classe d’algorithmes de segmentation bayésienne. Explicitons les probabilités conditionnelles en question. Soit un pixel s ∈ S et X ? = (Xt )t∈S,t6=s . Nous voulons calculer les probabilités p (Xs = k |X ? = x? ). Notons Cs l’ensemble des cliques contenant s et C s l’ensemble des cliques ne contenant pas s. Si s ∈ c, nous écrirons xc sous la forme xc = (xs , xc∗ ), où xc∗ est l’ensemble des pixels dans la clique c différents de s. Nous avons : p (Xs = k |X ? = x? ) = p (Xs = k, X ? = x? ) K X p (Xs = j, X ? = x? ) j=1 = P ? − ϕc (k,x? ) c∈C γ e−U (k,x ) γe = K K X X − P ϕ (j,x? ) c −U (j,x? ) c∈C γe γe j=1 j=1 P = P ϕc (k,x? ) − − ϕc (k,x? ) c∈Cs c∈C s γe e , P P K X ϕc (j,x? ) − − ϕc (j,x? ) c∈Cs c∈C s γe e j=1 P P Les sommes c∈C s ϕc (k, x? ) et c∈C s ϕc (j, x? ) ne dépendent pas des classes k et j car les cliques faisant partie de C s ne contiennent pas s. On a alors P P ( ? (( ϕc (k,x? ) − ((( ϕc (k,x ) − c∈C s c∈Cs ( ( γ e e ( ? ? p (Xs = k |X = x ) = , P P K ( X ? (( − ((( ϕc (j,x ϕc (j,x? ) ) − c∈Cs γ e(( c∈Cs e ( j=1 ce qui donne finalement − p (Xs = k |X c∗ X ϕc (Xs = k, xc∗ ) e c∈Cs = xc∗ ) = K . X −P ϕc (Xs =j,xc∗ ) c∈Cs e (5.4) j=1 La difficulté, pour le choix de la fonction d’énergie, consiste à trouver un bon compromis entre la prise en compte d’un maximum de types de cliques et la possibilité d’effectuer les calculs sur le modèle. Si la forme des voisinages, et donc celle des cliques, est simple, on connait la loi de X à une constante γ (que l’on ne peut pas calculer) près. Par contre, il est possible de calculer explicitement les lois conditionnelles de Xs sachant X Vs , et simuler, grâce à des « échantillonneur », des réalisations du champs X selon la loi donnée par (5.1). 5.1.2 Echantillonneurs de Gibbs et de Metropolis Si nous résumons les résultats précédents, la définition d’un champ de Markov passe par la définition de sa fonction d’énergie U. Celle-ci nécessite la définition d’un système de voisinage, qui définit alors le système de cliques, et de fonctions de potentiel associées aux cliques. Ces fonctions de potentiel permettent d’accéder à la probabilité globale d’une configuration, et aux probabilités conditionnelles locales. 51 Le problème qui se pose alors est, étant donné un champ de Markov, comment pouvons-nous réaliser le tirage d’une configuration (une image ici) en suivant la loi de probabilité de Gibbs caractéristique de ce champ ? Deux algorithmes ont été proposés pour synthétiser des réalisations d’un champ de Markov qui sont : ? l’échantillonneur de Gibbs, ? l’algorithme de Métropolis que nous allons décrire maintenant. 5.1.2.1 Echantillonneur de Gibbs Cet algorithme, proposé par Geman et Geman [GG84], repose sur la construction itérative d’une suite d’images. À la convergence, i.e après un nombre d’itérations suffisant, les images construites sont des réalisations tirées selon la loi de Gibbs globale. La méthode de construction de l’image à l’itération `, partant de l’image à l’itération ` − 1, se fait par mise à jour successive des sites de l’image. À l’étape ` : ? choix d’un site s ; ? au site s, selon la configuration des voisins Vs pour l’image x(`−1) , calcul de la probabilité conditionnelle locale selon p (Xs = k |X c∗ = xc∗ ), cf. eq. (5.4) ; ? mise à jour du site s par tirage aléatoire selon la loi p (Xs = k |X c∗ = xc∗ ). Il faut remarquer que les sites sont mis à jours progressivement, ce qui fait que le calcul des probabilités conditionnelles locales p (Xs = k |X c∗ = xc∗ ) se fait en partie sur les sites obtenus à l’itération ` − 1 et en partie sur les sites obtenus à l’itération en cours. L’initialisation de l’algorithme itératif est réalisée grâce à une configuration arbitraire (une image) initiale (0) (0) = xs (exemple : tirage de tous les sites selon un loi uniforme). On considère que (` = 0) : x s∈S l’algorithme a convergé après un grand nombre d’itérations ou lorsque le nombre de changements est faible. Le choix du site s considéré à l’étape ` peut se faire de n’importe quelle façon à condition de balayer tous les sites un très grand nombre de fois (théoriquement un nombre infini de fois). Les méthodes usuelles consistent à tirer un site selon une loi uniforme, ou effectuer un balayage classique, ligne par ligne, de l’image. Cet algorithme construit en réalité une suite d’images x(0) , x(1) , . . . , x(`) , . . . qui sont de réalisations aléatoires du champ X. Cette suite constitue une chaîne de Markov pour un certain noyau de transition. On montre rigoureusement que la suite de variables aléatoires X (0) , X (1) , . . . , X (`) , . . . ainsi obtenue converge en loi vers la probabilité donnée par (5.1) et (5.2) : lim p X (`) = x X (0) = x(0) = p (x) . `→∞ Ainsi, après un grand nombre d’itérations, les images x(`) générées sont des réalisations de la loi globale p (x), et ceci indépendamment de la configuration initiale x(0) . Notons bien qu’il n’y a pas de convergence vers une image donnée : les images obtenues évolueront indéfiniment ; cependant, après un certain nombre d’itérations, elles seront approximativement obtenues selon la même loi de probabilité, ainsi leur aspect visuel sera « le même ». On parle de l’échantillonneur de Gibbs comme d’un algorithme de « relaxation », car il procède par mise à jour successive des sites, et « probabiliste » car celle-ci est fondée sur un tirage aléatoire. 5.1.2.2 L’algorithme de Metropolis L’échantillonneur de Gibbs est un algorithme très utilisé en traitement d’images pour la synthèse de champs de Markov. Néanmoins, un algorithme antérieur et issu de la physique statistique avait été mis au point dans 52 les années 50 par Métropolis [MRR+ 53]. Cet algorithme repose sur un principe similaire à l’échantillonneur de Gibbs, et il s’agit également d’un algorithme de relaxation probabiliste. Le principe est là encore de construire une suite d’images qui seront des tirages selon la loi du champ de Markov après un nombre suffisamment grand d’itérations. Mais la mise à jour en un site s’effectue de façon différente. Ainsi à l’étape ` : ? choix d’un site s ; ? tirage aléatoire d’un descripteur λ dans Ω selon une loi uniforme ; (`−1) ? calcul de la variation d’énergie pour xs →λ ∆U = U λ|Vs(`−1) − U xs(`−1) |Vs(`−1) , X avec U λ|Vs(`−1) = ϕc (Xs = λ, xc∗ ) c∈Cs (`−1) avec U λ|Vs , l’énergie associée à un site grâce aux potentiels. ? deux cas sont alors possibles : (`) 1. ∆U = 0 : le changement est accepté : xs = λ ; 2. ∆U ≥ 0 : le changement est accepté ou refusé par tirage selon la probabilité : p et 1 − p avec p = e−∆U . Le système de balayage des sites et le critère d’arrêt sont similaires à ceux de l’échantillonneur de Gibbs. La différence avec l’échantillonneur de Gibbs réside dans le tirage au sort du nouveau niveau de gris (ou descripteur), au lieu de considérer la loi définie par tous les descripteurs. Comme on ne considère que la variation énergétique entre les 2 configurations, l’algorithme de Métropolis est plus rapide à chaque étape que l’échantillonneur de Gibbs, qui lui nécessite le calcul de la fonction de partition locale. Mais la convergence peut être plus lente car le taux d’acceptation est strictement inférieur à 1 (les transitions ne sont pas toujours acceptées, contrairement au cas de l’échantillonneur de Gibbs). Là encore, le principe est de construire une chaîne de Markov selon un certain noyau de transition (différent de celui intervenant dans l’échantillonneur de Gibbs). 5.1.3 Quelques MRF fondamentaux Nous présentons ici quelques uns des champs de Markov les plus utilisés. Comme indiqué précédemment, ces champs sont définis par leur voisinage et leurs fonctions de potentiel. Ils sont illustrés par le tirage de réalisations selon l’échantillonneur de Gibbs. 5.1.3.1 Modèle d’Ising Ce modèle est le plus ancien (1925) et a été développé lors de l’étude du ferromagnétisme en physique statistique. L’espace des descripteurs est celui des états des spins, i.e Ω = {−1; 1} (espace binaire), et le voisinage est constitué par les 4 ou 8 plus proches voisins dans un espace bi-dimensionnel. Les potentiels sont des potentiels en tout ou rien : Uc=(s,t) (xs , xt ) = ( −β si xs = xt +β si xs 6= xt Ce qui s’écrit également : Uc=(s,t) (xs , xt ) = −βxs xt 53 (a) (b) (c) Figure 5.2 – Simulations de champs de Gibbs a priori (Modèle d’Ising). (a) Tient compte uniquement d’une énergie de 0.5 sur les singletons. (b) Tient compte d’une énergie de 0.5 sur les singletons et d’un énergie de 0.5 entre les voisins horizontaux et verticaux. (c) Même configuration que précédemment mais avec une énergie de 0.5 horizontalement et une énergie de 3 verticalement. Les potentiels des cliques d’ordre 1 (clique constituée par un seul spin) sont de la forme −Bxs . L’énergie totale s’écrit : X X U(x) = − βxs xt − Bxs c=(s,t)∈C s∈S β est la constante de couplage entre sites voisins et B représente un champ magnétique externe. Lorsque β est positif, les configurations les plus probables (i.e d’énergies plus faibles) sont celles pour lesquelles les spins sont de même signes (ferro-magnétisme), alors que dans le cas de β négatif, au contraire, on favorisera l’alternance de spins de signes opposés (antiferromagnétisme). La valeur (signe et valeur absolue) de β conditionne donc la régularité du modèle d’Ising. Quant au champ magnétique externe relatif au potentiel d’ordre 1, il favorise a priori par son signe un spin ou un autre. Exemple : Considérons un champs de Markov relativement aux quatre plus proches voisins à deux classes. Il y a alors trois sortes de cliques : les singletons, les couples de voisins horizontaux, et les couples de voisins verticaux. Supposons que la fonction ϕ correspondant aux singletons est nulle et la fonction ϕ correspondant aux couples de voisins horizontaux est égale à la fonction ϕ correspondant aux couples de voisins verticaux et est donnée par ( −α si xs = xt ϕ (xs , xt ) = α si xs 6= xt Pour un pixel donné il y a cinq possibilités de configuration de son 4-voisinage : quatre fois la classe 1, trois fois la classe 1, deux fois la classe 1, une fois la classe 1, 0 fois la classe 1. Le problème est de calculer les cinq probabilités d’avoir la classe 1 sur le pixel conditionnelles aux cinq configurations du voisinage. Si on pose M le nombre d’éléments de la classe 1 dans le voisinage, la formule générale nous permet d’écrire : e2α e4α p (Xs = k |M = 4 ) = 4α , p (Xs = k |M = 3 ) = 2α , −4α e +e e + e−2α 1 p (Xs = k |M = 2 ) = , 2 −2α e e−4α p (Xs = k |M = 1 ) = −2α , p (X = k |M = 0 ) = . s e + e2α e−4α + e4α Simulation 1 : La figure 5.2 présente le résultat obtenu à l’aide de l’échantillonneur de Gibbs (480 itérations), dans différents configurations d’énergie. L’image initiale est construite par tirage aléatoire équiprobable. Le cas 5.2(a) montre une organisation aléatoire qui traduit bien qu’il n’y a pas d’énergie de liaison entre les pixels. Les cas 5.2(b) et 5.2(c) montre l’influence de l’augmentation proportionnelle d’une liaison sur les autres. Notamment, dans l’image de la figure 5.2(c) on remarque clairement une orientation verticale prédominante. Pour illustrer l’évolution de l’échantillonneur, la figure 5.3 montre les images x(1) , x(10) , x(40) , x(80) et x(160) qui ont permis d’aboutir à l’image de la figure 5.2(c). 54 (a) 1 (b) 10 (d) 80 (c) 40 (e) 160 Figure 5.3 – Évolution de l’échantillonneur de Gibbs (modèle d’Ising) à différentes itérations. 5.1.3.2 Modèle de Potts Il s’agit d’une extension du modèle d’Ising [Wu82] pour un espace m-aire, i.e Ω = {0, m − 1}. Il peut s’agir de plusieurs niveaux de gris, mais plus souvent pour ce modèle, d’étiquettes (labels) pouvant représenter une classification de l’image (par exemple les classes eau, forêt, champ, ville). Le voisinage considéré est 4- ou 8-connexe et les potentiels sont comme précédemment en tout ou rien mais définis seulement pour les cliques d’ordre 2 : ( −β si xs = xt Uc=(s,t) (xs , xt ) = +β si xs 6= xt Lorsque β est positif, les configurations les plus probables correspondent à des sites voisins de même niveau de gris ou descripteur, ce qui donne des réalisations constituées par des larges zones homogènes. La taille de ces régions est gouvernée par la valeur de β. Il est possible de définir des modèles utilisant des pondérations β différentes en fonction des directions des cliques, et de privilégier ainsi certaines directions. Ce modèle permet également de prendre en compte différentes relations entre les régions (i.e entre différentes valeurs des descripteurs). On peut par exemple définir des pondérations β(ωs , ωt ) pour ωs , ωt ∈ Ω. Dans notre exemple de classification en 4 étiquettes eau, forêt, champ, ville, une configurations de sites avec les étiquettes champ / forêt peut être supposée plus probable qu’une configuration ville / forêt, d’où des valeurs β(champ; f oret) et β(ville; f oret) différentes. 55 5.1.3.3 Modèle markovien gaussien Ce modèle est réservé aux images en niveaux de gris Ω = {0, . . . 255} et ne convient pas bien aux images d’étiquettes. Le voisinage est 4 ou 8-connexe et l’énergie est de la forme : X X U(x) = β (xs − xt )2 + α xs − µs s∈S c=(s,t)∈C Le premier terme correspondant aux cliques d’ordre 2 est un terme de régularisation, qui favorise les faibles différences de niveaux de gris entre sites voisins pour β > 0. Le second terme peut correspondre à un terme d’attache aux données dans le cas où on possède une image de données extérieures. Le rapport α β pondère les influences respectives de l’attache aux données et de la régularisation, et les valeurs absolues des paramètres caractérisent le caractère plus ou moins « piqué » ou équiréparti au contraire de la distribution. Le modèle gaussien favorise des niveaux de gris proches pour des pixels voisins dans tous les cas. Or si on considère une image naturelle cet aspect est néfaste à proximité des contours car il favorisera la présence d’un dégradé. Aussi, de nombreuses fonctions φ ont été proposées pour modéliser les potentiels des cliques d’ordre 2 : Uc=(s,t) = φ(xs − xt ). En particulier, la fonction suivante permet de respecter les contours de l’image [GM85] : 1 φ(x) = 1 + xδ 2 et est donc très utilisée en restauration. Ces modèles permettent de synthétiser des textures très variées. Finalement les trois points importants sont : ? La markovianité et la forme géométrique de V déterminent la forme générale de U ; ? En se donnant les applications ϕi , on peut calculer explicitement les lois conditionnelles, la loi globale étant inconnue (γ inconnue) ; ? les lois conditionnelles permettent la simulation, par des procédures itératives, des réalisations de X selon la loi globale. 5.2 Loi a posteriori et loi conjointe En reprenant les deux hypothèses énoncées dans le cas des chaînes de Markov cachées page 34, et en les adaptant au contexte des champs, la loi conditionnelle s’écrit très simplement de la manière suivante : Y p y |x = p (ys |xs ). (5.5) s∈S avec, comme dans le cas des chaînes de Markov, p (ys |xs ) = fxs (ys ), les lois d’attache aux données (généralement gaussiennes). La loi du couple (X, Y ) s’écrit alors − p x, y = p (x) p y |x = γ e X ϕc (xc ) c∈C Y p (ys |xs ). (5.6) s∈S La loi de X a posteriori s’écrit alors : p x y = = p y, x p y γ e−U (x,y) . p y 56 (5.7) P P en notant U x, y = c∈C ϕc (xc ) − s∈S ln p (ys |xs ). En vertu du théorème d’Hammersley-Clifford, c’est la loi d’un champs de Markov. Il est possible de réaliser des simulations des réalisations de X selon sa distribution a posteriori, ce qui est à la base des algorithmes approchant les solutions du MPM et MAP présentées ci-dessous. Exemple (suite) : La loi de X s’écrit X − p (x) = γ e ϕ(xs , xt ) (s,t)∈S 2 ,s6=t , la somme étant prise sur tous les couples de pixels voisins. La loi a posteriori s’écrit alors X X ln p (ys |xs ) γ s∈S (s,t)∈S 2 ,s6=t = e . p y, x p y x∈ΩN Le calcul que nous avions fait pour la loi a priori reste valable, l’ensemble Ds s’étant seulement enrichi P du singleton {s}. La valeur de ϕ{s} correspondante est ϕ{s} = − s∈S ln p (ys |xs ). Ainsi les cinq lois de probabilités a posteriori s’écrivent e4α−ln p(ys |xs =1 ) p (Xs = k |M = 4 ) = 4α−ln p(y |x =1 ) , s s e + e−4α−ln p(ys |xs =2 ) 2α e − ln p (ys |xs = 1 ) p (Xs = k |M = 3 ) = 2α−ln p(y |x =1 ) , s s e + e−2α−ln p(ys |xs =2 ) − ln p(ys |xs =1 ) e , p (Xs = k |M = 2 ) = − ln p(y |x =1 ) s s e + e− ln p(ys |xs =2 ) e−2α−ln p(ys |xs =1 ) p (Xs = k |M = 1 ) = −2α−ln p(y |x =1 ) , s s e + e2α−ln p(ys |xs =2 ) −4α−ln p(ys |xs =1 ) e p (Xs = k |M = 0 ) = −4α−ln p(y |x =1 ) . s s e + e4α−ln p(ys |xs =2 ) Conformément au principe de l’échantillonneur de Gibbs, on obtient ainsi une réalisation de X selon sa distribution conditionnelle à Y = y en faisant plusieurs balayages de l’image et en effectuant, sur chaque pixel, des tirages dans Ω selon une des cinq probabilités ci-dessus. p x, y p x y = P 5.3 − ϕ(xs , xt ) + Décision bayésienne Comme on le sait, l’estimateur bayésien de X correspondant à la perte L est celui qui minimise le coût moyen : ŝ(y) = x̂ = arg min E L (X = x, x̂)| y x̂∈ΩN = arg min x̂∈ΩN X L (X = x, x̂) p X = x y . x∈ΩN Les critères sont les mêmes que dans le cas des chaînes de Markov (plus un critère appelé TPM qui a plus trait au filtrage qu’à la classification). Cependant les procédures qui conduisent à leur application ne sont pas calculables directement. La solution du MPM et du TPM est approchée par simulation, celle du MAP par l’algorithme de recuit simulé de S. Geman et al [GG84]. Nous décrivons également l’algorithme Iterated Conditional Mode (ICM) de J. Besag [Bes86] qui peut être interprété comme une approximation grossière, et rapide, de la solution du MAP. 5.3.1 Critère du MPM Nous rappelons que la fonction de coût MPM s’écrit dans ce cas : X 1xs 6=x̂s . L1 (x, x̂) = s∈S 57 et l’estimateur correspondant a pour expression (cf. chapitre précédent) PM x̂M = arg max p Xs = x̂s y . s ∀s ∈ S, (5.8) x̂s ∈Ω La méthode MPM consiste a « estimer », pour chaque s, la réalisation « invisible » de xs par la classe k dont la probabilité a posteriori, i.e. conditionnelle à Y = y, est maximale. Notons que la distribution a posteriori n’est pas stationnaire et ces probabilités dépendent de s. Ces probabilités ne sont pas calculables mais la possibilité de simulation des réalisations de X permet leur estimation. On procède de la manière suivante : ? Simulation de L réalisations x(1) , x(2) , . . . , x(L) de X selon la loi conditionnelle à Y = y. ? Estimation, sur chaque site s et à partir de x(1) , x(2) , . . . , x(L) de la loi de Xs par les fréquences (estimateurs empiriques à partir des données complètes). ? Estimation, pour chaque s, de la réalisation de xs par la classe maximisant la loi ainsi estimée. Notons que cela revient à choisir la classe dont le nombre d’apparitions dans les simulations est le plus grand. 5.3.2 Critère TPM Considérons maintenant la fonction de coût définie par : L3 (x, x̂) = ||x − x̂|| = X (xs − x̂s )2 . s∈S Il s’agit de l’erreur quadratique et elle pénalise cette fois-ci directement la somme des différences entre les deux configurations. Elle peut donc être plus adaptée dans certains cas que les précédentes, puisqu’elle tient compte non seulement du nombre de différences comme le MPM, mais aussi de leurs valeurs. Dans ce cas, en utilisant le résultat de l’eq. (4.11) : X x̂Ts P M = arg min L (xs , x̂s ) p Xs = xs y x̂s ∈Ω xs ∈Ω = arg min N X x̂s ∈Ω n=1 N i h X 2 E L (xs , x̂s )| y = arg min E (xs − x̂s ) y x̂s ∈Ω n=1 Nous pouvons donc, comme dans le cas du MPM, estimer l’état en chaque site. Nous cherchons donc à minii h 2 miser E (xs − x̂s ) y . Nous allons écrire cette espérance sous une nouvelle forme en utilisant la moyenne conditionnelle au site s, x̄s = E xs | y . i h 2 E (xs − x̂s ) y = X (xs − x̂s )2 p xs y xs ∈Ω = X (xs − x̄s + x̄s − x̂s )2 p xs y xs ∈Ω = X X X (xs − x̄s )2 p xs y + 2(x̄s − x̂s ) (xs − x̄s ) p xs y + (x̄s − x̂s )2 p xs y xs ∈Ω xs ∈Ω = K + 2(x̄s − x̂s ) E xs − x̄s | y + (x̄s − x̂s ) 2 xs ∈Ω X p xs y xs ∈Ω = K + 0 + (x̄s − x̂s )2 . Le terme K ne dépendant pas de x̂s , la solution bayésienne selon le critère TPM est obtenue pour ∀s ∈ S, x̂Ts P M = x̄s = E xs | y . 58 (5.9) Cet estimateur consiste à prendre en chaque site la moyenne conditionnelle locale donnée par la loi a posteriori, d’où le nom de TPM (Thresholded Posteriori Mean). La démarche est similaire à celle effectuée dans le paragraphe précédent. On approxime l’espérance conditionnelle en chaque site par la moyenne empirique en ce site des L échantillons tirés selon la loi a posteriori. Remarquons que cet estimateur est mal adapté à une problématique de segmentation car la moyenne des étiquettes n’a alors aucun sens. 5.3.3 Critère du MAP La fonction de coût MAP s’écrit dans ce cas : L2 (x, x̂) = 1{x6=x̂} . et l’estimateur a pour expression (cf. chapitre précédent) x̂M AP = arg max p X = x̂ y . x̂∈ΩN (5.10) La configuration x qui nous intéresse est celle maximisant la probabilité a posteriori, donc la réalisation la plus probable du champ de Gibbs, ou encore celle qui minimise l’énergie U x, y . Un algorithme a été proposé pour atteindre cet (ou ces) état(s) d’énergie minimale, il s’agit du recuit simulé qui est décrit brièvement ci-dessous. L’approximation de la solution du MAP peut être effectuée au moyen de l’algorithme dit du « recuit simulé ». On introduit dans l’énergie de la distribution a posteriori U x, y un paramètre appelé « température » en considérant U x, y UT = − . T Si on note D l’ensemble des réalisations du champs X dont la probabilité a posteriori est maximale, on montre que la loi limite, lorsque T tend vers 0, de la distribution markovienne définie par l’énergie UT est la distribution uniforme sur D. En particulier, lorsque ce maximum est atteint sur une seule configuration, la loi limite est une masse de Dirac définie par cette configuration. La démarche de l’algorithme du recuit simulé est la suivante : ? On définit une suite T` tendant vers 0. ? pour chaque T` , on simule, en utilisant l’échantillonneur de Gibbs, une réalisation de X selon la loi définie par l’énergie UT` . Les études théoriques permettent d’affirmer la convergence en loi de la suite de variables aléatoires ainsi définie vers la distribution uniforme sur D, à condition que la convergence de la suite T` vers 0 soit « suffia samment lente ». La suite de la forme T` = ln `+1 , où a est une constante, convient. Cet algorithme est très coûteux en temps calcul mais donne, dans certaines situations, des résultats spectaculaires. Des algorithmes sous-optimaux sont donc souvent utilisés en pratique. Besag [Bes86] a ainsi proposé un autre algorithme, beaucoup plus rapide, mais pour lequel nous n’avons pas de preuve de convergence vers un minimum global. Il s’agit de l’ICM, Iterated Conditional Mode que nous présentons dans la suite. 5.3.4 Algorithme ICM (approximation du MAP) La démarche de cet algorithme est semblable à celle de l’approximation du MPM décrite ci-dessus. On effectue des balayages de l’ensemble de pixels comme dans l’échantillonneur de Gibbs utilisé plus haut, mais, 59 au lieu de faire, pour chaque pixel, un tirage selon la probabilité conditionnelle à la valeur « courante » de X sur le voisinage considéré, on lui attribue la classe maximisant cette probabilité. À l’étape ` : ? pour tous les sites s, selon la configuration des voisins Vs pour l’image x(`−1) , calcul de la probabilité conditionnelle locale selon p (Xs = k |X c∗ = xc∗ ), cf. eq. (5.4) ; (`) ? mise à jour du site s par la classe qui maximise la probabilité conditionnelle locale : xs = arg maxk∈Ω p (Xs = k |X c∗ = xc∗ ). Le processus s’arrête lorsque le nombre de changements d’une étape à l’autre devient suffisamment faible. On obtient donc une suite déterministe d’images (réalisations de X) qui, en principe, se stabilise assez rapidement. La valeur de la vraisemblance sur la suite ainsi obtenue est une fonction croissante, mais, contrairement à l’algorithme du recuit-simulé, les maxima locaux ne peuvent être évités et la solution obtenue dépend fortement de l’initialisation. L’algorithme ICM est très utilisé à cause de sa rapidité et donne, dans certaines situations, des résultats satisfaisants. 5.4 Estimation des paramètres du modèle Cette section est destinée à préciser les méthodes d’estimation des paramètres dans le cadre du modèle des champs de Markov cachés. Notons : ? Ψ = {α1 , α2 , . . . , αm } l’ensemble des paramètres décrivant la loi de X, c’est à dire l’ensemble des potentiels associés aux m cliques considérées dans un voisinage donné. On notera αi , le potentiel associé à la sorte de clique i, cf. eq. (5.3), page 50 (αi est la valeur de lafonction potentielle ϕi (.)). ? Υ l’ensemble des paramètres précisant les lois conditionnelles p k y , c’est à dire l’ensemble des vecteurs moyens et des matrices de covariances des classes dans le cas gaussien. Le problème de l’estimation dans le cadre des champs de Markov cachés est celui de l’estimation de ces deux ensembles de paramètres. Ce problème n’a pas de solution analytique, comme dans le modèle des chaînes de Markov cachées, et même le cas supervisé, où l’on dispose d’un échantillon d’apprentissage, n’est pas trivial 2 . 5.4.1 Estimation avec échantillon d’apprentissage L’estimation des paramètres dans Υ peut être faite, comme dans le cas des méthodes locales, par les estimateurs empiriques à partir de l’échantillon d’apprentissage. Le problème posé est celui de l’estimation des paramètre dans Ψ. La méthode générale du Maximum de Vraisemblance, dont le principe est : P − ϕi (xc ) c∈Ci α bi = arg max γ (αi ) e αi ∈R ne peut être appliquée directement car γ (αi ) est inconnue. La première idée est de remplacer la vraisemblance par la « pseudo-vraisemblance » pv(x), qui est le logarithme du produit par rapport à s ∈ S des lois 2. Un panorama des méthodes d’apprentissage avec ou sans échantillon beaucoup plus complet que celui présenté ici pourra être consulté dans [ST99] 60 conditionnelles (5.4), page 51 [Bes86] : pv(x) = ln Y p xs X V s s∈S X − = ln Y s∈S e K X ϕc (k, x? ) c∈Cs . e − P c∈Cs ϕc (j,x? ) j=1 La fonction γ (αi ) disparaît et on peut, sous certaines conditions, calculer ou approcher le Maximum de la Pseudo-Vraisemblance (MPV). Le MPV jouit de bonnes propriétés asymptotiques. Notons que l’emploi de la pseudo-vraisemblance peut paraître quelque peu surprenant de prime abord ; en effet, les bonnes propriétés du comportement asymptotique sont surtout connues dans le cas de l’estimateur du maximum de vraisemblance (MV), ce dernier étant égal à MPV lorsque les données sont indépendantes, donc en l’absence de la markovianité. Cependant, cette incohérence n’est qu’apparente car les bonnes propriétés asymptotiques demeurent lorsque l’on remplace le MV par le maximum d’une fonction « score » quelconque, dès que cette dernière devient suffisamment « proche » de la vraisemblance lorsque la taille des données augmente. Une deuxième méthode, que nous appellerons « Estimateur Empirique » (EE) et qui peut être appliquée lorsque la taille du voisinage et le nombre de classes ne sont pas trop importants, consiste à calculer la fréquence d’apparition de chacune des classes conditionnellement à toutes les configurations du voisinage, et à rechercher α qui ajuste ces fréquences aux lois conditionnelles données par (5.4). Lorsque l’énergie dépend linéairement du vecteur Ψ, à savoir " # m m X X X UΨ (x) = αi ϕi (xc ) = αi Ui (x), i=1 i=1 c∈Ci cet ajustement peut être fait au sens des moindres carrés [Guy93, P9́8]. Enfin, toujours sous l’hypothèse de la dépendance linéaire, on peut montrer que : ∂p (x) = Ui (x) − EΨ [Ui (X)] , ∂αi l’espérance EΨ [Ui (X)] pouvant être approchée par la moyenne empirique calculée à partir des simulées de X. Il est alors possible de mettre en place des méthodes dites du gradient stochastique (GS) qui permettent de trouver, sous certaines conditions, l’estimateur du MV [You88]. 5.4.2 Estimation sans échantillon d’apprentissage Notons Θ = {Ψ, Υ} l’ensemble des paramètres que l’on cherche à estimer. Nous nous intéressons à leur estimation à partir de Y ; une telle estimation sera dite « estimation dans le cas des données incomplètes », alors que celle effectuée à partir de (X, Y ) sera dite « estimation dans le cas des données complètes ». Nous décrivons brièvement le principe de EM dans le cas des données incomplètes. La vraisemblance de la loi de Y , qui s’écrit X L Θ|y = p y |Θ = p (x) p y |x , (5.11) x∈ΩN est trop complexe pour que l’on puisse envisager le calcul direct de l’estimateur MV. Dans le contexte des champs de Markov cachés, son application est malaisée et l’on doit s’écarter du principe général en utilisant 61 diverses approximations. Parmi ces dernières on peut citer des approximations fondées sur des simulations stochastiques [Cha89, ZML94, MK96, P9́8], ou encore sur les « champs moyens » [Zha92, CFP03]. Mentionnons également d’autres méthodes d’estimation, comme ? la méthode dite « Estimation Conditionnelle Itérative », développée par W. Pieczynski [Pie92, Pie94], qui repose non plus sur la vraisemblance mais sur l’espérance conditionnelle d’un estimateur à partir des données complètes (ce qui est très facile à trouver en général) ; ? la famille des méthodes dites « pleinement bayésiennes » (« fully bayesian ») [HBJ+ 97] ; ? celle dérivant du gradient stochastique [You89] qui présente une étude mathématique rigoureuse ; ? celle utilisant le gradient pour accélérer les méthodes stochastiques [YC03] ; ? ou les méthodes utilisant alternativement l’estimation des paramètres et la restauration du champs x sur la base des paramètres courants, comme celle de Besag [Bes86], ou celle de Lakshmanan et al [LD89]. 5.5 5.5.1 Exemples en segmentation d’images Segmentation d’une image radar Cet exemple d’application est tiré de la thèse de F. Tupin [Tup97]. Écrivons à nouveau les deux termes intervenant dans la probabilité a posteriori (en gardant les notations de la section 5.2). Pour la probabilité du champ des observations conditionnellement au champ des étiquettes, en supposant l’indépendance des pixels, on a, cf. eq. (5.5) : Y p y |x = p (ys |xs ). s∈S Les images radar sont des images très bruitées par le phénomène de chatoiement (speckle). En revanche, le processus d’acquisition est bien modélisé statistiquement et on a l’expression suivante pour une image radar en amplitude : Ly 2 2LL − s p (ys |xs = i ) = L ys(2L−1) e µi . µi Γ(L) avec L un paramètre du système connu 3 appelé nombre de vues, Γ la fonction Gamma, et µi les moyennes en intensité (carré de l’amplitude) des différentes classes i considérées. Le champ des étiquettes est supposé markovien avec un modèle de Potts qui vise à obtenir des zones homogènes compactes sur l’image segmentée : P −β φ(xs −xt ) s,t∈C2 p (X = x) = γ e . avec β > 0, φ(0) = 1 et ∀x 6= 0, φ(x) = 0. Le champ a posteriori résultant est donc markovien et son énergie s’écrit FIXME : A vérifier ! : X y2 X s U x, y = L + ln µxs + β φ(xs − xt ). µxs s∈S s,t∈C2 En choisissant l’estimateur MAP, la solution est obtenue par recuit simulé avec une décroissance géométrique en température, et une température initiale fixée arbitrairement. Le choix des classes se fait de la façon suivante. On se fixe le nombre de classes (15 dans les illustrations ci-dessous) et on applique un algorithme de k-moyennes dont le résultat 4 sert à calculer les valeurs des moyennes en intensité µi des différentes classes. Notons que ces classes n’ont pas de contenu sémantique et que la segmentation correspond ici à un « découpage » de l’image. 3. Pour les produits PRI du satellite ERS1 L = 3. 4. Le résultat des k-moyennes est très bruité à cause du bruit multiplicatif présent sur les images radars et l’absence de modes dans l’histogramme. Il ne peut donc pas dans ce cas être utilisé directement comme résultat de segmentation. 62 Table 5.1 – Valeurs des paramètres utilisés pour la segmentation. Température initiale Facteur de décroissance géométrique Paramètre de régularisation β Nombre de classes Nombre d’itérations pour les k-moyennes 5 0,95 0,4 15 20 Figure 5.4 – Image radar ERS-1 de la région du Flevoland, copyright ESA. Le choix de β qui pondère l’influence entre attache aux données et régularisation se fait de façon ad hoc après quelques essais. L’augmentation de β entraîne une augmentation de la taille des zones obtenues par la segmentation. Il serait bien sûr possible d’estimer ce paramètre à l’aide d’une des méthodes décrites dans la section précédente. Notons que ce modèle n’est pas adapté à la préservation des cibles ponctuelles et des lignes qui sont des configurations de forte énergie pour le champ des étiquettes (il faut donc une forte attache aux données pour que ces configurations subsistent dans le résultat final). Le tableau 5.1 résume les paramètres utilisés et les figures 5.4 et 5.5 montrent le résultat de la segmentation. 5.5.2 Comparaison de méthodes de segmentation Nous présentons divers exemples de segmentations non supervisées d’images fondées sur divers modèles de Markov décrits ci-dessus, extraits de [eWP98], où l’efficacité de trois méthodes est comparée : la méthode fondée sur les chaînes de Markov, sur les champs de Markov, ou celle classifiant « pixel par pixel », avec les paramètres estimés de manière adaptative, sur une fenêtre centrée sur le pixel considéré. Dans l’article les auteurs étudient l’influence des différents facteur comme l’« homogénéité » ou la corrélation du bruit sur l’efficacité des différentes méthodes. Il apparaît que les méthodes adaptatives, qui sont simples et ne font pas appel à des modèles de Markov cachés, sont relativement efficaces pour les images peu homogènes (les images de la figure 5.6 présentent une homogénéité croissante). Les champs de Markov apparaissent comme très efficaces dans le cas des images très homogènes (lettre B). 63 Figure 5.5 – Résultat des deux étapes de la segmentation (k-moyennes et recuit simulé) sur l’image du Flevoland. (a) Régions, (b) Contours. 64 (a) (b) (c) (d) (e) (f) Figure 5.6 – Exemples d’images utilisées dans les simulations. (a) (b) Méthode (16%) adaptative (c) Champs (31%) de Markov (d) Chaîne de Markov (30%) (e) (f) Méthode (13.4%) adaptative (g) Champs (0.5%) de Markov (h) Chaîne de Markov (4.2%) Figure 5.7 – Exemples d’efficacité des trois méthodes de segmentation. 65 (a) (b) Méthode adaptative (c) Champs de Markov (d) Chaîne de Markov (e) (f) Méthode adaptative (g) Champs de Markov (h) Chaîne de Markov Figure 5.8 – Segmentation non supervisée d’images réelles. 66 Chapitre 6 Filtrage de Kalman et extensions FIXME: Je ne comprend pas le rôle de G dans le cours de Le Gland [Le 07]. Le problème de filtrage (en temps discret) se présente en général de la manière suivante : on considère {X n }, un processus (dont les caractéristiques statistiques sont connues) représentant l’état d’un système non observé. À l’instant n, on recueille une observation Y n qui est formée d’un signal (i.e. une fonction h(X n ) de l’état X n ) et d’un bruit additif Y n = h(X n ) + V n . Les caractéristiques statistiques du bruit de mesure {V n } sont également supposées connues. À l’instant n, on dispose de l’information Y 1:n = (Y 1 , . . . , Y n ) et le but est d’obtenir le plus d’information possible sur c de X ). La solution consiste l’état du système X n (on veut, par exemple, pouvoir calculer un estimateur X n n à choisir l’estimateur qui minimise l’erreur quadratique moyenne, c’est-à-dire à calculer la loi conditionnelle de X n sachant Y 1:n 1 . Dans le cas des systèmes gaussien, l’évolution de cette loi conditionnelle (déterminée par sa moyenne et sa matrice de covariance) est régie par un système dynamique (le filtre de Kalman-Bucy) simple à mettre en œuvre, comme nous allons le voir dans la section 6.2. Dans tous les autres cas (non linéaires), l’évolution de cette loi conditionnelle est déterminée par un tout autre type de systèmes souvent impossibles à utiliser en pratique. Mais les techniques développées dans le cas linéaire peuvent s’étendre au cas non linéaire par des méthodes de linéarisation, cf. chapitre 6.3. Les filtres ainsi obtenus sont très souvent utilisés en pratique mais ont parfois des performances peu satisfaisantes. Nous commençons par quelques rappels sur les systèmes linéaires gaussiens. 6.1 Système linéaire gaussien Par définition, un processus aléatoire gaussien est une suite {Xn }n∈[1,N ] de variables aléatoires telle que pour tout entier n le vecteur aléatoire X 1:n = (X1 , . . . , Xn ) est gaussien 2 . Un bruit blanc gaussien est un processus aléatoire gaussien {Xn }n∈[1,N ] tel que E [Xk ] = 0, et E [Xk Xl ] = 0, si l 6= k. l’erreur quadratique moyenne de X connaissant Y = y est la moyenne conditionnelle 1. L’estimateur R qui minimise x p (x) dx. RP X Y =y E X| Y = y = 2. On ne considère ici que le cas des variables aléatoires réelles (et non des variables aléatoires complexes). 67 On considère une suite d’états cachés {X n } à valeurs dans RP , vérifiant : X n = F n X n−1 + W n , (6.1) où {Wn } prend ses valeurs dans RP , et une suite d’observations {Yn }n∈[1,N ] à valeurs dans RM , vérifiant Y n = H n X n + V n, (6.2) et on suppose que ? la condition initiale X 1 est gaussienne, de moyenne X 1 et de covariance QX ; 1 ? les suites {Wn } et {Vn } sont respectivement des bruits blancs gaussiens, de covariance QW et QV ; n ? les suites {Wn }, {Vn } et la condition initiale X 1 sont mutuellement indépendants ( FIXME: X n ?). n et pas Dimensions des vecteurs et matrices : ? États : X n : P × 1, W n : P × 1, F n : P × P et QW : P × P ; n ? Observations : Y n : M × 1, V n : M × 1, H n : M × P et QV : M × P . n La signification du modèle (6.1) est la suivante ? même si l’état X n−1 = x est connu exactement à l’instant (n − 1), on peut seulement dire que l’état X n à l’instant n est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F n x et de matrice de covariance : i h t E (X n − E [X n ]) (X n − E [X n ]) = E W n W tn = QW . n ? si l’état X n−1 est incertain à l’instant (n − 1), et distribué comme un vecteur aléatoire gaussien, de moyenne X n−1 et de matrice de covariance QX , alors cette incertitude se propage à l’instant n : n−1 même en absence de bruit (W n = 0), l’état X n à l’instant n est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F n X n−1 et de matrice de covariance F n QX F tn . n On montre aisément les résultats suivants Xn = E [X n ] = F n X n−1 Yn = E [Y n ] = H n X n QX = F n QX Q n XY n Y Q n = = F tn + QW n−1 n X t Q Hn n H n QX H tn + QV , n n les trois derniers résultats utilisant les hypothèses d’indépendances énoncées ci-dessus. 6.2 Filtre de Kalman On considère le système linéaire donné par les équations (6.1) et (6.2), dans les conditions données dans la section 6.1. À l’instant n, on dispose de l’information Y 1:n = (Y 1 , . . . , Y n ) . L’objectif est d’estimer le vecteur aléatoire X n à partir de Y 1:n , de façon optimale et récursive. Si on adopte le critère du minimum d’erreur quadratique moyenne, il s’agit de calculer la loi conditionnelle du vecteur 68 aléatoire X n sachant Y 1:n . Comme le cadre est gaussien, il suffit de calculer la moyenne et la matrice de covariance : t c c c X n = E [ X n | Y 1:n ] et P n = E X n − X n X n − X n Y 1:n . (6.3) On définit également les quantités suivantes − c = E X |Y X n n 1:n−1 et P− n =E − c Xn − X n − t c X n − X n Y 1:n−1 . (6.4) Or, dans le cas gaussien, la matrice de covariance de X sachant Y = y ne dépend pas des observations : l’information supplémentaire Y = y ne fait que réduire l’incertitude que l’on a sur le vecteur aléatoire X. Donc les matrices de covariance conditionnelles P n et P − s’écrivent n t − − t − c c c c P n = E Xn − Xn Xn − Xn Xn − Xn . (6.5) et P n = E X n − X n 6.2.1 Prédiction/correction Supposons connue la loi conditionnelle du vecteur aléatoire X n−1 sachant Y 1:n−1 . Pour calculer la loi conditionnelle du vecteur aléatoire X n sachant Y 1:n , on procède en deux étapes : ? Dans l’étape de prédiction, on calcule la loi conditionnelle du vecteur aléatoire X n sachant les observations passées Y 1:n−1 , ce qui est facile à partir de l’équation (6.1). ? Dans l’étape de correction, on utilise la nouvelle observation Y n qui apporte une information nouvelle par rapport aux observations passées Y 1:n−1 , c’est-à-dire I n = Y n − E Y n | Y 1:n−1 . (6.6) D’après l’équation (6.2), on a − − c =H X −X c I n = Y n − H n E X n | Y 1:n−1 + E V n | Y 1:n−1 = Y n − H n X + V n, n n n n car V n et Y 1:n−1 sont indépendants ( FIXME: d’où ça vient ?). Lemme : Le processus {I n } est un processus gaussien à valeurs dans RM , appelé processus d’innovation. En particulier, I n est un vecteur aléatoire gaussien de dimension M , indépendant de Y 1:n−1 , de moyenne nulle et de matrice de covariance QI = H n P − H tn + QV . n n n Démonstration : Le processus (I 1 , . . . , I n ), à valeurs dans RM , est un vecteur aléatoire gaussien comme transformation affine du vecteur aléatoire gaussien (Y 1 , . . . , Y n ). Comme, en utilisant (6.6), on a par défi nition E I n | Y 1:n−1 = 0, le vecteur I n est indépendant de Y 1:n−1 ( FIXME: A mieux comprendre !). La matrice de covariance de {I n } s’écrit : I Q n t − − b b = E = E Hn Xn − Xn + V n Hn Xn − Xn + V n − − t − t t b b b = Hn E Xn − Xn Xn − Xn Hn + E V n Xn − Xn H tn + h i b− H E Xn − X V tn + E V n V tn n I n I tn n = Hn P − H tn + QV . n n étant E Vn donné que − t bn Xn − X − bn Xn − X est indépendant de = 0. 69 V n, et donc h E − bn Xn − X V tn i = On montre également le résultat suivant h t i − − − t c c c E Xn − Xn In Hn Xn − Xn + V n = E Xn − Xn h i − − t − t c c c Xn − Xn H tn + E X n − X V = E Xn − Xn n n H tn . = P− n 6.2.2 Théorème de Kalman-Bucy n o n o c On suppose que la matrice de covariance QV est inversible, pour tout instant n. Alors X n et P n sont n définis par les équations suivantes : − c c =F X X n−1 , n n (6.7) P− = F n P n−1 F tn QW , n (6.8) i h − − c =X c +K Y −H X c , X n n n n n n | {z } (6.9) Pn = P− − Kn Hn P − , n n (6.10) n et In où la matrice K n , de dimensions P × M , appelée gain de Kalman, est donnée par : h i−1 t − t V . Kn = P − H P H + Q H n n n n n n | {z } (6.11) QI n − c = X = E [X ] , avec les initialisations suivantes : X 1 1 1 6.2.3 = QX = cov(X 1 ). P− 1 1 Démonstration du théorème Les démonstrations des équations précédentes reposent essentiellement sur le résultat suivant, dont on trouvera une démonstration dans [Le 07] (Proposition 1.5, page 8) : Proposition : Soit Z = (X, Y ) un vecteur aléatoire gaussien de dimension P + M , de moyenne et de matrice de covariance ! ! c QX QXY X Z b Z= b , Q = , QY X QY Y respectivement. Si la matrice QY est est inversible, alors la densité conditionnelle pX |Y =y (x) du vecteur aléatoire X sachant Y = y, est une densité gaussienne de moyenne c X(y) = X + QXY QY −1 y−Y , c où X(y) représente l’estimateur au sens du minimum d’erreur quadratique moyenne, et de matrice de covariance −1 QY X . R = QX − QXY QY 70 − b 1 et P en fonction de X b 1 et P − ý X 1 1 Le vecteur aléatoire (X 1 , Y 1 ) est gaussien, de moyenne et de matrice de covariance données par X1 H1 X1 QX , ! QX H t1 1 H 1 QX 1 1 X H1 Q 1 H t1 + QV 1 respectivement. D’après la Proposition, la loi de X 1 sachant Y 1 est gaussienne, de moyenne et de matrice de covariance h i b 1 = X 1 + A Y 1 − H X 1 , P = QX − A H QX , X 1 1 1 1 avec A = X Q H t1 1 h X H 1 Q H t1 1 V +Q i−1 1 . 1 − b n et P − en fonction de X b n−1 et P ý X n n−1 Le vecteur aléatoire X n , Y 1 , . . . , Y n−1 est gaussien, et d’après la Proposition, la loi de X n sachant − b n et de matrice de covariance P − , cf. eq. (6.4), modifiées par (6.5). Y 1:n−1 est gaussienne, de moyenne X n On a − bn X = E X n | Y 1:n−1 = F n E X n−1 Y 1:n−1 + E W n Y 1:n−1 = b n−1 F nX h i compte-tenu que W n et Y n−1 sont indépendants. Par différence − b n = F X n−1 − X b n−1 + W , Xn − X n n de sorte que P− n = E b− Xn − X n b− Xn − X n t t b b = E F n X n−1 − X n−1 + W n F n X n−1 − X n−1 + W n t t t b b b = F n E X n−1 − X n−1 X n−1 − X n−1 F n + E W n X n−1 − X n−1 F tn + h i h i b n−1 W t + E W W t F E X n−1 − X n = F n P n−1 F tn n n W +Q . n 71 n − b n et P en fonction de X b n et P − ý X n n Le vecteur aléatoire (X n , Y 1 , . . . , Y n ) est gaussien, et d’après la Proposition, la loi de X n sachant Y 1:n b n et de matrice de covariance déterministe P . On a, en utilisant le résultat est gaussienne, de moyenne X k du Lemme : bn X = E [ X n | Y 1:n ] = b n + E Xn − X b n Y 1:n−1 , Y n X = b n + E Xn − X b n , I n . X Y 1:n−1 − h − − h − i i Le conditionnement par Y 1:n−1 disparaît car on retire à X n la quantité E X n | Y 1:n−1 . Par différence : bn Xn − X = = bn Xn − X − bn −X bn − X bn Xn − X − b n In . − E Xn − X − h − i de sorte que Pn = E = E bn Xn − X bn Xn − X h − bn Xn − X t − b n In − E Xn − X i − bn Xn − X h − b n In − E Xn − X it . Il suffit donc conditionnelle du vecteur de calculer la moyenne conditionnelle et la matrice de covariance b n sachant I n . Le vecteur aléatoire X n − X b n , I n est un vecteur aléatoire gaussien, aléatoire X n − X de moyenne nulle et de matrice de covariance P− n HP − n P− Ht n QI ! n Si la matrice Q est inversible alors a fortiori Q = H n P − H tn + QV l’est, et d’après la Proposition, on n n n n a immédiatement V I − bn = X b n + K In X n Pn = P− − Kn Hn P − n n avec K n donné par l’équation (6.11). 6.3 Filtre de Kalman étendu 72 Bibliographie [Bes86] J. Besag, On the statistical analysis of dirty pictures, J. Royal Statist. Soc. Ser. B 48 (1986), 259–302. [Bil97] J. Bilmes, A gentle tutorial on the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models, Technical report icsi-tr-97-021, University of Berkeley, 1997. [BPSW70] L. Baum, T. Petrie, G. Soules, and N. Weiss, A maximization technique occuring in the statistical analysis of probablistic functions of Markov chains, The Annals of Mathematical Statistics 41 (1970), no. 1, 164–171. [CD85] G. Celeux and D. Diebolt, The SEM algorithm : a probabilistic teacher algorithm derived from the EM algorithm for the mixture problem, Computational Statistics Quarterly 2 (1985), no. 1, 73–82. [CFP03] G. Celeux, F. Forbes, and N. Peyrard, EM procedures using mean field-like approximations for Markov model-based image segmentation, Pattern Recognition 36 (2003), no. 1, 131–144. [CG91] G. Celeux and G. Govaert, A classification EM algorithm for clustering and two stochastic versions, Rapport de recherche RR-1364, Institut National de Recherche en Informatique et en Automatique, 1991. [Cha89] B. Chalmond, An iterative Gibbsian technique for reconstruction of m-ary images, Pattern Recognition 22 (1989), no. 6, 747–761. [CMR05] O. Cappé, E. Moulines, and T. Rydén, Inference in hidden Markov models, Springer Series in Statistics, vol. 47, Springer-Verlag, 2005. [Dev85] P. A. Devijver, Baum’s forward-backward algorithm revisited, The Annals of Mathematical Statistics 3 (1985), no. 6, 369–373. [DHS01] O. Duda, P. E. Hart, and D. G. Stork, Pattern classification, Wiley, 2nd Edition, John Wiley & Sons, Inc., 2001. [DLR77] A. P. Dempster, N. M. Laird, and D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm (with discussion), J. Royal Statist. Soc. Ser. B 39 (1977), no. 1, 1–38. [eWP98] F. Salzenstein et W. Pieczynski, Sur le choix de méthode de segmentation statistique d’images, Traitement du Signal 15 (1998), no. 2, 119–128. [For73] G. D. Forney, The Viterbi algorithm, Proceedings of the IEEE 61 (1973), 268–278. [GG84] S. Geman and D. Geman, Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images, IEEE Trans. on Pattern Analysis and Machine Intelligence 6 (1984), 721–741. [GM85] S. Geman and D.E. McClure, Bayesian image analysis : an application to single photon emission tomography, Proc. Statist. Comput. sect. (Amer. Statist. Assoc. Washington DC), 1985, pp. 12– 18. [Guy93] X. Guyon, Champs aléatoires sur un réseau, C - Collection Techniques Stochastiques, Masson„ Paris, France, 1993. 73 [HBJ+ 97] D. M. Higdon, J. E. Bowsher, V. E. Johnson, T. G. Turkington, T. G. Gilland, and R. J. Jaszczak, Fully bayesian estimation of Gibbs hyperparameters for emission computed tomography data, IEEE Trans. on Medical Imaging 16 (1997), no. 5, 516–526. [HCF+ 06] J.-P. Haton, C. Cerisara, D. Fohr, Y. Laprie, and K. Smaïli, Reconnaissance automatique de la parole. Du signal à son interprétation, UniverSciences, Dunod, 2006. [LD89] S. Lakshmanan and H. Derin, Simultaneous parameter estimation and segmentation of Gibbs random fields, IEEE Trans. on Pattern Analysis and Machine Intelligence 11 (1989), 799–813. [Le 07] F. Le Gland, Introduction au filtrage en temps discret - Filtrage de Kalman et modèle de Markov cachés, Tech. report, Université de Rennes 1, 2007, enseigné dans le Master Recherche STI (Signal, Télédétection, Radar, Antennes, Micro-ondes, Propagation, Images). [Li01] S. Z. Li, Markov random field modeling in computer vision, 2e ed., Springer-Verlag, Tokyo, Japan, 2001. [Min83] M. Minoux, Programmation mathématique : théorie et algorithmes, Collection technique et scientifique des télécommunications, Dunod, 2983. [MK96] G. J. McLachlan and T. Khrishnan, The EM algorithm and extensions, Wiley Series in Probability and Statistics, John Wiley & Sons, Inc., New York, USA, 1996. [MMT87] J. Marroquin, S. Mitter, and T.Poggio, Probabilistic solution of ill-posed problems in computational vision, Journal of the American Statistical Association 82 (1987), 76–89. [MRR+ 53] N. Metropolis, A.W. Rosenbluth, N.M. Rosenbluthand, A.H. Teller, and E. Teller, Equation of state calculations by fast computing machines, J. Chemical Physics 21 (1953), 1087–1091. [MZ97] I. L. MacDonald and W. Zucchini, Hidden Markov and other models for discrete-valued time series, CRC Press, 1997. [P9́8] P. Pérez, Markov random fields and images, CWI Quarterly 11 (1998), no. 4, 413–437. [Pie92] W. Pieczynski, Statistical image segmentation, Machine Graphics and Vision 1 (1992), no. 1-2, 261–268. [Pie94] , Champs de Markov cachés et estimation conditionnelle itérative, Traitement du Signal 11 (1994), no. 2, 141–153. [Pie03] , Modèles de Markov en traitement d’images, Traitement du Signal 20 (2003), no. 3, 255–278. [Rab89] L. R. Rabiner, A tutorial on hidden Markov models and selected applications in speech recognition, Proc. IEEE 77 (1989), no. 2, 257–286. [Sag94] H. Sagan, Space filling curves, Springer-Verlag, New York, USA, 1994. [Ska92] W. Skarbek, Generalized Hilbert scan in image printing, R. Klette and W. G. Kropetsh ed., ch. Theoretical Foundations of Computer Vision, Akademie Verlag, Berlin, Germany, 1992. [ST99] M. Sigelle and F. Tupin, Champs de Markov en traitement d’images, Polycopié de cours, module c3m, perso.telecom-paristech.fr/~tupin/cours/polymrf.pdf, Télécom ParisTech, 1999. [TK06] S. Theodoridis and K. Koutroumbas, Pattern recognition, Academic Press, 3rd Edition, 2006. [TSM85] D. M. Titterington, A. F. M. Smith, and U. E. Makov, Statistical analysis of finite mixture distributions, Wiley Series in Probability and Statistics, John Wiley, 1985. [Tup97] F. Tupin, Reconnaissance des formes et analyse de scènes en imagerie radar à ouverture synthétique, Phd thesis, Télécom ParisTech, 1997. [Wu82] F.Y. Wu, The potts model, Reviews of Modern Physics 54 (1982), no. 1, 235–267. [YC03] Y. Yu and Q. Cheng, MRF parameter estimation by an accelerated method, Pattern Recognition Letters 24 (2003), no. 9-10, 1261–1269. [You88] L. Younes, Estimation and annealing for Gibbsian fields, Annales de l’Institut Henri Poincaré 24 (1988), no. 2, 269–294. 74 [You89] , Parametric inference for imperfectly observed Gibbsian fields, Probability Theory and Related Fields 82 (1989), 625–645. [Zha92] J. Zhang, The mean field theory in EM procedures for Markov random fields, IEEE Trans. on Signal Processing 40 (1992), no. 10, 2570–2583. [ZML94] J. Zhang, J. W. Modestino, and D. A. Langan, Maximum likelihood parameter estimation for unsupervised stochastic model-based image segmentation, IEEE Trans. on Image Processing 3 (1994), no. 4, 404–420. 75