Les approches bayésiennes et les modèles de Markov cachés Jean-François Flot Max Planck Institute for Dynamics and Self-Organization (Göttingen, Germany) [email protected] 04.02.13 Thomas Bayes Mathématicien et religieux anglais (1701?-1761) à qui l’ont doit le fameux « théorème de Bayes » Le théorème de Bayes Soit un modèle M et des données observées O, on a alors P(M|O) = P(O|M).P(M)/P(O) P(M) est la probabilité a priori du modèle (sans connaître les données O), également appelée prior P(M|O) est la probabilité du modèle connaissant les données, également appelée probabilité postérieure du modèle P(O|M) est la probabilité des données connaissant le modèle, également appelée la vraisemblance du modèle Le théorème de Bayes Comparons la probabilité de deux modèles M1 et M2: Soit un modèle M et des données observées O, on a alors P(M1|O)/P(M2|O) = (P(O|M1).P(M1))/(P(O|M2).P(M2)) Ceci peut également s’écrire : P(M1|O)/P(M2|O) = (P(M1)/P(M2)).(P(O|M1)/P(O|M2)) Le rapport de la probabilité des deux modèle connaissant les données est égal au rapport de probabilité initial (prior) multiplié par le rapport des vraisemblances des deux modèles. Le problème du prior Comment définir la probabilité a priori d’un modèle en l’absence de toute observation ? Si cette probabilité peut être définie de manière objective, alors l’approche bayésienne ne pose pas de problème. Malheureusement ce n’est généralement pas le cas, et du coup on peut préférer en rester au rapport des vraisemblances (méthode du maximum de vraisemblance). Un exemple d’approche bayésienne Application à la phylogénie Application à la phylogénie BEAST: Bayesian Evolutionary Analysis Sampling Trees Andreï Andreïevich Markov Mathématicien russe (Андрей Андреевич Марков) né en 1856 et décédé en 1922 « Un exemple de recherche statistique sur le texte ďEugène Onéguine illustrant la liaison des épreuves en chaîne», Bulletin de l'Académie impériale des sciences, 6e série, t. 7, 1913, p. 153-162. Il montre que chaque lettre du texte de Poutchkine dépend de celle qui la précède immédiatement dans le texte. Les processus de Markov Ce sont des processus stochastiques dont l’évolution future ne dépend que de l’état présent et non des états passés (il n’y a pas de « mémoire »). Un processus de Markov à temps discret (par opposition à temps continu) est appelé chaîne de Markov Un exemple de chaîne de Markov Un hamster ne connaît que trois endroits dans sa cage : les copeaux où il dort, sa mangeoire et sa roue. Toutes les minutes, il peut soit changer d'activité, soit continuer celle qu'il était en train de faire. •Quand il dort, il a 9 chances sur 10 de ne pas se réveiller la minute suivante. •Quand il se réveille, il y a 1 chance sur 2 qu'il aille manger et 1 chance sur 2 qu'il parte faire de l'exercice dans sa roue. •Le repas ne dure qu'une minute, après il fait autre chose. •Après avoir mangé, il y a 3 chances sur 10 qu'il parte courir dans sa roue, mais surtout 7 chances sur 10 qu'il retourne dormir. •Courir est fatigant ; il y a 8 chances sur 10 qu'il retourne dormir au bout d'une minute. Sinon il continue en oubliant qu'il est déjà un peu fatigué. (exemple inspiré d’un article de wikipédia) Un exemple de chaîne de Markov 0.005 0.2 0.9 0.8 0.3 0.7 0.005 Un exemple de chaîne de Markov On peut représenter les probabilités de transition entre les différents états du système par une matrice dite « matrice de transition » : Si le hamster dort initialement, Une minute plus tard on aura Un exemple de chaîne de Markov Au bout de deux minutes : De manière générale, Cette formule converge vers une limite qu’on peut calculer, ici Notre hamster passera donc 88,4% de son temps à dormir, 4,4% à manger et 7,2% à courir. Les modèles de Markov cachés (MMC) En anglais Hidden Markov Models (HMMs) ; introduits par Baum et Petrie en 1966 (article publié dans The Annals of Mathematical Statistics) Un exemple de MMC Modèle M H O Eddy, S. R. Hidden Markov models. Current Opinion in Structural Biology 6, 361-365 (1996). Les trois usages des MMC 1) Connaissant le modèle M et la séquence observée O, calculer P(O|M). 2) Connaissant le modèle M et la séquence observée O, déterminer la séquence cachée H la plus probable. 3) Connaissant la séquence observée O, trouver le modèle M pour lequel la probabilité P(O|M) est maximale. Ceci revient à entraîner le modèle à reconnaître un type de séquence particulière. Par exemple dans l’exemple précédent il est possible d’entraîner un MMC à reconnaître les régions codantes d’un génome (usage 3). Par la suite, on pourra se servir de ce MMC pour analyser la succession de régions codantes et non-codantes le long d’une séquence d’ADN (usage 2), et pour calculer la probabilité qu’une séquence d’ADN donnée soit codante ou non (usage 1) Utilisations des MMC en biologie - les MMC permettent d’établir des profils de séquences d’ADN (régions riches en AT contre régions riches en GC, régions codantes contre régions intergéniques,…) et de protéines (peptides signaux, domaines PFAM,…) - par ailleurs, établir les profils d’une série de séquences non-alignées permet de les aligner Utilisations des MMC en biologie Utilisations des MMC en biologie [email protected]