Les approches bayésiennes et les modèles de

Les approches bayésiennes et les
modèles de Markov cachés
Jean-François Flot
Max Planck Institute for Dynamics and Self-Organization
(Göttingen, Germany)
[email protected]
04.02.13
Thomas Bayes
Mathématicien et religieux
anglais (1701?-1761) à qui
l’ont doit le fameux
« théorème de Bayes »
Le théorème de Bayes
Soit un modèle M et des données observées O, on a alors
P(M|O) = P(O|M).P(M)/P(O)
P(M) est la probabilité a priori du modèle (sans connaître
les données O), également appelée prior
P(M|O) est la probabilité du modèle connaissant les
données, également appelée probabilité postérieure du
modèle
P(O|M) est la probabilité des données connaissant le
modèle, également appelée la vraisemblance du modèle
Le théorème de Bayes
Comparons la probabilité de deux modèles M1 et M2: Soit
un modèle M et des données observées O, on a alors
P(M1|O)/P(M2|O) = (P(O|M1).P(M1))/(P(O|M2).P(M2))
Ceci peut également s’écrire :
P(M1|O)/P(M2|O) = (P(M1)/P(M2)).(P(O|M1)/P(O|M2))
Le rapport de la probabilité des deux modèle connaissant
les données est égal au rapport de probabilité initial (prior)
multiplié par le rapport des vraisemblances des deux
modèles.
Le problème du prior
Comment définir la probabilité a priori d’un modèle en
l’absence de toute observation ?
Si cette probabilité peut être définie de manière objective,
alors l’approche bayésienne ne pose pas de problème.
Malheureusement ce n’est généralement pas le cas, et du
coup on peut préférer en rester au rapport des
vraisemblances (méthode du maximum de vraisemblance).
Un exemple d’approche bayésienne
Application à la phylogénie
Application à la phylogénie
BEAST: Bayesian Evolutionary
Analysis Sampling Trees
Andreï Andreïevich Markov
Mathématicien russe
(Андрей Андреевич
Марков) né en 1856 et
décédé en 1922
« Un exemple de recherche
statistique sur le texte ďEugène
Onéguine illustrant la liaison des
épreuves en chaîne», Bulletin de
l'Académie impériale des sciences,
6e série, t. 7, 1913, p. 153-162.
Il montre que chaque lettre du
texte de Poutchkine dépend de
celle qui la précède
immédiatement dans le texte.
Les processus de Markov
Ce sont des processus stochastiques
dont l’évolution future ne dépend que
de l’état présent et non des états
passés (il n’y a pas de « mémoire »).
Un processus de Markov à temps
discret (par opposition à temps
continu) est appelé chaîne de Markov
Un exemple de chaîne de Markov
Un hamster ne connaît que trois endroits dans sa cage : les copeaux où il
dort, sa mangeoire et sa roue. Toutes les minutes, il peut soit changer
d'activité, soit continuer celle qu'il était en train de faire.
•Quand il dort, il a 9 chances sur 10 de ne pas se réveiller la minute
suivante.
•Quand il se réveille, il y a 1 chance sur 2 qu'il aille manger et 1 chance sur
2 qu'il parte faire de l'exercice dans sa roue.
•Le repas ne dure qu'une minute, après il fait autre chose.
•Après avoir mangé, il y a 3 chances sur 10 qu'il parte courir dans sa roue,
mais surtout 7 chances sur 10 qu'il retourne dormir.
•Courir est fatigant ; il y a 8 chances sur 10 qu'il retourne dormir au bout
d'une minute. Sinon il continue en oubliant qu'il est déjà un peu fatigué.
(exemple inspiré d’un article de wikipédia)
Un exemple de chaîne de Markov
0.005
0.2
0.9
0.8
0.3
0.7
0.005
Un exemple de chaîne de Markov
On peut représenter les probabilités de transition entre les
différents états du système par une matrice dite « matrice de
transition » :
Si le hamster dort initialement,
Une minute plus tard on aura
Un exemple de chaîne de Markov
Au bout de deux minutes :
De manière générale,
Cette formule converge vers une limite qu’on peut calculer,
ici
Notre hamster passera donc 88,4% de son temps à dormir,
4,4% à manger et 7,2% à courir.
Les modèles de Markov cachés
(MMC)
En anglais Hidden Markov Models (HMMs) ; introduits par Baum et Petrie en
1966 (article publié dans The Annals of Mathematical Statistics)
Un exemple de MMC
Modèle M
H
O
Eddy, S. R. Hidden Markov models. Current Opinion in Structural Biology 6, 361-365 (1996).
Les trois usages des MMC
1) Connaissant le modèle M et la séquence observée O,
calculer P(O|M).
2) Connaissant le modèle M et la séquence observée O,
déterminer la séquence cachée H la plus probable.
3) Connaissant la séquence observée O, trouver le modèle
M pour lequel la probabilité P(O|M) est maximale. Ceci
revient à entraîner le modèle à reconnaître un type de
séquence particulière.
Par exemple dans l’exemple précédent il est possible d’entraîner un MMC à
reconnaître les régions codantes d’un génome (usage 3). Par la suite, on pourra se
servir de ce MMC pour analyser la succession de régions codantes et non-codantes le
long d’une séquence d’ADN (usage 2), et pour calculer la probabilité qu’une
séquence d’ADN donnée soit codante ou non (usage 1)
Utilisations des MMC en biologie
- les MMC permettent d’établir des profils de séquences
d’ADN (régions riches en AT contre régions riches en
GC, régions codantes contre régions intergéniques,…) et
de protéines (peptides signaux, domaines PFAM,…)
- par ailleurs, établir les profils d’une série de séquences
non-alignées permet de les aligner
Utilisations des MMC en biologie
Utilisations des MMC en biologie
[email protected]