3
A.Carbone - UPMC 9
Modèles de Markov cachés (HMM)
Un modèle de Markov caché est un triplet M=(Σ,Q, Θ)où :
-Σest un alphabet de symboles
- Q est un ensemble fini d’états, capables d’émettre des symboles de Σ
-Θest un ensemble de probabilités qui contient:
-probabilités de transition entre états, dénotées akl pour chaque k,l ∈Q
-probabilités d’émission, dénotées ek(b) pour chaque k ∈Q et b ∈Σ.
Un chemin Π= (π1,…, πL)dans le modèle M est une séquence d’états.
Le chemin Πsuit la chaîne de Markov, de telle façon que la probabilité d’arriver
dans un état dépend exclusivement de l’état précèdent.
Modèle de Markov Caché d’ordre 1
A.Carbone - UPMC 10
Etant donné un chemin Πet une séquence X = (x1,…,xL) ∈Σon peut alors définir :
akl = P(πi= l | πi-1=k)
la probabilité de transition entre états :
la probabilité d’émission du symbole b de l’état k :
(cad que le symbole b soit vu à partir de l’état k)
ek(b) = P( xi = b | πi = k)
La probabilité que la séquence X soit générée par le modèle M étant donné le
chemin Πest alors :
P(X, Π) = aπ0,π1 ·ΠLi=1 eπi(xi) · aπi,πi+1
où π0= begin et πL+1 = end sont deux états que l’on ajoute au modèle.
11
HMM pour détecter îles CpG dans une longue séquence d’ADN
Etats:
Symboles émis:
A+C+G+T+A-C-G-T-
ACGTACGT
Table de probabilités des transitions aπi,πi+1 dans îles CpG, où p est la probabilité de rester
dans une île et q est la probabilité de rester hors d’une île.
Hypothèses: 1. on perd la mémoire quand on bouge dans/hors une île CpG;
2. on ne considère pas des probabilités représentant le « fond » (background);
3. la probabilité d’émission des états X+et X-est 1 pour le symbole X et 0 pour les autres
symboles. A.Carbone - UPMC 12
Problème du décodage
Entrée: un HMM M=(Σ,Q, Θ) et une séquence X ∈Σ*, pour lesquels on ne
connaît pas le chemin Π= (π1,…, πL)
Sortie: le plus probable chemin Π* généré pour X, cad un chemin t.q. P(X, Π*)
est maximisée.
Connaître le chemin Π* peux nous aider à localiser les îles CpG:
étant donné Π* on peut le traverser pour déterminer que toutes les parties
qui passent dans des états « + » sont des îles CpG.
X le génome et Π* le chemin de lecture du génome