Exceptionnalité d`un motif dans une séquence hétérogène

publicité
Exceptionnalité d’un motif dans une
séquence hétérogène
Etienne Roquain, Sophie Schbath
Unité Mathématique, Informatique & Génome
INRA – Jouy-en-Josas
Algo. génomique, 27 Septembre 2007 – p.1
Introduction
Motivation : séquence d’ADN observée
a g a t g t t a g c g c a c a t g g ···
⇒ Trouver mots avec une fonction biologique particulière
mot = succession de lettres dans {a,c,g,t} (ex : gctggtgg)
Algo. génomique, 27 Septembre 2007 – p.2
Introduction
Motivation : séquence d’ADN observée
a g a t g t t a g c g c a c a t g g ···
⇒ Trouver mots avec une fonction biologique particulière
mot = succession de lettres dans {a,c,g,t} (ex : gctggtgg)
Approche statistique :
mots de fréquence significativement forte ou faible / modèle
Algo. génomique, 27 Septembre 2007 – p.2
Introduction
Motivation : séquence d’ADN observée
a g a t g t t a g c g c a c a t g g ···
⇒ Trouver mots avec une fonction biologique particulière
mot = succession de lettres dans {a,c,g,t} (ex : gctggtgg)
Approche statistique :
mots de fréquence significativement forte ou faible / modèle
Mesure de l’exceptionnalité d’un mot w :
p-value de w = P N (w) ≥ Nobs (w) ,
• N (w) comptage de w dans séquence aléatoire
• Nobs (w) comptage de w dans séquence d’ADN observée
Algo. génomique, 27 Septembre 2007 – p.2
Étapes générales de la démarche statistique
1. Choix du modèle pour la séquence.
Exceptionnalité par rapport à quoi ?
Classiquement modèle markovien homogène d’ordre m
⇒ except. par rapport à la composition en (m + 1)-mots
Algo. génomique, 27 Septembre 2007 – p.3
Étapes générales de la démarche statistique
1. Choix du modèle pour la séquence.
Exceptionnalité par rapport à quoi ?
Classiquement modèle markovien homogène d’ordre m
⇒ except. par rapport à la composition en (m + 1)-mots
2. Calcul p-value P N (w) ≥ Nobs (w) dans le modèle choisi.
Calcul exact (séq. longueur n < 10 000, m ≤ 1) [Robin et al. 99]
Grandes déviations, n → ∞ [Nuel 04, Pudlo 04]
Approx. loi N (w), n → ∞ :
• poissonniennes (mots rares) [Schbath 95]
• gaussiennes (mots fréquents) [Prum et al. 95]
Algo. génomique, 27 Septembre 2007 – p.3
Étapes générales de la démarche statistique
1. Choix du modèle pour la séquence.
Exceptionnalité par rapport à quoi ?
Classiquement modèle markovien homogène d’ordre m
⇒ except. par rapport à la composition en (m + 1)-mots
2. Calcul p-value P N (w) ≥ Nobs (w) dans le modèle choisi.
Calcul exact (séq. longueur n < 10 000, m ≤ 1) [Robin et al. 99]
Grandes déviations, n → ∞ [Nuel 04, Pudlo 04]
Approx. loi N (w), n → ∞ :
• poissonniennes (mots rares) [Schbath 95]
• gaussiennes (mots fréquents) [Prum et al. 95]
3. Selection des mots exceptionnels ?
Beaucoup de p-values à traiter (long. 7 → 16384 mots)
⇒ problème de tests multiples
Algo. génomique, 27 Septembre 2007 – p.3
Étapes générales de la démarche statistique
1. Choix du modèle pour la séquence.
Exceptionnalité par rapport à quoi ?
Classiquement modèle markovien homogène d’ordre m
⇒ except. par rapport à la composition en (m + 1)-mots
2. Calcul p-value P N (w) ≥ Nobs (w) dans le modèle choisi.
Calcul exact (séq. longueur n < 10 000, m ≤ 1) [Robin et al. 99]
Grandes déviations, n → ∞ [Nuel 04, Pudlo 04]
Approx. loi N (w), n → ∞ :
• poissonniennes (mots rares) [Schbath 95]
• gaussiennes (mots fréquents) [Prum et al. 95]
3. Selection des mots exceptionnels ?
Beaucoup de p-values à traiter (long. 7 → 16384 mots)
⇒ problème de tests multiples
Puis validation des motifs candidats en laboratoire
Algo. génomique, 27 Septembre 2007 – p.3
Pb : prise en compte de l’hétérogénéité
Critique du modèle de Markov homogène d’ordre m :
Suppose la même composition en (m + 1)-mots tout au long de la
séquence.
⇒ pour des séquences hétérogènes : mesure erronée de l’exceptionnalité
Algo. génomique, 27 Septembre 2007 – p.4
Pb : prise en compte de l’hétérogénéité
Critique du modèle de Markov homogène d’ordre m :
Suppose la même composition en (m + 1)-mots tout au long de la
séquence.
⇒ pour des séquences hétérogènes : mesure erronée de l’exceptionnalité
But de l’exposé :
Prendre en compte une hétérogénéité connue dans le calcul de
l’exceptionnalité d’un mot
Pour cela :
• modèle de Markov hétérogène à hétérogénéité connue
• approximations poissonniennes de la loi de N (w) dans ce modèle.
Généralisation approx. de Poisson composée de [Schbath 95]
Algo. génomique, 27 Septembre 2007 – p.4
Rappel : méthode homogène (1)
Chaîne de Markov homogène (ordre 1) :
Séquence X1 · · · Xn “de mémoire d’ordre 1” :
P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 )
= π(xi−1 , xi )
où π probabilité de transition indépendante de la position i (loi statio. µ).
Algo. génomique, 27 Septembre 2007 – p.5
Rappel : méthode homogène (1)
Chaîne de Markov homogène (ordre 1) :
Séquence X1 · · · Xn “de mémoire d’ordre 1” :
P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 )
= π(xi−1 , xi )
où π probabilité de transition indépendante de la position i (loi statio. µ).
X1
X2
X3
X4
X5
X6
X7
X8
···
Xn−1
Xn
Algo. génomique, 27 Septembre 2007 – p.5
Rappel : méthode homogène (1)
Chaîne de Markov homogène (ordre 1) :
Séquence X1 · · · Xn “de mémoire d’ordre 1” :
P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 )
= π(xi−1 , xi )
où π probabilité de transition indépendante de la position i (loi statio. µ).
µ
↓
X1
X2
π
X3
X4
X5
X6
X7
X8
···
Xn−1
Xn
π
Algo. génomique, 27 Septembre 2007 – p.5
Rappel : méthode homogène (1)
Chaîne de Markov homogène (ordre 1) :
Séquence X1 · · · Xn “de mémoire d’ordre 1” :
P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 )
= π(xi−1 , xi )
où π probabilité de transition indépendante de la position i (loi statio. µ).
µ
↓
X1
X2
π
X3
X4
X5
X6
X7
X8
···
Xn−1
Xn
π
Pour un mot w, comptage N (w) dans X1 · · · Xn variable aléatoire
⇒ approcher la loi de N (w) dans ce modèle homogène ?
Algo. génomique, 27 Septembre 2007 – p.5
Rappel : méthode homogène (2)
Par ex. w = aca :
a c a c a c a t t g a c a c t g a c a c a
Algo. génomique, 27 Septembre 2007 – p.6
Rappel : méthode homogène (2)
Par ex. w = aca :
a c a c a c a t t g a c a c t g a c a c a
|
{z
train de taille 3
}
| {z }
train de taille 1
|
{z
}
train de taille 2
Algo. génomique, 27 Septembre 2007 – p.6
Rappel : méthode homogène (2)
Par ex. w = aca :
a c a c a c a t t g a c a c t g a c a c a
|
{z
train de taille 3
}
| {z }
train de taille 1
|
{z
}
train de taille 2
Les paquets sont appelés des trains :
successions d’occ. chevauchantes de w maximales i.e. ne chevauchant
pas d’autres occ. de w ni avant ni après.
Algo. génomique, 27 Septembre 2007 – p.6
Rappel : méthode homogène (2)
Par ex. w = aca :
a c a c a c a t t g a c a c t g a c a c a
|
{z
train de taille 3
}
| {z }
train de taille 1
|
{z
}
train de taille 2
Les paquets sont appelés des trains :
successions d’occ. chevauchantes de w maximales i.e. ne chevauchant
pas d’autres occ. de w ni avant ni après.
N (w) = 1 × nb de trains de taille 1
+ 2 × nb de trains de taille 2
+ 3 × nb de trains de taille 3 + . . .
X
ek (w)
=
kN
k≥1
Algo. génomique, 27 Septembre 2007 – p.6
Rappel : méthode homogène (3)
Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) :
Algo. génomique, 27 Septembre 2007 – p.7
Rappel : méthode homogène (3)
Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) :
Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1),
ek (w).
ek (w) ' loi de Poisson de para. EN
loi du nombre de k -trains N
ek (w) sont asymptotiquement indépendants
et les N
Algo. génomique, 27 Septembre 2007 – p.7
Rappel : méthode homogène (3)
Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) :
Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1),
ek (w).
ek (w) ' loi de Poisson de para. EN
loi du nombre de k -trains N
ek (w) sont asymptotiquement indépendants
et les N
Comme N (w) =
P
on a L(N (w)) ' L
k≥1 k Nk (w),
P
e
k≥1 kZk
e
où Zk suit P ENk (w) indep.
Algo. génomique, 27 Septembre 2007 – p.7
Rappel : méthode homogène (3)
Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) :
Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1),
ek (w).
ek (w) ' loi de Poisson de para. EN
loi du nombre de k -trains N
ek (w) sont asymptotiquement indépendants
et les N
Comme N (w) =
P
on a L(N (w)) ' L
k≥1 k Nk (w),
P
e
k≥1 kZk
e
où Zk suit P ENk (w) indep.
ek (w), k ≥ 1).
L(N (w)) ' CP(EN
Algo. génomique, 27 Septembre 2007 – p.7
Rappel : méthode homogène (3)
Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) :
Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1),
ek (w).
ek (w) ' loi de Poisson de para. EN
loi du nombre de k -trains N
ek (w) sont asymptotiquement indépendants
et les N
Comme N (w) =
P
on a L(N (w)) ' L
k≥1 k Nk (w),
P
e
k≥1 kZk
e
où Zk suit P ENk (w) indep.
ek (w), k ≥ 1).
L(N (w)) ' CP(EN
ek (w) comptage attendu d’un k -train ?
Calcul de EN
Algo. génomique, 27 Septembre 2007 – p.7
Rappel : méthode homogène (4)
P(un train de taille k commence en position i) ?
Algo. génomique, 27 Septembre 2007 – p.8
Rappel : méthode homogène (4)
P(un train de taille k commence en position i) ?
1−a
a
|
a
a
a
{z
train de taille k = 5
On note :
a la probabilité d’auto-recouvrement de w
µ(w) la probabilité d’occ. de w
µ(w)
1−a
}
Algo. génomique, 27 Septembre 2007 – p.8
Rappel : méthode homogène (4)
P(un train de taille k commence en position i) ?
1−a
a
|
a
a
a
{z
train de taille k = 5
On note :
a la probabilité d’auto-recouvrement de w
µ(w) la probabilité d’occ. de w
µ(w)
1−a
}
ek (w) = (n − h + 1)(1 − a)2 ak−1 µ(w).
⇒ EN
Algo. génomique, 27 Septembre 2007 – p.8
Rappel : méthode homogène (5)
Le résultat homogène :
Théorème [Schbath 95] :
Dans un modèle markovien homogène stationnaire, si EN (w) = O(1),
L(N (w)) ' CP hom ,
CP hom := CP (n − h + 1)(1 − a)2 ak−1 µ(w), k ≥ 1
Algo. génomique, 27 Septembre 2007 – p.9
Rappel : méthode homogène (5)
Le résultat homogène :
Théorème [Schbath 95] :
Dans un modèle markovien homogène stationnaire, si EN (w) = O(1),
L(N (w)) ' CP hom ,
CP hom := CP (n − h + 1)(1 − a)2 ak−1 µ(w), k ≥ 1
Résultat analogue dans un modèle hétérogène ?
Algo. génomique, 27 Septembre 2007 – p.9
Méthode hétérogène
Segmentation :
Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}.
1
X1
1
X2
2
X3
1
X4
2
X5
2
X6
2
X7
1
X8
···
···
1
Xn−1
1
Xn
Algo. génomique, 27 Septembre 2007 – p.10
Méthode hétérogène
Segmentation :
Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}.
1
X1
1
X2
2
X3
1
X4
2
X5
2
X6
2
X7
1
X8
···
···
1
Xn−1
1
Xn
La segmentation s1 · · · sn est déterministe et connue a priori
Algo. génomique, 27 Septembre 2007 – p.10
Méthode hétérogène
Segmentation :
Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}.
1
X1
1
X2
2
X3
1
X4
2
X5
2
X6
2
X7
1
X8
···
···
1
Xn−1
1
Xn
La segmentation s1 · · · sn est déterministe et connue a priori
Elle peut représenter différentes informations biologiques :
• région codante / non-codante
• région conservée / variable
• ...
Algo. génomique, 27 Septembre 2007 – p.10
Méthode hétérogène
Segmentation :
Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}.
1
X1
1
X2
2
X3
1
X4
2
X5
2
X6
2
X7
1
X8
···
···
1
Xn−1
1
Xn
La segmentation s1 · · · sn est déterministe et connue a priori
Elle peut représenter différentes informations biologiques :
• région codante / non-codante
• région conservée / variable
• ...
Notation : séquence X1 · · · Xn coloriée selon les états 1 ou 2
X1
X2
X3
X4
X5
X6
X7
X8
···
Xn−1
Xn
Algo. génomique, 27 Septembre 2007 – p.10
Méthode hétérogène : modèle
Modèle de Markov hétérogène par morceaux :
concaténation (selon la segmentation) de modèles markoviens
homogènes indépendants
• dans l’état 1 : probabilité de transition π1 (loi statio. µ1 )
• dans l’état 2 : probabilité de transition π2 (loi statio. µ2 )
Algo. génomique, 27 Septembre 2007 – p.11
Méthode hétérogène : modèle
Modèle de Markov hétérogène par morceaux :
concaténation (selon la segmentation) de modèles markoviens
homogènes indépendants
• dans l’état 1 : probabilité de transition π1 (loi statio. µ1 )
• dans l’état 2 : probabilité de transition π2 (loi statio. µ2 )
X1
X2
X3
X4
X5
X6
X7
X8
···
Xn−1
Xn
Algo. génomique, 27 Septembre 2007 – p.11
Méthode hétérogène : modèle
Modèle de Markov hétérogène par morceaux :
concaténation (selon la segmentation) de modèles markoviens
homogènes indépendants
• dans l’état 1 : probabilité de transition π1 (loi statio. µ1 )
• dans l’état 2 : probabilité de transition π2 (loi statio. µ2 )
µ1
µ2
µ1
µ2
↓
X1
↓
X3
↓
X4
↓
X5
X2
π1
X6
X7
X8
···
Xn−1
Xn
π2
Algo. génomique, 27 Septembre 2007 – p.11
Méthode hétérogène : modèle
Modèle de Markov hétérogène par morceaux :
concaténation (selon la segmentation) de modèles markoviens
homogènes indépendants
• dans l’état 1 : probabilité de transition π1 (loi statio. µ1 )
• dans l’état 2 : probabilité de transition π2 (loi statio. µ2 )
µ1
µ2
µ1
µ2
↓
X1
↓
X3
↓
X4
↓
X5
X2
π1
X6
X7
X8
···
Xn−1
Xn
π2
⇒ pour un mot w, loi du comptage N (w) dans ce modèle hétérogène ?
Algo. génomique, 27 Septembre 2007 – p.11
Méthode hétérogène : comptage multicolore
N (w) compte les occurrences multicolores :
a c a c a c a t t g a c a c t g a c a c a
Algo. génomique, 27 Septembre 2007 – p.12
Méthode hétérogène : comptage multicolore
N (w) compte les occurrences multicolores :
a c a c a c a t t g a c a c t g a c a c a
|
{z
train mult. de taille 3
}
| {z }
train mult. de taille 1
|
{z
}
train mult. de taille 2
Algo. génomique, 27 Septembre 2007 – p.12
Méthode hétérogène : comptage multicolore
N (w) compte les occurrences multicolores :
a c a c a c a t t g a c a c t g a c a c a
|
{z
train mult. de taille 3
}
| {z }
train mult. de taille 1
|
{z
}
train mult. de taille 2
Probabilité d’occurrence d’un train multicolore ⇒ trop complexe !
Algo. génomique, 27 Septembre 2007 – p.12
Méthode hétérogène : comptage multicolore
N (w) compte les occurrences multicolores :
a c a c a c a t t g a c a c t g a c a c a
|
{z
train mult. de taille 3
}
| {z }
train mult. de taille 1
|
{z
}
train mult. de taille 2
Probabilité d’occurrence d’un train multicolore ⇒ trop complexe !
Idée : réduire N (w) en négligeant certaines occ. coloriées de w
Compromis : plus on compte d’occurrences
• plus approx. précise (comptage proche de N (w))
• plus approx. complexe (difficulté de calcul)
Algo. génomique, 27 Septembre 2007 – p.12
Méthode hétérogène : les comptages
N (w) compte les occurrences multicolores : ici N (w) = 6
a c a c a c a t t g a c a c t g a c a c a
Algo. génomique, 27 Septembre 2007 – p.13
Méthode hétérogène : les comptages
N (w) compte les occurrences multicolores : ici N (w) = 6
a c a c a c a t t g a c a c t g a c a c a
Nuni (w) compte les occ. unicolores (∈ un segment) : ici Nuni (w) = 2
a c a c a c a t t g a c a c t g a c a c a
Algo. génomique, 27 Septembre 2007 – p.13
Méthode hétérogène : les comptages
N (w) compte les occurrences multicolores : ici N (w) = 6
a c a c a c a t t g a c a c t g a c a c a
Nuni (w) compte les occ. unicolores (∈ un segment) : ici Nuni (w) = 2
a c a c a c a t t g a c a c t g a c a c a
Nbic (w) compte les occ. dans les trains bicolores (au plus à cheval sur
deux segments) : ici Nbic (w) = 3
a c a c a c a t t g a c a c t g a c a c a
| {z }
train bic. de taille 1
|
{z
}
train bic. de taille 2
Algo. génomique, 27 Septembre 2007 – p.13
Méthode hétérogène : approx. avec Nuni (w)
Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) :
⇒ L(N (w)) ' L(Nuni (w))
Algo. génomique, 27 Septembre 2007 – p.14
Méthode hétérogène : approx. avec Nuni (w)
Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) :
⇒ L(N (w)) ' L(Nuni (w))
Démarche pour approcher la loi de Nuni (w) :
1. Utiliser la méthode homogène de [Schbath 95] sur chaque segment
2. Regrouper les différentes lois de Poisson composées (indépendantes)
Algo. génomique, 27 Septembre 2007 – p.14
Méthode hétérogène : approx. avec Nuni (w)
Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) :
⇒ L(N (w)) ' L(Nuni (w))
Démarche pour approcher la loi de Nuni (w) :
1. Utiliser la méthode homogène de [Schbath 95] sur chaque segment
2. Regrouper les différentes lois de Poisson composées (indépendantes)
Proposition : Lorsque EN (w) = O(1) et ρh = o(n) (peu de segments),
L(N (w)) ' CP uni ,
avec CP uni := CP hom ∗ CP hom
Algo. génomique, 27 Septembre 2007 – p.14
Méthode hétérogène : approx. avec Nuni (w)
Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) :
⇒ L(N (w)) ' L(Nuni (w))
Démarche pour approcher la loi de Nuni (w) :
1. Utiliser la méthode homogène de [Schbath 95] sur chaque segment
2. Regrouper les différentes lois de Poisson composées (indépendantes)
Proposition : Lorsque EN (w) = O(1) et ρh = o(n) (peu de segments),
L(N (w)) ' CP uni ,
avec CP uni := CP hom ∗ CP hom
Approx. par CP uni mauvaise si beaucoup de ruptures !
Algo. génomique, 27 Septembre 2007 – p.14
Méthode hétérogène : approx. avec Nbic (w)
Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand :
⇒ L(N (w)) ' L(Nbic (w))
Algo. génomique, 27 Septembre 2007 – p.15
Méthode hétérogène : approx. avec Nbic (w)
Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand :
⇒ L(N (w)) ' L(Nbic (w))
Démarche :
ek (w), k ≥ 1)
1. Utiliser la méthode de Chen-Stein pour N (w) ' CP(EN
ek (w) ' EN
ek,bic (w) comptage attendu des k -trains bicolores
2. EN
ek,bic (w)(assez technique)
3. Calcul de EN
Algo. génomique, 27 Septembre 2007 – p.15
Méthode hétérogène : approx. avec Nbic (w)
Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand :
⇒ L(N (w)) ' L(Nbic (w))
Démarche :
ek (w), k ≥ 1)
1. Utiliser la méthode de Chen-Stein pour N (w) ' CP(EN
ek (w) ' EN
ek,bic (w) comptage attendu des k -trains bicolores
2. EN
ek,bic (w)(assez technique)
3. Calcul de EN
Théorème : Lorsque EN (w) = O(1) et Lmin /h → ∞,
L(N (w)) ' CP bic
Avec une expression explicite (mais compliquée) pour CP bic .
Algo. génomique, 27 Septembre 2007 – p.15
Méthode hétérogène : approx. avec Nbic (w)
Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand :
⇒ L(N (w)) ' L(Nbic (w))
Démarche :
ek (w), k ≥ 1)
1. Utiliser la méthode de Chen-Stein pour N (w) ' CP(EN
ek (w) ' EN
ek,bic (w) comptage attendu des k -trains bicolores
2. EN
ek,bic (w)(assez technique)
3. Calcul de EN
Théorème : Lorsque EN (w) = O(1) et Lmin /h → ∞,
L(N (w)) ' CP bic
Avec une expression explicite (mais compliquée) pour CP bic .
Rq : condition Lmin /h → ∞ forte (Lmin ≥ 5h suffit en pratique)
Algo. génomique, 27 Septembre 2007 – p.15
Méthode hétérogène : petit bilan
Deux approx. loi N (w) lorsque la séquence est hétérogène (et w rare) :
• par CP uni : bonne si “peu" de ruptures i.e. ρh/n “petit"
• par CP bic : bonne si segments “longs" i.e. Lmin “grand"
Algo. génomique, 27 Septembre 2007 – p.16
Méthode hétérogène : petit bilan
Deux approx. loi N (w) lorsque la séquence est hétérogène (et w rare) :
• par CP uni : bonne si “peu" de ruptures i.e. ρh/n “petit"
• par CP bic : bonne si segments “longs" i.e. Lmin “grand"
Remarques :
- Généralisation à l’ordre m ≥ 2 possible
- Temps de calcul raisonnable pour CP uni et plus long pour CP bic
Algo. génomique, 27 Septembre 2007 – p.16
Méthode hétérogène : petit bilan
Deux approx. loi N (w) lorsque la séquence est hétérogène (et w rare) :
• par CP uni : bonne si “peu" de ruptures i.e. ρh/n “petit"
• par CP bic : bonne si segments “longs" i.e. Lmin “grand"
Remarques :
- Généralisation à l’ordre m ≥ 2 possible
- Temps de calcul raisonnable pour CP uni et plus long pour CP bic
Qualités des approx. CP uni , CP bic ?
On propose une étude de simulation
Algo. génomique, 27 Septembre 2007 – p.16
Données simulées
Segmentation régulière n = 100 000 avec nombre de ruptures ρ
ρ=1
ρ=3
ρ=8
Algo. génomique, 27 Septembre 2007 – p.17
Données simulées
Segmentation régulière n = 100 000 avec nombre de ruptures ρ
ρ=1
ρ=3
ρ=8
Modèle hétérogène d’ordre 0 avec “niveau d’hétérogénéité” ε
µ1 (a) = µ1 (g) = 0.25 + ε
µ1 (c) = µ1 (t) = 0.25 − ε
µ2 (a) = µ2 (g) = 0.25 − ε
µ2 (c) = µ2 (t) = 0.25 + ε
Algo. génomique, 27 Septembre 2007 – p.17
Données simulées
Segmentation régulière n = 100 000 avec nombre de ruptures ρ
ρ=1
ρ=3
ρ=8
Modèle hétérogène d’ordre 0 avec “niveau d’hétérogénéité” ε
µ1 (a) = µ1 (g) = 0.25 + ε
µ1 (c) = µ1 (t) = 0.25 − ε
µ2 (a) = µ2 (g) = 0.25 − ε
µ2 (c) = µ2 (t) = 0.25 + ε
On considère : loi empirique de N (w) (100 000 simulations)
CP uni , CP bic et loi de Poisson ajustée
Avec w = aaaaaaa
Algo. génomique, 27 Septembre 2007 – p.17
Données simulées
0.20
ε = 0.05, ρ = 100
0.00
0.05
0.10
0.15
approx Poisson
loi empirique
approx PCuni
approx PCbic
5
10
15
20
- Approx. par CP uni et CP bic bonnes hρ/n ' 0.006
- Approx. par Poisson pas bonne (mot très recouvrant)
Algo. génomique, 27 Septembre 2007 – p.18
Données simulées
0.20
ε = 0.05, ρ = 1000
0.00
0.05
0.10
0.15
approx Poisson
loi empirique
approx PCuni
approx PCbic
5
10
15
20
- Approx. par CP bic bonne
- Approx. par CP uni moins bonne hρ/n ' 0.056
Algo. génomique, 27 Septembre 2007 – p.19
Données simulées
0.10
ε = 0.01, ρ = 2000
0.00
0.02
0.04
0.06
0.08
approx Poisson
loi empirique
approx PCuni
approx PCbic
0
10
20
30
40
50
- Approx. par CP bic bonne
- Approx. par CP uni mauvaise hρ/n ' 0.11
Algo. génomique, 27 Septembre 2007 – p.20
Données simulées
Conclusion des simulations :
• Qualité de l’approx. par CP uni assez bien évaluée par hρ/n
• Approx. par CP bic valable sur une plus large bande
Algo. génomique, 27 Septembre 2007 – p.21
Données simulées
Conclusion des simulations :
• Qualité de l’approx. par CP uni assez bien évaluée par hρ/n
• Approx. par CP bic valable sur une plus large bande
⇒ En pratique :
- si hρ/n petit (par ex : hρ/n ≤ 0.01), on utilise CP uni
- sinon, on utilise CP bic (calcul plus long)
Algo. génomique, 27 Septembre 2007 – p.21
Données simulées
Conclusion des simulations :
• Qualité de l’approx. par CP uni assez bien évaluée par hρ/n
• Approx. par CP bic valable sur une plus large bande
⇒ En pratique :
- si hρ/n petit (par ex : hρ/n ≤ 0.01), on utilise CP uni
- sinon, on utilise CP bic (calcul plus long)
Comportement sur des vraies données ?
Notamment comparaison méthode hétérogène / méthode homogène
Algo. génomique, 27 Septembre 2007 – p.21
Données réelles : exemple 1
Génome du phage Lambda
Séquence long. n = 48502 :
gggcggcgacctcgcgggttttcgctatttatgaaaattttccggtttaa
ggcgtttccgttcttcttcgtcataacttaatgtttttatttaaaatacc
ctctgaaaagaaaggaaacgacaggtgctgaaagcgaggctttttggcct...
Algo. génomique, 27 Septembre 2007 – p.22
Données réelles : exemple 1
Génome du phage Lambda
Séquence long. n = 48502 :
gggcggcgacctcgcgggttttcgctatttatgaaaattttccggtttaa
ggcgtttccgttcttcttcgtcataacttaatgtttttatttaaaatacc
ctctgaaaagaaaggaaacgacaggtgctgaaagcgaggctttttggcct...
Segmentation codant dans le sens direct / non codant dans le sens direct :
Algo. génomique, 27 Septembre 2007 – p.22
Données réelles : exemple 1
Génome du phage Lambda
Séquence long. n = 48502 :
gggcggcgacctcgcgggttttcgctatttatgaaaattttccggtttaa
ggcgtttccgttcttcttcgtcataacttaatgtttttatttaaaatacc
ctctgaaaagaaaggaaacgacaggtgctgaaagcgaggctttttggcct...
Segmentation codant dans le sens direct / non codant dans le sens direct :
Mots except de longueur h = 5.
- méthode homogène CP hom
- méthode hétérogène CP uni (ρh/n ' 0.003)
Algo. génomique, 27 Septembre 2007 – p.22
Données réelles : exemple 1
p-values dans [0, 1] → score dans R (transfo. quantile)
Algo. génomique, 27 Septembre 2007 – p.23
Données réelles : exemple 1
p-values dans [0, 1] → score dans R (transfo. quantile)
Score hétérogène
m=0
Score homogène
Algo. génomique, 27 Septembre 2007 – p.23
Données réelles : exemple 1
p-values dans [0, 1] → score dans R (transfo. quantile)
Score hétérogène
m=1
Score homogène
Algo. génomique, 27 Septembre 2007 – p.24
Données réelles : exemple 1
p-values dans [0, 1] → score dans R (transfo. quantile)
Score hétérogène
m=3
Score homogène
Algo. génomique, 27 Septembre 2007 – p.25
Données réelles : exemple 2
Séquence : concaténation E. Coli + H. influenzae
(100 000 premières bases)
Segmentation : 1 pour E. Coli / 2 pour H. influenzae
⇒ mots exceptionnels dans les deux génomes simultanément ?
Algo. génomique, 27 Septembre 2007 – p.26
Données réelles : exemple 2
Mots de longueur h = 8, concaténation E. Coli + H. influenzae
Score hétérogène
m=0
Score homogène
Algo. génomique, 27 Septembre 2007 – p.27
Données réelles : exemple 2
Mots de longueur h = 8, concaténation E. Coli + H. influenzae
Score hétérogène
m=2
Score homogène
Algo. génomique, 27 Septembre 2007 – p.28
Données réelles : exemple 2
Mots de longueur h = 8, concaténation E. Coli + H. influenzae
Score hétérogène
m=5
Score homogène
Algo. génomique, 27 Septembre 2007 – p.29
Données réelles : exemple 3
Mots de longueur h = 8, concaténation
Clostridium botulinum (28% GC) + Pseudomonas aeruginosa (66% GC)
Score hétérogène
m=2
Score homogène
Algo. génomique, 27 Septembre 2007 – p.30
Conclusion
Pour rechercher les mots de fréquence exceptionnelle dans un génome :
Deux approx. pour la loi de N (w) :
lorsque la séquence est markovienne hétérogène pour w rare
• par CP uni : bonne si ρh/n “petit"
• par CP bic : plus précise mais plus longue à calculer
Algo. génomique, 27 Septembre 2007 – p.31
Conclusion
Pour rechercher les mots de fréquence exceptionnelle dans un génome :
Deux approx. pour la loi de N (w) :
lorsque la séquence est markovienne hétérogène pour w rare
• par CP uni : bonne si ρh/n “petit"
• par CP bic : plus précise mais plus longue à calculer
En pratique :
• pour mesurer l’exceptionnalité d’un mot : nouvelle méthode qui
prend en compte une segmentation donnée a priori
• À préférer à la méthode homogène si la séquence est réellement
hétérogène
Algo. génomique, 27 Septembre 2007 – p.31
Conclusion
Pour rechercher les mots de fréquence exceptionnelle dans un génome :
Deux approx. pour la loi de N (w) :
lorsque la séquence est markovienne hétérogène pour w rare
• par CP uni : bonne si ρh/n “petit"
• par CP bic : plus précise mais plus longue à calculer
En pratique :
• pour mesurer l’exceptionnalité d’un mot : nouvelle méthode qui
prend en compte une segmentation donnée a priori
• À préférer à la méthode homogène si la séquence est réellement
hétérogène
Autre conséquence : recherche dans plusieurs génomes simultanément
Algo. génomique, 27 Septembre 2007 – p.31
Conclusion
Pour rechercher les mots de fréquence exceptionnelle dans un génome :
Deux approx. pour la loi de N (w) :
lorsque la séquence est markovienne hétérogène pour w rare
• par CP uni : bonne si ρh/n “petit"
• par CP bic : plus précise mais plus longue à calculer
En pratique :
• pour mesurer l’exceptionnalité d’un mot : nouvelle méthode qui
prend en compte une segmentation donnée a priori
• À préférer à la méthode homogène si la séquence est réellement
hétérogène
Autre conséquence : recherche dans plusieurs génomes simultanément
Disponibilité : en cours d’implémentation dans R’MES
(http://genome.jouy.inra.fr/ssb/rmes/)
Algo. génomique, 27 Septembre 2007 – p.31
Merci de votre attention!
Algo. génomique, 27 Septembre 2007 – p.32
Téléchargement