Exceptionnalité d’un motif dans une séquence hétérogène Etienne Roquain, Sophie Schbath Unité Mathématique, Informatique & Génome INRA – Jouy-en-Josas Algo. génomique, 27 Septembre 2007 – p.1 Introduction Motivation : séquence d’ADN observée a g a t g t t a g c g c a c a t g g ··· ⇒ Trouver mots avec une fonction biologique particulière mot = succession de lettres dans {a,c,g,t} (ex : gctggtgg) Algo. génomique, 27 Septembre 2007 – p.2 Introduction Motivation : séquence d’ADN observée a g a t g t t a g c g c a c a t g g ··· ⇒ Trouver mots avec une fonction biologique particulière mot = succession de lettres dans {a,c,g,t} (ex : gctggtgg) Approche statistique : mots de fréquence significativement forte ou faible / modèle Algo. génomique, 27 Septembre 2007 – p.2 Introduction Motivation : séquence d’ADN observée a g a t g t t a g c g c a c a t g g ··· ⇒ Trouver mots avec une fonction biologique particulière mot = succession de lettres dans {a,c,g,t} (ex : gctggtgg) Approche statistique : mots de fréquence significativement forte ou faible / modèle Mesure de l’exceptionnalité d’un mot w : p-value de w = P N (w) ≥ Nobs (w) , • N (w) comptage de w dans séquence aléatoire • Nobs (w) comptage de w dans séquence d’ADN observée Algo. génomique, 27 Septembre 2007 – p.2 Étapes générales de la démarche statistique 1. Choix du modèle pour la séquence. Exceptionnalité par rapport à quoi ? Classiquement modèle markovien homogène d’ordre m ⇒ except. par rapport à la composition en (m + 1)-mots Algo. génomique, 27 Septembre 2007 – p.3 Étapes générales de la démarche statistique 1. Choix du modèle pour la séquence. Exceptionnalité par rapport à quoi ? Classiquement modèle markovien homogène d’ordre m ⇒ except. par rapport à la composition en (m + 1)-mots 2. Calcul p-value P N (w) ≥ Nobs (w) dans le modèle choisi. Calcul exact (séq. longueur n < 10 000, m ≤ 1) [Robin et al. 99] Grandes déviations, n → ∞ [Nuel 04, Pudlo 04] Approx. loi N (w), n → ∞ : • poissonniennes (mots rares) [Schbath 95] • gaussiennes (mots fréquents) [Prum et al. 95] Algo. génomique, 27 Septembre 2007 – p.3 Étapes générales de la démarche statistique 1. Choix du modèle pour la séquence. Exceptionnalité par rapport à quoi ? Classiquement modèle markovien homogène d’ordre m ⇒ except. par rapport à la composition en (m + 1)-mots 2. Calcul p-value P N (w) ≥ Nobs (w) dans le modèle choisi. Calcul exact (séq. longueur n < 10 000, m ≤ 1) [Robin et al. 99] Grandes déviations, n → ∞ [Nuel 04, Pudlo 04] Approx. loi N (w), n → ∞ : • poissonniennes (mots rares) [Schbath 95] • gaussiennes (mots fréquents) [Prum et al. 95] 3. Selection des mots exceptionnels ? Beaucoup de p-values à traiter (long. 7 → 16384 mots) ⇒ problème de tests multiples Algo. génomique, 27 Septembre 2007 – p.3 Étapes générales de la démarche statistique 1. Choix du modèle pour la séquence. Exceptionnalité par rapport à quoi ? Classiquement modèle markovien homogène d’ordre m ⇒ except. par rapport à la composition en (m + 1)-mots 2. Calcul p-value P N (w) ≥ Nobs (w) dans le modèle choisi. Calcul exact (séq. longueur n < 10 000, m ≤ 1) [Robin et al. 99] Grandes déviations, n → ∞ [Nuel 04, Pudlo 04] Approx. loi N (w), n → ∞ : • poissonniennes (mots rares) [Schbath 95] • gaussiennes (mots fréquents) [Prum et al. 95] 3. Selection des mots exceptionnels ? Beaucoup de p-values à traiter (long. 7 → 16384 mots) ⇒ problème de tests multiples Puis validation des motifs candidats en laboratoire Algo. génomique, 27 Septembre 2007 – p.3 Pb : prise en compte de l’hétérogénéité Critique du modèle de Markov homogène d’ordre m : Suppose la même composition en (m + 1)-mots tout au long de la séquence. ⇒ pour des séquences hétérogènes : mesure erronée de l’exceptionnalité Algo. génomique, 27 Septembre 2007 – p.4 Pb : prise en compte de l’hétérogénéité Critique du modèle de Markov homogène d’ordre m : Suppose la même composition en (m + 1)-mots tout au long de la séquence. ⇒ pour des séquences hétérogènes : mesure erronée de l’exceptionnalité But de l’exposé : Prendre en compte une hétérogénéité connue dans le calcul de l’exceptionnalité d’un mot Pour cela : • modèle de Markov hétérogène à hétérogénéité connue • approximations poissonniennes de la loi de N (w) dans ce modèle. Généralisation approx. de Poisson composée de [Schbath 95] Algo. génomique, 27 Septembre 2007 – p.4 Rappel : méthode homogène (1) Chaîne de Markov homogène (ordre 1) : Séquence X1 · · · Xn “de mémoire d’ordre 1” : P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 ) = π(xi−1 , xi ) où π probabilité de transition indépendante de la position i (loi statio. µ). Algo. génomique, 27 Septembre 2007 – p.5 Rappel : méthode homogène (1) Chaîne de Markov homogène (ordre 1) : Séquence X1 · · · Xn “de mémoire d’ordre 1” : P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 ) = π(xi−1 , xi ) où π probabilité de transition indépendante de la position i (loi statio. µ). X1 X2 X3 X4 X5 X6 X7 X8 ··· Xn−1 Xn Algo. génomique, 27 Septembre 2007 – p.5 Rappel : méthode homogène (1) Chaîne de Markov homogène (ordre 1) : Séquence X1 · · · Xn “de mémoire d’ordre 1” : P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 ) = π(xi−1 , xi ) où π probabilité de transition indépendante de la position i (loi statio. µ). µ ↓ X1 X2 π X3 X4 X5 X6 X7 X8 ··· Xn−1 Xn π Algo. génomique, 27 Septembre 2007 – p.5 Rappel : méthode homogène (1) Chaîne de Markov homogène (ordre 1) : Séquence X1 · · · Xn “de mémoire d’ordre 1” : P(Xi = xi | Xi−1 = xi−1 , Xj , j < i − 1) = P(Xi = xi | Xi−1 = xi−1 ) = π(xi−1 , xi ) où π probabilité de transition indépendante de la position i (loi statio. µ). µ ↓ X1 X2 π X3 X4 X5 X6 X7 X8 ··· Xn−1 Xn π Pour un mot w, comptage N (w) dans X1 · · · Xn variable aléatoire ⇒ approcher la loi de N (w) dans ce modèle homogène ? Algo. génomique, 27 Septembre 2007 – p.5 Rappel : méthode homogène (2) Par ex. w = aca : a c a c a c a t t g a c a c t g a c a c a Algo. génomique, 27 Septembre 2007 – p.6 Rappel : méthode homogène (2) Par ex. w = aca : a c a c a c a t t g a c a c t g a c a c a | {z train de taille 3 } | {z } train de taille 1 | {z } train de taille 2 Algo. génomique, 27 Septembre 2007 – p.6 Rappel : méthode homogène (2) Par ex. w = aca : a c a c a c a t t g a c a c t g a c a c a | {z train de taille 3 } | {z } train de taille 1 | {z } train de taille 2 Les paquets sont appelés des trains : successions d’occ. chevauchantes de w maximales i.e. ne chevauchant pas d’autres occ. de w ni avant ni après. Algo. génomique, 27 Septembre 2007 – p.6 Rappel : méthode homogène (2) Par ex. w = aca : a c a c a c a t t g a c a c t g a c a c a | {z train de taille 3 } | {z } train de taille 1 | {z } train de taille 2 Les paquets sont appelés des trains : successions d’occ. chevauchantes de w maximales i.e. ne chevauchant pas d’autres occ. de w ni avant ni après. N (w) = 1 × nb de trains de taille 1 + 2 × nb de trains de taille 2 + 3 × nb de trains de taille 3 + . . . X ek (w) = kN k≥1 Algo. génomique, 27 Septembre 2007 – p.6 Rappel : méthode homogène (3) Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) : Algo. génomique, 27 Septembre 2007 – p.7 Rappel : méthode homogène (3) Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) : Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1), ek (w). ek (w) ' loi de Poisson de para. EN loi du nombre de k -trains N ek (w) sont asymptotiquement indépendants et les N Algo. génomique, 27 Septembre 2007 – p.7 Rappel : méthode homogène (3) Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) : Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1), ek (w). ek (w) ' loi de Poisson de para. EN loi du nombre de k -trains N ek (w) sont asymptotiquement indépendants et les N Comme N (w) = P on a L(N (w)) ' L k≥1 k Nk (w), P e k≥1 kZk e où Zk suit P ENk (w) indep. Algo. génomique, 27 Septembre 2007 – p.7 Rappel : méthode homogène (3) Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) : Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1), ek (w). ek (w) ' loi de Poisson de para. EN loi du nombre de k -trains N ek (w) sont asymptotiquement indépendants et les N Comme N (w) = P on a L(N (w)) ' L k≥1 k Nk (w), P e k≥1 kZk e où Zk suit P ENk (w) indep. ek (w), k ≥ 1). L(N (w)) ' CP(EN Algo. génomique, 27 Septembre 2007 – p.7 Rappel : méthode homogène (3) Situation lorsque n → ∞ et EN (w) = O(1) (mot rare) : Par la méthode de Chen-Stein, on montre que lorsque EN (w) = O(1), ek (w). ek (w) ' loi de Poisson de para. EN loi du nombre de k -trains N ek (w) sont asymptotiquement indépendants et les N Comme N (w) = P on a L(N (w)) ' L k≥1 k Nk (w), P e k≥1 kZk e où Zk suit P ENk (w) indep. ek (w), k ≥ 1). L(N (w)) ' CP(EN ek (w) comptage attendu d’un k -train ? Calcul de EN Algo. génomique, 27 Septembre 2007 – p.7 Rappel : méthode homogène (4) P(un train de taille k commence en position i) ? Algo. génomique, 27 Septembre 2007 – p.8 Rappel : méthode homogène (4) P(un train de taille k commence en position i) ? 1−a a | a a a {z train de taille k = 5 On note : a la probabilité d’auto-recouvrement de w µ(w) la probabilité d’occ. de w µ(w) 1−a } Algo. génomique, 27 Septembre 2007 – p.8 Rappel : méthode homogène (4) P(un train de taille k commence en position i) ? 1−a a | a a a {z train de taille k = 5 On note : a la probabilité d’auto-recouvrement de w µ(w) la probabilité d’occ. de w µ(w) 1−a } ek (w) = (n − h + 1)(1 − a)2 ak−1 µ(w). ⇒ EN Algo. génomique, 27 Septembre 2007 – p.8 Rappel : méthode homogène (5) Le résultat homogène : Théorème [Schbath 95] : Dans un modèle markovien homogène stationnaire, si EN (w) = O(1), L(N (w)) ' CP hom , CP hom := CP (n − h + 1)(1 − a)2 ak−1 µ(w), k ≥ 1 Algo. génomique, 27 Septembre 2007 – p.9 Rappel : méthode homogène (5) Le résultat homogène : Théorème [Schbath 95] : Dans un modèle markovien homogène stationnaire, si EN (w) = O(1), L(N (w)) ' CP hom , CP hom := CP (n − h + 1)(1 − a)2 ak−1 µ(w), k ≥ 1 Résultat analogue dans un modèle hétérogène ? Algo. génomique, 27 Septembre 2007 – p.9 Méthode hétérogène Segmentation : Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}. 1 X1 1 X2 2 X3 1 X4 2 X5 2 X6 2 X7 1 X8 ··· ··· 1 Xn−1 1 Xn Algo. génomique, 27 Septembre 2007 – p.10 Méthode hétérogène Segmentation : Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}. 1 X1 1 X2 2 X3 1 X4 2 X5 2 X6 2 X7 1 X8 ··· ··· 1 Xn−1 1 Xn La segmentation s1 · · · sn est déterministe et connue a priori Algo. génomique, 27 Septembre 2007 – p.10 Méthode hétérogène Segmentation : Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}. 1 X1 1 X2 2 X3 1 X4 2 X5 2 X6 2 X7 1 X8 ··· ··· 1 Xn−1 1 Xn La segmentation s1 · · · sn est déterministe et connue a priori Elle peut représenter différentes informations biologiques : • région codante / non-codante • région conservée / variable • ... Algo. génomique, 27 Septembre 2007 – p.10 Méthode hétérogène Segmentation : Chaque position i attachée à un état connu si ∈ S . Ici S = {1, 2}. 1 X1 1 X2 2 X3 1 X4 2 X5 2 X6 2 X7 1 X8 ··· ··· 1 Xn−1 1 Xn La segmentation s1 · · · sn est déterministe et connue a priori Elle peut représenter différentes informations biologiques : • région codante / non-codante • région conservée / variable • ... Notation : séquence X1 · · · Xn coloriée selon les états 1 ou 2 X1 X2 X3 X4 X5 X6 X7 X8 ··· Xn−1 Xn Algo. génomique, 27 Septembre 2007 – p.10 Méthode hétérogène : modèle Modèle de Markov hétérogène par morceaux : concaténation (selon la segmentation) de modèles markoviens homogènes indépendants • dans l’état 1 : probabilité de transition π1 (loi statio. µ1 ) • dans l’état 2 : probabilité de transition π2 (loi statio. µ2 ) Algo. génomique, 27 Septembre 2007 – p.11 Méthode hétérogène : modèle Modèle de Markov hétérogène par morceaux : concaténation (selon la segmentation) de modèles markoviens homogènes indépendants • dans l’état 1 : probabilité de transition π1 (loi statio. µ1 ) • dans l’état 2 : probabilité de transition π2 (loi statio. µ2 ) X1 X2 X3 X4 X5 X6 X7 X8 ··· Xn−1 Xn Algo. génomique, 27 Septembre 2007 – p.11 Méthode hétérogène : modèle Modèle de Markov hétérogène par morceaux : concaténation (selon la segmentation) de modèles markoviens homogènes indépendants • dans l’état 1 : probabilité de transition π1 (loi statio. µ1 ) • dans l’état 2 : probabilité de transition π2 (loi statio. µ2 ) µ1 µ2 µ1 µ2 ↓ X1 ↓ X3 ↓ X4 ↓ X5 X2 π1 X6 X7 X8 ··· Xn−1 Xn π2 Algo. génomique, 27 Septembre 2007 – p.11 Méthode hétérogène : modèle Modèle de Markov hétérogène par morceaux : concaténation (selon la segmentation) de modèles markoviens homogènes indépendants • dans l’état 1 : probabilité de transition π1 (loi statio. µ1 ) • dans l’état 2 : probabilité de transition π2 (loi statio. µ2 ) µ1 µ2 µ1 µ2 ↓ X1 ↓ X3 ↓ X4 ↓ X5 X2 π1 X6 X7 X8 ··· Xn−1 Xn π2 ⇒ pour un mot w, loi du comptage N (w) dans ce modèle hétérogène ? Algo. génomique, 27 Septembre 2007 – p.11 Méthode hétérogène : comptage multicolore N (w) compte les occurrences multicolores : a c a c a c a t t g a c a c t g a c a c a Algo. génomique, 27 Septembre 2007 – p.12 Méthode hétérogène : comptage multicolore N (w) compte les occurrences multicolores : a c a c a c a t t g a c a c t g a c a c a | {z train mult. de taille 3 } | {z } train mult. de taille 1 | {z } train mult. de taille 2 Algo. génomique, 27 Septembre 2007 – p.12 Méthode hétérogène : comptage multicolore N (w) compte les occurrences multicolores : a c a c a c a t t g a c a c t g a c a c a | {z train mult. de taille 3 } | {z } train mult. de taille 1 | {z } train mult. de taille 2 Probabilité d’occurrence d’un train multicolore ⇒ trop complexe ! Algo. génomique, 27 Septembre 2007 – p.12 Méthode hétérogène : comptage multicolore N (w) compte les occurrences multicolores : a c a c a c a t t g a c a c t g a c a c a | {z train mult. de taille 3 } | {z } train mult. de taille 1 | {z } train mult. de taille 2 Probabilité d’occurrence d’un train multicolore ⇒ trop complexe ! Idée : réduire N (w) en négligeant certaines occ. coloriées de w Compromis : plus on compte d’occurrences • plus approx. précise (comptage proche de N (w)) • plus approx. complexe (difficulté de calcul) Algo. génomique, 27 Septembre 2007 – p.12 Méthode hétérogène : les comptages N (w) compte les occurrences multicolores : ici N (w) = 6 a c a c a c a t t g a c a c t g a c a c a Algo. génomique, 27 Septembre 2007 – p.13 Méthode hétérogène : les comptages N (w) compte les occurrences multicolores : ici N (w) = 6 a c a c a c a t t g a c a c t g a c a c a Nuni (w) compte les occ. unicolores (∈ un segment) : ici Nuni (w) = 2 a c a c a c a t t g a c a c t g a c a c a Algo. génomique, 27 Septembre 2007 – p.13 Méthode hétérogène : les comptages N (w) compte les occurrences multicolores : ici N (w) = 6 a c a c a c a t t g a c a c t g a c a c a Nuni (w) compte les occ. unicolores (∈ un segment) : ici Nuni (w) = 2 a c a c a c a t t g a c a c t g a c a c a Nbic (w) compte les occ. dans les trains bicolores (au plus à cheval sur deux segments) : ici Nbic (w) = 3 a c a c a c a t t g a c a c t g a c a c a | {z } train bic. de taille 1 | {z } train bic. de taille 2 Algo. génomique, 27 Septembre 2007 – p.13 Méthode hétérogène : approx. avec Nuni (w) Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) : ⇒ L(N (w)) ' L(Nuni (w)) Algo. génomique, 27 Septembre 2007 – p.14 Méthode hétérogène : approx. avec Nuni (w) Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) : ⇒ L(N (w)) ' L(Nuni (w)) Démarche pour approcher la loi de Nuni (w) : 1. Utiliser la méthode homogène de [Schbath 95] sur chaque segment 2. Regrouper les différentes lois de Poisson composées (indépendantes) Algo. génomique, 27 Septembre 2007 – p.14 Méthode hétérogène : approx. avec Nuni (w) Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) : ⇒ L(N (w)) ' L(Nuni (w)) Démarche pour approcher la loi de Nuni (w) : 1. Utiliser la méthode homogène de [Schbath 95] sur chaque segment 2. Regrouper les différentes lois de Poisson composées (indépendantes) Proposition : Lorsque EN (w) = O(1) et ρh = o(n) (peu de segments), L(N (w)) ' CP uni , avec CP uni := CP hom ∗ CP hom Algo. génomique, 27 Septembre 2007 – p.14 Méthode hétérogène : approx. avec Nuni (w) Situation lorsque EN (w) = O(1) et nombre de ruptures ρ = O(1) : ⇒ L(N (w)) ' L(Nuni (w)) Démarche pour approcher la loi de Nuni (w) : 1. Utiliser la méthode homogène de [Schbath 95] sur chaque segment 2. Regrouper les différentes lois de Poisson composées (indépendantes) Proposition : Lorsque EN (w) = O(1) et ρh = o(n) (peu de segments), L(N (w)) ' CP uni , avec CP uni := CP hom ∗ CP hom Approx. par CP uni mauvaise si beaucoup de ruptures ! Algo. génomique, 27 Septembre 2007 – p.14 Méthode hétérogène : approx. avec Nbic (w) Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand : ⇒ L(N (w)) ' L(Nbic (w)) Algo. génomique, 27 Septembre 2007 – p.15 Méthode hétérogène : approx. avec Nbic (w) Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand : ⇒ L(N (w)) ' L(Nbic (w)) Démarche : ek (w), k ≥ 1) 1. Utiliser la méthode de Chen-Stein pour N (w) ' CP(EN ek (w) ' EN ek,bic (w) comptage attendu des k -trains bicolores 2. EN ek,bic (w)(assez technique) 3. Calcul de EN Algo. génomique, 27 Septembre 2007 – p.15 Méthode hétérogène : approx. avec Nbic (w) Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand : ⇒ L(N (w)) ' L(Nbic (w)) Démarche : ek (w), k ≥ 1) 1. Utiliser la méthode de Chen-Stein pour N (w) ' CP(EN ek (w) ' EN ek,bic (w) comptage attendu des k -trains bicolores 2. EN ek,bic (w)(assez technique) 3. Calcul de EN Théorème : Lorsque EN (w) = O(1) et Lmin /h → ∞, L(N (w)) ' CP bic Avec une expression explicite (mais compliquée) pour CP bic . Algo. génomique, 27 Septembre 2007 – p.15 Méthode hétérogène : approx. avec Nbic (w) Situation lorsque EN (w) = O(1) et + de ruptures mais Lmin grand : ⇒ L(N (w)) ' L(Nbic (w)) Démarche : ek (w), k ≥ 1) 1. Utiliser la méthode de Chen-Stein pour N (w) ' CP(EN ek (w) ' EN ek,bic (w) comptage attendu des k -trains bicolores 2. EN ek,bic (w)(assez technique) 3. Calcul de EN Théorème : Lorsque EN (w) = O(1) et Lmin /h → ∞, L(N (w)) ' CP bic Avec une expression explicite (mais compliquée) pour CP bic . Rq : condition Lmin /h → ∞ forte (Lmin ≥ 5h suffit en pratique) Algo. génomique, 27 Septembre 2007 – p.15 Méthode hétérogène : petit bilan Deux approx. loi N (w) lorsque la séquence est hétérogène (et w rare) : • par CP uni : bonne si “peu" de ruptures i.e. ρh/n “petit" • par CP bic : bonne si segments “longs" i.e. Lmin “grand" Algo. génomique, 27 Septembre 2007 – p.16 Méthode hétérogène : petit bilan Deux approx. loi N (w) lorsque la séquence est hétérogène (et w rare) : • par CP uni : bonne si “peu" de ruptures i.e. ρh/n “petit" • par CP bic : bonne si segments “longs" i.e. Lmin “grand" Remarques : - Généralisation à l’ordre m ≥ 2 possible - Temps de calcul raisonnable pour CP uni et plus long pour CP bic Algo. génomique, 27 Septembre 2007 – p.16 Méthode hétérogène : petit bilan Deux approx. loi N (w) lorsque la séquence est hétérogène (et w rare) : • par CP uni : bonne si “peu" de ruptures i.e. ρh/n “petit" • par CP bic : bonne si segments “longs" i.e. Lmin “grand" Remarques : - Généralisation à l’ordre m ≥ 2 possible - Temps de calcul raisonnable pour CP uni et plus long pour CP bic Qualités des approx. CP uni , CP bic ? On propose une étude de simulation Algo. génomique, 27 Septembre 2007 – p.16 Données simulées Segmentation régulière n = 100 000 avec nombre de ruptures ρ ρ=1 ρ=3 ρ=8 Algo. génomique, 27 Septembre 2007 – p.17 Données simulées Segmentation régulière n = 100 000 avec nombre de ruptures ρ ρ=1 ρ=3 ρ=8 Modèle hétérogène d’ordre 0 avec “niveau d’hétérogénéité” ε µ1 (a) = µ1 (g) = 0.25 + ε µ1 (c) = µ1 (t) = 0.25 − ε µ2 (a) = µ2 (g) = 0.25 − ε µ2 (c) = µ2 (t) = 0.25 + ε Algo. génomique, 27 Septembre 2007 – p.17 Données simulées Segmentation régulière n = 100 000 avec nombre de ruptures ρ ρ=1 ρ=3 ρ=8 Modèle hétérogène d’ordre 0 avec “niveau d’hétérogénéité” ε µ1 (a) = µ1 (g) = 0.25 + ε µ1 (c) = µ1 (t) = 0.25 − ε µ2 (a) = µ2 (g) = 0.25 − ε µ2 (c) = µ2 (t) = 0.25 + ε On considère : loi empirique de N (w) (100 000 simulations) CP uni , CP bic et loi de Poisson ajustée Avec w = aaaaaaa Algo. génomique, 27 Septembre 2007 – p.17 Données simulées 0.20 ε = 0.05, ρ = 100 0.00 0.05 0.10 0.15 approx Poisson loi empirique approx PCuni approx PCbic 5 10 15 20 - Approx. par CP uni et CP bic bonnes hρ/n ' 0.006 - Approx. par Poisson pas bonne (mot très recouvrant) Algo. génomique, 27 Septembre 2007 – p.18 Données simulées 0.20 ε = 0.05, ρ = 1000 0.00 0.05 0.10 0.15 approx Poisson loi empirique approx PCuni approx PCbic 5 10 15 20 - Approx. par CP bic bonne - Approx. par CP uni moins bonne hρ/n ' 0.056 Algo. génomique, 27 Septembre 2007 – p.19 Données simulées 0.10 ε = 0.01, ρ = 2000 0.00 0.02 0.04 0.06 0.08 approx Poisson loi empirique approx PCuni approx PCbic 0 10 20 30 40 50 - Approx. par CP bic bonne - Approx. par CP uni mauvaise hρ/n ' 0.11 Algo. génomique, 27 Septembre 2007 – p.20 Données simulées Conclusion des simulations : • Qualité de l’approx. par CP uni assez bien évaluée par hρ/n • Approx. par CP bic valable sur une plus large bande Algo. génomique, 27 Septembre 2007 – p.21 Données simulées Conclusion des simulations : • Qualité de l’approx. par CP uni assez bien évaluée par hρ/n • Approx. par CP bic valable sur une plus large bande ⇒ En pratique : - si hρ/n petit (par ex : hρ/n ≤ 0.01), on utilise CP uni - sinon, on utilise CP bic (calcul plus long) Algo. génomique, 27 Septembre 2007 – p.21 Données simulées Conclusion des simulations : • Qualité de l’approx. par CP uni assez bien évaluée par hρ/n • Approx. par CP bic valable sur une plus large bande ⇒ En pratique : - si hρ/n petit (par ex : hρ/n ≤ 0.01), on utilise CP uni - sinon, on utilise CP bic (calcul plus long) Comportement sur des vraies données ? Notamment comparaison méthode hétérogène / méthode homogène Algo. génomique, 27 Septembre 2007 – p.21 Données réelles : exemple 1 Génome du phage Lambda Séquence long. n = 48502 : gggcggcgacctcgcgggttttcgctatttatgaaaattttccggtttaa ggcgtttccgttcttcttcgtcataacttaatgtttttatttaaaatacc ctctgaaaagaaaggaaacgacaggtgctgaaagcgaggctttttggcct... Algo. génomique, 27 Septembre 2007 – p.22 Données réelles : exemple 1 Génome du phage Lambda Séquence long. n = 48502 : gggcggcgacctcgcgggttttcgctatttatgaaaattttccggtttaa ggcgtttccgttcttcttcgtcataacttaatgtttttatttaaaatacc ctctgaaaagaaaggaaacgacaggtgctgaaagcgaggctttttggcct... Segmentation codant dans le sens direct / non codant dans le sens direct : Algo. génomique, 27 Septembre 2007 – p.22 Données réelles : exemple 1 Génome du phage Lambda Séquence long. n = 48502 : gggcggcgacctcgcgggttttcgctatttatgaaaattttccggtttaa ggcgtttccgttcttcttcgtcataacttaatgtttttatttaaaatacc ctctgaaaagaaaggaaacgacaggtgctgaaagcgaggctttttggcct... Segmentation codant dans le sens direct / non codant dans le sens direct : Mots except de longueur h = 5. - méthode homogène CP hom - méthode hétérogène CP uni (ρh/n ' 0.003) Algo. génomique, 27 Septembre 2007 – p.22 Données réelles : exemple 1 p-values dans [0, 1] → score dans R (transfo. quantile) Algo. génomique, 27 Septembre 2007 – p.23 Données réelles : exemple 1 p-values dans [0, 1] → score dans R (transfo. quantile) Score hétérogène m=0 Score homogène Algo. génomique, 27 Septembre 2007 – p.23 Données réelles : exemple 1 p-values dans [0, 1] → score dans R (transfo. quantile) Score hétérogène m=1 Score homogène Algo. génomique, 27 Septembre 2007 – p.24 Données réelles : exemple 1 p-values dans [0, 1] → score dans R (transfo. quantile) Score hétérogène m=3 Score homogène Algo. génomique, 27 Septembre 2007 – p.25 Données réelles : exemple 2 Séquence : concaténation E. Coli + H. influenzae (100 000 premières bases) Segmentation : 1 pour E. Coli / 2 pour H. influenzae ⇒ mots exceptionnels dans les deux génomes simultanément ? Algo. génomique, 27 Septembre 2007 – p.26 Données réelles : exemple 2 Mots de longueur h = 8, concaténation E. Coli + H. influenzae Score hétérogène m=0 Score homogène Algo. génomique, 27 Septembre 2007 – p.27 Données réelles : exemple 2 Mots de longueur h = 8, concaténation E. Coli + H. influenzae Score hétérogène m=2 Score homogène Algo. génomique, 27 Septembre 2007 – p.28 Données réelles : exemple 2 Mots de longueur h = 8, concaténation E. Coli + H. influenzae Score hétérogène m=5 Score homogène Algo. génomique, 27 Septembre 2007 – p.29 Données réelles : exemple 3 Mots de longueur h = 8, concaténation Clostridium botulinum (28% GC) + Pseudomonas aeruginosa (66% GC) Score hétérogène m=2 Score homogène Algo. génomique, 27 Septembre 2007 – p.30 Conclusion Pour rechercher les mots de fréquence exceptionnelle dans un génome : Deux approx. pour la loi de N (w) : lorsque la séquence est markovienne hétérogène pour w rare • par CP uni : bonne si ρh/n “petit" • par CP bic : plus précise mais plus longue à calculer Algo. génomique, 27 Septembre 2007 – p.31 Conclusion Pour rechercher les mots de fréquence exceptionnelle dans un génome : Deux approx. pour la loi de N (w) : lorsque la séquence est markovienne hétérogène pour w rare • par CP uni : bonne si ρh/n “petit" • par CP bic : plus précise mais plus longue à calculer En pratique : • pour mesurer l’exceptionnalité d’un mot : nouvelle méthode qui prend en compte une segmentation donnée a priori • À préférer à la méthode homogène si la séquence est réellement hétérogène Algo. génomique, 27 Septembre 2007 – p.31 Conclusion Pour rechercher les mots de fréquence exceptionnelle dans un génome : Deux approx. pour la loi de N (w) : lorsque la séquence est markovienne hétérogène pour w rare • par CP uni : bonne si ρh/n “petit" • par CP bic : plus précise mais plus longue à calculer En pratique : • pour mesurer l’exceptionnalité d’un mot : nouvelle méthode qui prend en compte une segmentation donnée a priori • À préférer à la méthode homogène si la séquence est réellement hétérogène Autre conséquence : recherche dans plusieurs génomes simultanément Algo. génomique, 27 Septembre 2007 – p.31 Conclusion Pour rechercher les mots de fréquence exceptionnelle dans un génome : Deux approx. pour la loi de N (w) : lorsque la séquence est markovienne hétérogène pour w rare • par CP uni : bonne si ρh/n “petit" • par CP bic : plus précise mais plus longue à calculer En pratique : • pour mesurer l’exceptionnalité d’un mot : nouvelle méthode qui prend en compte une segmentation donnée a priori • À préférer à la méthode homogène si la séquence est réellement hétérogène Autre conséquence : recherche dans plusieurs génomes simultanément Disponibilité : en cours d’implémentation dans R’MES (http://genome.jouy.inra.fr/ssb/rmes/) Algo. génomique, 27 Septembre 2007 – p.31 Merci de votre attention! Algo. génomique, 27 Septembre 2007 – p.32