Superchaîne et assemblage

publicité
Superchaı̂ne et assemblage
Eric Rivals
LIRMM - Méthodes Algorithmes pour la Bioinfo
www.lirmm.fr/~rivals
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
1 / 16
Assemblage de génome
Plan
1
Assemblage de génome
2
Shortest Superstring
Graphe des chevauchements
Algorithme glouton
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
2 / 16
Assemblage de génome
Principe
Assemblage
Donnée : un ensemble de lectures prises dans le génome cible
Sortie : la séquence du génome cible
Idée
utiliser les chevauchements entre lectures pour savoir comment les
aggréger et leur ordre relatif
modélisation informatique Shortest Common Superstring
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
3 / 16
Assemblage de génome
Principe
Assemblage
Donnée : un ensemble de lectures prises dans le génome cible
Sortie : la séquence du génome cible
Idée
utiliser les chevauchements entre lectures pour savoir comment les
aggréger et leur ordre relatif
modélisation informatique Shortest Common Superstring
calculer les chevauchements maximaux de toute paire de read
long, utilisation d’index
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
3 / 16
Assemblage de génome
Assemblage
[Green, 2001]
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
4 / 16
Assemblage de génome
Trois approches majeures
1
Gloutonne
2
Graphe des chevauchements
3
Graphe de de Bruijn pour une taille de mot k
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
5 / 16
Shortest Superstring
Plan
1
Assemblage de génome
2
Shortest Superstring
Graphe des chevauchements
Algorithme glouton
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
6 / 16
Shortest Superstring
Shortest Superstring
Modélisation simple de l’assemblage
Superchaı̂ne / superstring
Soient S := {s1 , . . . , sn } un ensemble de n mots. Le mot w est une
superchaı̂ne de S ssi si est une sous-chaı̂ne de w .
Shortest Superstring
Trouver une superchaı̂ne de longueur minimale.
s1 :
s2 :
s3 :
Superchaı̂ne
Eric Rivals (LIRMM)
a
a
1
a
b
a
a
a
4
b
b
5
a
6
b
b
2
Algo texte - SCS
a
a
3
www.lirmm.fr/~rivals
7 / 16
Shortest Superstring
Chevauchements
ω1 :
ω2 :
b
a
Eric Rivals (LIRMM)
a
a
b
a
a
Algo texte - SCS
b
a
b
a
www.lirmm.fr/~rivals
b
8 / 16
Shortest Superstring
Chevauchements
ω1 :
ω2 :
b
ω1 :
ω2 :
b
a
a
Eric Rivals (LIRMM)
a
a
a
a
a
b
b
b
a
a
b
a
b
a
a
b
a
b
Algo texte - SCS
a
www.lirmm.fr/~rivals
b
8 / 16
Shortest Superstring
Chevauchements
ω1 :
ω2 :
b
ω1 :
ω2 :
b
a
a
a
a
a
a
a
b
b
b
a
a
b
a
b
a
a
b
a
b
a
b
Les chevauchements ne sont pas symétriques
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
8 / 16
Shortest Superstring
Chevauchements
ω1 :
ω2 :
b
ω1 :
ω2 :
b
a
a
a
a
a
a
a
b
b
b
a
a
b
a
b
a
a
b
a
b
a
b
Les chevauchements ne sont pas symétriques
Notation : pour deux chaı̂nes u, v
u ⊕ v est l’agglomération de u et v par le chevauchement maximal
Ex : ω1 ⊕ ω1 = baaababab
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
8 / 16
Shortest Superstring
Chevauchements
ω1 :
ω2 :
b
ω1 :
ω2 :
b
a
a
a
a
a
a
a
b
b
b
a
a
b
a
b
a
a
b
a
b
a
b
Les chevauchements ne sont pas symétriques
Notation : pour deux chaı̂nes u, v
u ⊕ v est l’agglomération de u et v par le chevauchement maximal
Ex : ω1 ⊕ ω1 = baaababab
Calcul de tous les chevauchements maximaux entre chaı̂nes
Algo basé sur l’arbre des suffixes généralisé à plusieurs chaı̂nes
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
8 / 16
Shortest Superstring
Superstring and supersequence
Le problème est aussi connu sous le nom
Shortest Common Superstring problem
ne pas confondre avec
Shortest Common Supersequence problem (SCS)
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
9 / 16
Shortest Superstring
Graphe des chevauchements
Graphe de chevauchements
Graphe orienté et pondéré tel que
un nœud par mot (chq vi est un nœud )
une arête relie deux mots s’ils ont un chevauchement non nul
poids d’une arête : longueur de leur chevauchement maximal
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
10 / 16
Shortest Superstring
Graphe des chevauchements
Exemple de graphe de chevauchements
bbbbb
0
4
0
4
abbbb
S :=
{abbbb, bbbbb, bbbba}
1
4
bbbba
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
11 / 16
Shortest Superstring
Algorithme glouton
Approche par agglomération gloutonne
Miller et al 2010
The greedy algorithms apply one basic operation : given any read or
contig, add one more contig. The basic operation is repeated until no more
operations are possible. Each operation uses the next highest-scoring
overalp to make the next join.
Equivalent à l’algo glouton sur le overlap graph
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
12 / 16
Shortest Superstring
Algorithme glouton
Algorithme glouton
Entrées : S := {s1 , . . . , sn } un ensemble de chaı̂nes.
Sorties : Un ensemble P contenant une seule chaı̂ne, qui est une
superchaı̂ne de S
On pose P := S.
tant que #(S) > 1 faire
Prendre si , sj ∈ S tels que si 6= sj et le chevauchement de si sur sj soit
maximal.
P := (S ∪ {si ⊕ sj }) \ {si , sj }
retourner P
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
13 / 16
Shortest Superstring
Algorithme glouton
Cas limite approximation algorithme glouton
bbbbb
4
0
4
abbbb
Chemin
hamiltonien
en bleu
1
4
bbbba
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
14 / 16
Shortest Superstring
Algorithme glouton
Cas limite approximation algorithme glouton
bbbbb
4
0
4
abbbb
Chemin
hamiltonien
en bleu
choix glouton
en orange
1
4
bbbba
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
14 / 16
Shortest Superstring
Algorithme glouton
Shorstest superstring est difficile
NP-difficile même si les reads sont de longueur de 3
inapproximable à un ratio quelconque (∀ ∈ [1, ∞])
meilleure approximation : ratio fixe de 211/23 [Mucha STOC 2012]
conjecture : algorithme glouton approxime la longueur de la SCS à un ratio 2
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
15 / 16
Shortest Superstring
Algorithme glouton
Lectures
E. Ukkonen, J. Tarhio
A Greedy Approximation Algorithm for Constructing Shortest
Common Superstrings
Theoretical Computer Science, LNBI vol. 57, p. 131-145, 2014.
B. Cazaux, T. Lecroq, E. Rivals.
From Indexing Data Structures to de Bruijn Graphs
25th Annual Symposium on Combinatorial Pattern Matching, LNCS
8486, pp. 89-99, Springer Verlag, 2014.
B. Cazaux, E. Rivals.
Approximation of greedy algorithms for Max-ATSP, Maximal
Compression, Maximal Cycle Cover, and Shortest Cyclic Cover of
Strings
Prague Stringolocy Conference, 2014.
Eric Rivals (LIRMM)
Algo texte - SCS
www.lirmm.fr/~rivals
16 / 16
Téléchargement