Superchaı̂ne et assemblage Eric Rivals LIRMM - Méthodes Algorithmes pour la Bioinfo www.lirmm.fr/~rivals Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 1 / 16 Assemblage de génome Plan 1 Assemblage de génome 2 Shortest Superstring Graphe des chevauchements Algorithme glouton Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 2 / 16 Assemblage de génome Principe Assemblage Donnée : un ensemble de lectures prises dans le génome cible Sortie : la séquence du génome cible Idée utiliser les chevauchements entre lectures pour savoir comment les aggréger et leur ordre relatif modélisation informatique Shortest Common Superstring Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 3 / 16 Assemblage de génome Principe Assemblage Donnée : un ensemble de lectures prises dans le génome cible Sortie : la séquence du génome cible Idée utiliser les chevauchements entre lectures pour savoir comment les aggréger et leur ordre relatif modélisation informatique Shortest Common Superstring calculer les chevauchements maximaux de toute paire de read long, utilisation d’index Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 3 / 16 Assemblage de génome Assemblage [Green, 2001] Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 4 / 16 Assemblage de génome Trois approches majeures 1 Gloutonne 2 Graphe des chevauchements 3 Graphe de de Bruijn pour une taille de mot k Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 5 / 16 Shortest Superstring Plan 1 Assemblage de génome 2 Shortest Superstring Graphe des chevauchements Algorithme glouton Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 6 / 16 Shortest Superstring Shortest Superstring Modélisation simple de l’assemblage Superchaı̂ne / superstring Soient S := {s1 , . . . , sn } un ensemble de n mots. Le mot w est une superchaı̂ne de S ssi si est une sous-chaı̂ne de w . Shortest Superstring Trouver une superchaı̂ne de longueur minimale. s1 : s2 : s3 : Superchaı̂ne Eric Rivals (LIRMM) a a 1 a b a a a 4 b b 5 a 6 b b 2 Algo texte - SCS a a 3 www.lirmm.fr/~rivals 7 / 16 Shortest Superstring Chevauchements ω1 : ω2 : b a Eric Rivals (LIRMM) a a b a a Algo texte - SCS b a b a www.lirmm.fr/~rivals b 8 / 16 Shortest Superstring Chevauchements ω1 : ω2 : b ω1 : ω2 : b a a Eric Rivals (LIRMM) a a a a a b b b a a b a b a a b a b Algo texte - SCS a www.lirmm.fr/~rivals b 8 / 16 Shortest Superstring Chevauchements ω1 : ω2 : b ω1 : ω2 : b a a a a a a a b b b a a b a b a a b a b a b Les chevauchements ne sont pas symétriques Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 8 / 16 Shortest Superstring Chevauchements ω1 : ω2 : b ω1 : ω2 : b a a a a a a a b b b a a b a b a a b a b a b Les chevauchements ne sont pas symétriques Notation : pour deux chaı̂nes u, v u ⊕ v est l’agglomération de u et v par le chevauchement maximal Ex : ω1 ⊕ ω1 = baaababab Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 8 / 16 Shortest Superstring Chevauchements ω1 : ω2 : b ω1 : ω2 : b a a a a a a a b b b a a b a b a a b a b a b Les chevauchements ne sont pas symétriques Notation : pour deux chaı̂nes u, v u ⊕ v est l’agglomération de u et v par le chevauchement maximal Ex : ω1 ⊕ ω1 = baaababab Calcul de tous les chevauchements maximaux entre chaı̂nes Algo basé sur l’arbre des suffixes généralisé à plusieurs chaı̂nes Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 8 / 16 Shortest Superstring Superstring and supersequence Le problème est aussi connu sous le nom Shortest Common Superstring problem ne pas confondre avec Shortest Common Supersequence problem (SCS) Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 9 / 16 Shortest Superstring Graphe des chevauchements Graphe de chevauchements Graphe orienté et pondéré tel que un nœud par mot (chq vi est un nœud ) une arête relie deux mots s’ils ont un chevauchement non nul poids d’une arête : longueur de leur chevauchement maximal Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 10 / 16 Shortest Superstring Graphe des chevauchements Exemple de graphe de chevauchements bbbbb 0 4 0 4 abbbb S := {abbbb, bbbbb, bbbba} 1 4 bbbba Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 11 / 16 Shortest Superstring Algorithme glouton Approche par agglomération gloutonne Miller et al 2010 The greedy algorithms apply one basic operation : given any read or contig, add one more contig. The basic operation is repeated until no more operations are possible. Each operation uses the next highest-scoring overalp to make the next join. Equivalent à l’algo glouton sur le overlap graph Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 12 / 16 Shortest Superstring Algorithme glouton Algorithme glouton Entrées : S := {s1 , . . . , sn } un ensemble de chaı̂nes. Sorties : Un ensemble P contenant une seule chaı̂ne, qui est une superchaı̂ne de S On pose P := S. tant que #(S) > 1 faire Prendre si , sj ∈ S tels que si 6= sj et le chevauchement de si sur sj soit maximal. P := (S ∪ {si ⊕ sj }) \ {si , sj } retourner P Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 13 / 16 Shortest Superstring Algorithme glouton Cas limite approximation algorithme glouton bbbbb 4 0 4 abbbb Chemin hamiltonien en bleu 1 4 bbbba Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 14 / 16 Shortest Superstring Algorithme glouton Cas limite approximation algorithme glouton bbbbb 4 0 4 abbbb Chemin hamiltonien en bleu choix glouton en orange 1 4 bbbba Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 14 / 16 Shortest Superstring Algorithme glouton Shorstest superstring est difficile NP-difficile même si les reads sont de longueur de 3 inapproximable à un ratio quelconque (∀ ∈ [1, ∞]) meilleure approximation : ratio fixe de 211/23 [Mucha STOC 2012] conjecture : algorithme glouton approxime la longueur de la SCS à un ratio 2 Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 15 / 16 Shortest Superstring Algorithme glouton Lectures E. Ukkonen, J. Tarhio A Greedy Approximation Algorithm for Constructing Shortest Common Superstrings Theoretical Computer Science, LNBI vol. 57, p. 131-145, 2014. B. Cazaux, T. Lecroq, E. Rivals. From Indexing Data Structures to de Bruijn Graphs 25th Annual Symposium on Combinatorial Pattern Matching, LNCS 8486, pp. 89-99, Springer Verlag, 2014. B. Cazaux, E. Rivals. Approximation of greedy algorithms for Max-ATSP, Maximal Compression, Maximal Cycle Cover, and Shortest Cyclic Cover of Strings Prague Stringolocy Conference, 2014. Eric Rivals (LIRMM) Algo texte - SCS www.lirmm.fr/~rivals 16 / 16