Recherche de répétitions distantes dans les séquences Etudiant : Laurent NOE Encadrant : Gregory KUCHEROV 1 Plan 1. 2. 3. 4. 5. 6. Introduction au problème Les programmes existants La méthode adoptée L’algorithme Résultats obtenus et extensions envisagées Conclusion 2 1. Introduction L’ADN • La molécule • L’information contenue Extraction de l’information (séquençage) Gènes et fonctions Aspects automatisables 3 Recherche de répétitions • Problème connu de l’algorithmique du texte • Spécificité de l’ADN : répétitions approchées • Sous-répétitions exactes (graines) • Approche choisie 4 Evolution des occurrences d’une répétition i s 1 2 3 1 3 2 d 1 4 5 3 1 4 5 3 5 2. Les programmes existants BLAST ASSIRC 6 BLAST Nombreuses versions destinées à l’ADN et aux protéines Recherche de similitudes significatives dans les bases de données. Basé sur l’extension de graines de taille 11 7 ASSIRC Recherche de répétitions exactes de k lettres (couples de k-mots) Extension des répétitions exactes (graines) à l’aide d’une fonction propre 8 3. La méthode adoptée Rassembler les graines (répétitions exactes) • Rechercher des répétitions exactes dont chacune des occurrences est respectivement proche de l’autre Utilisation de critères statistiques concernant: • La taille des répétitions exactes recherchées • La distance entre ces répétitions exactes • La variation de distance entre ces répétitions 9 Modèles choisis Modèle d’alignement binaire • Comparaison d’occurrences de répétitions approchées Marche aléatoire • simuler les indels (insertions/suppressions) sur les occurrences de répétitions approchées 10 Modèle d’alignement binaire Comparaison de deux répétitions approchées ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101111100111 Analogie avec le lancer de pièce: • un train (série successive) de k piles (valeur 1) équivaut à une répétition exacte de taille k. Etude de variables aléatoires issues du lancer de pièce: • le plus long train de piles espéré en n lancers. • la distance entre des trains de k piles. 11 Modèle d’alignement binaire Plus long train de piles espéré en n lancers. ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101111100111 • Permet de déterminer la taille maximale espérée des répétitions exactes dans une répétition approchée de taille n. • Formule approchée: log 1 p nloglog 1 • p = taux de ressemblance, • n = taille de la répétition approchée, log 1 p • α = tolérance • Simulation 12 Modèle d’alignement binaire Distance entre trains de k piles ATGACCAGTACCGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101111100111 • Sert à étudier la distance entre les répétitions exactes de taille supérieure ou égale à k dans une répétition approchée. • Formule récursive: 0 pour 0 x k k P Gk, p x pour x k p x k 1 1 ppk 1 P pour x k Gk, p i i0 • Gk,p = « distance » entre les répétitions de taille k, • p = taux de ressemblance • Bornes Statistiques 13 Indels Indels = insertion / suppression de lettres 1 2 ATGACCAGTACGGTCCGCT ATGTGCAGGACCGTGAGCT 1110011101101100111 d d+1 ATGACCAGTCACGGTCCGCT ATGTGCAGG-ACCGTGAGCT d 111001110.1101100111 14 Marche aléatoire • Déplacement discret probabiliste dans l’espace. - 3 possibilités • « aller un pas vers la gauche » avec une probabilité p. • « aller un pas vers la droite » avec une probabilité p. • « rester sur place» avec une probabilité 1-2p. - On évalue la position finale au bout de n itérations. • Marche aléatoire simule la variation de d. - p représente la probabilité d’indels par nucléotide. - Le nombre de déplacements n est égal à la zone d’influence des indels sur d. 15 Marche aléatoire • Borner statistiquement la variation de d - cela équivaut à borner statistiquement la marche aléatoire. • 2 Méthodes - Calcul d’intervalles [-L..L] sur une loi multinomiale: L (nk) 2 k L j 0 2j k n(2j k) n! p (12p) j! ( j k )!(n ( 2jk ))! - Fonction génératrice P X pX 12p p X n n n1 n P X a-n X a-n1X an X 16 Méthode adoptée Finalement … • Rassembler les répétitions exactes qui sont proches: - borne statistique taille k sur la distance entre répétitions de • Considérer les effets produits par les indels: - bornes statistiques sur la variation de distance entre répétitions de taille k. ATGTGCAGGACCGTGAGCT d1 d2 ATGACCAGTACGGTCCGCT d’1 d’2 17 4. Algorithme Séquence(s) d’ADN Algorithme de chaînage Chaînages de répétitions exactes Répétitions approchées Algorithme d’alignement Paramètres utilisateur 18 Algorithme de chaînage Utilise en entrée la liste chaînée des k-mots • k-mot : sous-mot du texte de taille k • Cette liste donne l’ensemble des positions sur le texte d’un k-mot donné. Création de couples de k-mots identiques c( i , j ). Chaînage de ces couples selon les deux critères de distance vus précédemment. 19 Critères appliqués aux couples distance di inter-couples inférieure à un seuil variation de distance inter-couples inférieure à un seuil - lien entre la distance intra-couple ai et la distance intercouples di. - Reformuler ce critère sur la distance intra-couple ai a2 a1 ATGTGCAGGACCGTGAGCT.. ATGACCAGTACGGTCCGCT d1 d2 d’1 d’2 20 Première approche 1 2 3 4 5 6 7 pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire pour chaque occurrence wj de wi ( j < i ) faire si il existe un couple c’(i’, j’) satisfaisant les deux critères alors chaîner c’(i’, j’) vers c(i ,j) fsi fpour fpour 21 Respect des critères Afin de respecter ces critères, on utilise un tableau des distances : • Son rôle : conserver à l’indice d, la position i du dernier couple dont la distance intra-couple était d . • Utilisé pour la recherche de couples antécédents. • Afin de prendre en compte les indels, les couples antécédents ayant une distance intra-couple voisine seront également pris en compte. 22 Deuxième approche 01 02 03 04 05 06 pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire pour chaque occurrence wj de wi ( j < i ) faire d=i-j pour dobs dans {d, d+1, d-1, … d+ δ, d- δ} faire i’ = CD [dobs ] si i – i’ < ρ alors j’ = i – dobs chaîner c(i’, j’) vers c(i,j ) break // sortir de la boucle dobs 07 08 09 10 fsi 11 fpour 12 CD [d ] = i 13 fpour 14 fpour 23 5. Réalisation Programme Résultats • Donne les positions (début-fin) de chaque occurrence d’une répétition. • Indique le taux de ressemblance ainsi que les tailles des graines qui interviennent dans la répétition. • Possibilité de visualiser l’alignement des deux occurrences de la répétition approchée. TTCTTGTCTT-TCATGTACCT-CTTTCAGATACC--ACTGAGTAATATGACTTTA-AAAGCTCT ......d.s.i..sd......i.ss.d....s.sii...ss...s.s..d....si...ssd.. TTCTTG-CATATCC-GTACCTACCGT-AGATTCAATACTCCGTAGTTTG-CTTTCGAAATA-CT 24 Expérimentation ASSIRC • plus lent BLASTN • approche moins sensible Temps de calcul partagé entre chaînage/alignement • Le temps consommé par l’alignement augmente de manière beaucoup plus importante que celui du chaînage lorsque l’on cherche des répétitions approchées moins ressemblantes. • Ajout d’un filtre annexe (sous k-mots). 25 Extensions envisagées Traiter le brin d’ADN complémentaire inversé Brins d'ADN complémentaires gtcaaa (1) duplication (2) complémentarité a-t g-c tttgac 26 6. Conclusion Nouvelle méthode de recherche de répétitions • propriétés statistiques des séquences approchées • algorithme de regroupement Solution satisfaisante Extensions envisagées 27 Questions ?? c ac ? g? a gg a t c at c cg g cg g c? t ac ? ? a cc a ?g a ca g ga t ta ? c? c ? g ga t c ag 28 ? ? ?