dea.pps - CRIStAL

publicité
Recherche de répétitions distantes dans
les séquences
Etudiant : Laurent NOE
Encadrant : Gregory KUCHEROV
1
Plan
1.
2.
3.
4.
5.
6.
Introduction au problème
Les programmes existants
La méthode adoptée
L’algorithme
Résultats obtenus et extensions envisagées
Conclusion
2
1.
Introduction
 L’ADN
• La molécule
• L’information contenue
 Extraction de l’information (séquençage)
 Gènes et fonctions
 Aspects automatisables
3
 Recherche de répétitions
• Problème connu de l’algorithmique du texte
• Spécificité de l’ADN : répétitions approchées
• Sous-répétitions exactes (graines)
• Approche choisie
4
Evolution des occurrences d’une
répétition
i
s
1
2
3
1
3
2
d
1
4
5
3
1
4
5
3
5
2.
Les programmes existants
 BLAST
 ASSIRC
6
BLAST
 Nombreuses versions destinées à l’ADN et aux
protéines
 Recherche de similitudes significatives dans les
bases de données.
 Basé sur l’extension de graines de taille 11
7
ASSIRC
 Recherche de répétitions exactes de k lettres
(couples de k-mots)
 Extension des répétitions exactes (graines) à l’aide
d’une fonction propre
8
3.
La méthode adoptée
 Rassembler les graines (répétitions exactes)
• Rechercher des répétitions exactes dont chacune des
occurrences est respectivement proche de l’autre
 Utilisation de critères statistiques concernant:
• La taille des répétitions exactes recherchées
• La distance entre ces répétitions exactes
• La variation de distance entre ces répétitions
9
Modèles choisis
 Modèle d’alignement binaire
• Comparaison d’occurrences de répétitions approchées
 Marche aléatoire
• simuler les indels (insertions/suppressions) sur les
occurrences de répétitions approchées
10
Modèle d’alignement binaire
 Comparaison de deux répétitions approchées
ATGACCAGTACCGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101111100111
 Analogie avec le lancer de pièce:
• un train (série successive) de k piles (valeur 1) équivaut à une
répétition exacte de taille k.
 Etude de variables aléatoires issues du lancer de
pièce:
• le plus long train de piles espéré en n lancers.
• la distance entre des trains de k piles.
11
Modèle d’alignement binaire
 Plus long train de piles espéré en n lancers.
ATGACCAGTACCGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101111100111
• Permet de déterminer la taille maximale espérée des répétitions
exactes dans une répétition approchée de taille n.
• Formule approchée:
log 1 p  nloglog 1  
• p = taux de ressemblance,
• n = taille de la répétition approchée,
log 1 p
• α = tolérance
• Simulation
12
Modèle d’alignement binaire
 Distance entre trains de k piles
ATGACCAGTACCGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101111100111
• Sert à étudier la distance entre les répétitions exactes de taille
supérieure ou égale à k dans une répétition approchée.
• Formule récursive:

0
pour 0  x  k

k
P Gk, p x  
pour x  k
p
x

k

1
1 ppk 1 P
pour x  k
Gk, p i
i0

• Gk,p = « distance » entre les répétitions de taille k,
• p = taux de ressemblance
• Bornes Statistiques


13
Indels
 Indels = insertion / suppression de lettres
1
2
ATGACCAGTACGGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101101100111
d
d+1
ATGACCAGTCACGGTCCGCT
ATGTGCAGG-ACCGTGAGCT
d
111001110.1101100111
14
Marche aléatoire
• Déplacement discret probabiliste dans l’espace.
- 3 possibilités
• « aller un pas vers la gauche » avec une probabilité p.
• « aller un pas vers la droite » avec une probabilité p.
• « rester sur place» avec une probabilité 1-2p.
- On évalue la position finale au bout de n itérations.
• Marche aléatoire simule la variation de d.
- p représente la probabilité d’indels par nucléotide.
- Le nombre de déplacements n est égal à la zone
d’influence des indels sur d.
15
Marche aléatoire
• Borner statistiquement la variation de d
- cela équivaut à borner statistiquement la marche aléatoire.
• 2 Méthodes
- Calcul d’intervalles [-L..L] sur une loi multinomiale:
L (nk) 2

k L j 0
2j k
n(2j k)
n!
p (12p)
j! ( j  k )!(n  ( 2jk ))!
- Fonction génératrice
P X   pX 12p
p
X
n
n
n1
n
P X   a-n X  a-n1X    an X
16
Méthode adoptée
 Finalement …
• Rassembler les répétitions exactes qui sont proches:
- borne statistique
taille k
 sur la distance entre répétitions de
• Considérer les effets produits par les indels:
- bornes statistiques  sur la variation de distance entre
répétitions de taille k.
ATGTGCAGGACCGTGAGCT
d1
d2
ATGACCAGTACGGTCCGCT
d’1
d’2
17
4. Algorithme
Séquence(s)
d’ADN
Algorithme de
chaînage
Chaînages de
répétitions
exactes
Répétitions
approchées
Algorithme
d’alignement
Paramètres utilisateur
18
Algorithme de chaînage
 Utilise en entrée la liste chaînée des k-mots
• k-mot : sous-mot du texte de taille k
• Cette liste donne l’ensemble des positions sur le texte d’un k-mot
donné.
 Création de couples de k-mots identiques
c( i , j ).
 Chaînage de ces couples selon les deux critères de
distance vus précédemment.
19
Critères appliqués aux couples
 distance di inter-couples inférieure à un seuil

 variation de distance inter-couples inférieure à un
seuil 
- lien entre la distance intra-couple ai et la distance intercouples di.
- Reformuler ce critère sur la distance intra-couple ai
a2
a1
ATGTGCAGGACCGTGAGCT.. ATGACCAGTACGGTCCGCT
d1
d2
d’1
d’2
20
Première approche
1
2
3
4
5
6
7
pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire
pour chaque occurrence wj de wi ( j < i ) faire
si il existe un couple c’(i’, j’) satisfaisant les deux critères
alors chaîner c’(i’, j’) vers c(i ,j)
fsi
fpour
fpour
21
Respect des critères
 Afin de respecter ces critères, on utilise un tableau
des distances :
• Son rôle : conserver à l’indice d, la position i du dernier
couple dont la distance intra-couple était d .
• Utilisé pour la recherche de couples antécédents.
• Afin de prendre en compte les indels, les couples
antécédents ayant une distance intra-couple voisine
seront également pris en compte.
22
Deuxième approche
01
02
03
04
05
06
pour chaque k-mot wi de T ( 0 < i < n - k + 2 ) faire
pour chaque occurrence wj de wi ( j < i ) faire
d=i-j
pour dobs dans {d, d+1, d-1, … d+ δ, d- δ} faire
i’ = CD [dobs ]
si i – i’ < ρ alors
j’ = i – dobs
chaîner c(i’, j’) vers c(i,j )
break // sortir de la boucle dobs
07
08
09
10
fsi
11
fpour
12
CD [d ] = i
13
fpour
14 fpour
23
5.
Réalisation
 Programme
 Résultats
• Donne les positions (début-fin) de chaque occurrence
d’une répétition.
• Indique le taux de ressemblance ainsi que les tailles des
graines qui interviennent dans la répétition.
• Possibilité de visualiser l’alignement des deux
occurrences de la répétition approchée.
TTCTTGTCTT-TCATGTACCT-CTTTCAGATACC--ACTGAGTAATATGACTTTA-AAAGCTCT
......d.s.i..sd......i.ss.d....s.sii...ss...s.s..d....si...ssd..
TTCTTG-CATATCC-GTACCTACCGT-AGATTCAATACTCCGTAGTTTG-CTTTCGAAATA-CT
24
Expérimentation
 ASSIRC
• plus lent
 BLASTN
• approche moins sensible
 Temps de calcul partagé entre chaînage/alignement
• Le temps consommé par l’alignement augmente de
manière beaucoup plus importante que celui du chaînage
lorsque l’on cherche des répétitions approchées moins
ressemblantes.
• Ajout d’un filtre annexe (sous k-mots).
25
Extensions envisagées
 Traiter le brin d’ADN complémentaire inversé
Brins d'ADN
complémentaires
gtcaaa
(1) duplication
(2) complémentarité
a-t
g-c
tttgac
26
6.
Conclusion
 Nouvelle méthode de recherche de répétitions
• propriétés statistiques des séquences approchées
• algorithme de regroupement
 Solution satisfaisante
 Extensions envisagées
27
Questions
??
c
ac
?
g?
a
gg
a
t
c
at
c
cg
g
cg
g
c?
t
ac
?
?
a
cc
a
?g
a
ca
g
ga
t
ta
?
c?
c
?
g
ga
t
c
ag
28
?
?
?
Téléchargement