expose_AS03.pps

publicité
YASS : Recherche de similarités dans
les séquences d'ADN
Laurent Noé
Grégory Kucherov
Mardi 21 janvier 2003
Plan
 Alignement local et méthodes heuristiques
 YASS : Méthode adoptée
• Modèle et Critères de chaînage
• Algorithme de chaînage
• Choix du critère de l’extension
 Tests et Résultats
2
Introduction :
Alignement local
 Utilisation
• Annotation
• Localisation de transposons
 Algorithme de référence
• Smith Waterman (1981)
 Méthodes heuristiques
• BLAST - FASTA
• ASSIRC - PatternHunter
3
Méthodes Heuristiques
 Méthode Couramment adoptée
• Recherche de sous répétitions exactes
- Arbre des suffixes
• REPuter
- Hachage en k-mots (éventuellement non contigus)
• BLAST . FASTA
• PatternHunter
• Extension
- FASTA
- BLAST
- ASSIRC
4
BLAST et Gapped-BLAST
 BLAST
• Hachage
Q
- k-mot : taille 11 par défaut
T
- hit : même k-mot sur chacune des deux séquences à
comparer
• Extension
- Test d'extension systématique de chaque « hit » à l’aide d’un
algorithme de Xdrop
 Gapped-BLAST
• Extension
- « double hit » (deux hits distincts sur la même diagonale)
conduit à un test d’extension.
 Sensibilité des deux méthodes
5
Signification Statistique
 Karlin-Altschul 90
• Théorie sur une seule séquence
• Théorie sur deux séquences
• Alignement sans gaps
 Altschul & al. 01
• Estimation des paramètres
6
YASS : Méthode adoptée
 Alignement local et méthodes heuristiques
 YASS : Méthode adoptée
• Modèle et Critères de Chaînage
• Algorithme de chaînage
• Choix du critère de l’extension
 Tests et Résultats
7
Méthode adoptée
 Hachage en k-mots
Q
• Hash Table :
- Deux tableaux F et L .
- k-mots éventuellement non contigus.
T
• Appariement de k-mots pour former des graines
 Groupement de graines
• réalisé selon des critères relatifs à:
- La distance entre les répétitions exactes
- La variation de distance entre ces répétitions
• Critères calculés selon
- deux modèles ( modèle binaire + modèle d’indels)
- des paramètres statistiques
8
Choix d’un modèle
 Modèle d’alignement binaire
ATGACCAGTACCGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101111100111
 Analogie avec le lancer de pièce:
• un train (série successive) de k piles (valeur 1) équivaut à une
répétition exacte de taille k.
 Etude de variables aléatoires
• la distance entre des trains de k piles ~ distances entre deux
graines successives.
9
Modèle d’alignement binaire
 Distance entre trains de k piles (WT)
ATGACCAGTACCGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101111100111
• Utilisée pour évaluer la distance entre les répétitions exactes de
taille supérieure ou égale à k dans une répétition approchée.
• Formule récursive:

0
pour 0  x  k

k
P Gk, p x  
pour x  k
p
x

k

1
1 ppk 1 P
pour x  k
Gk, p i
i0

• Gk,p = « distance » entre les répétitions de taille k,
• p = probabilité d’un match
• Bornes Statistiques


10
Modèle d’alignement binaire
 Prendre en compte les indels
1
2
ATGACCAGTACGGTCCGCT
ATGTGCAGGACCGTGAGCT
1110011101101100111
d
d+1
ATGACCAGTCACGGTCCGCT
ATGTGCAGG-ACCGTGAGCT
d
111001110.1101100111
11
Marche aléatoire
• Déplacement discret probabiliste dans l’espace.
- 3 possibilités
• « aller un pas vers la gauche » avec une probabilité p.
• « aller un pas vers la droite » avec une probabilité p.
• « rester sur place» avec une probabilité 1-2p.
- On évalue la position finale au bout de n itérations.
• Marche aléatoire simule la variation de d.
- p représente la probabilité d’indels par nucléotide.
- Le nombre de déplacements n est égal à la zone
d’influence des indels sur d.
• Borner statistiquement cette marche aléatoire
12
Marche aléatoire
• Borner statistiquement la variation de d
- cela équivaut à borner statistiquement la marche
aléatoire.
• 2 Méthodes
- Calcul d’intervalles [-L..L] sur une loi multinomiale:
L (nk) 2

k L j 0
2j k
n(2j k)
n!
p (12p)
j! ( j  k )!(n  ( 2jk ))!
- Polynôme générateur
n
P
p




P X  pX  12p 
X
X   a-n X n  a-n1X n1    an X n
13
Méthode
 Finalement …
• Rassembler les répétitions exactes qui sont proches:
- borne statistique rho sur la distance entre répétitions de
taille k
• Considérer les effets produits par les indels:
- bornes statistiques delta sur la variation de distance
entre répétitions de taille k.
ATGTGCAGGACCGTGAGCT
a1
a2
ATGACCAGTACGGTCCGCT
a’1
a’2
14
Algorithme
Séquence(s)
d’ADN
Algorithme de
chaînage
Chaînages de
répétitions
exactes
Répétitions
approchées
Algorithme
d’alignement
Paramètres utilisateur
15
Algorithme de chaînage
 Ce qu’il faut en retenir
• Forme des groupes de graines (couples de positions de kmots identiques) susceptibles d’appartenir à une répétition
approchée
• Prend en compte les indels.
• Génère un volume relativement important de données
- l’alterner régulièrement avec l’algorithme
d’alignement sur les chaînages complets
16
Choix du critère d’extension
 Groupes de graines
- évaluer une extension sur chacun des groupes
• serait la méthode la plus sensible
• serait trop coûteuse en temps.
- nombre de graines d’un groupe comme critère
• perte de sensibilité trop importante lors de la recherche
similitudes de faible score.
 Critère intermédiaire
• Basé sur la taille du groupe définie comme la somme de
la taille des graines.
• Permet un compromis entre la rapidité de l’algorithme et
sa sensibilité
17
Choix du critère d’extension
 Exemple
- k fixé à 3 ... taille du groupe = 11
ATGACCAGTACCGTCCGCT
ATGTGCAGGACCGTGAGCG
1110011101111100110
 Taille du groupe simple à gérer…
 Sensibilité : on considère par la suite des répétitions de
score fixé mais de longueur variable.
18
Sensibilité
 Pour un score fixé
• La relation entre le taux de similarité de la répétition approchée
et sa longueur minimale est une hyperbole.
• On considère la probabilité de trouver de telles répétitions selon
- le critère de hit de BLAST
- le critère de hit de Gapped-BLAST
- notre critère (taille du groupe)
19
Sensibilité
 Comparaison avec les approches choisies par BLASTn et
Gapped-BLAST
20
Sensibilité
 Comparaison avec les approches choisies par BLASTn et
Gapped-BLAST
21
Sensibilité
 Comparaison avec les approches choisies par BLASTn et
Gapped-BLAST
22
Tests et Résultats
 Alignement local et méthodes heuristiques
 YASS : Méthode adoptée
• Modèle et Critères de Chaînage
• Algorithme de chaînage
• Choix du critère de l’extension
 Tests et Résultats
23
Comparaison des Méthodes
 Temps principalement consommé à :
• (FASTA)
- générer et comptabiliser des hits de petite taille.
• (BLASTn)
- étendre les hits générés à l’aide d ’un algorithme de Xdrop
 méthodes antagonistes
 YASS : temps relatif partagé
taille
graine groupe
9
9
8
8
7
7
13
11
13
11
13
11
ρ
δ
135
135
97
97
69
69
5
5
4
4
4
4
temps consommé
chaînage
alignement
2s
2s
7s
7s
22s
22s
2s
6s
7s
11s
35s
41s
total
4s
8s
14s
18s
57s
69s
24
Comparaison des Programmes
 Temps
sequence
Listeria monocytogenes vs innocua plasmid
S.cerevisiae chr.V vs chr.IX
S.cerevisiae chr.XVI vs chr.IV
Listeria monocytogenes vs S.cerevisiae chr IV
m
n
2 944 528
81 905
576 869
439 885
918 120 1 531 929
2 944 528 1 531 929
mxn
2.4 E 11
2.5 E 11
1.4 E 12
4.5 E 12
BL2SEQ
15.5 s
5.3 s
80.3 s
625.2 s
YASS
10.4s
6.8s
36.2 s
106.9 s
 Résultats obtenus
• Comparaison sur S.Cerevisiae chr.V vs chr.IX de
BLASTn et YASS
• Similitudes de score > 20 (Evalue < 0.22) retrouvées
25
Caractéristiques techniques
 Programme
 Résultats
• Donne les positions (début-fin) de chaque occurrence
d’une répétition.
• Indique le taux de ressemblance ainsi que les tailles
des graines qui interviennent dans la répétition.
• Possibilité de visualiser l’alignement des deux
occurrences de la répétition approchée.
26
Extensions Envisagées
 k-mots non contigus : meilleure intégration de ces
derniers. (Sensibilité sur CDS)
 Inclure un post-traitement pour rassembler les répétitions
séparées par des gaps importants.
 Inclure la possibilité d’éliminer les répétitions en tandem
lorsque l’on recherche des similitudes sur une seule
séquence (mreps)
 Auto-paramétrage du programme selon la taille et le type
de séquence.
27
Conclusion
 Nouvelle approche pour la recherche de répétitions
• propriétés statistiques des séquences approchées
• algorithme de regroupement
• critère d’évaluation efficace et sensible
 Solution satisfaisante
• sensibilité
• sélectivité
28
Questions
??
c
ac
?
g?
a
gg
a
t
c
at
c
cg
g
cg
g
c?
t
ac
?
?
a
cc
a
?g
a
ca
g
ga
t
ta
?
c?
c
?
g
ga
t
c
ag
29
?
?
?
Téléchargement