Etude intégrative des répétitions aux niveaux des séquences

advertisement
Etude intégrative des répétitions
aux niveaux des séquences nucléiques,
des séquences protéiques et
des structures tridimensionnelles des protéines
Anne-Laure Abraham
Atelier de BioInformatique - Université Paris 6
Les duplications intragéniques
Duplication en tandem
Délétion
Perte de fonction /
Pathologie
Mutation / sélection
Divergence
Nouvelle fonction
sous-fonctionnalisation
Adaptation des organismes
Importance de ces duplications
• > 14% des protéines contiennent des répétitions (Marcotte, 1998)
• Formation de protéines longues
• Permet l’évolution plus rapide des protéines
• Variabilité des protéines en lien avec l’environnement :
 Antigènes de surface
 Protéines membranaires
 Protéines sécrétées
 Réponse immunitaire …
Rôle majeur dans l’évolution des protéines
Comprendre la dynamique
de création et d’évolution des
répétitions dans les génomes
séquence
protéique
séquence
nucléotidique
?
structure tridimensionnelle des protéines
Plan
•
Méthodes pour étudier les répétitions (séquences, structures)
•
Données utilisées
•
Algorithme de Smith et Waterman / adaptation
•
Système de score
•
Significativité des résultats (séquences, structures)
•
Résultats
•
Conclusion - Perspectives
Méthodes pour étudier
les similarités
• Au niveau des séquences
 Algorithme de Needleman & Wunsch
-> similarité globale (1970)
 Algorithme de Smith & Waterman
-> similarité locale (1981)
• Au niveau des structures
 DALI (Holm & Sanders, 1993)
-> similarités des distances internes
 VAST (Gibrat, 1996)
-> alignement structures secondaires
 STRUCTAL (Levitt & Gerstein,1996)
-> distances inter atomiques internes
Les données (1)
• Structures 3D :
 Protéines PDB non redondantes
( < 50 % de similarité)
(9478)
 Suppression des structures courtes (<50AA)
ou contenant trop d’AA indéterminés
(>10% de la séquence) etc (8582)
 Codage en angles alpha (séquence d’angles)
• Séquences protéiques :
 Séquences extraites des fichiers PDB
(8582)
Les données (2)
• Séquences nucléiques :
Séquences correspondant à la PDB :
(8582)
 Programme CD-HIT (Li & Godzik, 2006) : formation de
clusters (60% de similarité) entre les séquences PDB et les
séquences traduites d’EMBL CDS
 Sélection du meilleur alignement réciproque entre chaque
séquence issue de la PDB et les séquences EMBL
 Réajustement : fragments protéiques et nucléiques de la
taille des protéines de la PDB, gestion des « trous » de la PDB
Algorithme de
Smith et Waterman
Recherche du meilleur alignement local
entre deux séquences
i-1
i
j-1
S1
S2
j
S3
Max
Substitution (score(i,j))
gap
A
D
Q
R
T
A
L
M
Q
K
T
A
A D Q R T A L
M Q K T
A
Adaptation de l’algorithme
•
•
•
Répétitions internes
-> suppression de la diagonale,
-> étude de la moitié de la matrice
Ne recalculer qu’une partie de la
matrice (Waterman & Eggert, 1987)
Au niveau des structures : codage en
angles alpha
-> séquence d’angle
A
D
Q
R
T
A
L
M
Q
K
T
A
A D Q R T A L
M Q K T
A
Adaptation de l’algorithme
•
•
•
Répétitions internes
-> suppression de la diagonale,
-> étude de la moitié de la matrice
Ne recalculer qu’une partie de la
matrice (Waterman & Eggert, 1987)
Au niveau des structures : codage en
angles alpha
-> séquence d’angle
A
D
Q
R
T
A
L
M
Q
K
T
A
A D Q R T A L
M Q K T
A
Adaptation de l’algorithme
•
•
•
Répétitions internes
-> suppression de la diagonale,
-> étude de la moitié de la matrice
Ne recalculer qu’une partie de la
matrice (Waterman & Eggert, 1987)
Au niveau des structures : codage en
angles alpha
-> séquence d’angle
A
D
Q
R
T
A
L
M
Q
K
T
A
A D Q R T A L
M Q K T
A
Systèmes de scores
• Au niveau des séquences nucléiques :
Substitution : S = 0,5 x σ(i,j) x log4(pipj)
pi , pj : fréquences des bases i, j
Gaps : ouverture : 4 extension : 1
σ(i,j) = 1 si i ≠ j ; σ(i,j) = -1 si i = j
• Au niveau des séquences protéiques :
Substitutions : matrice Blosum62
Gaps : ouverture : 8 extension : 3
• Au niveau des structures :
Substitution : 30*[(1-pi)(1-pj)(1-β)+ β] - | Δangle |
pi , pj = fréquence de l’angle i, j dans la PDB
Gaps : ouverture : 200 extension : 50
et RMS < 4,5 Å
β =0,4
Significativité des résultats
(Séquences)
Méthode de Waterman & Vingron (1994) :
•
Mélange des séquences par acide aminé ou par trinucléotide (100x)
•
Calcul du meilleur score pour chaque séquence aléatoire
•
La loi suivie par les scores est une EVD (Extreme Value Distribution) de
type P(s>X) = 1-e-γmnω ^s
•
Estimation des paramètres à partir de la
droite (régression linéaire pondérée)
•
P-value seuil : 0,001
•
Correction pour les longueurs :
m = longueur moy(longueur match(séquences aléatoires))
(Mott, 2000)
Log(-log (P))
log(- log(1-P)) = log (γmn) + s x log (ω)
Score (s)
Significativité des résultats
(Structures)
•
Valeur seuil de score

•
Permet de conserver les répétitions qui semblent les plus significatives
Structures aléatoires (méthode MTD basée sur la fréquence en angles
de la PDB)


Méthode de Waterman & Vingron
Problème : répétitions très petites
donc le seuil est très faible
Structures aléatoires
Longueurs des répétitions
Exemple de répétition
aux 3 niveaux
1mp9 chaîne A
Répétition 83AA
DNA binding protein from a
mesothermophilic archaeon,
sulfolobus
DEIPYKAVVNIENIVATVTLDQTLDLYAMERSVPNVEYDPDQFPGLIFRLESPKITSLIFKSGKMVVTGAKSTDELIKAVKRIIK
TLKKYGMQLTGKPKIQIQNIVASANLHVIVNLDKAAFLLENNMYEPEQFPGLIYRMDEPRVVLLIFSSGKMVITGAKREDEVH
KAVKKIFDKLVELDCVKPVEEEELE
GATGAGATCCCGTATAAAGCAGTCGTAAATATAGAGAATATCGTTGCCACAGTGACTTTGGATCAAACATTGGATTTAT
ATGCGATGGAAAGAAGCGTACCAAACGTTGAATATGATCCTGATCAATTCCCAGGATTAATATTTAGGCTTGAATCTCC
CAAGATAACCTCATTAATATTTAAATCAGGAAAAATGGTCGTTACTGGAGCTAAAAGTACAGATGAGCTAATAAAGGC
TGTAAAACGAATTATAAAAACCCTTAAAAAATATGGAATGCAACTAACAGGAAAACCTAAGATACAAATACAAAACA
TAGTCGCATCAGCTAATCTGCACGTTATAGTTAACCTTGATAAAGCAGCATTCCTGCTAGAGAATAACATGTACGAACC
AGAGCAGTTCCCAGGTCTAATATATAGAATGGATGAGCCCAGAGTTGTTCTATTAATTTTTAGCAGTGGTAAAATGGTT
ATTACAGGAGCTAAGAGAGAAGATGAAGTTCATAAGGCTGTTAAAAAAATATTCGATAAACTGGTAGAGTTAGATTGT
GTAAAGCCCGTTGAAGAAGAAGAGTTAGAA
Nombre de répétitions trouvées
790 structures
•
Échantillon de départ :
 8582 séquences protéiques,
nucléiques et structures
515
• Répétitions trouvées dans :
203
3
 1,1% des séquences
nucléiques
69
17
12
151
 5% des séquences
protéiques
 9,2% des structures
101 séquences
nucléiques
435 séquences
protéiques
Nombre de protéines contenant des répétitions
= significativement sur-représentés
(p-value < 10-5)
Longueurs des répétitions
pourcentage
Répétitions nucléiques
Répétitions protéiques
Répétitions structurales
Médianes :
17 30 31
Longueur (acides aminés)
Recouvrement des répétitions
aux 3 niveaux
2363 répétitions structurales
(24,8%)
•
 8582 séquences protéiques,
nucléiques et structures
 317648 acides aminés dans
les protéines contenant des
répétitions
14,4%
0,06%
7,7%
•
Il peut y avoir plusieurs répétitions
par séquence / structure
•
Majorité des répétitions nucléiques
présentes aux autres niveaux
•
Répétitions structurales seules :
dans d’autres structures
•
Répétitions protéiques seules :
dans d’autres régions de la
séquence
2,7%
0,4%
0,71%
387 répétitions
nucléiques (3,9%)
Échantillon de départ :
16,5%
2229 répétitions
protéiques (27,6%)
Exemple de répétition
structurale symétrique
Au total : 190
répétitions symétriques
Ressemble à un
homodimère dans
une seule protéine
1mp9 chaîne A
193 résidus Répétition : 83 AA
RMS : 1,53 Å
Exemple de répétition
structurale symétrique
Au total : 190
répétitions symétriques
Ressemble à un
homodimère dans
une seule protéine
1mp9 chaîne A
193 résidus Répétition : 83 AA
RMS : 1,53 Å
Conclusion
•
•
Beaucoup de répétitions trouvées mais à des niveaux
différents :

1% des séquences nucléiques, 5% des séquences protéiques, 9%
des structures

69 répétitions communes aux 3 niveaux
Peu de répétitions uniquement au niveau ADN mais
beaucoup exclusivement au niveau des structures
Signe de la vitesse relative d’évolution
•
Nombre important de répétitions symétriques
Perspectives
• Étude des répétitions aux 3 niveaux :
 Fonction
 Composition
• Analyse à l’échelle des génomes complets : organismes modèles
et génomes proches
 Nombre de gènes contenant des répétitions
 Fonction et évolution le long de l’arbre phylogénétique
Remerciements
Tous les membres de l’Atelier de
Bioinformatique et en particulier :
•
•
Eduardo Rocha
Joël Pothier
•
•
Guillaume Achaz
Isabelle Gonçalves
INRIA Grenoble
• Eric Coissac
Projet soutenu par :
• ACI IMPBIO 2003
•
Une allocation doctorale
de la région Ile de France
Distribution des angles alpha dans les
répétitions structurales
fréquence
Fréquence PDB
β = 0,3
β = 0,4
β = 0,5
β= 0,7
Score précédent
angles
Téléchargement