Etude intégrative des répétitions aux niveaux des séquences nucléiques, des séquences protéiques et des structures tridimensionnelles des protéines Anne-Laure Abraham Atelier de BioInformatique - Université Paris 6 Les duplications intragéniques Duplication en tandem Délétion Perte de fonction / Pathologie Mutation / sélection Divergence Nouvelle fonction sous-fonctionnalisation Adaptation des organismes Importance de ces duplications • > 14% des protéines contiennent des répétitions (Marcotte, 1998) • Formation de protéines longues • Permet l’évolution plus rapide des protéines • Variabilité des protéines en lien avec l’environnement : Antigènes de surface Protéines membranaires Protéines sécrétées Réponse immunitaire … Rôle majeur dans l’évolution des protéines Comprendre la dynamique de création et d’évolution des répétitions dans les génomes séquence protéique séquence nucléotidique ? structure tridimensionnelle des protéines Plan • Méthodes pour étudier les répétitions (séquences, structures) • Données utilisées • Algorithme de Smith et Waterman / adaptation • Système de score • Significativité des résultats (séquences, structures) • Résultats • Conclusion - Perspectives Méthodes pour étudier les similarités • Au niveau des séquences Algorithme de Needleman & Wunsch -> similarité globale (1970) Algorithme de Smith & Waterman -> similarité locale (1981) • Au niveau des structures DALI (Holm & Sanders, 1993) -> similarités des distances internes VAST (Gibrat, 1996) -> alignement structures secondaires STRUCTAL (Levitt & Gerstein,1996) -> distances inter atomiques internes Les données (1) • Structures 3D : Protéines PDB non redondantes ( < 50 % de similarité) (9478) Suppression des structures courtes (<50AA) ou contenant trop d’AA indéterminés (>10% de la séquence) etc (8582) Codage en angles alpha (séquence d’angles) • Séquences protéiques : Séquences extraites des fichiers PDB (8582) Les données (2) • Séquences nucléiques : Séquences correspondant à la PDB : (8582) Programme CD-HIT (Li & Godzik, 2006) : formation de clusters (60% de similarité) entre les séquences PDB et les séquences traduites d’EMBL CDS Sélection du meilleur alignement réciproque entre chaque séquence issue de la PDB et les séquences EMBL Réajustement : fragments protéiques et nucléiques de la taille des protéines de la PDB, gestion des « trous » de la PDB Algorithme de Smith et Waterman Recherche du meilleur alignement local entre deux séquences i-1 i j-1 S1 S2 j S3 Max Substitution (score(i,j)) gap A D Q R T A L M Q K T A A D Q R T A L M Q K T A Adaptation de l’algorithme • • • Répétitions internes -> suppression de la diagonale, -> étude de la moitié de la matrice Ne recalculer qu’une partie de la matrice (Waterman & Eggert, 1987) Au niveau des structures : codage en angles alpha -> séquence d’angle A D Q R T A L M Q K T A A D Q R T A L M Q K T A Adaptation de l’algorithme • • • Répétitions internes -> suppression de la diagonale, -> étude de la moitié de la matrice Ne recalculer qu’une partie de la matrice (Waterman & Eggert, 1987) Au niveau des structures : codage en angles alpha -> séquence d’angle A D Q R T A L M Q K T A A D Q R T A L M Q K T A Adaptation de l’algorithme • • • Répétitions internes -> suppression de la diagonale, -> étude de la moitié de la matrice Ne recalculer qu’une partie de la matrice (Waterman & Eggert, 1987) Au niveau des structures : codage en angles alpha -> séquence d’angle A D Q R T A L M Q K T A A D Q R T A L M Q K T A Systèmes de scores • Au niveau des séquences nucléiques : Substitution : S = 0,5 x σ(i,j) x log4(pipj) pi , pj : fréquences des bases i, j Gaps : ouverture : 4 extension : 1 σ(i,j) = 1 si i ≠ j ; σ(i,j) = -1 si i = j • Au niveau des séquences protéiques : Substitutions : matrice Blosum62 Gaps : ouverture : 8 extension : 3 • Au niveau des structures : Substitution : 30*[(1-pi)(1-pj)(1-β)+ β] - | Δangle | pi , pj = fréquence de l’angle i, j dans la PDB Gaps : ouverture : 200 extension : 50 et RMS < 4,5 Å β =0,4 Significativité des résultats (Séquences) Méthode de Waterman & Vingron (1994) : • Mélange des séquences par acide aminé ou par trinucléotide (100x) • Calcul du meilleur score pour chaque séquence aléatoire • La loi suivie par les scores est une EVD (Extreme Value Distribution) de type P(s>X) = 1-e-γmnω ^s • Estimation des paramètres à partir de la droite (régression linéaire pondérée) • P-value seuil : 0,001 • Correction pour les longueurs : m = longueur moy(longueur match(séquences aléatoires)) (Mott, 2000) Log(-log (P)) log(- log(1-P)) = log (γmn) + s x log (ω) Score (s) Significativité des résultats (Structures) • Valeur seuil de score • Permet de conserver les répétitions qui semblent les plus significatives Structures aléatoires (méthode MTD basée sur la fréquence en angles de la PDB) Méthode de Waterman & Vingron Problème : répétitions très petites donc le seuil est très faible Structures aléatoires Longueurs des répétitions Exemple de répétition aux 3 niveaux 1mp9 chaîne A Répétition 83AA DNA binding protein from a mesothermophilic archaeon, sulfolobus DEIPYKAVVNIENIVATVTLDQTLDLYAMERSVPNVEYDPDQFPGLIFRLESPKITSLIFKSGKMVVTGAKSTDELIKAVKRIIK TLKKYGMQLTGKPKIQIQNIVASANLHVIVNLDKAAFLLENNMYEPEQFPGLIYRMDEPRVVLLIFSSGKMVITGAKREDEVH KAVKKIFDKLVELDCVKPVEEEELE GATGAGATCCCGTATAAAGCAGTCGTAAATATAGAGAATATCGTTGCCACAGTGACTTTGGATCAAACATTGGATTTAT ATGCGATGGAAAGAAGCGTACCAAACGTTGAATATGATCCTGATCAATTCCCAGGATTAATATTTAGGCTTGAATCTCC CAAGATAACCTCATTAATATTTAAATCAGGAAAAATGGTCGTTACTGGAGCTAAAAGTACAGATGAGCTAATAAAGGC TGTAAAACGAATTATAAAAACCCTTAAAAAATATGGAATGCAACTAACAGGAAAACCTAAGATACAAATACAAAACA TAGTCGCATCAGCTAATCTGCACGTTATAGTTAACCTTGATAAAGCAGCATTCCTGCTAGAGAATAACATGTACGAACC AGAGCAGTTCCCAGGTCTAATATATAGAATGGATGAGCCCAGAGTTGTTCTATTAATTTTTAGCAGTGGTAAAATGGTT ATTACAGGAGCTAAGAGAGAAGATGAAGTTCATAAGGCTGTTAAAAAAATATTCGATAAACTGGTAGAGTTAGATTGT GTAAAGCCCGTTGAAGAAGAAGAGTTAGAA Nombre de répétitions trouvées 790 structures • Échantillon de départ : 8582 séquences protéiques, nucléiques et structures 515 • Répétitions trouvées dans : 203 3 1,1% des séquences nucléiques 69 17 12 151 5% des séquences protéiques 9,2% des structures 101 séquences nucléiques 435 séquences protéiques Nombre de protéines contenant des répétitions = significativement sur-représentés (p-value < 10-5) Longueurs des répétitions pourcentage Répétitions nucléiques Répétitions protéiques Répétitions structurales Médianes : 17 30 31 Longueur (acides aminés) Recouvrement des répétitions aux 3 niveaux 2363 répétitions structurales (24,8%) • 8582 séquences protéiques, nucléiques et structures 317648 acides aminés dans les protéines contenant des répétitions 14,4% 0,06% 7,7% • Il peut y avoir plusieurs répétitions par séquence / structure • Majorité des répétitions nucléiques présentes aux autres niveaux • Répétitions structurales seules : dans d’autres structures • Répétitions protéiques seules : dans d’autres régions de la séquence 2,7% 0,4% 0,71% 387 répétitions nucléiques (3,9%) Échantillon de départ : 16,5% 2229 répétitions protéiques (27,6%) Exemple de répétition structurale symétrique Au total : 190 répétitions symétriques Ressemble à un homodimère dans une seule protéine 1mp9 chaîne A 193 résidus Répétition : 83 AA RMS : 1,53 Å Exemple de répétition structurale symétrique Au total : 190 répétitions symétriques Ressemble à un homodimère dans une seule protéine 1mp9 chaîne A 193 résidus Répétition : 83 AA RMS : 1,53 Å Conclusion • • Beaucoup de répétitions trouvées mais à des niveaux différents : 1% des séquences nucléiques, 5% des séquences protéiques, 9% des structures 69 répétitions communes aux 3 niveaux Peu de répétitions uniquement au niveau ADN mais beaucoup exclusivement au niveau des structures Signe de la vitesse relative d’évolution • Nombre important de répétitions symétriques Perspectives • Étude des répétitions aux 3 niveaux : Fonction Composition • Analyse à l’échelle des génomes complets : organismes modèles et génomes proches Nombre de gènes contenant des répétitions Fonction et évolution le long de l’arbre phylogénétique Remerciements Tous les membres de l’Atelier de Bioinformatique et en particulier : • • Eduardo Rocha Joël Pothier • • Guillaume Achaz Isabelle Gonçalves INRIA Grenoble • Eric Coissac Projet soutenu par : • ACI IMPBIO 2003 • Une allocation doctorale de la région Ile de France Distribution des angles alpha dans les répétitions structurales fréquence Fréquence PDB β = 0,3 β = 0,4 β = 0,5 β= 0,7 Score précédent angles