Comparaison et alignement de séquences Mastère Ingénierie des BioMolécules Module Bioinformatique structurale. Cours I Octobre 2013 T. Simonson, Ecole Polytechnique. ● Comparaisons de séquences: pourquoi faire? ● L'alignement de séquences comme modèle d'un processus évolutif ● Alignement de séquences: algorithmes ● Déroulement du module Bioinformatique 1) Les protéines similaires ont souvent un ancêtre commun: Exemple des globines Millions d'années Arbre phylogénétique retraçant l'évolution des globines. Les protéines similaires ont souvent un ancêtre commun Gène X Duplication Gène X Spéciation Gène X Gène X Gène X Gène X Divergence Divergence Gène Y Gène Z Orthologues Paralogues La duplication conduit à des gènes paralogues Gène X individu Duplication accidentelle invasion de la population Gène X Gène X individu + descendance Divergence Gène Y Gène Z population Paralogues Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues Gène X Duplication accidentelle Gène X Gène X Divergence Gène Y Gène Z Paralogues Les paralogues changent généralement de fonction Evolution d'un gène par spéciation, duplication et divergence X spéciation B B1 A B2 duplication spéciation temps duplication a orthologues b1 b2 c1 c2 paralogues c3 2) Les protéines similaires ont souvent des fonctions similaires K L H G G P M L D S D Q K F W R T P A A L Séquence Structure Fonction A partir de 60% d'identité de séquence on peut dire avec confiance que deux homologues ont la même fonction. A partir de 35% d'identité des complexes homologues vont probablement interagir de manière homologue. Launay & Simonson BMC Bioinformatics 2008 L'alignement de séquences comme modèle d'un processus évolutif L'alignement comme modèle d'un processus évolutif Hypothèse: deux protéines similaires ont toujours un ancêtre commun L'alignement comme hypothèse d'un ancêtre commun “parsimonieux” T C L I C G D E A S G C H Y Récepteur de l'androstérone T C L V C G D E A T G Y H Y Ancêtre commun hypothétique L C V V C G D K A T G Y H Y Récepteur de l'hormone thyroïdienne Mutations hypothétiques en rouge L'hypothèse ci-dessus est-elle vraisemblable? Un modèle probabiliste d'évolution P(xi,yj) = probabilité d'observer xi aligné avec yj P(xi ≠ yj) = P(“xi muté en yj” ou “yj muté en xi”) P(xi = yj) = P(“xi conservé”) séquence x: séquence y: T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y ● Probabilités estimées à partir d'alignements tests ● Hypothèse de positions équivalentes et indépendantes La vraisemblance ou probabilité d'un alignement T C L I C G D E A S G C H Y Récepteur de l'androstérone L C V V - G D K A T G Y H Y Récepteur de l'hormone thyroïdienne Mutations probables alignement probable Mutations improbables alignement improbable En comparant des protéines homologues, on voit que les mutations ont des probabilités différentes androgène progestérone minéralocorticoïde glucocorticoïde estrogène acide rétonïque vitamine D3 thyroïde VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::* Récepteur de l'androstérone Récepteurs nucléaires Se fixent sur l'ADN et régulent l'expression génétique sous le contrôle de petits ligands: stéroïdes, vitamines, ... androgen Rev Erb glucocorticoid retinoic acid CLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYL-CASRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGA CKVCGDVASGFHYGVLACEGCKGFFRRSIQQNIQYKRCLKNENCSIVRINRNRCQQCRFKKCLSVGMSRDCLVCSDEASGCHYGVLTCEGCKAFFKRAVEGQHNYL-CKYEGKCIIDKIRRKNCPACRYRKCLQAGMNLEA CAICGDRSSGKHYGVYSCEGCKGFFKRTVRKDLTYT-CRDNKDCLIDKRQRNRCQYCRYQKCLAMGM--- Les mutations ont des probabilités différentes androgène progestérone minéralocorticoïde glucocorticoïde estrogène acide rétinoïque vitamine D3 thyroïde VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::* Les propriétés structurales des acides aminés font que les mutations ont des probabilités différentes PHE F TYR Y homologues KYL NYL NYL NYL DYM VYT LFT TYS : Les propriétés structurales des acides aminés font que les mutations ont des probabilités différentes LYS K RKCY RKCY QKCL RKCL RKCY QKCF KRCV KKCL ::* ARG R GLN Q homologues Un modèle probabiliste d'évolution P(xi,yj) = probabilité d'observer xi aligné avec yj P(xi ≠ yj) = P(“xi muté en yj” ou “yj muté en xi”) P(xi = yj) = P(“xi conservé”) séquence x: séquence y: T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y ● Probabilités estimées à partir d'alignements tests ● Hypothèse de positions équivalentes et indépendantes Difficulté: qu'est-ce qu'une grande probabilité? Alignement avec le récepteur humain de la progestérone PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC PQRVCVICGDEASGCHYGVLTCGSCKVFFKRAVEGHHQYLCAGRNDCIVDKIRRKNCPAC **' *'******** *** ************* ** '**** **** '** ******'* Alignement avec le récepteur humain de l'hormone thyroïdienne PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSC KDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLC *''***'*'* ** '** ** **'* ' * * * *** * * * Alignement avec la ferrédoxine de la bactérie Proteus vulgaris PQKTCLICGDEASGAHYGTLTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC DQDKCIGCKTCVLACPYGTMEVVSRPVMRKLTALNTIEAFKAEANKCDLCHHRAEG-PAC * *' * ***' * * * * * * * ' * ' *'* Modèle “aléatoire” comme point de référence Hypothèse “évolutive”: deux séquences ont un ancêtre commun (parsimonieux) Hypothèse concurrente: elles n'ont aucune relation biologique: c'est comme si on cherchait à aligner deux séquences aléatoires, tirées au hasard. Q(xi,yj) = probabilité d'observer xi et yj dans deux protéines indépendantes = qxi qyj x W L Fréquences naturelles de xi, yj qx 1.3 % des acides aminés 9.0 % W L ≠ W L Vraisemblance d'une colonne dans un alignement On prend toujours un ratio entre une probabilité P (scénario évolutif) et une probabilité Q (scénario aléatoire): déf. M(xi,yj) = log P(xi,yj)/Q(xi,yj) = log [ P(xi,yj)/qxi qyj ] xi T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y yi M = matrice de “score” Une matrice empirique très utilisée: BLOSUM62 C S T P A G N D E Q H R K M I L V F Y W C S T P A G N D 9 -1 -1 -3 0 -3 -3 -3 4 1 -1 1 0 1 0 5 -1 0 -2 0 -1 7 -1 -2 -2 -1 4 0 -2 -2 6 0 -1 6 1 6 C S T P A G N D E -4 0 -1 -1 -1 -2 0 2 5 Q -3 0 -1 -1 -1 -2 0 0 2 5 H -3 -1 -2 -2 -2 -2 1 -1 0 0 8 R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 K -3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 5 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 I -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 L -1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 V -1 -2 0 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 E Q H R K M I L V F Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 W -2 -3 -2 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 Y W C S T P A G N D E Q H R K M I L V F Y W Une matrice empirique très utilisée: BLOSUM62 C S T P A G N D E Q H R K M I L V F Y W C S T P A G N D 9 -1 -1 -3 0 -3 -3 -3 4 1 -1 1 0 1 0 5 -1 0 -2 0 -1 7 -1 -2 -2 -1 4 0 -2 -2 6 0 -1 6 1 6 C S T P A G N D E -4 0 -1 -1 -1 -2 0 2 5 Q -3 0 -1 -1 -1 -2 0 0 2 5 H -3 -1 -2 -2 -2 -2 1 -1 0 0 8 R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 K -3 0 -1 -1 -1 -2 0 -1 1 1 -1 2 5 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 I -1 -2 -1 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 L -1 -2 -1 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 V -1 -2 0 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 1 4 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 E Q H R K M I L V F Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 Pénalty pour gaps: voir plus loin Exc: calculer les valeurs de P(W,W) et P(L,L) et les commenter. W -2 -3 -2 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 Y W C S T P A G N D E Q H R K M I L V F Y W Les mutations ont des probabilités différentes K R Q Y F K 6 R 3 7 Q Y F 2 -2 -4 1 -1 -3 7 -1 -4 8 4 8 Extrait de la matrice empirique BLOSUM50 La vraisemblance ou probabilité d'un alignement P(xi,yj) = probabilité d'observer xi aligné avec yj = P(“xi conservé” ou “xi muté en yj” ou “yj muté en xi”) T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y ● Probabilités estimées à partir d'alignements tests ● Hypothèse de positions équivalentes ● Hypothèse de positions indépendantes: P(alignement) = Π(i,j) P(xi,yj) Vraisemblance ou “score” d'un alignement s(xi,yj) = log P(xi,yj)/Q(xi,yj) = log [ P(xi,yj)/qxi qyj ] s(x,y) = Σ(i,j) s(xi,yj) T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y La probabilité de mutation dépend du temps P(x,y) = P(x,y;T) = probabilité d'une mutation pendant le temps T Les cytochromes c de chimpanzee et d'humain sont plus similaires que les cytochromes c d'humain et d'Escherichia coli... Une matrice de similarité vaut pour une échelle de temps, ou de similarité donnée. BLOSUM50 ≠ BLOSUM62 Il faut un traitement plus réaliste des gaps Il est nettement plus facile d'allonger un gap existant que d'ouvrir un nouveau gap Eg, boucles Ouvrir un gap: ●L'allonger d'un résidu: ● ● -d -e (e<d) Coût d'un gap de longueur m: g(m) = -d – (m-1) e Les positions ne sont plus équivalentes ni indépendantes En résumé, un alignement correspond à un modèle d'évolution, qui comprend: ● Hypothèse de divergence “minimale” depuis un ancêtre commun ● Détermination empirique des probabilités de mutations ● Hypothèse de positions équivalentes et indépendantes ● Un modèle de référence (hypothèse “nulle”) L'alignement de séquences: algorithmes Comparaison graphique de deux séquences par une matrice densité Séquence 2 On dispose les deux séquences sur les bords d'une matrice. Pour chaque paire de résidus similaires ou identiques, on dessine un point dans la matrice: W W P Q R W W * * * * * * A A P Q R A A A P Q R A Séquence 1 Comparaison graphique de deux séquences par une matrice densité cheval Cytochromes c humain Récepteur androgène Récepteur estrogène C'est souvent une partie d'une protéine qui est conservée: il faut chercher un alignement “local” Aspartyl-ARNt synthétase de levure Domaine du site actif, Aspartyl-ARNt synthétase d'E coli BLAST: Basic Local Alignment Search Tool recherche de tétrapeptides homologues ● extension de chaque peptide tant que la similarité > seuil ● C L I C G D E A S G C H Y Récepteur de l'androstérone L C V V G D K A T G Y H Y Récepteur de l'hormone thyroïdienne Tétrapeptides homologues à un tétrapeptide de référence G D E A G D E A score BLOSUM62 21 = 6+6+5+4 G D D A G D Q A 18 18 G G G G 17 17 17 17 E D D D E E K E A G A V BLOSUM62 V A G D E Q K A 0 4 G 6 D 6 2 E 5 2 1 7 homologues (avec BLOSUM62 et un seuil de 17). On identifie dans la séquence cible un tétrapeptide homologue à la séquence de référence G G G G G G G D D D E D D D E D Q E E K E A A A A G A V Eg: Tétrapeptides homologues à la référence GDEA >sp|P10827|THA_HUMAN Thyroid hormone receptor alpha Homo sapiens. MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIPSYLDKDEQCVVCGDKA TGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCIAVGM AMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEPTPEEWDLIHIATEAHRSTNA QGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEFTKIITPAITRVVDFAKKLPMFS ELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTLSGEMAVKREQLKNGGLGVVSDAIF ELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLCVDKIEKSQEAYLLAFEHYVNHRKHNI PHFWPKLLMKEREVQSSILYKGAAAEGRPGGSLGVHPEGQQLLGMHVVQGPQVRQLEQQL GEAGSLQGPVLQHQSPKSPQQRLLELLHRSGILHARAVCGEDDSSEADSPSSSEEEPEVC EDLAGNAASP On étend le “micro-alignement” dans chaque direction, tant que le score > seuil C L I C G D E A S G C H Y Récepteur de l'androstérone L C V V G D K A T G Y H Y Récepteur de l'hormone thyroïdienne Chaque tétrapeptide homologue conduit à un alignement local sans gaps ●On retient les meilleurs alignements ● Homologues du récepteur de l'androstérone identifiés avec BLAST # 1 6 14 17 21 33 41 42 : : 343 344 345 346 347 349 351 355 ID Swissprot P15207 P19091 Q63449 P06401 P08235 P04150 Q9YH32 Q9YH33 : : Q9N4Q7 Q23294 O45460 Q09565 Q09587 P17672 P20659 P98164 Hit ANDR_RAT ANDR_MOUSE PRGR_RAT PRGR_HUMAN MCR_HUMAN GCR_HUMAN ESR2_ORENI ESR1_ORENI : : NH13_CAEEL NH11_CAEEL NH54_CAEEL NH20_CAEEL NH22_CAEEL E75B_DROME TRX_DROME LRP2_HUMAN Description Score (bits) Androgen receptor. 162 Androgen receptor. 162 Progesterone receptor (PR) 136 Progesterone receptor (PR) 136 Mineralocorticoid receptor (MR) 136 Glucocorticoid receptor (GR) 131 Estrogen receptor beta (ER-beta) 99 Estrogen receptor (ER-alpha) 98 : : : : : : Nuclear hormone receptor nhr-13 54 Nuclear hormone receptor nhr-11 54 Nuclear hormone receptor nhr-54 54 Nuclear hormone receptor nhr-20 51 Nuclear hormone receptor nhr-22 45 Ecdysone-induced protein 75B 40 Trithorax protein. 31 Lipoprotein receptor. 30 % E Identity * 1e-40 100 1e-40 100 1e-32 80 1e-32 80 1e-32 79 3e-31 77 3e-21 58 4e-21 55 : : : : 8e-08 39 8e-08 42 1e-07 37 7e-07 34 5e-05 32 0.001 37 0.74 26 1.7 27 *E = espérance du nombre d'alignements fortuits de score supérieur Match Length 73 73 72 72 72 72 72 72 : : 66 66 67 66 66 47 49 65 Une méthode plus rigoureuse, qui s'inspire de la “matrice” déja vue On dispose les deux séquences sur les bords d'une matrice: Séquence 2 P Q R A S P Q R * * * Séquence 1 Une méthode plus rigoureuse; présentation partielle On dispose les deux séquences sur les bords d'une matrice. Un alignement correspond à une ligne à travers la matrice: S P Q R * * * P Q R A Séquence 2 Séquence 2 P Q R A Séquence 1 Exc: représenter les alignements suivants: S P Q R -PQRA SPQR- Séquence 1 P-QRA SPQR- P--QRA SPQ-R- Une méthode plus rigoureuse; présentation partielle Un alignement correspond à une ligne à travers la matrice. Une ligne “incomplète” correspond à un alignement incomplet: P Q R A S P Q R P Q R A S P Q R -PQRA SPQR- -PQ SPQ Une méthode plus rigoureuse; présentation partielle Un alignement correspond à une ligne à travers la matrice. On annote la table avec les scores: P P Q R A Q R A 0 S-8 S P Q R P Q R -PQRA SPQR- P Q R A -1 4 9 1 S P Q R -1 7 -1 -2 0 -1 5 1 -1 -2 1 5 1 -1 -1 -1 Une méthode plus rigoureuse; présentation partielle L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles: P Q R A P 0 R A 1 -7 0 S-8 S -1 P P -9 Q Q -1 4 R Q 9 -PQRA SPQR- 1 R -4 P-QRA SPQR- Une méthode plus rigoureuse; présentation partielle L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles: P Q R A P 0 Q R A P 0 Q S -1 S P P -9 P -17 Q -25 Q 4 R Q 9 -PQRA SPQR- 1 R A 0 S-8 -1 R -4 1 P-QRA SPQR- -7 R -1 -9 -20 -28 PQ--RA S-PQR- Comment trouver le meilleur chemin à travers la table? Supposons que nous connaissons les scores de trois alignements particuliers: P Q R A Chaque score bleu correspond à un alignement incomplet, inconnu à ce stade. Pour le moment, nous n'avons pas besoin de savoir comment ces valeurs sont obtenues: elles sont admises. 0 S P Q R -1 -9 9 ? A partir de ces 3 scores, je peux trouver le score manquant! Comment?? Comment trouver le meilleur chemin à travers la table? Supposons que nous connaissons les scores de trois alignements particuliers: P Q R A A partir des 3 scores bleus, je peux trouver le score manquant! 0 S 3 possibilités: P Q R -1 -9 9 ? score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17 Comment trouver le meilleur chemin à travers la table? Supposons que nous connaissons les scores de trois alignements particuliers: P Q R A A partir des 3 scores bleus, je peux trouver le score manquant! 0 S 3 possibilités: P Q R -1 -9 9 1 score -1 -1 = -2 score 9 – 8 = 1 score -9 - 8 = -17 Comment trouver le meilleur chemin à travers la table? Supposons que nous connaissons encore trois autres scores: P Q R A 0 S P Q R 4 -1 -9 -4 9 1 On peut construire progressivement un alignement optimal; pour une description complète de la méthode, voir Dardel & Képès Comment trouver le meilleur chemin à travers la table? Supposons que nous connaissons encore trois autres scores: P Q R A 0 S P Q R 4 -1 -9 -4 9 1 Comment obtenir ces scores “intermédiaires”? Par une opération de remplissage de la table entière, en commençant en haut à gauche. Comment trouver le meilleur chemin à travers la table? Supposons que nous connaissons encore trois autres scores: P Q R A 0 S P Q R 4 -1 -9 -4 9 1 Comment obtenir ces scores “intermédiaires”? Par une opération de remplissage de la table entière, en commençant en haut à gauche. La méthode de Needleman-Wunsch P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23 P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1 Pour les détails, voir le livre de Dardel & Képès La méthode de Needleman-Wunsch P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23 P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1 Pour les détails, voir le livre de Dardel & Képès La méthode de Needleman-Wunsch Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23 P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1 P Q R A Séquence 2 P S P Q R -PQRA SPQR- Séquence 1 Pour les détails, voir le livre de Dardel & Képès (chap. 2) Alignements multiples: principes Homologues du récepteur de l'androstérone identifiés avec BLAST # 1 6 14 17 21 33 41 42 : : 343 344 345 346 347 349 351 355 ID Swissprot P15207 P19091 Q63449 P06401 P08235 P04150 Q9YH32 Q9YH33 : : Q9N4Q7 Q23294 O45460 Q09565 Q09587 P17672 P20659 P98164 Hit ANDR_RAT ANDR_MOUSE PRGR_RAT PRGR_HUMAN MCR_HUMAN GCR_HUMAN ESR2_ORENI ESR1_ORENI : : NH13_CAEEL NH11_CAEEL NH54_CAEEL NH20_CAEEL NH22_CAEEL E75B_DROME TRX_DROME LRP2_HUMAN Description Score (bits) Androgen receptor. 162 Androgen receptor. 162 Progesterone receptor (PR) 136 Progesterone receptor (PR) 136 Mineralocorticoid receptor (MR) 136 Glucocorticoid receptor (GR) 131 Estrogen receptor beta (ER-beta) 99 Estrogen receptor (ER-alpha) 98 : : : : : : Nuclear hormone receptor nhr-13 54 Nuclear hormone receptor nhr-11 54 Nuclear hormone receptor nhr-54 54 Nuclear hormone receptor nhr-20 51 Nuclear hormone receptor nhr-22 45 Ecdysone-induced protein 75B 40 Trithorax protein. 31 Lipoprotein receptor. 30 % Match Identity Length E * 1e-40 1e-40 1e-32 1e-32 1e-32 3e-31 3e-21 4e-21 : : 8e-08 8e-08 1e-07 7e-07 5e-05 0.001 0.74 1.7 *E = espérance du nombre d'alignements fortuits de score supérieur 100 100 80 80 79 77 58 55 : : 39 42 37 34 32 37 26 27 73 73 72 72 72 72 72 72 : : 66 66 67 66 66 47 49 65 Méthode heuristique pour un alignement multiple: trois phases successives ● Alignement 2 à 2 des séquences ● Construction d'un arbre “guide” ● Alignement progressif séquences-profil Phase 1: alignement des séquences 2 à 2 S T A R S K A T a) S T A R b) S K A T c) P I T 4 -1 4 -1 S T A R P I T -1 -1 Score =6 0 -8 S K A T P – I T -1 -8 -1 Score =-10 (Exc.) 5 Score =-5 (Exc.) Phases 2, 3: on reprend le problème à zéro, en traitant les séquences dans un ordre intelligent Phase 2: Classement des séquences par similarité Phase 3: On les aligne progessivement, en commençant par les plus similaires Phase 2: classement hiérarchique, ou arbre “guide” a a b 2 b 3 a d c d b c 1 “Unweighted Pair Group Joining with Arithmetic Mean” c d Phase 3: alignement des séquences en remontant progressivement l'arbre 0.8 progesterone 0.7 mineralocorticoid 0.8 0.4 glucocorticoid 1.2 estrogen 1.1 vitamin D 0.5 1.4 PPAR 0.2 0.9 1.0 androgen retinoic acid thyroid Phase 3: alignement des séquences en remontant progressivement l'arbre a avec b a) S T A R b) S K A T a b c c avec {a, b} Alignement “séquence-profil” Alignement séquence-profil: programmation dynamique S S S 0 P I T T T K -24 -27 A I A R R T T T K total P -1 -1 -1 -3 Aligner une séquence avec un alignement: calcul d'un score moyen Alignement existant: S S S T T K A I A R R T Séquence à aligner: T T K total P -1 -1 -1 -3 P I T b s(a, b' ) = s(a,b) + s(a,b') + s(a,b'') b'' Somme de paires Alignement séquence-profil: programmation dynamique P I T S S S T T K A I A R R T 0 -24 -48 -72 -96 -24 -3 -27 -51 -75 -48 -19 -6 -25 -49 -72 -43 -10 -4 -22 S T S P T S K - A A I I R R T T Aligner deux profils ou alignements: calcul d'un score moyen S S S PP II GT T T K A I A R R T a b s( a' , b' ) = s(a,b) + s(a,b') b'' + s(a,b'')+ s(a',b) + s(a',b')+ s(a',b'') Somme de paires S T S P P T S K - A A I I I R R T T G Produit final: 584 androgène progestérone minéralocorticoïde glucocorticoïde estrogène acide rétinoïque vitamine D3 thyroïde 588 VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::* 588 Nécessité d'une validation expérimentale ● Mutagénèse des résidus conservés Mise en évidence d'une interaction avec un substrat ou inhibiteur ● Détermination de structures tridimensionnelles (!) ● Matinées 9h30 – 12h30 Après midis 14h – 17h30 TP dates chapitres de la matinée (salles) après-midi -----------------------------------------------------------------------------------------------------------22/10 Alignements de séquence + présentation du TP AspRS (PC38) TP (SI35) 29/10 Modélisation + présentation du TP Trpcage (PC38) TP (SI35) 7/11 Modélisation par homologie (Salle 52) + TD Xplor (SI35) TP (SI35) 14/11 Reconnaissance moléculaire 1 (Salle 52) + TD Modeller (SI35) TP (SI35) 21/11 Exposés + exercices TP (SI31) 26/11 TP (SI35) 28/11 TP (salle?) (PC16) Reconnaissance moléculaire 2 + TD Docking (PC4) Exposés + exercices (salle?) Contrôle: présentation d'un des TPs + présentation d'article + contrôle écrit [email protected] [email protected] Laboratoire de Biochimie, Ecole Polytechnique http://biology.polytechnique.fr/biocomputing/teach.html