Alignement Multiple de séquences Outils de la Bioinformatique M1 GENIOMHE/ BS Université Evry Val d’Essonne 2016-2017 Carène Rizzon Introduction • Alignement multiple: pour comparer simultanément plusieurs séquences homologues entre elles: Exemple: Méthyltransférases CLUSTAL W (1.82) multiple sequence alignment Q800F5_TETNG Q800G0_TETNG Q9YHV6_FUGRU N6AM1_HUMAN Q96F73_HUMAN Q6SKR2_MOUSE Q6DGP3_BRARE -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF -MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV ----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV . .**.:. .*** * :*******:***:**** * * . . .:.. 57 55 44 58 58 58 56 AVFPMILW RED DE BLUE RHK MAGENTA STYHCNGQ GREEN Others Gray 1 Introduction • Alignement multiple: pour comparer simultanément plusieurs séquences homologues entre elles: • Applications - Détecter des régions conservées au travers de l’Évolution (souvent = fonction clé de la molécule) - Identifier les acides aminés impliqués dans la fonction d’une protéine - Valider a posteriori des alignements par paires fournis par BLAST et FASTA: alignement multiple plus « puissant » que alignement par paires - Déterminer des séquences consensus - Reconstruire des familles de séquences - Reconstruire des arbres phylogénétiques - Reconstruire l’histoire évolutive de séquences homologues au sein d’une même espèce (≠ phylogénie) Introduction Exemple: Méthyltransférases CLUSTAL W (1.82) multiple sequence alignment Q800F5_TETNG Q800G0_TETNG Q9YHV6_FUGRU N6AM1_HUMAN Q96F73_HUMAN Q6SKR2_MOUSE Q6DGP3_BRARE -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQRP--AVCLEVGSGSGV -MSTSYPTPVYSHVGRGDFTDVYEPAEDTFLLMDALEKDAETLQR---SSCVS-GSGQWF -MSASYPTPVYSHVGRGDFRDVYEPAEDTFLLMDALEKDAERLRQ--------------MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV MAGENFATPFHGHVGRGAFSDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGSGSGV MAAPSVPTPLYGHVGRGAFRDVYEPAEDTFLLLDALEAAAAELAG--VEICLEVGAGSGV ----MFPTPLYAPAGRGRFSEVYEPAEDSFLLMDALEKDADRLKDSRPCVCLEVGSGSGV . .**.:. .*** * :*******:***:**** * * . . .:.. 57 55 44 58 58 58 56 Séquences apparentées !!!! Rmq: très difficile de savoir si l’alignement obtenu est exact 2 Alignement multiple optimal • Alignement multiple par programmation dynamique (algo. exact) Pour 2 séquences 0 D’ P Q D’ 0 P Q 0 D’ 1 P A Q 4 1 D’ P Q A 4 4 0 8 12 D’ 4 P C Q 16 7 8 15 8 24 19 24 12 16 7 8 20 11 4 4 24 15 20 8 12 3 7 16 12 16 7 8 8 20 8 16 24 7 15 11 20 20 12 3 4 16 12 12 T 12 8 4 11 15 G 19 12 8 11 12 C 23 16 28 7 12 C 24 20 12 T 6 D’ P Q C 20 16 11 12 0 8 16 20 16 12 4 Pour 3 séquences 5 D’ P Q G 8 8 16 16 12 8 0 4 4 D’ P Q C 12 8 4 4 D’ 3 P G Q 3 D’ P Q C 8 0 D’ 2 P T Q 2 D’ P Q T 16 10 8 7 8 7 11 8 A 11 16 12 T G T A T G - T - T G C - - - C T ( x1, x2, x3 ) S2 Pour N séquences : N dimensions S3 ε2 x3 S1 x1 ε3 ε1 Alignement multiple optimal par programmation dynamique • Calcul des scores des sous-problèmes Pour 2 séquences D i -1, j -1 Pour N séquences D i , j -1 D’i Qi j j D i -1, j D i,j Pi j MSTSYPTPVYS MSTSYPTPV-S MSASYP-PVYS … - Retenir le score max (ou min) sur 2N-1 possibilités exemple pour 3 sequences: 7 possibilités: D i j = Min (D’i j, Pi j, Qi j) D’i j = D i-1,j-1 + γ (ai, bj) Qi j = D i,j-1 + ωk Pi j = D i-1,j + ωk i j k D(i,j,k)=max T(i-1,j-1,k-1)+γ(ai,bj,ck) T(i,j-1,k-1)+γ(-,bj,ck) T(i-1,j,k-1)+γ(ai,-,ck) T(i-1,j-1,k)+γ(ai,bj,-) T(i,j,k-1)+γ(-,-,ck) T(i,j-1,k)+γ(-,bj,-) T(i-1,j,k)+γ(ai,-,-) γ à 3 dimensions! On prend plutôt des « SP-score » 3 Alignement multiple optimal par programmation dynamique • Calcul des scores des sous-problèmes Pour N séquences MSTSYPTPVYS MSTSYPTPV-S MSASYP-PVYS … « SP-score »: Somme des scores des séquences prises 2 à 2 pour l’ensemble des paires de symboles dans la colonne À la place de γ(ai,bj,ck): SP(ai,bj,ck) = S(ai,bj)+S (ai,ck)+S(bj,ck) SP(-,bj,ck) = S(-,bj)+S(-,ck)+S(bj,ck) Etc. Avec: S(-,-) = 0 (favorise le regroupement des indels au niveau des mêmes colonnes de l’alignement multiple) H i H j Y k - Retenir le score max (ou min) sur 2N-1 possibilités exemple pour 3 sequences: 7 possibilités: T(i-1,j-1,k-1)+γ(ai,bj,ck) T(i,j-1,k-1)+γ(-,bj,ck) D(i,j,k)=max T(i-1,j,k-1)+γ(ai,-,ck) T(i-1,j-1,k)+γ(ai,bj,-) T(i,j,k-1)+γ(-,-,ck) T(i,j-1,k)+γ(-,bj,-) T(i-1,j,k)+γ(ai,-,-) γ à 3 dimensions! On prend plutôt des « SP-score » Alignement multiple optimal par programmation dynamique • Mais … Needleman et Wunsch Smith et Waterman 2 globines 3 globines 4 globines 5 globines 6 globines 7 globines → → → → → → 1 sec O(N2) 2 mn O(N3) 5 h O(N4) 3 semaines 9 ans 1000 ans → Nécessité d’utiliser des heuristiques 4 Heuristiques pour l’alignement multiple • Dérivées de l’algorithme exact (restreint à des diagonales) ex: MSA (Multiple Sequence Alignment, Carrillo and Lipman 1988 et 1989). Pour faible nombre de séquences • Fondées sur la recherche de segments : alignements locaux DIALIGN2 MACAW Adaptés lorsque grand nombre d’indels et de répétitions internes • Méthodes itératives HMMs, HMMER, SAM Lentes, parfois non adaptés mais bons générateurs de profils • Méthodes progressives ClustalW, PileUp, MultAlin, T-COFFEE … Rapides et sensibles dans les cas simples • Les nouveaux: 3D-Coffee, MAFFT, PSI-PRALINE, PROBCONS, MUSCLE… Autant d’alignements que de programmes !!!!! Conclusions Rapidité Séquences proches Séquences qualité éloignées Multalin ++ +++ + ++ CLUSTALW + ++ ++ +++ MUSCLE +++ +++ + +++ MAFFT ++ ++ + +++ T-COFFEE + et Gouy, 2013 + Tiré de Deléage +++ +++ DIALIGN + + +++ + 5 Partie II Motifs dans les séquences Introduction • La recherche de motifs dans des séquences (via des algorithmes) est un moyen de rechercher des propriétés biologiques cachées dans la grande quantité d’information disponible aujourd’hui. • Les motifs de séquences ont un rôle important dans la compréhension de la structure et de la fonction des protéines, des régulations génétiques et des interactions protéinesprotéines ou protéines-nucléotides 6 Introduction Le motif au sens strict, est généralement un segment court, continu et non ambigu. En ce qui concerne les protéines, le terme de "motif" a une définition un peu différente. Le motif est un élément structural que l'on retrouve dans tous les membres d'une famille de protéine. Il contient des résidus essentiels à une fonction conservée, pas nécessairement consécutifs (il s'agit ainsi d'un "pattern"), mais assez proches dans la structure 3D, car ils participent à la même fonction (site actif ...). Un motif n'a pas un repliement propre. Le pattern (terme anglo-saxon pour "patron") est une séquence dégénérée et/ou composée de différents motifs (au sens strict) qui peuvent être séparés par des régions variables. Introduction Chez les protéines, le domaine est un fragment de séquence (bloc) contigu conservé dans une ou plusieurs familles de protéines et qui se replie indépendamment (structure IIaire spécifique). Il peut être dupliqué et réutilisé par des protéines de fonctions différentes (gènes "mosaïques"). Au sens évolutif; une unité d’évolution; un gène mosaïque contient plusieurs domaines protéiques qui peuvent avoir des histoires évolutives différentes. 7 Introduction • Intérêts de la recherche de motifs - Détermination de la fonction d'une nouvelle séquence (identification d’éléments fonctionnels) - Identification des phases ouvertes (recherche des signaux spécifiques associés) - Etablissement d'une carte de restriction (recherche des sites de coupure reconnus par les enzymes de restriction) - Recherche dans un ensemble de séquences d'une même "signature" capable de les caractériser (identification d'une famille de protéine) La détermination de motifs spécifiques est généralement issue de l'analyse d'un alignement multiple. Introduction • Motifs dans les séquences ADN et ARN Régions promotrices (ex: TATA box), sites de liaison à des facteurs de transcription, sites de restriction enzymatique, signaux d’épissage ADN 8 Introduction • Motifs dans les séquences ADN et ARN Régions promotrices (ex: TATA box), sites de liaison à des facteurs de transcription, signaux d’épissage Human RNAsplice junctions sequence matrix http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html Introduction • Motifs dans les séquences protéiques - régions conservées entre séquences d’une même famille - signatures de familles de protéines - sites enzymatiques -… 9 Introduction • Motifs dans les séquences protéiques Zinc-finger (dans Prosite) : site protéique de liaison à l’ADN x x x x x x x x x x x x x x x x C C C x \ / x x \ / x x Zn x x Zn x C / \ C H / \ C x x x x x x x x x x x x x x x x x 'C': conserved cysteine involved zinc binding. 'H': conserved histidine involved in zinc binding. 'Zn': zinc atom. x C Formalismes de représentation de motifs • Consensus • Tables de fréquences ou de probabilités (profils) • Alignements multiples par blocs • Modèles de Markov Cachés (HMMs: Hidden Markov Models) 10 Formalismes de représentation de motifs • Séquences consensus On retient la lettre majoritaire pour chaque site de l’alignement multiple. - ADN Formalismes de représentation de motifs • Séquences consensus On retient la lettre majoritaire pour chaque site de l’alignement multiple. - ADN 11 Formalismes de représentation de motifs • Séquences consensus On retient la lettre majoritaire pour chaque site de l’alignement multiple. - protéique Formalismes de représentation de motifs • Séquences consensus : expressions régulières ou « patterns » Utilisation d’une syntaxe simple pour décrire une région conservée, une signature protéique… exemples: - leucine zipper L-x(6)-L-x(6)-L-x(6)-L - zinc-finger C - x - H - x - [LIVMFY] - C - x(2) - C - [LIVMYA] -… Syntaxe: - : séparation des éléments x : n’importe quel acide aminé (i,j) : nombre d’occurrences entre i et j avec i<j [NHG] : alternative entre N H et G pour un même site Cf. Banque de motifs PROSITE (indicateurs de « bons » patterns sont les faibles nombres de faux positifs et faux négatifs) 12 Formalismes de représentation de motifs • Séquences consensus : expressions régulières ou « patterns» Algorithmes et programmes de recherche de motifs très simples (ADN) et de patterns (ADN et protéiques) • Algorithmes d’alignements de 2 séquences • Optimisation pour les patterns: programme PATTINPROT (au pbil: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_pattinprot.html) et les outils sur le site de PROSITE Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) ADN On représente un motif par une matrice de fréquences (PFM) - lignes = positions dans le motif (= colonnes dans l’alignement) - colonnes = les différents résidus possibles (ici A,T,G,C) Alignement multiple (15 seq) 13 Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) ADN Des PFM aux PWM (Position Weight Matrix) - poids positifs représentent les bases qui apparaissent plus que la moyenne - poids négatifs représentent les bases qui apparaissent moins que la moyenne - poids de la base x dans une colonne de l’alignement: ⎛ f (x) ⎞ log 2 ⎜ ⎟ ⎝ 0,25 ⎠ f(x) est la fréquence de x dans la colonne considérée 0,25 suppose que les 4 bases ont la même probabilité d’apparition - problème des € 0 (log(0)=-∞): ajout d’un pseudo-compte pour éviter qu’il y ait sur-adaptation ⎛ f (x) + 0.05 ⎞ log 2 ⎜ ⎟ ⎝ ⎠ 0.25 € Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) ADN Des PFM aux PWM (Position Weight Matrix) 14 Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) ADN Des PFM aux PWM (Position Weight Matrix) Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) : recherche automatique d’un profil • Calcul des scores pour la séquences où on veut trouver le motif, comparaison avec les scores max et min possibles avec le profil • Choix d’un score significatif 15 Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) : recherche automatique d’un profil Ex: programmes Matrixsearch (Sigscan), MAST Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) Protéines Profils plus « souples » que pour l’ADN : - autorisation de gaps (21 colonnes dans la matrice) - autorisation de substitutions entre acides aminés qui ont des propriétés physicochimiques proches -> sonde très puissante pour la recherche dans les bases de données. Construction de matrice de scores position-spécifique dans un alignement multiple (« Position-Specific Scoring Matrix »=PSSM): 16 Formalismes de représentation de motifs • Tables de fréquences et de probabilités (profils) Protéines Construction de matrices de scores position-spécifique dans un alignement multiple (« Position-Specific Scoring Matrix »=PSSM): - pour un alignement multiple de N sites (N colonnes); le profil est une table de N lignes et 21 colonnes au moins (20 acides aminés plus côut des gaps) - La valeur du profil pour un acide aminé a en position p de l’alignement multiple b= 20 M( p,a) = ∑W ( p,b) × Y (a,b) b=1 • Y(a,b) : score fourni par la matrice de substitution (ex:PAM250) pour le remplacement de a par b • W€(p,b) est un coefficient traduisant le taux d’apparition de l’acide aminé b à la position p de l’alignement multiple Formalismes de représentation de motifs b= 20 M( p,a) = ∑W ( p,b) × Y (a,b) b=1 En notant n(b,p) le nombre d’apparitions en position p de l’alignement multiple de l’acide aminé b dans Ns séquences; 2 méthodes généralement utilisées pour le calcul de W(p,b): € -(a) -(b) € W ( p,b) = n(b, p) Ns W ( p,b) = log( n(b, p) ) Ns (avec ici n(b,p)=1 pour les acides aminés n’apparaissant jamais en position € P) 17 Formalismes de représentation de motifs /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=49; /DISJOINT: DEFINITION=PROTECT; N1=5; N2=45; /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=2.2742712; R2=0.0110785; TEXT='-LogE'; /CUT_OFF: LEVEL=0; SCORE=788; N_SCORE=11.0; MODE=1; TEXT='R'; /CUT_OFF: LEVEL=-1; SCORE=382; N_SCORE=8.5; MODE=1; TEXT='R?'; /DEFAULT: M0=-9; D=-20; I=-20; B1=-200; E1=-200; MI=-105; MD=-105; IM=-105; DM=-105; /I: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /M: /I: /M: /I: /M: /I: /M: /I: /M: /I: /M: /M: /M: /M: … SY='S'; SY='D'; SY='G'; SY='E'; SY='P'; SY='C'; SY='V'; SY='F'; SY='P'; SY='F'; SY='I'; SY='Y'; SY='R'; SY='G'; SY='R'; SY='T'; SY='Y'; SY='H'; SY='D'; SY='C'; SY='T'; SY='T'; SY='E'; SY='G'; SY='R'; SY='E'; SY='D'; SY='G'; SY='Y'; SY='L'; SY='W'; SY='C'; SY='A'; A B C D E F G H I K L M N P Q R S T V W Y Z B1=0; BI=-105; BD=-105; M= 8, -2,-17, -2, 3,-19, -7,-13,-15, -7,-18,-14, -1, -9, -3,-12, 14, 6, -8,-30,-17, 0; M= -8, 12,-25, 15, 10,-20,-11, 1,-23, -3,-19,-14, 8, -9, 2, -7, 1, -4,-21,-28,-11, 5; M= -5, -3,-29, -1,-11,-26, 42,-10,-35,-12,-27,-18, 1,-18,-13,-13, -1,-16,-27,-19,-17,-13; M= -1, 6,-27, 9, 18,-28,-11, -6,-25, 9,-22,-15, 2, 0, 7, 2, -1, -8,-22,-27,-18, 12; M= -6,-14,-31,-10, 0,-22,-15,-15,-18, -1,-19,-12,-13, 35, -6, -6, -7, -7,-21,-25,-19, -6; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; M= -3,-17,-20,-18,-12,-10,-25, -4, 6, -6, -3, 3,-14,-21,-11, -8, -9, -6, 14,-26, -5,-13; M=-19,-30,-20,-39,-29, 74,-30,-20, 3,-30, 12, 2,-21,-30,-38,-20,-21,-10, 1, 8, 28,-29; M=-10,-20,-40,-10, 0,-30,-20,-20,-20,-10,-30,-20,-20, 90,-10,-20,-10,-10,-30,-30,-30,-10; M=-18,-28,-20,-37,-28, 73,-28,-19, -1,-29, 7, -1,-18,-29,-37,-19,-16, -8, -1, 7, 28,-28; M= -4,-14,-21,-19,-12,-10,-25,-18, 8, -7, 2, 4,-10,-18, -7, -8, -7, 3, 8,-24, -7,-11; M=-19,-25,-26,-29,-25, 47,-31, 1, 4,-20, 5, 2,-20,-29,-23,-15,-20,-10, -2, 17, 52,-25; M=-12, 3,-27, 2, 5,-23, -9, 2,-23, 10,-17, -8, 6,-16, 10, 14, -5,-10,-22,-24,-10, 6; M= -2, 0,-28, -3,-12,-28, 46,-13,-34,-12,-28,-19, 10,-19,-12,-10, 2,-15,-28,-24,-26,-12; M=-11, 1,-26, -1, 6,-21,-19, 2,-22, 17,-21, -9, 4,-14, 9, 19, -3, -4,-18,-24, -7, 6; M= -4, -6,-22, -9, -2,-14,-16,-13,-12, -4,-13, -9, -3,-15, -2, -5, 3, 4,-10,-10, -8, -1; M=-19,-18,-29,-19,-18, 24,-29, 25, -2,-13, -1, 1,-16,-28,-10,-10,-18,-11, -9, 16, 62,-18; M=-12, 2,-24, 2, -2, -1,-17, 15,-18, -8,-15,-10, 3,-18, -3, -6, 0, -3,-17,-17, 11, -3; M= -3, 13,-21, 18, 10,-27, -3, -7,-26, -1,-25,-19, 9,-10, 1, -6, 14, 4,-19,-34,-19, 5; M=-10,-20,118,-30,-30,-20,-30,-30,-30,-29,-20,-20,-20,-40,-30,-29,-10,-10,-10,-50,-30,-30; M= -3,-11,-16,-20,-17, -6,-26,-22, 9,-16, 1, 1, -8,-14,-13,-16, 6, 29, 10,-27, -7,-16; M= -4, -5,-19, -6, 0,-14,-18, -4,-14, -2,-12, -8, -2,-14, -1, 2, 7, 11, -7,-28, -9, -1; M= -9, 11,-26, 17, 25,-28,-13, 1,-27, 4,-21,-17, 4, -8, 9, -2, 3, -3,-23,-30,-15, 16; M= -5, 0,-29, 1, -6,-29, 44,-11,-37,-12,-28,-20, 6,-17,-11,-11, 0,-16,-30,-24,-25, -9; M= -8, 0,-23, 1, 3,-23,-12, -3,-27, 12,-25,-15, 5,-15, 8, 29, 9, 1,-18,-29,-14, 4; I=-6; MD=-29; M= -5, 2,-15, 2, 4, -9, -8, 0,-15, -2,-13, -9, 3, -6, 1, -1, 3, 0,-12,-17, -7, 2; D=-6; I=-6; MD=-29; M= -9, 18,-17, 26, 6,-16, -3, -3,-19, -4,-13,-14, 7, -8, -3, -7, 0, -5,-15,-20,-10, 2; D=-6; I=-6; MI=-29; IM=-29; DM=-29; M= -3, -8,-25,-11,-15,-14, 23,-13,-21,-15,-15,-12, 1,-17,-16,-14, -3,-11,-17,-21,-17,-16; I=-6; MD=-32; M=-13,-13,-26,-15, -8, 0,-21, 1,-11, 3, -7, -1,-10,-20, -2, 6,-12, -9,-12, -1, 13, -6; D=-6; I=-6; MI=-32; IM=-32; DM=-32; M=-11,-22,-28,-19,-10, -8,-25,-13, -3,-10, 10, 3,-20, 5,-10, -3,-19,-10, -8,-22, -8,-12; M=-19,-36,-48,-35,-23, 7,-20,-28,-21,-18,-20,-20,-37,-28,-17,-18,-37,-28,-30,136, 26,-15; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30; M= 27, -7,-13,-11, -6,-21, 3,-16,-16,-11,-20,-15, -2, -5, -7,-16, 20, 6, -8,-28,-21, -7; Formalismes de représentation de motifs • Chaînes de Markov Cachées (HMMs) - Les HMMs sont des modèles statistiques. - Les profils peuvent être considérés comme des HMMs simples - Les HMMs peuvent aussi modéliser un ou plusieurs profils en même temps pour représenter des groupes de patterns (ex: modules cis-intéragissant, introns/exons…) 18 Bases de données de motifs et domaines Alignements - BLOCKS (http://blocks.fhcrc.org/) - CDD (au NCBI) (http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml) Bases de profils: - ADN: -TRANSFAC (éléments régulateurs en cis, et facteurs agissant en trans) - EPD (promoteurs eukaryotes) - Protéines: - PROSITE (http://www.expasy.org/prosite/) - ProDom (familles de domaines protéiques construites par l’intermédiaire de recherche de profils avec PSI-BLAST) (http://prodom.prabi.fr/prodom/current/html/home.php) -InterPro (familles de protéines, domaines protéiques et sites fonctionnels; http://www.ebi.ac.uk/interpro/) Chaînes de Markov Cachées (HMMs) - Pfam (http://www.sanger.ac.uk/Software/Pfam) - SMART (http://smart.embl-heidelberg.de/) contient Pfam Bases de données de motifs et domaines Prodom 19 Bases de données de motifs et domaines • Blocs Block PR00084A ID MTLDHDRGNASE; BLOCK AC PR00084A; distance from previous block=(3,38) DE Mannitol dehydrogenase signature BL adapted; width=11; seqs=14; 99.5%=569; strength=1210 MTLK_RHOSH|P33216 ( 18) IVHIGVGNFHR 54 YDFI_ECOLI|P77260 ( 24) IVHLGFGAFHR 61 MTLD_STRMU|Q02418 ( 4) AVHFGAGNIGR 52 O68111 ( 19) IVHIGLGNFHR 56 YEIQ_ECOLI|P33029 ( 27) IVHFGFGAFHR 56 MTLD_BACST|Q45421 ( 3) AVHFGAGNIGR 52 UXUB_ECOLI|P39160 ( 25) IVHLGCGAFHR 69 MTLD_ENTFA|P27543 ( 3) AVHFGAGNIGR 52 YEI0_YEAST|P39941 ( 38) IVHLGVGAFHR 58 MTLD_BACSU|P42957 ( 3) ALHFGAGNIGR 56 O08355 ( 29) IAHIGVGGFHR 95 MTLD_ECOLI|P09424 ( 3) ALHFGAGNIGR 56 O65992 ( 3) ALHFGAGNIGR 56 O52720 ( 7) WLHIGLGSFHR 100 // [Return to t Algorithmes et programmes de recherche de profils • Blocs • Transformation du bloc en profil dans le programme • Programmes Profilesearch (de GCG), Patmat, Blocksearch • HMMs • Algorithme de Viterbi • Scores et E-values • HMMER • Mais aussi des programmes découvreurs de motifs: • Patterns: Weeder, YML, etc • Profils: Gibbs sampler, AlignAce, MEME, GLAM 20 Sources: - Support de cours de Hélène Touzet, Lille - « Bioinformatique, Cours et cas pratique », Gilbert Deléage et Manolo Gouy, éd. Dunod, 2013 (ISBN: 978-2-10-058751-3) - Support de cours de Gisèle Bronner, Clermont-Ferrand Voir aussi: « Bio-informatique, Principes d’utilisation des outils », Denis Tagu, Jean-Loup Risler, coord., éd. Quae, 2010 (ISBN: 978-2-7592-0870-8), 21