Evolution Moléculaire et Phylogénie Dominique Mouchiroud [email protected] Plan du cours I. L’évolution moléculaire I1. Le cadre théorique I2. Les données et les questionnements II. Evolution de quelques traits moléculaires II.1 Composition en Base des Génomes II.2 Taux d’évolution II.3. Taille des génomes Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive Etude des processus évolutifs en relation avec les composantes écologiques III. Conclusion Evolution morphologique Fossiles vivants ou organismes panchroniques Génome nucléaire et cytoplasmique Taille des populations Génomique évolutive Taille des génomes Composition en base Répartition des ETs Taux d’évolution Packaging de ll’ADN ADN …… Traits Moléculaires Ecologie évolutive Dérive génétique Composante adaptative Durée de génération Activité métabolique Longévité Masse corporelle Mode de vie Système de reproduction Ornithorynque Coelacanthe Traits d’Histoire de Vie Gingko biloba Nautile 1 Le taux d’évolution des génomes Taux de mutation ou polymorphisme ou diversité génétique ((intra spécifique) p q ): Nbre de changements/site/génération Mesuré entre individu d’une même population Taux de divergence (inter spécifique) : Nbre de substitution/site/temps de divergence Mesuré entre individu d’espèces différentes Hypothèse neutre (absence de processus sélectif ou non sélectif) : - taux de divergence = taux de mutation Vrai si Ne faible(dérive génétique) et coefficient de sélection des variants proche de zéro Variabilité des taux d’évolution La notion d’horloge moléculaire • « Le taux de divergence en acides aminés est approximativement proportionnel au temps de divergence g paléontologique. p gq » Zuckerkandl and Pauling 62-65 Super protéine ( hémoglobine, cytochrome c, et fibrinopeptide A) comparée entre différents groupes de mammifères. La ligne en pointillé représente une estimation de l’horloge moléculaire. (modifié à partir de Langley and Fitch 1974) Importance de la détection de l’évolution neutre – Datation des évènements de spéciation ou de duplication, – Identification des évènements démographiques (goulots d’étranglement), – Recherche de régions sous pression de sélection (éléments fonctionnels), – ….. Différence de longueurs de branches est un indicateur de variation de taux d’évolution 2 Marqueurs moléculaires neutres • Pseudogènes : gènes non fonctionnels • Régions non codantes : intergénique, intron • Eléments répétées • Sites synonymes des codons : ne modifient pas la nature de l’AA codé • Région de contrôle de ll’ADN ADN mitochondrial Détection sélection avec gène codant Divergence non synonyme versus Divergence synonyme ω= DN DS ω > 1 d’où DN > DS : sélection adaptative ω = 1 d’où DN = DS : évolution neutre ω < 1 d’où DN < DS : sélection purificatrice Vrai si la sélection peut jouer (Ne élevée et/ou S élevé ) Si Ne est faible (ex mammifère), la fixation par dérive génétique de mutations non synonymes faiblement délétaires ou avantageuses est fréquente. Ceci induit une augmentation du rapport Dn/DS (similaire à la sélection positive). Les mutations : types II.2. Taux d’évolution II. 2.1. Nature et quantification des mutations II.2.3. Variabilité du taux d’évolution - substitutions (transitions A↔G, T↔C, transversions ) - insertions, insertions délétions - duplication de gènes, translocation - duplication génomique (aneuploïdie, euploïdie) - transferts horizontaux (gènes, éléments transposables) - remaniements chromosomiques (fission, fusion, inversion) Mutagénèse à grande échelle 3.5 milliards d’année d’évolution 3 Les CpG et la méthylation Dynamique des mutations Les génomes de Vertébrés présentent un niveau de méthylation élevé et spécifique des dinucléotides CG (CpG). • Mutations spontanées (facteurs endogènes) – Susceptibilité de certains nucléotides (C en T pour les CpG, déamination des cytosines y méthylées), y ), La méthylation est un ajout enzymatique d'un groupement méthyl (CH3) sur une cytosine. NH 2 NH 2 C N C O C CH methylation N C CH O N sugar CH 3 C deami CH N 70-90 % des CpG sont méthylés sugar cytosine 5methyl cytosine ADN- méthyltransférase Les CpG et la méthylation Evolution de la méthylation Instabilité évolutive des CpG : taux de mutation 10 X plus important sur les CpG. La déamination de la cytosine est 140 fois plus élevée lorsque l ’ADN est simple brin (Frederico, 90) NH 2 NH 2 C C N CH methylation C O N sugar cytosine O G. gallus M. musculus H. sapiens O CH 3 CH O N CH 3 C C deamination C CH N Methylation sugar 5methyl cytosine NH C C CH methyl 5’-A-T- C-G-G-C-3’ 3’-T-A- G-C-C-G-5’ N sugar thymine methyl 5’-A-T- T-G -G-C-3’ 3’-T-A-A-C-C-G-5’ 5’-A-T- C-A -G-C-3’ 3’-T-A-G-T-C-G-5’ CpGo/e 0.25 D. rerio 0.50 A. thaliana 0.75 D. melanogaster C. elegans 0.95 1.00 spontanée 30 % des maladies dues à des mutations ponctuelles (Cooper et al., 1993) Il existe une corrélation forte entre le degré de méthylation d’un génome et le taux d’érosion des CpG disparition des CpG durant l’évolution des vertébrés 4 Les îlots CpG: des structures atypiques Dynamique des mutations (Bird, 1986) - régions génomiques de 200 à 5000 pb non-méthylés dans la plupart des tissus 1,0 70 60 0,5 50 rapport CpGo/e pourcentage G+C - régions génomiques avec une fréquence en bases G+C élevée > 60%) 80 40 5’ 5’ • Mutations spontanées (facteurs endogènes) – Susceptibilité de certains nucléotides (C en T pour les CpG, déamination des cytosines méthylées), – Erreurs de la machinerie cellulaire : copie de ll’ADN ADN (SNP) (SNP), slippage ou recombinaison inégale avec les séquences répétées (CNV), remaniement chromosomique. - régions génomiques avec une fréquence en CpG proche de la fréquence attendue selon la composition en bases G+C (CpGo/e ≈ 1) start 3’ 3’ no-start • Mutations induites (facteurs endogènes et exogènes) – Action d'agents mutagènes (radiations, mutagènes chimiques, produits liés au métabolisme cellulaire (ROS), pression environnementale,...) – Activité de parasites intragénomiques • Rétrovirus: virus intégrant son propre génome dans le génome de son hôte • Eléments transposables (44% chez l’homme) : éléments capables de se dupliquer et de se déplacer dans les génomes • Efficacité de la machinerie de réparation de l’ADN Taux de mutation chez l’homme • • • • Chaque individu est porteur d'environ 120 à 180 mutations nouvelles (i.e. qui n'existaient pas dans les génomes de ses parents), La plupart des maladies génétiques humaines répertoriées à ce jour sont la conséquence de mutations ponctuelles (dans des régions régulatrices ou codantes), Les évènements de duplication/délétion font que les génomes de 2 individus présentent en moyenne 24 à 70 Mb de différence (1% à 2%) ainsi le répertoire génique de 2 individus: ± 200 à 600 gènes pour 20 à 23 000 gènes codants ! Le taux de mutation dans les cellules somatiques est 17X celui des cellules germinales chez l’homme (Lynch M, 2010, Trends in Genetics) – Somatique : 10-9 par site et par mitose 06 10-9 par site et par méiose – Germinale : 00,06 • Les taux de mutation observés résultent d’un compromis entre le coût des mutations (fardeau mutationnel) et le coût de la réparation des mutations. • Les taux de mutation varient au cours du temps au sein d’un individu, entre types cellulaires, entre lignées. • Les taux de divergence observés résultent d’un compromis entre la taille des populations (mode de reproduction) et la valeur sélective des mutations. dbSNP : http://www.ncbi.nlm.nih.gov/SNP 11 millions SNPs (2008) HapMap (http://www.hapmap.org) 3,5 millions SNPs humain Projet 1000 génome 5 Variabilité des taux d’évolution • variabilité intra génique : II.2. Taux d’évolution - les positions synonymes évoluent plus vite que les positions non synonymes, - les différents compartiments du gène (intron, exon, région de régulation) évoluent à des taux différents. II. 2.1. Nature et quantification des mutations II.2.3. Variabilité des taux d’évolution (Bromham, 2011) 2 pseudoggènes Région 3'flaanquante (2x) Sites synonymes (4x) Intron 3'UTR 2.5 Sites synonymes 3 Sites non-synonym mes 3.5 Région 5'UTR Nombre de substitution par site et par 10 9 années Région 5'flanquaante Taux de divergence dans les différents compartiments d’un gène Mutations neutres • Tous les changements synonymes, • Les changements au niveau des introns, au niveau des régions non codantes (exceptés les régions de régulation), les pseudogènes, • Les changements non synonymes qui n’affectent pas le fonctionnement de la protéine, protéine 1.5 1 • Estimation 3 à 5 10-9 sub/site/année 0.5 0 Graur et Li 99 6 Variabilité des taux d’évolution au sein d’un gène Variabilité des taux d’évolution • variabilité intra génique : - les positions synonymes évoluent plus vite que les positions non synonymes, - les différents compartiments du gène (intron, exon, région de régulation) évoluent à des taux différents. • variabilité inter génique : - Différence de taux d’évolution selon la nature des gènes (niveau d’expression, nature des chromosomes (X, A, Y), Proinsuline Taux d’évolution et expression Gènes orthologues entre Homme et souris Le niveau d’expression ne joue aucun rôle dans le cadre de l’évolution neutre. Variabilité des taux d’évolution au sein des gènes tissus spécifiques Taux d ’évolution aux sites silencieux (sans doublet) 50% Taux d ’évolution en AA 40% 8% 6% 35% 4% 0 13 46 7- 10- 13- 169 12 15 24 Nbre de tissus 2% 0% 45% 0 1 4 7 10 13 16 19 22 24 doublet mutations: positions 1-2, 2-3 or 3-1 des codons Nbre de tissus La pression de sélection négative est d’autant plus forte que le gène est fortement exprimé. Duret et al, 2000 Duret et al, 2000 GBE, 2013 7 Male driven evolution Comparaison des taux d’évolution entre gènes paralogues liés au X et au Y Le nombre de division des gamètes mâles à chaque génération est bien plus élevé que le nombre de division des gamètes femelles. Peu de divisions cellulaires n=31 (human) n=25 (souris) fécondation Embryon Nombreuses divisions cellulaires n = 401 (human – 20ans) n = 62 (souris – 5 mois) A taux de mutation constant au cours de la réplication, il y aura plus de changements pour les gènes présents dans les gamètes mâles que ceux présents dans les gamètes femelles. Male Drive Evolution – Plus de divisions cellulaires chez l’homme => plus d'erreurs de réplication p p de l'ADN – Taux de mutations ponctuelles dans l’espèce humaine: 6 fois plus élevé chez l'homme que chez la femme – Parmi les ≈150 mutations nouvelles dont chaque porteur,, environ 20 pproviennent de sa individu est p mère, 130 de son père – Vrai également chez la souris mais avec un différentiel moins important Chez les oiseaux ?: WW WZ W.H. Li 8 Chez les oiseaux : oui, mais l'inverse ... Male mutation bias • • • • WW Mammifères (Li et al. 2002) Oiseaux (Ellegren and Fridolfsson 1997) Poisson (Ellegren and Fridolfsson 2003) Plantes (Filatov and Charlesworth 2002) WZ Différences entre chromosomes chez les mammifères – Le chromosome Y évolue plus rapidement (pas de recombinaison) – Le chromosome X évolue pplus lentement. Si um taux de mutation chez les mâles uf taux de mutation chez les femelles Taux de mutation pour les gènes autosomaux : A = (um + uf ) / 2 Taux de mutation pour les gènes portés par X : X = (u ( m + 2 uf ) / 3 Taux de mutation pour gènes portés par Y : Y = um Estimation du rapport des taux de mutations : = um / uf En théorie (Miyata et al 87): Y/A = 2 / (1 + ) X/A = 2(2+ )/3(1 + ) Y/X = 3 / (2 + ) En pratique : Couples de gènes orthologues X et Y : gametologues (primates ou muridés) Calcul des rapports Ks (gènes sur Y)/Ks (gènes sur X) Estimation de qqui varie de 2 (muridé, Makova et al. 04) 4-6 (hominidé, Shimmin et al. 93, Makova and Li 02) Y > autosomes > X 1 1/2 1/3 9 Variabilité des taux d’évolution Quelques valeurs de α • variabilité intra génique : - les positions synonymes évoluent plus vite que les positions non synonymes, Li et al 2002 - les différents compartiments du gène (intron, exon, région de régulation) évoluent à des taux différents. • variabilité inter génique : - Différence de taux d’évolution selon la nature des gènes (niveau d’expression, nature des chromosomes (X, A, Y), • variabilité intra chromosomique : - Différence de taux d’évolution le long des chromosomes (régions contraintes) • Variabilité des estimations liée à l’hétérogénéité des taux de mutations le long de l’ADN et des durées de génération « Tachichore » ou régionalisation des taux de substitution Régionalisation des taux de mutation • • • • • • Fidélité de la polymérase, Effi i é de Efficacité d la l réparation, é i Impact de la méthylation (CpG), Impact de la structure de la chromatine, Impact de la recombinaison (mutagène ?), p des biais de composition p en base (différence ( Impact GC/AT ?), • …. Taux de substitution silencieux le long du chromosome 22 humain Résidus des taux de substitution silencieux le long du chromosome 22 humain en tenant compte du GC 10 Variabilité des taux d’évolution • variabilité intra génique : - les positions synonymes évoluent plus vite que les positions non synonymes, Variabilité des taux d’évolution entre génomes au sein d’un même hôte - les différents compartiments du gène (intron, exon, région de régulation) évoluent à des taux différents. Ks • variabilité inter génique : - Différence de taux d’évolution selon la nature des gènes (niveau d’expression, nature des chromosomes (X, A, Y), Nucléaire • variabilité intra chromosomique : - Différence de taux d’évolution le long des chromosomes (régions Ls Ka La 0,71 ± 0,04 1475 0,06 ± 0,00 5098 Chloroplastique 0,17 ± 0,01 2068 0,01 ± 0,00 7001 Mitochondrial 413 0,01 ± 0,00 1526 0,03 ± 0,01 contraintes) • variabilité inter génomique : - Différence entre génomes au sein d’un même hôte (nucléaire, mitochondrial, chloroplastique, parasite) - Différences entre organismes (traits d’histoire de vie, mécanisme moléculiare) Variabilité des taux d’évolution entre génomes au sein d’un même hôte – Virus du SIDA (g (génome ~10 000 pb): p ) • 25 mutations / génome / an • Evolue environ 1 million de fois plus rapidement que les mammifères • Evolution mesurable au cours de l'infection d'un individu • Résistance au système immunitaire, aux traitements antiviraux ti i Comparaison entre maïs et blé/orge (graminé) Nucléaire > chloroplastique > mitochondrial Variabilité des taux d’évolution entre génomes au sein d’un même hôte • Génome d’organismes endosymbiotiques – Taux d’évolution plus rapide que celui des génomes apparentés • Buchnera 1,7 X plus rapide en KA qu’Escherichia coli (absence de pression sélective, pas de recombinaison car transmission clonale) • Génome mitochondrial – Taux d’évolution 5 X plus rapide que le génome nucléaire lé i chez h les l animaux i – Transmission maternelle , pas de recombinaison, pas de protection par les histones, pas de mécanisme de réparation, taille efficace plus faible que le génome nucléaire (X4) Worobey et al Nature 455, 661 (2008) 11 Variabilité des taux d ’évolution mitochondrial Martin et Palumbi 93 Taux x d’évolution %/MA 1 10 Souris Oie Chien • Génome mitochondrial – Taux de mutation variables au sein des mammifères • Lié aux variations de l’activité métabolique (respiration) Homme Grenouille 10 Effet de la production de ROS mutagène Cheval Variabilité des taux d’évolution entre génomes mitochondriaux Baleine Ours Tortue Triton Saumon 10 -1 Requin Tortue de mer 10 -2 10 -1 10 0 10 1 102 10 3 10 4 Masse corporelle (Kg) Variabilité des taux d’évolution entre génomes mitochondriaux Taux d’évolution mitochondriale chez les Mammifères Cytochrome b Intra ordre (13) Nabholz et al genetics, 2008 • Génome mitochondrial – Taux de mutation variables au sein des mammifères • Lié aux variations de l’activité métabolique (respiration) • Lié à des pressions sélectives pour réduire le taux de mutation mitochondrial des espèces longévives (Mitochondrial theory of ageing) TM/THV 12 Variabilité des taux d’évolution entre génomes Causes de ces variations entre lignées • Génome d’organismes endosymbiotiques – Taux d’évolution plus rapide que celui des génomes apparentés • Buchnera 1,7 X plus rapide en KA qu’Escherichia coli (absence de pression i sélective, él i pas de d recombinaison bi i car transmission i i clonale) l l ) • Génome mitochondrial – Taux d’évolution 5 à 10 X plus rapide que le génome nucléaire chez les animaux – Transmission maternelle , pas de recombinaison, pas de protection par les histones, pas de mécanisme de réparation, taille efficace plus faible que le génome nucléaire (X4) – Taux T de d mutation t ti variables i bl au sein i des d mammifères ifè • Génome nucléaire – Taux d’évolution variable selon les espèces. • Evolution rapide des rongeurs (muridés), évolution plus lente au sein des primates (hominidés), autres exemples d’accélération au sein des reptiles et oiseaux Conclusion (1) : variabilité de l’horloge entre lignées • Facteurs potentiellement différents à l’origine de la variabilité des taux d’évolution des génomes nucléaires et mitochondriaux – Génomes mitochondriaux : mutations dues à l’oxydation des radicaux libres/ longévité • Liées à la structure particulière de ces génomes • En relation avec l’activité métabolique des organismes et leur masse corporelle (facteurs liés) • En relation avec la longévité – Génomes nucléaires : mutations dues aux erreurs lors de la réplication (substitutions) • Liées au taux d’erreur, mécanisme de réparation, conformation de l’ADN • En relation avec les traits d’histoire de vie • Facteurs dépendants de la réplication – Durée de génération, nombre de divisions des cellules germinales par unité de temps – Efficacité de la réparation • Facteurs indépendants de la réplication – Taux métabolique basal – Masse corporelle – Efficacité de la réparation Rapport entre Homme / Souris : Taux d’évolution Ks : 2 à 5 pour la souris Durée de génération : 50 entre homme et souris Nbre de gamètes produites par unité de temps: 7 à 10 pour la souris Nearly neutral theory Ohta (92) Les attendus : (1) Si Ne faible, fixation de mutations faiblement délétères alors que ces mutations sont éliminées dans les populations de grande taille. (2) Conséquence dN/dS augmente lorsque Ne diminue. (3) La masse corporelle est un proxy de la taille efficace (White, 2007). Les observations : - Les populations domestiques de Yak présentent des valeurs dN/dS mitochondriales supérieures à ceux de leurs parents sauvages (Wang 2011). - Corrélation positive entre la masse corporelle (l (l’âge âge à la maturité sexuelle) et le rapport dN/dS aussi bien pour les gènes nucléaires et mitochondriaux des mammifères placentaires ( Lartillot, 2012, Romiguier, 2013). - Les populations d’oiseaux insulaires présentent des valeurs de dN/dS supérieures aux populations d’oiseaux continentaux ( Woolfit, 2005). - Aucune différence de dN/dS entre Gallus Gallus (oiseaux de grande taille) et Zebra finch (oiseau de petite taille – passeriforme) (Nam 2010). 13 Relation taux d’évolution/traits d’histoire de vie chez les amniotes « The Th correlation l i between b LHT andd dN/dS suggests that h large-scale l l phylogenetic reconstruction of dN/dS might reveal long-term trends in effective population size, which in turn could be interpreted in terms of macroevolutionary patterns in life-history evolution across large phylogenetic groups. » (Nagholz, 2013 GBE) Relation THV et Taux d’évolution • Masse corporelle : relation inverse des taux d’évolution nucléaire et mitochondriale (Martin 93, 93 Welch, Welch 2008, 2008 Jackson 2009) 2009), – Système de réparation plus efficace (nbre de cellule, faible fécondité) – Activité métabolique • Durée de génération (âge à la première reproduction) : relation négative nucléaire et mitochondriale (Tsante 2009, Thomas 2010, Nabholz, 2008), – nbre de division cellulaire par unité de temps ? • Activité métabolique : relation négative avec le taux d’évolution de l’ADN mitochondrial it h d i l (vertébrés) ( téb é ) – Dommage lié au produit du métabolisme • Longévité : relation inverse des taux d’évolution – Système de réparation plus efficace – activité des télomérases plus faible Conclusion (2) : différentes horloges moléculaires à différentes échelles • Des variations de taux d’évolution s’observent à toutes les échelles : – Codon,, gène, g , région g génomique, g q , génome, g , organisme g • Les processus mis en cause sont à la fois: – neutraliste : biais mutationnel, nombre de division cellulaires, réparation plus ou moins efficace, effet de voisinage – sélectionniste : expression des gènes, conformation de la chromatine • La prise en compte de ces variations de l’horloge moléculaire est essentielle ti ll pour effectuer ff t des d datations d t ti fiables. fi bl • Les variations de l’horloge par rapport à un standard connu permettent d’inférer les processus évolutifs qui ont été mis en œuvre au cours de l’évolution. 14