De la génétique des populations à l'évolution moléculaire III. Génétique moléculaire des populations III.1 Polymorphisme moléculaire et diversité(s) III.2 Théorie de la coalescence III.3 Le paramètre mutationnel et son estimation III.4 Sélection(s) et évolution moléculaire/coalescence III.5 Signature moléculaire de la sélection Génétique moléculaire des populations III.1 Le polymorphisme moléculaire Polymorphisme moléculaire = polymorphisme de séquence d'ADN (Depaulis, Brazier et Veuille, 1995) Génétique moléculaire des populations III.1 La diversité haplotypique Polymorphisme moléculaire = polymorphisme de séquence d'ADN Un haplotype est une combinaison donnée de nucléotides polymorphes le long d'une séquence (Depaulis, Brazier et Veuille, 1995) Génétique moléculaire des populations III.1 La diversité haplotypique Polymorphisme moléculaire = polymorphisme de séquence d'ADN Un haplotype est une combinaison donnée de nucléotides polymorphes le long d'une séquence Diversité haplotypique: probabilité que deux haplotypes tirés d'une population soient semblables. La définition est la même que pour l'hétérozygotie ou la diversité allélique. Hétérozygotie attendue sous l'hypothèse de H-W l locus, 2 allèles Hétérozygotie attendue sous l'hypothèse de H-W l locus, n allèles Estimation à partir d'un échantillon de taille n Génétique moléculaire des populations III.1 La diversité nucléotidique Nombre moyen de différences entre deux séquences choisies aléatoirement dans la population: n: nombre de séquences échantillonnées dij: nombre de différences observées entre séquence i et séquence j n: nombre de séquences échantillonnées K: nombre d'allèles différents dij: nombre de différences observées entre séquence i et séquence j Diversité nucléotidique: L: longueur de la séquence étudiée Génétique moléculaire des populations III.2 Génétique moléculaire des populations et coalescence Relations généalogique entre les séquences d'ADN "histoire" (temps) Séquences d'ADN dans une population Polymorphisme P = f(T, µ) Par exemple, K= 2(3αT) sous le modèle de J&C Génétique moléculaire des populations III.2 Théorie de la coalescence (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) Génétique moléculaire des populations III.2 La théorie de la coalescence En coalescence, on s'intéresse, à la généalogie de loci homologues au sein d'une espèce/ population. En phylogénie moléculaire, on s'intéresse a la généalogie de loci homologues entre les espèces. En coalescence, on ne cherche pas à reconstruire l'arbre "vrai" ; on cherche les forces évolutives (décrites en génétique des populations) qui sont les plus compatibles avec la généalogie observée des séquences étudiées. En phylogénie moléculaire, on cherche surtout à reconstruire l'arbre "vrai" de loci homologues. X. V E K E M A N S MRCA : événement de coalescence (Achaz, Introduction à la coalescence, 2005) Génétique moléculaire des populations III.2 Coalescence et hypothèse nulle de l'évolution La théorie de la coalescence est basée sur les propriétés d'une population de Fisher-Wright à l'équilibre neutre mutation dérive. Ce modèle est l'hypothèse nulle de l'évolution. C'est une référence qui nous permet de faire des prédictions sur les mécanismes d'évolution. S'il est réfuté par les données, c'est que les hypothèses du modèle ne s'appliquent pas Modèle populationnel: modèle de Wright-Fisher Modèle mutationnel: modèle à nombre infini de sites Rappels de génétique des populations III.2 Coalescence et modèle populationnel de Wright-Fisher Fréquence allèle tirage au hasard d’un échantillon de 10 gamètes Génération parentale diploïde N=5 0.50 Pool des gamètes ∞ 0.50 Nouvelle génération diploïde N=5 tirage au hasard d’un échantillon de 10 gamètes Pool des gamètes ∞ Nouvelle génération diploïde N=5 0.60 0.60 0.80 Rappels de génétique des populations III.2 Coalescence et modèle populationnel de Wright-Fisher Taille de population: N individu, 2N copie du gène Taille échantillon: n Probabilité de coalescence à la génération précédente entre deux séquences prises au hasard: MRCA Probabilité de "non-coalescence" à la génération précédente entre deux séquences prises au hasard: Probabilité de coalescence deux générations dans la passé entre deux séquences prises au hasard: Probabilité de coalescence x générations dans la passé entre deux séquences prises au hasard: : événement de coalescence (Achaz, Introduction à la coalescence, 2005) Approximation au cas continu Pour 2N grand Temps moyen de coalescence entre deux séquences prises au hasard: Rappels de génétique des populations III.2 Coalescence et modèle populationnel de Wright-Fisher MRCA Taille de population: N individu, 2N copie du gène Taille échantillon: n Probabilité d'une coalescence à la génération précédente entre i séquences : Probabilité de "non-coalescence" à la génération précédente entre i séquences : Probabilité d'une coalescence deux générations dans la passé entre i séquences: (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) Probabilité d'une coalescence x générations dans la passé entre i séquences: Afin de s'affranchir de la dépendance entre les temps de coalescence ti et la taille de population N, on redéfini des temps de coalescence (Ti) exprimés en N générations Approximation au cas continu Pour 2N grand Temps moyen d'une coalescence entre iséquences prises au hasard: Génétique moléculaire des populations III.2 Propriétés du coalescent neutre MRCA Hauteur d'une généalogie / TMRCA: définition: temps écoulé entre la base et le MRCA Entre l'état i et i-1, hauteur: TMRCA En remarquant, (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) Génétique moléculaire des populations III.2 Propriétés du coalescent neutre MRCA Longueur L d'une généalogie: définition: somme des longueurs de toutes les branches L Entre l'état i et i-1, hauteur: TMRCA Entre l'état i et i-1, longueur: d'où: (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) en définissant: on obtient: Génétique moléculaire des populations III.2 Coalescence neutre et modèle mutationnel "à nombre infini de sites" Le modèle à nombre infini de sites suppose que le taux de mutation est suffisamment bas pour que le nombre de sites ayant subi plusieurs mutations dans l'échantillon soit négligeable. Cela permet de ne pas tenir compte des homoplasies et des mutations réverses. Les mutations sont considérées neutre et n'affectent pas la généalogie des séquences. Le processus de mutation est indépendant du processus de généalogie L'astuce utilisée en coalescence standard pour faire des prédictions sur les fréquences des polymorphismes neutres consiste à considérer les généalogies telles que nous l'avons fait précédemment et d'y ajouter des mutations Si on admet (i) que la fréquence de mutations par locus et par génération est faible, (ii) que le nombre de générations considéré est grand (de l'ordre de N générations, avec N>>1), le nombre de mutations attendues dans l'arbre est donné par une loi de Poisson (Achaz, Introduction à la coalescence, 2005) Génétique moléculaire des populations III.2 Coalescence et polymorphisme moléculaire Les mutations sont considérées neutre et n'affectent pas la généalogie des séquences. Le processus de mutation est indépendant du processus de généalogie L'astuce utilisée en coalescence standard pour faire des prédictions sur les fréquences des polymorphismes neutres consiste à considérer les généalogies telles que nous l'avons fait précédemment et d'y ajouter des mutations Si on admet (i) que la fréquence de mutations par locus et par génération est faible, (ii) que le nombre de générations considéré est grand (de l'ordre de N générations, avec N>>1), le nombre k de mutations attendues dans l'arbre est donné par une loi de Poisson (Achaz, Introduction à la coalescence, 2005) Forme générale de la loi de poisson MRCA µt Séq. 1 t Séq. 2 Cas d'une séquence à k génération de la séquence ancestrale k: nb de mutations t: nb de générations µ: taux de mutation par génération et par locus Génétique moléculaire des populations III.2 Coalescence et nbre de différences entre deux séquences On connait le nombre moyen de générations nécessaires pour trouver un ancêtre commun à deux séquences MRCA µt tt = 2N 2t Séq. 1 Temps moyen de coalescence entre deux séquences prises au hasard: Séq. 2 Pour trouver le nombre moyen de différences k2 entre deux séquences, il faut tenir compte des mutation accumulées sur les deux lignées: Θ = 4Nµ est le paramètre mutationnel Θ est une valeur de première importance en génétique moléculaire des populations, plus facile à estimer que N et µ Θ est souvent assimilé a la diversité de la population, puisqu'il représente le nombre moyen de différences attendues entre deux séquences échantillonnées au hasard dans la population Génétique moléculaire des populations III.3 θ: estimateur de Watterson (θS) L'estimation de θS est basée sur la relation entre le nombre S de sites polymorphes (observé!) dans un jeu de séquence et la longueur L du coalescent correspondant. Sous le modèle à nombre infini de sites, le nombre de site polymorphe correspond au nombre de mutations, puisque les mutations se produisent sur des sites différents Longueur L d'une généalogie: avec TMRCA L Nombre de mutations/sites polymorphes attendu: θS de Watterson: Génétique moléculaire des populations III.3 θ: estimateur de Tajima (θࢰ) Par définition, Θ est représente le nombre moyen de différences attendues entre deux séquences échantillonnées au hasard dans la population Nombre moyen de différences observées entre deux séquences choisies aléatoirement dans la population: n: nombre de séquences échantillonnées dij: nombre de différence observées entre séquence i et séquence j Par définition: Démonstration: Génétique moléculaire des populations III.3 θ: estimateur de Fu & Li (θηe) Il est basé sur la longueur des branches "externes", qui ne se séparent plus. Elles sont caractérisées par le fait qu'elles portent des mutations uniques, présentes à la fréquence de 1/n dans l'échantillon de taille n ("singletons"). Le nombre η de mutations externes est le nombre de mutations uniques dans l'échantillon, c'est-à-dire les formes alléliques présentes en un seul exemplaire (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) l: longueur d'une branche externe L: longueur totale des branches externes E(li): longueur moyenne des branches externes quand il y i lignées E(Li): longueur total moyenne des branches externes quand il y i lignées Génétique moléculaire des populations III.3 Estimation de θ: résumé θS de Watterson: θࢰ de Tajima: θηe de Fu & Li: Distinguer la variation moléculaire neutre (affectée uniquement par le dérive génétique) de celle qui est sélectionnée Génétique moléculaire des populations III.4 Sélection(s) et évolution moléculaire Sélection positive: les nouvelles mutation sont avantageuses Mutation avantageuse Mutation neutre Balayage sélectif: une nouvelle mutation fortement sélectionnée augmente en fréquence, éventuellement jusqu'à la fixation. Le processus tend à réduire/éliminer la variation génétique aux sites proches (liés) Effets d'un balayage sélectif sur la variation génétique (Nielsen, 2005) Génétique moléculaire des populations III.4 Sélection(s) et évolution moléculaire Sélection positive: les nouvelles mutation sont avantageuses Mutation avantageuse Mutation neutre Gènes ayant un rôle dans l’adaptation: sélection adaptive, changements favorisés. (Nei, 2005) Génétique moléculaire des populations III.4 Sélection(s) et évolution moléculaire Sélection négative ou purifiante: les nouvelles mutation sont délétères Mutation délétère Mutation neutre Gènes dont la fonction est essentielle et doit être maintenue Housekeeping Genes (gènes "domestiques" ou "ménagers"): expressions ± stable dans les différents tissus. Codent principalement pour des protéines essentielles aux fonctions cellulaires de base. Changement contre-sélectionné. Génétique moléculaire des populations III.4 Sélection(s) et évolution moléculaire Sélection balancée: augmente la variabilité génétique dans la population Mutations balancées Mutation neutre Exemple de sélection fréquence-dépendante (avantage du rare) au locus d’auto-incompatibilité (Schierup & Vekemans, 2008) Bases moléculaires de l’auto-incompatibilité sélection fréquence dépendante négative Conséquences évolutives: Convergence des fréquences alléliques Vers 1/3;1/3;1/3 Vers 1/4;1/4;1/4;1/4 Vers 1/n;1/n; … 1/n si 3 allèles si 4 allèles si n allèles Génétique moléculaire des populations III.4 Sélection(s) et évolution moléculaire/coalescence (Bamshad & Wooding) Génétique moléculaire des populations III.4 Signature moléculaire de la sélection Effets de la mutation et de la sélection sur la variabilité génétique intra et interspécifique (Nielsen, 2005) Génétique moléculaire des populations III.4 Signature moléculaire de la sélection La sélection naturelle affecte: • la distribution des fréquences alléliques • le nombre d’allèles maintenus • l’hétérozygotie • la divergence moléculaire entre allèles et espèces • la proportion de changements synonymes (Ks) et non-synonymes (KA) Génétique moléculaire des populations III.4 Détecter la signature moléculaire de la sélection La sélection naturelle affecte: • la distribution des fréquences alléliques • le nombre d’allèles maintenus • l’hétérozygotie • la divergence moléculaire entre allèles et espèces • la proportion de changements synonymes (Ks) et non-synonymes (KA) Approche indirecte: Tests de neutralité fondés sur La distribution des allèles et le niveau de diversité génétique (III.5) Les niveaux de divergence (interspécifique) et/ou de diversité génétique entre régions du génomes. Test d'hétérogénéité (III.6) Suivre expérimentalement une population au cours du temps • Nécessite des données exceptionnellement rares • Contraintes sur l’échelle de temps et taille d’échantillons • Comment distinguer la sélection des autres forces évolutives ? • Comment détecter les effets de sélection faible, non détectables à l’échelle de quelques générations (mais qui peuvent être importants à long terme)? Génétique moléculaire des populations III.5. a Le spectre de fréquence allélique (Bamshad & Wooding) (d'après Nielsen, 2005) Génétique moléculaire des populations III.5. a Le spectre de fréquence allélique (Bamshad & Wooding) (d'après Nielsen, 2005) Génétique moléculaire des populations III.5. a Le spectre de fréquence allélique (Bamshad & Wooding) (d'après Nielsen, 2005) Génétique moléculaire des populations III.5. a Le spectre de fréquence allélique (Bamshad & Wooding) (d'après Nielsen, 2005) Génétique moléculaire des populations III.5. a Le test d'homozygotie de Ewens-Watterson Fondé sur le modèle mutationnel à nombre infini d'allèle (toute mutation crée un nouvelle allèle) Compareune "homozygotie" attendue Fe à une "homozygotie" attendue à l'équilibre Feq sous les hypothèse du modèle neutre (WF+ infinite allele) (Hart & Clark, 2007) (Hart & Clark, 2007) Que signifierait un excès d'hétérozygotes? Excès d'homozygotes: l'allèle le plus fréquent est plus fréquent qu'attendue sous l'hypothèse neutre Sélection purifiante Génétique moléculaire des populations III.5. b Test de neutralité: comparaison d'estimateurs de θ θS de Watterson: θࢰ de Tajima: θηe de Fu & Li: Génétique moléculaire des populations III.5. b Le D de Tajima (1983) Principe: comparaison de deux estimateurs de θ θࢰ de Tajima: θS de Watterson: Ces deux estimateurs sont égaux pour une population de Wright-Fisher. Cependant, si l'évolution des séquences échantillonnées dans la nature ne peut pas être assimilé à un modèle de population neutre, panmictique et de taille constante, alors les deux estimateurs pourraient être differents. Chaque variant rare constitue un site ségrégeant (S) mais contribue très peu à la diversité nucléotidique (ࢰ). Les deux estimateurs diffèrent donc par l’importance relative accordée dans le calcul aux variants rares et aux variants de fréquence intermédiaire D<0 Excès de variant rares Sélection purifiante Balayage sélectif D>0 Déficit de variant rares Sélection balancée Génétique moléculaire des populations III.5. b Le D de Tajima (Bamshad & Wooding) Génétique moléculaire des populations III.5. b Le D de Tajima Avantage à long terme aux porteurs hétérozygotes à CCR5 ? un locus impliqué dans la résistance à d’autres maladies ? Des allèles “trop” divergents pour un modèle neutre…. Sélection balancée ? Génétique moléculaire des populations III.5. b Le D de Tajima Génétique moléculaire des populations III.5. b Le F de Fu & Li (1993) Principe: comparaison de deux estimateurs de θ θࢰ de Tajima: θηe de Fu & Li: ࢰ devrait être moins affecté que ηe par l'action de la sélection (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) Balayage sélectif récent : excès de singletons Génétique moléculaire des populations III.5. b Le G de Fu & Li (1993) Principe: comparaison de deux estimateurs de θ θηe de Fu & Li: Compare (aussi) deux estimateurs de θ qui diffèrent par l’importance accordée dans le calcul aux variants rares présents une seule fois (singletons) et aux variants de fréquence intermédiaire. (Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002) En cas de sélection purifiante, les mutations sur les branches internes de la généalogie seront certainement neutres alors que les mutation faiblement délétères seront plutôt présentes sur les branches externes si elles ne sont pas éliminées par la sélection. Génétique moléculaire des populations III.5. b Le H de Fay & Wu (2000) Principe: comparaison de deux estimateurs de θ θࢰ de Tajima: ξi: nombre de mutation présentes i fois Pour i=1 Un excès de mutations en fréquence élevée pourrait être le signal d'un balayage sélectif récent. Génétique moléculaire des populations III.5. c Les tests haplotypiques Tests basés sur la structure haplotypique Le nombre d’haplotypes présents correspond-t-il au nombre de sites ségrégeant ? 4 sites ségrégeant 5 haplotypes 4 sites ségrégeant 2 haplotypes (Fu 1996; Depaulis & Veuille 1998) Génétique moléculaire des populations III.5. c Les tests haplotypiques Tests basés sur la structure haplotypique La diversité haplotypique correspond-t-elle au nombre de sites ségrégeant ? 4 sites ségrégeant Forte diversité haplotypique 4 sites ségrégeant Faible diversité haplotypique (Depaulis & Veuille 1998) Génétique moléculaire des populations III.5. c Les tests haplotypiques Tests basés sur la structure haplotypique Les sites ségrégeant sont-ils répartis aléatoirement entre les différents haplotypes ? Répartition aléatoire Structure haplotypique (Hudson et al. 1994) Projet HapMap (www.hapmap.org) 270 individus génotypés pour 5,8.106 SNP env 1.2 Mb ... Une région du génome transmise comme un seul bloc, ou une région dont l’histoire est particulièrement récente ? Génétique moléculaire des populations III.6. a Le test HKA (Hudson, Kreitman, Aguadé, 1987) TMRCA Locus A Locus B Les différences accumulées entre espèces sont des divergences D Les différences dans une espèce sont des polymorphismes S Sous l'hypothèse neutre: DA=2TµA SA=4NµAan =θAan DB=2TµB SB=4NµBan =θBan constant ∀ locus Génétique moléculaire des populations III.6. a Le test HKA (Hudson, Kreitman, Aguadé, 1987) TMRCA Espèce 2 Espèce 1 Espèce 2 Espèce 1 Locus B Locus A DA=2TµA DB=2TµB ~ DA SA=4NµAan =θAan SB=4NµBan =θBan < SA ÆLa sélection a influencé le polymorphisme à l’un des deux locus. Le polymorphisme réduit du locus B ne peut pas être expliqué par : - taille de pop réduite - un faible taux de mutation (car le locus A a beaucoup de polymorphisme) (car la distance au groupe externe serait alors réduite) Génétique moléculaire des populations III.6. a Le test HKA (Hudson, Kreitman, Aguadé, 1987): exemple Correlation de la variation intra et inter-spécifique Adh locus neutre Locus neutres Gène soumis à sélection (Adh) Intra 34 30 Inter 43 77 Ratio 0.8 0.4 Æ “Trop” de polymorphisme au sein des espèces pour la divergence observée ! Génétique moléculaire des populations III.6. b Un test apparenté: McDonald-Kreitman (1991) Comparaison polymorphisme-divergence des sites synonymes et non-synonymes d'un même gène (synonymes pris comme référence neutre) polymorphes fixées Espèce focale synonyme 5 2 non-synonyme 4 8 Groupe externe En l’absence de sélection, les deux ratios devraient être égaux. Ici, la selection positive a mené à la fixation de nombreux changements nonsynonymes Génétique moléculaire des populations III.6. c Le test de Lewontin-Krakauer (1973) Comparaison de la structure géographique de la diversité à plusieurs locus: Adaptation locale à un environnement: différentiation de fréquences alléliques: FST Génétique moléculaire des populations III.6. c Le test de Lewontin-Krakauer (1973) FST Base des méthodes de “scan génomique” Position sur le chromosome 1 + forte différentiation des fréquences d’allèles aux sites non‐codant qu’aux sites codant et introniques... un effet de leur liaison ? Génétique moléculaire des populations III.6. c Le test de Lewontin-Krakauer (1973) Figure 1 : Valeurs de FST sur des marqueurs dans la région du gène LCT (Bersaglieri et al. 2004) Polymorphisme C/T Distance (en milliers de paire de bases) relative au gène LCT Gène LCT NB. : Les percentiles sont fondés sur le calcul suivant : plus de 20 000 marqueurs génétiques ont été séquencés dans tout le génome (notamment sur des chromosomes différents de celui porteur du gène LCT) de chacun des individus échantillonnés. Un percentile de 90% signifie que 90% de ces 20 000 marqueurs ont un Fst inférieur ou égal à la valeur correspondante (environ 0.2 ici). Gène de la lactase. Génétique moléculaire des populations III.6. d Le rapport KA/ KS KS : nombre de substitutions synonymes depuis la divergence entre les deux séquences KA : nombre de substitutions non synonymes depuis la divergence entre les deux séquences α α α α α Modèle JC α pS = nombre de différences non-synonymes par site = dS/LS avec LS: nombre total de sites non-synonymes LS= n4x dégén. + 1/3 n2xdégén. pA = nombre de différences non-synonymes par site = dA/LA avec LA: nombre total de sites non-synonymes LA= nnon dégén. + 2/3 n2xdégén. Génétique moléculaire des populations III.6. d Le rapport KA/ KS AAA Lys Changement synonymes Changement non-synonymes AAT Asn AGT Ser CGT Arg AGA Arg dN/dS AGT Ser CGC Arg CGT Arg <1 sous sélection purifiante =1 si les variations sont neutres >1 sous sélection positive AAT Asn Quels gènes évoluent sous l’effet de la sélection ? Inférences basées sur les trios de gènes homologues Homme-Chimpanzé-Souris Quels gènes évoluent sous l’effet de la sélection ? Objectifs: identifier les genes qui ont subi divergence non neutre depuis notre ancêtre commun le plus récent Méthode: 7,645 gènes de chimpanzé comparées à leurs orthologues nonambigus chez l’human et la souris. Comparaison des Chimpanzés et des humains (ancêtre commun il y a 5.7mya). Diffèrent à seulement 1.2% de régions codantes du génome Æindices d’évolution adaptative ? Orthologues de souris (divergence 75 Mya) permettent de déterminer l’état ancestral Homme A Chimpanzé G Souris G Quels gènes évoluent sous l’effet de la sélection ? Les variations accumulées au sein des différents gènes depuis la séparation hommechimpanzé ont-elles été délétères, neutres, ou advantageuses ? dN/dS <1 sous sélection purifiante =1 si les variations sont neutres >1 sous sélection positive Æ1547 gènes ont dN/dS >1 le long de la branche qui mène aux humains et 1534 le long de la branche qui mène au chimpanzé 3. Comment détecter la sélection naturelle ? A. Tests basés sur la distribution de fréquences alléliques Importance de la théorie neutraliste de l’évolution moléculaire Æ Un modèle “nul” qui décrit un monde dans lequel la sélection naturelle ne joue aucun rôle Æ La diversité génétique n’est affectée que par la dérive, la mutation, la recombinaison et la migration. 1. 2. Prédire grâce au modèle neutraliste (“nul”) ce qu’on devrait attendre (diversité, nombre d’allèles, distribution de fréquences alléliques) et tester l’ajustement du modèle à nos données Comparer la vraisemblance d’un modèle qui ignore la sélection naturelle à la vraisemblance d’un modèle qui l’intègre: l’amélioration permet‐elle de significativement mieux décrire nos données ? Dynamique de remplacement des allèles neutres dans une population échantillon 1 fréquence allélique NEUTRE 0 temps Mutations (points noirs) se produisent à un taux 2N.μ N: taille efficace de la population μ: taux de mutation Sous l’hypothèse de neutralité, chaque nouvelle mutation se fixe avec une probabilité 1/2N Il en résulte un taux de substitution neutre de 2N.μ / 2N = μ (points rouges) A l’équilibre mutation-dérive, la quantité de polymorphisme dans la population est déterminée par le produit N.μ, généralement mesuré par θ = 4N.μ Dynamique de remplacement des allèles dans une population en présence de sélection négative 1 fréquence allélique NEUTRE 0 1 fréquence allélique SELECTION NEGATIVE 0 temps La sélection négative cause : - un plus faible taux de substitution - moins de polymorphisme - des fréquences d’allèles minoritaires plus faibles Dynamique de remplacement des allèles dans une population en présence de sélection positive (récurrente) 1 fréquence allélique NEUTRE 0 1 fréquence allélique SELECTION POSITIVE 0 La selection positive récurrente cause : - un plus fort taux de substitution - plus de polymorphisme - des fréquences d’allèles alternatifs plus élevées D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987 Comparaison des niveaux de variation intra‐ et inter‐spécifique pour le gène d’intérêt et pour un autre locus supposé neutre Hypothèse nulle : en l’absence de selection, les locus montrant le plus de variation intra‐ spécifique sont ceux qui montrent le plus de variation inter‐spécifique: la diversité est générée par la mutation uniquement Locus B Locus A Espèce focale Groupe externe Espèce focale Groupe externe ÆLa sélection a influencé le polymorphisme à l’un des deux locus. Le polymorphisme réduit du locus B ne peut pas être expliqué par : - taille de pop réduite - un faible taux de mutation (car le locus A a beaucoup de polymorphisme) (car la distance au groupe externe serait alors réduite) 3. Comment détecter la sélection naturelle ? D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987 Correlation de la variation intra et inter‐spécifique Inter-espèces Adh locus neutre Locus neutres Gène soumis à sélection (Adh) Intra-espèces Intra 34 30 Inter 43 77 Ratio 0.8 0.4 Æ “Trop” de polymorphisme au sein des espèces pour la divergence observée ! 3. Comment détecter la sélection naturelle ? D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987 Variation de fréquence de l’allèle Fast au locus de l’Alcool dehydrogenase Localité Latitude ME VT MA CT NJ MD NC FL1 FL2 FL3 44.36 43.47 42.30 41.34 40.21 39.00 35.46 30.20 27.28 25.27 Frequence de l’ Adh-F allele 55% 55% 58% 60% 63% 66% 70% 82% 88% 90% 3. Comment détecter la sélection naturelle ? D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987 Fréquence Adh-F 1.0 0.9 0.8 0.7 0.6 0.5 20 30 40 Latitude 50 3. Comment détecter la sélection naturelle ? D. Tests basés sur l’hétérogénéité entre plusieurs locus Test Lewontin‐Krakauer (1973) Comparaison de la structure géographique de la diversité à plusieurs locus: Adaptation locale à un environnement: différentiation de fréquences alléliques: FST 3. Comment détecter la sélection naturelle ? D. Tests basés sur l’hétérogénéité entre plusieurs locus Test Lewontin‐Krakauer (1973) FST Base des méthodes de “scan génomique” Position sur le chromosome 1 + forte différentiation des fréquences d’allèles aux sites non‐codant qu’aux sites codant et introniques... un effet de leur liaison ? 3. Comment détecter la sélection naturelle ? D. Tests basés sur l’hétérogénéité entre plusieurs locus Figure 1 : Valeurs de FST sur des marqueurs dans la région du gène LCT (Bersaglieri et al. 2004) Polymorphisme C/T Distance (en milliers de paire de bases) relative au gène LCT Gène LCT NB. : Les percentiles sont fondés sur le calcul suivant : plus de 20 000 marqueurs génétiques ont été séquencés dans tout le génome (notamment sur des chromosomes différents de celui porteur du gène LCT) de chacun des individus échantillonnés. Un percentile de 90% signifie que 90% de ces 20 000 marqueurs ont un Fst inférieur ou égal à la valeur correspondante (environ 0.2 ici). Gène de la lactase. 3. Comment détecter la sélection naturelle ? E. Tests basés sur le polymorphisme des régions liées Effet de la sélection naturelle sur la diversité de région génomique liée à un gène de résistance à la pyrimethamine Polymorphisme de la région flanquant le locus dhfr Nair et al. 2003 Polymorphisme de la région flanquant les allèles “résistants” (noir) et les allèles “sensibles” (gris) Pearce et al. 2005 3. Comment détecter de la sélection naturelle ? F. Comparaison des taux de substitution Dégénérescence du code génétique universel 3. Comment détecter de la sélection naturelle ? F. Comparaison des taux de substitution Substitutions synonymes: Sequence 1: Sequence 2: Acide-aminé: UUU UUU Phe CAU CAC His CGU CGU Arg CAU CAG His CGU CGU Arg Substitutions non-synonymes: Sequence 1: Sequence 2: Acide-aminé: UUU UUU Phe Gln 3. Comment détecter de la sélection naturelle ? F. Comparaison des taux de substitution dN Nombre de substitutions non-synonymes Nombre de sites non-synonymes dS Nombre de substitutions synonymes Nombre de sites synonymes dN/dS > 1 Î Sélection positive 3. Comment détecter de la sélection naturelle ? F. Comparaison des taux de substitution AAA Lys Changement synonymes Changement non‐synonymes AAT Asn AGT Ser CGT Arg AGA Arg AGT Ser CGC Arg CGT Arg AAT Asn Yang & Bielawski, 2000, TREE 3. Comment détecter la sélection naturelle ? A. Tests basés sur la distribution de fréquences alléliques Importance de la théorie neutraliste de l’évolution moléculaire Æ Un modèle “nul” qui décrit un monde dans lequel la sélection naturelle ne joue aucun rôle Æ La diversité génétique n’est affectée que par la dérive, la mutation, la recombinaison et la migration. 1. 2. Prédire grâce au modèle neutraliste (“nul”) ce qu’on devrait attendre (diversité, nombre d’allèles, distribution de fréquences alléliques) et tester l’ajustement du modèle à nos données Comparer la vraisemblance d’un modèle qui ignore la sélection naturelle à la vraisemblance d’un modèle qui l’intègre: l’amélioration permet-elle de significativement mieux décrire nos données ? Dynamique de remplacement des allèles neutres dans une population échantillon 1 fréquence allélique NEUTRE 0 temps Mutations (points noirs) se produisent à un taux 2N.μ N: taille efficace de la population μ: taux de mutation Sous l’hypothèse de neutralité, chaque nouvelle mutation se fixe avec une probabilité 1/2N Il en résulte un taux de substitution neutre de 2N.μ / 2N = μ (points rouges) A l’équilibre mutation-dérive, la quantité de polymorphisme dans la population est déterminée par le produit N.μ, généralement mesuré par θ = 4N.μ Dynamique de remplacement des allèles dans une population en présence de sélection négative 1 fréquence allélique NEUTRE 0 1 fréquence allélique SELECTION NEGATIVE 0 temps La sélection négative cause : - un plus faible taux de substitution - moins de polymorphisme - des fréquences d’allèles minoritaires plus faibles Dynamique de remplacement des allèles dans une population en présence de sélection positive (récurrente) 1 fréquence allélique NEUTRE 0 1 fréquence allélique SELECTION POSITIVE 0 La selection positive récurrente cause : - un plus fort taux de substitution - plus de polymorphisme - des fréquences d’allèles alternatifs plus élevées