Génétique Moléculaire des Populations

publicité
De la génétique des populations à l'évolution moléculaire
III. Génétique moléculaire des populations
III.1 Polymorphisme moléculaire et diversité(s)
III.2 Théorie de la coalescence
III.3 Le paramètre mutationnel et son estimation
III.4 Sélection(s) et évolution moléculaire/coalescence
III.5 Signature moléculaire de la sélection
Génétique moléculaire des populations
III.1 Le polymorphisme moléculaire
Polymorphisme moléculaire = polymorphisme de séquence d'ADN
(Depaulis, Brazier et Veuille, 1995)
Génétique moléculaire des populations
III.1 La diversité haplotypique
Polymorphisme moléculaire = polymorphisme de séquence d'ADN
Un haplotype est une combinaison donnée de nucléotides polymorphes le long d'une séquence
(Depaulis, Brazier et Veuille, 1995)
Génétique moléculaire des populations
III.1 La diversité haplotypique
Polymorphisme moléculaire = polymorphisme de séquence d'ADN
Un haplotype est une combinaison donnée de nucléotides polymorphes le long d'une séquence
Diversité haplotypique: probabilité que deux haplotypes tirés d'une population soient semblables.
La définition est la même que pour l'hétérozygotie ou la diversité allélique.
Hétérozygotie attendue sous
l'hypothèse de H-W
l locus, 2 allèles
Hétérozygotie attendue sous
l'hypothèse de H-W
l locus, n allèles
Estimation à partir d'un
échantillon de taille n
Génétique moléculaire des populations
III.1 La diversité nucléotidique
Nombre moyen de différences entre deux séquences choisies aléatoirement dans la population:
n: nombre de séquences échantillonnées
dij: nombre de différences observées entre
séquence i et séquence j
n: nombre de séquences échantillonnées
K: nombre d'allèles différents
dij: nombre de différences observées entre
séquence i et séquence j
Diversité nucléotidique:
L: longueur de la séquence étudiée
Génétique moléculaire des populations
III.2 Génétique moléculaire des populations et coalescence
Relations généalogique entre
les séquences d'ADN
"histoire"
(temps)
Séquences d'ADN
dans une population
Polymorphisme
P = f(T, µ)
Par exemple,
K= 2(3αT) sous le
modèle de J&C
Génétique moléculaire des populations
III.2 Théorie de la coalescence
(Veuille, Polymorphisme moléculaire et Théorie de la coalescence, 2002)
Génétique moléculaire des populations
III.2 La théorie de la coalescence
En coalescence, on s'intéresse, à la généalogie de loci homologues au sein
d'une espèce/ population.
En phylogénie moléculaire, on s'intéresse a la
généalogie de loci homologues entre les espèces.
En coalescence, on ne cherche pas à reconstruire l'arbre "vrai" ; on cherche
les forces évolutives (décrites en génétique des populations) qui sont les plus
compatibles avec la généalogie observée des séquences étudiées.
En phylogénie moléculaire, on cherche surtout à
reconstruire l'arbre "vrai" de loci homologues.
X.
V
E
K
E
M
A
N
S
MRCA
: événement de
coalescence
(Achaz, Introduction à la coalescence, 2005)
Génétique moléculaire des populations
III.2 Coalescence et hypothèse nulle de l'évolution
La théorie de la coalescence est basée sur les propriétés d'une population de
Fisher-Wright à l'équilibre neutre mutation dérive.
Ce modèle est l'hypothèse nulle de l'évolution.
C'est une référence qui nous permet de faire des prédictions sur les
mécanismes d'évolution.
S'il est réfuté par les données, c'est que les hypothèses du modèle ne
s'appliquent pas
Modèle populationnel: modèle de Wright-Fisher
Modèle mutationnel: modèle à nombre infini de sites
Rappels de génétique des populations
III.2 Coalescence et modèle populationnel de Wright-Fisher
Fréquence allèle 
tirage au hasard d’un échantillon
de 10 gamètes
Génération parentale diploïde
N=5
0.50
Pool des gamètes
∞
0.50
Nouvelle génération diploïde
N=5
tirage au hasard d’un échantillon
de 10 gamètes
Pool des gamètes
∞
Nouvelle génération diploïde
N=5
0.60
0.60
0.80
Rappels de génétique des populations
III.2 Coalescence et modèle populationnel de Wright-Fisher
Taille de population: N individu, 2N copie du gène
Taille échantillon: n
Probabilité de coalescence à la génération précédente entre deux séquences
prises au hasard:
MRCA
Probabilité de "non-coalescence" à la génération précédente entre deux
séquences prises au hasard:
Probabilité de coalescence deux générations dans la passé entre deux
séquences prises au hasard:
Probabilité de coalescence x générations dans la passé entre deux séquences
prises au hasard:
: événement de
coalescence
(Achaz, Introduction à la
coalescence, 2005)
Approximation au cas continu
Pour 2N grand
Temps moyen de coalescence entre deux séquences prises au hasard:
Rappels de génétique des populations
III.2 Coalescence et modèle populationnel de Wright-Fisher
MRCA
Taille de population: N individu, 2N copie du gène
Taille échantillon: n
Probabilité d'une coalescence à la génération précédente entre i séquences :
Probabilité de "non-coalescence" à la génération précédente entre i séquences :
Probabilité d'une coalescence deux générations dans la passé entre i séquences:
(Veuille, Polymorphisme moléculaire
et Théorie de la coalescence, 2002)
Probabilité d'une coalescence x générations dans la passé entre i séquences:
Afin de s'affranchir de la
dépendance entre les temps de
coalescence ti et la taille de
population N, on redéfini des
temps de coalescence (Ti)
exprimés en N générations
Approximation au cas continu
Pour 2N grand
Temps moyen d'une coalescence entre iséquences prises au hasard:
Génétique moléculaire des populations
III.2 Propriétés du coalescent neutre
MRCA
Hauteur d'une généalogie / TMRCA:
définition: temps écoulé entre la base et le MRCA
Entre l'état i et i-1, hauteur:
TMRCA
En remarquant,
(Veuille, Polymorphisme moléculaire
et Théorie de la coalescence, 2002)
Génétique moléculaire des populations
III.2 Propriétés du coalescent neutre
MRCA
Longueur L d'une généalogie:
définition: somme des longueurs de toutes les branches
L
Entre l'état i et i-1, hauteur:
TMRCA
Entre l'état i et i-1, longueur:
d'où:
(Veuille, Polymorphisme moléculaire
et Théorie de la coalescence, 2002)
en définissant:
on obtient:
Génétique moléculaire des populations
III.2 Coalescence neutre et
modèle mutationnel "à nombre infini de sites"
Le modèle à nombre infini de sites suppose que le taux de mutation est suffisamment bas
pour que le nombre de sites ayant subi plusieurs mutations dans l'échantillon soit
négligeable. Cela permet de ne pas tenir compte des homoplasies et des mutations réverses.
Les mutations sont considérées neutre et n'affectent pas la généalogie des séquences.
Le processus de mutation est indépendant du processus de généalogie
L'astuce utilisée en coalescence standard pour faire des
prédictions sur les fréquences des polymorphismes neutres
consiste à considérer les généalogies telles que nous
l'avons fait précédemment et d'y ajouter des mutations
Si on admet (i) que la fréquence de mutations par locus
et par génération est faible, (ii) que le nombre de
générations considéré est grand (de l'ordre de N
générations, avec N>>1), le nombre de mutations
attendues dans l'arbre est donné par une loi de Poisson
(Achaz, Introduction à la coalescence, 2005)
Génétique moléculaire des populations
III.2 Coalescence et polymorphisme moléculaire
Les mutations sont considérées neutre et n'affectent pas la généalogie des séquences.
Le processus de mutation est indépendant du processus de généalogie
L'astuce utilisée en coalescence standard pour faire des
prédictions sur les fréquences des polymorphismes neutres
consiste à considérer les généalogies telles que nous
l'avons fait précédemment et d'y ajouter des mutations
Si on admet (i) que la fréquence de mutations par locus
et par génération est faible, (ii) que le nombre de
générations considéré est grand (de l'ordre de N
générations, avec N>>1), le nombre k de mutations
attendues dans l'arbre est donné par une loi de Poisson
(Achaz, Introduction à la coalescence, 2005)
Forme générale de la loi de poisson
MRCA
µt
Séq. 1
t
Séq. 2
Cas d'une séquence à k génération de la séquence ancestrale
k: nb de mutations
t: nb de générations
µ: taux de mutation par
génération et par locus
Génétique moléculaire des populations
III.2 Coalescence et nbre de différences entre deux séquences
On connait le nombre moyen de générations nécessaires
pour trouver un ancêtre commun à deux séquences
MRCA
µt
tt = 2N
2t
Séq. 1
Temps moyen de coalescence entre deux séquences prises au hasard:
Séq. 2
Pour trouver le nombre moyen de différences k2 entre deux
séquences, il faut tenir compte des mutation accumulées sur les
deux lignées:
Θ = 4Nµ est le paramètre mutationnel
Θ est une valeur de première importance en génétique moléculaire
des populations, plus facile à estimer que N et µ
Θ est souvent assimilé a la diversité de la population, puisqu'il
représente le nombre moyen de différences attendues entre deux
séquences échantillonnées au hasard dans la population
Génétique moléculaire des populations
III.3 θ: estimateur de Watterson (θS)
L'estimation de θS est basée sur la relation entre le nombre S de sites polymorphes
(observé!) dans un jeu de séquence et la longueur L du coalescent correspondant.
Sous le modèle à nombre infini de sites, le nombre de site
polymorphe correspond au nombre de mutations, puisque les
mutations se produisent sur des sites différents
Longueur L d'une généalogie:
avec
TMRCA
L
Nombre de mutations/sites polymorphes attendu:
θS de Watterson:
Génétique moléculaire des populations
III.3 θ: estimateur de Tajima (θࢰ)
Par définition, Θ est représente le nombre moyen de différences attendues entre deux
séquences échantillonnées au hasard dans la population
Nombre moyen de différences observées entre deux séquences choisies aléatoirement dans la population:
n: nombre de séquences échantillonnées
dij: nombre de différence observées entre
séquence i et séquence j
Par définition:
Démonstration:
Génétique moléculaire des populations
III.3 θ: estimateur de Fu & Li (θηe)
Il est basé sur la longueur des branches "externes", qui ne se séparent plus. Elles sont caractérisées par le
fait qu'elles portent des mutations uniques, présentes à la fréquence de 1/n dans l'échantillon de taille n
("singletons"). Le nombre η de mutations externes est le nombre de mutations uniques dans l'échantillon,
c'est-à-dire les formes alléliques présentes en un seul exemplaire
(Veuille, Polymorphisme moléculaire et
Théorie de la coalescence, 2002)
l: longueur d'une branche externe
L: longueur totale des branches externes
E(li): longueur moyenne des branches
externes quand il y i lignées
E(Li): longueur total moyenne des
branches externes quand il y i lignées
Génétique moléculaire des populations
III.3 Estimation de θ: résumé
θS de Watterson:
θࢰ de Tajima:
θηe de Fu & Li:
Distinguer la variation moléculaire neutre
(affectée uniquement par le dérive génétique)
de celle qui est sélectionnée
Génétique moléculaire des populations
III.4 Sélection(s) et évolution moléculaire
Sélection positive: les nouvelles mutation sont avantageuses
Mutation avantageuse
Mutation neutre
Balayage sélectif:
une nouvelle mutation fortement
sélectionnée augmente en fréquence,
éventuellement jusqu'à la fixation.
Le processus tend à réduire/éliminer la
variation génétique aux sites proches (liés)
Effets d'un balayage sélectif sur la variation génétique
(Nielsen, 2005)
Génétique moléculaire des populations
III.4 Sélection(s) et évolution moléculaire
Sélection positive: les nouvelles mutation sont avantageuses
Mutation avantageuse
Mutation neutre
Gènes ayant un rôle dans l’adaptation: sélection adaptive, changements favorisés.
(Nei, 2005)
Génétique moléculaire des populations
III.4 Sélection(s) et évolution moléculaire
Sélection négative ou purifiante: les nouvelles mutation sont délétères
Mutation délétère
Mutation neutre
Gènes dont la fonction est essentielle et doit être maintenue
Housekeeping Genes (gènes "domestiques" ou "ménagers"): expressions ±
stable dans les différents tissus. Codent principalement pour des protéines
essentielles aux fonctions cellulaires de base.
Changement contre-sélectionné.
Génétique moléculaire des populations
III.4 Sélection(s) et évolution moléculaire
Sélection balancée: augmente la variabilité génétique dans la population
Mutations balancées
Mutation neutre
Exemple de sélection fréquence-dépendante (avantage du rare) au locus d’auto-incompatibilité
(Schierup &
Vekemans, 2008)
Bases moléculaires de l’auto-incompatibilité
sélection fréquence dépendante négative
Conséquences évolutives: Convergence des
fréquences alléliques
Vers 1/3;1/3;1/3
Vers 1/4;1/4;1/4;1/4
Vers 1/n;1/n; … 1/n
si 3 allèles
si 4 allèles
si n allèles
Génétique moléculaire des populations
III.4 Sélection(s) et évolution moléculaire/coalescence
(Bamshad & Wooding)
Génétique moléculaire des populations
III.4 Signature moléculaire de la sélection
Effets de la mutation et de la sélection sur la variabilité génétique intra et interspécifique (Nielsen, 2005)
Génétique moléculaire des populations
III.4 Signature moléculaire de la sélection
La sélection naturelle affecte:
•
la distribution des fréquences alléliques
•
le nombre d’allèles maintenus
•
l’hétérozygotie
•
la divergence moléculaire entre allèles et espèces
•
la proportion de changements synonymes (Ks) et
non-synonymes (KA)
Génétique moléculaire des populations
III.4 Détecter la signature moléculaire de la sélection
La sélection naturelle affecte:
•
la distribution des fréquences alléliques
•
le nombre d’allèles maintenus
•
l’hétérozygotie
•
la divergence moléculaire entre allèles et espèces
•
la proportion de changements synonymes (Ks) et
non-synonymes (KA)
Approche indirecte:
Tests de neutralité
fondés sur
La distribution des allèles
et le niveau de diversité
génétique (III.5)
Les niveaux de divergence
(interspécifique) et/ou de
diversité génétique entre
régions du génomes.
Test d'hétérogénéité (III.6)
Suivre expérimentalement une population au cours du temps
• Nécessite des données exceptionnellement rares
• Contraintes sur l’échelle de temps et taille d’échantillons
• Comment distinguer la sélection des autres forces évolutives ?
• Comment détecter les effets de sélection faible, non détectables à l’échelle de quelques
générations (mais qui peuvent être importants à long terme)?
Génétique moléculaire des populations
III.5. a Le spectre de fréquence allélique
(Bamshad & Wooding)
(d'après Nielsen, 2005)
Génétique moléculaire des populations
III.5. a Le spectre de fréquence allélique
(Bamshad & Wooding)
(d'après Nielsen, 2005)
Génétique moléculaire des populations
III.5. a Le spectre de fréquence allélique
(Bamshad & Wooding)
(d'après Nielsen, 2005)
Génétique moléculaire des populations
III.5. a Le spectre de fréquence allélique
(Bamshad & Wooding)
(d'après Nielsen, 2005)
Génétique moléculaire des populations
III.5. a Le test d'homozygotie de Ewens-Watterson
Fondé sur le modèle mutationnel à nombre infini d'allèle (toute mutation crée un
nouvelle allèle)
Compareune "homozygotie" attendue Fe à une "homozygotie" attendue à
l'équilibre Feq sous les hypothèse du modèle neutre (WF+ infinite allele)
(Hart & Clark, 2007)
(Hart & Clark, 2007)
Que signifierait un excès
d'hétérozygotes?
Excès d'homozygotes: l'allèle le plus
fréquent est plus fréquent qu'attendue
sous l'hypothèse neutre
Sélection purifiante
Génétique moléculaire des populations
III.5. b Test de neutralité: comparaison d'estimateurs de θ
θS de Watterson:
θࢰ de Tajima:
θηe de Fu & Li:
Génétique moléculaire des populations
III.5. b Le D de Tajima (1983)
Principe: comparaison de deux estimateurs de θ
θࢰ de Tajima:
θS de Watterson:
Ces deux estimateurs sont égaux pour une population de Wright-Fisher. Cependant, si l'évolution
des séquences échantillonnées dans la nature ne peut pas être assimilé à un modèle de population
neutre, panmictique et de taille constante, alors les deux estimateurs pourraient être differents.
Chaque variant rare constitue un site ségrégeant (S) mais contribue très peu à la diversité
nucléotidique (ࢰ). Les deux estimateurs diffèrent donc par l’importance relative accordée dans le
calcul aux variants rares et aux variants de fréquence intermédiaire
D<0
Excès de variant rares
Sélection purifiante
Balayage sélectif
D>0
Déficit de variant rares
Sélection balancée
Génétique moléculaire des populations
III.5. b Le D de Tajima
(Bamshad & Wooding)
Génétique moléculaire des populations
III.5. b Le D de Tajima
Avantage à long terme aux porteurs
hétérozygotes à CCR5 ?
un locus impliqué dans la résistance à
d’autres maladies ?
Des allèles “trop” divergents pour un modèle
neutre…. Sélection balancée ?
Génétique moléculaire des populations
III.5. b Le D de Tajima
Génétique moléculaire des populations
III.5. b Le F de Fu & Li (1993)
Principe: comparaison de deux estimateurs de θ
θࢰ de Tajima:
θηe de Fu & Li:
ࢰ devrait être moins affecté que ηe par l'action de la
sélection
(Veuille, Polymorphisme moléculaire et
Théorie de la coalescence, 2002)
Balayage sélectif récent : excès de singletons
Génétique moléculaire des populations
III.5. b Le G de Fu & Li (1993)
Principe: comparaison de deux estimateurs de θ
θηe de Fu & Li:
Compare (aussi) deux estimateurs de θ qui diffèrent par
l’importance accordée dans le calcul aux variants rares
présents une seule fois (singletons) et aux variants de
fréquence intermédiaire.
(Veuille, Polymorphisme moléculaire et
Théorie de la coalescence, 2002)
En cas de sélection purifiante, les mutations sur les branches
internes de la généalogie seront certainement neutres alors que les
mutation faiblement délétères seront plutôt présentes sur les
branches externes si elles ne sont pas éliminées par la sélection.
Génétique moléculaire des populations
III.5. b Le H de Fay & Wu (2000)
Principe: comparaison de deux estimateurs de θ
θࢰ de Tajima:
ξi: nombre de mutation présentes i fois
Pour i=1
Un excès de mutations en fréquence élevée pourrait être le signal
d'un balayage sélectif récent.
Génétique moléculaire des populations
III.5. c Les tests haplotypiques
Tests basés sur la structure haplotypique
Le nombre d’haplotypes présents correspond-t-il au nombre de sites ségrégeant ?
4 sites ségrégeant
5 haplotypes
4 sites ségrégeant
2 haplotypes
(Fu 1996; Depaulis & Veuille 1998)
Génétique moléculaire des populations
III.5. c Les tests haplotypiques
Tests basés sur la structure haplotypique
La diversité haplotypique correspond-t-elle au nombre de sites ségrégeant ?
4 sites ségrégeant
Forte diversité haplotypique
4 sites ségrégeant
Faible diversité haplotypique
(Depaulis & Veuille 1998)
Génétique moléculaire des populations
III.5. c Les tests haplotypiques
Tests basés sur la structure haplotypique
Les sites ségrégeant sont-ils répartis aléatoirement entre les différents
haplotypes ?
Répartition aléatoire
Structure haplotypique
(Hudson et al. 1994)
Projet HapMap (www.hapmap.org)
270 individus génotypés pour 5,8.106 SNP
env 1.2 Mb
... Une région du génome transmise comme un seul bloc, ou une région dont l’histoire
est particulièrement récente ?
Génétique moléculaire des populations
III.6. a Le test HKA (Hudson, Kreitman, Aguadé, 1987)
TMRCA
Locus A
Locus B
Les différences accumulées entre espèces sont des divergences D
Les différences dans une espèce sont des polymorphismes S
Sous l'hypothèse neutre:
DA=2TµA
SA=4NµAan
=θAan
DB=2TµB
SB=4NµBan
=θBan
constant ∀ locus
Génétique moléculaire des populations
III.6. a Le test HKA (Hudson, Kreitman, Aguadé, 1987)
TMRCA
Espèce 2
Espèce 1
Espèce 2
Espèce 1
Locus B
Locus A
DA=2TµA
DB=2TµB ~ DA
SA=4NµAan
=θAan
SB=4NµBan
=θBan < SA
ÆLa sélection a influencé le polymorphisme à l’un des deux locus.
Le polymorphisme réduit du locus B ne peut pas être expliqué par :
- taille de pop réduite
- un faible taux de mutation
(car le locus A a beaucoup de polymorphisme)
(car la distance au groupe externe serait alors réduite)
Génétique moléculaire des populations
III.6. a Le test HKA (Hudson, Kreitman, Aguadé, 1987): exemple
Correlation de la variation intra et inter-spécifique
Adh
locus neutre
Locus neutres
Gène soumis à sélection
(Adh)
Intra
34
30
Inter
43
77
Ratio
0.8
0.4
Æ “Trop” de polymorphisme
au sein des espèces
pour la divergence observée !
Génétique moléculaire des populations
III.6. b Un test apparenté: McDonald-Kreitman (1991)
Comparaison polymorphisme-divergence des sites synonymes et non-synonymes d'un
même gène (synonymes pris comme référence neutre)
polymorphes fixées
Espèce focale
synonyme
5
2
non-synonyme
4
8
Groupe externe
En l’absence de sélection, les deux ratios devraient être égaux.
Ici, la selection positive a mené à la fixation de nombreux changements nonsynonymes
Génétique moléculaire des populations
III.6. c Le test de Lewontin-Krakauer (1973)
Comparaison de la structure géographique de la diversité à plusieurs locus:
Adaptation locale à un environnement: différentiation de fréquences
alléliques:
FST
Génétique moléculaire des populations
III.6. c Le test de Lewontin-Krakauer (1973)
FST
Base des méthodes de “scan génomique”
Position sur le chromosome 1
+ forte différentiation des fréquences d’allèles aux sites non‐codant qu’aux sites codant et introniques... un effet de leur liaison ?
Génétique moléculaire des populations
III.6. c Le test de Lewontin-Krakauer (1973)
Figure 1 : Valeurs de FST sur des marqueurs dans la région du gène LCT (Bersaglieri et al. 2004)
Polymorphisme C/T
Distance (en milliers de paire de
bases) relative au gène LCT
Gène
LCT
NB. : Les percentiles sont fondés sur le calcul suivant : plus de 20 000 marqueurs génétiques ont été séquencés dans tout
le génome (notamment sur des chromosomes différents de celui porteur du gène LCT) de chacun des individus
échantillonnés. Un percentile de 90% signifie que 90% de ces 20 000 marqueurs ont un Fst inférieur ou égal à la valeur
correspondante (environ 0.2 ici).
Gène de la lactase.
Génétique moléculaire des populations
III.6. d Le rapport KA/ KS
KS : nombre de substitutions synonymes depuis la divergence entre les deux séquences
KA : nombre de substitutions non synonymes depuis la divergence entre les deux séquences
α
α
α
α
α
Modèle JC
α
pS = nombre de différences non-synonymes par site
= dS/LS avec LS: nombre total de sites non-synonymes
LS= n4x dégén. + 1/3 n2xdégén.
pA = nombre de différences non-synonymes par site
= dA/LA avec LA: nombre total de sites non-synonymes
LA= nnon dégén. + 2/3 n2xdégén.
Génétique moléculaire des populations
III.6. d Le rapport KA/ KS
AAA
Lys
Changement synonymes
Changement non-synonymes
AAT
Asn
AGT
Ser
CGT
Arg
AGA
Arg
dN/dS
AGT
Ser
CGC
Arg
CGT
Arg
<1 sous sélection purifiante
=1 si les variations sont neutres
>1 sous sélection positive
AAT
Asn
Quels gènes évoluent
sous l’effet de la sélection ?
Inférences basées sur les trios de gènes homologues
Homme-Chimpanzé-Souris
Quels gènes évoluent sous l’effet de la sélection ?
Objectifs: identifier les genes qui ont subi divergence non neutre depuis
notre ancêtre commun le plus récent
Méthode: 7,645 gènes de chimpanzé comparées à leurs orthologues nonambigus chez l’human et la souris.
Comparaison des Chimpanzés et des humains (ancêtre commun il y a
5.7mya).
Diffèrent à seulement 1.2% de régions codantes du génome
Æindices d’évolution adaptative ?
Orthologues de souris (divergence 75 Mya) permettent de déterminer l’état
ancestral
Homme
A
Chimpanzé
G
Souris
G
Quels gènes évoluent sous l’effet de la sélection ?
Les variations accumulées au sein des différents gènes depuis la séparation hommechimpanzé ont-elles été délétères, neutres, ou advantageuses ?
dN/dS
<1 sous sélection purifiante
=1 si les variations sont neutres
>1 sous sélection positive
Æ1547 gènes ont dN/dS >1 le long de la branche qui mène aux humains et 1534 le long de
la branche qui mène au chimpanzé
3. Comment détecter la sélection naturelle ?
A. Tests basés sur la distribution de fréquences alléliques
Importance de la théorie neutraliste de l’évolution moléculaire
Æ
Un modèle “nul” qui décrit un monde dans lequel la sélection naturelle ne joue aucun rôle Æ La diversité génétique n’est affectée que par la dérive, la mutation, la recombinaison et la migration.
1.
2.
Prédire grâce au modèle neutraliste (“nul”) ce qu’on devrait attendre (diversité, nombre d’allèles, distribution de fréquences alléliques) et tester l’ajustement du modèle à nos données
Comparer la vraisemblance d’un modèle qui ignore la sélection naturelle à la vraisemblance d’un modèle qui l’intègre: l’amélioration permet‐elle de significativement mieux décrire nos données ? Dynamique de remplacement des allèles neutres dans une population
échantillon
1
fréquence
allélique
NEUTRE
0
temps
Mutations (points noirs) se produisent à un taux 2N.μ
N: taille efficace de la population
μ: taux de mutation
Sous l’hypothèse de neutralité, chaque nouvelle mutation se fixe avec une probabilité 1/2N
Il en résulte un taux de substitution neutre de 2N.μ / 2N = μ (points rouges)
A l’équilibre mutation-dérive, la quantité de polymorphisme dans la population est
déterminée par le produit N.μ, généralement mesuré par θ = 4N.μ
Dynamique de remplacement des allèles dans une population
en présence de sélection négative
1
fréquence
allélique
NEUTRE
0
1
fréquence
allélique
SELECTION
NEGATIVE
0
temps
La sélection négative cause :
- un plus faible taux de substitution
- moins de polymorphisme
- des fréquences d’allèles minoritaires plus faibles
Dynamique de remplacement des allèles dans une population
en présence de sélection positive (récurrente)
1
fréquence
allélique
NEUTRE
0
1
fréquence
allélique
SELECTION
POSITIVE
0
La selection positive récurrente cause :
- un plus fort taux de substitution
- plus de polymorphisme
- des fréquences d’allèles alternatifs plus élevées
D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987
Comparaison des niveaux de variation intra‐ et inter‐spécifique pour le gène d’intérêt et pour un autre locus supposé neutre
Hypothèse nulle : en l’absence de selection, les locus montrant le plus de variation intra‐
spécifique sont ceux qui montrent le plus de variation inter‐spécifique: la diversité est générée par la mutation uniquement Locus B
Locus A
Espèce focale
Groupe
externe
Espèce focale
Groupe
externe
ÆLa sélection a influencé le polymorphisme à l’un des deux locus.
Le polymorphisme réduit du locus B ne peut pas être expliqué par :
- taille de pop réduite
- un faible taux de mutation
(car le locus A a beaucoup de polymorphisme)
(car la distance au groupe externe serait alors réduite)
3. Comment détecter la sélection naturelle ?
D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987
Correlation de la variation intra et inter‐spécifique
Inter-espèces
Adh
locus neutre
Locus neutres
Gène soumis à sélection
(Adh)
Intra-espèces
Intra
34
30
Inter
43
77
Ratio
0.8
0.4
Æ “Trop” de polymorphisme
au sein des espèces
pour la divergence observée !
3. Comment détecter la sélection naturelle ?
D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987
Variation de fréquence de l’allèle Fast au locus de l’Alcool dehydrogenase
Localité Latitude
ME
VT
MA
CT
NJ
MD
NC
FL1
FL2
FL3
44.36
43.47
42.30
41.34
40.21
39.00
35.46
30.20
27.28
25.27
Frequence de l’
Adh-F allele
55%
55%
58%
60%
63%
66%
70%
82%
88%
90%
3. Comment détecter la sélection naturelle ?
D. Tests basés sur l’hétérogénéité entre plusieurs locus Test HKA : Hudson, Kreitman and Aguadé 1987
Fréquence Adh-F
1.0
0.9
0.8
0.7
0.6
0.5
20
30
40
Latitude
50
3. Comment détecter la sélection naturelle ?
D. Tests basés sur l’hétérogénéité entre plusieurs locus Test Lewontin‐Krakauer (1973)
Comparaison de la structure géographique de la diversité à plusieurs locus: Adaptation locale à un environnement: différentiation de fréquences
alléliques: FST
3. Comment détecter la sélection naturelle ?
D. Tests basés sur l’hétérogénéité entre plusieurs locus Test Lewontin‐Krakauer (1973)
FST
Base des méthodes de “scan génomique”
Position sur le chromosome 1
+ forte différentiation des fréquences d’allèles aux sites non‐codant qu’aux sites codant et introniques... un effet de leur liaison ?
3. Comment détecter la sélection naturelle ?
D. Tests basés sur l’hétérogénéité entre plusieurs locus Figure 1 : Valeurs de FST sur des marqueurs dans la région du gène LCT (Bersaglieri et al. 2004)
Polymorphisme C/T
Distance (en milliers de paire de bases) relative au gène LCT
Gène LCT
NB. : Les percentiles sont fondés sur le calcul suivant : plus de 20 000 marqueurs génétiques ont été séquencés dans tout le génome (notamment sur des chromosomes différents de celui porteur du gène LCT) de chacun des individus échantillonnés. Un percentile de 90% signifie que 90% de ces 20 000 marqueurs ont un Fst inférieur ou égal à la valeur correspondante (environ 0.2 ici).
Gène de la lactase.
3. Comment détecter la sélection naturelle ?
E. Tests basés sur le polymorphisme des régions liées
Effet de la sélection naturelle sur la diversité de région génomique liée à un gène de résistance à la pyrimethamine Polymorphisme de la région flanquant le locus dhfr
Nair et al. 2003
Polymorphisme de la région flanquant les allèles “résistants” (noir) et les allèles “sensibles” (gris)
Pearce et al. 2005
3. Comment détecter de la sélection naturelle ?
F. Comparaison des taux de substitution
Dégénérescence du code génétique universel
3. Comment détecter de la sélection naturelle ?
F. Comparaison des taux de substitution
Substitutions synonymes:
Sequence 1:
Sequence 2:
Acide-aminé:
UUU
UUU
Phe
CAU
CAC
His
CGU
CGU
Arg
CAU
CAG
His
CGU
CGU
Arg
Substitutions non-synonymes:
Sequence 1:
Sequence 2:
Acide-aminé:
UUU
UUU
Phe
Gln
3. Comment détecter de la sélection naturelle ?
F. Comparaison des taux de substitution
dN Nombre de substitutions non-synonymes
Nombre de sites non-synonymes
dS Nombre de substitutions synonymes
Nombre de sites synonymes
dN/dS > 1 Î Sélection positive
3. Comment détecter de la sélection naturelle ?
F. Comparaison des taux de substitution
AAA
Lys
Changement synonymes
Changement non‐synonymes
AAT
Asn
AGT
Ser
CGT
Arg
AGA
Arg
AGT
Ser
CGC
Arg
CGT
Arg
AAT
Asn
Yang & Bielawski, 2000, TREE
3. Comment détecter la sélection naturelle ?
A. Tests basés sur la distribution de fréquences alléliques
Importance de la théorie neutraliste de l’évolution moléculaire
Æ
Un modèle “nul” qui décrit un monde dans lequel la sélection naturelle ne
joue aucun rôle
Æ La diversité génétique n’est affectée que par la dérive, la mutation, la
recombinaison et la migration.
1.
2.
Prédire grâce au modèle neutraliste (“nul”) ce qu’on devrait attendre
(diversité, nombre d’allèles, distribution de fréquences alléliques) et tester
l’ajustement du modèle à nos données
Comparer la vraisemblance d’un modèle qui ignore la sélection naturelle
à la vraisemblance d’un modèle qui l’intègre: l’amélioration permet-elle
de significativement mieux décrire nos données ?
Dynamique de remplacement des allèles neutres dans une population
échantillon
1
fréquence
allélique
NEUTRE
0
temps
Mutations (points noirs) se produisent à un taux 2N.μ
N: taille efficace de la population
μ: taux de mutation
Sous l’hypothèse de neutralité, chaque nouvelle mutation se fixe avec une probabilité 1/2N
Il en résulte un taux de substitution neutre de 2N.μ / 2N = μ (points rouges)
A l’équilibre mutation-dérive, la quantité de polymorphisme dans la population est
déterminée par le produit N.μ, généralement mesuré par θ = 4N.μ
Dynamique de remplacement des allèles dans une population
en présence de sélection négative
1
fréquence
allélique
NEUTRE
0
1
fréquence
allélique
SELECTION
NEGATIVE
0
temps
La sélection négative cause :
- un plus faible taux de substitution
- moins de polymorphisme
- des fréquences d’allèles minoritaires plus faibles
Dynamique de remplacement des allèles dans une population
en présence de sélection positive (récurrente)
1
fréquence
allélique
NEUTRE
0
1
fréquence
allélique
SELECTION
POSITIVE
0
La selection positive récurrente cause :
- un plus fort taux de substitution
- plus de polymorphisme
- des fréquences d’allèles alternatifs plus élevées
Téléchargement