Génétique moléculaire des populations :

publicité
Génétique moléculaire des
populations :
diversité et évolution des séquences
d’ADN
[email protected]
SN2-108
Calendrier du module
•
•
•
•
•
•
•
•
•
16 Novembre
21 Novembre
23 Novembre
28 Novembre
30 Novembre
04 Decembre
07 Decembre
14 Decembre
13h30
08h00
13h30
08h00
13h30
matin
13h30
13h30
Vincent Castric
Vincent Castric
Vincent Castric
Vincent Castric
Xavier Vekemans
exam M2
D. Meyre
D. Meyre
individus
Que peut-on en dire ?
1
2
3
4
5
6
7
8
9
10
11
Que peut-on en dire ?
- Diversité génétique au sein de cette espèce/population
 comment la quantifier ? comment apparaît-elle ?
- Distribution des allèles entre populations
- Divergence entre allèles
- Divergence entre espèces :
 divergences relatives au sein d’un taxon
 dates de divergence
 Objectifs de la génétique moléculaire des populations:
utiliser les patrons moléculaires de diversité génétique
pour étudier l’évolution des populations / des espèces.
Que nous apprend la diversité des
séquences et leur évolution?
• Retracer les relations historiques entre
espèces et entre populations
– phylogénie et phylogéographie
• Détecter les signatures de la sélection
naturelle
– et en inférer l’importance fonctionnelle de codons,
d’allèles, voire de séquences non-codantes…
• Utiliser la diversité génétique comme outil en
écologie
– Écologie moléculaire : analyse de la migration et
des systèmes de reproduction
Ouvrages de référence
•
•
•
•
Fundamentals of Molecular Evolution. D. Graur & W-H Li, 2000,
481pp. Sinauer Associates, Sunderland, USA
ISBN:0-87893-266-6. Origine de la majorité des illustrations du
cours
Population genetics. A concise guide. Gillespie, 1998, Johns
Hopkins University Press, Baltimore, ISBN 0-8018-5755-4 (33€):
une courte mais dense introduction à la génétique des populations
théorique
Génétique des populations. Hartl, 1994, Flammarion. Très bonne
introduction à la génétique des populations, y compris quelques
éléments d'evolution moléculaire.
Molecular Evolution and Phylogenetics. Nei & Kumar, 2000,
333pp. Oxford University Press, ISBN 0-19-513585-7: excellent
traitement en profondeur des méthodes phylogénétiques actuelles
1. Eléments de génétique des populations
( collaboration X. Vekemans)
• Qu'est-ce que la génétique des
populations?
• Méthodes de détection de la variation
génétique
• Principe de Hardy-Weinberg
• Les forces évolutives
Qu'est-ce que la génétique des populations?
Synthèse entre
1. Application des lois de la
génétique de la transmission
G. Mendel
 caractères à déterminisme simple
2. Application de la théorie de
l'évolution et de la sélection
naturelle:
Charles Darwin
– Évolution biologique
– Évolution par sélection des individus les
plus adaptés
 caractères à distribution continue
(quantitatifs: nbre graines, vigueur mâles )
Qu'est-ce que la génétique des populations?
Les fondements de la génétique des populations :
• Polymorphisme: plusieurs états alléliques distincts en 1
locus
• Variation génétique s'exprime par les fréquences relatives
des différents allèles
• Evolution agit sur des populations d'individus (groupe d'individus
susceptibles de se reproduire entre eux à court terme)
• Evolution se traduit par une variation des fréquences
alléliques dans les populations
• Forces évolutives ≡ processus qui agissent sur les
fréquences alléliques
Méthodes de détection de la variation
génétique
Marqueur génétique = locus variable dont le génotype peut être déduit à
partir d'observations phénotypiques et qui renseigne sur le génotype de
l'individu qui le porte
• Marqueur  bande sur un gel d’électrophorèse (phénotype)
• Variable  différences visibles entre individus = polymorphisme
• Déterminisme mendeléen  marqueur transmis à la descendance;
interprétation allélique
• Locus  on peut localiser sur une carte génomique/chromosomique la
zone d’ADN responsable du marqueur
• Renseignement  individu  témoin du génome de l'individu
• exemples: petit pois lisse/ridé (Mendel); couleur des yeux de drosophile
(Morgan); isoenzymes (Lewontin); marqueurs moléculaires (variants ADN)
L’étude idéale…
Daphnia retrocurva
L’étude idéale…
 La composition
génétique de la
population a varié :
diversité totale et
fréquence des allèles
 Sous l’effet de
quelle(s) force(s) ?
Qu'est-ce que la génétique des populations?
Quatre forces évolutives:
• Mutation
• Migration
• Sélection naturelle
• Dérive génétique
Qu'est-ce que la génétique des populations?
Objectifs de la génétique des populations:
(1) Mesurer variation génétique dans populations
naturelles + décrire patron d'organisation de
variation
(drongo,
Dicrurus paradiseus,
Mayr & Vaurie, 1948)
The Geographic Spread of the CCR5
Delta2 HIV-Resistance Allele
(Novembre et al. 2005)
Qu'est-ce que la génétique des populations?
Objectifs de la génétique des populations:
(1) Mesurer variation génétique dans populations
naturelles + décrire patron d'organisation de
variation
(2) Expliquer origine, maintien et évolution de la
variation génétique par effet des forces évolutives
• J. Gillespie: Grande Obsession des généticiens
pop.: "Quelle force évolutive cause le patron
observé?"
Qu'est-ce que la génétique des populations?
Objectif 1: Mesurer variation génétique
exemple: Estimation des fréquences alléliques
Polymorphisme floral chez les Gueules-de-loup (Antirrhinum majus)
Corolle rouge: RR
Corolle blanche: rr
Corolle rose: Rr
Echantillon de 400 plantes d‘une population:
Rouges, n=165; Roses, n=190; Blanches, n=45
P = fréquence de l'allèle R dans l’échantillon
= (2x165+190)/800 = 0.65
Q = fréquence de l’allèle r dans l’échantillon
= (190+2x45)/800 = 0.35
Vérification: P+Q = 0.65 + 0.35 = 1.00
Qu'est-ce que la génétique des populations?
Objectif 1: Mesurer variation génétique
Fréquences d’allèles
– Nombre d’allèles
– Hétérozygotie: probablilité d’échantillonner deux allèles
différents. OK si reproduction aléatoire
Diversité d’un ensemble de séquences
– Polymorphisme nucléotidique:
Pn=np/nt : proportion des sites polymorphes
– Diversité nucléotidique
π = Probabilité que deux séquences tirées au hasard soient
différentes à un site donné
Mesurer variation génétique
Utilisation des états alléliques seuls
1 : ACTAGTCCGAAATAGGTCAGTGA
2 : ACTAGTCCGTAATAGGTCCGTGT
(a)
(b)
3 : ACTAGTCCGAAATAGGTCAGTGA
4 : ACTGGTCCGAAATAGGTCAGTGA
(a)
(c)
5 : ACTGGTCCGAAATTGGTCAGTGA
6 : ACTGGTCCGAAATTGGTCAGTGA
(d)
(d)
4 allèles en fréquences :
Allele a (séquences 1+3)
Allèle b (séquence 2)
Allèle c (séquence 4)
Allèle d (séquences 5+6)
: 1/3 Hétérozygotie
: 1/6
= 2/3
: 1/6
: 1/3
Mesurer variation génétique
Utilisation de l’information moléculaire
1 : ACTAGTCCGAAATAGGTCAGTGA
2 : ACTAGTCCGTAATAGGTCCGTGT
3 : ACTAGTCCGAAATAGGTCAGTGA
4 : ACTGGTCCGAAATAGGTCAGTGA
5 : ACTGGTCCGAAATTGGTCAGTGA
6 : ACTGGTCCGAAATTGGTCAGTGA
Polymorphisme nucléotidique
= Proportion de sites polymorphes: 5/23 = 0,217
Mesurer variation génétique
Utilisation de l’information moléculaire
1 : ACTAGTCCGAAATAGGTCAGTGA
2 : ACTAGTCCGTAATAGGTCCGTGT
3 : ACTAGTCCGAAATAGGTCAGTGA
4 : ACTGGTCCGAAATAGGTCAGTGA
5 : ACTGGTCCGAAATTGGTCAGTGA
6 : ACTGGTCCGAAATTGGTCAGTGA
Polymorphisme nucléotidique
= Proportion de sites polymorphes: 5/23 = 0,217
Diversité nucléotidique
= Probabilité qu’un site différe
entre 2 séquences :
π = 0,0928
1
2
3
4
5
6
1
2
3
4
0,13
0
0,04
0,09
0,09
0,13
0,17
0,22
0,22
0,04
0,09
0,09
0,04
0,04
5
-
0 -
6
Qu'est-ce que la génétique des populations?
Objectif 2: Expliquer maintien de la variation génétique
exemple: Anémie à cellules falciformes chez l’homme (drépanocytose)
Anomalie génétique quasi-létale
Variant génétique de la chaîne β hémoglobine à expression récessive:
– allèle normal : A;
– allèle muté : S;
– individus atteints : génotype SS.
individu SS
Micrographie électronique
de globules rouges
individu AA ou AS
(tiré de Griffiths et al. 2001)
•
•
Qu'est-ce que la génétique des populations?
Objectif 2: Expliquer maintien de la variation génétique
exple: Anémie à cellules falciformes
Répartition des fréquences de l'allèle S
(tiré de Ridley, 1997)
•
>0.14
<0.02
les zones de forte fréquence de S correspondent avec les régions d'endémisme
de la malaria
Qu'est-ce que la génétique des populations?
Objectif 2: Expliquer maintien de la variation génétique
exemple: Anémie à cellules falciformes
•
Explication:
Les individus hétérozygotes AS résistent mieux à la malaria
(parasite des globules rouges: Plasmodium falciparum) que les
homozygotes AA
 équilibre entre
o sélection en faveur de l'hétérozyg. AS  augmente fréq(S)
o sélection contre l'homozyg. létal SS  diminue fréq(S)
 Est-ce le seul mécanisme expliquant le maintien de la
diversité génétique des populations naturelles ?
Principe de Hardy-Weinberg
• déf. Population : groupe d'individus de la même
espèce vivant dans une aire géographique suffisamment
restreinte pour permettre potentiellement à tout membre
de se reproduire avec tout autre membre du groupe
• Exemples:
– Tous les éléphants d'un parc national donné
– Tous les chênes d'un massif forestier donné (pollen à
large dispersion anémogame)
– Tous les individus d'une espèce de parasite intestinal,
présents chez un seul individu hôte
• Synonymes: population locale, dème, sous-population (->"population" = espèce)
Principe de Hardy-Weinberg
• Hypothèse de panmixie:
– lors de la reproduction, les croisements
s'effectuent au hasard pour les génotypes
considérés
• soit les gamètes s'associent au hasard (pangamie)
• soit les couples se forment au hasard (panmixie)
 probabilité de se croiser avec un individu de
génotype XY = fréquence(génotype XY)
Exple: Lap-1 chez Lillois: 10% FF; 50% FS; 40% SS
Si panmixie, en moyenne une Lilloise, indépendamment de son génotype
Lap-1,
va choisir pour se reproduire (si choisit un partenaire Lillois):
– partenaire FF avec 1 chance sur 10
– partenaire FS avec 1 chance sur 2
– partenaire SS avec 4 chances sur 10
Principe de Hardy-Weinberg
Fréquences alléliques: A (p); a (q = 1-p)
Fréquences génotypiques: AA (P); Aa (Q); aa (R)
(tiré de Hartl, 1994)
H-W: AA→p2
Aa→2pq aa→q2
→ événements répétés
et indépendants!
Principe de Hardy-Weinberg
Dans une population panmictique, et en l’absence de
pression évolutive
1. les fréquences alléliques d’une population
n’évoluent pas
2. on peut prédire les fréquences génotypiques à
partir des fréquences alléliques de la population
AA → p2
Aa→2pq
aa→q2
Principe de Hardy-Weinberg
• Implications du principe de Hardy-Weinberg:
– Une seule génération de panmixie suffit pour atteindre
les fréquences génotypiques de Hardy-Weinberg
– Selon les hypothèses du modèle de Hardy-Weinberg, les
fréquences alléliques restent constantes  absence
d'évolution au locus considéré  maintien du
polymorphisme génétique
fréq.(A) = P'+Q'/2 = p2+2pq/2 = p(p+q) = p
Principe de Hardy-Weinberg
• Vérification de l'hypothèse panmictique dans les
populations d’anguille américaine:
N obs.
MM
MN
NN
1787
3039
1303
Principe de Hardy-Weinberg
• Vérification de l'hypothèse panmictique dans les
populations d’anguille américaine:
MM
MN
NN
total
Fréq. M
Fréq. N
N obs.
1787
3039
1303
6129
0.54
0.46
Fr. H-W
0.292
0.497
0.211
N H-W
1787
3044
1297
 hypothèse panmictique
remarquablement
adaptée!
Principe de Hardy-Weinberg
• Hypothèses du modèle de population de HardyWeinberg
–
–
–
–
–
–
–
–
–
–
organisme diploïde
reproduction sexuée
générations non chevauchantes
locus considéré possède 2 allèles
fréquences alléliques identiques chez les individus mâles et
femelles
panmixie p/r locus considéré
population de très grande taille (∞)
migration entre pop. négligeable
mutation négligeable
sélection naturelle n'agit pas au locus considéré
Principe de Hardy-Weinberg
Arabidopsis thaliana
Analyse d’une population naturelle:
AA: 50
AB: 2
BB: 80
Qu’en déduisez-vous ?
Quelles expériences proposez-vous pour
quantifier ce phénomène ?
Principe de Hardy-Weinberg
L’utilisation la plus fréquente : sous la forme d’un test
d’hypothèses
- L’espèce se reproduit-elle par auto-fécondation ?
 En quelles proportions ?
- Les croisements sont-ils aléatoires ?
- La population est-elle subdivisée en sous-populations ?
 quelle est l’intensité de cette structure ?
- Le locus est-il soumis à la sélection naturelle ?
Sous quelle forme ?
Les forces évolutives
• Mutation : l’origine ultime du
polymorphisme génétique
• dérive génétique
• sélection naturelle
• migration
Origine du polymorphisme de l’ADN
Polymorphisme chromosomiques :
Remaniements
-
Fusions
Inversions
Fusions robertsoniennes
Origine du polymorphisme de l’ADN
Polymorphisme chromosomique
Drosophila :
•
341 inversions paracentriques et 18 inversions péricentriques connues dans les
populations naturelles de Drosophila melanogaster.
•
4 inversions sont abondantes dans pratiquement toutes les populations de l'espèce
•
6 sont présentes dans toutes les pops mais à fréquences faibles
•
Toutes les autres et c'est la grande majorité= inversions endémiques uniques,
trouvées une seule fois, le plus souvent chez un seul individu (Lemeunier et Aulard
in Krimbas et Powell 1992 Drosophila Inversion Polymorphism CRC Press).
Des espèces proches peuvent cependant montrer de fortes différences de fréquence
des remaniements: particulièrement nombreuses chez D. melanogaster, mais à peu
près inexistantes chez son espèce jumelle D. simulans.
Origine du polymorphisme de l’ADN
Polymorphisme chromosomique
•
Chez les espèces de drosophiles, la plupart n’impliquent pas le centromère
(paracentriques + fréquentes que péricentriques =très rares) ;
•
Criquets montrent fréquemment des chromosomes surnuméraires;
•
Souris (Mus musculus) et les Musaraignes (Sorex araneus) ont accumulé des
fusions centriques.
Peuvent/ou pas etre asssociées à des phénotypes anormaux
Fusion de gènes en orientation directe ou inversée
Délétions,
Décalages du cadre de lecture
Il existe chez l’homme des exemples de chacun de ces cas.
 des événements majeurs, mais fréquents et qui évoluent rapidement
Origine du polymorphisme de l’ADN
Séquences répétées en tandem
Minisatellites
– Souvent un motif central “GGGCAGGANG”, homologue de
la séquence signal de la recombinaison chez E. coli
– Abondants dans les régions télomériques (TTAGGG répété
sur 10-15kb / homme et sur 30kb chez la souris)
• Nb de répétitions
• Séquence de chacune des
répétitions
Origine du polymorphisme de l’ADN
Séquences répétées en tandem
Microsatellites
•Aucune fonction identifiée
•Mais lien avec certaines maladies
humaines si dépasse un seuil de
longueur (ex. syndrome de l’X
fragile)
Origine du polymorphisme de l’ADN
Séquences répétées en tandem
Microsatellites
Origine du polymorphisme de l’ADN
Mutations ponctuelles
Chez l’homme, un individu non consanguin présente une base
hétérozygote tous les 200 à 1000 nucléotides
Transversions
Transitions
•
Pyrimidines
Purines
Origine du polymorphisme de l’ADN
Mutations ponctuelles
Deux types de mutations
Des conséquences variées
Base
Proba synonyme
Ti syn
Tv syn
1
5
2
0
3
72
90
30
Origine du polymorphisme de l’ADN
Mutations ponctuelles
Comparaison des pseudogènes homme / chimpanzée
Nachman & Crowell Genetics 2000
• Ici, fin premier cours
Origine du polymorphisme de l’ADN
Les mécanismes de mutations
• Un mécanisme possible pour les délétions et duplications:
recombinaisons 'illégitimes' entre séquences très
semblables mais non homologues.
• --> mésappariements --> crossing-over inégaux
• A l’origine des familles de gènes ?
• Importance des éléments Alu ? (très homologues et 1 tous
les 4 kb / homme)
Recombinaison inégale et
délétion/fusion. Les gènes dupliqués
en tandem de la stéroïde 21hydroxylase (21A et 21B) et du
complément (C4A et C4B) dans le
domaine des classes III du complexe
HLA, 21A et 21B ne diffèrent que par
88 nucléotides sur les 3400 que
comporte la séquence. La
recombinaison inégale conduit à la
formation de gamètes porteurs soit
d'une délétion, soit d'une duplication.
(Cooper et al. 1995)
Indels
• Crossing over inégal
deletion
addition
Origine du polymorphisme de l’ADN
Conversion génique
• La conversion génique = transfert non-réciproque
d’information génétique.
• Meme phénomène moléculaire que les crossing-over:
la recombinaison
Modèle d’Holliday
Origine du polymorphisme de l’ADN
Conversion génique
•
•
•
La conversion génique = transfert non-réciproque d’information
génétique.
Peut impliquer des séquences alléliques ou non alléliques (interlocus) et peut etre asymétrique et polarisée
Environ 10 fois + fréquent au sein d’un meme chromosome
qu’entre deux chromosomes
Origine du polymorphisme de l’ADN
•
Insertion de séquences mobiles (transposons) ou virales
Origine du polymorphisme de l’ADN
•
•
•
•
•
Insertion de séquences mobiles (transposons) ou virales
Transposition= mouvement de portions d’ADN dans le genome,
souvent associé à l’augmentation du nb de copies
Les portions d’ADN capables de mouvement = transposons,
éléments transposables, ou “genes sautant”.
Aucune fonction connue
: ADN égoiste, car exploite la
machinerie génétique de la cellule.
Ces séquences codent en général pour au moins un gène,
l’enzyme transposase. Les extrémités des transposons
consistent en répétitions terminales auxquelles la transposase
se lie. La transposase se lie également aux cibles d’insertion
dans le génome. Selon le type de transposon, il est alors soit
copié-inséré, soit coupé-inséré. Certains transposons possèdent
les enzymes pour leur propre copie, mais beaucoup utilisent
pour cela la machinerie cellulaire.
Origine du polymorphisme de l’ADN
Trois types de transposons fréquents :
Smit 1996 Curr Op Genet Dev
Origine du polymorphisme de l’ADN
Mutations ponctuelles
- Modifications chimiques
spontanées (surtout hydrolyses)
-dépurinations spontanées, dues à
la labilité de la liaison Nglycosidique reliant les bases
puriques au squelette de
polydésoxyribosephosphate.
= événements très fréquents, 5000
bases puriques étant perdues
chaque jour par chaque cellule
humaine
Origine du polymorphisme de l’ADN
Mutations ponctuelles
- Modifications chimiques spontanées (surtout
hydrolyses)
- dépurinations spontanées,
- transitions tautomériques ( -NH2 → =NH ou C=0 → =C-OH)
= fréquence d'environ 100 bases par jour et par cellule chez
l’homme pour C → U;
- Exposition à des mutagènes
-endogènes (radicaux libres)
-exogènes (rayonnement UV)
formation de liaisons covalentes entre deux pyrimidines
voisines (CC, CT ou TT) sur le même brin d'ADN.
Origine du polymorphisme de l’ADN
Mutations ponctuelles
Mutations ponctuelles
En général erreurs corrigées par le système de
réparation
Sauf désamination d'une cytosine méthylée.
Origine du polymorphisme de l’ADN
Mutations ponctuelles
Mutations ponctuelles
En général erreurs corrigées par le système de
réparation
Sauf désamination d'une cytosine méthylée.
En effet, dans ce cas, le produit formé (5-méthyle uracile)
correspond à la thymine, non reconnue comme élément étranger à
l'ADN et de ce fait non réparée. La transition accidentelle C→T est
donc généralement fixée. Les régions riches en cytosines
méthylées, en particulier les doublets CG, sont donc des sites
vulnérables et constituent des points chauds (Hot-spots) de mutation
Origine du polymorphisme de l’ADN
Microsatellites
Glissement
de la
polymérase
In vitro
aussi…
Origine du polymorphisme de l’ADN
Microsatellites
li an
B
La mutation,
source ultime de la diversité.
li an
B
La mutation,
source ultime de la diversité.
• Mutation = source ultime de variation génétique :
Mutation = changement héréditaire dans le matériel génétique
– changements dans la séquence nucléotidique: mutations ponctuelles,
indels (insertions ou délétions d'une ou plusieurs paires de bases)
– réarrangements chromosomiques: inversions, transpositions,
polyploïdisations,...
•
•
Evènement évolutif rare pour un gène donné: 10-4 à 10-6 nouvelles
mutations par gène et par génération (u = taux de mutation)
Force évolutive importante:
– nombre de mutations/gén. = 2 N u  non négligeable si grande
population ou si nombre de gènes dans génome est important: 30.000
gènes chez homme  si u=10-4, nombre mutations/gamète = 3  en
moyenne chaque nouveau-né possède 6 nouvelles mutations p/r
parents
– Par génération humaine: 36 milliards de nouvelles mutations
Les forces évolutives
• mutation
• dérive génétique: processus évolutif de
fluctuations aléatoires des fréquences alléliques
résultant d'un échantillonnage aléatoire parmi les
gamètes
– processus important dans les petites populations
– force évolutive car changement des fréquences
alléliques
• sélection naturelle
• migration
Dérive génétique:
échantillonage aléatoire des gamètes
Génération parentale
P=0,5
Pool des gamètes
Les fréquences alléliques
dans le pool des gamètes
sont identiques à celles
de la génération parentale
Nouvelle génération
Formée par tirage au
hasard d’un échantillon
de 10 gamètes
P=0,4
P=0,2
Dérive génétique:
échantillonage aléatoire des gamètes
Effet de la dérive génétique sur le devenir d'un allèle neutre
• Dérive génétique = fluctuation aléatoire des fréquences
alléliques  fixation aléatoire d'un allèle présent initialement
Fréquence allélique
Fixation
1.0
0.8
0.6
N = 10
0.4
0.2
0.0
0
10
20
Génération
30
40
Dérive génétique:
échantillonage aléatoire des gamètes
• Influence de la taille de la population sur dérive
génétique
2N = 100
Fréq.alléliq.
2N = 18
Générations
Générations
 Fluctuations aléatoires plus importantes si N
(tiré de Hartl & Clark, 1997)
Dérive génétique:
107 pops
identiques
p=q=0,5
Toutes
mouches
bw75/bw75
Toutes
mouches
bw/bw
From Hartl and Clark (1997)
Principles of Population
Genetics
Sinauer Press
Original data from Buri (1956)
Dérive génétique:
échantillonage aléatoire des gamètes
Temps de fixation et d'élimination par dérive génétique
d'un allèle neutre
Fréquences alléliques
• Si allèle sélectivement neutre  devenir est
déterminé par la dérive génétique  dépend de N et
de sa fréquence actuelle
fixation d'un
alllèle mutant
élimination d'un
alllèle mutant
0
Temps
Interaction entre deux forces évolutives :
mutation - dérive
• Devenir d'une nouvelle mutation:
Fréquences alléliques
– fréquence initiale = 1/2N
– si population de taille constante finie et absence de sélection
 la nouvelle mutation va finir soit par être éliminée de la
population, soit par se substituer à l'allèle sauvage (fixation de
l'allèle mutant) à cause d'effets stochastiques (= dérive
génique)
fixation d'un
alllèle mutant
élimination d'un
alllèle mutant
0
Temps
Interaction entre deux forces évolutives :
mutation - dérive
• Effet de la dérive génétique sur une nouvelle mutation:
(tiré de Hartl & Clark, 1997)
2N copies de
gènes = pop.
parentale
∞ copies de
gènes = pool
gamètes
αi
αj≠αi
Prob. = 1/2N Prob. = 1-(1/2N)
formation des N
zygotes
par tirage
aléatoire de 2N
gamètes
Interaction entre deux forces évolutives :
mutation - dérive
• Effet de la dérive génétique sur une nouvelle
mutation:
– Pour chaque gamète tiré:
• Probabilité (nouvel allèle mutant) : 1/2N
• Probabilité (autre allèle)
: 1-(1/2N)
– Pour l'ensemble des 2N gamètes tirés :
• Probabilité qu’un nouvel allèle mutant ne soit jamais tiré (éliminé):
[1-(1/2N)]2N ≈ 1/e = 0.368 (indépendant de N!)
 forte probabilité de perdre le nouvel allèle mutant après 1 générat°
• ∃ possibilité que nouvel allèle mutant ne soit jamais
éliminé, même après de nombreuses générations (fixation):
– Probabilité de fixation de l'allèle mutant: 1/2N
– en effet…
Interaction entre deux forces évolutives :
mutation - dérive
• Effet de la dérive génétique sur une nouvelle mutation:
Fixation
(tiré de Hartl & Clark, 1997)
Elimination
Interaction entre deux forces évolutives :
mutation - dérive
– La fixation ultime d'un nouvel allèle mutant correspond à
l'extinction de toutes les lignées généalogiques ne portant pas
initialement cet allèle mutant : « coalescence des lignées »
(tiré de Hartl & Clark, 1997)
allèle mutant en 1 exemplaire
Probabilité que ce soit
la lignée généalogique
de l'allèle mutant qui se
fixe = 1/nbre ancêtres
= 1/2N
fixation de l'allèle mutant
Interaction entre deux forces évolutives :
mutation - dérive
• Devenir d'une mutation :
– Hypothèse fondamentale de la dérivation présentée: les
mutations envisagées sont sélectivement neutres (seule la
dérive génétique agit en plus de la mutation)
– Théorie neutraliste de l'évolution (Kimura 1968): fait
l'hypothèse qu'une grande majorité des polymorphismes
génétiques résulte de l'évolution par dérive génétique
d'allèles mutants sélectivement neutres
• exple: ADN non codant; 3ème position des codons (mutations
synonymes); remplacement d'acides aminés hors du site
actif d'un enzyme
– Mutations non neutres: dynamique éventuellement fort
différente
Interaction entre deux forces évolutives :
mutation - dérive
• Dans une population de Wright-Fisher, on
connaît la dynamique des substitutions neutres.
• Cette dynamique nous renseigne sur:
Fréquences alléliques
• La divergence entre espèces
• Le polymorphisme au sein d’une espèce
Temps
Théorie neutraliste
de l’évolution moléculaire
Permet de prédire le devenir des mutations
Théorie neutraliste
de l’évolution moléculaire
Théorie neutraliste
de l’évolution moléculaire
Dérive génétique
Dérive génétique
+ Selection
Frequence allélique
1
avantageuse
désavantageuse
0
Théorie neutraliste
de l’évolution moléculaire
Intéressons-nous à un seul site nucleotidique dans le génome
TTA
p = 1.0
temps
TTA
p = 0.6
TCA
q = 0.4
TCA
p = 1.0
Est-ce que ceci est évolutivement intéressant ?
Et cà ?
Théorie neutraliste
de l’évolution moléculaire
 Importance du processus de substitution
temps
Est-ce que ceci est évolutivement intéressant ?
Et cà ?
Théorie neutraliste
de l’évolution moléculaire
Théorie neutraliste
de l’évolution moléculaire
Motoo Kimura, 1968
•La plus grande partie du polymorphisme aujourd’hui
observé est sélectivement neutre.
•La majorité des changements évolutifs sont causés
par la dérive génétique d’allèles sélectivement
neutres ou presque neutres.
!! Ne nie pas
l’importance de la
sélection au cours
de l’évolution !!
Théorie neutraliste
de l’évolution moléculaire
• Une nouvelle mutation est soumise à
– La sélection positive (=sélection adaptative), si elle confère
un avantage en terme de valeur sélective (fitness) de
l’organisme qui l’exprime
– La sélection négative (=sélection purifiante) si elle diminue la
valeur sélective
– Aucune forme de sélection si elle n’est ni avantageuse ni
désavantageuse (“invisible” pour la sélection).
Un allèle avantageux
Gène de résistance à l’atrazine chez la morelle noire
Un allèle délétère
Gène BRCA2
• 5% des cancers du sein sont familiaux
• Des mutations de BRCA2 sont responsables
de 20% des cas de cancers du sein familiaux
Allele “normal”
Allèle délétère
(dans 440 familles de Montréal)
Codon stop
Délétion de 4 paires de bases
 décalage du cadre de lecture
Un allèle neutre
Répartition mondiale de l’allèle B du groupe sanguin ABO
Théorie neutraliste
de l’évolution moléculaire
… et les mutations avantageuses?
• Importance relative à l’échelle du génome des mutations
neutres / délétères / avantageuses :
= un débat qui n’est pas clos.
• Des données commencent à s’accumuler avec les
données de génomique: comparaison polymorphisme
vs. divergence
Théorie neutraliste
de l’évolution moléculaire
• Une mutation est “effectivement” neutre lorsque son devenir
est quasi exclusivement déterminé par la dérive, non par la
sélection naturelle
• Dans une petite population, une mutation à faible effet est
fortement influencée par la sélection
• L’efficacité de la sélection dépend de la taille de la
population, et une mutation est “effectivement” neutre lorsque :
1
s≤
2N e
(Tomoko Ohta)
Théorie neutraliste
de l’évolution moléculaire
•
•
•
•
•
•
µ = taux de mutations neutres par allèle
Probabilité de fixation d’une mutation neutre = sa fréquence
Taille de population = N
Fréquence d’un nouvel allèle = 1/2N
2Nµ = nombre de nouvelles mutations dans une pop de taille N
Taux d’évolution neutre = taux de mutation x probabilité de fixation
d’une mutation
= 2Nµ x 1/2N
=µ
 Sous la théorie neutraliste de l’évolution moléculaire,
le taux de substitution est égal au taux de mutation !
L’horloge moléculaire
 Concept d’horloge moléculaire
# differences
• Taux de substitution = taux de mutation
temps
• Le nombre de changements est proportionnel
au temps
 permet d’utiliser le nb de changements pour
estimer la divergence relative des gènes ou
des espèces
L’horloge moléculaire
•
L’horloge moléculaire
Predictions de la theorie
• Evolution + rapide des pseudogenes
que des gènes
• Évolution + rapide aux sites synonymes
que non-synonymes
L’horloge moléculaire
Predictions de la theorie
 Les substitutions
synonymous
s’accumulent plus
rapidement que les
substitutions nonsynonymous
Evolution du virus de la
grippe depuis 20 ans
L’horloge moléculaire
Comment tester l’hypothèse de l’horloge
moléculaire ?
 suivre l’acccumulation des substitutions…
 ou: test des taux relatifs
humain
souris
poulet
dpoulet-humain = dpoulet-souris ?
L’horloge moléculaire
Quelques exceptions spectaculaires…
Genre Plantago
Cho et al. 2004
Taux d’évolution
G A T T A C A
*
G A T c A C A
*
G A T C A g A
Dans ce qui suit:
Pas d’indels
Pas d’insertion d’éléments
mobiles
Pas de translocations
Pas de duplications
RIEN QUE DES
SUBSTITUTIONS
PONCTUELLES
Substitutions
par site
Taux d’évolution
* *
* *
*
*
**
*
*
Mouse
Human
Sauf modèle biologique exceptionnel, le processus de
substitution ne peut pas être observé directement (nous ne
vivons pas assez longtemps).
il doit être inféré par comparaison de séquences existantes !
Taux d’évolution
Ancêtre
Hum
G A T T A C A
*
G A A T A C A
*
G A T T A C A
G A A T A G A
*
G A T T A C A
*
G A G T A G A
G A T T A T A Souris
Taux d’évolution
Ancêtre
G A T T A C A
*
G A A T A C A
*
Hum
Difficilement
observable…
G A T T A C A
G A A T A G A
*
G A T T A C A
*
G A G T A G A
G A T T A T A Souris
G A G T A G A
G A T T A T A
Taux d’évolution
Ancêtre
G A T T A C A
*
G A A T A C A
*
Hum
Difficilement
observable…
G A T T A C A
G A A T A G A
*
G A T T A C A
*
G A G T A G A
G A T T A T A Souris
Combien de substitutions ?
G A G T A G A
G A T T A T A Combien de différences comptez-vous ?
Taux d’évolution
Humain
Babouin
GATTACATAG CATGAGACGT TAGCCGATTAG CGACTAAGCT GCAGTGATGC
GATTACATAG CATGACACGT TAGCCGATTAG CGACTTAGCT GCAGTGATGC
fraction de nucléotides différents = 2/50
Humain
Souris
GATTACATCA CATGCGACGC TACCCGATTAG CGACTAAACT ACAGTGAGGC
GACTGCATTG CACGACATAT TATCCAATCAG CTACTTAGCT GCGGCGAAGC
fraction de nucléotides différents = 20/50
La divergence homme/babouin est-elle 10 fois + récente que
homme /souris ?
Modèles d’évolution
des séquences d’ADN
Nombre de differences
Attendu
(Horloge moléculaire)
Observé
temps
Accumulation de la variation au
cours du temps
La population
humaine :
105-106 ans
Une famille humaine:
100 ans …
singes:
107 ans
Mammifères:
108 ans
Eukaryotes:
109 ans
• Fin du cours 2.
Modèles d’évolution
des séquences d’ADN
• Le modèle de Jukes & Cantor à un paramètre
= le modèle le plus simple
• Toutes les substitutions se produisent avec
une même probabilité
• Un seul paramètre :
α = le taux de changement d’un nucléotide
en un autre
• r = taux de changement d’un nucleotide en
n’importe quel autre = 3α
Modèles d’évolution
des séquences d’ADN
Modèle de Jukes & Cantor
α
A
purines
α
α
pyrimidines
C
G
α
α
α
T
Modèles d’évolution
des séquences d’ADN
Modèle de Jukes & Cantor
• Soit qt= proportion de nucléotides identiques entre 2 séquences
• Deux sites sont identiques à la génération t+1 si:
– ils étaient identiques et le sont restés: qt . (1-r)2
– ils étaient différents et sont devenus identiques:
• i a muté en j et j est resté identique :
– α . (1-3α) = r/3.(1-r)
• j a muté en i et i est resté identique
– α . (1-3α) = r/3.(1-r)
qt+1= (1-r)2.qt + 2*r/3.(1-r).(1-qt)
En négligeant les termes en r2 :
qt+1= (1-2r).qt + 2*r/3.(1-qt)
qt+1-qt= 2r/3 - 8r/3.qt
Modèles d’évolution
des séquences d’ADN
Modèle de Jukes & Cantor
qt+1-qt
= 2r/3 - 8r/3.qt
dq/dt
= 2r/3 - 8r/3.q
• En intégrant sur q et considérant q=1 à
t=0, on obtient:
qt = 1-3/4.(1-e-8rt/3)
Modèles d’évolution
des séquences d’ADN
Modèle de Jukes & Cantor
• K = nombre moyen de substitutions par site
• r = nombre de substitutions par site et par an
• t = temps depuis divergence
Sequence
Ancestrale
t
Sequence 1
t
K = 2t.r
Sequence 2
q= 1-3/4.(1-e-8rt/3)
1-p= 1-3/4.(1-e-4K/3)
… donc
K= -3/4.ln(1-4p/3)
Modèles d’évolution
des séquences d’ADN
Pourquoi faut-il des modèles d’évolution ?
•
Des sequences aléatoires et équilibrées (f[A,C,G,T] = 25%) sont identiques
à 25 % !
•
Le nombre de différence
– Permet d’estimer le spectre des substitutions si chaque différence peut
être assimilée à un seul événement
– Mais… n’est un bon estimateur que pour des séquences très proches
•
Plus deux séquences sont différentes
– Plus il est important de corriger le nombre de différences
•
Plus généralement, + il y a eu d’évolution entre deux séquences
homologues, plus il est important d’utiliser un modèle d’évolution réaliste
pour des inférences (estimation des taux, construction d’arbres…)
Modèles d’évolution
des séquences d’ADN
Modèle de Kimura à deux paramètres
• Un modèle plus réaliste : deux types de nucleotides
– Purine: A, G
– Pyrimidine: C, T
• Une purine est plus fréquemment remplacée par une
autre purine que par une pyrimidine (et inversement)
• Transitions : remplacements “à l’identique”
• Transversions: remplacement purine par pyrimidine,
ou vice versa
Modèles d’évolution
des séquences d’ADN
Modèle de Kimura à deux paramètres
α
purines
A
• Transition
= taux α
• Transversion β
= taux β
pyrimidines
β
G
β
C
β
T
α
Modèles d’évolution
des séquences d’ADN
DJC = -3/4 ln(1 - 4p/3)
Pour p = 0.04, DJC = 0.041
Pour p = 0.40, DJC = 0.572
DK2 = ln(1/(1-2pts-ptv))/2 + ln(1/(1-2ptv))/4
Pour pts = 0.3 et ptv = 0.1, DK2 = 0.602+0.056 = 0.658
Modèles d’évolution
des séquences d’ADN
Nombre de differences
Attendu
(Horloge moléculaire)
Observé
temps
Modèles d’évolution
des séquences d’ADN
Biais transition/transversion
Pseudogène
Gène mitochondrial
Modèles d’évolution
des séquences d’ADN
Modèles d’évolution
des séquences d’ADN
Violations des hypothèses des modèles
• Les taux de substitution ne sont pas le
mêmes pour tous les gènes, tous les
nucléotides, toutes les espèces
• Certains sites ne sont pas independants
– Des sites en interaction peuvent
nécessiter des mutations complémentaires
(p.e., dans une structure en épingle à
cheveux, SCR vs. SRK)
Modèles d’évolution
des séquences d’ADN
Violations des hypothèses des modèles
• Des données montrent que les patrons et les
taux de substitution nucléotidiques varient en
fonction de
– Voisinage nucléotidique (Hwang PNAS 2004)
– Au fil du temps (accélération-décélération)
(Plantago)
– Environnement (heteroclitus)
– Sexe
– Temps de génération
– Taux métabolique
Modèles d’évolution
des séquences d’ADN
Violations des hypothèses des modèles
Mécanisme biochimique pour le fort taux
d’évolution des dinucleotides CpG
• Sites particuliers avec un fort taux de mutation
• CpG = C suivi de G dans la direction 5’ – 3’
• Ce dinucleotide est particulièrement susceptible à la
méthylation du C
• Ce C méthylé est facilement désaminé en T
• Il en résulte un mismatch TG
• Qui peut être corrigé en CG… ou en TA (une fois sur
deux)
Modèles d’évolution
des séquences d’ADN
Violations des hypothèses des modèles
Le cas particulier des espèces proches
• Normalement, on assimile à t le temps de
divergence de deux espèces
• Mais ce qu’on veut réellement est le temps de
divergence entre deux séquences
• Généralement, ces deux quantités sont les
mêmes, mais…
• Chez des espèces proches, on s’intéresse
peut-être à des allèles qui étaient présents
chez l’ancêtre commun (ou avant…)
Ancêtre commun des sequences
Espèce ancestrale
Allele A
Allele B
speciation
Temps
Humain
Gorille
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
Phe
Leu
Leu
Ile
UUU
Ser
UCU
Tyr
UAU
Cys
UUC
UCC
UUA
UCA
ter
UAA
ter
UGA
UUG
UCG
ter
UAG
Trp
UGG
CCU
His
CAU
Arg
CGU
CUU
Pro
CUC
CCC
CUA
CCA
CUG
CCG
AUU
Thr
ACU
AUC
ACC
AUA
ACA
Met
AUG
ACG
Val
GUU
Ala
GCU
GUC
GCC
GUA
GCA
GUG
GCG
UAC
UGU
Gln
Asn
UGC
CAC
CGC
CAA
CGA
CAG
CGG
AAU
Ser
AAC
Lys
AAA
AGC
Arg
AAG
Asp
Glu
GAU
AGU
AGA
AGG
Gly
GGU
GAC
GGC
GAA
GGA
GAG
GGG
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
• Certaines substitutions en a.a. nécessitent +
de substitutions nucléotidiques que
d’autres…
• Ile  Thr : au moins un changement ADN
• AUU  ACU
• AUC  ACC
• AUA  ACA
• Ile  Cys: au moins deux changements ADN
• AUU (Ile)  AGU (Ser)  UGU (Cys)
• AUU (Ile)  UUU (Phe)  UGU (Cys)
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
• En général, les taux de substitutions
sont bas aux sites non-dégénérés (0.78
x 10-9 substitutions par site par année)
• Intermédiaires aux sites deux fois
dégénérés (2.24 x 10-9 sub.site-1.an-1)
• Elevés aux sites quatre fois dégénérés
(3.71 x 10-9 sub.site-1.an-1)
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
Propriétés biochimiques des a.a.
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
Propriétés biochimiques des a.a. : histone 4
• Une protéine fortement conservée
• Comparaison genes H4 humain - blé
• 55 differences ADN
• 2 differences acides aminés
• Val  Ile
• Lys  Arg
(tous deux aliphatiques)
(tous deux chargés)
• Dans ce gène, la plupart des différences sont synonymes au
niveau protéique (25 fois plus élevé que non-syn)
• Les deux différences en a.a. sont biochimiquement
conservatives
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
Les protéines ont souvent des contraintes
fonctionnelles
Comme par exemple…
•
Presque toute la protéine :
– Histone 4
– Presque entièrement en contact avec l’ADN ou d’autres protéines
•
Quelques acides-aminés dans un site critique :
– Poche hème de l’hémoglobine est fortement contrainte
– Le reste doit juste être hydrophile
•
Ou a peine détectables
– La séquence exacte du fibrinopeptide est peu importante
En général, plus les contraintes fonctionnelles sont
importantes, plus le taux d’évolution est bas
Modèles d’évolution
des séquences d’ADN
Les séquences codant pour des protéines
• Les patrons d’évolution d’une protéine
peuvent nous informer sur sa fonction
• Les acides aminés les plus conservés
sont sans doute critiques pour la
fonction de la protéine
Modèles d’évolution
des séquences d’ADN
Evolution des régions non-codantes
Comparer des régions homologues …
• p.e. Comparaison des introns de genes
homologues
• ou 5’ UTR and 3’ UTR (untranslated
region)
• voire… Comparaison de pseudogenes
Modèles d’évolution
des séquences d’ADN
Evolution des régions non-codantes
Modèles d’évolution
des séquences d’ADN
Evolution des régions non-codantes
• Quelles contraintes fonctionnelles ?
Bilan
Pourquoi s’intéresser à la divergence entre
séquences ?
– Divergence entre espèces : reconstituer l’histoire
évolutive et dater les événements de spéciation
– Prendre en compte le polymorphisme ancestral dans
les estimations de divergence
– Description + fine du polymorphisme (au-delà des
simples fréquences)
– La théorie neutraliste de l’évolution moléculaire
fournit des prédictions quantitatives: permet par
contraste l’identification de contraintes fonctionnelles
Les forces évolutives
Forces évolutives:
• mutation
• dérive génétique:
• sélection naturelle : la seule force « directrice » de
l’évolution
• migration
Téléchargement