Génétique moléculaire des populations : diversité et évolution des séquences d’ADN [email protected] SN2-108 Calendrier du module • • • • • • • • • 16 Novembre 21 Novembre 23 Novembre 28 Novembre 30 Novembre 04 Decembre 07 Decembre 14 Decembre 13h30 08h00 13h30 08h00 13h30 matin 13h30 13h30 Vincent Castric Vincent Castric Vincent Castric Vincent Castric Xavier Vekemans exam M2 D. Meyre D. Meyre individus Que peut-on en dire ? 1 2 3 4 5 6 7 8 9 10 11 Que peut-on en dire ? - Diversité génétique au sein de cette espèce/population comment la quantifier ? comment apparaît-elle ? - Distribution des allèles entre populations - Divergence entre allèles - Divergence entre espèces : divergences relatives au sein d’un taxon dates de divergence Objectifs de la génétique moléculaire des populations: utiliser les patrons moléculaires de diversité génétique pour étudier l’évolution des populations / des espèces. Que nous apprend la diversité des séquences et leur évolution? • Retracer les relations historiques entre espèces et entre populations – phylogénie et phylogéographie • Détecter les signatures de la sélection naturelle – et en inférer l’importance fonctionnelle de codons, d’allèles, voire de séquences non-codantes… • Utiliser la diversité génétique comme outil en écologie – Écologie moléculaire : analyse de la migration et des systèmes de reproduction Ouvrages de référence • • • • Fundamentals of Molecular Evolution. D. Graur & W-H Li, 2000, 481pp. Sinauer Associates, Sunderland, USA ISBN:0-87893-266-6. Origine de la majorité des illustrations du cours Population genetics. A concise guide. Gillespie, 1998, Johns Hopkins University Press, Baltimore, ISBN 0-8018-5755-4 (33€): une courte mais dense introduction à la génétique des populations théorique Génétique des populations. Hartl, 1994, Flammarion. Très bonne introduction à la génétique des populations, y compris quelques éléments d'evolution moléculaire. Molecular Evolution and Phylogenetics. Nei & Kumar, 2000, 333pp. Oxford University Press, ISBN 0-19-513585-7: excellent traitement en profondeur des méthodes phylogénétiques actuelles 1. Eléments de génétique des populations ( collaboration X. Vekemans) • Qu'est-ce que la génétique des populations? • Méthodes de détection de la variation génétique • Principe de Hardy-Weinberg • Les forces évolutives Qu'est-ce que la génétique des populations? Synthèse entre 1. Application des lois de la génétique de la transmission G. Mendel caractères à déterminisme simple 2. Application de la théorie de l'évolution et de la sélection naturelle: Charles Darwin – Évolution biologique – Évolution par sélection des individus les plus adaptés caractères à distribution continue (quantitatifs: nbre graines, vigueur mâles ) Qu'est-ce que la génétique des populations? Les fondements de la génétique des populations : • Polymorphisme: plusieurs états alléliques distincts en 1 locus • Variation génétique s'exprime par les fréquences relatives des différents allèles • Evolution agit sur des populations d'individus (groupe d'individus susceptibles de se reproduire entre eux à court terme) • Evolution se traduit par une variation des fréquences alléliques dans les populations • Forces évolutives ≡ processus qui agissent sur les fréquences alléliques Méthodes de détection de la variation génétique Marqueur génétique = locus variable dont le génotype peut être déduit à partir d'observations phénotypiques et qui renseigne sur le génotype de l'individu qui le porte • Marqueur bande sur un gel d’électrophorèse (phénotype) • Variable différences visibles entre individus = polymorphisme • Déterminisme mendeléen marqueur transmis à la descendance; interprétation allélique • Locus on peut localiser sur une carte génomique/chromosomique la zone d’ADN responsable du marqueur • Renseignement individu témoin du génome de l'individu • exemples: petit pois lisse/ridé (Mendel); couleur des yeux de drosophile (Morgan); isoenzymes (Lewontin); marqueurs moléculaires (variants ADN) L’étude idéale… Daphnia retrocurva L’étude idéale… La composition génétique de la population a varié : diversité totale et fréquence des allèles Sous l’effet de quelle(s) force(s) ? Qu'est-ce que la génétique des populations? Quatre forces évolutives: • Mutation • Migration • Sélection naturelle • Dérive génétique Qu'est-ce que la génétique des populations? Objectifs de la génétique des populations: (1) Mesurer variation génétique dans populations naturelles + décrire patron d'organisation de variation (drongo, Dicrurus paradiseus, Mayr & Vaurie, 1948) The Geographic Spread of the CCR5 Delta2 HIV-Resistance Allele (Novembre et al. 2005) Qu'est-ce que la génétique des populations? Objectifs de la génétique des populations: (1) Mesurer variation génétique dans populations naturelles + décrire patron d'organisation de variation (2) Expliquer origine, maintien et évolution de la variation génétique par effet des forces évolutives • J. Gillespie: Grande Obsession des généticiens pop.: "Quelle force évolutive cause le patron observé?" Qu'est-ce que la génétique des populations? Objectif 1: Mesurer variation génétique exemple: Estimation des fréquences alléliques Polymorphisme floral chez les Gueules-de-loup (Antirrhinum majus) Corolle rouge: RR Corolle blanche: rr Corolle rose: Rr Echantillon de 400 plantes d‘une population: Rouges, n=165; Roses, n=190; Blanches, n=45 P = fréquence de l'allèle R dans l’échantillon = (2x165+190)/800 = 0.65 Q = fréquence de l’allèle r dans l’échantillon = (190+2x45)/800 = 0.35 Vérification: P+Q = 0.65 + 0.35 = 1.00 Qu'est-ce que la génétique des populations? Objectif 1: Mesurer variation génétique Fréquences d’allèles – Nombre d’allèles – Hétérozygotie: probablilité d’échantillonner deux allèles différents. OK si reproduction aléatoire Diversité d’un ensemble de séquences – Polymorphisme nucléotidique: Pn=np/nt : proportion des sites polymorphes – Diversité nucléotidique π = Probabilité que deux séquences tirées au hasard soient différentes à un site donné Mesurer variation génétique Utilisation des états alléliques seuls 1 : ACTAGTCCGAAATAGGTCAGTGA 2 : ACTAGTCCGTAATAGGTCCGTGT (a) (b) 3 : ACTAGTCCGAAATAGGTCAGTGA 4 : ACTGGTCCGAAATAGGTCAGTGA (a) (c) 5 : ACTGGTCCGAAATTGGTCAGTGA 6 : ACTGGTCCGAAATTGGTCAGTGA (d) (d) 4 allèles en fréquences : Allele a (séquences 1+3) Allèle b (séquence 2) Allèle c (séquence 4) Allèle d (séquences 5+6) : 1/3 Hétérozygotie : 1/6 = 2/3 : 1/6 : 1/3 Mesurer variation génétique Utilisation de l’information moléculaire 1 : ACTAGTCCGAAATAGGTCAGTGA 2 : ACTAGTCCGTAATAGGTCCGTGT 3 : ACTAGTCCGAAATAGGTCAGTGA 4 : ACTGGTCCGAAATAGGTCAGTGA 5 : ACTGGTCCGAAATTGGTCAGTGA 6 : ACTGGTCCGAAATTGGTCAGTGA Polymorphisme nucléotidique = Proportion de sites polymorphes: 5/23 = 0,217 Mesurer variation génétique Utilisation de l’information moléculaire 1 : ACTAGTCCGAAATAGGTCAGTGA 2 : ACTAGTCCGTAATAGGTCCGTGT 3 : ACTAGTCCGAAATAGGTCAGTGA 4 : ACTGGTCCGAAATAGGTCAGTGA 5 : ACTGGTCCGAAATTGGTCAGTGA 6 : ACTGGTCCGAAATTGGTCAGTGA Polymorphisme nucléotidique = Proportion de sites polymorphes: 5/23 = 0,217 Diversité nucléotidique = Probabilité qu’un site différe entre 2 séquences : π = 0,0928 1 2 3 4 5 6 1 2 3 4 0,13 0 0,04 0,09 0,09 0,13 0,17 0,22 0,22 0,04 0,09 0,09 0,04 0,04 5 - 0 - 6 Qu'est-ce que la génétique des populations? Objectif 2: Expliquer maintien de la variation génétique exemple: Anémie à cellules falciformes chez l’homme (drépanocytose) Anomalie génétique quasi-létale Variant génétique de la chaîne β hémoglobine à expression récessive: – allèle normal : A; – allèle muté : S; – individus atteints : génotype SS. individu SS Micrographie électronique de globules rouges individu AA ou AS (tiré de Griffiths et al. 2001) • • Qu'est-ce que la génétique des populations? Objectif 2: Expliquer maintien de la variation génétique exple: Anémie à cellules falciformes Répartition des fréquences de l'allèle S (tiré de Ridley, 1997) • >0.14 <0.02 les zones de forte fréquence de S correspondent avec les régions d'endémisme de la malaria Qu'est-ce que la génétique des populations? Objectif 2: Expliquer maintien de la variation génétique exemple: Anémie à cellules falciformes • Explication: Les individus hétérozygotes AS résistent mieux à la malaria (parasite des globules rouges: Plasmodium falciparum) que les homozygotes AA équilibre entre o sélection en faveur de l'hétérozyg. AS augmente fréq(S) o sélection contre l'homozyg. létal SS diminue fréq(S) Est-ce le seul mécanisme expliquant le maintien de la diversité génétique des populations naturelles ? Principe de Hardy-Weinberg • déf. Population : groupe d'individus de la même espèce vivant dans une aire géographique suffisamment restreinte pour permettre potentiellement à tout membre de se reproduire avec tout autre membre du groupe • Exemples: – Tous les éléphants d'un parc national donné – Tous les chênes d'un massif forestier donné (pollen à large dispersion anémogame) – Tous les individus d'une espèce de parasite intestinal, présents chez un seul individu hôte • Synonymes: population locale, dème, sous-population (->"population" = espèce) Principe de Hardy-Weinberg • Hypothèse de panmixie: – lors de la reproduction, les croisements s'effectuent au hasard pour les génotypes considérés • soit les gamètes s'associent au hasard (pangamie) • soit les couples se forment au hasard (panmixie) probabilité de se croiser avec un individu de génotype XY = fréquence(génotype XY) Exple: Lap-1 chez Lillois: 10% FF; 50% FS; 40% SS Si panmixie, en moyenne une Lilloise, indépendamment de son génotype Lap-1, va choisir pour se reproduire (si choisit un partenaire Lillois): – partenaire FF avec 1 chance sur 10 – partenaire FS avec 1 chance sur 2 – partenaire SS avec 4 chances sur 10 Principe de Hardy-Weinberg Fréquences alléliques: A (p); a (q = 1-p) Fréquences génotypiques: AA (P); Aa (Q); aa (R) (tiré de Hartl, 1994) H-W: AA→p2 Aa→2pq aa→q2 → événements répétés et indépendants! Principe de Hardy-Weinberg Dans une population panmictique, et en l’absence de pression évolutive 1. les fréquences alléliques d’une population n’évoluent pas 2. on peut prédire les fréquences génotypiques à partir des fréquences alléliques de la population AA → p2 Aa→2pq aa→q2 Principe de Hardy-Weinberg • Implications du principe de Hardy-Weinberg: – Une seule génération de panmixie suffit pour atteindre les fréquences génotypiques de Hardy-Weinberg – Selon les hypothèses du modèle de Hardy-Weinberg, les fréquences alléliques restent constantes absence d'évolution au locus considéré maintien du polymorphisme génétique fréq.(A) = P'+Q'/2 = p2+2pq/2 = p(p+q) = p Principe de Hardy-Weinberg • Vérification de l'hypothèse panmictique dans les populations d’anguille américaine: N obs. MM MN NN 1787 3039 1303 Principe de Hardy-Weinberg • Vérification de l'hypothèse panmictique dans les populations d’anguille américaine: MM MN NN total Fréq. M Fréq. N N obs. 1787 3039 1303 6129 0.54 0.46 Fr. H-W 0.292 0.497 0.211 N H-W 1787 3044 1297 hypothèse panmictique remarquablement adaptée! Principe de Hardy-Weinberg • Hypothèses du modèle de population de HardyWeinberg – – – – – – – – – – organisme diploïde reproduction sexuée générations non chevauchantes locus considéré possède 2 allèles fréquences alléliques identiques chez les individus mâles et femelles panmixie p/r locus considéré population de très grande taille (∞) migration entre pop. négligeable mutation négligeable sélection naturelle n'agit pas au locus considéré Principe de Hardy-Weinberg Arabidopsis thaliana Analyse d’une population naturelle: AA: 50 AB: 2 BB: 80 Qu’en déduisez-vous ? Quelles expériences proposez-vous pour quantifier ce phénomène ? Principe de Hardy-Weinberg L’utilisation la plus fréquente : sous la forme d’un test d’hypothèses - L’espèce se reproduit-elle par auto-fécondation ? En quelles proportions ? - Les croisements sont-ils aléatoires ? - La population est-elle subdivisée en sous-populations ? quelle est l’intensité de cette structure ? - Le locus est-il soumis à la sélection naturelle ? Sous quelle forme ? Les forces évolutives • Mutation : l’origine ultime du polymorphisme génétique • dérive génétique • sélection naturelle • migration Origine du polymorphisme de l’ADN Polymorphisme chromosomiques : Remaniements - Fusions Inversions Fusions robertsoniennes Origine du polymorphisme de l’ADN Polymorphisme chromosomique Drosophila : • 341 inversions paracentriques et 18 inversions péricentriques connues dans les populations naturelles de Drosophila melanogaster. • 4 inversions sont abondantes dans pratiquement toutes les populations de l'espèce • 6 sont présentes dans toutes les pops mais à fréquences faibles • Toutes les autres et c'est la grande majorité= inversions endémiques uniques, trouvées une seule fois, le plus souvent chez un seul individu (Lemeunier et Aulard in Krimbas et Powell 1992 Drosophila Inversion Polymorphism CRC Press). Des espèces proches peuvent cependant montrer de fortes différences de fréquence des remaniements: particulièrement nombreuses chez D. melanogaster, mais à peu près inexistantes chez son espèce jumelle D. simulans. Origine du polymorphisme de l’ADN Polymorphisme chromosomique • Chez les espèces de drosophiles, la plupart n’impliquent pas le centromère (paracentriques + fréquentes que péricentriques =très rares) ; • Criquets montrent fréquemment des chromosomes surnuméraires; • Souris (Mus musculus) et les Musaraignes (Sorex araneus) ont accumulé des fusions centriques. Peuvent/ou pas etre asssociées à des phénotypes anormaux Fusion de gènes en orientation directe ou inversée Délétions, Décalages du cadre de lecture Il existe chez l’homme des exemples de chacun de ces cas. des événements majeurs, mais fréquents et qui évoluent rapidement Origine du polymorphisme de l’ADN Séquences répétées en tandem Minisatellites – Souvent un motif central “GGGCAGGANG”, homologue de la séquence signal de la recombinaison chez E. coli – Abondants dans les régions télomériques (TTAGGG répété sur 10-15kb / homme et sur 30kb chez la souris) • Nb de répétitions • Séquence de chacune des répétitions Origine du polymorphisme de l’ADN Séquences répétées en tandem Microsatellites •Aucune fonction identifiée •Mais lien avec certaines maladies humaines si dépasse un seuil de longueur (ex. syndrome de l’X fragile) Origine du polymorphisme de l’ADN Séquences répétées en tandem Microsatellites Origine du polymorphisme de l’ADN Mutations ponctuelles Chez l’homme, un individu non consanguin présente une base hétérozygote tous les 200 à 1000 nucléotides Transversions Transitions • Pyrimidines Purines Origine du polymorphisme de l’ADN Mutations ponctuelles Deux types de mutations Des conséquences variées Base Proba synonyme Ti syn Tv syn 1 5 2 0 3 72 90 30 Origine du polymorphisme de l’ADN Mutations ponctuelles Comparaison des pseudogènes homme / chimpanzée Nachman & Crowell Genetics 2000 • Ici, fin premier cours Origine du polymorphisme de l’ADN Les mécanismes de mutations • Un mécanisme possible pour les délétions et duplications: recombinaisons 'illégitimes' entre séquences très semblables mais non homologues. • --> mésappariements --> crossing-over inégaux • A l’origine des familles de gènes ? • Importance des éléments Alu ? (très homologues et 1 tous les 4 kb / homme) Recombinaison inégale et délétion/fusion. Les gènes dupliqués en tandem de la stéroïde 21hydroxylase (21A et 21B) et du complément (C4A et C4B) dans le domaine des classes III du complexe HLA, 21A et 21B ne diffèrent que par 88 nucléotides sur les 3400 que comporte la séquence. La recombinaison inégale conduit à la formation de gamètes porteurs soit d'une délétion, soit d'une duplication. (Cooper et al. 1995) Indels • Crossing over inégal deletion addition Origine du polymorphisme de l’ADN Conversion génique • La conversion génique = transfert non-réciproque d’information génétique. • Meme phénomène moléculaire que les crossing-over: la recombinaison Modèle d’Holliday Origine du polymorphisme de l’ADN Conversion génique • • • La conversion génique = transfert non-réciproque d’information génétique. Peut impliquer des séquences alléliques ou non alléliques (interlocus) et peut etre asymétrique et polarisée Environ 10 fois + fréquent au sein d’un meme chromosome qu’entre deux chromosomes Origine du polymorphisme de l’ADN • Insertion de séquences mobiles (transposons) ou virales Origine du polymorphisme de l’ADN • • • • • Insertion de séquences mobiles (transposons) ou virales Transposition= mouvement de portions d’ADN dans le genome, souvent associé à l’augmentation du nb de copies Les portions d’ADN capables de mouvement = transposons, éléments transposables, ou “genes sautant”. Aucune fonction connue : ADN égoiste, car exploite la machinerie génétique de la cellule. Ces séquences codent en général pour au moins un gène, l’enzyme transposase. Les extrémités des transposons consistent en répétitions terminales auxquelles la transposase se lie. La transposase se lie également aux cibles d’insertion dans le génome. Selon le type de transposon, il est alors soit copié-inséré, soit coupé-inséré. Certains transposons possèdent les enzymes pour leur propre copie, mais beaucoup utilisent pour cela la machinerie cellulaire. Origine du polymorphisme de l’ADN Trois types de transposons fréquents : Smit 1996 Curr Op Genet Dev Origine du polymorphisme de l’ADN Mutations ponctuelles - Modifications chimiques spontanées (surtout hydrolyses) -dépurinations spontanées, dues à la labilité de la liaison Nglycosidique reliant les bases puriques au squelette de polydésoxyribosephosphate. = événements très fréquents, 5000 bases puriques étant perdues chaque jour par chaque cellule humaine Origine du polymorphisme de l’ADN Mutations ponctuelles - Modifications chimiques spontanées (surtout hydrolyses) - dépurinations spontanées, - transitions tautomériques ( -NH2 → =NH ou C=0 → =C-OH) = fréquence d'environ 100 bases par jour et par cellule chez l’homme pour C → U; - Exposition à des mutagènes -endogènes (radicaux libres) -exogènes (rayonnement UV) formation de liaisons covalentes entre deux pyrimidines voisines (CC, CT ou TT) sur le même brin d'ADN. Origine du polymorphisme de l’ADN Mutations ponctuelles Mutations ponctuelles En général erreurs corrigées par le système de réparation Sauf désamination d'une cytosine méthylée. Origine du polymorphisme de l’ADN Mutations ponctuelles Mutations ponctuelles En général erreurs corrigées par le système de réparation Sauf désamination d'une cytosine méthylée. En effet, dans ce cas, le produit formé (5-méthyle uracile) correspond à la thymine, non reconnue comme élément étranger à l'ADN et de ce fait non réparée. La transition accidentelle C→T est donc généralement fixée. Les régions riches en cytosines méthylées, en particulier les doublets CG, sont donc des sites vulnérables et constituent des points chauds (Hot-spots) de mutation Origine du polymorphisme de l’ADN Microsatellites Glissement de la polymérase In vitro aussi… Origine du polymorphisme de l’ADN Microsatellites li an B La mutation, source ultime de la diversité. li an B La mutation, source ultime de la diversité. • Mutation = source ultime de variation génétique : Mutation = changement héréditaire dans le matériel génétique – changements dans la séquence nucléotidique: mutations ponctuelles, indels (insertions ou délétions d'une ou plusieurs paires de bases) – réarrangements chromosomiques: inversions, transpositions, polyploïdisations,... • • Evènement évolutif rare pour un gène donné: 10-4 à 10-6 nouvelles mutations par gène et par génération (u = taux de mutation) Force évolutive importante: – nombre de mutations/gén. = 2 N u non négligeable si grande population ou si nombre de gènes dans génome est important: 30.000 gènes chez homme si u=10-4, nombre mutations/gamète = 3 en moyenne chaque nouveau-né possède 6 nouvelles mutations p/r parents – Par génération humaine: 36 milliards de nouvelles mutations Les forces évolutives • mutation • dérive génétique: processus évolutif de fluctuations aléatoires des fréquences alléliques résultant d'un échantillonnage aléatoire parmi les gamètes – processus important dans les petites populations – force évolutive car changement des fréquences alléliques • sélection naturelle • migration Dérive génétique: échantillonage aléatoire des gamètes Génération parentale P=0,5 Pool des gamètes Les fréquences alléliques dans le pool des gamètes sont identiques à celles de la génération parentale Nouvelle génération Formée par tirage au hasard d’un échantillon de 10 gamètes P=0,4 P=0,2 Dérive génétique: échantillonage aléatoire des gamètes Effet de la dérive génétique sur le devenir d'un allèle neutre • Dérive génétique = fluctuation aléatoire des fréquences alléliques fixation aléatoire d'un allèle présent initialement Fréquence allélique Fixation 1.0 0.8 0.6 N = 10 0.4 0.2 0.0 0 10 20 Génération 30 40 Dérive génétique: échantillonage aléatoire des gamètes • Influence de la taille de la population sur dérive génétique 2N = 100 Fréq.alléliq. 2N = 18 Générations Générations Fluctuations aléatoires plus importantes si N (tiré de Hartl & Clark, 1997) Dérive génétique: 107 pops identiques p=q=0,5 Toutes mouches bw75/bw75 Toutes mouches bw/bw From Hartl and Clark (1997) Principles of Population Genetics Sinauer Press Original data from Buri (1956) Dérive génétique: échantillonage aléatoire des gamètes Temps de fixation et d'élimination par dérive génétique d'un allèle neutre Fréquences alléliques • Si allèle sélectivement neutre devenir est déterminé par la dérive génétique dépend de N et de sa fréquence actuelle fixation d'un alllèle mutant élimination d'un alllèle mutant 0 Temps Interaction entre deux forces évolutives : mutation - dérive • Devenir d'une nouvelle mutation: Fréquences alléliques – fréquence initiale = 1/2N – si population de taille constante finie et absence de sélection la nouvelle mutation va finir soit par être éliminée de la population, soit par se substituer à l'allèle sauvage (fixation de l'allèle mutant) à cause d'effets stochastiques (= dérive génique) fixation d'un alllèle mutant élimination d'un alllèle mutant 0 Temps Interaction entre deux forces évolutives : mutation - dérive • Effet de la dérive génétique sur une nouvelle mutation: (tiré de Hartl & Clark, 1997) 2N copies de gènes = pop. parentale ∞ copies de gènes = pool gamètes αi αj≠αi Prob. = 1/2N Prob. = 1-(1/2N) formation des N zygotes par tirage aléatoire de 2N gamètes Interaction entre deux forces évolutives : mutation - dérive • Effet de la dérive génétique sur une nouvelle mutation: – Pour chaque gamète tiré: • Probabilité (nouvel allèle mutant) : 1/2N • Probabilité (autre allèle) : 1-(1/2N) – Pour l'ensemble des 2N gamètes tirés : • Probabilité qu’un nouvel allèle mutant ne soit jamais tiré (éliminé): [1-(1/2N)]2N ≈ 1/e = 0.368 (indépendant de N!) forte probabilité de perdre le nouvel allèle mutant après 1 générat° • ∃ possibilité que nouvel allèle mutant ne soit jamais éliminé, même après de nombreuses générations (fixation): – Probabilité de fixation de l'allèle mutant: 1/2N – en effet… Interaction entre deux forces évolutives : mutation - dérive • Effet de la dérive génétique sur une nouvelle mutation: Fixation (tiré de Hartl & Clark, 1997) Elimination Interaction entre deux forces évolutives : mutation - dérive – La fixation ultime d'un nouvel allèle mutant correspond à l'extinction de toutes les lignées généalogiques ne portant pas initialement cet allèle mutant : « coalescence des lignées » (tiré de Hartl & Clark, 1997) allèle mutant en 1 exemplaire Probabilité que ce soit la lignée généalogique de l'allèle mutant qui se fixe = 1/nbre ancêtres = 1/2N fixation de l'allèle mutant Interaction entre deux forces évolutives : mutation - dérive • Devenir d'une mutation : – Hypothèse fondamentale de la dérivation présentée: les mutations envisagées sont sélectivement neutres (seule la dérive génétique agit en plus de la mutation) – Théorie neutraliste de l'évolution (Kimura 1968): fait l'hypothèse qu'une grande majorité des polymorphismes génétiques résulte de l'évolution par dérive génétique d'allèles mutants sélectivement neutres • exple: ADN non codant; 3ème position des codons (mutations synonymes); remplacement d'acides aminés hors du site actif d'un enzyme – Mutations non neutres: dynamique éventuellement fort différente Interaction entre deux forces évolutives : mutation - dérive • Dans une population de Wright-Fisher, on connaît la dynamique des substitutions neutres. • Cette dynamique nous renseigne sur: Fréquences alléliques • La divergence entre espèces • Le polymorphisme au sein d’une espèce Temps Théorie neutraliste de l’évolution moléculaire Permet de prédire le devenir des mutations Théorie neutraliste de l’évolution moléculaire Théorie neutraliste de l’évolution moléculaire Dérive génétique Dérive génétique + Selection Frequence allélique 1 avantageuse désavantageuse 0 Théorie neutraliste de l’évolution moléculaire Intéressons-nous à un seul site nucleotidique dans le génome TTA p = 1.0 temps TTA p = 0.6 TCA q = 0.4 TCA p = 1.0 Est-ce que ceci est évolutivement intéressant ? Et cà ? Théorie neutraliste de l’évolution moléculaire Importance du processus de substitution temps Est-ce que ceci est évolutivement intéressant ? Et cà ? Théorie neutraliste de l’évolution moléculaire Théorie neutraliste de l’évolution moléculaire Motoo Kimura, 1968 •La plus grande partie du polymorphisme aujourd’hui observé est sélectivement neutre. •La majorité des changements évolutifs sont causés par la dérive génétique d’allèles sélectivement neutres ou presque neutres. !! Ne nie pas l’importance de la sélection au cours de l’évolution !! Théorie neutraliste de l’évolution moléculaire • Une nouvelle mutation est soumise à – La sélection positive (=sélection adaptative), si elle confère un avantage en terme de valeur sélective (fitness) de l’organisme qui l’exprime – La sélection négative (=sélection purifiante) si elle diminue la valeur sélective – Aucune forme de sélection si elle n’est ni avantageuse ni désavantageuse (“invisible” pour la sélection). Un allèle avantageux Gène de résistance à l’atrazine chez la morelle noire Un allèle délétère Gène BRCA2 • 5% des cancers du sein sont familiaux • Des mutations de BRCA2 sont responsables de 20% des cas de cancers du sein familiaux Allele “normal” Allèle délétère (dans 440 familles de Montréal) Codon stop Délétion de 4 paires de bases décalage du cadre de lecture Un allèle neutre Répartition mondiale de l’allèle B du groupe sanguin ABO Théorie neutraliste de l’évolution moléculaire … et les mutations avantageuses? • Importance relative à l’échelle du génome des mutations neutres / délétères / avantageuses : = un débat qui n’est pas clos. • Des données commencent à s’accumuler avec les données de génomique: comparaison polymorphisme vs. divergence Théorie neutraliste de l’évolution moléculaire • Une mutation est “effectivement” neutre lorsque son devenir est quasi exclusivement déterminé par la dérive, non par la sélection naturelle • Dans une petite population, une mutation à faible effet est fortement influencée par la sélection • L’efficacité de la sélection dépend de la taille de la population, et une mutation est “effectivement” neutre lorsque : 1 s≤ 2N e (Tomoko Ohta) Théorie neutraliste de l’évolution moléculaire • • • • • • µ = taux de mutations neutres par allèle Probabilité de fixation d’une mutation neutre = sa fréquence Taille de population = N Fréquence d’un nouvel allèle = 1/2N 2Nµ = nombre de nouvelles mutations dans une pop de taille N Taux d’évolution neutre = taux de mutation x probabilité de fixation d’une mutation = 2Nµ x 1/2N =µ Sous la théorie neutraliste de l’évolution moléculaire, le taux de substitution est égal au taux de mutation ! L’horloge moléculaire Concept d’horloge moléculaire # differences • Taux de substitution = taux de mutation temps • Le nombre de changements est proportionnel au temps permet d’utiliser le nb de changements pour estimer la divergence relative des gènes ou des espèces L’horloge moléculaire • L’horloge moléculaire Predictions de la theorie • Evolution + rapide des pseudogenes que des gènes • Évolution + rapide aux sites synonymes que non-synonymes L’horloge moléculaire Predictions de la theorie Les substitutions synonymous s’accumulent plus rapidement que les substitutions nonsynonymous Evolution du virus de la grippe depuis 20 ans L’horloge moléculaire Comment tester l’hypothèse de l’horloge moléculaire ? suivre l’acccumulation des substitutions… ou: test des taux relatifs humain souris poulet dpoulet-humain = dpoulet-souris ? L’horloge moléculaire Quelques exceptions spectaculaires… Genre Plantago Cho et al. 2004 Taux d’évolution G A T T A C A * G A T c A C A * G A T C A g A Dans ce qui suit: Pas d’indels Pas d’insertion d’éléments mobiles Pas de translocations Pas de duplications RIEN QUE DES SUBSTITUTIONS PONCTUELLES Substitutions par site Taux d’évolution * * * * * * ** * * Mouse Human Sauf modèle biologique exceptionnel, le processus de substitution ne peut pas être observé directement (nous ne vivons pas assez longtemps). il doit être inféré par comparaison de séquences existantes ! Taux d’évolution Ancêtre Hum G A T T A C A * G A A T A C A * G A T T A C A G A A T A G A * G A T T A C A * G A G T A G A G A T T A T A Souris Taux d’évolution Ancêtre G A T T A C A * G A A T A C A * Hum Difficilement observable… G A T T A C A G A A T A G A * G A T T A C A * G A G T A G A G A T T A T A Souris G A G T A G A G A T T A T A Taux d’évolution Ancêtre G A T T A C A * G A A T A C A * Hum Difficilement observable… G A T T A C A G A A T A G A * G A T T A C A * G A G T A G A G A T T A T A Souris Combien de substitutions ? G A G T A G A G A T T A T A Combien de différences comptez-vous ? Taux d’évolution Humain Babouin GATTACATAG CATGAGACGT TAGCCGATTAG CGACTAAGCT GCAGTGATGC GATTACATAG CATGACACGT TAGCCGATTAG CGACTTAGCT GCAGTGATGC fraction de nucléotides différents = 2/50 Humain Souris GATTACATCA CATGCGACGC TACCCGATTAG CGACTAAACT ACAGTGAGGC GACTGCATTG CACGACATAT TATCCAATCAG CTACTTAGCT GCGGCGAAGC fraction de nucléotides différents = 20/50 La divergence homme/babouin est-elle 10 fois + récente que homme /souris ? Modèles d’évolution des séquences d’ADN Nombre de differences Attendu (Horloge moléculaire) Observé temps Accumulation de la variation au cours du temps La population humaine : 105-106 ans Une famille humaine: 100 ans … singes: 107 ans Mammifères: 108 ans Eukaryotes: 109 ans • Fin du cours 2. Modèles d’évolution des séquences d’ADN • Le modèle de Jukes & Cantor à un paramètre = le modèle le plus simple • Toutes les substitutions se produisent avec une même probabilité • Un seul paramètre : α = le taux de changement d’un nucléotide en un autre • r = taux de changement d’un nucleotide en n’importe quel autre = 3α Modèles d’évolution des séquences d’ADN Modèle de Jukes & Cantor α A purines α α pyrimidines C G α α α T Modèles d’évolution des séquences d’ADN Modèle de Jukes & Cantor • Soit qt= proportion de nucléotides identiques entre 2 séquences • Deux sites sont identiques à la génération t+1 si: – ils étaient identiques et le sont restés: qt . (1-r)2 – ils étaient différents et sont devenus identiques: • i a muté en j et j est resté identique : – α . (1-3α) = r/3.(1-r) • j a muté en i et i est resté identique – α . (1-3α) = r/3.(1-r) qt+1= (1-r)2.qt + 2*r/3.(1-r).(1-qt) En négligeant les termes en r2 : qt+1= (1-2r).qt + 2*r/3.(1-qt) qt+1-qt= 2r/3 - 8r/3.qt Modèles d’évolution des séquences d’ADN Modèle de Jukes & Cantor qt+1-qt = 2r/3 - 8r/3.qt dq/dt = 2r/3 - 8r/3.q • En intégrant sur q et considérant q=1 à t=0, on obtient: qt = 1-3/4.(1-e-8rt/3) Modèles d’évolution des séquences d’ADN Modèle de Jukes & Cantor • K = nombre moyen de substitutions par site • r = nombre de substitutions par site et par an • t = temps depuis divergence Sequence Ancestrale t Sequence 1 t K = 2t.r Sequence 2 q= 1-3/4.(1-e-8rt/3) 1-p= 1-3/4.(1-e-4K/3) … donc K= -3/4.ln(1-4p/3) Modèles d’évolution des séquences d’ADN Pourquoi faut-il des modèles d’évolution ? • Des sequences aléatoires et équilibrées (f[A,C,G,T] = 25%) sont identiques à 25 % ! • Le nombre de différence – Permet d’estimer le spectre des substitutions si chaque différence peut être assimilée à un seul événement – Mais… n’est un bon estimateur que pour des séquences très proches • Plus deux séquences sont différentes – Plus il est important de corriger le nombre de différences • Plus généralement, + il y a eu d’évolution entre deux séquences homologues, plus il est important d’utiliser un modèle d’évolution réaliste pour des inférences (estimation des taux, construction d’arbres…) Modèles d’évolution des séquences d’ADN Modèle de Kimura à deux paramètres • Un modèle plus réaliste : deux types de nucleotides – Purine: A, G – Pyrimidine: C, T • Une purine est plus fréquemment remplacée par une autre purine que par une pyrimidine (et inversement) • Transitions : remplacements “à l’identique” • Transversions: remplacement purine par pyrimidine, ou vice versa Modèles d’évolution des séquences d’ADN Modèle de Kimura à deux paramètres α purines A • Transition = taux α • Transversion β = taux β pyrimidines β G β C β T α Modèles d’évolution des séquences d’ADN DJC = -3/4 ln(1 - 4p/3) Pour p = 0.04, DJC = 0.041 Pour p = 0.40, DJC = 0.572 DK2 = ln(1/(1-2pts-ptv))/2 + ln(1/(1-2ptv))/4 Pour pts = 0.3 et ptv = 0.1, DK2 = 0.602+0.056 = 0.658 Modèles d’évolution des séquences d’ADN Nombre de differences Attendu (Horloge moléculaire) Observé temps Modèles d’évolution des séquences d’ADN Biais transition/transversion Pseudogène Gène mitochondrial Modèles d’évolution des séquences d’ADN Modèles d’évolution des séquences d’ADN Violations des hypothèses des modèles • Les taux de substitution ne sont pas le mêmes pour tous les gènes, tous les nucléotides, toutes les espèces • Certains sites ne sont pas independants – Des sites en interaction peuvent nécessiter des mutations complémentaires (p.e., dans une structure en épingle à cheveux, SCR vs. SRK) Modèles d’évolution des séquences d’ADN Violations des hypothèses des modèles • Des données montrent que les patrons et les taux de substitution nucléotidiques varient en fonction de – Voisinage nucléotidique (Hwang PNAS 2004) – Au fil du temps (accélération-décélération) (Plantago) – Environnement (heteroclitus) – Sexe – Temps de génération – Taux métabolique Modèles d’évolution des séquences d’ADN Violations des hypothèses des modèles Mécanisme biochimique pour le fort taux d’évolution des dinucleotides CpG • Sites particuliers avec un fort taux de mutation • CpG = C suivi de G dans la direction 5’ – 3’ • Ce dinucleotide est particulièrement susceptible à la méthylation du C • Ce C méthylé est facilement désaminé en T • Il en résulte un mismatch TG • Qui peut être corrigé en CG… ou en TA (une fois sur deux) Modèles d’évolution des séquences d’ADN Violations des hypothèses des modèles Le cas particulier des espèces proches • Normalement, on assimile à t le temps de divergence de deux espèces • Mais ce qu’on veut réellement est le temps de divergence entre deux séquences • Généralement, ces deux quantités sont les mêmes, mais… • Chez des espèces proches, on s’intéresse peut-être à des allèles qui étaient présents chez l’ancêtre commun (ou avant…) Ancêtre commun des sequences Espèce ancestrale Allele A Allele B speciation Temps Humain Gorille Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines Phe Leu Leu Ile UUU Ser UCU Tyr UAU Cys UUC UCC UUA UCA ter UAA ter UGA UUG UCG ter UAG Trp UGG CCU His CAU Arg CGU CUU Pro CUC CCC CUA CCA CUG CCG AUU Thr ACU AUC ACC AUA ACA Met AUG ACG Val GUU Ala GCU GUC GCC GUA GCA GUG GCG UAC UGU Gln Asn UGC CAC CGC CAA CGA CAG CGG AAU Ser AAC Lys AAA AGC Arg AAG Asp Glu GAU AGU AGA AGG Gly GGU GAC GGC GAA GGA GAG GGG Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines • Certaines substitutions en a.a. nécessitent + de substitutions nucléotidiques que d’autres… • Ile Thr : au moins un changement ADN • AUU ACU • AUC ACC • AUA ACA • Ile Cys: au moins deux changements ADN • AUU (Ile) AGU (Ser) UGU (Cys) • AUU (Ile) UUU (Phe) UGU (Cys) Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines • En général, les taux de substitutions sont bas aux sites non-dégénérés (0.78 x 10-9 substitutions par site par année) • Intermédiaires aux sites deux fois dégénérés (2.24 x 10-9 sub.site-1.an-1) • Elevés aux sites quatre fois dégénérés (3.71 x 10-9 sub.site-1.an-1) Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines Propriétés biochimiques des a.a. Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines Propriétés biochimiques des a.a. : histone 4 • Une protéine fortement conservée • Comparaison genes H4 humain - blé • 55 differences ADN • 2 differences acides aminés • Val Ile • Lys Arg (tous deux aliphatiques) (tous deux chargés) • Dans ce gène, la plupart des différences sont synonymes au niveau protéique (25 fois plus élevé que non-syn) • Les deux différences en a.a. sont biochimiquement conservatives Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines Les protéines ont souvent des contraintes fonctionnelles Comme par exemple… • Presque toute la protéine : – Histone 4 – Presque entièrement en contact avec l’ADN ou d’autres protéines • Quelques acides-aminés dans un site critique : – Poche hème de l’hémoglobine est fortement contrainte – Le reste doit juste être hydrophile • Ou a peine détectables – La séquence exacte du fibrinopeptide est peu importante En général, plus les contraintes fonctionnelles sont importantes, plus le taux d’évolution est bas Modèles d’évolution des séquences d’ADN Les séquences codant pour des protéines • Les patrons d’évolution d’une protéine peuvent nous informer sur sa fonction • Les acides aminés les plus conservés sont sans doute critiques pour la fonction de la protéine Modèles d’évolution des séquences d’ADN Evolution des régions non-codantes Comparer des régions homologues … • p.e. Comparaison des introns de genes homologues • ou 5’ UTR and 3’ UTR (untranslated region) • voire… Comparaison de pseudogenes Modèles d’évolution des séquences d’ADN Evolution des régions non-codantes Modèles d’évolution des séquences d’ADN Evolution des régions non-codantes • Quelles contraintes fonctionnelles ? Bilan Pourquoi s’intéresser à la divergence entre séquences ? – Divergence entre espèces : reconstituer l’histoire évolutive et dater les événements de spéciation – Prendre en compte le polymorphisme ancestral dans les estimations de divergence – Description + fine du polymorphisme (au-delà des simples fréquences) – La théorie neutraliste de l’évolution moléculaire fournit des prédictions quantitatives: permet par contraste l’identification de contraintes fonctionnelles Les forces évolutives Forces évolutives: • mutation • dérive génétique: • sélection naturelle : la seule force « directrice » de l’évolution • migration