Génétique des populations empirique Thierry De Meeûs Interactions hôtes - vecteurs – parasites-environnement dans les maladies tropicales négligées dues aux trypanosomatidae - (INTERTRYP), UMR IRD/CIRAD 177, TA A-17/G, Campus International de Baillarguet, 34398, Montpellier Cedex 5, +33 (0)4 67 59 37 44 [email protected] http://t-de-meeus.fr/TdeMeeus.html Introduction Méthodes directes Méthodes indirectes Structure d'une population Stratégie de reproduction, taille des unités démographiques et migration (ou dispersion) Détection de la variation génétique Marqueurs cytoplamiques ♀ ♂ ♀♂ ♀ ♂ ♀♂ Détection de la variation génétique: marqueurs nucléaires codominants A1A1 A1A2 A2A2 Alloenzymes Microsatellites Primer1 mRNA Primer1 AUGCAGCCAUAGGCG CTCTCTCT AGAGAGAG Primer2 CTCTCTCTCT AGAGAGAGAG Primer2 PCR Enzymes Phe-Pro-Leu-Ileu-Val + + - - Electrophorèse RFLP, MLST, SNP… Neutralité=une hypothèse forte pour les inférences Structure génétique d'une population Répartition spatio-temporelle de la variabilité génétique T0 Structure génétique d'une population Répartition spatio-temporelle de la variabilité génétique Tx Structure d'une population Stratégie de reproduction, taille des unités démographiques et migration (ou dispersion) I. Notions de biologie moléculaire et de génétique formelle 1. ADN Molécule universelle de la transmission de l'information génétique Molécule de la vie ADN Molécule auto réplicative Code génétique Code génétique: bases puriques et pyrimidiques Purine: Base, constituant essentiel des nucléotides eux même éléments de base des acides nucléiques (ARN et ADN), complémentaires des Pyrimidines. Il en existe deux l'adénine (A) et la guanine (G). Pyrimidines: Base, constituant essentiel des nucléotides eux même élément de base des acides nucléiques (ARN et ADN), complémentaires des purines. Il en existe trois, la thymine (T), l'uracile (U qui prend la place de T dans l'ARN) et la cytosine (C). A est complémentaire de T et U G est complémentaire de C Code génétique => code génétique "dégénéré" 2. Les trois domaines du vivant Il y a 3 à 3.5 milliards d'années Procaryotes Virus? Génétique de procaryotes Envoloppe de peptidoglycanes Génétique de procaryotes Eubactéries Conjugaison R: relaxosome, coupe, déroule un des deux brins du plasmide et le fait glisser vers le pilus T: transférasome, fait glisser dans la cellule receveuse P: ADN polymérase Chez certaines euryarchées, la conjugaison peut être bidirectionnelle Génétique de procaryotes Transformation Légitime Illégitime Jamais observées chez les archées en conditions naturelles Transduction Chez les archées: connue que chez les méthanogènes Génétique de eucaryotes Génétique de eucaryotes Cellule végétale Cellule animale en fait cellule "non-végétale" Génétique de eucaryotes Chromosomes Région hautement répétitive non codante Région non codante Génétique de eucaryotes Duplication de l'ADN dans le noyau Raccourcissement télomérique à chaque duplication Télomérase (TTAGGG)n Peu ou pas active dans les cellules somatiques Très active dans les cellules germinales et embryonnaires Génétique de eucaryotes La mitose une caractéristique des eucaryotes Génétique de eucaryotes La méïose une autre caractéristique des eucaryotes Reproduction sexuée Deux conséquences: Ségrégation et Recombinaison de l'ensemble du génome 3. La mutation, clé de la variation génétique et de l'évolution Mutations ponctuelles Transition: Mutation ponctuelle consistant au remplacement d'une purine par une autre purine (A<=>G) ou d'une pyrimidine par une autre pyrimidine (C<=>T) (antonymique de transversion). Transversion: Mutation ponctuelle consistant au remplacement d'une purine par une pyrimidine ou d'une pyrimidine par une purine (A<=>T, A<=>C, G<=>C, G<=>T) (antonymique de transition), deux fois moins fréquentes que les transitions. Insertions et délétions Éléments transposables (transposons) et rétrovirus Mutations chromosomiques IAM: Infinite Allele Model (si identiques, alors ils le sont par descendance) KAM: K allele model (homoplasie: pas nécessairement identique par descendance) SMM: Stepwise Mutation Model (microsatellites)(-CACACACA-) TPM: Two Phase Model (SMM+KAM) Microsatellites et minisatellites Microsatellites: (simple sequence repeats (SSR), short tandem repeats (STR) ou variable number of tandem repeats (VNTR)): répétitions de motifs d'une (poly A) à 8 bases comme …CACACACA… (di-nucléotide), …GAGGAGGAGGAG… (tri-nucléotide) ou …CATACATACATA… (tétra-nucléotide). Les minisatellites (aussi VNTR) sont des séquences de 9 à 100 paires de bases répétées en tandem Taux de mutation u~10-1-10-3 Grand nombre d'allèles possibles, K=5-20 Taux de mutation u~10-3-10-4 Grand nombre d'allèles possibles, K=10-50 Primer1 CTCTCTCT AGAGAGAG Primer2 CTCTCTCTCT AGAGAGAGAG Primer2 Primer1 Profile hétérozygote Single Nucleotide Polymorphic loci (SNPs) ---ATACTTAGTG-----TATGAATCAC--- ---ATACCTAGTG-----TATGGATCAC--Transitions (A<=>G ou C<=>T) deux fois plus fréquentes que Transversions (A<=>T, A<=>C, G<=>C, G<=>T) Taux de mutation u~10-9 Nombre possible d'allèles, K=4 en théorie, 2 en pratique Révélation par séquençage ADN Codant et non codant Exemple d'Homo sapiens 4. Variation génétique: caractères complexes Enzyme 1 A Enzyme 2 C B Enzyme 1 A Enzyme 2 Enzyme 1 Enzyme 3 Enzyme 2 E Phénotype [+] ou sauvage Phénotype [-] ou mutant Enzyme 4 D Enzyme 3 C B Enzyme 4 D C B A Enzyme 3 E Phénotype [-] ou mutant Enzyme 4 D E Individu diploïde Enzyme 1 Enzyme 2 Enzyme 3 Enzyme 4 Enzyme 1 Enzyme 2 Enzyme 3 Enzyme 4 Phénotype [+] ou sauvage Complémentation Pléiotropie A Enzyme 1 Epistasie Enzyme 1 Enzyme 2 Charactère 1 A Charactère 2 Enzyme 3 B Caractère 1 Enzyme 2 Caractère 2 Génotype et phénotype BbCc=Génotype [B]=Phénotype Le phénotype ne reflète pas nécessairement le génotype Microsatellites Primer1 Primer1 CTCTCTCT AGAGAGAG Primer2 CTCTCTCTCT AGAGAGAGAG Primer2 + - Hérédité mendelienne Gregor Mendel (1822-1884) Monohybridisme Dihybridisme Recombinaison Thomas Hunt Morgan (1866-1945) Recombinaison Thomas Hunt Morgan (1866-1945) Hybridation AABBaabb F1: 100% AaBb A B a b r Back cross: AABBAaBb (1-r) /2 AB, r/2 Ab, r/2 aB, (1-r)/2 abAB (1-r) /2 AABB, r/2 AABb, r/2 AaBB, (1-r)/2 AaBb F2: AaBb AaBb r100=[f(AABb)+f(AaBB)]100=Distance génétique en centimorgans II. Bases théoriques de génétique des populations 1. La population unité de base de l'écologie une notion démographique Un groupe d'individus partagent les mêmes paramètres démographiques Population 1 t Population 2 N1 Population 3 N2 Population 4 N3 N4 N3 N4 Multiplication et migration Régulation t+1 N1 N2 Taille constante des populations 2. Le modèle de Hardy et Weinberg Castle William E. (USA) (avec deux allèles equifréquents) (1903) Hardy Godfrey H. (GB) (1908) and Wilhelm Weinberg W. (DE) (1908) Une population Grande population N=∞ Reproduction strictement sexuée et panmictique Pas de mutation Pas de migration Pas de sélection Générations non-chevauchantes (discrètes) Hermaphrodites ou populations monoïques auto-compatibles 3. Proportions de Hardy-Weinberg Tableau des gamètes et des zygotes formés sous l'hypothèse panmictique ♂ - f( ) = p q p pp pq q qp qq =p + f( ) = q=1-p p= ♀ + + 1/2 + + f( ) = p² ; f( ) = 2pq ; f( ) = q² 4. Equilibre de Hardy-Weinberg AA Dt Aa Ht aa Rt Panmixie (hermaphrodites) Taille de population N~∞ Migration m=0 Mutation u=0 ft(A)=pt, ft(a)=qt=1-pt 1 Ht 2 pt NDt NH t NRt NDt N pt Dt 1 Ht 2 Dt 1 pt2 H t 1 pt qt qt pt 2 pt qt 2 Rt 1 qt Pas de sélection Générations discrètes pt 1 Dt 1 1 1 H t 1 pt2 2 pt qt pt pt qt pt 2 2 En une génération Equilibre de Hardy-Weinberg avec trois allèles AA At AB Bt AC Ct BB Dt BC Et CC Jt ft(A)=pt, ft(B)=qt , ft(C)=rt=1-pt-qt At 1 pt2 Bt 1 2 pt qt Ct 1 2 pt rt 2 D q t t 1 E 2q r t t t 1 J t 1 rt 2 1 1 pt At 2 Bt 2 Ct 1 1 qt Dt Bt Et 2 2 1 1 rt J t 2 Ct 2 Et 1 1 pt 1 p 2 pt qt 2 pt rt pt pt qt rt pt 2 2 2 t En une génération Hardy-Weinberg, hétérozygotie observée, hétérozygotie attendue, diversités génétiques et probabilités d'identité A1, A2 , ...Ai, ... AK p1, p2 ,... pi,...pK Hétérozygotie observée: Ho ou proportion d'hétérozygotes Hétérozygotie attendue: He="2pi(1-pi)" ou plutôt 1- ∑pi² Diversité génétique=probabilité de tirer deux allèles différents Diversité intra-individuelle HI=Ho Diversité génétique des sous-échantillons: HS=Moyenne{1- ∑pi²} Diversité génétique totale: HT=1- 𝒑𝒊 𝟐 HS=1− ∑pi²=1- 𝒑²𝒊 Probabilité d'identité= probabilité de tirer deux fois le même allèle Probabilité d'identité intra-individuelle: QI=proportion d'homozygotes Probabilité d'identité dans les sous-populations: QS=1-HS Probabilité d'identité totale: QT=1-HT 7. Pour plus d’un locus: les déséquilibres de liaison Locus B Locus A Deux loci A et B BB Bb bb AA Aa aa D2 H2 R2 D1 H1 R1 A→pA B→pB Gamètes ou haplotypes A_B: pA_B=pApB+Dt A_b: pA_b=pA(1-pB)-Dt a_B: pa_B=(1-pA)pB-Dt a_b: pa_b=(1-pA)(1-pB)+Dt pA=pA_B+pA_b pB=pA_B+ pa_B Dt=pA_B pa_b-pA_bpa_B Deux loci A et B Locus A Locus B AA Aa aa 11 12 22 D1 H1 R1 D2 H2 R2 A→pA B→pB Dt=pA_B pa_b-pA_bpa_B Gamètes pA_A=pApB+Dt pA_b=pA(1-pB)-Dt pa_B=(1-pA)pB-Dt pa_b=(1-pA)(1-pB)+Dt Si le taux de recombinaison est r et si la population suit Hardy-Weinberg p A _ B (t ) rp A pB 1 r p A _ B (t 1) rp A pB 1 r p A pB Dt 1 p A pB Dt rp A pB 1 r p A pB Dt 1 1 r Dt p A pB p A pB Dt 1 1 r Dt p A pB Dt Dt 1 1 r Dt D0 1 r t N grand Quelles forces évolutives génèrent du déséquilibre de liaison? Toutes: mutation, dérive, système de reproduction, sélection, migration et bien sûr le degré de liaison D II. Altérations des proportions de Hardy-Weinberg 1. Déficits en hétérozygotes Taenia solium Nasonia vitripenis Varroa destructor Endogamies Effet Wahlund Sousdominance Rh-Rh- Homogamie Rh+RhCauses techniques Allèles nuls Dominance des allèles courts Allelic dropout Stuttering III. Applications à un cas concret: La tique Ixodes ricinus en Europe du Nord Génétique des populations d'Ixodes ricinus et borréliose de Lyme en Suisse B. valaisiana B. garinii B. afzelii B. burgdorferi B. Spielmanii Génétique des populations d'Ixodes ricinus et borréliose de Lyme en Suisse Allozymes α-GPD PGM Absence de structuration et déficits en hétérozygotes Déficits en hétérozygotes pour les microsatellites 0.7 IR27 1 0.6 0.5 0.4 0.3 F is (partials) f (F is estimator) 0.75 0.5 0.2 0.1 0 IR8 IR25 IR27 IR32 IR39 All 0.25 0 -0.25 -0.5 Allèles nuls -0.75 -1 109 111 113 115 117 119 121 123 125 Allele size Dominance d'allèles courts 127 129 131 Distribution sexe spécifique du polymorphisme Biais de dispersion sexe spécifique des tiques B. valaisiana B. burgdorferi B. afzelii B. garinii Détection des Borrelia dans les tiques Pour Borrelia burgdorferi Prévalence of B. burgdorferi ss P =0.012 0.08 0.07 0.06 0.05 0.04 0.03 0.02 F M Sex of the tick Détection des borrélies dans les tiques Pour Borrelia afzelii Saines Infectées Saines Infectées Détection d'un effet Wahlund Utlisation du logiciel BAPS Clusters: FIS = 0.151, P-value ≤ 0.001. raw data FIS = 0.379, P-value ≤ 0.001. Wilcoxon signed-rank test, P-value = 0.032 => baisse de ~60%. Structure géographique Méthode des déséquilibres de liaison de Bartley: Ne=268 (données brutes), Ne=596 (un individu ou une femelle et un mâle par cluster BAPS) S~0.2 km² Densités efficaces: De~1300 tiques/km² (données brute), De~3000 tiques/km² (données BAPS) Distance de dispersion entre adultes reproducteurs et leurs parents: σ~100 m/génération (données brutes), σ~60 m/génération (données BAPS) Une génération ~ 3 années Détection de croisements entre apparentés Printemps 2006 Moyenne Jackknife Tests de Mantel entre matrice d'apparentement entre individus et statut apparié 1 ou non apparié 0 P-value bilatérale Clusters: FIS = 0.151 b Raw data FIS = 0.379 b 4 FIS 1 3FIS 0.42 4 FIS 0.71 1 3FIS Corrélation génétique entre individus appariés: r=0.6 [0.5, 0.65] Apparentements maximum possibles Différenciation entre espèces hôtes en contrôlant pour l'infra-population FIP/P moyenné et P-values combinées 2006 Larvae: birds, rodents 2007 Larvae: birds, lizard Nymphs: birds, lizard 2007 Nymphs: birds, roe dear Adults: roe deer, wild boar 2007 Nymphs: birds, roe dear FB-R=0.003 P-value=0.022 FB-R'=0.017 FB-RD=0.047 P-value=0.078 FB-RD'=0.12 FB-L=-0.002 P-value=0.977 FRD-WB=0.028 P-value=0.002 FRD-WB'=0.14 IV. Conclusions et recommandations Echantillonnage: une problème clé et pourtant trop souvent négligé -Echantillonner des individus de la même cohorte -Equilibrer le mieux possible les tailles des sous-échantillons -Au moins 20 individus par échantillons est souhaitable, et pas moins de 5 - Au moins 5 sous-échantillons mais plutôt 10 -Tenir compte de tous les facteurs susceptibles d'avoir un rôle (autant que faire se peut) et noter les coordonnées GPS Le choix des marqueurs est capital - Diploïde (si possible) - Codominants - Autosomiques - Pas moins de 5, 10-20 c'est mieux - Microsatellites dinucléotidiques (non codants) représentent en principe le meilleur rapport qualité/prix - Vérifier la constance d'un signal d'un locus à l'autre - Ne jamais hésiter à laisser de côté quelques loci outliers Le cas des haploïdes Virus Mosaïque du tabac Bactériophage Dengue Grippe HIV Ebola Bactéries Escherichia coli Eucaryotes haploïdes Dinophysis Alvéolaires Borrelia Plasmodium Salmonella Vibrio cholerae Helicobacter pilori Gregarina Taenia solium Diploïdes homozygotes La plupart des champignons Le cas des haploïdes Virus Bactéries Séquence complète Séquence complète, séquences, microsatellites Eucaryotes haploïdes ou ultra consanguins (homozygotes) A→AA→FST→ Structure, BAPS, AFC, ACP... Peu ou pas de zones non codantes Peu de zones non codantes