Génétique des populations – Génétique évolutive I) Introduction C’est la discipline la plus concernée par les problèmes de société actuels. Pour commencer il faut connaître quelques définitions : - Gène : unité d’information biologique, transmise au cours des générations et codant pour une fonction particulière. C’est une séquence d’une macromolécule (ADN ou ARN) transmise telle quelle (à de rares modifications près), transcrite et généralement traduite, ce qui permet l’expression d’une activité biologique (critères morphologiques, protéines…) On change d’échelle par rapport à la génétique formelle, on s’intéresse à de grandes populations avec un grand nombre de gènes (et aussi de nombreuses mutations). - Locus : historiquement, position du gène sur le chromosome. En génétique des populations, ensemble des gènes homologues (classe d’homologie). Deux chromosomes ou deux gènes sont homologues s’ils s’apparient et s’excluent mutuellement à la méiose. - Allèle : deux gènes homologues sont dits allèles quand ils ont des formes différentes, distinguables à un niveau d’observation donné. Un allèle peut donc correspondre à une seule séquence, ou à un ensemble de séquences différentes mais non distinguables au niveau du phénotype. (ex : couleur des yeux bleu/marron/vert mais au niveau du nucléotide on a beaucoup plus d’allèles différents, plusieurs par couleur). 1) Qu’est-ce que la génétique des populations, à quoi sert-elle ? Basée sur l’existence d’une variabilité génétique (mesurable) et de l’hérédité, elle concerne de nombreux gènes avec plusieurs allèles (couleur des yeux, isoenzymes, mutations ponctuelles…), ou des changements dans la fréquence allélique (évolution des populations ou des espèces). Des erreurs lors de la transmission sont la source de variabilité permettant l’évolution. Ces erreurs, faites par les polymérases, ne sont pas « négatives » puisqu’elles sont utiles à l’évolution. On peut faire des probabilités et des estimations de fréquence pour prédire les changements. La génétique des populations mesure la variabilité génétique dans et entre des populations, et retrace l’histoire évolutive des espèces : quantification et description. Elle explique les modifications observées dans le temps et dans l’espace par les forces évolutives, donnant des explications et des prédictions. « Rien en biologie n’a de sens, si ce n’est à la lumière de l’évolution » Th. Dobzhansky En systématique, on étudie la classification des êtres vivants. En physiologie, on étudie le fonctionnement des êtres vivants. La théorie de l’évolution justifie et explique la mise en place de fonctions (le hasard et la nécessité). La génétique des populations s’applique aussi à la biologie moléculaire (évolution moléculaire)… Les domaines d’application : - Médecine et génétique humaine : épidémiologie des maladies génétiques (mutation et sélection, 6000 connues chez l’homme), effets de la consanguinité, raison de l’augmentation de la myopie, de la galactosémie… - amélioration génétique animale et végétale : sélection artificielle. Le maïs dérive d’une plante sauvage, la téosinthe (produisant seulement 2 ou 3 grains) et la sélection a permis d’arriver à 200-300 grains. - OGM : dissémination, impact sur l’écosystème. Les problèmes d’espèces invasives, les réintroductions d’espèces, la conservation génétique, la biodiversité font intervenir la génétique des populations. Une population est un ensemble d’individus se reproduisant ensemble (à l’inverse, les espèces sont des ensembles d’individus potentiellement interféconds). Ce sont donc des individus de la même espèce qui ont la possibilité d’interagir entre eux au moment de la reproduction. Une population est une unité évolutive, les gènes sont différents selon les populations. C’est aussi une unité écologique, c’est un ensemble d’individus soumis aux mêmes pressions de sélection. Une population correspond à un pool génétique, un ensemble de génotypes individuels pour chacun des gènes : A1/A2 B1/B2/B3. On peut alors introduire des notions statistiques. Pour prévoir les proportions, on se sert des gamètes et de leur fréquence : la reproduction correspond au tirage au sort de gamètes dans deux urnes de gamètes (paternels et maternels). La génétique formelle s’intéresse à un génotype et aux gamètes, la génétique des populations concerne un ensemble de génotypes (fréquence) et au pool de gamètes (ou urne, encore une fréquence). La génétique des populations est donc probabiliste : - grand nombre d’individus - grand nombre de générations - grand nombre de populations - facteurs évolutifs multiples Tout ceci fait qu’il y a une grande difficulté à expérimenter. Il faut donc utiliser des simulations et des modélisations (et quelques calculs de probabilités). 2) Les théories de l’évolution Une théorie scientifique se base sur des observations pour la formulation d’une hypothèse (modèle). Celle-ci est rejetée ou améliorée à partir d’expérimentations. Il faut avoir un principe de parcimonie, la théorie la plus simple est la meilleure. La théorie de l’évolution sert à expliquer l’origine et la diversité des êtres vivants. Il y a tout d’abord eu des théories de créationnisme et de fixisme : - Carl von Linné (1707-1778) : la création unique - Cuvier (1769 – 1832) : créations successives (cataclysmisme) - Lamarck (1744 – 1829) : débuts du transformisme, hérédité des caractères acquis. Depuis on sait que les mutations et les changements sont aléatoires, il n’y a pas de transmission de caractères acquis aux descendants. Cependant, chez les virus, un état de stress augmente le taux de mutation, et des radiations (ou autres mutagènes) peuvent intervenir : l’environnement peut influer sur les caractères transmis. - Darwin (1809-1882) : première théorie scientifique indiquant le rôle du milieu dans la différenciation, et le rôle de l’isolement dans la spéciation. Il publie en 1859 « l’origine des espèces » avec le concept de « struggle for life » (lutte pour l’existence), idée apportée par Malthus. Celui-ci a été très important pour Darwin, il avait essayé de modéliser l’évolution des populations et des ressources (qui sont limitées). Les problèmes du Darwinisme étaient le support de l’hérédité et l’hérédité des caractères acquis. - Galton et les fondements de l’eugénisme (ex : 400 000 personnes stérilisées en Allemagne). Galton tire les conséquences pratiques du Darwinisme - Mendel (1865) : ses lois sont redécouvertes beaucoup plus tard, et permettent la naissance de la génétique des populations. La théorie vient de JBS Haldane, RA Fisher, et S Wright. L’expérimentation vient de L’Héritier et Teissier (« cages à populations »), ou de Ford (« la génétique écologique »). - Théorie synthétique de l’évolution (1937-1944) : Th. Dobzhansky, JS Huxley, E Mayr, GG Simpson. - Question centrale (1950-1960) : l’importance du polymorphisme dans les populations ? Selon Müller, il y a élimination des allèles défavorables, mais Dobzhansky pense plutôt à un polymorphisme équilibré. Le polymorphisme est en effet très élevé : d’où vient-il ? La théorie neutraliste de l’évolution moléculaire et la phylogénie moléculaire permettent de donner des réponses à cette question. - Motoo Kimura (1968) : mutations dues au hasard, la sélection existe mais la plus grande partie de la diversité est due au hasard par des mutations spontanées. On peut observer une horloge moléculaire : l’apparition de modifications d’acides aminés est régulière au cours du temps. Le pourcentage de substitution est proportionnel au temps de séparation des espèces, il dépend de la taille du génome et du type de gènes. - Actuellement : débat entre sélectionnistes et neutralistes : quelle importance pour chacun de ces deux phénomènes ? Kimura et Crow ont travaillé sur le neutralisme. Le nouveau terrain de bataille concerne les spéciations Théorie synthétique de l’évolution : - existence d’une variabilité - hérédité des caractères - sélection naturelle et hasard sont à l’origine de l’évolution des populations 3) La variabilité génétique Les caractères sont variables, il n’y a pas deux individus semblables. Cette variabilité est morphologique (peau…), chromosomique (nombre de chromosomes…), comportementale (cour que font les oiseaux avec le chant), physiologique (résistance au froid, à la sécheresse…), biochimique (protéines, enzymes) ou moléculaire (protéines, ADN). Les différences peuvent être individuelles ou géographiques (races ou variétés) : microsatellites (empreintes génétiques), couleur des vaches selon les régions, variétés de fleurs… Il faut qu’un caractère soit codé par un gène et qu’il soit transmissible. On peut alors se demander s’il y a un déterminisme génétique. Variabilité v = vG + vE + vG-E (E pour environnement et G pour génétique) Pour prouver le déterminisme génétique, il faut montrer qu’il s’agit d’un caractère héritable, avec ségrégation mendélienne. Il existe des caractères qualitatifs (discrets) et quantitatifs (poids). On s’intéresse aux caractères à fort déterminisme génétique (ex : quantité de lait produite), qu’ils soient qualitatifs (yeux : petit nombre de gènes, peu de caractères) ou quantitatifs (poids dicté par 40 à 50 gènes, taille : grand nombre de gènes). Variabilité épigénétique, plasticité phénotypique et mode de réaction : Des individus à génotype identique peuvent avoir des phénotypes différents selon le milieu (température…). Différents phénotypes sont possibles selon la « norme de réaction » (ex : larve – adulte, castes, variation saisonnière, homochromie…). Il existe une variation épigénétique due aux milieux instables : on peut citer par exemple le mourron rouge ou bleu selon la nature du sol. 3 phénomènes sont la source de la variabilité génétique : ségrégation méiotique (2n types de gamètes), recombinaisons et mutations (ponctuelles, remaniements chromosomiques). Les mutations somatiques disparaissent avec l’individu, mais les mutations affectant les gamètes sont transmises de génération en génération. La mutation est un phénomène aléatoire et a un effet aléatoire sur les individus (favorable, neutre, délétère, létal). On peut quantifier le degré de variabilité dans une population Exemple chez les drosophiles : pour les gènes morphologiques on a 3 à 5 mutations par individu à l’état hétérozygote, tout individu est porteur d’un allèle létal pour deux gènes en moyenne. Taux de polymorphisme P (proportion de gènes polymorphes parmi l’ensemble des gènes étudiés) : P = nombre de gènes polymorphes / nombre total de gènes étudiés. Un gène est dit polymorphe s’il existe au moins deux allèles, le plus fréquent ayant une fréquence inférieure ou égale à 95% (ou 99%). Sinon on parle de cryptopolymorphisme. Chez l’homme on a 30% de polymorphisme. Mais il y a un problème avec ce calcul : il ne tient pas compte du nombre d’allèles (même valeur s’il y a 200 allèles différents ou seulement 2). Le polymorphisme augmente aussi avec la taille de l’échantillon : si on se limite à peu d’individus (homme) la valeur trouvée sera inférieure à celle d’un grand échantillon (bactéries) : problème statistique. On se sert du taux d’hétérozygotie Ho : c’est la moyenne des fréquences d’hétérozygotes observés pour chacun des loci. Ho = Σ (Hi) x 1/N (Avec Hi hétérozygotie au locus i, et N nombre de loci) Chez l’homme, on arrive à Ho = 0,067 pour les loci enzymatiques (un individu est hétérozygote pour 6,7% de ses gènes). On trouve une hétérozygotie plus importante chez les invertébrés que chez les plantes, et encore moins importante chez les vertébrés. Les hyménoptères ont une hétérozygotie inférieure à celle des autres insectes car les mâles sont homozygotes (haploïdes, pas d’hétérozygotie possible puisqu’ils viennent de parthénogenèse) et les gènes létaux s’expriment, ce qui diminue la variabilité. Chez les espèces à effectif réduit, comme le guépard (P = 0,02 et Ho = 0,0004), la variabilité diminue énormément (on peut faire des greffes de peau sans rejet). Ceci empêche la reconnaissance du « soi », et provoque à terme la disparition de l’espèce. Une forte variabilité permet à terme de s’adapter aux changements du milieu, mais au contraire il y a une plus forte sensibilité aux parasites et aux pathogènes si les gènes d’histocompatibilité sont moins variables. Drosophile : enzymes groupe I P = 0,27 Ho = 0,04 très spécifiques Enzymes groupe II P = 0,70 Ho = 0,24 peu spécifiques Les enzymes à forte variabilité sont moins spécifiques, ce sont des enzymes « de ménage ». La diversité génique est la probabilité de tirer deux allèles différents à un même locus en tirant deux allèles au hasard dans la population : on l’estime par 2n (1 - Σ (pi²)) / (2n – 1) n : nombre d’individus étudiés, pi : fréquence de l’allèle i dans la population Ceci est valable quel que soit le degré de ploïdie et le mode de reproduction (ex : E. coli : diversité = 0,5). allèle fréquence 1 P1 2 P2 3 P3 Le polymorphisme enzymatique chez la drosophile peut être étudié, par électrophorèse des enzymes ADH et GDPH sur gel d’amidon. On révèle les protéines et on voit l’homozygotie ou l’hétérozygotie. FF sous unité F une bande FS sous unité F et S 2 bandes (si enzyme monomérique*) SS sous unité S 1 bande *Si l’enzyme était dimérique, on aurait trois bandes correspondant aux associations possibles : FF, FS et SS. On peut calculer les fréquences de F et de S et prévoir leur évolution. II) Le modèle de G. Hardy (mathématicien anglais) et W. Weinberg (médecin allemand) (1908) 1) Le modèle Constitution génétique des populations : Le modèle est parti de l’idée d’équilibre, de l’absence de changement des fréquences. On part d’un gène à deux allèles A et B, ayant une fréquence dans les gamètes respectivement p et q. La fréquence vaut p = nombre de A / total q = nombre de B / total On a donc p + q = 1 Probabilité de formation d’individus à la génération suivante : AA = p x p = p² AB = p x q + q x p = 2pq BB = q x q = q² Le total est bien égal à 1 : p² + 2pq + q² = (p+q)² = 1² = 1 Probabilité de formation de gamètes à la génération suivante : A = (p² + ½ x 2pq) / (p² + 2pq + q²) = p² + pq / 1 = p (p + q) = p B = (q² + ½ x 2pq) / (p² + 2pq + q²) = q² + pq / 1 = q (p + q) = q On a donc les mêmes probabilités de formation de gamètes qu’à la génération précédente, c’est un équilibre ! Mais pour ce faire on a dû utiliser quelques approximations et on n’a pas pensé à : - la sélection des individus (si AA survit mieux que BB…) - la fertilité des individus - la mutation - la migration des populations (augmentation de AA…) - la rencontre totalement au hasard, pas de choix = panmixie, n’est pas toujours nécessaire. - un petit nombre d’individus formés entraîne une dérive génétique (s’il n’y a que 10 descendants, même si la probabilité est de ½, on aura presque toujours une majorité de quelque chose) - la distorsion méiotique : à la méiose, il peut y avoir plus de gamètes avec A que de gamètes avec B formées 2) Gène lié au sexe Gamètes XA (fréquence p) XB (fréquence q) et Y, avec p + q = 1. Probabilité de formation d’individus : XA XA XA XB XB XB XA Y XB Y p² 2pq q² p q La formation des gamètes est alors : XA : (2 (p² + ½ 2pq) + p) / (2 (p² + 2pq + q²) + p + q) = (2 (p (p + q)) + p) / (2 (p+q)² + p + q) = (2p + p) / (2 + 1) = 3p / 3 = p XB : (2 (q² + ½ 2pq)) / (2 (p² + 2pq + q²) + p + q) = q 3) Fréquence différente entre mâle et femelle : Fréquence allélique : A p♂ et p♀, B q♂ et q♀. Individus : AA p♂ p♀, AB p♂ q♀ + q♂ p♀ Gamètes : A : (2 p♂ p♀ + p♂ q♀ + q♂ p♀ ) / = (2 p♂ p♀ + p♂ (1 - p♀ ) + p♀ (1 - p♂ )) / = (2 p♂ p♀ + p♂ - p♂ p♀ + p♀ - p♂ p♀ ) / = p♂ + p♀ / 2 B : q♂ + q♀ / 2 BB q♂ q♀ 2 2 2 Dans les conditions de Hardy Weinberg, l’équilibre est atteint après une génération si p♂ ≠ p♀. 4) A quoi sert l’équilibre ? A partir d’un tableau avec les effectifs des phénotypes : [1] [2] [3] Nombre n1 n2 n3 n1 + n2 + n3 = N On peut établir les fréquences phénotypiques [1] [2] [3] Fréquence n1 / N n2 / N n3 / N S’il s’agit de gènes co-dominants on peut en déduire les fréquences des gamètes : A : p = (2 n1 + n2) / 2N B : q = (2 n3 + n2) / 2N On peut alors vérifier si la population est à l’équilibre de Hardy Weinberg, en vérifiant si l’on obtient le même nombre d’individus AA à partir du produit p² x N. Exemple : Groupe sanguin [M] [MN] [N] Génotype MM MN NN Nombre 22 216 492 Fréquence 0,03 0,30 0,67 Dans les gamètes, p = (2 x 22 + 216) / (2 x 730) = 0,18 q = (2 x 492 + 216) / (2 x 730) = 0,82 Autre méthode, à partir des fréquences des phénotypes : p = 0,03 + 0,3/2 = 0,18 q = 0,67 + 0,3/2 = 0,82 On va alors tester les hypothèses : H0 : population à l’équilibre H1 : population pas à l’équilibre On teste la conformité des valeurs expérimentales à une loi théorique, pour cela on va se servir du χ². Cette valeur permet d’évaluer la différence entre ce qui est attendu et observé : χ² = Σ ( ( effectif théorique – effectif observé)² / (effectif théorique) ) Cette valeur va être comparée avec celle de la table du χ², pour laquelle on a besoin du ddl et de α. α : pourcentage d’erreur accepté, généralement 5% (donc 0,05), parfois 1%. Ddl : degré de liberté = nombre de comparaisons – 1 – nombre de paramètres indépendants estimés pour calculer les valeurs théoriques Si p + q = 1, p et q ne sont pas indépendants, on n’estime que p et on trouve q ! Donc ddl = nombre de comparaisons – 1 – 1 Dans le cas de l’exemple, Fréquences attendues p² = 0,0324 Effectifs attendus 23,65 Effectifs observés 22 2pq = 0,295 215,5 216 q² = 0,672 490,85 492 χ² = 0,118 Ici ddl = 3 – 1 – 1 = 1 Donc le seuil de χ² = 3,84 (cf tableau) n’est pas atteint. On ne rejette pas l’hypothèse avec un risque de 5%. 5) Cas d’un allèle dominant A > a Phénotype Effectifs Génotypes [1] n1 AA et Aa [2] n2 aa On ne peut pas tester si la population est à l’équilibre, la seule chose à faire est de supposer qu’elle l’est : AA p², Aa 2pq, aa q² n1 = (p² + 2pq) N n2 = q² N q = √( n2 / N) p = 1 - √( n2 / N) III) Les dérives au modèle de Hardy Weinberg 1) Mutations u : taux de mutation par gamète et par génération Il faut une population diploïde, des générations non chevauchantes et toutes les autres de conditions de Hardy Weinberg respectées. C’est une mutation récurrente, qui se produit régulièrement. Génération n A pn a qn Génération n+1 A pn+1 a qn+1 pn+1 = pn – u pn = pn (1 – u) pn+2 = pn+1 – u pn+1 = pn+1 (1 – u) = pn (1 – u)² On en déduit l’équation de récurrence : pn+x = pn (1 – u)x Il existe deux méthodes pour connaître l’équilibre : * équilibre atteint quand x ∞ : dans ce cas p 0 * équilibre atteint quand Δp = 0, Δp = pn+1 - pn = pn (1 – u) - pn = - u pn u est une constante, donc Δp = 0 quand pn = 0. Ceci signifie que l’équilibre sera atteint quand p = 0, quand A aura disparu. Exemple : pn = 1, u = 10-6 pn+10 = 0,99999 Il faudra énormément de temps pour la disparition de A… Mais on a négligé la mutation reverse : pn+1 = pn – u pn + v qn A l’équilibre, Δp = 0 = pn+1 - pn = pn – u pn + v qn - pn = v qn – u pn u pn = v qn u pn = v (1 – pn) u pn = v – v pn (u + v) pn = v pn = v / (u + v) Exemple : u = 10-5, v = 10-5 : il faudra 6930 générations pour que l’écart entre pn et pe (équilibre) soit réduit de moitié. Une séquence de 900 nucléotides permet 4900 formes différentes, ce qui est énorme. Mais il y a des mutations beaucoup plus probables que d’autres, des éléments transposables… 2) La dérive génétique L’équilibre de Hardy Weinberg repose notamment sur l’hypothèse que le nombre d’individus dans la population est infini. Or ceci n’est pas vrai et par le fait du hasard certains allèles seront plus représentés à la génération suivante. Un urne de gamètes quasi infini (énormément de gamètes produits) est à l’origine d’un nombre réduit d’individus, et on ne peut pas prédire l’évolution des fréquences alléliques au cours du temps à cause de fluctuations aléatoires. Loi binomiale : moyenne P et nombre de tirages dans un total de 2N P (nombre de A transmis = x) = Cx2N px q(2N-x) Avec Cx2N = 2N ! / (x ! (2N –x) !) Remarque : rappel mathématique sur les factorielles : on note n! le produit de 1x2x3…x n. De cette manière, 3 ! = 1 x 2 x 3 = 6 Donc si p = q = 0,5 au départ, et que 2N = 4 (2 individus formés, tirage 4). P(x = 0) = C04 x 0,50 x 0,54 = 0,0625 P(x=1) = C14 x 0,51 x 0,53 = 0,25 P(x=2) = C24 x 0,52 x 0,52 = 0,375 Donc la probabilité de transmettre 0 A est de 0,0625. Celle de transmettre 1 A est de 0,25 et celle de transmettre 2 A est de 0,375. Nombre de A/a probabilité Gamètes : p Gamètes : q 0A4a 0,0625 0 1 1A3a 0,25 0,25 0,75 2A2a 0,375 0,5 0,5 3A1a 0,25 0,75 0,25 4A0a 0,0625 1 0 On a 5 classes, ayant des probabilités différentes d’apparaître. Si on tombe dans les classes de bord (p = 1 ou q = 1), on ne peut plus en sortir (gamètes uniquement A ou uniquement a). Les autres classes permettent une sortie, on n’y reste pas définitivement. Les classes de bord sont donc appelées « bords absorbants », a terme on va perdre un des deux allèles et avoir une population homozygote. La moyenne de la loi binomiale est p et sa variance est pq / 2N. La variance est inversement proportionnelle à la population. On peut faire le tableau : Génération\Classe 0 1 2 3 4 7 8 ∞ 0/2N 0 0,0625 0,166 0,249 0,311 0,420 0,440 0,5 1/2N 0 0,25 0,21 0,16 0,12 0,05 0,038 0 2/2N 1 0,375 0,246 0,181 0,135 0,057 0,043 0 3/2N 0 0,25 0,21 0,16 0,12 0,05 0,038 0 4/2N 0 0,0625 0,166 0,249 0,311 0,420 0,440 0,5 La dérive entraîne la diminution du nombre d’allèles et donc de la variabilité génétique. Dans les petites populations, la perte de variabilité génétique se fait beaucoup plus rapidement, avec un phénomène de consanguinité (conduisant à la perte des hétérozygotes). A terme, toute la population sera composée d’individus consanguins, entraînant une hétérozygotie très faible. Cette dérive génétique est très importante en biologie de la conservation. L’expérience de Buri (1956, sur les drosophiles) a mis en évidence cette dérive de façon expérimentale. Il a utilisé 108 populations avec n = 16 individus hétérozygotes bw7s / bw. Après 19 générations avec n constant, panmixie et absence de migration, il a obtenu une fixation de bw ou de bw7s dans la majeure partie des populations. Cette distribution est en accord avec la théorie de la dérive, mais le résultat obtenu a été encore plus flagrant que prévu, les 16 individus se sont comportés comme s’il n’y en avait que 12. Il existe différents cas de dérive : - effectif faible et constant : variabilité génétique faible - passage par un effectif réduit pendant une ou plusieurs générations, causant une « révolution génétique », une modification de la proportion des allèles. On parle de goulot d’étranglement ou bottleneck en anglais. Ceci peut modifier très fortement la constitution génétique de la population, diminuant transitoirement la variabilité, surtout dans les populations isolées ou semi-isolées. - fondation de populations par un petit nombre d’individus : c’est l’effet fondateur, il y a diminution transitoire de la variabilité (exemple : population d’Allemands en Amérique, les Dunkers, avec anémie élevée). En Islande aussi un tel effet a eu lieu, et le groupe sanguin O est très élevé, on pense cependant que cela pourrait être lié à une résistance à certaines maladies donnée par ce groupe sanguin. Exemple de Poecilopsis monarcha L’immigration permet de réduire la chute de variabilité. 3) Notion d’effectif efficace L’effectif de la population N estime mal l’effet de la taille de la population sur des fréquences alléliques. Le nombre d’individus varie au cours des générations, et un certain nombre ne se reproduit pas (stérilité…), le nombre de descendants par individu varie, le nombre de mâles peut différer du nombre de femelles… On a donc introduit la notion d’effectif efficace Ne, qui est l’effectif d’une population idéale qui montrerait le même taux de dérive, ou la même augmentation de consanguinité, ou la même augmentation de variance de fréquence allélique entre populations que la population étudiée. Une population d’effectif N se comporte comme une population d’effectif Ne idéale. Une population idéale (= population de Wright Fisher) : - de taille finie, N, constante - diploïde ou haploïde, isolée - régie de reproduction panmictique - sans sélection ni mutation - nombre de gènes transmis par individu suivant la loi binomiale de paramètres (2N, 1/N) : chaque individu a le même nombre de descendants. - 50% de mâles et 50% de femelles - la dérive est la seule force évolutive Le calcul de Ne se fait de la façon suivante : Ne = (4 N♂ N♀) / (N♂ + N♀) Exemple : N♂ = 1 et N♀ = ∞ Ne = (4 x 1 x ∞) / (1 + ∞) = (4 x 1 x ∞) / (∞) = 4 Le comportement d’une population d’un mâle et de l’infini de femelles est le même que celui de deux mâles et deux femelles. En cas de reproduction variable selon les générations Ne = x / Σ(1/Ni) avec Ni effectif réel à chaque génération et x nombre de générations Exemple : 50 – 200 – 800 – 3200 – 12 800 donne un Ne de 188. Autre exemple : la taille de la population chez un conifère de Nouvelle-Zélande : Halocaprus bidwillii (adapté de Billington 1991). Elle a un changement d’hétérozygotie H par génération, H = 1 / 2Ne. Chez cette espèce, l’hétérozygotie augmente avec la taille de l’effectif de la population. La population minimum viable (MVP) est la taille minimale d’une population pour éviter son extinction. Michael Soulé (1980) a fixé une valeur arbitraire maximale acceptée de consanguinité de 1% par génération, soit un Ne = 50. Franklin (1980) a défini une taille de population minimale de 500 à long terme, pour prendre en compte la perte de la variation. Les deux concepts réunis donnent la règle du 50/500. Enfin une dernière théorie de 1995 dit que pour maintenir un équilibre entre mutation et dérive, la taille effective de la population doit être de 5000 individus. 4) La sélection A) généralités Selon la formulation dans le concept de la sélection naturelle (Darwin), « dans chaque espèce, il y a plus de descendants produits que ce qui pourra survivre et se reproduire ». Les individus diffèrent dans leur capacité à survivre et se reproduire, en partie à cause de leurs différences génotypiques. La sélection effectue un tri parmi les différents individus, ce qui influe sur la fréquence des gènes qui augmente ou diminue. A chaque génération, les génotypes favorisant la survie et l’accès à la reproduction dans l’environnement actuel sont sur représentés à l’âge de reproduction et ils contribuent donc de façon disproportionnée à la constitution et à la descendance des générations suivantes. La sélection peut être - compétitive : les w (valeur sélective) varient selon la fréquence des autres génotypes - non compétitive : les w sont constantes ou varient en fonction des paramètres de l’environnement La sélection compétitive est importante car généralement les ressources sont limitées. L’activité de la sélection (environnement, concurrence avec d’autres gènes) se fait sur l’individu mais se voit au niveau des gènes. Il y a sélection si les différents génotypes ne participent pas de façon égale à la constitution génotypique de la génération suivante. B) Valeur sélective La valeur sélective w d’un individu est le nombre moyen de descendants fertiles laissés par cet individu à la génération suivante, elle dépend de : - la viabilité du zygote - la durée de la période reproductive - l’aptitude aux croisements (sélection sexuelle) - la quantité de gamètes produits Elle se décompose en viabilité et fertilité. Valeur sélective Coefficient de sélection sAA = 1 - wAA AA wAA sAA AB wAB sAB BB wBB sBB wAA se calcule à partir de (Effectif de AA à la génération n+1) / (Effectif de AA à la génération n), puis on affecte 1 au plus élevé et on calcule les autres relativement au 1. Les w sont des valeurs relatives, on affecte la valeur de 1 au w le plus grand. La valeur sélective moyenne de la population vaut ŵ = wAA f(AA) + wAB f(AB) + wBB f(BB) Car probabilité de survie (valeur sélective) x fréquence = descendance Exemple : Effectif n Effectif n+1 Valeur sélective absolue Valeur sélective relative AA 30 60 60/30 = 2 wAA = 1 AB 50 90 90/50 = 1,8 wAB = 0,9 BB 20 30 30/20 = 1,5 WBB = 0,75 Σ 100 180 C) Le modèle de base de la sélection a) Sélection en phase haploïde L’allèle donnant un avantage au gamète qui le porte se fixe dans la population. A B pn qn w1 w2 pn+1 = (w1 pn) / (w1 pn + w2 qn) Δp Δp Δp Δp = (w1 pn) / (w1 pn + w2 qn) - pn = ( (w1 pn) - pn (w1 pn + w2 qn) ) / (w1 pn + w2 qn) = ((w1 pn) (1 - pn) - w2 pn qn) / (w1 pn + w2 qn) = (w1 pn qn - w2 pn qn) / (w1 pn + w2 qn) = pn qn (w1 - w2) / (w1 pn + w2 qn) A l’équilibre, Δp = 0 soit pn qn (w1 - w2) = 0 pn = 0 ou qn = 0 ou (w1 - w2) = 0 soit w1 = w2. A ou B vont se fixer dans la population. b) Sélection en phase diploïde AA pn² w1 AB 2 pn qn w2 BB qn² w3 pn+1 = (w1 pn² + ½ w2 2 pn qn) / (w1 pn² + w2 2 pn qn +w3 qn²) Δp Δp = ((w1 pn² + ½ w2 2 pn qn) / (w1 pn² + w2 2 pn qn +w3 qn²)) - (pn² + pn qn ) = ((w1 pn² + w2 pn qn) / ŵ) - (((pn² + pn qn ) (w1 pn² + w2 pn qn +w3 qn²)) / ŵ) On ne va pas détailler la simplification… Δp = pn qn (pn (w1 - w2 ) + qn (w2 – w3 ) ) / ŵ Δp = 0 si pn = 0 ou qn = 0 ou pn (w1 - w2 ) + qn (w2 – w3) = 0 d’où pe (w1 - w2 ) + qe (w2 – w3) = pe (w1 - w2 ) + (w2 – w3) – pe (w2 – w3) = pe (w1 + w3 – 2 w2 ) + (w2 – w3) pe = (w3 – w2) / (w1 + w3 – 2 w2 ) Le signe de Δp dépend de pn (w1 - w2 ) + qn (w2 – w3) car pn et qn sont positifs. * Si Δp > 0 avec w1 > w2 > w3 c’est à dire avantage à A. pn (w1 - w2 ) > 0 et qn (w2 – w3) > 0 Pour toute valeur de pn on peut voir graphiquement le Δp. Il est toujours positif (p augmente). Donc pn+1 = pn + Δp. Comme il n’y a que des nombres positifs, pn+1 > pn * Si Δp < 0 avec w1 < w2 < w3 c’est à dire avantage à B pn (w1 - w2 ) < 0 et qn (w2 – w3) < 0 Pour toute valeur de pn on peut voir graphiquement le Δp. Il est toujours négatif (p diminue). Donc pn+1 = pn + Δp. Comme il y a Δp < 0, pn+1 < pn * Si w1 > w2 et w2 < w3 c’est à dire désavantage à l’hétérozygote * Si w1 < w2 et w2 > w3 c’est à dire avantage à l’hétérozygote Il y a donc différents cas possibles : - l’allèle avantagé se fixe si w1 > w2 > w3 ou w1 < w2 < w3 - avantage à l’hétérozygote, maintien des deux allèles dans la population avec pe = (w3 – w2) / (w1 + w3 – 2 w2 ) - désavantage à l’hétérozygote c) quelques définitions La superdominance ou surdominance est l’avantage fonctionnel de l’hétérozygote. L’hétérosis est la vigueur hybride, employé en sélection (comme la sélection dans les cultures). On a w constante, AB a un avantage intrinsèque. On parle de superdominance marginale pour une valeur sélective moyenne de l’hétérozygote supérieure à celle des homozygotes sans que sa valeur sélective intrinsèque soit supérieure (w non constant). environnement 1 : wAA > wAB > wBB environnement 2 : wAA < wAB < wBB d) Exemples La phalène du bouleau carboniaria C > typica c En 1897 il n’y avait que la typica, carbonaria était très rare (première capturée en 1848). 1905 f(carbonaria) = 37% 1952-1953 f(carbonaria) = 90% 1897 f(typica) > 99% 1905 f(typica) = 32% Le taux de mutation serait de 1,86.10-2, ce qui est beaucoup trop élevé. Il a du sans doute intervenir un phénomène de dérive, et surtout une cause sélective : la prédation ! Une expérience de lâcher - recapture (Kettlewell 1950) : Dans la zone polluée on a 25% de clairs et 53% de noirs recapturés Dans la zone non polluée 12,5% des clairs et 6% des noirs recapturés. Suite à la dépollution, la forme sombre disparaît, passant de 90% à 10%. Anémie falciforme, maladie létale récessive. Il existe un avantage à l’hétérozygote AA AS SS fréquences pn² 2 pn qn qn² w 1 1 0 Normalement il devrait y avoir fixation de A (cas de l’Europe), mais la valeur sélective a été modifiée dans les populations africaines, où AS est fréquent à 10-15%. wAA < 1 wAS = 1 wSS = 0 C’est lié au paludisme, car si on compare les zones où la fréquence de l’anémie (12%) est plus élevée et celles où le paludisme est élevé, elles correspondent exactement. Les hétérozygotes ne meurent presque jamais du paludisme, les homozygotes sains ou malades en meurent plus souvent ! Dans les populations afro-américaines, l’effet migratoire a entraîné une fréquence plus élevée qu’en Europe de l’allèle βS de l’anémie, mais la fréquence de 6% actuelle correspond exactement au nombre de générations écoulées. C) Le maintien du polymorphisme génétique - avantage aux hétérozygotes, les individus ayant une valeur sélective constante (w constantes) - sélection différente entre phase haploïde et phase diploïde - sélection à valeur sélective dépendant du sexe - sélection dans un environnement hétérogène (dite multi habitats) - sélection variable au cours des générations ou du temps (saisons, stades larvaires/adulte…) - sélection fréquence dépendante (ex : avantage au rare : auto incompatibilité, mimétisme) L’avantage au rare par mimétisme batésien (de Henry Bates) consiste en la ressemblance d’une espèce vulnérable à une autre dangereuse ou toxique. C’est un mécanisme de protection dont l’exemple classique est celui du Monarque (toxique) et du Vice-roi (non toxique). Les prédateurs vont manger de préférence les Vice-rois les moins ressemblants au Monarque, car ils ont fait des mauvaises expériences avec le Monarque. Mais si le nombre de Vice-rois augmente trop, les prédateurs ne tombent plus très souvent sur des Monarques et mangent indifféremment les formes ressemblant ou pas au Monarque. Le mimétisme donne donc un avantage s’il est rare uniquement Si la forme mimétique devient fréquente, son avantage est perdu. La sélection sexuelle se fait si les sexes sont bien différenciés par sélection de caractères attractifs (inter sexuels) ou par compétition entre individus pour attirer l’autre sexe. Des attributs sexuels secondaires vont être développés (chant, plumage…). Les femelles associent ces caractères à leur vigueur, les descendants produits seraient plus vigoureux. L’investissement parental déterminerait l’investissement dans le choix du partenaire (avec soins aux descendants importants) ou dans le nombre de partenaires (avec nombre de descendants élevé). Ce sont des indicateurs de la qualité du partenaire. On retrouve cela en ethnologie, la taille des hanches des femmes ou son statut social et sa fortune seraient liés à sa capacité à élever un enfant. 5) Croisements non panmictiques Les écarts à la panmixie peuvent venir de : - autofécondation - homogamie (l’homme choisit de préférence un partenaire de même taille et couleur d’yeux) - hétérogamie - consanguinité : croisement entre apparentés avec consanguinité de choix, de position, ou due au faible effectif. a) Autofécondation AA AA BB BB AB ¼ AA ¼ BB ½ AB Les hétérozygotes diminuent de moitié à la génération suivante. L’hétérozygotie diminue au profit de la formation d’homozygotes. Si on considère les fréquences D0 (AA), H0 (AB), S0 (BB) initiales, après n générations : Hn = H0 x (½) n Dn = D0 + (1 - (½) n ) x ½ x H0 Sn = S0 + (1 - (½) n ) x ½ x H0 A l’équilibre, Dn D0 + ½ x H0 et Sn S0 + ½ x H0 Les fréquences génotypiques changent mais les fréquences alléliques ne changent pas. b) Homogamie Si elle est génotypique, il n’y que des croisements identiques à l’autofécondation, et on obtient le même résultat, à condition que cette homogamie soit très forte et très stricte. Par contre, si l’homogamie est phénotypique, on peut avoir le cas : A bleu, a vert, A>a Il n’y aura que des croisements Aa ou AA x Aa ou AA et aa x aa La perte de l’hétérozygotie sera plus lente. En résumé, l’homogamie génotypique fait tendre la fréquence des hétérozygotes vers 0, l’homogamie phénotypique totale donne le même résultat mais l’équilibre est atteint plus lentement et l’homogamie génotypique ou phénotypique partielle n’entraîne pas la disparition des hétérozygotes, mais donne une fréquence inférieure à celle attendue en hétérozygotes. c) Consanguinité Deux individus sont dits apparentés lorsqu’ils ont un ou plusieurs ancêtres communs coefficient de parenté. Un individu est dit consanguin lorsqu’il est issu de deux individus apparentés coefficient de consanguinité. Deux allèles identiques par descendance proviennent de la copie d’un même allèle ancestral. Ils ont forcément le même état allélique, mais la réciproque n’est pas vrai (des allèles identiques par descendance sont nécessairement AA, BB, aa… mais des allèles dans le même état AA, BB, aa… ne sont pas nécessairement identiques par descendance, ils peuvent être identiques de deux sources différentes). Un individu autozygote possède deux allèles identiques par descendance à un locus donné, sinon il est allozygote. Seul un individu consanguin peut être autozygote. Exemple : transmission d’allèles d’un même locus dans un croisement frère - sœur : Les ancêtres communs (I) ne sont ni consanguins ni apparentés, et seul III 1 est autozygote. Le coefficient de consanguinité (Malécot 1948) noté fI est la probabilité qu’un individu porte à un locus donné deux allèles identiques par descendance (autozygote). Ces allèles proviennent de la copie sans mutation d’un allèle présent chez un ancêtre commun aux deux parents consanguins. Le coefficient de parenté est la probabilité qu’un allèle pris au hasard d’un locus donné chez un individu soit identique par descendance à un allèle pris au hasard au même locus chez un autre individu. Ce coefficient de parenté entre deux individus est donc égal au coefficient de consanguinité de leurs éventuels descendants. La probabilité de transmission de B et C à G et H est de (½)n L’ancêtre commun a ¼ de chance de transmettre aux deux descendants le premier allèle, et ¼ de chances de transmettre son second allèle aux deux descendants, au total 1 chance sur 2 de transmettre deux fois le même allèle. Par contre, s’il est consanguin, il transmet toujours le même allèle. Par conséquent la transmission de A à B et C d’un allèle identique est de ½ + ½ fA avec fA = consanguinité de l’ancêtre A. Car il y a ½ de chance de transmission d’un même allèle, et ½ de chance de transmettre les 2 allèles aux descendants, ces deux allèles étant identiques avec une probabilité fA. P1 = ½ + ½ fA = ½ (1 + fA) Et au total P = (½)n ½ (1 + fA) = (½)n+1 (1 + fA) On supposera fA = 0 si on ne connaît pas la consanguinité de l’ancêtre. Sachant qu’il y a plusieurs ancêtres communs, et plusieurs chaînes de parenté, le coefficient de consanguinité vaut : fI = Σ(ancêtres communs) Σ(chaînes de parenté) (½)n+1 (1 + fA) Dans le cas d’un individu issu d’un croisement frère – sœur, on peut représenter les chaînes de parenté suivantes : On recherche les ancêtres communs : ce sont A et B La consanguinité des ancêtres communs n’étant pas connue, on l’estime à 0. On recherche les chaînes de parenté pour chaque ancêtre commun : KAL et KBL. Elle comprend 3 individus. On peut alors calculer fI = (½)3 (1 + fA) + (½)3 (1 + fB) = 1/4 Donc I est autozygote pour ¼ de ses gènes. F = 1/4 x + 1/8 y + 1/16 z F est le coefficient de consanguinité dans la population x le nombre de croisements frère – sœur y le nombre de croisements avec oncle ou tante z le nombre de croisements entre cousins germains Dans le cas d’un gène à 2 allèles A et B codominants, on a f(AA) = p² (1-F) + F p On a p² (1-F) qui correspond à la fréquence de AA hors consanguinité, et Fp qui correspond à la fréquence de A de l’ancêtre qui aurait transmis cet allèle à un autozygote. f(AA) = p² (1-F) + F p = p² - p² F + F p = p² + F p (1 – p) = p² + F p q f(BB) = q² + F p q f(AB) = (1 – F) 2pq = 2pq – Fpq Il y a diminution de la fréquence d’hétérozygotie et augmentation de l’homozygotie dans le cas de la consanguinité. Un allèle de fréquence 10-3 a une probabilité d’être homozygote 62 fois supérieure pour un individu issu d’un croisement consanguin entre cousins germains qu’en cas de panmixie classique. Remarque : plus un allèle récessif est rare, plus l’apparition de l’homozygote récessif sera augmentée dans les croisements consanguins. Remarque 2 : aucun effet sur une maladie dominante. La dépression de consanguinité est un effet important : l’accumulation de croisements consanguins conduit à l’augmentation des homozygotes, notamment pour des allèles récessifs délétères. Le coefficient d’apparentement est la proportion de gènes identiques entre deux individus : Par exemple dans les espèces pas totalement diploïdes comme l’abeille dont les mâles sont haploïdes et les femelles diploïdes, le coefficient d’apparentement reine-fille = ½ fille-fille = ¾ 6) La migration C’est le modèle île - continent, avec un taux de migration m du continent vers l’île. C’est une migration unidirectionnelle continent île, avec un flux migratoire m constant, la population du continent étant à l’équilibre de Hardy Weinberg pour le locus considéré, la migration étant indépendante du génotype considéré. Gène à 2 allèles A (pi,n et pc,n) et B (qi,n qc,n) Sur l’île on a 1-m de l’île et m du continent en n+1 : pi,n+1 = (1-m) pi,n + m pc,n A l’équilibre, Δp = 0 = pi,n+1 - pi,n = (1-m) pi,n + m pc,n - pi,n = m pc,n - m pi,n = m (pc,n - pi,n) Donc m = 0 ou pc,e = pi,e Les fréquences vont se moyenner et s’égaliser. Il y a homogénéisation de la population. Plus le flux génique (m) est important, plus l’équilibre sera atteint rapidement. La migration peut apporter des allèles nouveaux où il n’y en avait pas, ou restaurer des allèles disparus, ce qui augmente la variabilité. A quelle vitesse l’écart entre les populations va-t-il se réduire ? En = pc,n - pi,n En+1 = pc,n+1 - pi,n+1 En+1 = pc,n – [m pc,n + (1-m) pi,n ] En+1 = pc,n (1-m) - (1-m) pi,n En+1 = (1-m) (pc,n - pi,n ) Or pc,n - pi,n = En En+1 = (1-m) En En+2 = (1-m) En+1 = (1-m)² En Ainsi En+x = (1-m)x En Hs1 = 2p1q1 Hs2 = 2p2q2 Hs3 = 2p3q3 Ĥi = (Hi1 + Hi2 + Hi3) / 3 Ĥs = (Hs1 + Hs2 + Hs3) / 3 L’indice de Wright FIS = (Ĥs – Ĥi) / Ĥs, lorsqu’il est égal à 1, indique que la population est à l’équilibre de Hardy Weinberg. Si on regroupe les 3 populations en considérant qu’elles échangent des gènes (m très élevé), on peut calculer Ht = 2pq. FST = (Ht – Ĥs) / Ht mesure la structuration des populations Si FST = 0, Ht = Ĥs et cela correspond à une seule population, il n’y a pas de structuration. Si FST = 1, la structuration est maximale, la population est totalement différente. Exemple : A p1 = 0, q1 = 1 Hs = 0 B p2 = 1, q2 = 0 Hs = 0 Ĥs = 0, p = ½, q = ½, Ht = 1 Ceci permet de savoir s’il y a des migrations Valeurs de FST 0 – 0,05 faible diversification 0,05 – 0,15 diversification modérée 0,15 – 0,25 diversification élevée 0,25 – 1 diversification très élevée FST = 1 Chez l’homme, FST = 0,088, soit 9% de la variation expliquée par la différenciation en groupes majeurs, et 91% par la variation intra groupes (ceci démontre donc que les théories sur les races n’ont aucun fondement, puisque cela influe qu’à 9% sur la variation). Prendre en compte l’ensemble du génome, c’est développer des mesures de distance génétique globale. Exemple d’effets combinés : Mutation A a avec taux de mutation u, avec une sélection défavorable sur a. On est à l’équilibre si Δp (mutation) = - Δp (sélection).