2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Le Modèle Génétique et le cas biallélique Bibliographie A. Gallais 1990. théorie de la sélection en amélioration des plantes. Collections Sciences Agronomiques Masson Falconer and Mackay Introduction to quantitative genetics, Longman, 4ème Edition, 1996. I. Introduction de la notion d’héritabilité, effets génétiques et environnementaux La valeur d’un phénotype résulte d’effets génétiques et environnementaux. La réalité biologique est très complexe : de nombreux gènes interagissent en réseaux, leurs interactions ne sont pas linéaires et dépendent des facteurs environnementaux. Pour autant, cette complexité, quasiment inaccessible à une compréhension ou modélisation exhaustive, n’empêche pas, à défaut de l’expliquer, de décrire la variation phénotypique simplement au travers d’une approche biométrique. Il suffit que cette modélisation (la génétique quantitative) ait un minimum de portée prédictive au moins à court terme (quelques générations) pour justifier son intérêt. Si ce modèle peut rendre cause de la ressemblance entre les individus apparentés, il peut servir à étudier la transmission des caractères. (a) première étape : centrer le phénotype Le but de la GQ (génétique quantitative) est d’obtenir une approche statistique de la variation du caractère entre individus dans une population. Ainsi, cette approche ne prédira pas la valeur absolue d’un caractère (« la taille de cet individu est 1.50 cm ») mais raisonnera en termes de déviation par rapport à une référence qui est la moyenne actuelle de cette population (« cet individu fait 20 cm de moins que la moyenne »). La première étape est donc de « centrer » les mesures de phénotype en écrivant Z=µ+P Où Z est le phénotype dans son échelle de départ (par exemple la taille 1.50cm) ; µ est le phénotype moyen de la population (par exemple 1.70 cm) et P le phénotype centré (par exemple -0.20 cm). Travailler sur P au lieu de Z a plusieurs avantages : (i) éviter de poser des questions qui n’ont pas de sens (par exemple : est-ce que la taille de cet individu est 1.50m à cause des gènes ou à cause de l’environnement ?; alors que la question «est-ce que untel a une taille inférieure à la moyenne à cause de ses gènes ou à cause de ses conditions de vie ou les deux ? a un sens)) (ii) La moyenne de P est par définition zéro, ce qui est très pratique pour les modèles qui suivent... (b) deuxième étape : décomposer P en effets génétiques et environnementaux On écrit simplement P = G + E + GxE P : le phénotype, G le génotype et E l’environnement. Le terme GxE signifie qu’il y a une interaction entre les gènes et les conditions environnementales, c'est-à-dire que les effets des différents gènes en présence ne réagissent pas de la même façon aux conditions de l’environnement. Cette interaction doit être écrite pour un modèle parfaitement général ; 1 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David mais dans le reste de ce chapitre, on néglige ces effets (faisant implicitement l’hypothèse que le système se comporte comme si les effets du génotype et ceux de l’environnement s’additionnaient). Donc P=G+E La variance du phénotype (qui mesure sa quantité de variation dans la population) peut s’écrire V(P) = V(G) + V(E) + 2 cov(G,E) Où V(P) est la variance phénotypique, V(G) la variance génotypique et cov(G,E) la covariance entre les deux effets. Cov(G,E) est non nulle si les effets génétiques et environnementaux ne sont pas statistiquement indépendants : c’est-à-dire si les génotypes ne sont pas distribués aléatoirement entre les environnements (i.e. si certains génotypes sont plus représentés dans certains environnements). Lors d’expérimentations contrôlées, cov(G,E) est nulle le plus souvent par construction (on se débrouille pour répartir aléatoirement la distribution des lignées dans différentes parties du champ par exemple). De manière plus risquée, on fait souvent cette même supposition pour les populations naturelles. D’où : V(P) = V(G) + V(E) L’héritabilité au sens large est alors définie comme H2 = V(G) / V(P) Elle correspond donc à la part de variance génotypique sur la variance totale Elle correspond aussi à la régression qui prédit la valeur génotypique à partir de la valeur phénotypique b(G ;P) = cov(P, G)/ V(P)= V(G)/V(P) Plus l’héritabilité est élevée plus la valeur génotypique est proche de la valeur phénotypique. (c) régression parent-enfant dans le cas d’une reproduction par clonage L’héritabilité au sens large permet de prédire, dans le cas d’une reproduction asexuée, le phénotype d’un enfant à partir de celui de son parent (un seul parent en cas de clonage). Le cas de lignées pures issues d’autofécondations répétées est identique à celui du clonage asexué (descendant génétiquement identique à son unique parent). Régression parent-enfant (ou Parent-Offspring) Chaque point représente le phénotype d’un parent P et de son enfant O (pour offspring). Le coefficient de régression b(Po, Pp) est la pente de la droite. 2 PO : phénotype du descendant 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David b(Po,Pp) PP : phénotype du parent Nous avons b(Po, Pp) = Cov (Po, Pp) / V(Pp) = Cov (Po, Pp) / V(P) et Cov (Po, Pp)= Cov (Go+Eo, Gp+Ep) = Cov (Go, Gp)+Cov (Eo, Gp)+Cov (Go, Ep)+Cov (Eo, Ep) Cov (Go, Gp) = Cov (Gp, Gp) = V(G) car la reproduction par clonage fait que le descendant et le parent ont le même génotype (Gp=Go) Cov (Eo, Gp) = 0 si le génotype du parent n’influence pas l’environnement du descendant ; on suppose ceci vrai en particulier s’il n’y a pas d’effets maternels forts. Cov (Go, Ep) = 0 toujours car le génotype du descendant ne peut pas dépendre des conditions de vie du parent. Cov (Eo, Ep) = 0 (i) s’il n’y a pas d’effets maternels (ii) si le descendant est élevé dans un environnement qui n’a rien à voir avec celui de son parent Moyennant toutes ces conditions on obtient Cov (Po, Pp) = V(G) d’où b(Po, Pp) = V(G) / V(P) = H2 (reproduction clonale ou autofécondation) II. Dissection de la valeur génétique dans le cas d’organismes sexués (a) Le modèle génétique La population considérée est panmictique, son effectif est illimité. On étudie la valeur du génotype à un locus unique (on suppose donc pour l’instant qu’il n’y a qu’un locus, ayant éventuellement de nombreux allèles) qui fait varier le caractère. Les allèles en ségrégation dans la population sont notés Bx et un individu est par exemple noté BiBj (premier allèle d’origine maternelle, second paternel), avec la possibilité que i=j. Soit Gij sa valeur génétique. On décompose Gij dans le modèle suivant : 3 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Gij= ai + aj + bij où ai (aj) l'effet aléatoire de l'allèle i (j) auquel on peut associer une variance V(ai)=V(aj)=V(a) qui reflète le tirage aléatoire de l'allèle paternel (maternel) dans la population bij est l'interaction entre les gamètes i et j à laquelle on peut associer une variance V(bij) Le terme bij doit être ajouté car de manière générale, les allèles i et j n’interagissent pas simplement de manière additive : par exemple des allèles peuvent être dominants sur d'autres. Si l’on ne met pas le bij on contraint les hétérozygotes BiBj à être exactement intermédiaires entre les homozygotes BiBi et les BjBj quels que soient i et j. Par définition d’un modèle statistique, nous pouvons contraindre E(ai )=E( aj ) =0 (sachant que nous avons déjà contraint E(Gij)=0) ; ai , (average effect, notation due à Fisher) est par définition la valeur génotypique moyenne des individus dont l'allèle paternel Bi (et de ceux dont l'allèle maternel est Bi). En l’absence de covariance génotype-environnement c’est aussi la moyenne du phénotype (centré) des individus ayant un allèle paternel (ou maternel) Bi. ai = Ej(Gij) = Ej(Pij) Où Ej(Gij) signifie “espérance de Gij sur tous les j possibles, en ayant fixé i”. Le terme d’interaction est défini par bij = Gij - ai - aj Par conséquent, pour n’importe quelle valeur fixée de i ou de j, l’espérance de bij est nulle ainsi que sa covariance avec les a. Ej(bij) = Ej(Gij)-Ej(ai)-Ej(aj) =ai-ai-0 = 0 Covj (bij,ai) = Ej(bij ai) = ai Ej(bij) = 0 De même la covariance entre bij et bik, j et k étant tirés indépendamment, est nulle Covjk (bij,bik) = Ejk(bijbik) = Ej(Ek(bijbik))= Ej(bij Ek(bik))= Ej(bij 0)= 0 (b) Variances génétiques On peut donc développer la variance génotypique V(G) V(G)=V[ai + aj + bij] = V(ai) + V(aj) + V(bij) + 2 cov(ai aj)+2 cov(ai bij)+2 cov(aj bij) 4 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Les termes cov(ai bij) et cov(aj bij) sont nuls par construction cov(ai aj) est nulle si les allèles paternels et maternels sont tirés indépendamment, ce qui est le cas pour un individu quelconque en panmixie. Par ailleurs V(ai) = V(aj)=V(a) On pose classiquement : - la variance additive VA = 2 V(a) (la breeding value est Aij= ai + aj) - la variance de dominance VD = V(bij) d’où V(G)= VA +VD L’héritabilité au sens strict est définie par h² = VA / V(P) (c) Extension à plusieurs locus Quand plusieurs locus déterminent le caractère, il faut élargir le modèle : (i) faire la somme des effets ai (k) aj (k)et bij (k) produits par tous les locus k. (ii) ajouter des termes d’interaction très nombreux si les interactions entre locus ne sont pas purement additives (interactions entre un allèle du locus 1 et un allèle du locus 2, entre un allèle du locus 1 et une paire d’allèles du locus 2, entre deux paires d’allèles aux locus 1 et 2... etc) ; toutes ces interactions représentent ce qu’on désigne collectivement par « épistasie » Par ailleurs la condition de panmixie à la génération précédente assure que les allèles paternels sont indépendants des maternels MAIS elle n’assure pas que les allèles maternels au locus 1 soient indépendants des allèles maternels au locus 2 ... on peut donc avoir des covariances non nulles entre des effets alléliques d’une même origine (des cov (ai (k), aj (l)) qui vont intervenir dans l’expression de la variance génétique totale. Ces covariances seront nulles s’il n’y a pas de déséquilibre de liaison (ou déséquilibre gamétique)... moyennant cette condition on aura V(G)= VA +VD + VI Où VA est la somme des variances additives des différents locus VD est la somme des variances de dominance des différents locus VI désigne la variance d’interaction entre locus (= épistasie), c’est-à-dire un gros paquet hétéroclite d’interactions... souvent on les considère comme faibles ou nulles, car elles sont difficiles à quantifier ! (d) régression parent-enfant en reproduction sexuée En reprenant le même calcul qu’en population asexuée, on obtient (toutes les étapes du calcul étant identiques) la covariance mère-enfant : cov( PM, PO) =cov( GM, GO) 5 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Il faut maintenant calculer cov( GM, GO) en détaillant les termes Cov(GM, GO) = Cov(ai + aj + bij, ak + al + bkl) = 4 cov(ai ; ak) + cov (bij, bkl) L’expression est obtenue en développant les covariances (neuf termes = 3*3), puis en considérant - que 4 de ces termes, par symétrie sont identiques et égaux à la covariance entre un allèle pris au hasard chez la mère et un chez l’enfant - que les covariances entre des a et des b sont nulles par définition. Cov(ai ; ak) = E(ai ak) = ¼ E(ai2) = ¼ V(a) car dans un cas sur quatre les deux allèles tirés sont identiques par descendance; dans les trois autres cas, ils représentent deux allèles tirés indépendamment dans la population (panmixie) et leur covariance est nulle. Cov(bij, bkl) = 0 car seul un des deux allèles est de fait identique entre mère et enfant (l’autre allèle vient du père, tiré au hasard) ; donc la paire ij ne peut pas être idnetique par descendance à kl. D’où Covariance mère-enfant = Cov(GM, GO) = V(a) Prenons maintenant la régression du descendant sur le phénotype moyen de ses parents (midparent) défini par PMP =( Ppere + Pmère )/2 Par symétrie, le père et la mère ont la même covariance avec leur descendant : donc Cov (PMP, PO) = ½ (Cov(PP, PO)+Cov(PM, PO)) = ½ (V(a)+V(a))=V(a); La variance du "midparent" est V(PMP) = (1/4) (V(PM)+V(PP)+2 Cov(PM,PP) Or Cov(PM,PP) = 0 en panmixie et sauf exception V(PM)=V(PP)=V(P) donc V(PMP) = ¼ (V(P)+V(P))= ½ V(P) La régression descendant sur midparent est donc b(PO, PMP)= Cov (PMP, PO) / V(PMP) = 2 V(ai) / V(P) = VA / V(P) = h² (e) Modèle biométrique et modèle génétique Reprenons en la détaillant la définition de ai ai = Ej(Gij) = Ej(Pij) = Σj p(j) Pij = Σj p(j) Zij - µ Où p(j) est la fréquence de l’allèle j ; et Z est le phénotype non centré. La moyenne µ peut être détaillée en ΣiΣj p(i)p(j) Zij . Cette écriture met en évidence que l’effet d’un allèle (ai) est dépendant PAR DEFINITION des fréquences dans la population. En d’autres termes, (en faisant abstraction d’effets environnementaux éventuels) d’une population à l’autre on s’attend à ce que le phénotype moyen des individus ayant un génotype (Bi Bj) ne change pas ; mais l’effet de l’allèle i (ai) va changer car les populations n’auront pas les mêmes fréquences alléliques. Ceci est vrai également au cours du temps dans la même 6 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David population : si les fréquences alléliques changent l’effet de l’allèle i (ai) va changer au cours du temps. De même les variances VA, VD, V(G) vont varier au cours du temps. Cas d'une population biallélique (Modèle de Fisher) Nous nous plaçons ici dans un cas simple à un locus, deux allèles pour bien faire la différence entre le modèle génétique (défini statistiquement avec les alpha et les bêta ) et un modèle biométrique où l’on représente les valeurs absolues des génotypes (de façon non relative à la moyenne ou aux fréquences). On suppose que la population est panmictique. A un locus, deux allèles B et b aux fréquences p et q Trois génotypes sont possibles : BB : en fréquence p², de phénotype moyen ZBB Bb : en fréquence 2pq, de phénotype moyen ZBb bb : en fréquence q², de phénotype moyen Zbb Une manière générale de reparamétrer le modèle (sans perdre de généralité) est de choisir une valeur de référence du phénotype, qui serait la moyenne entre les deux phénotypes homozygotes : c = (Zbb+ZBB )/2 on peut définir a ( = ½ (ZBB-Zbb) ) tel que c+a = ZBB c-a = Zbb et d (= ZBb – c) tel que c+d = ZBb ce jeu d’écriture rend les phénotypes simples à représenter par référence à c : Génotype bb Bb BB valeur dans l’échelle initiale Zbb ZBb ZBB valeur dans l’échelle relative (Z-c) -a d +a +a d -a bb bB BB Figure 1 d s’interprète comme un paramètre de dominance. Le degré de dominance peut être défini par d/a. 7 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Si d/a = 1 0<d/a<1 d/a>1 dominance complète dominance partielle superdominance Ecrivons maintenant les valeurs génétiques : ZBB= µ + 2 aB + bBB ZBb= µ + ab + aB + bBb Zbb= µ + 2 ab + bbb La moyenne vaut : µ= p² ZBB + 2pq ZBb + q² Zbb aB = p² (c+a) + 2pq (c+d) + q² (c-a) = c + (p²-q²)a +2pq d = c + (p+q)(p-q)a + 2pqd = c + a(p-q) + 2pq d = SjpjGij-µ = pGBB+ q GBb -µ = p (c+a) + q (c+d) - ( c + (p-q)a +2pq d ) = a(q-p+p) +d(q -2pq) = q (a + (q-p) d) On appelle a = a +(q-p) d Ainsi on a aB= q a. ab= -p a. De même on montre que Pour les termes de dominance, on calcule bBB = ZBB-2aB-µ. bbb = -2p² d bBb = 2pq d bBB = -2q²d. Valeurs génotypiques et valeurs additives 2q a 0 a d (q-p) a a -2 p a 0 -a bb Bb 2 q 2qp BB 2 p 8 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Figure 2 En blanc les valeurs génotypiques en bleu les valeurs (additives) prédites par la régression sur le nombre de copies de l’allèle B. Notez que la régression (de pente a) dépend des fréquence des trois génotypes et la droite de régression passe au voisinage des génotypes les plus fréquents (BB et Bb) au détriment des génotypes moins fréquents (ici les bb). La pente de la régression des valeurs additives sur le nombre d’allèles B est a et on peut démontrer que a = aB - ab. Ainsi, on appelle souvent a l’effet de substitution de b par B. Composantes de la variance La variance additive VA = 2 E(ai²)= 2 ( Si pi ai² ) = 2 (p aB² + q ab²) = 2 pq a² La variance de dominance s²D= E(bij²) = p² 4 q4d² + 2pq 4 p²q² d² + q² 4 q4d² = 4 p²q²d² (q² +2pq +q²) = 4 p²q²d² Toutes ces expressions montrent que les paramètres du modèle statistique de la génétique quantitative désignent des grandeurs qui varient avec les fréquences alléliques (ce que ne font pas en théorie les phénotypes eux-mêmes) !!! 9 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Evolution de VA et VD en fonction de p, a et d (i) quand le phénotype est déterminé de manière parfaitement codominante (d=0) toute la variance génétique est additive. Le graphe montre comment elle change en fonction de la fréquence de A(p). h2Si= héritabilité sens large ((VA+VD)/VP); h2Ss = héritabilité sens strict (= VA/VP) a=0.5 d=0 ; V(E) = 0.5 0.25 0.2 Va VD h2Sl h2st 0.15 0.1 0.05 0 0 0.5 1 (ii) quand il y a dominance parfaite (d=a) une grande partie (voire l’essentiel) de la variance génétique est additive mais la variance de dominance n’est pas nulle. ATTENTION donc aux termes : des gènes dominants fabriquent en grande partie de la variance additive !!! a=d=0.5 ; V(E) = 0.5 0.35 0.3 0.25 Va 0.2 VD h2Sl 0.15 h2st 0.1 0.05 0 0 0.5 1 (iii) Quand il y a superdominance (d > a) : - les valeurs de Va varient selon les fréquences ; la Va est nulle pour une fréquence p intermédiaire dont la valeur dépend de a et de d (pour a=0 cette fréquence intermédiaire est 0.5). Cette fréquence p correspond au point où les deux allèles B et b ont le même « phénotype moyen » ; si ce phénotype correspond à la valeur sélective maximale, p est le point d’équilibre. Quand la fréquence atteint cette valeur, aucune sélection ne pourra améliorer le phénotype moyen de la population qui est à son maximum. Quand la fréquence est inférieure à p, VA est non nulle et on peut faire augmenter le phénotype moyen en convergeant vers p. - la valeur de VD est positive et parfois supérieure à VA ; elle est maximale pour la fréquence 1/2 quelle que soit la valeur de la fréquence d’équilibre (dans le cas représenté la fréquence d’équilibre est ½ donc coïncide avec le maximum de VD). 10 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David a=0;d=0.5 ; V(E) = 0.5 0.12 0.1 0.08 Va VD h2Sl h2st 0.06 0.04 0.02 0 0 0.5 1 Attention donc au langage utilisé qui peut être source de confusion. La relation entre modèle biologique et statistique n'est pas simple. Remarque Cas des populations utilisées pour la détection de QTL Populations F2 (p=q=0.5) On a alors a = a +(p-q) d = a et aB=1/2 a (ab=-1/2 a) et s²A = 1/2 a² quelle que soit la valeur de d. 11 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Moyenne du caractere AA 1.33 2 AB 6.33 BB -5.6 1 0.2 0.4 0.6 0.8 f(B) 1 -1 -2 -3 Variances Genetiques V(G) 30 V(A) 25 20 15 10 V(D) 5 0.2 0.4 Moyenne 0.6 0.8 1 du caractere 2 1.5 AA 0 1 AB 1 BB 2 0.5 0.2 0.4 Variances 0.6 Genetiques 0.8 f(B) 1 0.5 V(G) 0.4 V(A) 0.3 0.2 0.1 V(D) 0.2 0.4 0.6 0.8 1 12 2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David Moyenne du caractere 2 1.5 AA 0 1 AB 1.6 BB 2 0.5 0.2 0.4 0.6 Variances 0.8 1 f(B) Genetiques 0.7 V(G) 0.6 0.5 V(A) 0.4 0.3 0.2 V(D) 0.1 0.2 0.4 Moyenne 0.6 0.8 1 du caractere 2 1.5 AA 0 1 AB 2 BB 2 0.5 f(B) 0.2 0.4 Variances 0.6 Genetiques 0.8 1 1 V(G) 0.8 V(A) 0.6 Même avec une dominance totale de B au niveau des valeurs génotypiques la contribution de V(A) à V(G) est non nulle !!! 0.4 V(D) 0.2 0.2 0.4 0.6 0.8 1 13