Le Modèle Génétique et le cas biallélique

publicité
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Le Modèle Génétique et le cas biallélique
Bibliographie
A. Gallais 1990. théorie de la sélection en amélioration des plantes. Collections Sciences
Agronomiques Masson
Falconer and Mackay Introduction to quantitative genetics, Longman, 4ème Edition, 1996.
I. Introduction de la notion d’héritabilité, effets génétiques et
environnementaux
La valeur d’un phénotype résulte d’effets génétiques et environnementaux. La réalité biologique est très
complexe : de nombreux gènes interagissent en réseaux, leurs interactions ne sont pas linéaires et dépendent des
facteurs environnementaux. Pour autant, cette complexité, quasiment inaccessible à une compréhension ou
modélisation exhaustive, n’empêche pas, à défaut de l’expliquer, de décrire la variation phénotypique
simplement au travers d’une approche biométrique. Il suffit que cette modélisation (la génétique
quantitative) ait un minimum de portée prédictive au moins à court terme (quelques générations) pour justifier
son intérêt. Si ce modèle peut rendre cause de la ressemblance entre les individus apparentés, il
peut servir à étudier la transmission des caractères.
(a) première étape : centrer le phénotype
Le but de la GQ (génétique quantitative) est d’obtenir une approche statistique de la variation du
caractère entre individus dans une population. Ainsi, cette approche ne prédira pas la valeur
absolue d’un caractère (« la taille de cet individu est 1.50 cm ») mais raisonnera en termes de
déviation par rapport à une référence qui est la moyenne actuelle de cette population (« cet individu
fait 20 cm de moins que la moyenne »). La première étape est donc de « centrer » les mesures de
phénotype en écrivant
Z=µ+P
Où Z est le phénotype dans son échelle de départ (par exemple la taille 1.50cm) ; µ est le phénotype
moyen de la population (par exemple 1.70 cm) et P le phénotype centré (par exemple -0.20 cm).
Travailler sur P au lieu de Z a plusieurs avantages : (i) éviter de poser des questions qui n’ont pas de
sens (par exemple : est-ce que la taille de cet individu est 1.50m à cause des gènes ou à cause de
l’environnement ?; alors que la question «est-ce que untel a une taille inférieure à la moyenne à cause
de ses gènes ou à cause de ses conditions de vie ou les deux ? a un sens)) (ii) La moyenne de P est
par définition zéro, ce qui est très pratique pour les modèles qui suivent...
(b) deuxième étape : décomposer P en effets génétiques et environnementaux
On écrit simplement
P = G + E + GxE
P : le phénotype, G le génotype et E l’environnement.
Le terme GxE signifie qu’il y a une interaction entre les gènes et les conditions environnementales,
c'est-à-dire que les effets des différents gènes en présence ne réagissent pas de la même façon aux
conditions de l’environnement. Cette interaction doit être écrite pour un modèle parfaitement général ;
1
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
mais dans le reste de ce chapitre, on néglige ces effets (faisant implicitement l’hypothèse que le
système se comporte comme si les effets du génotype et ceux de l’environnement s’additionnaient).
Donc
P=G+E
La variance du phénotype (qui mesure sa quantité de variation dans la population) peut s’écrire
V(P) = V(G) + V(E) + 2 cov(G,E)
Où V(P) est la variance phénotypique, V(G) la variance génotypique et cov(G,E) la covariance entre
les deux effets.
Cov(G,E) est non nulle si les effets génétiques et environnementaux ne sont pas statistiquement
indépendants : c’est-à-dire si les génotypes ne sont pas distribués aléatoirement entre les
environnements (i.e. si certains génotypes sont plus représentés dans certains environnements). Lors
d’expérimentations contrôlées, cov(G,E) est nulle le plus souvent par construction (on se débrouille
pour répartir aléatoirement la distribution des lignées dans différentes parties du champ par exemple).
De manière plus risquée, on fait souvent cette même supposition pour les populations naturelles.
D’où :
V(P) = V(G) + V(E)
L’héritabilité au sens large est alors définie comme
H2 = V(G) / V(P)
Elle correspond donc à la part de variance génotypique sur la variance totale
Elle correspond aussi à la régression qui prédit la valeur génotypique à partir de la valeur
phénotypique
b(G ;P) = cov(P, G)/ V(P)= V(G)/V(P)
Plus l’héritabilité est élevée plus la valeur génotypique est proche de la valeur phénotypique.
(c) régression parent-enfant dans le cas d’une reproduction par clonage
L’héritabilité au sens large permet de prédire, dans le cas d’une reproduction asexuée, le phénotype
d’un enfant à partir de celui de son parent (un seul parent en cas de clonage). Le cas de lignées pures
issues d’autofécondations répétées est identique à celui du clonage asexué (descendant
génétiquement identique à son unique parent).
Régression parent-enfant (ou Parent-Offspring)
Chaque point représente le phénotype d’un parent P et de son enfant O (pour offspring). Le coefficient
de régression b(Po, Pp) est la pente de la droite.
2
PO : phénotype du descendant
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
b(Po,Pp)
PP : phénotype du parent
Nous avons
b(Po, Pp) = Cov (Po, Pp) / V(Pp) = Cov (Po, Pp) / V(P)
et
Cov (Po, Pp)= Cov (Go+Eo, Gp+Ep) = Cov (Go, Gp)+Cov (Eo, Gp)+Cov (Go, Ep)+Cov (Eo, Ep)
Cov (Go, Gp) = Cov (Gp, Gp) = V(G) car la reproduction par clonage fait que le descendant et le parent
ont le même génotype (Gp=Go)
Cov (Eo, Gp) = 0 si le génotype du parent n’influence pas l’environnement du descendant ; on suppose
ceci vrai en particulier s’il n’y a pas d’effets maternels forts.
Cov (Go, Ep) = 0 toujours car le génotype du descendant ne peut pas dépendre des conditions de vie
du parent.
Cov (Eo, Ep) = 0 (i) s’il n’y a pas d’effets maternels (ii) si le descendant est élevé dans un
environnement qui n’a rien à voir avec celui de son parent
Moyennant toutes ces conditions on obtient Cov (Po, Pp) = V(G) d’où
b(Po, Pp) = V(G) / V(P) = H2
(reproduction clonale ou autofécondation)
II. Dissection de la valeur génétique dans le cas d’organismes sexués
(a) Le modèle génétique
La population considérée est panmictique, son effectif est illimité. On étudie la valeur du
génotype à un locus unique (on suppose donc pour l’instant qu’il n’y a qu’un locus, ayant
éventuellement de nombreux allèles) qui fait varier le caractère. Les allèles en ségrégation dans la
population sont notés Bx et un individu est par exemple noté BiBj (premier allèle d’origine maternelle,
second paternel), avec la possibilité que i=j. Soit Gij sa valeur génétique. On décompose Gij dans le
modèle suivant :
3
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Gij= ai + aj + bij
où
ai (aj) l'effet aléatoire de l'allèle i (j) auquel on peut associer une variance V(ai)=V(aj)=V(a) qui reflète
le tirage aléatoire de l'allèle paternel (maternel) dans la population
bij est l'interaction entre les gamètes i et j à laquelle on peut associer une variance V(bij)
Le terme bij doit être ajouté car de manière générale, les allèles i et j n’interagissent pas simplement
de manière additive : par exemple des allèles peuvent être dominants sur d'autres. Si l’on ne met pas
le bij on contraint les hétérozygotes BiBj à être exactement intermédiaires entre les homozygotes BiBi
et les BjBj quels que soient i et j.
Par définition d’un modèle statistique, nous pouvons contraindre E(ai )=E( aj ) =0 (sachant que nous
avons déjà contraint E(Gij)=0) ;
ai , (average effect, notation due à Fisher) est par définition la valeur génotypique moyenne des
individus dont l'allèle paternel Bi (et de ceux dont l'allèle maternel est Bi). En l’absence de covariance
génotype-environnement c’est aussi la moyenne du phénotype (centré) des individus ayant un allèle
paternel (ou maternel) Bi.
ai = Ej(Gij) = Ej(Pij)
Où Ej(Gij) signifie “espérance de Gij sur tous les j possibles, en ayant fixé i”.
Le terme d’interaction est défini par
bij = Gij - ai - aj
Par conséquent, pour n’importe quelle valeur fixée de i ou de j, l’espérance de bij est nulle ainsi que sa
covariance avec les a.
Ej(bij) = Ej(Gij)-Ej(ai)-Ej(aj) =ai-ai-0 = 0
Covj (bij,ai) = Ej(bij ai) = ai Ej(bij) = 0
De même la covariance entre bij et bik, j et k étant tirés indépendamment, est nulle
Covjk (bij,bik) = Ejk(bijbik) = Ej(Ek(bijbik))= Ej(bij Ek(bik))= Ej(bij 0)= 0
(b) Variances génétiques
On peut donc développer la variance génotypique V(G)
V(G)=V[ai + aj + bij]
= V(ai) + V(aj) + V(bij) + 2 cov(ai aj)+2 cov(ai bij)+2 cov(aj bij)
4
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Les termes cov(ai bij) et cov(aj bij) sont nuls par construction
cov(ai aj) est nulle si les allèles paternels et maternels sont tirés indépendamment, ce qui est le
cas pour un individu quelconque en panmixie.
Par ailleurs V(ai) = V(aj)=V(a)
On pose classiquement :
-
la variance additive
VA = 2 V(a) (la breeding value est Aij= ai + aj)
-
la variance de dominance
VD = V(bij)
d’où
V(G)= VA +VD
L’héritabilité au sens strict est définie par
h² = VA / V(P)
(c) Extension à plusieurs locus
Quand plusieurs locus déterminent le caractère, il faut élargir le modèle :
(i) faire la somme des effets ai (k) aj (k)et bij (k) produits par tous les locus k.
(ii) ajouter des termes d’interaction très nombreux si les interactions entre locus ne sont pas purement
additives (interactions entre un allèle du locus 1 et un allèle du locus 2, entre un allèle du locus 1 et
une paire d’allèles du locus 2, entre deux paires d’allèles aux locus 1 et 2... etc) ; toutes ces
interactions représentent ce qu’on désigne collectivement par « épistasie »
Par ailleurs la condition de panmixie à la génération précédente assure que les allèles paternels sont
indépendants des maternels MAIS elle n’assure pas que les allèles maternels au locus 1 soient
indépendants des allèles maternels au locus 2 ... on peut donc avoir des covariances non nulles entre
des effets alléliques d’une même origine (des cov (ai (k), aj (l)) qui vont intervenir dans l’expression de
la variance génétique totale. Ces covariances seront nulles s’il n’y a pas de déséquilibre de liaison
(ou déséquilibre gamétique)... moyennant cette condition on aura
V(G)= VA +VD + VI
Où
VA est la somme des variances additives des différents locus
VD est la somme des variances de dominance des différents locus
VI désigne la variance d’interaction entre locus (= épistasie), c’est-à-dire un gros paquet hétéroclite
d’interactions... souvent on les considère comme faibles ou nulles, car elles sont difficiles à quantifier !
(d) régression parent-enfant en reproduction sexuée
En reprenant le même calcul qu’en population asexuée, on obtient (toutes les étapes du calcul étant
identiques) la covariance mère-enfant :
cov( PM, PO) =cov( GM, GO)
5
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Il faut maintenant calculer cov( GM, GO) en détaillant les termes
Cov(GM, GO) = Cov(ai + aj + bij, ak + al + bkl) = 4 cov(ai ; ak) + cov (bij, bkl)
L’expression est obtenue en développant les covariances (neuf termes = 3*3), puis en considérant
- que 4 de ces termes, par symétrie sont identiques et égaux à la covariance entre un allèle pris au
hasard chez la mère et un chez l’enfant
- que les covariances entre des a et des b sont nulles par définition.
Cov(ai ; ak) = E(ai ak) = ¼ E(ai2) = ¼ V(a) car dans un cas sur quatre les deux allèles tirés sont
identiques par descendance; dans les trois autres cas, ils représentent deux allèles tirés
indépendamment dans la population (panmixie) et leur covariance est nulle.
Cov(bij, bkl) = 0 car seul un des deux allèles est de fait identique entre mère et enfant (l’autre allèle
vient du père, tiré au hasard) ; donc la paire ij ne peut pas être idnetique par descendance à kl. D’où
Covariance mère-enfant = Cov(GM, GO) = V(a)
Prenons maintenant la régression du descendant sur le phénotype moyen de ses parents (midparent)
défini par PMP =( Ppere + Pmère )/2
Par symétrie, le père et la mère ont la même covariance avec leur descendant : donc
Cov (PMP, PO) = ½ (Cov(PP, PO)+Cov(PM, PO)) = ½ (V(a)+V(a))=V(a);
La variance du "midparent" est
V(PMP) = (1/4) (V(PM)+V(PP)+2 Cov(PM,PP)
Or
Cov(PM,PP) = 0 en panmixie et sauf exception V(PM)=V(PP)=V(P) donc
V(PMP) = ¼ (V(P)+V(P))= ½ V(P)
La régression descendant sur midparent est donc
b(PO, PMP)= Cov (PMP, PO) / V(PMP) = 2 V(ai) / V(P) = VA / V(P) = h²
(e) Modèle biométrique et modèle génétique
Reprenons en la détaillant la définition de ai
ai = Ej(Gij) = Ej(Pij) = Σj p(j) Pij = Σj p(j) Zij - µ
Où p(j) est la fréquence de l’allèle j ; et Z est le phénotype non centré. La moyenne µ peut être
détaillée en ΣiΣj
p(i)p(j) Zij .
Cette écriture met en évidence que l’effet d’un allèle (ai) est dépendant PAR DEFINITION des
fréquences dans la population. En d’autres termes, (en faisant abstraction d’effets environnementaux
éventuels) d’une population à l’autre on s’attend à ce que le phénotype moyen des individus ayant un
génotype (Bi Bj) ne change pas ; mais l’effet de l’allèle i (ai) va changer car les populations n’auront
pas les mêmes fréquences alléliques. Ceci est vrai également au cours du temps dans la même
6
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
population : si les fréquences alléliques changent l’effet de l’allèle i (ai) va changer au cours du
temps. De même les variances VA, VD, V(G) vont varier au cours du temps.
Cas d'une population biallélique (Modèle de Fisher)
Nous nous plaçons ici dans un cas simple à un locus, deux allèles pour bien faire la différence entre le
modèle génétique (défini statistiquement avec les alpha et les bêta ) et un modèle biométrique où l’on
représente les valeurs absolues des génotypes (de façon non relative à la moyenne ou aux
fréquences).
On suppose que la population est panmictique. A un locus, deux allèles B et b aux fréquences p et q
Trois génotypes sont possibles :
BB : en fréquence p², de phénotype moyen ZBB
Bb : en fréquence 2pq, de phénotype moyen ZBb
bb : en fréquence q², de phénotype moyen Zbb
Une manière générale de reparamétrer le modèle (sans perdre de généralité) est de choisir une valeur
de référence du phénotype, qui serait la moyenne entre les deux phénotypes homozygotes :
c = (Zbb+ZBB )/2
on peut définir a ( = ½ (ZBB-Zbb) ) tel que
c+a = ZBB
c-a = Zbb
et d (= ZBb – c) tel que
c+d = ZBb
ce jeu d’écriture rend les phénotypes simples à représenter par référence à c :
Génotype
bb
Bb
BB
valeur dans l’échelle initiale
Zbb
ZBb
ZBB
valeur dans l’échelle relative (Z-c)
-a
d
+a
+a
d
-a
bb
bB
BB
Figure 1
d s’interprète comme un paramètre de dominance. Le degré de dominance peut être défini par d/a.
7
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Si
d/a = 1
0<d/a<1
d/a>1
dominance complète
dominance partielle
superdominance
Ecrivons maintenant les valeurs génétiques :
ZBB= µ + 2 aB + bBB
ZBb= µ + ab + aB + bBb
Zbb= µ + 2 ab + bbb
La moyenne vaut :
µ= p² ZBB + 2pq ZBb + q² Zbb
aB
= p² (c+a) + 2pq (c+d) + q² (c-a)
= c + (p²-q²)a +2pq d
= c + (p+q)(p-q)a + 2pqd
= c + a(p-q) + 2pq d
= SjpjGij-µ = pGBB+ q GBb -µ
= p (c+a) + q (c+d) - ( c + (p-q)a +2pq d )
= a(q-p+p) +d(q -2pq)
= q (a + (q-p) d)
On appelle a = a +(q-p) d
Ainsi on a aB= q a.
ab= -p a.
De même on montre que
Pour les termes de dominance, on calcule bBB = ZBB-2aB-µ.
bbb = -2p² d
bBb = 2pq d
bBB = -2q²d.
Valeurs génotypiques et valeurs additives
2q a
0
a
d
(q-p)
a
a
-2 p a
0
-a
bb
Bb
2
q
2qp
BB
2
p
8
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Figure 2 En blanc les valeurs génotypiques en bleu les valeurs (additives) prédites par la régression
sur le nombre de copies de l’allèle B. Notez que la régression (de pente a) dépend des fréquence des
trois génotypes et la droite de régression passe au voisinage des génotypes les plus fréquents (BB et
Bb) au détriment des génotypes moins fréquents (ici les bb).
La pente de la régression des valeurs additives sur le nombre d’allèles B est a et on
peut démontrer que a = aB - ab. Ainsi, on appelle souvent a l’effet de substitution de
b par B.
Composantes de la variance
La variance additive
VA = 2 E(ai²)= 2 ( Si pi ai² ) = 2 (p aB² + q ab²) = 2 pq a²
La variance de dominance
s²D= E(bij²) = p² 4 q4d² + 2pq 4 p²q² d² + q² 4 q4d²
= 4 p²q²d² (q² +2pq +q²)
= 4 p²q²d²
Toutes ces expressions montrent que les paramètres du modèle
statistique de la génétique quantitative désignent des grandeurs qui
varient avec les fréquences alléliques (ce que ne font pas en théorie les
phénotypes eux-mêmes) !!!
9
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Evolution de VA et VD en fonction de p, a et d
(i) quand le phénotype est déterminé de manière parfaitement codominante (d=0) toute la variance
génétique est additive. Le graphe montre comment elle change en fonction de la fréquence de A(p).
h2Si= héritabilité sens large ((VA+VD)/VP); h2Ss = héritabilité sens strict (= VA/VP)
a=0.5 d=0 ; V(E) = 0.5
0.25
0.2
Va
VD
h2Sl
h2st
0.15
0.1
0.05
0
0
0.5
1
(ii) quand il y a dominance parfaite (d=a) une grande partie (voire l’essentiel) de la variance génétique
est additive mais la variance de dominance n’est pas nulle. ATTENTION donc aux termes : des gènes
dominants fabriquent en grande partie de la variance additive !!!
a=d=0.5 ; V(E) = 0.5
0.35
0.3
0.25
Va
0.2
VD
h2Sl
0.15
h2st
0.1
0.05
0
0
0.5
1
(iii) Quand il y a superdominance (d > a) :
- les valeurs de Va varient selon les fréquences ; la Va est nulle pour une fréquence p
intermédiaire dont la valeur dépend de a et de d (pour a=0 cette fréquence intermédiaire est 0.5).
Cette fréquence p correspond au point où les deux allèles B et b ont le même « phénotype moyen » ;
si ce phénotype correspond à la valeur sélective maximale, p est le point d’équilibre. Quand la
fréquence atteint cette valeur, aucune sélection ne pourra améliorer le phénotype moyen de la
population qui est à son maximum. Quand la fréquence est inférieure à p, VA est non nulle et on peut
faire augmenter le phénotype moyen en convergeant vers p.
- la valeur de VD est positive et parfois supérieure à VA ; elle est maximale pour la fréquence
1/2 quelle que soit la valeur de la fréquence d’équilibre (dans le cas représenté la fréquence
d’équilibre est ½ donc coïncide avec le maximum de VD).
10
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
a=0;d=0.5 ; V(E) = 0.5
0.12
0.1
0.08
Va
VD
h2Sl
h2st
0.06
0.04
0.02
0
0
0.5
1
Attention donc au langage utilisé qui peut être source de confusion. La relation entre
modèle biologique et statistique n'est pas simple.
Remarque
Cas des populations utilisées pour la détection de QTL
Populations F2 (p=q=0.5)
On a alors a = a +(p-q) d = a et aB=1/2 a (ab=-1/2 a)
et s²A = 1/2 a² quelle que soit la valeur de d.
11
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Moyenne
du caractere
AA
1.33
2
AB
6.33
BB
-5.6
1
0.2
0.4
0.6
0.8
f(B)
1
-1
-2
-3
Variances
Genetiques
V(G)
30
V(A)
25
20
15
10
V(D)
5
0.2
0.4
Moyenne
0.6
0.8
1
du caractere
2
1.5
AA
0
1
AB
1
BB
2
0.5
0.2
0.4
Variances
0.6
Genetiques
0.8
f(B)
1
0.5
V(G)
0.4
V(A)
0.3
0.2
0.1
V(D)
0.2
0.4
0.6
0.8
1
12
2015 Introduction à la génétique quantitative - Cours 1 Jacques David, & Patrice David
Moyenne
du caractere
2
1.5
AA
0
1
AB
1.6
BB
2
0.5
0.2
0.4
0.6
Variances
0.8
1
f(B)
Genetiques
0.7
V(G)
0.6
0.5
V(A)
0.4
0.3
0.2
V(D)
0.1
0.2
0.4
Moyenne
0.6
0.8
1
du caractere
2
1.5
AA
0
1
AB
2
BB
2
0.5
f(B)
0.2
0.4
Variances
0.6
Genetiques
0.8
1
1
V(G)
0.8
V(A)
0.6
Même avec une dominance
totale de B au niveau des valeurs
génotypiques la contribution de
V(A) à V(G) est non nulle !!!
0.4
V(D)
0.2
0.2
0.4
0.6
0.8
1
13
Téléchargement