analyse de liaison genetique * * i

publicité
Atlas of Genetics and Cytogenetics in Oncology and Haematology
ANALYSE DE LIAISON GENETIQUE
*
I- Taux de recombinaison
II- Définition du "Lod Score" d'une famille
III- Test de linkage
IV- Estimateur du taux de recombinaison
V- Taux de recombinaison entre un locus maladie et un locus marqueur
*
L'étude de la ségrégation conjointe de gènes situés à deux loci permet de tester l'indépendance de transmission de ces gènes.
Cette notion d'indépendance se traduit également par un taux de recombinaison θ pourcentage de gamètes recombinés parmi
l'ensemble des gamètes transmis par les parents. En cas d'indépendance, on attend autant de gamètes recombinés que de
gamètes parentaux et on a donc θ =1/2. En cas contraire, les gamètes parentaux se transmettent préférentiellement aux gamètes
recombinés et on a 0≤ θ<1/2. On dit alors que les deux loci sont liés ("LINKAGE").
I- TAUX DE RECOMBINAISON
Supposons deux loci A et B avec deux allèles codominants à chacun de ces loci respectivement A1, A2 et B1, B2. Un tel individu
peut produire quatre types de gamètes :
A1B1
A2B1
A1B2
A2B2
Deux situations sont possibles :
1- Les deux loci A et B sont sur des paires de chromosomes différentes
Figure 1
Dans ce cas, les quatre gamètes ont la même probabilité 1/4.
2 -Les loci A et B sont sur la même paire de chromosomes
Distinguons alors deux cas : ou bien, les allèles A1 et B1 sont sur le même chromosome de la paire, on dit que A1 et B1 sont en
"coupling" ; ou bien, ils sont chacun sur un chromosome différent A1 et B1 sont alors en "répulsion".
Figure 2
Supposons, par exemple, que A1 et B1 soient en "coupling". Il y a toujours production de quatre types de gamètes.
Figure3
Les gamètes A1B1 et A2B2 sont dits "parentaux". On retrouve chez l'enfant A1 en "coupling" avec B1
(ou A2 en "coupling" avec B2) comme chez les parents.
Les gamètes A1B2 et A2 B1 sont dits "recombinés". Il s'est passé entre les loci A et B des phénomènes de recombinaison ou
"crossing-over" en nombre impair.
Figure 4
En supposant que l'événement de crossing-over sur une paire de chromosomes suit la loi de Poisson, et sachant qu'un gamète
parental correspond à un nombre nul ou pair de crossing-over alors qu'un gamète recombiné correspond à un nombre impair, on
peut montrer que la fréquence des gamètes recombinés est toujours inférieure ou égale à celle des gamètes parentaux et donc
0 ≤ θ < 1/2
Dire que θ = 1/2, c'est dire que tous les types de gamètes ont la même probabilité ou encore que les allèles des loci A et B se
transmettent de manière indépendante. On dit que les loci A et B ne sont pas génétiquement liés. C'est le cas si A et B sont sur
des paires de chromosomes différents mais aussi si A et B sont sur la même paire mais éloignés l'un de l'autre.
Au contraire si θ < 1/2, les deux loci sont génétiquement liés.
Pour un couple dont on connaît les génotvges aux loci A et B la probabilité d'observer les génotypes des enfants dépend de la
valeur de θ.
Supposons le croisement suivant :
Figure 5
Donc, un tel couple peut avoir 4 types d'enfants
Figure 6
En supposant qu'il y a un équilibre gamétique aux loci A et B, le parent 1 a une probabilité 1/2 d'avoir les allèles A1 et B1 en
coupling et une probabilité 1/2 en répulsion.
(1) A1 et B1 sont en coupling, alors le parent (1) fournit les gamètes A1B1 et A2B2 avec une probabilité (1-θ)/2 et les gamètes
A1B2 et A2B1 avec une probabilité θ/2. Donc la probabilité pour le couple d'avoir un enfant de type (1) ou (2) est (1-θ)/2 et d'avoir
un enfant de type (3) ou (4) est θ/2.
La probabilité d'observer n1 enfants de type (1), n2 de type (2), n3 de type (3) et n4 de type (4) est alors
[(1- θ)/2]n1+n2 x (θ/2)n3+n4
(2) A1 et B1sont en répulsion, le parent (1) fournit alors les gamètes A1B2 et A2B1 avec une probabilité (1-θ)/2 et les gamètes
A1B1 et A2B2 avec une probabilité θ/2.
La probabilité de l'observation précédente est alors
(FONT FACE="Symbol">q/2)n1+n2 x[(1-θ)/2]n3+n4
Donc finalement, sans aucune information a priori sur la phase de A1 et B1 et en supposant que les allèles aux loci A et B sont
en équilibre de coupling, la probabilité d'observer n1, n2, n3 et n4 enfants dans les catégories (1), (2), (3), (4) est p(n1,n2,n3,n4/θ)
=1/2{[(1 -θ)/2]n1+n2 x (θ/2)n3+n4 + (θ/2) n1+n2 x [(1-θ)/2] n3+n4}Donc, pour une observation n1, n2, n3, n4 on peut écrire la
vraisemblance de θ L(θ/n1,n2,n3,n4)=1/2 {[(1-θ)/2]n1+n2 (θ/2)n3+n4 + (θ/2) n1+n2 [(1-θ)/2] n3+n4}Cas particulier : nombre
d'enfants n= 1 Quelque soit la catégorie à laquelle appartient cet enfant L(θ) = 1/2 [(1-θ)/2] + 1/2 [θ/2] = 1/4Pour une telle
observation la vraisemblance de la famille ne dépend pas de θ. On dit qu'une telle famille n'est pas informative pour θ. Familles
informatives On appelle famille informative, toute famille pour laquelle la vraisemblance est une fonction non constante de θ. Une
condition nécessaire pour qu'une famille soit informative est donc qu'elle ait plus d'un enfant. Par ailleurs, il faut qu'au moins l'un
des parents soit double hétérozygote. Définition: si l'un des parents est double hétérozygote et que l'autre est double
homozygote, on a un double backcross simple homozygote, on a un simple backcross double hétérozygote, on a un double
intercross.
II- DEFINITION DU " LOD SCORE " D'UNE FAMILLE
Soit une famille dont on connaît les génotypes au locus A et B pour chacun des membres. Soit L(θ) La vraisemblance d'un taux
de recombinaison 0 ≤ θ < 1/2
L(1/2) La vraisemblance de θ = 1/2, c'est-à-dire d'une ségrégation indépendante en A et B.
Le lod score de la famille en θ est :
Z(θ) = log10 [L(θ)/L(1/2)]
On peut considérer Z comme une fonction de θ définie sur l'intervalle [0,1/2].
Lod score d'un échantillon de familles
La vraisemblance d'une valeur θ pour un échantillon de familles indépendantes étant le produit des vraisemblances de chaque
famille, le lod score de l'échantillon sera la somme des lod scores de chaque famille.
III- TEST DE LlNKAGE
Un certain nombre de méthodes ont été proposées pour détecter un linkage : les " U scores ", " la méthode des germains ", " les
rapports de vraisemblance, " la méthode des lod scores ". Cette dernière méthode est celle qui est la plus couramment utilisée
actuellement.
La procédure du test dans la méthode des lod scores est de type séquentiel. On accumule l'information, c'est-à-dire le nombre
de familles de l'échantillon, jusqu'au moment où il sera possible de trancher entre les hypothèses H0 et H1 :
H0 : indépendance génétique θ = 1/2
et
Hl : linkage à θ1 0 ≤ θ1 < 1/2
La valeur du lod score de l'échantillon en θ1
Z(θ1) = log10 [L(θ1)/L(l/2)]
indique les probabilités relatives d'observer l'échantillon sous Hl et H0. Ainsi, un lod score de 3 signifie que la probabilité
d'observer l'échantillon est 1000 fois plus grande sous Hl que sous H0 ("lod = logarithme de l'odd").
Les seuils de décision du test sont habituellement fixés à -2 et +3, c'est-à-dire que si :
Z(θ1)
3 on rejette H0 et on conclut au linkage.
Z(θ1) ≤ -2 on rejette le linkage à θ1.
-2 θ1) < 3 on ne peut trancher entre H0 et Hl. Il faut continuer
d'accumuler de l'information.
Pour les seuils choisis -2 et +3, on peut montrer que :
l'erreur de 1ère espèce α < 10-3
l'erreur de 2ème espèce β < 10-2
la fiabilité 1-ρ > 0.95 ∀ θ1
la puissance P(θ) > 0.80 ∀ θ1 si la vraie valeur de θ < 0.10
Figure 7
En fait, on ne teste pas une seule valeur de θ par rapport à θ = 1/2 mais tout un ensemble de valeurs comprises entre 0 et 1/2 avec
1
un pas plus ou moins petit (0.01 ou 0.05).
S'il existe une valeur θ1 telle que Z(θ1)
3 : on conclut au linkage.
Figure 8
S’il existe une valeur θ1 telle que
Z(θ1) = -2
Alors on exclut le linkage pour tout θ ≤ θ1
Figure 9
Si ∀ θ -2 < Z(θ) < 3, on ne peut tirer aucune conclusion, l’échantillon n’est pas suffisamment informatif.
Figure 10
Le test proposé a l'avantage d'être très simple, et de protéger contre une fausse conclusion de linkage. Certaines critiques
peuvent être cependant formulées non seulement à l'encontre des critères choisis, mais aussi sur le principe même d'utiliser une
procédure séquentielle. Le nombre de familles typées est, en effet, rarement décidé au vu des résultats du test.
IV- ESTIMATEUR DU TAUX DE RECOMBINAISON
Si le test, sur un échantillon de famille, a permis de conclure à un linkage entre les loci A et B, alors on peut vouloir estimer le
taux de reçombinaison entre ces loci.
L'estimation de θ est la valeur qui maximise la fonction de lod score Z, ce qui est équivalent à prendre la valeur de θpour laquelle
la probabilité d'observer l'échantillon est maximum.
V-TAUX DE RECOMBINAISON ENTRE UN LOCUS MALADIE ET UN LOCUS MARQUEUR
Supposons une maladie monogénique déterminée par un allèle g0 situé en un locus G (g0: allèle délétère, G0: allèle normal).
On aimerait situer le locus G par rapport à un locus marqueur T dont l'emplacement est connu sur le génome. Pour ce faire, on
dispose de familles ayant un ou plusieurs individus atteints et on connaît le génotype de chaque membre des familles pour le
marqueur T.
Pour pouvoir utiliser la méthode des lod scores précédemment exposée, il faut
Figure 11
pouvoir passer du phénotype des individus (atteint, non atteint) à leur génotype au locus G (ou à leur probabilité génotypique au
locus G). Il faut donc connaître
1. la fréquence g0
2. le vecteur de pénétrance f1, f2,f3
f1 = proba (atteint/g0g0)
f2 = proba (atteint/g0G0)
f3 = proba (atteint/G0G0)
Il arrivera souvent que l'information pour le marqueur ne soit pas elle aussi génotypique mais phénotypique. Il faudra là aussi
envisager toutes les possibilités génotypiques.
En règle générale, l'information dont on dispose sur une famille est une information phénotypique. Pour calculer la
vraisemblance de θ, il faudra envisager toutes les configurations génotypiques possibles en chacun des loci, pour cette famille,
écrire la vraisemblance de θ pour chaque configuration, la pondérer par la probabilité de cette configuration sachant les
phénotypes des individus en A et B.
Une connaissance sur les paramètres génétiques en chacun des loci (fréquence génique, valeurs de pénétrance) est donc un
préalable indispensable à l'estimation de θ.
Il est bien évident que les calculs de lod scores, simples en théorie, sont longs et fastidieux et font maintenant appel à différents
logiciels.
L'analyse de liaison génétique a permis de construire une carte génétique en situant les nouveaux polymorphismes les uns par
rapport aux autres sur le génome. La mesure utilisée sur la carte génétique n'est pas le taux de recombinaison qui n'est pas une
mesure additive mais la distance génétique que nous définirons ultérieurement.
Contributors:
Françoise Clerget-Darpoux
Téléchargement