9 - AMPCfusion

publicité
UE11 – Parcours n°3 – UMR
Génétique - n°4
11/05/16
RT : CAPLIER Astrid
Alexandre Alcaïs
RT: HOSEMANS Claire
[email protected]
Analyse de liaison Génétique : modèle-dépendante
Plan : (times ou Cambria, 12, souligné)
I) Principes d'analyse de liaison modèle-dépendante
1) Rappel sur la méiose
2) Génétique
3) Recombinaison
II) Analyse statistique
1) Estimation du taux de recombinaison θ
2) Vraisemblance
3) LOD-score
Dans le cas d’une maladie avec un gène dominant, à pénétrance complète, et à
fréquence allélique rare, on voudrait savoir où se situe(nt) le(s) gène(s) d'intérêt dans
le génome.
L'analyse de liaison permet une identification des régions du génome où l’on peut
retrouver ces gènes. Cette identification n’est donc pas précise mais permet de passer de
tout le génome (3Gb) à une ou plusieurs régions du génome (5-25Mb) qui à priori
contiendraient les gènes qui sont à l’origine de la maladie.
Il existe deux types d'analyses de liaison :
-
-
I.
modèle-dépendante ou paramétrique qui nécessite de définir un modèle génétique
au préalable et dans laquelle on utilise la méthode des lod-score (distribution de
statistique de test comme la méthode du khi2 ). Plus cette statistique de test est élevée, plus
c’est en faveur de la liaison génétique.
modèle-indépendante ou non paramétrique (vu dans le cours suivant)
Principes d'analyse de liaison modèle-dépendante
1. Rappel sur la méiose
Au début, il y appariement des chromosomes sur la plaque équatoriale. Il y a alors une
possibilité d’échange de matériel génétique par cross-over au niveau des chiasmas (point
d’attouchement des chromosomes paternels et maternels)
Puis il y a la division réductionnelle avec la séparation des homologues totalement
indépendante et aléatoire. Et enfin, il y a la division équationnelle.
On obtient donc, dans le cas où il y a eu des échanges de matériel génétique, 2 types de
gamètes :
- des gamètes portant des chromosomes identiques aux chromosomes de la cellule mère
appelés gamètes parentaux.
- des gamètes mixtes dont les chromosomes sont un mélange des chromosomes paternels
et maternels appelés gamètes recombinant.
Il faut savoir que plus deux locis sont proches, moins il y a de chance qu’il y ait
recombinaison et que l’on parle de recombinaison que s’il y a eu un nombre impaire de
cross over entre les deux locis
2. Génétique
Dans l'analyse de liaison modèle-dépendante, il faut spécifier le modèle génétique : à
partir du phénotype observé chez un individu, on va inférer le génotype au locus causal.
Ex : On prend une maladie récessive à pénétrance complète (= modèle génétique). En
faisant l'hypothèse que notre modèle est juste, un individu atteint est alors homozygote au
locus causal ==> à partir du phénotype on déduit le génotype.
Pour des maladies « complexes », il est plus difficile d'établir un modèle, cela nécessite
beaucoup d’échantillons.
3. Recombinaison
L’analyse de liaison repose sur l’hypothèse que lors de la méiose, il y a échange de matériel
génétique entre 2 chromosomes c’est-à-dire qu’il y a eu des points de chiasma. On parle de
phénomène de crossing over.
Sur ce schéma, on considère que A est le locus causal de la pathologie et B le marqueur
qu'on étudie. (avec A et B les loci des allèles maternel et a et b les loci des allèles paternels) .
On observe ici deux phénomènes de crossing over mais un seul entre les deux loci. On peut
donc parler de recombinaison (nombre impair de cross over) et l'individu délivre donc au
final 4 gamètes.
On rappelle que plus A et B sont proches, moins il y a de possibilités de recombinaison. A
l'extrême, si A et B sont confondus, il n'y a aucune recombinaison possible.
➜ Plus des loci sont proches, moins ils sont susceptibles de recombiner.
➜ On parle de liaison génétique entre A et B lorsqu’il y a une ségrégation non
aléatoire des allèles à ces loci. C’est à dire qu’on n’observe pas de recombinaison
entre ces deux loci.
Pour observer des recombinaisons et leur caractère non aléatoire, on doit travailler sur des
familles afin de suivre la ségrégation des allèles de génération en générations.
L’objectif de l’analyse de liaison génétique est d’identifier une ségrégation non
aléatoire entre le locus maladie dont on cherche l’emplacement sur le génome et des
marqueurs dont la localisation est déjà connue.
C’est à dire trouver un marqueur avec lequel il n’y aura pas eu de recombinaisons, ce qui
nous permettra de penser que le locus pathogène ne se trouve pas loin de ce marqueur.
Il faudra donc faire le test avec de nombreux marqueurs avant de trouver celui ou ceux qui
sont proches du locus recherché.
II.
Analyse statistique
Dans un premier temps, on évalue θ, le taux de recombinaison, c’est à dire le nombre de
recombinants transmis.
Taux de recombinai son  
nb de gamètes recombinan ts
nb de gamètes transmis
Si les deux loci sont indépendants, c’est-à-dire loin l’un de l’autre : θ= 1/2
En revanche, s’il y a liaison génétique i.e. si les loci sont proches : 0 < θ < 1/2
Puis dans un second temps, on regarde si l’estimation de θ faite grâce à nos expériences
avec un échantillon (un nombre de famille) donné, est significativement différente du cas
dans lequel il n'y a pas de liaison génétique (c'est à dire quand θ = 0,5).
Si θ est significativement différent de 0,5, on rejette l'hypothèse de non liaison. Sinon, on ne
la rejette pas. On rappelle que pour que le résultat soit significatif, il faut travailler avec des
échantillons importants.
1. Estimation du taux de recombinaison θ
Finalement, on peut dire que le taux de recombinaison c’est la probabilité que survienne un
évènement de recombinaison.
Donc la probabilité de ne pas avoir de recombinaison c’est 1- θ.
a. Pour 2 loci indépendants (sur 2 chromosomes différents par exemple)
Les deux loci étant indépendants, et les chances de transmettre un allèle plutôt que l'autre
étant égales, P(A1B1) = P(A1)xP(B1) = 0,5x0,5 = 25%
Dans le cas d’une non liaison, θ=0,5
b. Pour 2 loci liés (sur un même bras chromosomique par exemple)
Là, il peut y avoir recombinaison. On identifie des gamètes parentaux (non recombinés), et
des gamètes recombinants.
Pour avoir un gamète parental, il faut qu'il n'y ait pas eu de recombinaison, soit une
probabilité de 1-θ et comme il y a 2 formes de gamète parental, on a une chance sur deux,
parmi ceux-ci, de recevoir A1B1 ou A2B2 .
Au final, la probabilité de liaison est 0,5(1-θ).
Pour un gamète recombinant, il faut qu'il y ait eu recombinaison de probabilité θ et là
encore, comme il y a 2 gamètes recombinants, on a une chance sur deux, parmi ceux-ci de
recevoir A1B2 ou A2B1.
Au final la probabilité de liaison est 0,5θ.
On retrouve bien en cas de non liaison, donc pour θ = 0,5, les scores de 25% pour chaque
gamète.
NB : θ peut être supérieur à ½ dans le cas de régions dites à “hot spot” de recombinaison. Ici ce
cas ne nous intéresse pas.
2. Vraisemblance
a. Phase connue
On est désormais en phase connue. L’allèle A1 est physiquement localisé sur le même brin
que l’allèle B1 c’est-à-dire que les deux allèles sont « en phase ».
Ici, on a un couple. Le père est double hétérozygote.
Attention : la mère est non informative car on ne peut pas distinguer les recombinants des
non recombinants. (donc quand on nous fait estimer un taux de recombinaison on l'oublie, elle ne doit pas
compter. Erreur classique)
On note n1, n2, n3 et n4 les nombres d'enfants du couple présentant un génotype précis,
respectivement A1B1, A2B2, A2B1, A1B2
La vraisemblance, c’est la probabilité d’observer ce qu’on observe,( « Sachant ce que j'ai
observé (estimation de θ), quelle était la probabilité que je l'observe ? »). L’objectif du test
étant de savoir si θ=1/2 ou inférieur.
Donc la première étape du test est d’estimer θ puis on le compare à ½
On veut trouver la valeur du paramètre qui va maximiser cette vraisemblance. On recherche
une différence significative.
Comment la calculer ?
Estimateur de maximum de vraisemblance
Le prof a développé cette diapo histoire de pousser un peu le cours, mais il a dit qu’elle ne
tomberait pas. Je vous la mets quand même.
Si on a une fonction et qu’on la transforme de façon monotone, le maximum reste le
maximum et idem pour le minimum. C’est la même chose ici, on veut trouver la valeur de θ
qui maximise la vraisemblance L(θ).
Mais le meilleur estimateur de θ : nombre de recombinantes/nbre de gamètes transmis
(Comme le nombre de fois qu’on a face ou pile/nombre de fois qu’on lance le dé)
 Estimation de θ?
On ne va pas refaire la vraisemblance. Le meilleur estimateur de θ, c’est
recombinants/ (recombinants + non recombinants)
Attention, le prof a bien spécifié qu’il pourrait avoir des pièges sur les chiffres (on ne
compte pas la mère puisqu’elle est homozygote.)
Ici on a un recombinant (A2 B1) sur 6 gamètes transmis (on ne compte pas la mère).
θ =1/6=0,166
Lors d’une étude génétique il ne faut pas hésiter à dépenser de l’argent pour analyser le
génome des parents, puisque souvent les arbres généalogiques sont difficiles à faire.
Franchement c’est une notion assez simple et intuitive, le prof n’a pas arrêté d’insister làdessus : quand on a les parents tout est plus simple.
Si on demandait la contribution à la vraisemblance de cette famille,
L(θ)= [(1- θ)/2)]nombre parentaux x (θ/2)nombre recombinants =[(1- θ)/2)]5 x (θ/2)1
b. Phase inconnue
La plupart du temps dans les études de positionnement de marqueurs, on ne connait pas la
phase.
« Phaser » coute une fortune. On sait reconnaitre les allèles A1 B1 par exemple grâce aux
marqueurs mais il faut qu’on sache si A1 va avec B1 ou bien avec B2. Il existe des
algorithmes de phasage. Quand on n’a pas la phase, on calcule la vraisemblance en faisant
une hypothèse que la phase est A1 B1 et A2 B2 ou A1 B2 et A2 B1
La vraisemblance totale de la famille va être la 1e vraisemblance pondérée par ½ et celle
de la 2e pondérée par ½, comme on ne sait pas quelle phase est la bonne.
ATTENTION il ne faut pas faire une moyenne des deux (le prof a bien insisté sur le fait que
c’était une erreur récurrente)
c. parents manquants
On pourrait écrire toutes les possibilités. Sommer sur tous les génotypes parentaux
possibles ou sommer sur toutes les phases possibles.
Pour cela il faut faire un arbre généalogique, qui ne peut parfois pas se reconstruire car une
maladie est dominante et létale. Cela va produire un biais. Biaiser l’estimation de θ.
d. Cas particulier : famille avec un enfant
Quand les parents ne sont pas phasés, il n’y a pas de contribution de la famille pour
l’estimation de θ. Si les 2 parents sont phasés par contre, ils sont contributifs.
Familles informatives :1 famille est dire informative si sa vraisemblance dépend de θ.
Conditions :
-au moins 2 enfants génotypes (ou au moins 1 si phase connue)
-Au moins 1 parent double hétérozygote
3) Méthode du LOD score (Morton 1955)
Elle consiste en :
- Tester l’existence de liaison génétique en 2 loci
y a-t-il plus de gamètes parentaux que de gamètes recombinants ?
 θ<1/2 ?
- comparer 2 hypothèses
H0 : indépendance génétique θ=1/2
H1 : liaison génétique 0 ≤ θ<1/2
Toute statistique peut être transformée
en distribution du LOD score.
Comme on travaille en log, le LOD score
est additif pour plusieurs familles SI ET
SEULEMENT SI l’estimateur de θ est le
même dans toutes les familles. Pour
toutes les familles qui ont un θ à 0,14 par
exemple.
Il existe des seuils de décision
Pour le dernier seuil Z(θ1)<-2, on ne l’utilise plus
aujourd’hui car c’est absurde. Morton avait fait ça
pour avoir un tableau décisionnel complet. Si on
trouvait en dessous de -2, cela ne servait à rien de
poursuivre une étude dans cette région puisqu’on
la rejetait d’office. On conclue à l’absence de
liaison génétique ici, ce qu’on ne peut pas faire.
Jusqu’ici, jamais on n’a pas parlé de pathologies, de phénotypes ombres, de gènes. Or, quand
on travaille sur une maladie génétique, ce qui nous intéresse c’est identifier une région du
génome qui peut contenir le gène susceptibilité.
Ce schéma ici résume tout ce qu’on vient de dire.
Phénotype : il est mesuré, car on a des familles,
on a cette info.
Locus marqueur : on a aussi l’info, on a génotypé
5000 marqueurs chez tout le monde.
Dans l’analyse de liaison modèle dépendante,
l’idée est qu’à partir des phénotypes et du modèle
génétique, on va inférer pour chaque individu son
génotype au niveau du locus morbide, du gène
qu’on recherche. On va créer un marqueur
artificiel, qui est le gène. Locus causal :
C’est ce qu’on attend du génotype au niveau du gène du fait du phénotype qu’on a observé chez les
individus et du modèle génétique qu’on a posé.
Par exemple, si on pose comme modèle génétique
-un modèle récessif,
-avec pénétrance complète, (La pénétrance est dite complète quand on peut s'assurer que
tous les sujets porteurs de la mutation dans le gène ont une manifestation clinique de la
maladie.)
-sans phénocopie,
A ce moment-là, quelqu’un qui est malade, on est absolument certain de son génotype, il est
par exemple AA. Quelqu’un de non malade peut être AB, BB. Si on n’a pas les informations
on peut utiliser la fréquence des allèles. On va poser un génotype en fonction du phénotype.
Pour une famille donnée, les génotypes au niveau du locus causal sont fixés. On va dérouler
à côté de ce locus causal, le marqueur 1, faire une étude de liaison génétique, puis marqueur
2, puis le 3, etc… et ainsi passer en revue tous les marqueurs du génome.
Maintenant on utilise plutôt les SNIP au lieu des microsatellites. On a 10 SNIP pour
microsatellites, car ils sont très proches. On peut arriver à créer de la diversité avec les
SNIP même si finalement eux sont très peu polymorphes.
Le calcul du LOD-score devient vite très long : pour les grandes familles c’est exponentiel !
Ce qui est intéressant dans le LOD-score, c’est qu’on a la contribution de chaque famille=on
sait combien chaque famille on contribue au LOD-score (est intéressant pour savoir si on a
2 régions du génome atteintes par exemple).
Quand on a une maladie rare, dominante, on peut éliminer d’office l’homozygotie pour
l’allèle délétère.
L’analyse modèle-dépendante utilise l’information génotypique et phénotypique de tous les
sujets, fournit une estimation du taux de recombinaison, c’est la méthode la plus puissante,
mais SI le modèle est correct !
a) modèle dominant + erreurs sur les fréquences
Ici c’est le vrai modèle
Fréquence qa=2%
Pénétrance pour les AA: fAA= 0,004
Pénétrance pour les Aa et aa : fAa=faa=85%
Ici c’est un modèle dominant pour l’allèle a
parce que : fAa=faa.
1e ligne : le bon modèle (avec qa=2% etc..). Quand θ=0, donc avec un marqueur sans liaison
génétique, on a un Zmax donc un LOD-score à 9,1 et un θ estimé à 1%. Quand on teste un
marqueur qui n’est pas lié donc avec θ=0,5, on a Zmax=0,11 et θ estimé à 0,43.
2e ligne : Ici on se trompe dans les fréquences, la puissance (représentée par Zmax)
diminue un peu, mais cela ne change rien au niveau des faux positifs.
3e ligne : On augmente franchement la fréquence : on passe de 2 à 20%. Cela diminue
franchement la puissance (passe à 5,8 au lieu de 9,1), mais toujours pas de faux positifs.
4e ligne : Idem.
Plus la fréquence allélique est élevée, plus on perd de la puissance.
b) Modèle dominant + erreurs sur les pénétrances
Ici on se trompe sur les pénétrances, cela ne
crée pas de faux positifs non plus. On perd
par contre de la puissance et on risque peutêtre d’avoir des faux négatifs.
c) Modèle récessif
On diminue fortement la puissance mais toujours pas de faux positifs.
CONCLUSION :
On ne crée jamais de faux positifs avec un modèle génétique.
Le modèle génétique on peut se tromper : on perd de la puissance et on crée par de faux
positifs. En revanche, si on fait intervenir la fréquence allélique des marqueurs alors on
crée des faux positifs. CAD qu’on n’a pas les parents, que les enfants sont insuffisants pour
reconstruire. ENCORE UNE FOIS IL FAUT LES PARENTS !!!!
Téléchargement
Explore flashcards