UE11 – PARCOURS 4 – Pharmaco/Physio – cours n°2 02/03/16 Alexandre Alcaïs [email protected] RT : Benjamin CORSIA / Lucie COUMAR RL : Marie Adeline MIGEON A Survival Kit to Genetic Epidemiology Plan : Le prof n’a pas suivi de plan particulier mais plutôt répondu à des questions pour expliquer les différentes méthodes. ① Les facteurs génétiques jouent-ils un rôle ? → Observations épidémiologiques ② Quelle est leur nature ? → Analyse de ségrégation ③ Quelle est la position chromosomique ? → Analyse de liaison ④ Quel est le variant causal ? → Etude d’association ⑤ Quelle est la fonction ? Mot du RT C’est surtout un cours de réflexion (le prof énonce beaucoup d’exemples) : en gros, le plus important est le tableau en fin de chapitre sur les différentes études. Message du cours : Si on croit en quelque chose, il faut foncer ! Mot du RL Le prof a surtout essayé, pendant le cours, de nous transmettre sa passion pour la génétique et la recherche, plus qu’à nous donner des notions très précises sur les différentes études génétiques. Les questions au partiel seront du style : je cherche telle information, quelle est la meilleure étude à réaliser ? Est-ce que j’ai besoin d’un séquençage ou non ? Vaut-il mieux travailler sur des familles ou non ? Donc je vous conseille de peut être reprendre les cours de génétique UE3 du début de l’année, où on en parle de façon un peu plus précise … Objectif du cours : avoir une vue aérienne des outils dont on dispose et des idées associées si je me pose telle question, comment y répondre, de quels outils ai-je besoin, quel coût, est-ce que ces outils fonctionnent... ? Le modèle est le suivant : pour une question posée, on dispose de données pour y répondre, données qu'il faudra analyser, en sachant que la réponse apportée sera limitée par l'état actuel des connaissances. Idée de base : pourquoi parler de la génétique dans la pharmacologie, dans les pathologies... Pourquoi la génétique est-elle aussi importante dans ces domaines ? Introduction Courbe illustrant la survie des populations en fonction de l'âge au décès et des différentes époques de l'humanité (paléolithique <10 000 ans avant J.C. ; néolithique : 3000 ans avant J.C.) L'élément frappant sur ces courbes est le fait que, du Paléolithique (< 10000 avt J.C.) jusqu'à Liverpool (1860), la plupart des sujets mourraient très jeunes. Les courbes sont en effet similaires entre ces deux époques, ce qui signifie qu'en 25000 ans, la survie n'a globalement pas changé : la nature “sacrifiait” avant l'âge 10 ans 50% des individus, et optimisait ainsi la survie de la génération suivante, adaptant le génome aux conditions environnementales. Il existe une grande variabilité, puisque la moitié des individus décédait avant 10 ans tandis que l'autre survivait. Il convient donc de se poser les questions : pourquoi cette variabilité ? peut-on l'expliquer ? En pharmacogénétique, on considère que la génétique de l'être humain n'a pas été modelé pour répondre de façon optimale à la situation (en l'occurrence l'utilisation de médicaments). Il apparaît donc peu probable de ne pas avoir d'effets indésirables secondaires à l'administration de médicaments, la plupart d'entre eux étant des molécules de synthèse (exception faite de l'Aspirine issue du saule) ; il semble impossible que l'être humain ait été adapté à la prise de médicaments au cours des 20 000 dernières années. Par exemple, pour traiter la lèpre, on administre un médicament, la Dapsone, dont certains sujets sont décédés alors qu'ils ne mourraient pas nécessairement de la lèpre. On a par la suite trouvé un variant allélique qui augmentait considérablement le risque de décès suite à la prise du traitement. Pour revenir à la courbe, on observe donc qu'il ne se passe globalement rien pendant 20 000 ans, la moitié de la population meurent avant l'âge de 10 ans etc... Puis vers 2000 (courbe rouge UK), on observe un changement considérable, puisque 99% des individus vivent jusqu'à 60 ans. Il semble impossible qu'en l'espace de 100 ans la génétique soit en cause d’un tel changement. Il s'agit d'autres éléments qui ont impacté les causes de mortalité (découverte des microbes, de l'hygiène, les vaccins, antibiotiques, antiviraux etc). L'impact des découvertes non spécifiquement génétiques est donc très important. On constate également que la courbe jaune (Liverpool, 1860) qui précède la rouge de seulement 140 ans, dresse un état de la survie similaire à celui du paléolithique. C'est la découverte pendant ces quelques années de l'hygiène, de l'infection par les microorganismes à l'origine de maladies ainsi que l'histoire de la médecine en générale qui ont entrainé cette amélioration. Un autre argument en faveur de cette hypothèse est le fait que le Mozambique (courbe violette), à la même époque (2000), présente un taux de survie proche de ce qu'on observait autrefois (10 à 20% de la population décède avant l'âge de 10 ans), associé à un moins bon accès aux soins, l'absence de vaccinations systématisées etc. Tout ça pour dire que la le gain de survie observé ces 100 dernières années n'est sûrement pas dû à des modifications génétiques mais à la compréhension des maladies, aux traitements, à la connaissance de façon générale, acquise dans le but de diminuer la mortalité. I. La variabilité en pharmacogénétique A. Introduction à la variabilité en pharmacogénétique En pharmacogénétique, on est plus souvent face à des phénotypes moins extrêmes que la mort, et on observe toujours de la variabilité entre les individus (que ce soit entre frères et sœurs ou individus avec des habitudes alimentaires différentes par ex), notamment vis-à-vis de l'administration de médicaments. La courbe ci-dessus présente la concentration plasmatique d'un médicament (signe d'efficacité ou de toxicité) en fonction du temps, pour différents individus à qui on a donné la même dose. Il s'agit de constater à nouveau la variabilité (le sujet vert n'est a priori pas fondamentalement différent du violet et pourtant présente un profil de concentration complètement différent) qu'on explique par l'existence dans la population (on peut tous être classés dans ces catégories) de métaboliseur lent, médian ou ultrarapide, et en fonction de ça, on aura des concentrations plasmatiques plus ou moins importantes suite à l'administration du médicament, qui se traduiront par une efficacité thérapeutique, une absence d'effet ou une toxicité. Remarque : Il existe, en plus de la variabilité dans la réponse au médicament, une variabilité du temps de traitement pour une pathologie donnée : on traite une lèpre sur une période d'un an, une tuberculose pendant 6 mois. Ces éléments peuvent avoir de l'importance pour l'observance du traitement (par ex, si le ttt antituberculeux entraîne des démangeaisons, le patient aura tendance à l'arrêter avant les 6 mois et pourra transmettre le germe à son entourage). Autre question importante : pourquoi face à un microbe, certaines personnes ne seront pas infectées, d'autres le seront sans développer de forme active, d'autre vont développer des formes actives plus ou moins sévères ; parmi ceux qui seront traités, certains vont avoir des effets indésirables très importants, d'autres non etc. Il y a une variabilité qu'on voudrait comprendre. Qu'est-ce qui explique le fait qu'on va avoir des effets secondaires ou une pharmacocinétique différente ? D'abord des éléments relatifs au médicament : le principe actif, les excipients, la galénique, le mode d’administration. Au niveau de l'individu, des facteurs non génétiques (interaction médicamenteuse ou avec l’alimentation par ex), personne âgée donc dose plus faible (car considéré comme insuffisant rénal et hépatique). Ce qui nous intéresse véritablement ce sont les facteurs génétiques spécifiques d'un individu donné : est-ce que tel individu, qui va recevoir le traitement, a tel profil génétique qui le rend susceptible de présenter des effets indésirables majeurs ou au contraire résistant au traitement malgré l'augmentation des doses ? B. Modèles expérimentaux Chez la souris, il est facile de concevoir des expériences : on contrôle la molécule, le mode d'administration, l'environnement (température ambiante, couleur de la cage...) et le fond génétique puisqu'on peut ajouter ou invalider un gène (gènes KO). Donc dans le concept c'est simple d'élaborer l'expérience pour tester l'hypothèse. Il existe néanmoins des problèmes pratique, notamment celui de l'environnement naturel : un gène possède en effet un environnement naturel et il ne s'exprimera pas de la même manière dans un autre environnement. Par exemple, si on capture une souris sauvage mâle et qu'on la met dans un environnement avec des souris sauvages femelles, celles-ci vont se mettre à disposition du mâle pour la reproduction, alors qu'aucune autre information excepté le génome n'est présente. Si maintenant on prend une souris modifiée génétiquement et qu'on la met en cage avec d'autres souris sauvages, la souris modifiée va se faire massacrer par les autres, parce qu'elle est différente génétiquement. Autre cas : dans le cadre de la lèpre on teste le récepteur de la dopamine chez des souris KO pour le gène codant le récepteur : les souris hétérozygotes sont normales, mais les homozygotes sont incontrôlables, surexcitées… donc on ne peut pas travailler dessus. Il s'agit de garder à l'esprit que les modèles expérimentaux ont leurs limites, même si sur le papier l'expérience paraît adaptée et faisable. On a tout de même pu démontrer chez la souris que, chaque fois qu'il existait réponse particulière à une forme d'agression (administration d'une molécule ou ingestion d'un aliment) il existait un ou des gènes qui jouaient un rôle majeur dans la variabilité entre les souris. C. Variabilité en pharmacogénétique chez l'Homme Chez l'homme on ne peut pas faire ce type d'expérience mais on dispose d'expériences que “la nature” fait pour nous... (chaque naissance est une expérience, il existe de mutations des novo tous les 10 millions de pb qui font qu'on s'adapte mieux ou pas) Mot du prof : L'observation est donc capitale. Il faut observer ce qui nous entoure : j'observe que tel individu a tel phénotype, tel patient qui a pris telle molécule et a eu tels effets... De là on peut être marqué par des choses atypiques et l'intuition rentre en jeu. Il faut ouvrir les yeux, observer, regarder, et être surpris, ne pas être dans la routine. C'est aussi valable pour la pratique médicale. On accumule des connaissances scientifiques sans le savoir et quand un truc anormal passe on s'en rend compte. Phénotype Rare Commun Causalité monogénique complexe Taille petite large Outils Génétique mendélienne Génétique épidémiologique Donc la nature fait des expériences pour nous, et on doit distribuer (c'est artificiel) les observations en 2 groupes : -le phénotype est extrêmement rare (ex : administration du vaccin BCG et on en meurt) -le phénotype est fréquent (ex: même vaccin mais développe une tuberculose pulmonaire) Il existe donc 2 façons de concevoir le phénotype. Le phénotype apparaît comme essentiel, l'ensemble des travaux se baseront dessus par la suite, donc c'est primordial d'avoir confiance en l'observation/mesure qui en est faite. On distingue (de façon artificielle) un phénotype rare et un phénotype commun. Pour un phénotype rare on fait l'hypothèse qu’il est monogénique : il y a une rupture de fonction dans un gène donné, qui est violente et directement en cause dans la pathologie. Cette mutation va donner la pathologie. Dans ce genre de cas, on a besoin de très peu d'individus (la mutation étant rare de toute façon), car chaque individu contient une information “colossale” (ex : il lui manque la moitié du génome...) C'est la génétique mendélienne : on part du principe que, le phénotype étant extrême, la cause génétique sous-jacente doit être très forte et monogénique, car le phénotype est commun aux rares patients atteints (donc ne touche qu'un gène) Inversement, pour les maladies communes, on imagine plus difficilement qu'une mutation rare explique un phénotype fréquent (comme la tuberculose pulmonaire secondaire au BCG). On suppose que la contribution génétique de l'hôte au phénotype fréquent (allergie à l'aspirine, tuberculose pulmonaire) ne peut pas être une cause génétique violente, donc on s'attend à ce que plusieurs gènes soient impliqués, pas avec des anomalies “fortes” type perte de fonction mais plutôt anomalie du promoteur qui font qu'on a une quantité plus ou moins importante de protéines. Ici chaque individu possède peu d'information, on en prend donc beaucoup (plusieurs milliers), en espérant qu'ils partagent les mêmes causes qu'on va pouvoir identifier. Individuellement ils ont peu d'infos, ensemble ils en ont beaucoup. C'est la génétique épidémiologique : on veut des variant relativement communs (10 à 20% de la population) mais dont les effets fonctionnels sont difficiles à établir. NB : Mendel est le fondateur de la génétique mendélienne. Galton a fondé la génétique épidémiologique (il est l'origine de la théorie des maladies polygéniques) Les deux ont vécu a la même époque mais n'ont jamais communiqué, et ces 2 disciplines ne se sont jamais parlé jusqu'à peu en 90 où des labos ont commencé a travailler ensemble sur des formes extrêmes et communes des mêmes pathologies, avec des outils différents... Maintenant la coopération entre les deux fonctionne car l'information à disposition est la même : le génome complet de l'individu. Il semble impossible que le concept de maladie monogénique (mendélienne) soit réel car, pour prouver qu'une maladie est due à l'altération d'un seul gène, il faudrait avoir à disposition un être vivant doté d'un seul gène et dont la perte de fonction entraînerait le phénotype de la pathologie. Or il n'existe aucune forme vivante dont le génome n'est fait que d'un gène, on ne peut donc pas démontrer qu'une maladie soit monogénique. Par exemple, la mucoviscidose est associée à la mutation du gène CFTR. On constate que, dans une population d'individus atteints de la même mutation, certains décéderont à 10 ans et d'autres vivront jusqu'à 30 voire 45 ans, alors qu'ils ont au départ la même mutation. Donc la mutation crée la condition mais celle-ci peut être modulée de façon relativement importante par autre chose. Si on prend l'exemple d'une maladie plus fréquente, comme la tuberculose, on se rend compte que 30% des enfants atteints ont une lésion “violente” dans un seul gène qui est l'origine de la perte de fonction d'une protéine (interféron gamma) et donc d'un déficit. C'est ce déficit qui entraînera le décès du patient suite à l'administration du vaccin BCG, si on ne le traite pas par la suite en lui donnant des antibiotiques et surtout de l'interféron gamma. C'est le même principe pour des maladies non-infectieuses comme le diabète de type 1 (insulino-dépendant): il ne s'agit pas de proscrire le sucre de l'alimentation mais de corriger le fait que le patient ne puisse pas produire de l'insuline correctement. Pour revenir aux maladies infectieuses, l'idée est de comprendre que, bien qu'il faille donner aux patients des antibiotiques (infection bactérienne), il faut aussi s'interroger sur la raison pour laquelle, sur une centaine de patients atteints de paludisme (par ex), 2 en meurent alors qu'ils ont reçu le même traitement que les autres. (cause génétique sous-jacente) II. Les études en pharmacogénétique A. Schéma général de la démarche pharmacoépidémiologie Schéma de la démarche en pharmaco-épidémiologie : -on se demande s’il y a des facteurs génétiques impliqués dans une pathologie, en se basant sur des observations épidémiologiques -on tente de trouver la nature du facteur en cause (un gène muté ou plus ? mutation dominante ou récessive ?) par des études de ségrégations -on veut connaître la localisation sur le génome du composant génétique identifié : quel chromosome, bras court ou bras long.… par une analyse de liaison -et quand on a trouvé une région d'intérêt (on est certain de la localisation du gène en cause), on regarde ses variants pour savoir s'il y avait ou non une sur-représentation de tel allèle etc par des études d'associations, qui ne préjugent pas de la causalité entre la présence de l'allèle et la maladie. B. Les études épidémiologiques Les études épidémiologiques : -impliquent une variabilité entre les individus -on remarque que dans certaines pathologies, les malades sont apparentés (frère et sœur, enfant et parent), on parle de cluster familiaux, ce qui ne prouve pas nécessairement l'origine génétique de la maladie mais constitue un argument en faveur d'un risque génétique -risque de récurrence familiale (= risque de récurrence de la maladie au sein de la famille, la littérature s'étant concentré sur les récurrences entre frères et sœurs) : risque de récurrence au sein de la fratrie Pour calculer ce risque, on recherche des individus atteints parmi les frères et sœurs des patients initialement incorporés dans l'étude ; et parmi les contrôles, on recherche des frères et sœurs qui ont développé la maladie. On pose le rapport entre la prévalence de frère/sœur atteint parmi les individus malades et la prévalence de frère/sœur atteint parmi les individus contrôles et on obtient le risque de récurrence familial (facteur lambda) : prévalence de frère-sœur atteint chez les cas lambda = _______________________________________ prévalence de frère-sœur atteint chez les contrôles Par exemple, pour la lèpre, le risque de récurrence est de 4 : cela signifie que si j'ai un frère ou une sœur atteint de la lèpre, j'ai 4 fois plus de risque d'être infecté qu'un individu qui n'a pas de frère ou sœur atteint (ne témoigne pas forcément du caractère génétique de la pathologie, dans cet exemple on a évidemment plus de risque d'être infecté si on est exposé en permanence à la pathologie parce qu'on vit avec quelqu'un d’infecté). -les études de jumeaux : il s'agit contraster les monozygotes (vrais jumeaux) et les dizygotes (faux jumeaux) : les monozygotes ont 100% de leur patrimoine génétique commun, les dizygotes 50%, comme les frères et sœurs. Il est néanmoins intéressant de travailler avec des dizygotes car cela permet d'éliminer l'effet cohorte : puisqu'ils sont nés en même temps, on ne peut pas dire que l'un est atteint et l'autre non parce que les conditions environnementales ont changé entre temps (ex : tel frère est atteint parce qu'à son époque on fumait et celui qui est né plus tard a évité cette exposition donc n'est pas malade) Remarque : c'est un outil très puissant mais peu utilisé en France car il n'existe pas de registre des jumeaux (dans d'autres pays ça existe). Il s'agit de regarder la concordance entre les jumeaux monozygotes et dizygotes ; on s'attend à ce que les jumeaux monozygotes se ressemblent plus au niveau du phénotype de la pathologie que les dizygotes, si la pathologie est effectivement d'origine génétique (c'est pour ça qu'on retire des études les jumeaux concordants « non atteint/non atteint » car il sont trop fréquents) Par exemple, pour la lèpre, on observe 60% de concordance chez les jumeaux monozygotes (dans 60% des cas si un jumeau est atteint l'autre aussi) et seulement 20% chez les dizygotes, donc 3 fois plus de ressemblances entre les vrais jumeaux qu'entre les faux jumeaux. Il faut néanmoins garder à l'esprit qu'il s'agit d'un argument supplémentaire en faveur de l'origine génétique de la pathologie et pas d'une preuve. _______________________________________________________________________________________________________________ Et puis il y a les Etudes Adoptées (alors ça c’est encore plus difficile à reprendre). Dans les pays scandinaves, n’importe qui peut demander l’identité de ses parents biologiques (s’ils sont connus) car il existe un registre. Ex : ce sont des enfants qui sont restés vivre avec leurs parents biologiques versus des enfants qui ont été adoptés et qui ont vécu donc avec des parents non biologiques. On compare finalement les pathologies qui sont survenues chez ces enfants, c’est-à-dire l’enfant va développer un cancer → est-ce que ses parents biologiques ont développé ce cancer ou au contraire ses parents adoptifs ? On s’aperçoit que dans les maladies cardiovasculaires c’est à peu près 50-50 de contribution, dans le cancer c’est massivement environnemental et dans les maladies infectieuses il y a un biais parce qu’on parle de la mortalité. On s’aperçoit également que le risque est 5x plus grand si le parent biologique est mort de la tuberculose alors que l’enfant vivait avec des parents adoptifs. « La Guerre ça tue » … c’est un caractère, c’est donc comportemental or dans les caractères comportementaux en psychiatrie, on a beaucoup de mal à trouver de la Génétique parce le phénotype est mal défini. On n’y arrive pas et on ne sait pas ce qu’on doit trouver finalement. Pour le prof, comme il y a agressivité massive, il y a donc une composante génétique forte (les faibles meurent plus que les forts). Une fois qu’on a les facteurs génétiques (on n’a pas besoin d’ADN pour tout ça), on fait des ségrégations. On va voir des familles et on regarde comment ça ségrége grâce des arbres (généalogique, phénotypique) que l’on constitue. On envoie le phénotypage au CNG (Centre National de Génotypage). Ce qui est intéressant est de travailler sans ADN. (Dominant = en général une copie est suffisante ou 2 copies / Récessif = avec un parent atteint) La ségrégation complexe On travaille sur la pharmacodynamie de la molécule M → dépend de plusieurs éléments (ce qu’on mange, du poids). On rentre dans la ségrégation dite complexe, ce n’est pas parce que vous avez le variant que vous allez développer la pathologie. Parmi ceux qui ont ce génotype là, la plupart sont rapides mais certains sont lents. Il y a les phénocopies, l’environnement partagé (une tablette de chocolat par jour → tu grossis), l’interaction gène-environnement, plusieurs gènes en cause → d’où ségrégation complexe (vous avez besoin des familles, des phénotypes mais pas d’ADN). Le principe de l’analyse de ségrégation c’est de spécifier un modèle qui est causal pour votre pathologie. Ex : Paracétamol → on fait de l’insuffisance hépatite sévère. Pourquoi ? Hypothèse : Ils sont tabagiques = Modèle : ceux qui sont tabagiques développent une insuffisance hépatique au paracétamol et d’autres non → y (insuffisance hépatique) = tabagisme (oui/non). On calcule si on applique ce modèle aux données ou non, on a une valeur à 800. Puis on teste un autre modèle alcool + tabac, on a une valeur à 950 → ça explique mieux (rajouter quelque chose ne peut jamais expliquer moins bien au pire c’est 0 et ça n’explique rien). Donc 950 d’insuffisants, on fait un test pour savoir si la différence est significative, si elle l’est on garde le tabac. A la fin, on aura testé un nombre important de modèles et on garde celui qui explique mieux les données. Evidemment, c’est extrêmement limité car ne serait-ce que pour l’étape 1 déjà vous devez spécifier un modèle causal donc vous ne pourrez jamais trouver quelque chose que vous n’avez pas spécifié → on n’a pas de surprises on teste tous les modèles qu’on connaît et du coup pas de modèle avec l’avantage d’avoir un hétérozygote où on se rend compte qu’il y avait une pathologie où il y avait un hétérozygote (drépanocytose si hétérozygote, pas de développement de drépanocytose). Qu’est ce qu’il faut comme données ? Est-ce que ce qui ségrége dans la famille c’est compatible avec l’effet d’un gène ? Réponse : il me faut des données familiales par contre pas besoin d’ADN Le Déliverable c’est qu’on va avoir une estimation sur la base qu’on a observé. Ici, ce qu’on va mesurer c’est l’injection de tuberculine : on mesure l’induration (à quel moment on rencontre une résistance avec un stylo, le faire les yeux bandés sinon influence), c’est-à-dire la taille → intéressant de trouver des facteurs génétiques impliqués là-dedans). Remarque : Le vaccin contre la tuberculose ça ne protège pas de la transmission (pas d’intérêt au niveau santé publique) mais l’individu ne développe pas la maladie. Après 15 ans, ça ne protège de rien du tout. Tout le monde essaie de trouver un vaccin qui va protéger de la tuberculose pulmonaire pour toute la vie SAUF QUE → Observation : les gens qui avaient fait une tuberculose refaisaient une tuberculose, ils ont eu une rechute. Le fait d’avoir une tuberculose ne protège pas de la tuberculose → aucun vaccin ne va marcher ! = Problème conceptuel. Avant de commencer une étude génétique, il faut passer beaucoup beaucoup de temps sur la littérature et aller voir les gens car il y a beaucoup beaucoup de facteurs environnementaux qui ont expliqué cette variabilité (ex : couleur de peau → influence). Il faut vraiment faire le bilan de tout ce qui est connu, il faut vraiment être exhaustif, on se doit de lister TOUTES les covariables pouvant influencer la variabilité. Recueillir les données pour enlever la variabilité qui n’est pas celle recherchée : on épure le phénotype, on ajuste le phénotype sur les covariantes. Donc on a trouvé une évidence pour un gène qui était récessif. Cet allèle, variant conceptuel expliquait les valeurs très hautes (les gens qui étaient homozygotes pour l’allèle imputé, étaient prédisposés à faire de très hautes valeurs). Si ça explique 1% ou 0,5% de ce qui se passe → ça ne sert à rien de continuer les recherches MAIS si 23% ça c’est good → ¼ serait expliqué par un effet génétique en l’occurrence 30%. 23% c’est la fréquence de l’allèle et 30% c’est la proportion de variance expliquée par votre modèle. Quand on injecte la tuberculose à quelqu’un, 1/3 de la réaction est lié à son profil génétique. La deuxième question est de savoir : où sont localisés ces facteurs génétiques sur ce génome ? On fait de l’analyse de liaison. On a maintenant les données familiales obligatoires, on a au moins besoin de 2 enfants → on regarde si 2 frère et sœur qui se ressemblent, se partagent plus de matériels génétiques en commun à une région donnée que 2 frère et sœur qui ne se ressemblent pas (comparaison au sein d’une famille) + besoin d’ADN car on a besoin de baliser le génome. Idée de toutes ces études de liaison : vous avez 2 enfants (les 2 sont malades) qui partagent des ressemblances phénotypiques → on cherche des ressemblances au niveau génétique et inversement, s’ils sont très discordants, donc on recherche des régions très différentes. On somme ça sur le nombre de familles qu’on a. Ça a un intérêt supplémentaire dans le cas de phénotypes binaires mais aussi des phénotypes extrêmes quantitatifs parce que quand on a 2 enfants atteints dans une famille, la composante génétique est plus élevée que chez des gens que vous prenez au hasard. Pourquoi j’ai besoin d’ADN, de marqueurs ? J’ai besoin de baliser le génome. Maintenant je veux savoir où je suis dans le génome ? Si c’est à ce niveau de marqueur là qu’il se ressemble alors cette région là est intéressante car en fait, les marqueurs d’analyse de liaison c’est du kilométrage/balisage. Ce n’est pas l’allèle qui est intéressant mais le positionnement des marqueurs d’analyse de liaison. Dans la 1ère famille, on voit que l’allèle qui est responsable de la pathologie est associé avec le B alors que dans la 2ème famille, l’allèle qui est responsable de la pathologie vient avec l’allèle A et la 3ème vient avec l’allèle B. Mais les enfants de ces familles se ressemblent parfaitement = même marqueur mais les allèles sont différents. L’intérêt est de capturer la position, on ne cherche pas l’allèle causal. On a balisé le génome. On peut voir qu’il y a des seuils et que sur le chromosome 11, il y a un signal de liaison qui est significatif (les gens choisis se ressemblent beaucoup au niveau de cette région). Les études de liaison permettent de trouver 1 ou 2 régions du génome qui sont hyperpartagées par les gens qui hyperpartagent le phénotype. Est-ce que c’est par hasard ou est-ce qu’il y a un lien de cause à effet ? En tout cas, on a restreint 3 millions de paires de base à sur 5 Mégabases de chromosomes. Etude de liaison = recherche de parties qui se ressemblent On se retrouve avec une petite région d’intérêt : souvent on a une liste de gènes (50 ou 3 ou 220 => variable). On cherche maintenant un variant fonctionnel. Pour identifier le(s) variant(s) causal(ux), on fait des études d’association : on a des contrôles et des cas, on va comparer la fréquence allélique d’un variant donné entre les cas et les contrôles (là il n’y a pas de génétique). La valeur ajoutée à ces analyses est relativement faible. Ici, on n’a pas besoin de famille mais par contre on n’a besoin de cas et de contrôles + de l’ADN. La 1ère chose c’est qu’on teste un seul marqueur : on a beaucoup plus d’individus qui sont AA chez les contrôles que chez les cas et beaucoup plus d’individus qui sont BB/AB chez les cas → il y a donc une association très significative entre ce marqueur là et votre pathologie. On peut quantifier l’Odds Ratio, c’est une estimation du Risque Relatif (=risque de développer la pathologie si vous possédez AB ou BB comme génotype VS si vous possédez AA). L’Odds Ratio c’est : « si je suis malade alors j’ai 4x plus de risques/chances d’être porteur d’AB ou BB » différent donc de « si je suis porteur d’AB ou BB, j’ai 4x plus de chances de développer la maladie » (risque relatif). 2ème niveau déliverable, vous n’avez pas choisi un gène qui vous intéressait dans la région → on a pris tous les gènes de cette région, dans ces gènes on a regardé tous les variants qui existaient à une fréquence > 5% par ex. Approche génocentrique (quand il n’y a pas de gènes, il n’y a pas de marqueurs) → on a décidé que c’était dans les gènes que ça se passait. Donc à chaque fois qu’on a des gènes, on a des marqueurs. Ça c’est la position du chromosome 11 vu précédemment lié à la tuberculine et ici, c’est une évidence de liaison. Les p-value sont en –Log10 (p) car le plus significatif sont les p-value les plus petites (si on voulait représenter les résultats en gardant l’échelle originelle ça aurait été très compliqué). Il y a un gène qui nous intéresse ici, c’est un gène > à 6 - 3 : c’est le récepteur de la dopamine. On a des analyses de liaison, on a un gène qu’on teste qu’on trouve, on veut être génocentrique donc on teste tous les variants des gènes de la région ou on a la région et on teste tous les variants de la région (on s’enlève la contrainte de se dire : c’est quelque chose qui doit être localisé au sein d’un gène). OU bien on peut décider que ces histoires de liaison, de ségrégation, etc… on s’en fout complètement. On prend 50 000 cas et 50 000 contrôles et on fait une étude d’association pour un génome x, on est donc affranchi de choisir un gène au niveau d’une région, on veut juste capturer toute l’information de tout le génome de tous les cas et du contrôle. C’est devenu possible car d’une part les coûts ont diminué et d’autre part on s’est aperçu que dans le génome, il y avait beaucoup de redondances, c’est-à-dire qu’il y avait beaucoup de variation mais en fait, ils sont redondants. Etude sur la lèpre. C’est pour se faire une idée de comment sont présentés les résultats. Sur le chromosome 6, dans le cas de la lèpre, il y a un effet très significatif à 10-18 mais un OR de 1.7 (pas très élevé). On est passé du GWAS (Genome-Wide Association Study) au séquençage du génome. Tous les GWAS sont univariés donc c’est un variant : 10 000 cas de tuberculose + 10 000 cas de contrôles → hypothèses : - homogénéité allélique, c’est-à-dire que tous les cas de tuberculose non-apparentés sont accentués du fait d’un seul variant localisé dans le même gène - chaque variant a une action qui est totalement indépendante de l’environnement génétique (on a aucune voie de compensation) on a un variant dans un gène qui donne un risque accru de développer la tuberculose et c’est le même variant dans un gène pour tous les cas : ça n’a aucun sens ! La GWAS n’a donc pas marché car la question posée n’est pas la bonne. Remarque : 2 manières d’augmenter la p-value d’un échantillon : soit on augmente la taille de l’échantillon soit on augmente l’effet recherché. (La p-value n’existe pas en soi car on peut la moduler à notre manière : on veut une p-value plus significative, on augmente la taille de l’échantillon donc on crée obligatoirement l’hétérogénéité → il faut augmenter l’effet !) TABLEAU IMPORTANT ! <3<3<3 Pour résumer, ce qu’il faut savoir : - Analyse de ségrégation il faut des familles, nb d’enfants n’a pas d’importance, pas de DNA : ça va donner un modèle génétique. On n’en fait plus du tout. - Analyse de liaison il faut des familles, au moins 2 enfants et de l’ADN : l’objectif est de donner des régions candidates. (Ex : on passe le génome de 3 gigabase à 1 mégabase) - Etudes d’association on peut avoir des familles mais ce n’est pas obligatoire OU des cas/contrôles, il faut de l’ADN : l’objectif est d’avoir des allèles candidats qu’on retrouve et re-retrouve dans des échantillons consécutifs. (Ex : 4x qu’on retrouve le même allèle associé à la pathologie dans 4 échantillons distincts intéressant) Donc même sans ADN, on peut faire des choses et même sans famille, on peut faire des choses. Par contre, sans famille et sans ADN, c’est dur. Juste pour conclure : En 2000, on testait des hypothèses ou on générait des hypothèses puis il y a eu des stratégies plus modernes. Mais au final, tout ça s’est dépassé. En 2015, - Si on a un phénotype sévère, on séquence toutes les régions codantes du génome. - Si on a un phénotype commun, ce sont les GWAS. Maintenant avec un phénotype, on fait le séquençage génomique entier. On aura un cours dessus plus complet. Quand on veut faire du génome ou de l’exome, on prend tout l’ADN du gars, on le coupe en petits morceaux, on construit la librairie et on les colle. On fait des contrôles, on a donc une séquence de référence et on colle chaque bout sur la référence pour voir s’il est hétérozygote ou homozygote. On regarde l’exome et à la position centrale (verte), on voit que la paire de base est très bien couverte par plusieurs fragments. Ici, si on trouve 50 G et 30 A, on conclut que le gars est hétérozygote. Mais en revanche, si on prend au niveau de l’extrémité, on voit qu’on a que 2 fragments qui sont collés → c’est impossible de savoir s’il est par ex AA ou AT car il n’y a pas assez de couverture. Problèmes différents de profondeur de couverture, d’alignement, etc… CONCLUSION FICHE RECAPITULATIVE Intérêt de la génétique ? On observe partout une grande variabilité inter individuelle, tant face aux agents infectieux qu’aux médicaments. D’où vient cette variabilité face à un microbe, un traitement ? Pourquoi on est différent ? Facteurs de variabilité : provenant du médicament (excipient, forme pharmaceutique) et de l’hôte (facteurs non génétiques et génétiques) ● L’étude de la génétique et la recherche en génétique permettent d’expliquer une partie de cette variabilité, ce qui peut avoir des conséquences très concrètes en terme d’amélioration de la prévention et des traitements. Le mot clé du cours : « Si vous êtes convaincus de quelques chose, que vous voulez vraiment tester une hypothèse parce que vous pressentez la réponse derrière, allez-y ! » 2 écoles de recherche en génétiques : génétique mendélienne et épidémiologie génétique ● Phénotype rare -> monogénique (rupture de fonction dans un gène donné qui cause la maladie) -> peu d’échantillons (chaque individu contient une information colossale) -> gènes mendéliens -> effet très fort ● Phénotype commun -> plurigénétique -> larges échantillons -> épidémiologie génétique > variant communs Dans tous les cas, il faut partir du phénotype toujours ! on ne peut pas raisonner à partir de probabilité Schéma d’une recherche à propos d’une maladie : questions, réponses de la recherche Est-ce que la génétique jour un rôle dans cette maladie ? -> observations épidémiologiques (épidémiologie traditionnelle) Types d’études : Cluster familial des cas, Etudes des jumeaux, Etudes d’adoptés Ce qu’on mesure : Risque de récurrence familial, facteur lambda ● On a besoin de familles, pas d’ADN Quelle est la nature de l’information génétique concernée ? -> analyse de ségrégation Avant de se tourner vers la génétique, on consulte dans la littérature pour enlever toute la variabilité expliquée par l’environnement -> on épure le phénotype au fur et à mesure pour aller vers la génétique Type d’études : dans une famille -> arbres généalogiques à partir d’éléments phénotypique Attention à la ségrégation est complexe, il y a des effets covariants, une pénétrance incomplète, des phénocopies, un environnement partagé, des interactions entre gènes, gènes multiples -> arbres moins faciles à interpréter Démarche à suivre : ● Spécifier un modèle causal ● Créer le modèle mathématique correspondant ● Voir combien cela explique les données ● Comparer différents modèles et garder le meilleur Ce qu’on mesure : proportion de variabilité expliquée, pour voir l’intérêt d’une étude génétique Limites : on ne trouve que ce que l’on teste (ce qui est défini dans le modèle causal proposé) ● Besoin de familles, pas d’ADN Quelle est la localisation chromosomique ? -> analyse de liaison Type d’études : capturer des zones du génome qui se ressemblent beaucoup pour un phénotype commun entre deux frères et sœurs on ne cherche pas l’allèle causal mais seulement le positionnement qui doit être ultraprécis ● Besoin de familles et d’ADN Quel est le variant causal ? -> études d’association (GWAS) on cherche une association d’allèles : tous les malades ont le même allèle et tous les contrôles ne l’ont pas Type d’études : tester un gène précis (quantification des variants dans chaque gène de la zone d’intérêt), analyser les variants dans toutes la zone (génique et intergénique), étude d’association pan-génomique Ce qu’on mesure : Odds ratio : si je suis malade, j’ai tant de risque de porter ce génotype ; risque relatif : si j’ai ce génotype, j’ai tant de risque de plus de développer la maladie ● pas de famille, mais besoin d’ADN Quelles est la fonction ? (génétique moléculaire) NB : le (1) correspond à la génétique classique, (2), (3) et (4) à la génétique épidémiologique. Stratégie actuelle Si on a un phénotype sévère, on séquence tout l’exome Si on a un phénotype commun, on fait des études d’association Pour le futur, dès qu’on a un phénotype on fait un séquençage génome entier Conclusion Permet de comprendre des pathogénies dans les maladies, de définir la fonction des gènes dans son écosystème normal d’un point de vue biologique Contribue au diagnostic clinique, développement de nouveaux traitements, optimisation des stratégies de prévention