UMR Génétique 2 22/10/2015 Eric PASMANT – Claude HOUDAYER RT : Arnaud KLOKNER RL : Corentin BACHELLEREAU [email protected] Principaux mécanismes moléculaires des maladies génétiques – Bases de données – Cas particulier des « variants de signification incertaine » Plan : I. Introduction A. Définitions B. Mécanismes des mutations délétères à l’origine des maladies mendéliennes C. Classification des maladies génétiques D. Conséquences des mutations délétères E. Maladies génétiques liées à des réarrangements chromosomiques. F. Maladies génétiques par expansion de microsatellites. G. Les substitutions nucléotidiques : remplacement d’une base par une autre. II. Interprétations des mutations A. Les changements nucléotidiques faux sens. B. Bases de données publiques et navigateurs C. Bases de données de mutations D. Variants de signification incertaine E. Analyse des mutations d’épissage F. Cas pratiques 1. Néoplasies endocriniennes multiples de type 1 2. Applications du Next Generation Sequencing 2.1. Mutation de BRCA dans un cancer de l’ovaire. 2.2. Syndrome de Peutz-Jeghers 2.3. Le cas de la mucoviscidose. 2.4. Syndrome néphrotique corticoresistant III. Conclusion I. Introduction A. Définitions Variant : Changement de séquence par rapport à l’allèle de référence (allèle ancestral). On distingue plusieurs types de variants : Polymorphisme MAF >1% Variant rare : MAF <1% Mutation : variant défini par son caractère causal. Une mutation est une variation de séquence du génome responsable de l’apparition d’une maladie définie par son caractère causal et son mécanisme de survenue. Selon la cellule mutée on va parler de mutation constitutionnelle ou de mutation somatique. B. Mécanismes des mutations délétères à l’origine des maladies mendéliennes Le terme de mutation désigne tout changement du matériel héréditaire survenant soit dans la lignée germinale (mutations germinales ou constitutionnelles) soit dans les cellules somatiques (mutations somatiques) responsables de l’apparition d’une maladie. Seules les mutations germinales peuvent être transmises à la descendance. Les mutations sont dans la majorité des cas spontanés mais elles peuvent également être induites par exposition à des agents mutagènes. Les mutations peuvent aussi apparaitre de novo (néomutations) selon deux modes en fonction du timing de l’apparition. La mutation touche les gamètes parentaux, toutes les cellules de l’embryon sont touchées La mutation survient dans les stades très précoces du développement, certaines cellules de l’embryon sont touchées : mosaïque Il est très important d’avertir les parents des risques de transmettre à nouveau la mutation à leurs prochains enfants lors du conseil génétique. Pour les cas de mosaïques on peut réellement voir des territoires cutanés touchés et d’autre non comme dans la neurofibromatose de type 1 par exemple. C. Classification des maladies génétiques On peut distinguer plusieurs types de maladies génétiques : Les maladies héréditaires à transmission mendélienne dont l’apparition est conditionnée par la mutation d’un seul gène comme la mucoviscidose par exemple. On parle aussi de maladie monogénique. Ce sont des maladies à forte pénétrance mais à faible fréquence allélique. Les maladies multifactorielles quant à elles sont conditionnées par la présence de certaines combinaisons d’allèles de plusieurs gènes situés sur des locus différents, aucun de ces gènes n’étant indispensable par lui-même à l’apparition de la maladie. On parle d’hérédité complexe ou de maladie polygénique. Dans ce cas, ce sont des maladies à pénétrance beaucoup plus faible mais avec une fréquence allélique dans la population beaucoup plus importante. Ces allèles peuvent tout à fait être présents chez des personnes saines. Les maladies par aberration chromosomique sont des maladies dues à une anomalie du nombre ou de la structure des chromosomes. Les maladies mitochondriales sont dues à des mutations dans le génome mitochondrial et d’hérédité maternelle. Toutefois les cytopathies mitochondriales peuvent être la conséquence de mutations du génome nucléaire et mitochondrial. La pénétrance : La pénétrance d’une maladie à transmission dominante est définie par le pourcentage de sujets hétérozygotes pour le gène délétère qui expriment les manifestations cliniques de la maladie. On a un continuum de la maladie monogénique à la maladie multifactorielle. La pénétrance est un phénomène en tout ou rien : le sujet est ou n’est pas atteint de la maladie. A ne pas confondre avec l’expressivité. 𝑃= 𝑆𝑢𝑗𝑒𝑡𝑠 𝑚𝑎𝑙𝑎𝑑𝑒𝑠 × 100 𝑆𝑢𝑗𝑒𝑡𝑠 ℎé𝑡é𝑟𝑜𝑧𝑦𝑔𝑜𝑡𝑒𝑠 Transmission autosomique récessive Ce mode de transmission et défini par plusieurs caractéristiques. Parmi les sujets malades : pas de prépondérance d’un sexe ils sont homozygotes ou hétérozygotes composite pour le gène délétère généralement issus de l’union de deux hétérozygotes sains la descendance du malade sera généralement de phénotype normal. Transmission autosomique dominante Dans ce mode ci : pas de prépondérance d’un sexe non plus le sujet est généralement hétérozygote pour la maladie un seul des deux parents atteint ½ de transmettre à ses enfants Transmission récessive liée à l’X Dans le cas d’une mutation sur le chromosome sexuel : Ne touche que les hommes Les femmes peuvent néanmoins être porteuses saines D. Conséquences des mutations délétères 1. Mutations par gain de fonction. Il s’agit généralement d’une seule ou de peu de mutations qui sont responsable de la maladie, qui est le plus souvent une maladie dominante. Elles sont responsables d’une modification des propriétés de la protéine ou du transcrit. Ce sont le plus souvent des mutations faux sens très précises, plus rarement des maladies à expansion de triplets dans les régions codantes ou des mutations d’épissage. Ce gain de fonction peut se révéler par l’acquisition d’une nouvelle fonction, par une surexpression ou par un effet de dominant négatif ; c’est-à-dire que les mutations affectent la fonction de l’allèle normal chez les hétérozygotes et que celui-ci ne peut plus fonctionner correctement (protéines de structure ou formant des homo-ou des hétéropolymères). Exemple de la mutation gain de fonction de l’α1antytrypsine qui à cause d’une mutation spécifique peut inhiber la thrombine en plus de sa fonction de base qui est l’inhibition de l’elastase. Cela provoque des syndromes hémorragiques chez les malades qui en sont atteints. 2. Mutations par perte de fonction. La mutation rend l’allèle inutilisable. Dans le cas d’une maladie récessive, la quantité de transcrit va diminuer mais il faudrait que les deux copies soient inutilisables pour que le phénotype apparaisse. Et dans le cas d’une maladie dominante on va se retrouver dans une situation d’haploinsuffisance. C’est-à-dire que le manque d’un allèle va empêcher le gène d’assurer correctement sa fonction. E. Maladies génétiques liées à des réarrangements chromosomiques. 1. Mécanismes de réarrangement chromosomiques. Aneusomie segmentaire : Perte ou gain d’un fragment chromosomique conduisant à une anomalie quantitative partielle pour cette région chromosomique et pour les gènes contenus dans ce segment. Ces mécanismes peuvent aussi intéresser des régions plus petites. De courtes séquences homologues peuvent subir une recombinaison, duplication et ça va modifier les séquences. 2. Conséquences des grands réarrangements génomiques Dans le cas des délétions, plus de produit de transcription. Pour une duplication, on voit une augmentation du produit de transcription et pour les amplifications, c’est une encore plus grosse augmentation du produit de transcription que l’on peut voir. Ces réarrangements peuvent amener une diminution du nombre du gène d’intérêt présent, une disparition d’un morceau du gène, l’apparition d’un gène de fusion entre notre gène et un gène situé de l’autre côté de la délétion ou encore d’autres effets comme les effets de position si la zone délétée, même parfois très loin, avait une importance pour l’expression de notre gène. F. Maladies génétiques par expansion de microsatellites. Les zones de microsatellites sont très sujettes aux polymorphismes entre les personnes à cause de leur grande répétitivité. En effet l’ADN polymérase peut se tromper et rajouter ou enlever des doublets lors de la réplication. G. Les substitutions nucléotidiques : remplacement d’une base par une autre. Plus de 50% des mutations figurent dans les bases de données. Ces substitutions sont dues à des erreurs de réplication ou par désamination oxydative sur les CpG (20% des faux sens et non-sens). On distingue les transitions où l’on reste dans la même famille de base et les transversions où l’on change de famille. Il y a plus de transitions que de transversions à cause de la désamination oxydative. Sur les cytosines méthylés des CpG on peut avoir des mutations à cause des radicaux libres des cellules. Les méthyl cytosines qui subissent cette désamination deviennent des thymidines mal reconnues par les mécanismes de réparation de l’ADN ; ce qui est une voie très préférentielle d’apparition des mutations. La mutation est fixée. Pour rappel : Les bases puriques sont A et G ; les bases pyrimidiques sont C et T. La partie codante représente environ 2% du génome. Les mutations peuvent être présentes partout dans le gène. Dans le promoteur, les introns, les exons, les séquences consensus (qui désignent le codon initiateur ex kozak, d’épissage…). II. Interprétations des mutations. ( ++ ) Quand on trouve un codon stop on regarde ce que ça peut perturber. La synthèse de l’ARN en elle-même ne sera pas perturbée car le système nonsense mediated decay (NMD) veille dégrade ces ARNm aux codons stop prématurés. Par contre on aura bien des problèmes lors de la synthèse de la protéine qui sera alors tronquée. A. Les changements nucléotidiques faux sens. Pour estimer l’impact qu’aura la mutation dans la protéine on regarde différents critères comme : la localisation du changement : si elle se trouve dans une séquence essentielle à la fonction ou une séquence conservée modification de la polarité/charge de l’acide aminé (score de Grantham qui mesure l’importance de la variation physico-chimique) Grantham élevé, modification importante. modification absente chez des contrôles sains modification de novo associée à un phénotype, permet de confirmer l’hypothèse d’une mutation car la probabilité d’avoir les deux est extrêmement faible. étude des conséquences fonctionnelles Il est très important de bien interpréter les mutations car le diagnostic va nous orienter sur le type de traitement et sur les risques pour le reste de la famille. L’interprétation des mutations révèle un intérêt diagnostique, pronostique et théranostique (relatif au choix de traitement). Les variants sont classés en 5 classes en fonction de la probabilité qu’il soit pathogène. On va de la classe 5 « Définitivement pathogène » à la classe 1 « non pathogène ou non cliniquement significatif ». B. Bases de données publiques et navigateurs Alamut est une base de données pour nous aider à l’interprétation des variants en rassemblant les connaissances. Les BDD (bases de données) permettent d’attribuer un caractère pathogène ou non. Elles sont en libre accès sur internet et donnent accès à un nombre d’informations incroyables. L’une des plus grosses est le NCBI (National Center for Biotechnology Information), BDD américaine. OMIM, qui fait partie du NCBI, rassemble toutes les maladies mendéliennes connues. Les informations sont régulièrement mises à jour avec des articles publiées au sujet de chaque maladie. UniGene est une autre base de données qui permet de savoir dans quels tissus un gène est exprimé. Du coup on peut savoir si un gène intervient dans un tissu particulier et savoir si ce gène a des chances d’être impliqué dans la maladie d’intérêt. dbSNP est un catalogue de l’ensemble des variants identifiés chez l’Homme. Ces données ont pu être rassemblées grâce à des projets d’annotation extensive du génome. L’un des premiers projets est le projet ENCODE qui a analysé la partie codante du génome. On a aussi le projet « 1000 génomes ». Dans ce projet « 1000 génomes », les scientifiques ont démarré un projet de séquençage de nombreux individus (1000 au départ) provenant de différentes ethnies comme les Japonais de Tokyo, les Chinois de Beijing, les Maasai de Kinyawa au Kenya… Tout cela dans le but de repérer les différences génomiques entre les différentes ethnies. Ensuite on peut accéder aux résultats via des navigateurs très rapidement et voir la répartition des variations selon les différentes ethnies. Ces projets et bases de données ont pu voir le jour grâce à la révolution Next Generation Sequencing. Le séquençage haut débit a permis de séquencer le génome humain beaucoup plus facilement et avec des coups bien inférieurs. C. Bases de données de mutations Les mutations relevées chez les patients sont renseignées dans d’immenses bases de données pour permettre d’en garder le souvenir et de pouvoir comparer avec les nouveaux cas d’une maladie qui surviendraient. Pour citer un exemple on va avoir la Human Gene Mutation Database ou encore COSMIC… D. Variants de signification incertaine Après avoir trouvé un variant, il faut savoir quel sens lui donner. Plusieurs clefs sont disponibles pour leur interprétation et leur classement. Mutation de novo pour les formes sporadiques Ségrégation familiale dans les formes familiales (puissant si large famille) On regarde dans une famille qui porte le variant et on compare avec qui possède le phénotype. Ainsi on peut voir le lien entre le variant et la maladie. Absence de mutation chez les contrôles Rapporté en trans de mutations délétères (autosomique dominant) Tests fonctionnels En oncogénétique : perte d’hétérozygotie, critères anapath Aussi selon si le variant de signification incertaine touche une région exonique ou intronique, les conséquences qu’il pourra avoir ne seront pas les mêmes. Dans les introns les mutations pourront avoir des conséquences sur l’épissage par exemple. Dans les exons, en plus de modification éventuelles de l’épissage, on pourra avoir des modifications physico-chimiques de l’acide aminé, du domaine fonctionnel, ou des séquences conservées entre les espèces. E. Analyse des mutations d’épissage On cherche ici si notre mutation va de quelque façon modifier l’épissage de l’ARN. Théoriquement chaque variation de séquence d’ADN est candidate à une altération de l’épissage. Idéalement il faudrait étudier les conséquences fonctionnelles des variations de l’ADN sur l’ARN mais c’est malheureusement impossible car ces études sont trop coûteuses ! Du coup sont réalisées des études in silico (via des modèles informatiques) des variations pour décider si une étude de l’ARN s’impose. Ces modélisations ne permettent pas de s’affranchir d’une étude de l’ARN pour le diagnostic mais permettent d’éviter d’en faire trop. Ce sont des algorithmes qui comparent nos séquences aux séquences connues pour mesurer le risque d’avoir un effet sur l’épissage. Mais si l’analyse des sites « classiques » (donneur, accepteur) est appréciable en diagnostic, celle des sites « discrets » (ex: ESE…) est inexploitable; elle peut cependant permettre de trouver une explication a posteriori. F. Cas pratiques 1. Néoplasies endocriniennes multiples de type 1 Deux gènes apparaissent comme important dans cette maladie, les gènes MEN1 et BRAF. On voit des mutations réparties un peu partout sur ces gènes mais on voit une différence des répartitions. Sur BRAF, on a une mutation majoritaire qui est retrouvée 600 fois alors que sur MEN on a plein de mutations différentes. Dans le cas de MEN1 on interprète plutôt cela comme une perte de fonction car toute mutation qui va abolir la fonction du gène va avoir une conséquence dans la tumeur. Par contre dans BRAF on va plutôt penser à une mutation gain de fonction et une seule des mutations permet d’y parvenir. Dans l’exemple étudié on a une variation dans MEN1 de G>A et on veut savoir si elle est liée à la maladie. On utilise un logiciel d’interprétation en mettant notre mutation dans le logiciel. Celuici va comparer à la séquence de base pour voir si on se situe dans une séquence conservée. On va aussi chercher les conséquences sur la protéine. Attention tout de même à ne pas confondre la modélisation réalisée ici avec la prédiction car ces résultats peuvent se révéler différents de ce qui se passe en réalité ! Pour appuyer la modélisation on va faire des études in vitro dans des populations cellulaires pertinentes. Puis on peut utiliser le site ExAC qui rassemble les données de 60 000 exomes pour voir, en population, si notre mutation est présente. Ces logiciels permettent de mieux classer les variants car on se rend compte que des variants qui avant apparaissaient délétères sont en réalité très fréquents chez les contrôles et donc pas si délétères ! 2. Applications du Next Generation Sequencing La profondeur est un paramètre important dans le NGS. Il correspond au nombre de fois que chaque base est lue et augmente donc la probabilité de les lire correctement. 2.1. Mutation de BRCA dans un cancer de l’ovaire. Ici on séquence par PCR le gène BRCA chez une patiente touchée par un cancer ovarien et on remarque une mutation présente dans la moitié des fragments lus. Cela s’interprète comme une mutation hétérozygote. On a ici l’apparition d’un codon stop. En utilisant ExAC encore une fois on voit que ce variant est en fait présent dans plusieurs % de la population générale avec même des individus homozygotes pour ce variant. On en conclut donc que ce variant n’est pas délétère d’où l’importance des études de populations pour interpréter nos variations. Le gène code alors pour une protéine tronquée mais qui garde quand même une activité suffisante. Rq : Orphanet est un site très utilisé en France qui recense les maladies rares. 2.2. Syndrome de Peutz-Jeghers Dans un deuxième cas on étudie une patiente qui présente de nombreux polypes hamartomateux du grêle et lentiginose pour voir si elle possède un syndrome de Peutz-Jeghers. C’est une maladie qui cible les gènes suppresseurs de tumeurs : on développe des tumeurs à cause de mutations perte de fonctions (gène STK ici). On va donc séquencer son gène STK1 : on retrouve à l’état hétérozygote une mutation faux sens. On peut regarder sur COSMIC, une BDD qui rassemble les mutations présentes dans les cancers et sur ESE finder, un logiciel qui permet de regarder si la mutation se situe dans une région influençant l’épissage. En effet une mutation faux sens peut en plus de changer l’AA, modifier l’épissage. ESE finder va comparer la séquence sauvage avec la mutation qu’on lui indique. Rq : Chaque personne nait avec une petite centaine de mutations de novo. Dans les régions intronique on peut avoir des variations qui vont avoir des conséquences au niveau de l’épissage. Chez notre patient on trouve un variant très rare mais ExAC nous indique que ce variant est présent à 1% dans la population africaine. Alors on conclue que ce patient est d’origine africaine et que ce variant ne doit pas être délétère. Nouveau patient avec mutation dans STK1, on trouve une délétion de 26pdb dans l’intron 4. Pour montrer que cette modification à une conséquence délétère, on va au départ tester l’ARN, c’est la méthode la plus simple. On séquence le cDNA (après rétro transcription). On voit qu’on a un mélange de deux transcrits, le sauvage et un ou l’exon 4 est manquant. Le patient est donc hétérozygote pour la mutation. Dans ce même échantillon on trouve cette fois avec un fragment qui correspond à la rétention de l’intron 4. Avec un allèle anormal, on se retrouve avec deux transcrits anormaux. Cela montre qu’une seule anomalie peut entrainer plusieurs conséquences différentes ! 2.3. Le cas de la mucoviscidose. On a une famille dont l’un des fils est atteint de la mucoviscidose et est homozygote pour une mutation stop du gène CFTR (code pour un canal chlore) qui est associé à une forme sévère de maladie mais lui ne possède qu’une forme modérée de la maladie. La mutation stop se trouve au début d’un exon et peut induire une variation de l’épissage. Cette mutation stop peut générer une protéine tronquée (forme sévère) ou des variations d’épissage : dans le cas majoritaire, on va se retrouver avec une protéine où l’exon 14 est manquant, donc un canal chlore moins efficace que la version sauvage, mais qui peut tout de même remplir sa fonction. 2.4. Syndrome néphrotique corticoresistant Dans cette maladie autosomique récessive, on a décrit des mutations perte de fonction dans le gène NPHS2. La protéine produite se dimérise et est adressée à la membrane plasmique des cellules glomérulaire. Un défaut de cette protéine entraine un syndrome néphrotique. On retrouve une mutation faux sens chez un patient homozygote. Dans l’ExAc on voit que ce variant est fréquent à l’état hétérozygote à 4% chez la population européenne. La mutation peut être présente à l’état homozygote sans amener la maladie mais on se rend compte que dans une autre famille qui présente une seconde mutation en plus de celle-ci, la maladie est présente. Les auteurs ont pu montrer que certains allèles pathogènes exercent un effet dominant négatif sur le variant étudié en altérant l’adressage à la membrane de NPHS2. III. Conclusion Il ne faut pas oublier cependant que nous n’avons parlé ici que d’1 à 2% du génome mais que des mutations peuvent être présentes aussi dans d’autres régions comme les promoteurs… 80% du génome est foctionnel pour 1-2% de séquences codantes. Le challenge est dans l’interprétation, non le séquençage. Jusqu’à aujourd’hui on a une vision très biaisé dans l’interprétation des résultats car on s’est toujours intéressé à des familles où il y a des phénotypes très sévères. Mais maintenant, en séquençant d’autres gènes que ceux qui interviennent dans la maladie de façon connue, on peut découvrir des mutations qui vont avoir un impact sur le conseil génétique. Attention donc à l’interprétation des résultats du séquençage car l’interprétation des variant reste souvent complexe. Le développement du séquençage haut débit nous confronte à un nombre très important de variants de signification incertaine. Abréviations : MAF : Minor Allele Frequency ESE : Exonic splicing enhancers BDD : base de donnée Mot du RT Un cours très intéressant avec de nombreux cas développés en cours. J’ai fait en sorte d’en retranscrire le plus possible tout en faisant ressortir les messages important justifiant ces exemples. Mot du RL Beaucoup de choses déjà vu en P1/P2 à l’intro, il serait intéressant de rouvrir ses cours pour les rappels. Se concentrer sur la partie pratique. Blagues : Quel bruit fait le cochon ? Juste un bruit doux (Justin Bridou) Quelle souris marche sur deux pattes ? Mickey Mouse Quel chien marche sur deux pattes ? Dingo Quel canard marche sur deux pattes ? Tous les canards, connard. FICHE RECAPITULATIVE Pour estimer l’impact qu’aura la mutation dans la protéine on regarde différents critères : • la localisation du changement : si elle se trouve dans une séquence essentielle à la fonction ou une séquence conservée • modification de la polarité/charge de l’acide aminé (score de Grantham qui mesure l’importance de la variation physico-chimique) Grantham élevé, modification importante. • modification absente chez des contrôles sains • modification de novo associée à un phénotype, permet de confirmer l’hypothèse d’une mutation car la probabilité d’avoir les deux est extrêmement faible. • étude des conséquences fonctionnelles Après avoir trouvé un variant, il faut savoir quel sens lui donner. Plusieurs clefs sont disponibles pour leur interprétation et leur classement. • Mutation de novo pour les formes sporadiques • Ségrégation familiale dans les formes familiales (puissant si large famille) On regarde dans une famille qui porte le variant et on compare avec qui possède le phénotype. Ainsi on peut voir le lien entre le variant et la maladie. • Absence de mutation chez les contrôles • Rapporté en trans de mutations délétères (autosomique dominant) • Tests fonctionnels • En oncogénétique : perte d’hétérozygotie, critères anapath Aussi selon si le variant de signification incertaine touche une région exonique ou intronique, les conséquences qu’il pourra avoir ne seront pas les mêmes comme des modifications de l’épissage. Une seule anomalie peut entrainer plusieurs conséquences différentes et variées et des anomalies d’apparence lointaines peuvent quand même affecter une séquence. Les BDD renseignant sur la population sont très importantes pour se faire une idée du caractère délétère ou non de la mutation : si des personnes vivent très bien avec ce variant, on tend à penser qu’il est bénin. Toujours utiliser l’approche combinée pour interpréter : utiliser épidémiologie (données de la population), études fonctionnelles, modélisation informatique et études de ségrégation.