Un gène en 2015

publicité
UE11 –Parcours 3- Génétique –
Cours 2
2/03/2016
Juliette Albuisson
[email protected]
RT : Clémence Bodin
Caroline Bogeat
RL :
Projet Encode et définition d’un gène
Plan :
PREMIERE PARTIE
I. Concept de gène et évolution dans son histoire
A- Le gène, unité d’hérédité
B- Le gène, un locus distinct
C- Le gène, une molécule physique
D- Le gène, un code transcrit
E- Le gène, une séquence avec une phase ouverte de lecture
F- Le gène, une entité annotée et répertoriée dans des bases de
données
II. Le projet ENCODE
A- Présentation générale
B- Définition d’un élément fonctionnel
C- Les méthodes
1)
RT-PCR
2)
5C
3)
DNAseSeq/FaireSeq
4)
ChipSeq
5)
ARNseq
D- Exemple de profil Encode
E- Résultats
Deuxième Partie
I. GENECODE
II. Impact de ENCODE en génétique médicale
A- Généralités
B- Exemples
1)
Micros ARN
2)
Long ARN non codant
3)
Gènes Hox
4)
Maladie de Hirschprung
C- Interprétation des résultats de GWAS
III. Un gène en 2015
I. Concept de gène et évolution dans son histoire
A- Le gène, unité d’hérédité
1865 : Mendel parle de caractères (le mot gène n’existe pas). Il s’agit d’une notion
exclusivement phénotypique.
B- Le gène, un locus distinct
1909 : Johannsen invente le terme gène et fait la distinction entre génotype et phénotype. Il
affirme qu’il « faut traiter le gène comme une unité de comptage ou de calcul, nous n’avons
aucunement le droit de définir le gène comme une structure morphologique ». L’aspect
moléculaire et physique du gène est encore inconnu.
1910 : Morgan, par l’étude phénotypique de croisement de drosophiles, détermine que les gènes
sont disposés linéairement sur les chromosomes (déjà connus à l’époque) et qu’ils sont
capables de crossing-over, proportionnellement à la distance les séparant.
1913 : Mise en évidence de la localisation génétique et établissement d’une carte génétique.
Ainsi le gène classique (entité sans support biologique connu) est une unité indivisible de :
o fonction : le gène code pour une information (un caractère)
o mutation : des variants du gène peuvent coder des caractères différents
o recombinaison
C- Le gène, une molécule physique
En 1927-1928, Müller a montré par des travaux de mutagenèse induite par rayon X qu’en
modifiant le gène, le phénotype était lui aussi modifié. L’idée de séquence génomique était
cependant inconnue.
Griffith démontre la transformation (transfert d’un caractère héréditaire d’une espèce à une
autre). Cela prouve qu’un gène est transférable et qu’il devient par la suite héréditaire.
Ces travaux permettent de pressentir qu’il existe un support physique à cette information.
Dans les années 40, l’ADN est présenté comme le support chimique de l’hérédité.
Le gène est alors défini comme une unité fonctionnelle, correspondant à une portion d’ADN
continue et limitée (notion de locus). Les gènes ne se chevauchent pas et la fonction d’un gène
est celle de la protéine correspondante.
En 1953 Watson et Crick (et Rosalind Franklin) montrent que l’ADN est une structure en double
hélice, ce qui permet son auto-réplication.
D- Le gène, un code transcrit
En 1958 la notion de transcription (intermédiaire entre gène et protéine) apparaît.
En 1961, Jacob et Monod font le lien entre la molécule et l’information correspondante. Ils
montrent que le patron de l’expression des gènes est l’objet d’une régulation (travail sur l'operon
lactose).
E- Le gène, une séquence avec une phase ouverte de lecture
En 1965, le code génétique est caractérisé et le cadre ouvert de lecture est découvert.
En 1972 la première séquence de gène est déterminée (séquençage d’un gène d’un
bactériophage).
La structure des gènes est plus complexe que ce que l’on pensait. Les gènes sont morcelés en
système d’introns et d’exons (par Sharp et Roberts) avec un code pour la jonction intron/exon. Il
existe un mécanisme d’épissage.
 On perd la notion de gène continu.
F- Le gène, une entité annotée et répertoriée dans des bases de
données
GENESCAN a permis d’identifier de nombreux gènes. L’introduction d’informations sur le cadre
ouvert de lecture, les promoteurs, le site d’initiation de la transcription a permis de créer un
algorithme et d’identifier des gènes grâce a une structure commune.
Enfin en 2001, on a la première version du séquençage complet du génome humain. Les gènes
« classiques » répondant à l’algorithme Genescan ont donc pu être identifié.
1% de l’ADN est ainsi identifié. Se pose alors la question de savoir à quoi sert le reste. Les partisans
du « junk DNA » s’opposent à ceux du « tout informatif »
Pearson en 2006 définit le gène comme « une région génomique localisable qui constitue une
unité de transmission, comportant des régions transcrites et des séquences fonctionnelles comme
le promoteur et les séquences régulatrices. »
II.
Le projet ENCODE
A- Présentation générale
Ce projet de 10 ans (2003-2012), fondé sur un investissement de 280 millions de dollars, a
assemblé des dizaines de laboratoires et des centaines de scientifiques. Ils ont regardé 147 lignées
cellulaires et étudié la fonctionnalité de l’ensemble de l’ADN.
Le génome humain avait déjà été séquencé, le but était de faire de l’annotation fonctionnelle de
ces séquences, pour déterminer leur rôle. La méthodologie était de conduire des études
fonctionnelles sur l’ensemble du génome. Chaque équipe menait un type d’analyse particulier et
les résultats furent mis en commun.
Il y a 4 grands axes d'étude de cette opération ENCODE :
 transcription (production d'ARN, codant ou non)
 régulation (étude promoteur, enhancer, silencer, facteur de transcription, structure en 3D,
méthylation, état chromatinien)
 conservation entre les espèces
 implication dans les maladies.
Une des missions d’ENCODE était d’assurer l’accès et la diffusion des données (on peut facilement
retrouver sur internet ces différentes données).
147 types cellulaires différents ont été analysés au total en 2012. Il s’agit de cellules cancéreuses,
embryonnaires ou immortalisées, ou même endothéliales (forte capacité de multiplication).
Il y a eu 3 volets au projet et le nombre de types cellulaires inclus dans le projet a augmenté à
chaque fois, grâce à l’amélioration du haut début parallèlement au projet ENCODE.
B- Définition d’un élément fonctionnel
Un élément fonctionnel est un segment du génome humain qui est associé à une quelconque
caractéristique biochimique (acétylation des histones, hypersensibilité à la DNAse…) dans au
moins une lignée ENCODE.
C- Les méthodes
1) RT-PCR
Permet d’avoir tous les transcrits du gène (y compris alternatifs).
2) 5C
Cette expérience permet de révéler l'organisation en 3D du génome et donc la proximité entre
les séquences.
1) On crée des liaisons covalentes entre les séquences proches (pas à la suite sur un même
chromosome, la chromatine est entièrement emmêlée dans le noyau).
2) Par l’action d’une enzyme de restriction ainsi que d’une ligase on obtient un brin d’ADN
chimérique qui contient les 2 portions d’ADN normalement proches dans le noyau et qui sont
maintenant bout à bout.
3) Par une approche haut débit, on séquence et identifie les portions chimériques et donc les 2
gènes qui interagissent ensemble.
3) DNAseSeq/FaireSeq
Ces deux techniques permettent d’identifier les sections ouvertes (euchromatiniennes) > sites
de fixation des FT, séquences régulatrices à distance ou à proximité des gènes (promoteur,
enhancer, supressor, insulator).
Ces zones sont peu liées aux histones et particulièrement sensibles à la DNAse. Les deux
techniques sont équivalentes, l’information fournie est la même.
DNAseSeq : La DNAse est une enzyme de digestion de l’ADN. Elle ne peut marcher que si l’ADN est
accessible, c'est-à-dire que si la portion d’ADN est ouverte et non fixée aux histones (la chromatine
est protégée par sa situation condensée et par les nucléosomes). On séquence ensuite les régions
adjacentes à la séquence digérée et on obtient donc l’ensemble des portions ouvertes de l’ADN.
Faire-seq : Il s’agit de créer des liaisons covalentes définitives (crosslinking) avec les histones par
du formaldéhyde. Tout ce qui est fixé est éliminé et on récupère donc ce qui n’est pas lié aux
histones pour le séquencer.
4) ChipSeq
Le chIP-seq identifie les sites de fixation de FT connus (Encode a ciblé des FT dont on connaît le
rôle et qui sont relativement ubiquitaires).
Il s’agit d’une immunoprécipitation d’un FT connu avec son Ac. On récupère le précipité et on le
séquence de manière massive. On obtient donc l’ensemble des séquences qui sont des sites de
fixation de ce FT connu.
Le séquençage basique permet de déterminer (par prédiction bioinformatique : GENESCAN) des
sites où le FT peut se fixer. Ici, Encode liste les sites où le FT se fixe réellement (importance de la
conformation, du type cellulaire…)
5) ARNseq
Permet de savoir ce qui est transcrit sur le génome entier (codant et non-codant).
On extrait l’ARN présent dans une cellule, on le tag et on séquence tout en bloc.
Il s’agit du même concept que pour le séquençage d’ARN de protéine avec les tag polydT qui
s’hybrident aux queues polyA de ces ARN, mais il s’agit cette fois ci de séquencer aussi les ARN
non traduits.
Cette méthode a aussi permis d’identifier des ARN alternatifs (épissage différent) présents en très
faible proportions et qui n’avait pas pu être détectés par RT-PCR.
D- Exemple de profil Encode
Il s’agit d‘une cartographie de résultats Encode.
On a ici un segment d’ADN humain qui est localisé sur le chromosome 5. Il mesure 1,5 Mb et
contient 7 gènes (C9, DAB2, OSRF…). On voit à chaque fois représentée la structure du gène (c’est
le petit dessin à côté du nom du gène) avec par exemple deux exons et un intron pour PTGER4
(une barre verticale représente un exon et une barre horizontale un intron).
On observe un désert de gène d’1 Mb entre les deux groupes de gène.
La chIP-seq nous montre la fixation de FT différents (GTA2, cFOS) dans la lignée HUVEC au niveau
de ce désert de gène, ce qui montre qu’il peut s’agir d’une séquence de régulation à distance.
La DNAse-seq montre une hypersensibilité au même endroit que là où les FT se fixent et ce dans
plusieurs types celulaires (Jurkat, Th1, Th2). On peut en déduire qu’il existe donc un site de
fixation à ce niveau, présent dans plusieurs lignées différentes.
Grâce à ENCODE on sait donc que cette région est un élément fonctionnel.
E- Résultats
La quantité d’information recueillie est considérable, on se retrouve dans une problématique de
Big Data où il est impératif de savoir faire le tri.
Ce qui est testé
Nombre
de types
cellulaires
étudiés
Testé sur :
Résultats
RNAseq
Transcription
15
Tout le
génome
60% pour une
lignée cellulaire
donnée
ChIPseq
Sites de fixation de FT connus
72
120 FT sur
tout le
génome
8% de séquence
fixent ces FT
donnés
Tout le
génome
4% du génome
est régulateur
Technique
utilisée
DNAseSeq
FaireSeq
Séquences régulatrices
125
25
Histone
ChIPseq
Euchromatine/Hétérochromatine
(méthylation, acétylaton)
46
RBBS
Méthylation de l'ADN
82
5C
Interactions 3D
4
Chiapet
Interactions 3D
5
12
56%
modifications d'euchromatine
sur tout le
pour un type
génome
cellulaire donné
1 million
d'ilots CpG
1% du
génome
RNApolII
*RBBS : traitement de l’ADN au bisulfite. Les cytosines non méthylées sont transformées en
uracile et celles qui sont méthylées sont préservées. On séquence l’ADN et l’uracile devient
thymine. En comparant par rapport à une séquence de référence, on identifie les C transformés en
T et donc les portions méthylées de l’ADN.
Si l’ADN est méthylé au niveau d’un promoteur, le gène est réprimé, si la méthylation a lieu au
niveau du gène, il est exprimé.
*Chia pet : étudie les interactions 3D. C’est le même principe que pour la 5C sauf que le
crosslinking se fait par les protéines liées à l’ADN (ici, avec la polyméraseII).
Conclusions :
Il existerait 20000 gènes de protéines et 18000 gènes d’ARN non traduits (servant à la
régulation).
80% du génome a un objectif biologique quelconque dans au moins une lignée cellulaire, à au
moins un moment de la vie de cette lignée cellulaire.
60% du génome est transcrit dans une lignée cellulaire donnée (quand on cumule l’ensemble
des lignées, 80%du génome est transcrit, la différence n’est donc pas majeure entre les lignées).
5% pour les exons (déjà montré par GENCODE)
65% pour les introns
30% dans les régions inter-géniques (NOUVEAU et inattendu)
Les découvertes par rapport à GENCODE :
+94800 exons (+20%)
+69000 sites d’épissage (+20%)
+73000 transcrits (+45%) et notamment des transcrits mono-exoniques qui n’avait pas été
repéré par GenScan (pas de site d’épissage : échappe à l’identification par similitude) et mal
amplifié par RT-PCR.
+41000 gènes (+80%). Pour la plupart ce ne sont pas des genes de protéines.
Cependant, Encode ne permet pas de déterminer à quoi servent ces séquences.
8% du génome correspond à des sites de liaison de facteurs de transcription (pour les 120
ubiquitaires testés). Il y a 640 000 régions de liaison à des FT.
15 % de notre génome est concerné par l’ouverture chromatinienne dans un type cellulaire
donné, c'est à dire l'espacement entre deux nucléosomes pour laisser l'accessibilité de l'ADN à des
facteurs de transcription et pour laisser une transcription se faire.
Plus de la moitié du génome est touchée par des modifications d’histones (très variable d’un
type cellulaire à l’autre).
La méthylation de l’ADN est majoritairement dans le gène et est en corrélation avec une
chromatine ouverte. On trouve une méthylation allèle spécifique.
1 site d’initiation de transcription interagit avec 4 régions (gènes) très éloignées (mais bien
souvent sur le même chromosome).
Un complexe ARN-polyméraseII travaille sur plusieurs gènes en même temps (le plus
souvent sur un unique chromosome).
I.
GENECODE
Ce sont des versions nouvelles de ENCODE qui régulièrement vont mettre à jour le profil
fonctionnel du génome humain.
De nombreuses études ont été menées, il en existe donc plusieurs versions : aujourd’hui, on en
est à la version 14 (v14).
Ce sont des résultats d’annotations, c’est-à-dire que pour chaque gène, on détermine si c’est un
pseudogène, s’il code pour une protéine, pour un ARN non codant, …
Les annotations peuvent être automatique ou manuelles, les annotations automatiques génèrent
beaucoup d’erreurs, mais les annotations manuelles prennent énormément de temps.
Par exemple, le diagramme en haut à gauche montre le nombre de gènes codant pour des
protéines répertoriés dans chaque version de GENCODE (3 à 7 ici). On constate que leur
nombre n’a pas beaucoup évolué, en étend tout de même revu à la baisse entre les versions 3 et
4.
Le diagramme en haut à droite présente le nombre de pseudogènes, on peut voir qu’ils sont
plus nombreux que ce qu’on pensait avant.
De même le diagramme en bas à gauche montre que les gènes codant pour des ARN non
codants sont plus nombreux que ce qu’on pensait.
Tous les résultats du projet ENCODE et de GENCODE sont regroupés sur un site internet :
http://www.nature.com/encode/#/threads
Attention cependant à ne pas se perdre dans la masse d’information présentée !
Mais il est très intéressant pour avoir une idée globale de la structure du génome.
En réalité, pour pouvoir tirer des résultats significatifs de toutes ces données, il faut une
puissance statistique (en travaillant sur d’immenses cohortes pur avoir le plus de phénotypes
possible) dont on ne dispose pas encore aujourd’hui. Il existe donc assez peu d’articles tirés de
ces données.
Les données recueillies lors des études ENCODE/GENCODE sont déposées dans des catalogues
GWAS.
Ce sont des associations SNP-phénotype de maladies comme le diabète par exemple.
II.
Impact de ENCODE en génétique médicale
A- Généralités
Ce diagramme montre la répartition des séquences pour chacune des fonctions étudiées dans
ENCODE pour un type cellulaire donné :
CDS = Séquences exoniques
Pour l’instant, on connait une petite partie des maladies
génétiques dues à des séquences exoniques : on en connait
quelques milliers alors qu’il y en aurait plusieurs centaines
de milliers.
On envisage donc des maladies dues à des ARN non codants
ou à des séquences régulatrices, des séquences d’épissages, ...
B- Exemples
La suite de cette partie va donc présenter quelques exemples de maladies génétiques causées
par des anomalies d’ARN non codants.
1)
Micros ARN
Des délétions touchant exclusivement un groupe de micro ARN (mir17-92), mais sans toucher les
gènes voisins codants, sont responsables d'un syndrome mendélien malformatif à transmission
autosomique dominante. Ce syndrome correspond à une anomalie des doigts (raccourcissement
des 2èmes phalanges).
Une étude menée sur une famille touchée par CGH array a montré une délétion de grande taille,
et la même étude chez une deuxième famille a montré une délétion plus petite mais
superposable à la première.
On a émis l’hypothèse que ce cluster de miARN jouait un rôle important dans la mise en place du
patron de mise en place des phalanges chez l’embryon. On a ensuite testé cette hypothèse sur un
modèle murin.
2)
Long ARN non codant
Il existe de nombreux exemples, notamment sur les régions soumises à empreint parentale.
L’encéphalopathie progressive « RAVINE » obéit à un mode de ségrégation autosomique
récessif, qui a donné lieu à une cartographie génétique du chromosome 8 dans une région où il
y avait 4 gènes. Ces gènes ont été séquencés totalement et on n’a rien trouvé.
La seule mutation qu’on a trouvée se situait dans un intron qui portait les gènes de deux longs
ARN non codants.
Un autre exemple est le transcrit du gène Xist qui intervient dans la mise en place de
l’inactivation de l’X chez la femme. Il s’agit encore d’un log ARN non-codant antisens qui va
recouvrir certaines séquences du chromosome X et induire sa méthylation.
On ne connait pas de maladies liées à ce mécanisme.
3)
Gènes Hox
Le cluster Hox contient des gènes du développement à l’origine du patron de développement de
plusieurs parties du corps chez l’embryon, et notamment au niveau des membres. Les gènes Hox
codent pour des ARN non codants.
Chez la souris, le développement des doigts est contrôlé par l’interaction entre des séquences
régulatrice et un promoteur du cluster Hox D.
Ces séquences régulatrices sont conservées chez l’Homme et chez la souris, ce qui témoigne de
leur importance dans le développement.
4)
Maladie de Hirschprung
Elle entraine une anomalie des cellules nerveuses intrinsèques au niveau du colon et du tube
digestif en général.
Elle est liée à une mutation dans l’intron 1 du gène RET.
Là encore, on retrouve une forte conservation entre plusieurs espèces, ce qui est très évocateur
d’une fonction importante dans la régulation de l’expression du gène RET.
Les séquences régulatrices (enhancer, silencer) sont des séquences non codantes, mais qui
modulent de façon importante l’expression des gènes codant pour les protéines, notamment au
cours du développement. Ils peuvent être tissu spécifiques.
C- Interprétation des résultats de GWAS
Comme introduit précédemment, l’interprétation de ces résultats demande une puissance
statistique dont on ne dispose pas encore aujourd’hui ou très peu.
Les données sont disponibles dans les catalogues GWAS, qui regroupe des études d’association
SNP-phénotype de maladie. On a pu établir ces associations par SNP array.
Un SNP array permet de séquencer et de rechercher des SNP chez un individu.
L’hypothèse posée est que plusieurs individus souffrant d’une même maladie possèdent les
même SNPs.
Ces études d’association nécessitent donc d’inclure de nombreux individu malades, et aussi des
individus sain pour pouvoir comparer la fréquence d’apparition des SNP à des contrôles.
Les études ont montré que les SNP responsables de maladies comme le diabète, l’hypertension,
la polyarthrite rhumatoïde, étaient essentiellement localisées dans des régions non codante, et
surtout dans les enhancer et les éléments de réponse aux facteurs de transcription, dans des
régions sensibles aux DNases.
Les résultats de GWAS sont présentés sur des Manhattan plots :
Le seuil de significativité est la ligne la plus haute. On constate que seul un SNP se démarque des
autres (zone grise) pour la maladie étudiée (l’autisme dans cet exemple).
III.
Un gène en 2015
La première conclusion est qu’il y a moins de gènes codants pour des protéines que prévu
(environ 20 000), mais il y a plusieurs transcrits pour chaque gène, ce qui fait un total d’environ
80 000 transcrits. Soit 4 transcrit pur un gène.
Il existe environ 20 000 transcrits non codants, avec environ 2 transcrits pour un gène.
La diversité et la complexité du génome ne réside donc pas dans le nombre de gènes, mais dans
le nombre et la variété des transcrits.
Par rapport aux précédentes, la nouvelle définition du gène est donc modulée par :
-
une structure moléculaire complexe
des fonctions transcrites ou codées variées
une régulation fine
un environnement (chromatinien) modulable (code des histones) : épigénèse
une « phylogénèse » (conservation, duplication ...)
« gène – protéine » (prion) ?
On observe qu’au cours de l’évolution, c’est la proportion de séquences transcrites non codantes
qui augmente : aucune chez la levure, contre près de 60 % du génome entier chez l’Homme.
4/ On a aussi découvert l’existence de transcrits chimériques
Et l’importance des séquences régulatrices dispersées.
En conclusion :
Téléchargement