UNIVERSITE CADI AYYAD, FACULTE DES SCIENCES SEMLALIA DEPARTEMENT DE BIOLOGIE BIOLOGIE MOLECULAIRE COURS S4 (TROISIEME PARTIE) DU GENOTYPE AU PHENOTYPE [ TRANSCRIPTION ] PROFESSEUR A. A. BENSLIMANE 2006 -0- DU GENOTYPE AU PHENOTYPE [ TRANSCRIPTION ] SOMMAIRE 1. REPERES HISTORIQUES 2 2. MECANISME GENERAL DE LA SYNTHESE DES PROTEINES 4 3. LA TRANSCRIPTION 6 I. LA TRANSCRIPTION CHEZ LES PROCARYOTES 1. 2. 3. INITIATION (et caractéristiques de la RNA-polymérase) ELONGATION TERMINAISON α- REGULATION DE L’EXPRESSION GENIQUE CHEZ LES PROCARYOTES β- OPERONS : CONCEPT DE BASE γ- REGULATION GENIQUE NEGATIVE : ‘REPRESSIBLE’ ou bien ‘INDUCTIBLE’ δ- REGULATION GENIQUE POSITIVE II. LA TRANSCRIPTION CHEZ LES EUCARYOTES 1. 2. 3. 4. 5. INITIATION (RNA-POLYMERASE II) ELONGATION TERMINAISON MODIFICATIONS DU PRE-MESSAGER : MATURATION DU mRNA α- LA FIXATION DE LA COIFFE EST TRES PRECOCE β- LES RNA SONT LE PLUS SOUVENT POLYADENYLES γ- L’EPISSAGE ELIMINE LES INTRONS DU TRANSCRIT PRIMAIRE MECANISME GENERAL DE L’EPISSAGE CAS PARTICULIERS DE L’EPISSAGE DES INTRONS L’EPISSAGE EN TRANS (« trans-splicing ») L’EPISSAGE ALTERNATIF (OU DIFFERENTIEL) L’AUTO-EPISSAGE (NOTION DE RYBOZYMES) δ- ‘RNA-EDITING’ (CORRECTION DU RNA) TRANSPORT DU mRNA VERS LE CYTOPLASME -1- 7 7 10 11 12 13 14 15 17 18 23 23 23 23 24 25 26 27 27 28 29 30 31 DU GENOTYPE AU PHENOTYPE [ TRANSCRIPTION ] Un zygote humain possède dans le DNA de son noyau les instructions essentielles à la construction d’une personne particulière avec ses caractères propres. Le phénotype de chaque individu résultera de la combinaison de son bagage génétique unique et des influences du milieu. Le DNA contrôle le métabolisme en commandant aux cellules de fabriquer des enzymes spécifiques et d’autres protéines. C’est en dictant la synthèse de ces protéines que le DNA hérité d’un organisme va produire les caractères spécifiques d’un individu : le phénotype. Remarque terminologique : on désigne les gènes avec des minuscules en lettres italiques (ou soulignées). On écrira par exemple les gènes lac (ou lac). Pour chaque gène particulier, on fera suivre d’une majuscule (exemple : gène lacZ, lacY, lacA). Les mêmes lettres sont utilisées pour le produit du gène ou bien pour le phénotype mais la première lettre sera écrite en majuscule et l’ensemble en lettres droites. On écrira ainsi la protéine LacZ (il s’agit de la β–galctosidase) et la bactérie Lac+ ou lac- selon qu’il s’agit de bactérie sauvage (+) ou mutante (-). Les protéines forment le lien entre le génotype et le phénotype. 1. REPERES HISTORIQUES La génétique moderne remonte aux travaux de Mendel, qui le premier établit les lois de l'hérédité. Il publie ses résultats en [1866], mais ils passent alors à peu près inaperçus. Leur redécouverte n'aura lieu qu'en [1900]. Emergence de la génétique formelle : Les lois de Mendel impliquent l'existence d'éléments autonomes et reproductibles, qui contrôlent de façon discrète les caractères héréditaires de génération en génération. Chaque caractère est représenté dans l'oeuf fécondé par deux - et seulement deux - éléments, provenant l'un du père, l'autre de la mère. Ces éléments autonomes, unités de l'hérédité, se verront, en [1909], attribuer par le biologiste danois Wilhem Johannsen la dénomination de « gènes ». Support de l’hérédité : le chromosome : Ce sont les travaux de Morgan [1904] (Prix Nobel 1933), sur la drosophile (Drosophila melanogaster), qui conduisent au développement de la « théorie chromosomique » de l'hérédité. Les gènes sont alors localisés sur les chromosomes, et avec Sturtevant, ils pourront même y être ordonnés par l'étude de la ségrégation des caractères, constituant les premières « cartes génétiques ». C'est encore dans le laboratoire de Morgan que sont développées les procédures de « mutagenèse expérimentales » par Muller [1927] (Prix Nobel 1946) (induction artificielle de mutations par les rayons X). Convergence de la biochimie et de la génétique : Si la présence des gènes sur les chromosomes est alors établie, rien n’est connu de la nature biochimique des gènes ou de leur mode d’action. -2- La première relation entre gène et un enzyme est établie en [1909] par Garrod à partir d’une observation portant sur une maladie humaine : l’« alcaptonurie ». Cette maladie se manifeste par le noircissement des urines lorsqu'elles sont exposées à l'air. Le noircissement est dû à la présence dans les urines d'acide homogentisique, qui est un produit intermédiaire de la dégradation de la tyrosine et de la phénylalanine. Cette substance est dégradée chez les individus normaux, mais pas chez les alcaptonuriques, chez lesquels elle s'accumule. Le sérum des premiers contient l'enzyme capable de la métaboliser « l'homogentisate 1,2 désoxygénase », mais cet enzyme n'est pas présent dans le sérum des seconds. Garrod propose que chaque enzyme serait le fruit de l'activité d'un gène. Cette corrélation allait être généralisée par Beadle et Tatum [1941] (Prix Nobel 1958) grâce aux mutants métaboliques de Neurospora crassa, un système plus accessible à l’expérimentation. L'ensemble de ces travaux aboutissent finalement à la conclusion que les gènes contrôlent la synthèse des enzymes, et que chaque protéine est codée par un gène différent ; d’où l’expression : « un gène. ↔.une enzyme » généralisé par la suite en « un gène ↔ un polypeptide ». -3- Des travaux similaires seront par la suite produits selon cette stratégie par de nombreux autres chercheurs. Tous confirment que chaque étape des voies biochimiques est contrôlée par un gène unique, codant l'enzyme impliquée à cette étape. DNA comme support de l’information génétique : Le premier phénomène qui allait permettre de progresser dans l'identification du support de l'hérédité est celui de la transformation bactérienne, rapporté en [1928] par l'anglais Griffith (travaux sur Diplococcus pneumomiae – souris). Ce phénomène représente alors un test d'activité biologique, grâce auquel il est possible de déterminer la nature du matériel génétique. Ce test ne sera pas mis à profit par Griffith lui même, mais par Avery [1944] qui l'utilise pour élucider la nature biochimique du matériel génétique : il s'agit de DNA. Cette découverte est toutefois accueillie avec beaucoup de scepticisme. Il faudra de nombreux autres travaux pour que cette réalité soit acceptée : en particulier ceux de Chargaff [1950] (rapports A+T/C+G et A/T, C/G) ou de Hershey [1946] (travaux menés sur les bactériophages ; phage T2 en particulier). L'acceptation définitive ne viendra qu'avec l'élucidation de la structure du DNA par Watson et Crick [1953] (Prix Nobel 1962). C’est à partir de ce moment que la biologie moléculaire va connaître son apothéose et son développement dans presque tous les domaines et disciplines scientifiques. 2. MECANISME GENERAL DE LA SYNTHESE DES PROTEINES Qu’est ce qu’un gène ? : La définition du gène a évolué au fur et à mesure de l’avancement scientifique des connaissances. En fait chacune des définitions a son utilité selon le contexte dans lequel on étudie les gènes. Les concepts mendéliens définissent le gène en tant qu’unité héréditaire discontinue possédant une influence sur un caractère phénotypique. Morgan et ses collaborateurs ont localisé le gène sur un endroit précis du chromosome : locus. Ensuite, une définition fonctionnelle du gène a été formulée ; « le gène est une séquence de DNA codant pour une chaîne polypeptidique spécifique » : « un gène - un polypeptide ». Cette dernière définition doit être utilisée avec discernement. En effet, la plupart des gènes eucaryotes comprennent des régions non codantes « introns », c'est-à-dire de grands segments qui n’ont pas d’équivalents dans les polypeptides. Les biologistes moléculaires incluent également dans le gène les promoteurs et d’autres régions régulatrices qui ne sont pas transcrites, mais on peut considérer que ces séquences font partie du gène parce que le gène ne sera exprimé qu’en leur présence. A l’échelle moléculaire, la définition du gène doit également englober le DNA qui code pour le RNA ribosomal, RNA de transfert et autres petits RNA. Ces gènes ne produisent pourtant pas de polypeptides. -4- La définition suivante s’applique donc à l’échelle moléculaire d’une façon plus générale : « Un gène est une région du DNA essentielle à la fabrication d’une molécule de RNA » Langage utilisé du DNA au polypeptide : Nous verrons dans cette partie du cours comment se fait l’expression de l’information génétique grâce à la synthèse des protéines. La synthèse des protéines comprend 2 étapes importantes : La transcription. (même langage nucléotidique) (Transcrire = recopier en utilisant le même langage) La traduction. (nucléotides → acides aminés) (Traduire = Lire ou écrire en utilisant une langue différente) En général, les mécanismes sont semblables dans les cellules procaryotes et eucaryotes. La principale différence est la maturation des RNA qui se produit dans le noyau des eucaryotes. -5- 3. LA TRANSCRIPTION Définition : La transcription est le mécanisme par lequel les RNA cellulaires sont synthétisés. L’enzyme responsable de cette synthèse est la « RNA polymérase ». Puisque la RNA polymérase ne peut fonctionner sans DNA, on dit qu’elle est « DNA dépendante ». Le DNA sert de modèle. Le RNA produit est une copie complémentaire et antiparallèle du DNA. La RNA polymérase utilise comme substrat les 4 types de nucléotides sous forme de triphosphate (ATP, GTP, CTP et UTP). Tout le DNA n’est pas transcrit, mais seulement certaines portions. Seul l’un des deux brins de DNA est copié mais ce n’est pas toujours le même brin qui est copié tout au long de la molécule de DNA. Pour certains gènes, ce sera un brin, pour d’autres ce sera l’autre brin. La transcription se déroule en trois étapes : 1. L’initiation 2. L’élongation 3. La terminaison Par convention, on appelle « +1 » le premier nucléotide à partir duquel la transcription démarre : « site d’initiation » et « -1 » le nucléotide qui le précède. Brin codant ou brin sens Brin transcrit ou brin antisens SCHEMA GENERAL DE LA TRANSCRIPTION -6- I. LA TRANSCRIPTION CHEZ LES PROCARYOTES 1. INITIATION (et caractéristiques de la RNA-polymérase) Le signal de début de transcription est le « promoteur ». C’est une région du DNA comprenant environ 40 paires de nucléotides située juste avant le début de la région où démarrera la transcription. Les séquences de nucléotides ont été déterminées pour plus de 100 promoteurs de différents gènes de E. coli. Ces promoteurs comportent des séquences de composition très voisine dites « séquences conservées » ou « séquences homologues ». Il s’agit en particulier de courtes séquences de 6 paires de nucléotides séparées l’une de l’autre par environ une vingtaine de paires de nucléotides : « séquence -35 » et « séquence -10 ». Séquence -35 : TTGACA (T82T84G78A65C54A45), Séquence -10 : TATATT (T80A95T45A60T50T96). Appelée aussi « Pribnow box » NB : Les lettres en gras correspondent à des résidus hautement conservés (>>75%). On peut considérer cette « boîte Pribnow » comme une région d’avertissement pour la RNA polymérase. Le compte à rebours est commencé : -10, -9….-2, -1 et à +1, la transcription démarre. Les différences entre les promoteurs de différents gènes augmentent les différences d’efficacité de l’initiation de la transcription et contribuent dans la régulation de l’expression des gènes. -7- Les courtes séquences conservées à l’intérieur des promoteurs sont les sites auxquels la RNApolymérase et facteurs de transcription se fixent pour lancer ou réguler la transcription. Chez E. coli, La RNA-polymérase est composée de sous-unités. L’ensemble « α2ββ’ » forme le noyau (ou cœur) de l’enzyme. Ce noyau contient le site catalytique responsable de l’élongation. L’ensemble « α2ββ’σ » forme l’enzyme complète appelée « holoenzyme ». α2 β Remarque : La structure de la majorité des RNA-polymérases procaryotes est une structure à plusieurs sous-unités. Ceci n’est en fait pas une nécessité absolue. Les RNA-polymérases encodées par les bactériophages T3 et T7 sont des chaînes polypeptidiques monoténaires reconnaissant leurs propres DNA à des séquences spécifiques (vitesse de synthèse du RNA : 200 nucléotides / seconde à 37°C). β’ ‘Core enzyme’ σ70 ‘holoenzyme σ54 Afin de permettre au brin matrice d’être utilisé pour l’appariement de bases (DNA-RNA), la double hélice du DNA doit être localement déroulée sur environ 17 pb. Le déroulement commence au site du promoteur reconnu par la RNA-polymérase. La totalité de l’enzyme se fixe sur une région couvrant environ 60 pb. La polymérase lance ensuite la synthèse du brin de RNA à partir du site d’initiation (nucléotide +1 : une purine G ou A dans 90 % des gènes). Aucune amorce n’est requise pour la synthèse du RNA. La sous-unité σ ou « facteur sigma » permet à la RNA-polymérase de reconnaître les sites promoteurs. L’enzyme complète (holoenzyme : α2ββ’σ) est nécessaire pour l’initiation de la transcription. Cependant le facteur σ n’est pas requis pour l’élongation. Il est libéré du complexe de transcription après l’initiation de celle-ci (le facteur σ se dissocie du cœur de l’enzyme lorsque le transcrit atteint 8 à 9 nucléotides de longueur). Ces premiers nucléotides sont incorporés sans recourir au déplacement de la polymérase. En fait, la polymérase va entreprendre plusieurs initiations de chaînes avortées. A partir du moment où l’initiation est réussie, le facteur σ est libéré et la polymérase cœur commence l’élongation en se déplaçant le long du DNA (vitesse de synthèse : 40 nucléotides / seconde à 37 °C). La RNA-polymérase de E. coli nécessite la présence d’ions Mg2+ pour son fonctionnement. Les deux sous unités α sont identiques, encodées par le gène « rpoA », ne jouent pas de rôle concret dans la transcription mais sont indispensables pour l’assemblage de l’enzyme cœur et semblent jouer un certain rôle dans la reconnaissance du promoteur. -8- La sous-unité β constitue le centre catalytique de la RNA-polymérase. La « rifampicine » et les « streptolydigines » sont des antibiotiques qui se fixent sur la sous-unité β : 1) La rifampicine bloque l’initiation mais pas l’élongation ; 2) les streptolydigines inhibent l’élongation. Les mutations qui augmentent la résistance à ces antibiotiques sont cartographiées en « rpoB » (gène codant la sous-unité β). Ceci montre que la sous-unité β contient deux domaines responsables chacun de l’initiation et de l’élongation. La sous-unité β’, encodée par le gène « rpoC », est liée à deux ions de Zn2+. L’ « l’héparine », un polyanion, se fixe à cette sous-unité. Elle inhibe la transcription in vitro en entrant en compétition avec le DNA pour la fixation de la RNA-polymérase. Il ressort de cela que la sous-unité β’ peut être responsable de la fixation au DNA matrice. Le facteur sigma le plus fréquent dans E. coli est « σ70 » (PM=70 Kda). Celui-ci joue un rôle très important dans la reconnaissance du promoteur mais n’est pas requis pour l’élongation : il réduit l’affinité de l’enzyme cœur pour les sites non spécifiques du DNA par un facteur de 104 et augmente l’affinité pour le promoteur. E. coli possède plusieurs facteurs σ différents (σ28, σ32, σ54…). Ces derniers participent à la reconnaissance de classes spécifiques de promoteurs. -9- Les promoteurs régulés sont activés par la fixation de facteurs d’activation accessoires tels que la protéine réceptrice d’AMPc : CPR ou CAP (Catabolite Activator Protein) dans le cas du promoteurs lac par exemple. 2. ELONGATION Lorsque l’initiation est lancée correctement, l’enzyme libère le facteur σ et forme un complexe ternaire (DNA-RNA-polymérase). La polymérase quitte le promoteur et avance le long du DNA : « clairance du promoteur » permettant la relance d’une nouvelle initiation. ribosomes - 10 - La région déroulée du DNA, appelée « bulle de transcription » semble se déplacer le long du DNA avec la polymérase. La taille de cette bulle reste constante (17 pb environ). L’extrémité 3’ du RNA naissant forme un hybride d’environ 12 pb avec le brin antisens (transcrit). La RNA-polymérase ajoute des ribonucléotides de manière covalente à l’extrémité 3’ de la chaîne croissante de RNA (précurseurs = ribonucléosides triphosphates) : 40 nucléotides / seconde à 37 °C. L’énergie nécessaire pour former les liaisons ester entre les différents nucléotides du RNA est apportée par les nucléotides eux-mêmes. Seul le premier nucléotide du RNA consrve son groupement triphosphate. 3. TERMINAISON La terminaison de la transcription a lieu au niveau de séquences spécifiques appelées « terminateurs ». Il s’agit de régions auto-complémentaires qui forment une structure secondaire RNA en « épingle à cheveux ». Cette région pousse la polymérase à marquer un temps d’arrêt et par conséquent à cesser la transcription. Cette région à symétrie imparfaite est immédiatement suivie par une courte séquences riche en bases A et T (le brin du DNA transcrit contient à ce niveau une séquence de plusieurs A). - 11 - Il s’agit d’une région où les appariements sont plus lâches et d’où la polymérase peut plus facilement se détacher. Certaines séquences terminateurs peuvent, à elles seules, mettre fin à la transcription, alors que d’autres séquences terminateurs requièrent un facteur accessoire la protéine rho « ρ ». α- REGULATION DE L’EXPRESSION GENIQUE CHEZ LES PROCARYOTES Les mutations et les divers mécanismes de recombinaison génétique, étudiés dans la première partie du cours, engendrent une variation génétique qui rend possible la sélection naturelle. Par son action sur un grand nombre de générations d’une population bactérienne, la sélection naturelle augmente la proportion d’individus adaptés à certaines conditions du milieu, telle la présence d’un certain antibiotique par exemple. Cependant, une bactérie qui a hérité un génome précis va devoir faire face aux fluctuations de son environnement. Prenons l’exemple d’une cellule d’E. coli vivant dans un intestin humain, un milieu extrêmement instable. En effet son approvisionnement en nutriments dépend des habitudes alimentaires capricieuse et variables de son hôte. Si la bactérie manque de tryptophane par exemple, un acide aminé dont elle a besoin pour survivre, elle réagit en activant une voie métabolique qui lui permet de synthétiser cette substance à partir d’un autre composé. Plus tard, si son hôte absorbe un repas riche en tryptophane, la cellule cesse d’en synthétiser pour elle-même, évitant ainsi de gaspiller ses ressources pour produire une substance déjà toute prête dans le milieu environnant. La régulation métabolique s’exerce de deux façons : En premier lieu, les cellules peuvent faire varier le nombre de molécules d’une enzyme donnée en contrôlant l’expression du gène correspondant. En deuxième lieu, les cellules peuvent modifier l’activité des enzymes déjà présentes. Ce second mode de régulation, plus immédiat, repose sur la sensibilité d’un grand nombre d’enzymes à des facteurs chimiques qui font augmenter ou diminuer leur activité catalytique. Par exemple, l’activité de la première enzyme de la voie de biosynthèse du tryptophane est - 12 - inhibée par la présence du produit final de la voie. Donc, si le tryptophane s’accumule dans la cellule, il met fin à sa propre synthèse : rétro-inhibition ». Ce mode de régulation permet à la cellule de s’adapter aux fluctuations à court terme de la concentration d’une substance dont elle a besoin. Si, dans notre exemple, le milieu continue de fournir tout le tryptophane nécessaire, la cellule cesse de produire les enzymes de la voie du tryptophane. Cette régulation s’exerce sur à l’étape de la transcription (synthèse du RNA messager codant pour ces enzymes). De façon plus générale, de nombreux gènes du génome bactérien sont activés ou inactivés par les fluctuations de l’état métabolique de la cellule. Le mécanisme fondamental de ce mode de régulation de l’expression génique, appelé « modèle de l’opéron », a été découvert par Jacob et Monod [1961] (Prix Nobel 1965). A partir de l’exemple de la régulation de la synthèse du tryptophane, nous allons voir en quoi consiste un opéron et comment il fonctionne. β- OPERONS : CONCEPT DE BASE E. coli synthétise le tryptophane à partir d’un substrat initial en passant par une série d’étapes, chaque réaction étant catalysée par un enzyme spécifique. Les gènes codant pour les chaînes polypeptidiques de ces enzymes sont regroupés sur le chromosome. Un seul promoteur dessert l’ensemble de ces gènes qui forment une seule et même unité de transcription. La transcription produit donc une longue molécule de mRNA qui représente l’ensemble de la voie de biosynthèse du tryptophane. La cellule pourra traduire ce transcrit en polypeptides distincts parce que le mRNA porte les signaux de départ et d’arrêt qui marquent le début et la fin de traduction de chacun d’eux. Les gènes qui codent pour des polypeptides sont appelés « gènes de structure ». Le fait que des gènes de structure aux fonctions connexes (liées, assdociées) se trouvent dans la même unité de transcription représente un avantage majeur car il suffit d’un seul ‘interrupteur’ pour commander l’ensemble des gènes : « l’opérateur ». celui-ci se trouve à l’intérieur du promoteur ou entre le promoteur et les gènes de structure. Il commande l’accès de la RNApolymérase aux gènes de structure. L’ensemble gènes de structure, opérateur et promoteur constitue un opéron. - 13 - Si l’opérateur représente la zone de DNA où s’exerce la régulation de la transcription, quel est le facteur qui détermine si l’opérateur sera activé ou inactivé ? Seul, en lui-même, l’opérateur est activé : la transcription a lieu. L’opéron est inactivé par une protéine appelée « répresseur ». Quand le répresseur se lie à l’opérateur, il empêche la RNA-polymérase de s’attacher au promoteur. Les répresseurs sont spécifiques : ils ne reconnaissent et ne se lient qu’à l’opérateur d’un certain opéron. Le répresseur provient lui-même d’un gène appelé « régulateur » qui se trouve en général à une certaine distance de l’opéron qu’il contrôle. Les gènes régulateurs se font transcrire de façon continue (de manière constitutive), à rythme lent et par conséquent il y a toujours des molécules de répresseur dans la cellule. Si tel est le cas, pourquoi l’opéron n’est pas inactif de façon permanente ? Pour deux raisons : La liaison entre les répresseurs et les opérateurs est réversible. Le répresseur peut adopter deux formes : une forme active qui peut reconnaître l’opérateur et une forme inactive. Le passage d’une forme à une autre dépend de la fixation ou non sur le répresseur d’une molécule appelée selon les cas « corépresseur » ou « inducteur ». Il s’agit d’un métabolite qui collabore avec le répresseur pour inactiver ou bien activer un opérateur. Le métabolite en question est une petite molécule organique qui représente un précurseur, un intermédiaire ou le produit final d’une voie métabolique. Exemples : tryptophane, allolactose). γ- REGULATION GENIQUE NEGATIVE : ‘REPRESSIBLE’ ou bien ‘INDUCTIBLE’ Le tryptophane est un acide aminé produit par l’intermédiaire d’une voie anabolique catalysée par des « enzymes répressibles ». L’accumulation du tryptophane, le produit final de cette voie a pour effet de réprimer la synthèse de ces enzymes. Le mécanisme est illustré sur la figure ci-dessous. - 14 - Par contre, la synthèse des « enzymes inductibles » se trouve stimulée, et non inhibée, par la présence de métabolites particuliers. Tel est le cas de l’opéron lactose chez E. coli. Ces deux exemples montrent comment l’expression génique peut répondre aux changements qui surviennent dans les milieux internes et externes de la cellule. δ- REGULATION GENIQUE POSITIVE Dans les deux exemples précédents, les gènes subissent une régulation négative parce que les opérons sont inactivés par la conformation active du répresseur. Techniquement, on peut considérer l’inducteur (l’allolactose par exemple) davantage comme un ‘dérépresseur’ que comme un inducteur de gène. On ne parle de régulation génique positive que dans le cas où une molécule d’activateur interagit directement avec le génome pour entraîner la transcription. L’exemple de régulation positive illustré ci-dessous se rapporte également à l’opéron lactose. Pour que les enzymes de dégradation du lactose (en galactose + glucose) se fassent synthétiser en grande quantité, la présence de lactose (→ allolactose) ne suffit pas. L’absence de glucose est également indispensable. Si on lui laisse le choix des substrats pour la glycolyse et d’autres voies métaboliques, E. coli se sert en priorité du glucose, le glucide le plus souvent présent dans le milieu nutritif. La plupart des gènes nécessaires au catabolisme du glucose sont des gènes constitutifs, c'est-àdire des gènes dont la transcription se fait de façon continue. - 15 - Comment la cellule d’ E. coli perçoit-elle la concentration de glucose et comment cette information est transportée jusqu’au génome ? Une protéine appelée CAP « Protéine activatrice du catabolisme » (également appelée protéine réceptrice d’AMPc : CRP) est une protéine qui accélère la transcription d’un opéron en s’unissant au promoteur et en facilitant la fixation de la RNA-polymérase. Comme la CAP se fixe directement au DNA afin de stimuler la transcription, on peut parler ici de régulation positive. L’absence de glucose dans la cellule entraîne l’accumulation d’une molécule appelée AMP cyclique (AMPc), un dérivé de l’ATP. La CAP possède un site de liaison pour l’AMPc. Le complexe CAP-AMPc se lie au promoteur de l’opéron lactose et stimule la transcription des gènes pour le catabolisme du lactose. Si on ajoute du glucose, la concentration d’AMPc diminue et les molécules de la CAP quittent les promoteurs de lac. L’opéron lac subit donc une double régulation : une régulation négative par le répresseur lac et une régulation positive par la CAP. Bien que nous ayons pris l’opéron lac comme exemple, la CAP agit, contrairement aux répresseurs spécifiques, sur plusieurs opérons différents. Lorsque le glucose est présent et que la CAP est inactive, il y a ralentissement général de la synthèse des enzymes nécessaires à l’utilisation de tous les catabolites sauf du glucose. Quand il y a pénurie de glucose, les catabolites présents (lactose par exemple) déterminent alors quels opérons deviendront activés. Tout se passe comme si l’opéron en question est à la fois commandé par un interrupteur et un bouton de volume (intensité). - 16 - II. LA TRANSCRIPTION CHEZ LES EUCARYOTES Le mécanisme de la transcription eucaryote est similaire à celui des procaryotes. Cependant, le grand nombre de polypeptides associés à la machinerie de la transcription eucaryote rend celui-ci bien plus complexe. Chez les eucaryotes, trois complexes de RNA-polymérases sont responsables de la transcription des différents types de gènes. Elles ont été identifiées par la purification chromatographique et l’élution à différentes concentrations de sel. Chaque RNA-polymérase possède une sensibilité différente à la toxine fongique « α-amanitine ». 1. ARN Polymérase de Type I (ou A) : Transcription de la plupart des gènes rRNA (RNA ribosomiaux). Localisation: Nucléole. Insensible à l’α-amanitine Activité: 50-70% 2. ARN Polymérase de Type II (ou B) : Transcription de tous les gènes codant les Protéines (mRNA) et certains snRNA. Localisation: Nucléoplasme. Très sensible à l’α-amanitine. Activité: 20-40% 3. ARN Polymérase de Type III (ou C) : Transcription des gènes pour les tRNA, le rRNA 5S, le snRNA U6. Localisation: Nucléoplasme. Modérément sensible à l’α-amanitine. Activité: 10% REMARQUES : En plus de ces RNA-polymérases nucléaires, les cellules eucaryotes possèdent des RNA-polymérases supplémentaires dans les mitochondries et les chloroplastes. Les trois RNA-polymérases sont de grosses enzymes contenant chacune au moins 12 sousunités. Elles contiennent des sous-unités homologues aux sous-unités de la RNA-polymérase cœur de E. coli (α2ββ’). Au moins cinq petites sous-unités sont communes aux trois différentes RNA-polymérases. Chacune contient également 5 à 7 sous-unités supplémentaires qui sont uniquement présentes dans un seul type. Comme les RNA-polymérases bactériennes, chacune des enzymes eucaryotes catalyse la transcription dans la direction 5’ → 3’ et synthétise le RNA complémentaire au brin matrice - 17 - antisens. La réaction nécessite les nucléotides précurseurs (ATP, GTP, CTP et UTP) et ne requiert pas d’amorce pour l’initiation de la transcription. Nous allons nous intéresser essentiellement au mécanisme de transcription catalysé par la RNA-polymérase II. Celle-ci est responsable de la transcription de tous les gènes codant pour les protéines eucaryotes. Néanmoins et dans la mesure du possible, nous allons exposer certains éléments comparatifs concernant les deux autres RNA-polymérases I et III. En fait, la RNA-polymérase II synthétise des précurseurs de RNA messagers « pré-mRNA ». Ces derniers doivent subir une « maturation » par la formation d’une « coiffe » (ou capsule) à l’extrémité 5’ du RNA, l’ajout d’une « queue poly A » et l’enlèvement des « introns » par « épissage ». 1. INITIATION (RNA-POLYMERASE II) En amont du premier nucléotide transcrit (+1) d’un gène de structure eucaryote, se trouve toute une « région 5’ » non transcrite qui joue un rôle essentiel dans le contrôle de la transcription. Cette région, appelée « promoteur proximal », s’étend sur environ une centaine de paires de bases. On y trouve essentiellement la « TATA box », présente dans presque tous les gènes, ainsi que la « CCAAT box » et la « GC box » moins systématiquement retrouvées. - 18 - La RNA-polymérase eucaryote est incapable, à elle seule, de reconnaître directement le promoteur. Il semble qu’elle reconnaît plutôt un complexe multiprotéique. Ce complexe est formé d’au moins 5 protéines : TFIIA, TFIIB, TFIID, TFIIE, TFIIF et TFIIH (TF = ‘transcriptional factor’). TAFII Il a été démontré que ces facteurs s’assemblent sur les promoteurs de base en un ordre spécifique et sont sujets à de multiples niveaux de régulation. Seul TFIID (TBP +TAFII) se fixe sur la TATA box par l’intermédiaire de la « TATA binding protein » (ou TBP). CTD TFIIA stabilise le complexe TFIID-DNA et neutralise les effets des facteurs inhibiteurs auxquels TFIID peut être lié. TFIIB agit comme un facteur permettant le recrutement de la RNA-polymérase avec un facteur supplémentaire TFIIF. CTD Après fixation de la RNA-polymérase, d’autres facteurs de transcription se lient rapidement au complexe (TFIIE, TFIIH). La TFIIH contient une activité kinase et une activité hélicase permettant la phosphorylation du « domaine terminal-carboxyle » (CTD) de la RNA-polymérase et de dénaturer la double hélice du DNA au site d’initiation de CTD phosphorylé la transcription. Cette phosphorylation conduit à la formation d’un complexe De RNA-polymérase fonctionnel et permet à la RNA-polymérase de quitter la région du promoteur. Ce groupe de facteurs généraux de la transcription ainsi que la RNA-polymérase constituent le « complexe d’initiation ». Celui-ci catalyse la formation de la première liaison entre les deux premièrs nucléotides du pré-mRNA. La transcription commence à quelques nucléotides en aval de la TATA box au « site d’initiation » de la transcription (+1). Ce mécanisme de reconnaissance et de fixation de la RNA-polymérase, beaucoup plus complexe que chez les procaryotes, est dû à la sélectivité de la transcription chez les eucaryotes. Seuls les promoteurs ayant fixés certains « facteurs trans-régulateurs » seront fonctionnels. En plus de la région de contrôle appelée ‘promoteur proximal’, la transcription des gènes eucaryotes peut être modulée par une série d’autres séquences de DNA « éléments cisrégulateurs » constituées de quelques nucléotides (6 à 8 le plus souvent, voire une vingtaine). Ces séquences forment ce qu’on appelle « séquences distales » du promoteur. Ces séquences peuvent se trouver aussi bien en amont qu’en aval du gène voire même au milieu dans certains cas (au niveau des introns). - 19 - Il Existe Plusieurs Niveaux de Compaction du DNA Correspondant à des Niveaux d ’Activité Transcriptionnelle Différents Transcription Possible Transcription Impossible Zone Accessible Histone acétylase ‘Chromatin remodeling complex’ Sur ces ‘séquences cis-régulatrices’, étonnamment conservées dans les gènes de nombreuses espèces, vont se fixer des ‘facteurs trans-régulateurs’. La Fixation de ces facteurs provoquera selon les cas un démarrage, une activation ou plus rarement une diminution de la transcription. Dans le cas d’une activation ou d’une inhibition de la transcription, les séquences cisrégulatrices sont appelées respectivement « enhancers » (activatrices en français) ou « silencers » (exctinctrices). Leur particularités est : 1/ d’être parfois localisées à de très grandes distances (1 à 30 Kb), 2/ d’agir indépendemment de leur position (aval ou amont) ou de leur orientation. - 20 - Les facteurs de transcription possèdent une structure modulaire constituée de : Domaines de fixation au DNA : ‘hélice-tour-hélice’, ‘à doigt de zinc’, ‘Leu zipper’… Domaines d’activation : ‘riche en proline’, riches en glutamine’, ‘hélice-α-acide’… Exemple avec un facteur de transcription à trois doigts de zinc. Parmi les méthodes utilisées pour caractériser les séquences cis-régulatrices et les facteurs trans-régulateurs on peut citer les techniques « retard sur gel », « chromatographie d’affinité du DNA », « immunoprécipitration de la chromatine » … - 21 - Retard sur gel Chromatographie d’affinité du DNA - 22 - 2. ELONGATION L’élongation du pré-mRNA se fait selon le même mécanisme que chez les procaryotes. 3. TERMINAISON Le signal de fin de gène (et non de fin de transcription) est la séquence consensus : AATAAA lue sur le brin non transcrit (brin sens). La RNA-polymérase reconnaît ce signal sur le DNA mais continue à transcrire encore au-delà. Toutefois, les transcrit seront ensuite racourcis et se termineront par le signal « AAUAAA » suivi de 10 à 15 nucléotides. 4. MODIFICATIONS DU PRE-MESSAGER : MATURATION DU mRNA Structure des mRNA : différences entre procaryotes et eucaryotes α- LA FIXATION DE LA COIFFE EST TRES PRECOCE Ceci représente la première étape de maturation du RNA messager. La coiffe (capsule, capuchon, chapeau ou cap) se met en place dès le début de la transcription, avant que 30 nucléotides ne soient assemblés. La coiffe est un GMP ayant un groupe méthyle sur l’azote en position 7 (ce qui apporte une charge positive). Il est relié au premier nucléotide par une liaison anhydride d’acide. Les deux premiers nucléotides du RNA peuvent également être méthylés sur les hydroxyles en position 2’ du ribose. La coiffe protégerait ainsi l’extrémité 5’ des mRNA de l’attaque par des enzymes (phosphatases et nucléases). La coiffe joue également un rôle important dans le transport du mRNA et l’initiation de la traduction. En effet, la petite sousunité du ribosome, aidée par la reconnaissance de la coiffe, se fixera ainsi à l’extrémité 5’ du mRNA - 23 - β- LES RNA SONT LE PLUS SOUVENT POLYADENYLES Une fois synthétisés, les pré-RNA (ou transcrits primaires), sont coupés du côté 3’ à une vingtaine de nucléotides en aval de la séquence ‘AAUAAA’ déjà signalée plus haut. Cette séquence qui fut considérée au début comme une séquence de reconnaissance pour la polyadénylation n’est en fait que le signal pour la coupure. ‘AAUAAA’ est suivie 11 à 20 nucléotides par 5’YA3’ (Y = pyrimidine) et très souvent d’une séquence riche en GU en aval. Un certain nombre de facteurs protéiques reconnaît ces éléments de la séquence et se fixe au pré-mRNA. Lorsque le complexe est rassemblé, le coupure a lieu et l’un des facteurs, « La poly A polymérase » (ou PAP), ajoute jusqu’à 250 A consécutifs chez les mammifères et 100 chez les eucaryotes inférieurs. Vraisemblablement, seuls les messagers d’histones sont dépourvus de queue poly A. Une protéine de 70 KDa, la « poly A binding protein » ou PABP, se fixe sur la queue polyA. La queue poly A associée à la PABP semble jouer un rôle dans la stabilisation des messagers et dans l’initiation de la traduction. - 24 - Il est important de signaler que la présence de cette queue poly A sur les mRNA eucaryotes a permis l’isolement et la purification de ces molécules des autres RNA cellulaires permettant ainsi la construction de « banques de cDNA » (voir cours S3) desquelles des gènes spécifiques ont été caractérisés et leurs fonctions analysées. γ- L’EPISSAGE ELIMINE LES INTRONS DU TRANSCRIT PRIMAIRE Robert et Sharp ont obtenu le Prix Nobel 1993 pour leur découverte de la structure discontinue (ou fragmentée) des gènes eucaryotes. Le gène eucaryote comprend : des « exons » qui contiennent l’information héréditaire qui s’exprimera en donnant des polypeptides. (Le mot exon dérive en fait de ‘exit’ en relation avec la partie du RNA qui sortira du noyau vers le cytoplasme). des « introns » qui sont intercalés entre les exons. Ils seront transcrits mais ne seront pas traduits. Structure de deux gènes humains C’est au cours de la maturation du pré-mRNA (‘processing’ en anglais) que les introns seront éliminés par un mécanisme appelé « épissage » (‘splicing’ en anglais). Les exons vont être soudés bout à bout : les exons sont épissés ; les introns sont excisés. L’épissage est une opération délicate qui doit être parfaitement précise et fiable. En effet, une erreur d’un seul nucléotide au niveau de l’excision changerait le « cadre de lecture » lors de la traduction et aboutirait à des protéines incorrectes. Il est important de ne pas confondre les introns au niveau du DNA avec ceux au niveau du pré-mRNA. Les introns excisés sont ceux du RNA et non du DNA. Nous décrirons d’abord le mécanisme général de l’épissage et nous évoquerons ensuite quelques cas particuliers (épissage en trans, épissage alternatif, auto-épissage) - 25 - MECANISME GENERAL DE L’EPISSAGE Trois éléments du pré-mRNA jouent un rôle important lors de l’épissage : Le « site donneur d’épissage » situé à la jonction 5’exon-intron3’. Se site commence par ‘GU’ au niveau de l’intron. Le « site accepteur » situé à la jonction 5’intron-exon 3’. ce site se termine par ‘AG’ au niveau de l’intron. Le « site de branchement » situé à environ -30 nucléotide de l’extrémité 3’ de l’intron. Sur ce site se trouve un ‘A’ appelé « A du branchement ». Las so ou ‘lariat’ Le mécanisme d’épissage peut être décomposé en deux étapes comprenant chacune une réaction de « transestérification ». Dans notre cas, la transestérification est une réaction où une liaison ester phosphate est transférée d’un sucre à un autre, sans hydrolyse et donc sans nécessité d’un apport d’énergie. 1ère étape : Première coupure en 5’ de l’intron. L’attaque de cette liaison ester est due au l’hydroxyle en position 2’ du A du branchement. Ainsi, le G en position 5’ de l’intron se soude par une liaison covalente au A du branchement formant une structure en « lasso » (‘lariat’ en anglais). 2ème étape : Deuxième coupure en 3’ de l’intron. Soudure des deux exons et libération du lasso qui sera dégradé par les nucléases. - 26 - Ce processus est contrôlé et guidé par un complexe nucléoprotéique appelé comprenant plusieurs « spliceosome » snRNA (U1, U2, U4, U5 et U6) associés chacun à plusieurs protéines appelées « snRNP ». U1 reconnaît le site donneur, U2 reconnaît le site de branchement et U5 reconnaît le site accepteur. U6 et U4 sont associés par des liaisons complémentaires. U6 est vraisemblablement impliqué dans la catalyse et serait régulé par U4 qui pourrait jouer le rôle de ‘RNA antisens’. U4 se dissocie du spliceosome juste avant ou pendant la première coupure. L’élimination des introns s’effectue dans le noyau. Le pré-messager (muni de la coiffe et de la queue poly A) doit être tenu à l’écart tant qu’il contient des séquences qui ne doivent pas être traduites. Le spliceosome situé au niveau de chaque intron, tout au long du transcrit primaire, ont pour fonction de retenir le pré-mRNA dans le noyau. Les spliceosomes sont tellement encombrants qu’ils empêchent le passage du RNA tant qu’il y a un seul intron non excisé. CAS PARTICULIERS DE L’EPISSAGE DES INTRONS L’EPISSAGE EN TRANS (« trans-splicing ») L’épissage des exons, après excision des introns, concerne généralement des exons appartenant au même transcrit primaire : « cis-splicing ». C’est le cas général décrit plus haut. Chez quelques organismes (trypanosome et une espèce de nématode), un mécanisme d’épissage en trans a été décrit. Dans ces cas, l’épissage d’exons a lieu entre des transcrits primaires différents et donnant ainsi un mRNA mosaïque. - 27 - Ce mécanisme particulier d’épissage est décrit sur la figure ci-dessous en comparaison avec le mécanisme général. L’EPISSAGE ALTERNATIF (OU DIFFERENTIEL) L’épissage alternatif est un mécanisme qui permet à un gène possédant plusieurs exons de coder plus d’une protéine. Cette possibilité s’explique par le fait qu’un même transcrit primaire peut être épissé différemment. Par exemple, certains exons seront choisis dans un type de cellules, tandis que d’autres exons seront retenus dans un autre type de cellules. L’utilisation alternative des exons produit ainsi plusieurs sortes de mRNA et donc plusieurs protéines différentes. Ce mécanisme permettant d’augmenter la capacité de codage des gènes se rencontre en particulier dans le muscle et le cerveau. - 28 - L’AUTO-EPISSAGE (NOTION DE RYBOZYMES) Jusqu’aux années 1980, on pensait que les enzymes ne pouvaient ^être que des protéines. Altman et Cech [1981], Prix Nobel 1989, ont découvert que certains RNA pouvaient être doué de propriétés enzymatiques. Ces RNA ont été appelés « ribozymes ». Ces ribozymes ont été mis en évidence dans certains cas particuliers où ils interviennent dans le clivage de pré-tRNA (chez E. coli) ou dans l’épissage de pré-rRNA (chez Tetrahymena thermophilus, un protozoaire) et de certains pré-mRNA (champignons, mitochondrie et chloroplastes de plantes). Les introns excisés par auto-épissage sont subdivisés en deux groupes (I et II). Les introns de groupe I ont été les premiers ribozymes a être découverts, par Tom Cech, dans le précurseur du rRNA 26S du protozoaire Tetrahymena thermophilus. Ils ont la capacité d'autoépissage sans aucun autre apport extérieur que celui d’un GMP et de l'ion magnésium. Cet épissage est réalisé par 2 réactions de trans-estérification après l'attaque initiale du GMP sur le site d'épissage 5'. Schéma récapitulatif des étapes d'autoépissage des introns de groupe I Les différents introns de groupe I, bien qu'ayant peu de similarité dans leur séquence, ont en commun des éléments courts de structure primaire. Ces éléments appartiennent à des domaines indispensables pour le repliement correct de l'ensemble, amenant à la structure catalytique active. Le site actif de la catalyse naît ici principalement de 3 éléments : Le premier élément important est la création d'une poche de fixation pour le GMP. Cette poche peut discriminer entre le GMP et les autres nucléosides. Elle permet de positionner le GMP pour une attaque nucléophile sur le site d'épissage en 5'. L'alignement du site d'épissage est réalisé par l'appariement d'une séquence riche en pyrimidine de l'exon en 5' avec une séquence guide « IGS » de l'intron (‘Internal Guide Sequence’). Le site d'épissage en 3', bien qu'éloigné dans la séquence, est aussi présent dans le site catalytique pour permettre, lors de la 2ème transestérification, la soudure des 2 exons et la libération de l'intron. La réaction conduit à 2 produits : le premier est constitué par les 2 exons correctement épissés. Le second est libéré. Ce dernier après perte de 19 nucléotides donne un RNA linéaire (RNA L-19). Cet RNA L-19 contient l'IGS et la poche de fixation du GMP, ce qui suffit pour lui conférer une activité enzymatique. - 29 - Schémas des étapes de l'épissage des introns de groupe I Les introns de groupe II quant à eux sont trouvés majoritairement dans les champignons et dans les mitochondries et chloroplastes de plantes. Leur mécanisme d'auto-épissage se rapproche plus de mécanisme général de l'épissage des mRNA en ce sens qu'il fait intervenir la forme "lasso" comprenant une liaison phosphodiester 2'-5'. Néanmoins, à l'instar des introns de groupe I, les introns de groupe II font intervenir un repliement précis de la structure pour obtenir une forme catalytique active. δ- ‘RNA-EDITING’ (CORRECTION DU RNA) L’expression anglaise « RNA-editing » est le plus souvent traduite par ‘édition du RNA’, ce qui est en fait inexact. ‘to edit’ en anglais signifie ‘corriger une épreuve avant l’impression finale’ DEFINITION : Le ‘RNA éditing’ concerne tout traitement du mRNA aboutissant à un mRNA dont la séquence diffère de celle du brin de DNA sens : addition, suppression, substitution d’une ou de plusieurs nucléotides. L’excision d’introns est, bien évidemment, exclue de cette définition. Ces modifications peuvent - 30 - avoir une incidence considérable sur l'expression des gènes. Par exemple, chez l'Homme, le remplacement de C par U modifie la séquence de certains mRNA de l'apolipoprotéine B et provoque l'apparition d'un codon stop prématuré. De ce fait, la protéine synthétisée à partir des mRNA “modifiés” sera environ deux fois plus courte. Un même gène peut donc donner naissance à deux mRNA différents, traduits en apoB100 dans le foie ou en apoB48 dans l'intestin (Greeve et al [1993]). 5. TRANSPORT DU mRNA VERS LE CYTOPLASME Consécutivement à ces différentes étapes, le mRNA mature d'un eucaryote est composé de séquences exons et contient trois parties : 1. une région 5' ‘non traduite’ portant une coiffe, 2. une région ‘traduite’ débutant par un « codon d'initiation » de la traduction AUG et se terminant par un « codon stop », 3. une région 3' ‘non traduite’ se terminant par une queue poly A. Chez les eucaryotes, la transcription et la traduction se déroulent dans deux compartiments différents puisque la première a lieu dans le noyau et la seconde dans le cytoplasme. La continuité entre le noyau et le cytoplasme est assurée par les « pores nucléaires ». Les structures multi-protéiques de ces pores nucléaires, ancrées dans la membrane, se comportent comme des sites de transport actif permettant les échanges macromoléculaires entre le noyau et le cytoplasme. L’enveloppe nucléaire renferme l’ADN et défini le compartiment nucléaire. Elle est formée de 2 membranes concentriques qui se continuent avec le réticulum endoplasmique. Bien que la membrane interne et externe du noyau soit continue, les deux membranes ont une composition en protéines différentes. Le trafic bidirectionnel entre le cytoplasme et le noyau est incessant. La plupart des protéines qui ont une fonction dans le noyau (incluant les histones, les ADN et ARN polymérases, les protéines régulateurs de gènes, les protéines permettant les traitements de des RNA) sont sélectivement importées du cytosol où - 31 - elles ont été synthétisées vers l’intérieur du compartiment nucléaire. Dans le même temps, les tRNA et mRNA qui ont été synthétisés dans le noyau sont eux exportés vers le cytoplasme. Comme le processus d’importation, le processus d’exportation est sélectif : les mRNA, par exemple, sont exportés seulement après qu’ils aient été modifiés correctement. Les protéines fixées sur les mRNA au niveau du noyau ne sont pas toutes exportées vers le cytoplasme. Certaines sont strictement nucléaires et se détachent du mRNA avant le transit par les pores nucléaires et d’autres restent liées au mRNA et peuvent jouer un rôle important dans le transport vers le cytoplasme et l’initiation de la traduction. Dans certain cas, le processus de transport est complexe : les protéines ribosomales, par exemple, sont synthétisées dans le cytosol, importées dans le noyau (où elles sont assemblées en particules avec des rRNA nouvellement synthétisés) et ensuite réexportées vers le cytoplasme en tant que sous-unité ribosomale. Chacune de ces étapes implique un transport sélectif au travers de la membrane nucléaire. - 32 -