Université de Bourgogne Dijon M 1 Biochimie Année 2005 – 2006 TER STRATEGIE DE COEXPRESSION DE PROTEINES RECOMBINANTES Tuteur : Pr. Mustapha CHERKAOUI-MALKI Yannis DUFFOURD Anne-Claire GIRARD STRATEGIE DE COEXPRESSION DE PROTEINES RECOMBINANTES SOMMAIRE : INTRODUCTION………………………………………………………………………...3 I. INGENIERIE DES PROTEINES RECOMBINANTES……………………………..4 II. LA COEXPRESSION COMME STRATEGIE POUR AMELIORER LA PRODUCTION DE PROTEINES RECOMBINANTES CHEZ E. COLI………….7 III. AUTRES EXEMPLES DE COEXPRESSION……………………………………...10 CONCLUSION…………………………………………………………………………..10 BIBLIOGRAPHIE………………………………………………………………………12 STRATEGIE DE COEXPRESSION DE PROTEINES RECOMBINANTES INTRODUCTION : Les vingt dernières années ont vu de nombreux progrès dans la génomique et la protéomique. L’analyse des génomes et des protéomes, ainsi que de leurs interactions nécessite la production de matériels d’étude tels que des protéines. Les protéines sont de nos jours d’une importance fondamentale pour la recherche ainsi que pour le milieu industriel. C’est pourquoi notre intérêt s’est porté sur la production de protéines recombinantes. Une protéine recombinante est qualifiée ainsi dans la mesure où elle est produite de manière exogène dans une cellule dont l’ADN a été modifié par recombinaison génétique. Ce processus biotechnologique s’appuie sur : - l’emploi d’un vecteur transportant le gène d’intérêt codant pour la protéine recherchée. - L’utilisation d’une cellule hôte qui sera chargée de synthétiser la protéine via le gène inséré. - Des phases de production, de séparation et d’extraction de la protéine de la cellule hôte dans laquelle elle a été produite. Ce procédé biotechnologique permet de produire des molécules trop complexes à synthétiser chimiquement. Ainsi, l’enjeu économique de cette stratégie est énorme, notamment pour l’industrie pharmaceutique. Mais l’intérêt de cette synthèse est aussi valable pour le domaine de la recherche, où la production de protéines est un besoin fondamental pour leur étude, ainsi que pour la génétique. En premier lieu, nous décrirons d’une manière générale la production de ces protéines, ainsi que les problèmes rencontrés lors de leurs synthèses, en particulier ce qui concerne les problèmes d’agrégation ainsi que de dénaturation des molécules produites. Puis nous traiterons les solutions qui peuvent être apportées à ces soucis de production, avec une attention particulière sur la stratégie de coexpression de protéines telles que des chaperonnes. Nous terminerons cette étude par d’autres exemples de coexpression des protéines recombinantes, dans différents modèles d’hôte. IV. INGENIERIE DES PROTEINES RECOMBINANTES : La synthèse de protéines recombinantes requiert de nombreuses étapes. Il est tout d’abord nécessaire de choisir un hôte, chargé de produire les protéines désirées. Le choix est relativement vaste, cependant il semble plus facile de montrer la stratégie de production chez un hôte bien connu tel que Escherichia coli. Nous expliquerons donc le choix des hôtes ainsi que des conséquences qui en découlent. Prenons donc la stratégie de synthèse de protéine recombinante chez E. coli. Le choix d’un vecteur d’expression constitue l’étape suivante. Le gène d’intérêt va donc être cloné dans un vecteur plasmidique d’expression après avoir été amplifié par PCR. Le plasmide utilisé peut varier d’un modèle à l’autre, par exemple Jeong & Lee (1999) ont utilisé dans leurs travaux sur la production de leptine chez E. coli, le plasmide pET21c (figure 1). Celui-ci comporte donc des sites de clonage : ici BamHI et NdeI ; le gène est placé sous le contrôle d’un promoteur inductible, et le plasmide comprend aussi un gène de résistance permettant la future sélection des bactéries. Figure 1 : Plasmide utilisé pour la production de leptine par Jeong & Lee (1999). Après insertion du gène, le plasmide sera utilisé pour transformer la souche bactérienne E. coli. Les souches transformées seront sélectionnées grâce à la résistance introduite via le plasmide et pourront alors produire la protéine issue de la transcription puis de la traduction du gène d’intérêt (gène obese ici). Dans l’exemple cité ci-dessus, la protéine est produite dans une cellule procaryote : la bactérie E. coli. Le choix d’un hôte procaryote est déterminé par plusieurs critères, notamment la complexité de la protéine à produire. Souvent, l’absence de système de modification post-traductionnelle eucaryote (notamment la glycosylation) pose un sérieux problème quant à la production de protéines plus élaborées. Les procaryotes sont capables de synthétiser de ce fait des quantités très importantes de protéines, ce qui d’un point de vue industriel est très intéressant, d’autant que la culture de ces organismes est très peu coûteuse. Un autre inconvénient des procaryotes consiste en la récupération des protéines. En effet les protéines ont tendance à s’agréger lorsque celles-ci sont produites en grandes quantités, la formation de corps d’inclusion est alors souvent observée. Les cellules de levure sont également bon marché. Il existe chez cet hôte un système de glycosylation, mais incomplet par rapport aux eucaryotes. Les cellules d’insecte sont très utilisées, via le baculovirus comme vecteur d’expression, et permettent une maturation correcte des protéines recombinantes ainsi qu’un haut rendement, mais les conditions de culture sont bien différentes, nécessitant l’apport de sérum et coûtant très chères. Il est possible aussi d’utiliser une cellule d’eucaryote supérieure en prenant garde à la protéolyse, comme décrit par Hoffman et al. (1992) dans les réticulocytes de lapin. Ce système permet une production de protéines très élaborées, mais constitue une lenteur de production assez importante. La solution la plus simple consiste en fait à utiliser les cellules procaryotes, notamment E. coli. Il faut cependant prendre en compte tous les paramètres décrits précédemment concernant les problèmes de solubilisation et d’agrégation des protéines produites. La formation des corps d’inclusion reste un obstacle très important à la production de protéines recombinantes. Les corps d’inclusion, comme expliqué par Baneyx & Murajic (2004), sont formés lorsque la protéine ne parvient pas à atteindre sa conformation native, ou bien si elle n’est pas prise en charge par des chaperonnes, celle-ci a tendance à former ces corps d’inclusion, ou bien à être dégradée. Un second facteur contribuant à la formation d’agrégats ou de ces corps d’inclusion est le fait que la cellule procaryote est incapable d’effectuer les modifications post-traductionnelles que la protéine requiert pour atteindre sa conformation native. Par exemple, le potentiel réducteur du cytoplasme chez E. coli ne facilite pas la formation de ponts disulfure dont dépend en partie la structure tertiaire des protéines. Le cytoplasme ne contient pas de système propice à leur formation comme les protéines DsbA et DsbB. Dans le cas de protéines sécrétoires, les résidus cystéines impliqués dans la formation de ces ponts disulfure sont maintenus sous forme réduite durant leur transport par les thioredoxines cytoplasmiques vers le périplasme. Là, les polypeptides se replient dans leur forme native avec l’aide de foldases périplasmiques, les protéines Dsb (figure 2). DsbA catalyse la formation de ponts disulfure ; DsbC catalyse l’isomérisation en cas d’anomalie dans la formation de ponts disulfure. Liées à la membrane, les protéines DsbB et DsbD maintiennent respectivement DsbA et DsbC dans leur forme native. Figure 2 : Voie d'exportation et de repliement des protéines dans le périplasme. Les corps d’inclusion s’accumulent dans le cytoplasme ou le périplasme suivant où la protéine est synthétisée. Ils protègent les protéines contenues des dégradations éventuelles, ainsi on peut purifier ces protéines incorporées. Mais il faut dans ce cas resolubiliser la protéine en la dénaturant. Cela nécessite donc de renaturer la protéine par la suite. Malheureusement, les protéines recombinantes produites chez les procaryotes n’atteignent que peu souvent leur conformation native. Ce phénomène pouvant résulter d’une fin prématurée de la traduction, ou la perte d’une structure induite par un stress environnementale. L’une des solutions pour palier à cette situation a été développée naturellement par la cellule, cette solution consiste en la production de protéines chaperonnes. Ces protéines ont un rôle déterminant dans le repliement des protéines. Cette stratégie a été utilisée pour la coexpression de protéines recombinantes par Nishihara & al. (2000) avec la surexpression de facteur TF, comme nous l’expliquerons plus tard. Il est aussi possible d’utiliser des « tags » qui sont en fait des séquences d’acides aminés fusionnées permettant la purification ultérieure des protéines. L’ajout d’un motif d’acides aminés en N-terminal ou en C-terminal, constitué par exemple d’une série d’histidine, facilite la purification de la protéine tagguée. Les protéines possédant ce motif peuvent être alors purifiées par chromatographie à l’aide d’une résine sur laquelle auront été fixés des atomes de nickel ou de cobalt, qui ont une affinité naturelle pour l’histidine. La protéine sera retenue dans la colonne grâce à cette interaction, fournissant ainsi la purification voulue. Un des problèmes majeurs de la synthèse de protéine est la présence des protéases qui dégradent les protéines qui ne sont pas dans la bonne conformation. Ces protéases sont fortement exprimées lors de la lyse cellulaire, ce qui constitue un inconvénient majeur à la purification des protéines. Les protéines recombinantes peuvent aussi être synthétisées dans des compartiments différents du cytoplasme, comme le périplasme : cette voie a été décrite par Pan et al. (2003) dans leurs travaux sur l’expression de la pénicilline acylase dans le périplasme d’E. coli, ou le cytoplasme, comme il l’a été décrit par Xu et al.(2005) dans leurs travaux sur la pénicilline acylase exprimée cette fois dans le cytoplasme. Cet aspect de la synthèse de protéines a aussi été expliqué par S. Makrides (1996) dans ses travaux sur l’expression de gènes chez E. coli. L’export de protéines requiert des séquences d’adressage permettant leur orientation dans la cellule, ainsi que le passage des membranes par la machinerie Sec. On peut voir cette fonctionnalité sur la figure 2, d’après Baneyx & Mujacic (2004). Cette stratégie peut permettre la survie de la cellule, et ainsi éviter la lyse pour récupérer la protéine, diminuant ainsi le risque d’action des protéases. V. LA COEXPRESSION COMME STRATEGIE POUR AMELIORER LA PRODUCTION DE PROTEINES RECOMBINANTES CHEZ E. COLI : Plusieurs approches expérimentales ont été utilisées pour minimiser la formation de corps d’inclusion et améliorer le repliement des protéines sous forme native, incluant : la croissance de cultures bactériennes à plus basse température, la sélection de différentes souches d’E. coli, la coproduction de chaperonnes, ou de thioredoxine avec la protéine d’intérêt, le changement du milieu de culture par addition de sucres non métabolisables ou altération du pH, et l’utilisation de souches déficientes en thioredoxine réductase (Makrides, 1996). La stratégie de coexpression nous a particulièrement intéressé. L’absence de système de modification post-traductionnelle eucaryote chez E. coli, notamment la glycosylation, rend souvent impossible la maturation de protéine recombinante. Ceci peut être solutionné par la coexpression de protéine d’intérêt avec une protéine qui va permettre sa maturation correcte. Cette solution a été exploitée par Yue et al. (2000), dans le cas de la production de ASF/SF2. Pour être sous forme native, cette protéine nécessite une phosphorylation par une sérine/thréonine protéine kinase (SRPK1), étant absente chez la bactérie. L’expression simultanée des deux protéines a alors permis la production de ASF/SF2 fonctionnelle et soluble. De la même façon, les problèmes d’agrégation, dus aux mauvais repliements des protéines recombinantes (« misfolding »), peuvent être évités. La surexpression de protéine TF (« Trigger Factor ») peut en effet empêcher l’agrégation de protéines recombinantes quand elles sont coexprimées chez E. coli (Nishihara et al., 2000). In vivo, TF agirait comme un catalyseur pour leur bon repliement et aurait donc une activité de protéine chaperonne. Les trois protéines prédisposées à l’agrégation testées dans cette étude sont effectivement « sauvées » par la surexpression de TF, et particulièrement par la surexpression simultanée du complexe de protéines chaperonnes GroEL-GroES. Il est ainsi probable que le système de coexpression TF décrit par Nishihara et al. puisse être de grande utilité pour étudier et améliorer la production de nombreuses protéines recombinantes difficiles à obtenir dans leur forme native. Cependant, l’efficacité de TF peut dépendre de la protéine ciblée. Aussi, TF et GroEL-GroES agissent en synergie in vivo, il est donc possible d’obtenir de meilleurs rendements en surexprimant simultanément TF et GroEL-GroES. Dans la même étude, il a été démontré que TF et l’équipe de protéines chaperonnes DnaK-DnaJGrpE avaient des effets similaires dans le repliement protéique, empêchant l’agrégation d’endostatine de souris et de protéine ORP150 humaine (« human oxygen-regulated protein »). Ainsi, les effets de la coproduction de chaperonnes chez E. coli semblent être protéinespécifiques. La figure ci-après illustre de manière générale le rôle de ces protéines chaperonnes : Figure 3 : Chaperonnes permettant le repliement de protéines dans le cytoplasme de E. coli (Baneyx & Mujacic, 2004). Par ailleurs, rappelons que la structure tertiaire des protéines dépend en partie de la formation de ponts disulfure. Une étude aussi récente que la précédente a montré que la coexpression de protéines Dsb améliorait à la fois la croissance cellulaire et la production de protéine de raifort HRP (« Horseradish Peroxidase »), protéine utilisée comme modèle et contenant quatre ponts disulfure (Kondo et al., 2000). Cette protéine HRP fut choisie pour étudier les effets de la coexpression de diverses protéines accessoires précédemment décrites (cf. figure 2) sur la production de la protéine recombinante native ainsi que sur la croissance d’E. coli. Ainsi, la protéine HRP active fut produite après de très faibles inductions (IPTG 1 µM) et les quantités furent significativement augmentées par la coexpression de DsbA-DsbB (DsbAB) ou DsbC-DsbD (DsbCD). Pour finir, il n’est pas évident de déterminer quelle protéine doit être coexprimée avec la protéine d’intérêt pour augmenter l’efficacité de production de cette dernière. C’est ainsi que l’analyse de profil protéomique (Han et al., 2003) ou de profil transriptomique (Choi et al., 2003), chez la bactérie, peut être utilisée pour identifier le gène à coexprimer. VI. AUTRES EXEMPLES DE COEXPRESSION : La coexpression n’a pas pour seul but d’améliorer la production de protéines recombinantes. Elle est également utilisée dans différents systèmes (bactéries, levures, cellules d’insecte via un baculovirus, ou cellules de mammifère) afin d’étudier les relations entre protéines, la formation de complexes protéiques, etc. Par exemple, la reconstitution par Harris et al. (1997) du complexe pyruvate déshydrogénase (« PDC ») à partir de protéines recombinantes coexprimées (E3BP et E2) a facilité les études de la protéine X (renommée E3BP pour « dihydrolipoamide dehydrogenasebinding protein). De même, en coexprimant le récepteur nucléaire RXR avec ses différents domaines de liaison au ligand, Li et al. (1997) ont suggéré que la coexpression représentait une stratégie générale pour l’analyse biophysique et structurale de complexes de récepteurs. Curcio-Morelli et al., (2003) testèrent dans des cellules rénales embryonnaires humaines une stratégie incluant la coexpression transitoire de deiodinases (type sauvage) et de mutants alanine ou cystéine (avec FLAG-Tag pour révéler par immunoprécipitation). Ceci avait finalement pour but l’étude de dimérisation et de l’activité catalytique. Enfin, une technique intéressante utilisée par Wang & Chong (2002) consiste à coexprimer avec la GFP (« Green Fluorescent Protein ») afin d’identifier de nouvelles interactions protéine-protéine, notamment les interactions entre les protéines favorisant la solubilisation des protéines recombinantes prédisposées à l’agrégation. Hu et al. (2006) ont également utilisé la GFP en coexpression avec l’hémagglutinine HA du virus de la grippe aviaire H5N2 afin d’identifier le baculovirus recombinant dans les cellules d’insectes. Evidemment, il existe de nombreuses autres applications. Il n’est toutefois pas possible de toutes les décrire. CONCLUSION : La coexpression est de plus en plus utilisée, tant pour améliorer la production de protéines recombinantes que pour étudier les interactions protéine-protéine. Nous avons privilégié le système hôte bactérien, notamment Escherichia coli. La facilité d’utilisation, de culture et l’étendue des connaissances de cet organisme, sans négliger l’aspect économique en font le système le plus exploité par les laboratoires. Cependant, certains inconvénients apparaissent : des protéines recombinantes de type eucaryote ont la plupart du temps besoin d’être maturées, de subir des modifications post-traductionnelles, souvent impossible dans un tel système. Pouvant aussi se présenter sous forme de corps d’inclusion ou d’agrégats insolubles, la récupération de la protéine peut s’avérer aléatoire. Certaines stratégies ont été mises en place pour y remédier, notamment la coexpression de protéines recombinantes, consistant à faire synthétiser par le système à la fois la protéine d’intérêt et une protéine permettant sa maturation (comme la protéine kinase SRPK1) ou son repliement correct (protéine chaperonne par exemple). Des progrès dans l’étude des relations structure-fonction de modulateurs (chaperonnes, protéines Dsb), impliqués dans le repliement des protéines, permettront d’optimiser d’avantage la production de protéines recombinantes chez les bactéries. A cela s’ajoutent les problèmes de purification des protéines cibles à partir du pool de protéines intracellulaires. L’idéal serait finalement de faire sécréter les protéines recombinantes pour les récupérer directement dans le milieu de culture. Certaines techniques le permettent, basées sur l’utilisation de peptide signal, de protéines de fusion, et d’agents perméabilisant la membrane externe. Il ne s’agit cependant que d’un début et il est nécessaire de comprendre avant tout les voies de sécrétion chez la bactérie. Il ne faut pas pour autant négliger les autres types de cellules hôtes telles que : les levures, les cellules d’insecte, les cellules de mammifère, ou même les plantes transgéniques. Ces dernières ne constituent encore qu’un modèle de laboratoire, contrairement aux levures et cellules animales. Les levures présentent l’avantage de permettre certaines modifications posttraductionnelles, mais pas toutes. Les cellules d’insecte sont très utilisées, permettant une maturation correcte et un haut rendement, mais les conditions de culture sont coûteuses. Enfin, les cellules de mammifères permettent l’expression de protéines complexes d’eucaryotes supérieurs, et on connaît assez bien les vecteurs (viraux, plasmidiques), mais ce type de système nécessite beaucoup de temps pour produire des quantités importantes. En conclusion, la stratégie de coexpression se révèle très intéressante, à la fois pour augmenter l’efficacité d’expression de protéines recombinantes, mais aussi pour étudier des interactions entre protéines, leurs caractéristiques, les relations structure-fonction. Cette approche permettrait la bioproduction en grande quantité de protéines à usage pharmaceutique. D’autres systèmes de production prometteurs sont en cours de développement, ceux-ci pourraient permettre d'accéder à des protéines plus élaborées et plus faciles à extraire. BIBLIOGRAPHIE : 1. Jeong, KJ. & Lee, SY. High-level production of human leptin by fed-batch cultivation of recombinant Escherichia coli and its Purification. Applied and Environmental Microbiology 65, 3027-3032 (1999). 2. Hoffman, L., Pratt, G. & Rechsteiner, M. Multiple forms of the 20 S multicatalytic and the 26 S Ubiquitin / ATP-dependent proteases from rabbit reticulocyte lysate. The Journal of Biological Chemistry 267, 22362-22368 (1992). 3. Baneyx, F. & Mujacic, M. Recombinant protein folding and misfolding in Escherichia coli. Nature Biotechnology 22, 1399-1408 (2004). 4. Nishihara, K., Kanemori, M., Yanagi, H. & Yura, T. Overexpression of trigger factor prevents aggregation of recombinant proteins in Escherichia coli. Applied and Environmental Microbiology 66, 884-889 (2000). 5. Pan, KL., Hsiao, HC., Weng, CL., Wu, MS & Chou, C. P. Roles of DegP in Prevention of Protein Misfolding in the Periplasm upon Overexpression of Penicillin Acylase in Escherichia coli. Journal of Bacteriology 185, 3020-3030 (2003). 6. Xu, Y., Weng, C. L., Narayanan, N., Hsieh, MY., Anderson, W. A., Scharer, J. M., Moo-Young, M. & Chou, C. P. Chaperone-Mediated Folding and Maturation of the Penicillin Acylase Precursor in the Cytoplasm of Escherichia coli. Applied and Environmental Microbiology 71, 6247-6253 (2005). 7. Makrides, S. C. Strategies for achieving high-level expression of genes in Escherichia coli. Microbiological Reviews 60, 512-538 (1996). 8. Yue, BG., Ajuh, P., Akusjärvi, G., Lamond, A. I. & Kreivi, JP. Functional coexpression of serine protein kinase SRPK1 and its substrate ASF/SF2 in Escherichia coli. Nucleic Acids Research 28, (2000). 9. Kondo, A., Kohda, J., Endo, Y., Shiromizu, T., Kurokawa, Y., Nishihara, K., Yanagi, H., Yura, T., Fukuda, H. Improvement of productivity of active horseradish peroxidase in Escherichia coli by coexpression of Dsb proteins. Journal of bioscience and bioengineering 90, 600-606 (2000). 10. Han, M.J., Jeong, K.J., Yoo, J.S., Lee, S.Y. Engineering Escherichia coli for increased productivity of serine-rich proteins based on proteome profiling. Applied and Environmental Microbiology 69, 5772-5781 (2003). 11. Choi, J.H., Lee, S.J., Lee, S.J., Lee, S.Y. Enhanced production of insulin-like growth factor I fusion protein in Escherichia coli by coexpression of the down-regulated genes identified by transcriptome profiling. Applied and Environmental Microbiology 69, 4737-4742 (2003). 12. Harris, R. A., Bowler-Kinley, M. M., Wu, P., Jeng, J. & Popov, K. M. Dihydrolipoamide dehydrogenase-binding protein of the human pyruvate dehydrogenase complex. The Journal of Biological Chemistry 272, 19746-19751 (1997). 13. Li, C., Schwabe, J.W.R., Banayo, E., Evans, R.M. Coexpression of nuclear receptor partners increases their solubility and biological activities. Biochemistry 94, 22782283 (1997). 14. Curcio-Morelli, C., Gereben, B., Zavacki, A.M., Kim, B.W., Huang, S., Harney, J.W., Larsen, P.R., Bianco, A.C. In vivo dimerization of types 1, 2 and 3 iodothyronine selenodeiodinases. Endocrinology 144, 937-946 (2003). 15. Wang, H., Chong, S. Visualization of coupled protein folding and binding in bacteria and purification of the heterodimeric complex. PNAS 100, 478-483 (2003). 16. Hu, Y.C., Luo, Y.L., Ji, W.T., Chulu, J.L., Chang, P.C., Shieh, H., Wang, C.Y., Liu, H.J. Dual expression of the HA protein of H5N2 avian influenza virus in a baculovirus system. Journal of virological methods 23 (2006).