éditorial Virologie 2013, 17 (6) : 383-6 Redondance fonctionnelle cachée de deux structures d’ARN viral non similaires révélées grâce à la bioinformatique Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 25/05/2017. Bruno Blondel Florence Colbère-Garapin Francis Delpeyroux doi:10.1684/vir.2013.0537 Institut Pasteur, Inserm U994, biologie des virus entériques, 28, rue du Docteur-Roux, 75724 Paris cedex 15, France <[email protected]> Tirés à part : B. Blondel Virologie, Vol 17, n◦ 6, novembre-décembre 2013 L es éléments de séquences agissant en cis dans le génome des virus à ARN jouent un rôle-clé au cours du cycle viral [1]. La fonctionnalité de ces éléments dépend principalement pour certains de leur séquence, et pour d’autres, de leur structure. Jusqu’à présent, les méthodes bioinformatiques ont permis de prédire la présence de séquences ou de structures importantes, parce que phylogénétiquement conservées ou favorisées d’un point de vue thermodynamique. Afin de découvrir de nouvelles séquences fonctionnelles dans le génome du poliovirus, Song et al. [2] dans le laboratoire d’Eckard Wimmer (Stony Brook, États-Unis) ont développé une élégante stratégie basée sur l’utilisation d’un logiciel bioinformatique permettant de programmer la synthèse chimique de génomes viraux infectieux dont la séquence nucléotidique est modifiée, tout en respectant la séquence des protéines codées, la fréquence des codons synonymes, et celle des paires de codons adjacents, qui sont propres à une espèce. Ce groupe avait montré précédemment qu’un poliovirus infectieux pouvait être reconstitué in vitro après transcription d’un ADN génomique complémentaire synthétisé chimiquement en absence de matrice et transfection de l’ARN correspondant dans des cellules [3]. Grâce à leur approche bioinformatique, Song et al. [2] ont identifié deux séquences fonctionnellement redondantes dans la séquence codante du génome du poliovirus, l’une de ces séquences au moins étant nécessaire à la réplication de l’ARN viral. Le poliovirus est l’agent responsable de la poliomyélite paralytique aiguë [4]. Il appartient au genre Enterovirus (entérovirus humain de l’espèce C) et à la famille des Picornaviridae. Cette famille représente l’un des plus grands groupes de pathogènes humains et animaux. Elle comprend notamment les rhinovirus humains (agents infectieux responsables du rhume) récemment reclassés dans le genre Enterovirus, le virus humain de l’hépatite A et le virus de la fièvre aphteuse. Le poliovirus possède une capside de symétrie icosaédrique non enveloppée d’environ 30 nm de diamètre, constituée de 60 copies de chacune des quatre protéines structurales VP1, VP2, VP3 et VP4. Son génome est une molécule d’ARN monocaténaire de polarité positive, d’environ 7 500 nucléotides (nt), poly-adénylée à l’extrémité 3 et dont l’extrémité 5 est liée de façon covalente à une petite protéine virale (VPg) (figure 1). Cette molécule d’ARN comprend une unique longue phase de lecture ouverte, codant les protéines de capside (région P1) et les protéines non structurales (régions P2 et P3), encadrée par deux régions non codantes (RNCs) en 5 et en 3 . Suite à l’interaction du poliovirus avec son récepteur CD155, le génome viral est libéré dans le cytoplasme de la cellule infectée et la traduction débute par la fixation de la sous-unité 40S du ribosome au niveau d’un segment hautement structuré, nommé IRES (internal ribosome entry site), localisé dans la RNC 5 . Le génome du poliovirus est traduit en une seule polyprotéine dont les clivages protéolytiques successifs produisent les différentes protéines de capside et les protéines non structurales impliquées notamment dans la réplication du génome viral et les clivages de la polyprotéine. 383 Pour citer cet article : Blondel B, Colbère-Garapin F, Delpeyroux F. Redondance fonctionnelle cachée de deux structures d’ARN viral non similaires révélées grâce à la bioinformatique. Virologie 2013; 17(6) : 383-6 doi:10.1684/vir.2013.0537 éditorial Organisation du génome du poliovirus Protéines non structurales Protéines de capside P2 P1 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 25/05/2017. 743 P3 3386 5111 7369 7441 VP4 VPg cre VP2 RNC 5´ VP3 VP1 2A 2B 3B (VPg) 2C 3A 3´ 3C 3D pol A poly A A A (n) Fragment A 3386 IRES RNC 3´ cre 5599 IV Fragment B Feuille de trèfle V I II III 5´ VPg α Condon d´initiation AUG RNC 5´ 7369 5606 VI β 3´ 743 6995 7069 Élément α 7220 7294 Élément β Figure 1. Localisation et prédiction de la structure des éléments fonctionnellement redondants ␣ et  dans la séquence codante du génome du poliovirus (adaptée d’après Song et al. [2]). L’organisation du génome du poliovirus de type 1 est représentée. Deux régions non codantes (RNC) en 5 et 3 encadrent une unique longue phase ouverte de lecture qui code pour une polyprotéine dont les clivages protéolytiques successifs, assurés par les protéases virales 2A, 3C et 3CD, génèrent l’ensemble des protéines virales. La région P1 code les protéines de capside et les régions P2 et P3 codent les protéines non structurales impliquées notamment dans les clivages protéolytiques et la réplication du génome viral. Les positions des nucléotides (nt) délimitant les régions P1, P2 et P3 et les fragments A et B (voir texte) sont indiquées. La protéine virale VPg (3B) est liée à l’extrémité 5 -terminale du génome par une liaison covalente. L’extrémité 3 -terminale possède une queue de poly-A. Les séquences codant les protéines virales et les éléments ␣ et  sont indiquées ici. Un agrandissement de la RNC 5 montre six structures secondaires en tige-boucle notées I à VI. La structure I en feuille de trèfle correspond au site d’initiation de la réplication du génome et les structures II à VI comprennent le site d’initiation interne de la traduction (IRES), en amont du codon initiateur (AUG). La structure de l’élément « cre » dans la région codant la protéine 2C et les deux structures en épingle à cheveux de la RNC 3 impliquées dans la réplication du génome viral sont représentées. La structure secondaire théorique des éléments ␣ et  jouant un rôle redondant dans la réplication du génome du poliovirus, est présentée. Les domaines actifs identifiés dans les éléments ␣ et  (48 et 37 nt respectivement) sont indiqués en trait gras. 384 Virologie, Vol 17, n◦ 6, novembre-décembre 2013 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 25/05/2017. éditorial La réplication du génome du poliovirus est assurée par l’ARN polymérase virale ARN-dépendante 3D (3Dpol) en association avec la plupart des protéines non structurales et plusieurs facteurs cellulaires. Dans une première étape, le génome viral sert de matrice pour la synthèse d’une molécule d’ARN de polarité complémentaire (négative) et dans un second temps, le brin négatif néosynthétisé sert lui-même de matrice pour la synthèse de nombreuses molécules d’ARN de polarité génomique (positive). Les RNCs du génome du poliovirus jouent un rôle important dans l’initiation de la synthèse des brins de polarités positive et négative : la RNC 3 possède deux structures en épingle à cheveux et le poly(A) impliqués principalement dans la synthèse des brins négatifs et la RNC 5 comprend en amont de l’IRES, une structure en feuille de trèfle suivie d’une séquence riche en C, impliquée dans la synthèse des brins positifs (figure 1). De plus, un élément nécessaire en cis à la réplication (« cre », cis replication element) a été découvert, par des analyses phylogénétiques et des méthodes bioinformatiques, dans la région codant la protéine non structurale 2C de la région P2 [5]. Cet élément, nommé cre(2C), correspond à une petite épingle à cheveux qui sert de matrice pour l’uridylylation de la protéine terminale VPg par l’ARN polymérase 3Dpol. Des séquences « cre » ont été retrouvées dans tous les génomes des picornavirus, souvent dans des endroits différents [1]. La nature dégénérée du code génétique permet d’avoir un très grand nombre de séquences codantes pour une même séquence polypeptidique. Cette très grande diversité est cependant limitée dans les gènes naturels par deux biais : la fréquence d’usage, pour un même acide aminé, des codons synonymes et la fréquence d’usage des paires de codons adjacents. En effet, les fréquences d’utilisation des codons synonymes pour chaque acide aminé varient considérablement entre les espèces et, éventuellement, même entre les différents tissus de la même espèce. Par exemple, chez l’homme, le codon GCC de l’alanine est utilisé quatre fois plus fréquemment que le codon synonyme GCG. De même, mais de manière indépendante, certaines paires de codons synonymes adjacents sont utilisées plus ou moins fréquemment par rapport à l’estimation tenant uniquement compte du biais d’usage de chacun des codons pris séparément. Il y a quelques années, Mueller et al. [6] et Coleman et al. [7] ont montré que le recodage du génome du poliovirus en utilisant des codons rares ou des paires de codons synonymes adjacents peu fréquentes, tout en conservant les séquences protéiques codées, réduisait l’efficacité de la traduction du génome et atténuait le phénotype neurovirulent du virus dans un modèle de souris exprimant le récepteur humain du poliovirus. Burns et al. [8] ont obtenu concomitamment des résultats similaires. Dans le but d’identifier de nouvelles séquences ou structures fonctionnelles dans le génome du poliovirus, Song Virologie, Vol 17, n◦ 6, novembre-décembre 2013 et al. [2], les auteurs de l’article que nous mettons ici en perspective, ont utilisé un programme bioinformatique appelé « scrambled design » (SD). Ce programme introduit dans une séquence codante, le maximum de substitutions nucléotidiques tout en respectant la séquence des acides aminés codés ainsi que, dans la mesure du possible, la fréquence de l’usage des codons synonymes, et celle des paires de codons adjacents. Le SD permet de muter la majorité des signaux dépassant 3 ou 4 nt. Song et al. [2] ont tout d’abord confirmé que les substitutions nucléotidiques par SD effectuées dans la région P1, codant les protéines de capside du poliovirus, n’affectent pas (ou très peu) la réplication virale [6, 7]. Ils ont ensuite modifié les régions P2 et P3 par SD. Ces régions ont été découpées en deux fragments (figure 1) recouvrant, d’une part, la région P2 et l’extrémité 5 de la P3 (fragment A) et, d’autre part, le reste de la P3 codant notamment la 3Dpol (fragment B). Les fragments programmés par SD ont été synthétisés chimiquement et utilisés pour remplacer les séquences sauvages homologues. Les ARN transcrits in vitro à partir de ces variants ont été transfectés dans des cellules permissives. Le virus ayant le fragment A modifié par SD s’est avéré non viable. Ce résultat était attendu car cette région contient l’élément cre(2C) (figure 1) impliqué dans la réplication de l’ARN viral (voir ci-dessus). Cette expérience a donc servi de contrôle d’efficacité de la stratégie SD. La réinsertion d’un élément cre(2C) fonctionnel a permis de récupérer un virus viable, démontrant que cet élément est le seul élément essentiel pour la réplication dans cette région du génome viral. Lorsque le fragment B a été modifié par SD, le virus correspondant s’est aussi avéré non viable, suggérant que ce fragment comporte au moins un élément d’ARN fonctionnel qui n’avait pas été mis en évidence jusqu’à présent. Pour préciser la localisation de cet (ou ces) élément(s), les auteurs ont divisé le fragment B en plusieurs segments et construit une série de virus synthétiques, avec différentes combinaisons dans lesquelles chaque segment était soit de génotype SD soit de génotype sauvage. Les tests de viabilité de ces virus ont tout d’abord suggéré que l’inactivation de plus d’un segment est requise pour causer le défaut de réplication mis en évidence avec les modifications par SD du fragment B complet. La réduction progressive de la taille des segments SD a ensuite permis l’identification de deux éléments de 75 nt de long, nommés ␣ et , séparés par 150 nt dans la séquence codant la polymérase virale 3Dpol (figure 1). Les cellules infectées avec le virus possédant les deux éléments ␣ et  de type SD ne présentent un effet cytopathogène qu’après deux passages « en aveugle ». De plus, ce virus forme des plages de lyse minuscules alors que ceux ne possédant qu’un seul de ces éléments (␣ ou ) de type SD se répliquent comme le virus non muté. Ce 385 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 25/05/2017. éditorial résultat indique que les éléments ␣ et  ont des fonctions similaires. Song et al. [2] ont montré que les éléments ␣ et  sous forme SD n’affectent ni la traduction ni la maturation protéolytique de la polyprotéine. En revanche, un réplicon exprimant la luciférase à la place des protéines de capside et possédant les deux séquences ␣ et  de type SD est pratiquement incapable de se répliquer, ce qui indique que ces éléments jouent un rôle lors de la réplication virale. De façon surprenante, ces éléments fonctionnellement redondants ne se ressemblent ni par leur séquence ni par leur structure (figure 1). En effet, en utilisant un programme de prédiction des structures secondaires de molécules d’ARN à simple brin (programme MFold), les auteurs ont montré que l’élément ␣ de type sauvage forme une structure instable, alors que l’élément  forme une structure en « épingle à cheveux » stable, entourée de séquences non structurées. Les auteurs ont ensuite localisé les domaines actifs de ces éléments (figure 1). Au sein de l’élément ␣, se trouve une séquence de 48 nt, bien conservée chez les entérovirus humains de l’espèce C. D’après l’étude fonctionnelle, ces 48 nt sont d’une importance primordiale pour la réplication. Il est possible que cette séquence soit également importante pour d’autres entérovirus que ceux de l’espèce C, même si sa localisation est variable selon les virus, comme c’est le cas pour l’élément « cre » [1]. Des études complémentaires seront nécessaires pour tester cette hypothèse. Une épingle à cheveux de 37 nt au sein de l’élément , est conservée quant à elle dans tout le genre Enterovirus. La mutagenèse de cette structure a confirmé son importance fonctionnelle. Ces résultats, ainsi que le biais de la fréquence d’usage des codons mentionnés plus haut, permettent de mieux comprendre pourquoi des mutations silencieuses dans la région codante du poliovirus peuvent être sélectionnées de manière répétée [9]. Grâce à la méthode bioinformatique SD, Song et al. [2] ont ainsi pu mettre en évidence et caractériser deux éléments fonctionnels (␣ et ) qui jouent des rôles redondants dans la réplication du génome du poliovirus. Des éléments fonctionnels ont été mis en évidence précédemment dans la région codant la polymérase de virus à ARN positif, par exemple dans celle (NS5B) du virus de l’hépatite C où deux éléments ont été découverts [10, 11]. Cependant, ces éléments ont des fonctions distinctes. Bien que le rôle exact des éléments ␣ et  dans la réplication virale du poliovirus reste à étudier, c’est la première fois que de tels éléments, différents par leur séquence et leur structure, mais redondants par leur fonction, sont mis en évidence dans le génome d’un virus à ARN de polarité positive. Song et al. [2] font l’hypothèse qu’une protéine virale ou cellulaire pourrait se lier à chacun des deux éléments, et que l’interaction avec un seul d’entre eux serait suffisante pour permettre la réplication. 386 Ce travail montre l’importance des méthodes bioinformatiques qui offrent notamment l’avantage, par rapport aux techniques classiques de mutagenèse, d’obtenir un degré élevé de modifications génomiques dans des régions ciblées tout en respectant un ensemble de règles complexes liées aux mécanismes de traduction. Comme cela est illustré ici, ces méthodes permettent l’identification d’éléments structuraux fonctionnels localisés dans les phases ouvertes de lecture des génomes des virus à ARN. Elles pourraient également, comme évoqué plus haut, permettre d’envisager de renforcer la sécurité de certains vaccins vivants atténués en rendant quasi-impossible leur réversion vers un phénotype neurovirulent. Remerciements. Nous remercions vivement Laurent Blondel pour son aide précieuse dans la réalisation de la figure qui illustre cet éditorial. Liens d’intérêts : les auteurs déclarent n’avoir aucun lien d’intérêt en rapport avec l’article. Références 1. Liu Y, Wimmer E, Paul AV. Cis-acting RNA elements in human and animal plus-strand RNA viruses. Biochim Biophys Acta 2009 ; 1789 : 495517. 2. Song Y, Liu Y, Ward CB, et al. Identification of two functionally redundant RNA elements in the coding sequence of poliovirus using computer-generated design. Proc Natl Acad Sci U S A 2012 ; 109 : 14301-7. 3. Cello J, Paul AV, Wimmer E. Chemical synthesis of poliovirus cDNA: generation of infectious virus in the absence of natural template. Science 2002 ; 297 : 1016-8. 4. Blondel B, Autret A, Brisac C, et al. [Genetic evolution of poliovirus: success and difficulties in the eradication of paralytic poliomyelitis]. Med Trop 2008 ; 68 : 189-202. 5. Goodfellow I, Chaudhry Y, Richardson A, et al. Identification of a cis-acting replication element within the poliovirus coding region. J Virol 2000 ; 74 : 4590-600. 6. Mueller S, Papamichail D, Coleman JR, Skiena S, Wimmer E. Reduction of the rate of poliovirus protein synthesis through large-scale codon deoptimization causes attenuation of viral virulence by lowering specific infectivity. J Virol 2006 ; 80 : 9687-96. 7. Coleman JR, Papamichail D, Skiena S, Futcher B, Wimmer E, Mueller S. Virus attenuation by genome-scale changes in codon pair bias. Science 2008 ; 320 : 1784-7. 8. Burns CC, Shaw J, Campagnoli R, et al. Modulation of poliovirus replicative fitness in HeLa cells by deoptimization of synonymous codon usage in the capsid region. J Virol 2006 ; 80 : 3259-72. 9. Borzakian S, Pelletier I, Calvez V, Colbère-Garapin F. Precise missense and silent point mutations are fixed in the genomes of poliovirus mutants from persistently infected cells. J Virol 1993 ; 67 : 2914-7. 10. Friebe P, Boudet J, Simorre JP, Bartenschlager R. Kissing-loop interaction in the 3 end of the hepatitis C virus genome essential for RNA replication. J Virol 2005 ; 79 : 380-92. 11. Lee H, Shin H, Wimmer E, Paul AV. cis-acting RNA signals in the NS5B C-terminal coding sequence of the hepatitis C virus genome. J Virol 2004 ; 78 : 10865-77. Virologie, Vol 17, n◦ 6, novembre-décembre 2013