Dossier Génome La protéomique : une nouvelle approche analytique de l’étude des protéines N. de Roux* points FORTS ▲ Le protéome définit la population protéique dans un tissu ou une cellule à un moment donné. La protéomique regroupe l’ensemble des technologies permettant l’étude qualitative et quantitative de cette population protéique. ▲ Les protéines sont des chaînes polypeptidiques dont l’ordre est défini par les séquences codantes de l’ADN. La diversité du protéome est bien supérieure à la diversité prévue par le génome. L’étude de l’ADN et du transcriptome ne suffit donc pas à la compréhension des mécanismes moléculaires physiologiques ou physiopathologiques. ▲ La spectrométrie de masse est une méthodologie analytique connue depuis longtemps par les chimistes, et récemment adaptée à l’analyse des protéines. Cette approche est très puissante car elle détermine avec précision la masse moléculaire d’un peptide, ce qui permet son identification. ▲ La complexité protéique des échantillons biologiques bruts est le problème majeur de l’analyse par spectrométrie de masse. Plusieurs techniques de fragmentation ont été proposées. L’électrophorèse 2D et la chromatographie liquide sont les deux techniques les plus utilisées actuellement. ▲ La spectrométrie de masse permet également l’étude des modifications post-traductionnelles des protéines. Ce point est crucial car les interactions protéiques ou les activités enzymatiques dépendent fréquemment de ces modification qualitatives. ▲ L’apport de l’analyse du protéome en cancérologie et de la spectrométrie de masse pour le diagnostic des erreurs du métabolisme est déjà évident. On devrait assister dans un avenir proche au développement de la protéomique dans d’autres spécialités telle que l’endocrinologie. L e séquençage du génome humain a soulevé de nombreux espoirs grâce à l’énorme effort consenti par plusieurs laboratoires de recherche à travers le monde. Un formidable outil est maintenant disponible directement par l’intermédiaire d’Internet et en libre * INSERM U584, faculté de médecine Neckerenfants malades, Paris. 72 accès. Cet effort continue d’ailleurs pour d’autres espèces de mammifères comme la souris. Plusieurs conséquences découlent directement de ce travail dont l’accélération de la découverte de nouveaux gènes responsables de pathologies rares est un exemple. On n’a plus besoin de rassembler un nombre important de familles informatives pour caractériser un gène par génétique inverse, la marche sur le chromosome qui Métabolismes Hormones Diabètes et Nutrition (VII), no 2, mars/avril 2003 prenait plusieurs mois, voire des années, n’est plus nécessaire puisque les gènes et les marqueurs sont ordonnés sur chaque chromosome. Le clonage in silico de nouveaux gènes est devenu possible. Plusieurs exemples ont récemment démontré la puissance de ces approches en endocrinologie. De plus, le séquençage du génome humain a montré que le nombre de gènes maintenant évalué à 30 000 environ est plus faible que les prévisions généralement admises autour de 100 000. L’homologie de structure entre les génomes, notamment les séquences codantes entre les différentes espèces de mammifères, est très importante. La diversité observée entre les espèces ne dépend donc pas uniquement de la structure du génome. Afin de mieux comprendre les mécanismes de cette diversité, plusieurs approches sont utilisées (figure 1). L’étude du transcriptome consiste à étudier l’expression des gènes, à un instant donné, au sein d’un tissu ou de cellules. L’idée étant que le profil de l’expression de plusieurs dizaines de gènes est la signature physiologique de la cellule à cet instant précis. Néanmoins, il est rapidement apparu que l’analyse du transcriptome n’était pas suffisamment informative et qu’il fallait également étudier l’expression des protéines, leurs modifications post-traductionnelles, ainsi que les interactions protéine-protéine. Il devenait alors indispensable de définir une nouvelle approche méthodologique centrée sur la biochimie des protéines : la protéomique. La protéomique cherche à répondre à trois questions fondamentales : quelles sont les protéines exprimées dans une cellule ou un tissu (pro- Génomique ADN – Séquences nucléotidiques – Modifications épigénétiques Transcriptome ARNm – Quantification – RNA editing Protéome Protéines – Expression des protéines – Modifications post-traductionnelles – Interactions protéine-protéine Réseau protéique puis cet ARN subit une maturation, également dans le noyau, consistant à conserver uniquement les exons et à éliminer les introns. Le produit est appelé ARN messager (ARNm). L’ARNm est exporté dans le cytoplasme où la polymérisation des acides aminés en chaîne polypeptidique a lieu au niveau des ribosomes qui sont composés d’ARN et de protéines. À partir de cette étape, deux voies de synthèse sont possibles selon la destinée des protéines. Les protéines secrétées ou destinées à la membrane plasmique, aux lysosomes ou aux structures cellulaires composant cette voie de synthèse, pénètrent dans le recticulum endoplasmique (REG). Le signal dirigeant la protéine vers cette voie de sécrétion est une séquence peptidique connue sous le nom de signal peptide. Dans le REG, les protéines subissent une Fonction biologique – Complexes multiprotéiques – Complexes multienzymatiques Figure 1. Les différentes étapes de l’étude du gène à la fonction biologique. téome) ? Quelles sont les modifications post-traductionnelles portées pas les protéines ? Quelles sont les interactions physiques ou fonctionnelles survenant entre ces protéines ? Pour répondre à ces questions, un effort très important a été réalisé ces dernières années dans le développement de technologies innovantes et complémentaires, dont la spectrométrie de masse est certainement l’exemple le plus frappant. Un bref rappel sur la synthèse des protéines est présenté dans la première partie de cet article. Les principales approches méthodologiques actuellement disponibles dans l’étude du protéome sont décrites dans la deuxième partie. Finalement, un bref aperçu des répercussions déjà perceptibles en biologie clinique est abordé dans la dernière partie. Elles participent notamment à la maturation des ARN. Les séquences non transcrites en ARN servent à la régulation de l’expression des gènes. Elles sont situées majoritairement en amont du premier exon. Elles font partie du gène, bien qu’il soit souvent difficile de les délimiter précisément. Les exons et les introns sont transcrits en ARN dans le noyau, Exon 1 Exon 2 Exon 3 ADN Intron 1 Intron 2 ARN La synthèse des protéines Les différentes étapes de la synthèse des protéines sont maintenant bien connues (figure 2). Le point de départ est le gène et le produit final est une chaîne polypeptidique composée d’acides aminés dont la séquence protéique dépend directement de la séquence nucléotidique. Les gènes sont organisés en exons comprenant l’information indispensable à la synthèse du polypeptide et en séquences non traduites en acides aminés. Deux types de séquences non traduites sont décrites. Les séquences d’ADN transcrites en ARN, mais non traduites forment les introns. Dossier Génome ADN Complexe de transcription ARNm Reticulum endoplasmique Appareil de Golgi Protéines sécrétées Transmembrane Membrane associée Figure 2. Biosynthèse des protéines. Métabolismes Hormones Diabètes et Nutrition (VII), no 2, mars/avril 2003 73 Dossier Génome 74 première glycosylation et la structure tridimentionnelle est organisée grâce à la formation de ponts disulfures entre cystéines. Puis les protéines sont transférées dans l’appareil de Golgi. Trois compartiments différents composent l’appareil de Golgi, dont la fonction principale est la glycosylation des glycoprotéines mais, également, l’ajout de lipides permettant l’ancrage des protéines dans la membrane plasmique. La maturation protéolytique de certaines protéines par les proconvertases (furin) a aussi lieu dans l’appareil de Golgi. Finalement, les protéines sont dirigées dans des vésicules de sécrétion d’où elles sont expulsées grâce à la fusion des vésicules de sécrétion avec la membrane plasmique. Les protéines destinées à la cellule ne contiennent pas de signal peptide et ne pénètrent pas dans le REG. Après synthèse dans des ribosomes libres, ces protéines peuvent également subir des maturations posttraductionnelles, mais elles ne sont pas glycosylées. Différents signaux protéiques dirigent ces protéines vers un compartiment cellulaire spécifique tel que le cytoplasme, le noyau, les mitochondries, etc. Toutes les étapes de la synthèse des protéines sont régulées par des mécanismes biochimiques complexes. La diversité protéique est due à la diversité génétique mais aussi à différents mécanismes moléculaires qui permettent d’obtenir plusieurs chaînes polypeptides à partir d’un même gène. L’utilisation de promoteurs alternatifs ou l’épissage alternatif des ARNm sont des exemples de mécanismes responsables de cette diversité. Le vieil adage affirmant qu’il suffit de déterminer la séquence exonique (ADN) pour connaître la séquence protéique vient d’être remis en cause avec la description d’un processus complexe de maturation des ARNs appelée RNA editing concernant notamment certains récepteurs de la sérotonine. Le RNA editing modifie la séquence nucléotique de l’ARN, ce qui une entraîne une modification de l’enchaînement était difficile à maîtriser, peu reproductible, et elle ne déterminait pas la nature exacte des protéines étudiées. Le développement de spectromètres de masse adaptés à l’analyse de peptides a levé cet inconvénient. En quelques années, la spectrométrie de masse (SM) est devenue le point central de l’analyse du protéome autour duquel plusieurs techniques, anciennes ou nouvelles, ont été développées (figure 3). L’électrophorèse en deux dimensions fait partie de ces techniques anciennes qui ont été améliorées depuis l’utilisation de la SM dans l’étude du protéome. des acides aminés. Ce mécanisme reste exceptionnel, mais il devait néanmoins être cité comme source de diversité protéique. L’analyse des processus biologiques ne peut donc pas se limiter à l’analyse de la structure de l’ADN et de l’expression des gènes, mais elle doit également prendre en compte l’expression des protéines. Analyse qualitative des protéines exprimées dans un tissu ou des cellules L’électrophorèse en deux dimensions Il s’agit d’une des questions les plus complexes mais certainement d’une des plus pertinentes en recherche fondamentale ainsi qu’en biologie clinique. Pendant de nombreuses années, l’étude du protéome dans une cellule ou un tissu était essentiellement réalisée par l’électrophorèse en deux dimensions (2DPAGE). Cette méthode ancienne Cette technique utilise deux caractéristiques dépendant directement de la séquence en acides aminés des protéines : le point isoélectrique (PI) défini par le pH, auquel la protéine n’est plus chargée car toutes les charges négatives sont annulées par des charges positives, et la masse moléculaire de la protéine étudiée. Cette technique consiste en une Gel 2D Interaction protéine-protéine Chromatographie liquide Spectrométrie de Masse Purification Crosslink chimique Approche génétique : – double hybride – protéines recombinantes Figure 3. La spectrométrie de masse : le cœur de la protéomique. Métabolismes Hormones Diabètes et Nutrition (VII), no 2, mars/avril 2003 séparation des protéines, dans un premier temps, par électrophorèse, dans un gradient de pH. Lorsque les protéines arrivent au pH correspondant à leur PI, la migration s’arrête. Au niveau d’un même pH, il existe donc plusieurs protéines dont les masses moléculaires diffèrent. Une deuxième électrophorèse est réalisée dans un second temps, mais dans un sens perpendiculaire à la précédente migration, en présence de SDS, ce qui permet d’uniformiser la charge des protéines présentes dans le gel (charge négative) et donc de les séparer selon leur masse moléculaire. Un nombre impressionnant de “spots” est ainsi visible sur ces gels, par coloration des protéines avec du bleu de coomassie et des colorants fluorescents. Chaque spot correspond à une ou plusieurs protéines. Cette technique est une méthode comparative d’analyse du protéome. Les résultats obtenus sont fortement informatifs. Néanmoins, l’identification précise des protéines à partir d’un tissu unique n’est pas possible. Cette étape d’identification est l’étape clé de la protéomique. Elle est actuellement réalisée par la spectrométrie de masse (SM) (figure 4). solution (electrospray ionization). Plusieurs principes d’analyseur de masse ont été développés : les analyseurs magnétique, quadripolaire, à piégeage d’ions ou à temps de vol (TOF). Le choix de la technologie dépend de plusieurs paramètres comme la complexité de l’échantillon à analyser et la précision désirée de la détermination de la masse moléculaire. L’identification des protéines obtenues par gel 2D-PAGE nécessite souvent une protéolyse de la protéine d’intérêt prélevée à partir d’un spot du gel 2D afin d’augmenter la précision de la détermination de la masse moléculaire. La trypsine est l’une des protéases le plus souvent utilisée. Elle agit sur la membrane ou bien directement dans le gel. Lorsque la séquence en acides aminés est connue, il est relativement aisé de prévoir le profil de protéolyse de la protéine d’intérêt. En revanche, si la protéine étudiée est inconnue, l’identification devient possible en comparant les profils de protéolyse des protéines connues dans les bases de données avec celui observé pour la protéine d’intérêt. Le couplage de l’ionisation par MALDI, avec un analyseur de type TOF, est généra- lement la méthode utilisée pour cette approche appelée “identification protéique par cartographie peptidique”. Cette approche très performante possède certains inconvénients malgré les nombreux progrès réalisés ces dernières années. Les gels 2D manquent de sensibilité, notamment pour les protéines faiblement exprimées et non vues par les colorations utilisées. De plus, il est fréquent qu’un spot contienne plusieurs protéines, ce qui gêne la précision de l’analyse par SM. Une alternative à l’utilisation des gels 2D-PAGE consistant à fragmenter l’échantillon par une chromatographie en phase liquide (LC) a donc été développée. Cette approche, séparant notamment les peptides selon leur propriétés hyrophobes, peut être réalisée par une chromatographie en haute pression en phase liquide (HPLC). Cela permet une séparation très fine des peptides les uns par rapport aux autres. Ce système a été miniaturisé et il est directement couplé au spectromètre de masse, car les solvants utilisés pour l’élution des peptides sont compatibles avec l’ionisation par electrospray (ESI). Cette approche est particulièrement performante car son couplage avec un Migration en fonction de la masse moléculaire La spectrométrie de masse La SM a d’abord été développée par les chimistes pour des molécules de petites masses moléculaires. L’amélioration technologique a permis d’appliquer récemment cette méthode à l’analyse des peptides. La SM comprend trois étapes essentielles. La première étape consiste en une ionisation de la molécule étudiée. Dans la deuxième étape, un analyseur de masse sépare les particules chargées en fonction de leur masse et de leur charge. Un détecteur d’ions réalise la troisième étape. Plusieurs techniques d’ionisations ont été proposées, dont une méthode par laser pour des peptides déposés sur des supports solides (matrix-assisted laser desorption/ ionization MALDI) ou une autre par electrospray pour des peptides en Conditions A Dossier Génome Extraction des protéines cellulaires Conditions A Migration dans un gradient de pH Spectromètre de masse Prélèvement des spots d’intérêt – Protéolyse des échantillons Protéine 1 Protéine 2 Protéine 3 Spectres obtenus par spectrométrie de masse Figure 4. Les différentes étapes de l’analyse par spectrométrie de masse. Métabolismes Hormones Diabètes et Nutrition (VII), no 2, mars/avril 2003 75 Dossier Génome analyseur de masse en tandem (MS/ MS) permet de déterminer la séquence exacte des peptides analysés. L’analyse d’échantillons protéiques très complexes, comprenant plusieurs dizaines de milliers de peptides, est alors possible. L’information obtenue par le séquençage du génome humain devient alors très pertinente puisqu’il est possible de définir avec précision les protéines d’intérêt en comparant la séquence protéique obtenue par SM aux séquences protéiques déduites des séquences nucléotidiques codantes ou des EST répertoriées dans les bases de données internationales. L’analyse d’échantillons très complexes permet d’envisager l’étude du protéome par SM dans un très proche avenir comme un examen de routine. La fragmentation des échantillons protéiques par protéine-array (voir ci-après) a également été proposée. Cela favorise une sélection des protéines sur des critères fonctionnels et non plus sur leurs propriétés physicochimiques. Analyse qualitative des modifications post-traductionnelles Le couplage du gel 2D ou de la chromatographie liquide à la SM permet de répertorier les protéines présentes dans un échantillon biologique à un instant donné. Néanmoins, cette analyse ne reflète que partiellement les variations qualitatives des protéines. En effet, les protéines peuvent subir des modifications post-traductionnelles dont certaines surviennent durant leur synthèse (glycosylation, sulfatation, hydroxylation, protéolyse), alors que d’autres participent aux mécanismes de régulation de l’activité biologique, comme la phosphorylation de certains acides aminés. Pendant de nombreuses années, les méthodes disponibles étaient compliquées, dépendant de la radioactivité, et peu spécifiques. La SM a fortement simplifié ces analyses puisqu’elle permet d’identifier précisément les modifications post-traductionnelles d’une protéine donnée. La phospho- 76 rylation en est un exemple. Cette modification qualitative des protéines participe aux mécanismes de régulation de leur activité biologique. Pour les enzymes, l’effet peut être une inhibition ou bien une activation de la fonction enzymatique. Il est bien connu que le niveau de phosphorylation des récepteurs régule leur interaction avec d’autres protéines. Cet état est modulé très finement par des kinases ou des phosphatases parfois, elles-mêmes régulées par phosphorylation. La SM a fortement simplifié l’étude de ces mécanismes de régulation en permettant une étude directe de la phosphorylation des protéines. Analyse quantitative du protéome L’analyse quantitative est un point très important de l’analyse de l’expression des protéines. Malheureusement, la spectrométrie de masse ne permet pas une analyse quantitative du protéome. Les variantes proposées sont plutôt des méthodes semi-quantitatives. Analyse des interactions protéiques Le protéome est défini par la population protéique présente dans un échantillon au moment du prélèvement. La destinée d’une protéine est d’interagir avec une autre protéine jusqu’à former un réseau protéique fonctionnel. Le déterminisme du protéome dans une cellule dépend du génome, identique dans toutes les cellules, mais aussi de l’état de différentiation de la cellule. Mais en même temps, cette différentiation cellulaire dépend des réseaux protéiques. Comme nous l’avons vu précédemment, la spectrométrie de masse permet de faire un état des lieux des protéines présentes à un moment donné mais elle ne renseigne pas sur l’as- Métabolismes Hormones Diabètes et Nutrition (VII), no 2, mars/avril 2003 pect fonctionnel, et notamment sur les interactions protéine-protéine. Plusieurs méthodologies cherchent à résoudre ce point fondamental, indispensable à la compréhension des mécanismes moléculaires et à l’émergence de thérapeutiques innovantes. Leur diffusion est pour l’instant limitée aux laboratoires de recherche. Deux grandes voies sont suivies : une approche génétique et une approche plus directement liée à la biochimie des protéines. L’approche génétique Les méthodes génétiques sont fondées sur les techniques d’ADN recombinant. Contrairement aux approches décrites précédemment, les protéines sont modifiées. L’approche ayant retenu le plus d’attention ces dernières années est la méthode dite en doublehybride. Cette technique consiste à rechercher les protéines interagissant avec la ou les protéines d’intérêt (protéine appât) grâce à un système ingénieux développé dans la levure. Ce système est fondé sur la complémentarité existant entre un domaine de liaison à l’ADN et un domaine de transactivation de facteurs de transcription. Si ces deux domaines sont fusionnés à des protéines qui interagissent, il y aura expression d’un gène rapporteur contenant l’élément de réponse reconnu par le domaine de liaison à l’ADN. Cette méthode a permis la caractérisation de nombreux cofacteurs des récepteurs nucléaires. Une autre approche utilisant les protéines recombinantes consiste à rajouter une étiquette à des protéines appâts en modifiant l’ADN codant pour ces protéines. Cet ADN est ensuite introduit dans des cellules eucaryotes afin que les protéines recombinantes interagissent avec leurs partenaires. Les complexes protéiques sont ensuite purifiés en utilisant une colonne d’affinité spécifique de l’étiquette rajoutée. Les protéines associées sont alors caractérisées par spectrométrie de masse. Cette méthodologie renseigne sur l’aspect fonctionnel. L’approche biochimique Dans l’approche biochimique, les interactions protéine-protéine sont étudiées in vitro. Les protéines array ont été développés selon le même principe que ceux utilisés pour l’ADN ou l’ARN. Les protéines d’intérêts ou protéines-cibles sont fixées et répertoriées sur une lame, puis incubées avec les échantillons. Après lavage, les protéines ayant interagi sont caractérisées par spectrométrie de masse ou bien en utilisant les propriétés fonctionnelles des protéines recherchées lorsqu’il s’agit d’enzymes par exemple. Cette approche très intéressante est difficile à mettre en œuvre, car la fixation des protéines peut les dénaturer partiellement, ce qui diminue leur capacité d’interaction ou la spécificité de celle-ci. La formation de liaisons covalentes entre résidus de deux protéines différentes est connue sous le nom de crosslinking. Cette approche très séduisante (car elle permet de déterminer les acides aminés interagissant) est difficile à mettre en œuvre sur des protéines naturelles, car les rendements restent faibles et les crosslink non spécifiques fréquents. Il s’agit néanmoins de la seule méthode permettant de définir avec précision les acides aminés impliqués dans les interactions. Apport de la protéomique en biologie clinique En tant que technologie en plein développement, la spectrométrie de masse apporte une dimension nouvelle à la biologie clinique. Le couplage electrospray ionization avec un spectromètre de masse MS-MS est déjà utilisé dans l’analyse des maladies métaboliques. Cette approche est bien sûr très spécifique, mais surtout très rapide, ce qui permet d’envisager des diagnostics en urgence. Le coût de l’appareil reste néanmoins un obstacle important. L’apport de la protéomique est évident en cancérologie. Il est certain qu’établir une carte du protéome au sein d’un tissu tumoral va aider dans le diagnostic étiologique mais également dans la prise en charge thérapeutique. Cette approche sera un complément à l’analyse du transcriptome. Néanmoins, le plus grand potentiel de la SM en biologie clinique est la possibilité de réaliser des profils protéiques directement à partir d’un prélèvement sanguin. L’application la plus évidente concerne de nouveau la cancérologie, avec la caractérisation de nouveaux marqueurs tumoraux. Les travaux récents de Petricoin vont dans ce sens. Ce groupe a montré que le profil obtenu par SM à partir du sérum de patientes ayant un cancer de l’ovaire était différent de celui observé pour des patientes ayant une pathologie ovarienne sans tumeur maligne. Il rapporte une spécificité de 95 % et une valeur prédictive de 94 %. Ces résultats confirment la puissance de la protéomique dans la caractérisation d’un état pathologique. Une approche similaire mérite d’être tentée en endocrinologie afin de mieux caractériser les états d’hyper- ou d’hypoactivité endocrinienne. Conclusion L’étude du protéome prend chaque jour un peu plus d’importance. D’abord développée dans les laboratoires de recherche fondamentale, la protéomique est maintenant transférée dans les laboratoires de biologie clinique. Ce mouvement concerne essentiellement la spectrométrie de masse, car il s’agit de la technique qui concilie le mieux automatisation et débit d’analyse important. L’étude du protéome va permettre d’établir des cartes d’expression protéiques au sein des tissus pathologiques. Les débouchés de la protéomique sont évidents en cancérologie. L’apport de la spectrométrie de masse est déjà d’actualité dans l’analyse des maladies du métabolisme. La possibilité d’établir des profils du protéome à partir d’un prélèvement de sang périphérique est un atout supplémentaire au développement de la protéomique en endocrinologie. Dossier Génome Références • Aebersold R, Mann M. Mass spectrometry-based proteomics. Nature 2003 ; 422 (6928) : 198-207. • Jones PM, Bennett MJ. The changing face of newborn screening : diagnosis of inborn errors of metabolism by tandem mass spectrometry. Clin Chim Acta 2002 ; 324 (1-2) : 121-8. • Mann M, Hendrickson RC et al. Analysis of proteins and proteomes by mass spectrometry. Annu Rev Biochem 2001 ; 70 : 437-73. • Patterson SD, Aebersold RH. Proteomics : the first decade and beyond. Nat Genet 2003 ; 33 (suppl.) : 311-23. • Petricoin EF, Ardekani AM et al. Use of proteomic patterns in serum to identify ovarian cancer. Lancet 2002 ; 359 (9306) : 572-7. • Wu W, Hu W et al. Proteomics in cancer research. Int J Gynecol Cancer 2002 ; 12 (5) : 409-23. Métabolismes Hormones Diabètes et Nutrition (VII), no 2, mars/avril 2003 77