La méthode de prédiction de fonction

publicité
Mastère BBSG-M2 Marseille 2007-2008
Bioinformatique fonctionnelle des protéines
intégration
Populations
Organismes
Tissus, organes
Cellules
Réseau d’interactions
entre molécules
Molécule
Relations inter-espèces,
Équilibres écologiques
Développement, reproduction,
vieillissement
Régulations physiologiques
Migrations,
Communications
Fonction cellulaire : voie,
cascade, processus
Fonction biochimique
ou moléculaire
Bernard Jacq, IBDML
Des constats (1/2)
• Le fait de disposer de plusieurs dizaines de séquences
génomiques donne (potentiellement) accès aux protéomes
complets de nombreuses espèces
• Des comparaisons de séquences de protéomes complets sont
maintenant réalisables permettant de commencer à classer
structuralement et fonctionnellement les protéines du
monde vivant
Des constats (2/2)
• Le fossé s’accroit entre le nombre de séquences
protéiques déterminées, le nombre de structures 3D
disponibles et le nombre de fonctions expérimentalement
connues pour ces séquences
• Il y a un besoin de plus en plus important pour prédire des
structures ou des fonctions pour des protéines totalement
ou partiellement inconnues
QU’APPELLE T’ON LA FONCTION
D’ UNE PROTEINE ?
• La structure d ’une protéine correspond à la
représentation d ’un objet physique
• Même s ’il est trop petit pour être directement
visible, nous avons une idée précise de sa
constitution et de sa forme (structures 1D, 2D, 3D)
• La (les) fonction(s) d ’une protéine correspondent
à des propriétés effectrices de la structure
On peut distinguer
différents niveaux de fonction
LA FONCTION BIOCHIMIQUE
Activité moléculaire du produit d’un gène
Exemples : ATPase, protéine affine de
l’ADN…
LA FONCTION CELLULAIRE
Processus cellulaire dans lequel le produit du gène
intervient  intégration de la fonction biochimique
au sein d’un processus
Exemples : Synthèse de l’ADN, métabolisme
des nucléotides, traffic des protéines .....
EXEMPLE : LES FONCTIONS DE LA
PROTEINE RAP1 De LEVURE
Fonctions biochimiques :


Facteur de transcription
Protéine affine de l’ADN
Fonctions cellulaires :



Transcription dépendante de l’ARN polymérase II
Structure de la chromatine/ des chromosomes
Métabolisme des carbohydrates
Niveaux d’intégration des fonctions
Niveaux d’organisation Niveaux fonctionnels
intégration
Populations
Organismes
Tissus, organes
Cellules
Réseau d’interactions
entre molécules
Molécule
Relations inter-espèces,
Équilibres écologiques
Développement, reproduction,
vieillissement
Régulations physiologiques
Migrations,
Communications
Fonction cellulaire : voie,
cascade, processus
Fonction biochimique
ou moléculaire
La fonction : une notion complexe
• Une fonction se définit par rapport à un niveau
structural
• Une protéine peut avoir plusieurs fonctions, au sein
d ’un même niveau et/ou entre niveaux différents
• Comment représenter informatiquement la notion
de fonction ?
• la nécessité d’un language commun : l’initiative GO
(Gene Ontology)
Comment accéder à la fonction d’un gène/protéine ?
1- Approche « classique »
Analyse génétique
Biologie moléculaire
Biologie moléculaire,
Bioinformatique
Analyses génétique,
biochimique
Biologie moléculaire
Phénotype mutant
Clonage du gène
Séquençage,
structure
Tests fonctionnels
DU
GENE
…
Fonction biochimique
inférée
Fonction biochimique,
Fonction cellulaire
(dans un contexte peu
connu)
Comment accéder à la fonction d’un gène/protéine ?
2- Approche génomique
Génomique et
protéomique
fonctionnelles,
Bioinformatique
Les
gènes/protéines
sont les
composants
élémentaires
d’un système
dont on étudie
les variations
… A L’ANALYSE
DES SYSTEMES
Fonction cellulaire
et niveaux d’intégration
supérieurs de la fonction
L’approche change, le raisonnement du biologiste aussi…
L’utilisation de données
“complètes” change tout
 En biologie moléculaire classique, l’ingéniosité consiste
à essayer d ’apporter une réponse fonctionnelle pour un
gène en ignorant presque tous les autres (99,9% des
gènes)
 En génomique, l’ingéniosité est de découvrir ce qui
devient possible quand vous « voyez » tous les gènes
 Il faut changer complètement de mode de
raisonnement ...
Passer du réductionisme
à l’analyse de systèmes
• En biologie moléculaire : disséquer un phénomène complexe
en ses plus petits éléments et caractériser chacun d’eux.
Problème: Il est très difficile d’essayer de mettre ensuite les
pièces du puzzle ensemble: Soient A, B, C : A+B+C = ?
• En génomique : Utiliser la cellule come un tube à essais dont
l’ensemble des composants serait “visible”. Il devient possible
de “voir” A+B+C (+D+E+…) travaillant ensemble.
On étudie comment tous les composants élémentaires
travaillent ensemble en identifiant des groupes fonctionnels
non initialement connus.
On étudie alors le comportement du système.
Les prédictions
bioinformatiques
Les prédictions bioinformatiques
• Plusieurs approches importantes en prédictions
structurales et fonctionnelles
– prédiction de la séquence protéique à partir de l’ADN
génomique (identification start/stop de transcription et de
traduction, prédiction et identification jonctions exonsintrons)
– prédiction de la structure 2D ou 3D à partir des séquences
– prédiction des fonctions protéiques à partir des séquences
– prédiction de la fonction protéique à partir de la structure
– Nouvelles méthodes de prédiction fonctionnelle fournies par
la génomique
La méthode de prédiction de
fonction « classique »
utilisant les données de
séquence
Crédit 3 diapos: Christine Brun
Méthodes de prédiction fonctionnelle
existantes (I)
Inférence par homologie
1- recherche de similitudes
•
•
Séquences (Blast)
Structures (Prosite, Prodom, PDB)
2- utilisation des annotations des protéines similaires
•
•
•
Texte libre
EC code (Enzyme Commission) (1- oxydoreductase;
2- transferase; 3- hydrolase; 4- lyases; 5isomerase; 6- ligases)
Mots clefs (classification, ontologies)
L’inférence de fonction par homologie de
séquence ou de structure
• Renseigne sur les fonctions biochimiques et
moléculaires
• Dépend de la qualité des annotations
• Dépend de l’étendue des connaissances
• Ne renseigne pas sur le contexte et les
fonctions cellulaires
Quand l’inférence de fonction par
homologie ne suffit pas…
 Une variation de séquence très subtile peut
conduire à une variation de fonction importante
(exemple: neurotactine vs. acetylcholinesterase)
Mutation d ’un
acide aminé
de la triade
catalytique
Le domaine
cholinesterase
de la neurotactine
de Drosophile
a des propriétés
d’adhésion et non
plus d’activité
cholinestérase
Darboux et al. (1996), EMBO J, 15: 4835-43
Quand l’inférence de fonction par
homologie ne suffit pas…
 Une variation de séquence très subtile peut
conduire à une variation de fonction importante
(exemple: neurotactine vs. acetylcholinesterase)
 Des protéines ne partageant aucune similarité
de séquence peuvent avoir des structures 3D
similaires (exemple: le domaine de fixation à
l’ADN de EBNA1 vs. E2)
Des protéines dont la
structure primaire est
différente peuvent
avoir des structures
3D identiques
Exemple :
EBNA1 et
E2
Bochkarev et al.
(1995) Cell 83: 39-46
Les méthodes de
prédiction de fonction
utilisant les données de
la génomique
Quelles informations, apportées par la
génomique, peuvent être utilisées pour la
mise au point de méthodes de prédiction
fonctionnelle ?
 Les variations de séquences entre organismes
 Les séquences regulatrices près des gènes
 Le contenu en gènes d’un organisme
 La variation du contenu en gènes entre organismes
 La variation de l’ordre des gènes entre organismes
 La variation d’organisation des gènes entre organismes
Méthodes de prédiction fonctionnelle
existantes II
Inférences par corrélation
 La variation d’organisation des gènes entre organismes
 Méthode de la pierre de Rosette (Marcotte et al.
(1999), Science 285, 751-753)
 La variation de l’ordre des gènes entre organismes
 Méthode des gènes voisins (Dandekar et al. (1998) TIBS
23, 324-328; Overbeek et al. (1999) PNAS 96, 28962901)
 La variation du contenu en gènes entre organismes
 Méthode des profils phylogénétiques (Pellegrini et al.
(1999) PNAS 96,4285-4288)
La méthode de la « Pierre de Rosette »
Principe : utilise la variation d’organisation des gènes
entre organismes et la modularité des protéines
 Si dans un génome 1, on trouve un gène A composé
d’un module A et un gène B composé d’un module B
 Si dans un génome 2, le module A et le module B
sont associés pour former un seul gène C contenant
A+B
 Alors A et B pourraient être des gènes/protéines
fonctionnellement reliés.
Marcotte et al., Science 285, 751-753 (1999)
La méthode de la « Pierre de Rosette »
exemples
Marcotte et al., Science 285, 751-753 (1999)
La méthode des gènes voisins
Principe : utiliser la variation de l’ordre des gènes ou des groupes
de gènes sur les chromosomes
D
C
B
A
Génome 1
D
C
B
A
Génome 2
Les gènes A & B
C
A
B
D
Génome 3
D
C
A
B
Génome 4
sont fonctionnellement reliés
Dandekar et al. TIBS 1998
Overbeek et al. PNAS 1999
Exemple : Groupes fonctionnels dans la glycolyse
BB, Borrelia burgdorferi; DR, Deinococcus radiodurans; CA, Clostridium acetobutylicum; BS, Bacillus subtilis; EF,
Enterococcus faecalis; MP, Mycoplasma pneumoniae; MG, Mycoplasma genitalium; ML, Mycobacterium leprae; MT,
Mycobacterium tuberculosis; CJ, Campylobacter jejuni; TP, Treponema pallidum; HP, Helicobacter pylori; ST,
Streptococcus pyogenes; PN, Streptococcus pneumoniae.
Overbeek et al. (1999) PNAS 96, 2896-2901
La méthode
des profils
phylogénétiques
Principe : utiliser
les corrélations +
ou - de variation
du contenu en gènes
entre organismes
Pellegrini et al. PNAS 96, 4285-4288 (1999)
Méthodes combinées de
prédiction fonctionnelle
Marcotte et al.,
Nature 402, 83-6 (1999)
Un réseau de
liens
fonctionnels
entre
protéines
Nature 402, 83-6 (1999)
L’inférence de fonction par corrélation :
bilan
 Renseigne sur l’existence probable de
liens fonctionnels entre protéines
 Ces liens fonctionnels suggèrent :
 que les protéines participent à une
même voie, un même processus
cellulaire  fonction cellulaire
 parfois qu’il existe des interactions
directes entre protéines (interaction
protéine-protéine)
Prédictions de fonction
Structure
Séquence
Fonction
Génome
Transcriptome
Protéome
Interactome
Téléchargement