Genome-wide computational prediction of trancriptional regulatory

publicité
Genome-wide computational prediction of transcriptional
regulatory modules reveals new insights into human gene
expression
Blanchette & al, 2006
Élodie Boulier
Nhu Ha Vo
Sharon Harel
Rappel sur la transcription et la
traduction d’un gène
Croissance cellulaire
Régulation de l’expression
Différentiation
des gènes
Adaptation à
l’environnement
Division
Expression des gènes
 Régulée au niveau de la TRANSCRIPTION
 Outils : Site de liaison des Facteurs de transcription (TFBS)
 Acteurs : Facteurs de transcription (TF)
Facteurs de transcription
Activateurs
Facteurs de transcription
Répresseurs
+
-
TRANSCRIPTION
Structure d’un gène
Structure d’un gène (suite)
PROMOTEUR
Structure d’un gène (suite)
1kb en amont du début de site de la transcription
Facteurs de transcription
http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg
Les Facteurs de Transcription (suite)
Lient :
 Des séquences dégénérées d’ ADN (5–15 pb)
 Des motifs consensus
Position-weighted matrices (PWM)
TF1
ACGT
ACGT
ACGA
ATGC
Probabilité de retrouver
une base à une position
PWM
Taille du génome
-
+
-
Motifs courts
dégénérés
Sites de liaison de facteurs de transcription (TFBS)
Régions de régulation
Méthodes de prédictions existantes
Sensibilité à la DNAse I
Algorithmes basés sur les séquences
 Identification de motifs surreprésentés dans
la séquence du promoteur
 Nécessitant l’entrée de données : PWM de
facteurs de transcription d’intérêts
 Genome wide et de novo : prédit des
région ayant un potentiel régulatoire
Modules cis-régulateur (CRM)
CRM
TF
PROMOTEUR
Modules cis-régulateur (CRM) …suite
TF2
TF1
TF4
ADN
TFBS
CRM
TF3
TF5
(1à 5 TF)
Reconnaître de nouveaux modules
Utilisation de caractéristiques de CRM connus :
1.Plusieurs sites de liaison pour peu de TF ≠
2.Sites de liaisons plus conservés que les régions intergéniques
3.Les gènes régulés par un lot de TF commun a tendance à être
co-exprimés
Fonction de l’algorithme
 Identifier les régions importantes de régulation d’expression
de gènes
 Prédire quel facteur de transcription se lie à quelle région
17
Données
 Données provenant de Transfac
481 PWM (Position Weight Matrices)
229 familles TF (Transcription Factor)
 Données provenant de Alignement Multiz Alignement
Humain – Souris – Rat
34 % du génome humain
18
Prédiction TFBS
pour chaque espèce
 Trouver le hitScore pour chaque espèce
 Fenêtre de 100, 200, 500, 1000, 2000 bp
 Calcul:
Pour chacun des 481 PWM (m)
Pour chaque colonne (p) de la séquence
Calcul hitScoreHum (m, p)
Calcul hitScoreSouris (m, p)
Calcul hitScoreRat (m, p)
19
Prédiction TFBS
conservée
 Trouver le hitScore d’alignement conservée
 Calcul:
hitScorealn (m, p) = hitScoreHum (m, p) +
½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))
20
Sélection tags plus significatifs
• Seul les hitScorealn (m, p) > 10 sont retenu pour
construire les modules.
21
Total tags score
 TotalScore(m, p1…p2) =
max {H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p)
22
P-Value
 P-Value est assigné au TotalScore
 P-Value dépend :
 longueur de la région
 contenu en GC de la région
 fréquence et distribution en hitScore prédit pour cette matrice
dans le génome
23
Module score
 Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le
plus élevé
 Calcul:
moduleScore(p1…p2) = max{k = 1…5} – log (pValueMaxUnif(k, 481, Πi = 1…k
pValue(totalScore(tagk, p1…p2))))
24
Résultats
 118 402 Modules
 Couvrant 2.88% du génome humain
 58 % des modules sont moins que 500 bp
 Longueur moyenne de 635 bp par module
 Moyen de 3.1 tags par Module
25
Résultats (suite)
 Tag le plus sélectionné :
E2F (5401 fois sur les 118 402 modules)
 2 sets de tags les plus sélectionnés


26
Facteur de transcription associé au promoteur
(E2F, ZF5, TBP)
Facteur de transcription homeobox
(famille NKX, famille POU, etc)
Comparaison
27
Comparaison « Regulatory potential »
Kolbe et
al. 2004 and King et al. (2005)
 Prédiction de CRM
 Applique au génome de l’humain ainsi que le blé
 Permet identifier les séquences et les conservations entre
espèces
 Permet distinguer les ensembles de régions de régulation
connu et régions non fonctionnel
 Résultat :
 Plus de 25 % des bases de pCRM est dans King et al.
 9 fois plus que prédiction aléatoire
28
Validation expérimentale des
prédictions de novo
 Permet de définir la spécificité du prédicteur
 Spécificité= Performance
Définition: Efficacité à prédire une interaction réelle entre un
TF et un pCRM, non recensé dans la littérature
ChIP on Chip
,
Spécificité de novo du prédicteur
 3% de validation des pCRM pour le TF ER
 17% de validation des pCRM pour le TF
E2F4
 Sous-estimation de la spécificité
Facteurs contribuant à la faible
spécificité du prédicteur
 1 seule lignée cellulaire/TF
 Lignée cellulaire cancéreuse
Facteurs contribuant à la faible
spécificité du prédicteur
1 seule condition d’induction de la transcription
Facteurs contribuant à la faible
spécificité du prédicteur
Autre méthode d’évaluation de la
spécifité
 ER lie 55 modules
24 des 55 avaient été sélectionnés pour lier ER
Donc 44% de spécificité
 E2F4 lie 433 modules
236 des 433 avaient été sélectionnés pour lier E2F4
Donc 54% de spécificité
 Étude par un autre groupe: 57 modules lient ER et 14 avaient
été prédit par Blanchette et al.
Amélioration Possible
 Cellules, Tissus, Conditions physiologiques
 HAIRE
Distribution des pCRM sur le
génome
 Informations sur nouveaux gènes
 Enhancers
 Transcrits non-codants
 TSS alternatifs
 Définition du rôle de gènes peu caractériser
Figure 3. Distribution of pCRMs along a region of chromosome 11
Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668
Figure 4. Distribution of pCRMs relative to specific regions of genes
Région
promotrice
Promoteur
ou mode
activation
alternatif
Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668
Enhancer
ou
transcrit
antisense
DNA-Looping
[Adaptée de Freeman, Biological Sciences 2002]
Régulation par Transcrit antisense
ARN codant
ARN antisense
Inhibition post-transcriptionnelle
Distribution des pCRMs pour un TF
individuel
Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of
their target genes
Autres observations
 2 modules rapproché : ↑ probabilité de contenir les TFBS
pour les mêmes TF
 La plupart des TF de longue portée présente une corrélation
situés >10kb en amont des TSS
 pCRM voisins contenant des TFBS pour des TF similaires sont
situés dans des régions intergéniques ou introniques proches
de gènes codant pour des TF
pCRMs tissus spécifique
 1 Famille TF
gènes potentiellement régulé (1 pCRM
10kb en amont du TSS)
 Corrélation (paire wise Pearson) entre les niveaux
d’expression de ces gènes dans 79tissus humains
 27 familles présente une corrélation d’expression tissulaire
pCRM tissus spécifiques
 paire TF = famille
génes potentiellement régulés
 Corrélation entre l’expression tissulaire et la co-liaison de la
paire de TF
 595 paires de TF présentent une corrélation d’expression
tissulaire.
 EX: OCT1 caractérisé et exprimé dans le cerveau
BACH1 est associé à OCT1, mais non caractérisé
Conclusion
 Prédiction avec spécificité acceptable entre 24 et 54%
 Sensibilité des prédictions de 34% (TransFac)
 Grand potentiel de développement des connaissances sur la
régulation génique
 Découverte de nouveaux gènes codant et de fonctions
biologiques
 Élucidation du rôle de TF: expression tissulaire
Questions
La base de données des pCRM est disponible sur le
site genomequebec.mcgill.ca/PReMod
Téléchargement