Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Blanchette & al, 2006 Élodie Boulier Nhu Ha Vo Sharon Harel Rappel sur la transcription et la traduction d’un gène Croissance cellulaire Régulation de l’expression Différentiation des gènes Adaptation à l’environnement Division Expression des gènes Régulée au niveau de la TRANSCRIPTION Outils : Site de liaison des Facteurs de transcription (TFBS) Acteurs : Facteurs de transcription (TF) Facteurs de transcription Activateurs Facteurs de transcription Répresseurs + - TRANSCRIPTION Structure d’un gène Structure d’un gène (suite) PROMOTEUR Structure d’un gène (suite) 1kb en amont du début de site de la transcription Facteurs de transcription http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg Les Facteurs de Transcription (suite) Lient : Des séquences dégénérées d’ ADN (5–15 pb) Des motifs consensus Position-weighted matrices (PWM) TF1 ACGT ACGT ACGA ATGC Probabilité de retrouver une base à une position PWM Taille du génome - + - Motifs courts dégénérés Sites de liaison de facteurs de transcription (TFBS) Régions de régulation Méthodes de prédictions existantes Sensibilité à la DNAse I Algorithmes basés sur les séquences Identification de motifs surreprésentés dans la séquence du promoteur Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts Genome wide et de novo : prédit des région ayant un potentiel régulatoire Modules cis-régulateur (CRM) CRM TF PROMOTEUR Modules cis-régulateur (CRM) …suite TF2 TF1 TF4 ADN TFBS CRM TF3 TF5 (1à 5 TF) Reconnaître de nouveaux modules Utilisation de caractéristiques de CRM connus : 1.Plusieurs sites de liaison pour peu de TF ≠ 2.Sites de liaisons plus conservés que les régions intergéniques 3.Les gènes régulés par un lot de TF commun a tendance à être co-exprimés Fonction de l’algorithme Identifier les régions importantes de régulation d’expression de gènes Prédire quel facteur de transcription se lie à quelle région 17 Données Données provenant de Transfac 481 PWM (Position Weight Matrices) 229 familles TF (Transcription Factor) Données provenant de Alignement Multiz Alignement Humain – Souris – Rat 34 % du génome humain 18 Prédiction TFBS pour chaque espèce Trouver le hitScore pour chaque espèce Fenêtre de 100, 200, 500, 1000, 2000 bp Calcul: Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la séquence Calcul hitScoreHum (m, p) Calcul hitScoreSouris (m, p) Calcul hitScoreRat (m, p) 19 Prédiction TFBS conservée Trouver le hitScore d’alignement conservée Calcul: hitScorealn (m, p) = hitScoreHum (m, p) + ½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p)) 20 Sélection tags plus significatifs • Seul les hitScorealn (m, p) > 10 sont retenu pour construire les modules. 21 Total tags score TotalScore(m, p1…p2) = max {H ⊆ Hm tel que H (Hit) non chevauché } ∑ h € H hitScore(m, p) 22 P-Value P-Value est assigné au TotalScore P-Value dépend : longueur de la région contenu en GC de la région fréquence et distribution en hitScore prédit pour cette matrice dans le génome 23 Module score Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé Calcul: moduleScore(p1…p2) = max{k = 1…5} – log (pValueMaxUnif(k, 481, Πi = 1…k pValue(totalScore(tagk, p1…p2)))) 24 Résultats 118 402 Modules Couvrant 2.88% du génome humain 58 % des modules sont moins que 500 bp Longueur moyenne de 635 bp par module Moyen de 3.1 tags par Module 25 Résultats (suite) Tag le plus sélectionné : E2F (5401 fois sur les 118 402 modules) 2 sets de tags les plus sélectionnés 26 Facteur de transcription associé au promoteur (E2F, ZF5, TBP) Facteur de transcription homeobox (famille NKX, famille POU, etc) Comparaison 27 Comparaison « Regulatory potential » Kolbe et al. 2004 and King et al. (2005) Prédiction de CRM Applique au génome de l’humain ainsi que le blé Permet identifier les séquences et les conservations entre espèces Permet distinguer les ensembles de régions de régulation connu et régions non fonctionnel Résultat : Plus de 25 % des bases de pCRM est dans King et al. 9 fois plus que prédiction aléatoire 28 Validation expérimentale des prédictions de novo Permet de définir la spécificité du prédicteur Spécificité= Performance Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature ChIP on Chip , Spécificité de novo du prédicteur 3% de validation des pCRM pour le TF ER 17% de validation des pCRM pour le TF E2F4 Sous-estimation de la spécificité Facteurs contribuant à la faible spécificité du prédicteur 1 seule lignée cellulaire/TF Lignée cellulaire cancéreuse Facteurs contribuant à la faible spécificité du prédicteur 1 seule condition d’induction de la transcription Facteurs contribuant à la faible spécificité du prédicteur Autre méthode d’évaluation de la spécifité ER lie 55 modules 24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité E2F4 lie 433 modules 236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al. Amélioration Possible Cellules, Tissus, Conditions physiologiques HAIRE Distribution des pCRM sur le génome Informations sur nouveaux gènes Enhancers Transcrits non-codants TSS alternatifs Définition du rôle de gènes peu caractériser Figure 3. Distribution of pCRMs along a region of chromosome 11 Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668 Figure 4. Distribution of pCRMs relative to specific regions of genes Région promotrice Promoteur ou mode activation alternatif Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668 Enhancer ou transcrit antisense DNA-Looping [Adaptée de Freeman, Biological Sciences 2002] Régulation par Transcrit antisense ARN codant ARN antisense Inhibition post-transcriptionnelle Distribution des pCRMs pour un TF individuel Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes Autres observations 2 modules rapproché : ↑ probabilité de contenir les TFBS pour les mêmes TF La plupart des TF de longue portée présente une corrélation situés >10kb en amont des TSS pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF pCRMs tissus spécifique 1 Famille TF gènes potentiellement régulé (1 pCRM 10kb en amont du TSS) Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains 27 familles présente une corrélation d’expression tissulaire pCRM tissus spécifiques paire TF = famille génes potentiellement régulés Corrélation entre l’expression tissulaire et la co-liaison de la paire de TF 595 paires de TF présentent une corrélation d’expression tissulaire. EX: OCT1 caractérisé et exprimé dans le cerveau BACH1 est associé à OCT1, mais non caractérisé Conclusion Prédiction avec spécificité acceptable entre 24 et 54% Sensibilité des prédictions de 34% (TransFac) Grand potentiel de développement des connaissances sur la régulation génique Découverte de nouveaux gènes codant et de fonctions biologiques Élucidation du rôle de TF: expression tissulaire Questions La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod