1 La bioinformatique Concepts de base de la biologie moléculaire De l’ADN aux protéines Notion de réseaux de régulation génétique Modélisation, simulation et analyse (Copasi et Range) 2 La bioinformatique est un champ de recherche multi-disciplinaire où travaillent des biologistes, informaticiens, mathématiciens et physiciens, dans le but de résoudre un problème scientifique posé par la biologie. Pour les biologistes: Utilisation de logiciels informatiques pour traiter rapidement les données biologiques. Base de données permettant de stocker et gérer l’information biologique. Pour les informaticiens: Modélisation de problèmes de biologie moléculaire. Développement de méthodes mathématiques ou informatiques formelles pour les résoudre. Implémentation d’algorithmes permettant d’analyser les données biologiques. Validation sur des données simulées et réelles. 3 S’applique à tout type de données biologiques: Séquences d’ADN et de protéines. Structures d’ARN et de protéines. Contenu en gènes des génomes. Alignement des séquences. Puces à ADN (Microarrays) Réseaux d’interactions entre protéines. Réseaux de régulation génétique. Défis principaux de la bioinformatique: Indentification de l’ensemble des gènes Prédire les fonctions des gènes. 4 Concepts de base de la biologie moléculaire Définitions… 5 Que sont les gènes? Les gènes, des composantes de l'ADN, sont les unités fonctionnelles du génome. Ils contiennent toute l'information nécessaire pour créer les protéines. Les gènes sont situés le long de structures filiformes appelées chromosomes. Les chromosomes se trouvent dans le noyau de la cellule et sont faits d'ADN et de protéines. Un chromosome peut contenir des milliers de gènes. Les gènes renferment des instructions pour la fabrication des protéines dans les cellules. Les protéines constituent une partie importante des nombreux processus biologiques qui ont lieu dans les cellules. 6 De l’ADN aux protéines LES ÉTAPES… 7 L’ADN est situé dans le noyau, il constitue le matériel génétique Double hélice d’ADN noyau cytoplasme APPARIEMENT DES BASES: A = Adénine T = Thymine C = Cytosine G = Guanine 8 L’ARNm (acide ribonucléique) copie et transporte l’information génétique du noyau au cytoplasme noyau ARN messager cytoplasme APPARIEMENT DES BASES : A = Adénine U = Uracile C = Cytosine G = Guanine 9 Le ribosome déchiffre les codons de l’ARNm et participe à la formation de la protéine noyau Ribosome cytoplasme 10 L’ARNt reconnaît le codon de l’ARNm et apporte l’acide aminé qui y correspond pour former une chaîne polypeptidique Liaison peptidique a.a a.a ARNt ARNt Anticodon … ACG UAC Codon Ribosome 11 1. Transcription de l’ADN en ARNm (dans le noyau) TA C A C G G G AAT T AT G T G C C C T TAA 2. L’ARNm sort du noyau et se fixe sur le ribosome dans le cytoplasme où la protéine sera formée des acides aminés apportés par l’ARNt (Traduction) Met Cys Pro STOP Protéine formée ARNt ARNt ARNt ARNt UAC ACG G GA AUU 12 Deuxième base U C A G CUU CUC CUA CUG AUU AUC AUA AUG GUU GUC GUA GUG Phe Leu Leu Ile Met * Val * Codon de départ UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG A Ser UAU UAC UAA UAG Pro CAU CAC CAA CAG Thr Ala AAU AAC AAA AAG GAU GAC GAA GAG G Tyr Stop Stop His Gln Asn Lys Asp Glu UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG Cys Stop Trp Arg Ser Arg Gly U C A G U C A G U C A G Troisième base Première base U UUU UUC UUA UUG C U C A G 13 Notion de réseaux de régulation génétique 14 Il existe plusieurs protéines particulières, spécifiquement dédiées à la régulation. Ces protéines se lient à la molécule d’ADN sur des sites particuliers appelés opérateurs et ont pour effet: Bloquer la transcription Accélérer la transcription Les gènes codent pour des protéines alors que certaines de ces protéines interviennent dans l’expression génétique. (Phénomène de rétroaction) Ces boucles de rétroaction sont à l’origine de la notion du réseau génétique. 15 La bactérie a besoin de l’énergie pour survivre, elle doit dégager les molécules de glucose et récupérer de l’énergie. En cas de manque de glucose, la bactérie doit se tourner vers une autre source d’énergie: le lactose. Jacob et Monod ont observé que lorsqu’il y a un manque de glucose et en présence de lactose, la concentration en perméase et galactosidase subit une brusque augmentation. La bactérie a besoin de ces deux molécules pour traiter le lactose. Ce phénomène constitue une bascule génétique, on parle également d’induction 16 Gène qui code pour la galactosidase Gène qui code pour la perméase Opérateur I Gal Per Trans … Opéron lactose bloqué débloqué Répresseur J. Della-Dora, L.Tournier: Les réseaux de régulation génétique un exemple de modélisation en biologie 17 La dégradation lactique n’est nécessaire que lorsque la cellule ne dispose plus de glucose. Il existe alors une molécule au rôle d’activateur (CAP) qui forme un complexe avec une autre substance AMP (n’est présente que s’il n’y a plus de glucose) pour augmenter la transcription. On distingue alors quatre états: GL : La cellule dispose du glucose et n’a pas donc besoin du lactose: l’opéron est bloqué. GL : La cellule n’a plus de glucose et dispose de lactose. L’opéron est débloqué et accéléré par l’AMP. On parle d’induction activée. GL : La cellule dispose des deux sucres. L’opéron est débloqué mais la transcription est freinée par la présence de glucose (Pas de AMP). GL : La cellule ne dispose d’aucun sucre. 18 Palsson: Systems biology 19 Modélisation, simulation et analyse Copasi, Range… 20 Modélisation Simulation Analyse Éditeur de texte Outils de commande Représentation graphique Outils de traçage (plotting) Copasi rassemble tout ceci dans un outil avec une interface graphique Les utilisateurs de Copasi peuvent être des biochimistes et biologistes sans avoir besoin d’une connaissance au sujet des méthodes de simulation. COPASI est développé par le groupe de Mendes (Virginia bioinformatics institute) http://www.copasi.org 21 Description du modèle Menu sous la forme d’un arbre hiérarchique 22 Les substances chimiques 23 Modèle avec quatre réactions 24 Équations différentielles 25 La matrice stoechiométrique est déduite à travers les réactions chimiques Les réactions: R1: A X R2: 2X + Y 3X R3: X + B Y + D R4: X E Matrice stoechiométrique Pas de A : 0 – 1= -1 R1 R2 R3 R4 A B D E X Y -1 0 0 0 1 0 0 0 0 0 -1 0 0 1 0 0 0 1 1 -1 -1 -1 1 0 26 Matrice stoechiométrique 27 La matrice jacobienne: Avec : f1 Vc 1.A Vc 1X X Y Vc 1.X B Vc 1.X f 2 Vc 1.X X Y Vc 1.X B 28 df1 dx df1 dY df 2 dX df 2 dY 2Vc X Y Vc B Vc 2 -3 Vc X 2 2Vc X Y Vc B Vc X X 0.5 Y 6 B 3 La matrice J est comme suit : 2 0.25 -0.25 Calcul des valeurs propres de J : P x Det J xI 7 1 Px x 2 x 4 4 33 16 1 1.593 2 0.156 29 Matrice jacobienne Valeurs propre 30 Rapport de stabilité 31 Choix de la méthode de résolution 32 Variation de la concentration ou bien du nombre de particules 33 34 35 Range est un programme écrit en C++ qui génère un réseau aléatoire selon le langage NEMO (NEtwork MOtif). NEMO est un langage reconnu par la grammaire Yacc et par conséquent, on peut obtenir un fichier en SBML (Systems Biology Markup Language). SBML est un format compréhensible par des nombreux logiciels, dédié pour la représentation des modèles de réseaux biochimiques. Le fichier SBML peut être introduit dans un simulateur biochimique comme par exemple le COPASI (COmplex PAtheway SImulator). RANGE est développé par James Long (Alaska university) http://range.sourceforge.net/ 36 G2 G1 G0 G3 G5 G4 G0 (P1+, P2+, P3-, P4-, P5+) 37 [root@localhost range]# . /range 100 [ GLIST( Nombre de gènes: ici 100 G1(P0-, P1-), G2(P1-), G3(P1-), G4(P1-), Convertir du langage NEMO au langage sbml … ] [root@localhost range]# . /range 100 | ./nemo2sbml SBML document written: regulatoryNetwork_100genes_0.xml Fichier sbml généré 38 39 Réaction de synthèse Réaction de dégradation 40 Les équations différentielles 41 Stabilité du système 42 43 Il existe plusieurs logiciels de visualisation: Pajek – Slovenia Biolayout, EBI GraphViz Cytoscape … Cytoscape est un logiciel de visualisation des réseaux génétiques qui supporte le langage SBML. 44 45