bioinfo - automatictn

publicité
1

La bioinformatique

Concepts de base de la biologie moléculaire

De l’ADN aux protéines

Notion de réseaux de régulation génétique

Modélisation, simulation et analyse (Copasi et Range)
2
La bioinformatique est un champ de recherche multi-disciplinaire où travaillent
des biologistes, informaticiens, mathématiciens et physiciens, dans le but de
résoudre un problème scientifique posé par la biologie.
 Pour les biologistes:


Utilisation de logiciels informatiques pour traiter rapidement les
données biologiques.
Base de données permettant de stocker et gérer l’information
biologique.
 Pour les informaticiens:




Modélisation de problèmes de biologie moléculaire.
Développement de méthodes mathématiques ou informatiques
formelles pour les résoudre.
Implémentation d’algorithmes permettant d’analyser les données
biologiques.
Validation sur des données simulées et réelles.
3
S’applique à tout type de données biologiques:







Séquences d’ADN et de protéines.
Structures d’ARN et de protéines.
Contenu en gènes des génomes.
Alignement des séquences.
Puces à ADN (Microarrays)
Réseaux d’interactions entre protéines.
Réseaux de régulation génétique.
Défis principaux de la bioinformatique:
 Indentification de l’ensemble des gènes
 Prédire les fonctions des gènes.
4
Concepts de base de la biologie
moléculaire
Définitions…
5
Que sont les gènes?
 Les gènes, des composantes de l'ADN, sont les unités
fonctionnelles du génome. Ils contiennent toute l'information
nécessaire pour créer les protéines.
 Les gènes sont situés le long de structures filiformes appelées
chromosomes.
 Les chromosomes se trouvent dans le noyau de la cellule et sont
faits d'ADN et de protéines. Un chromosome peut contenir des
milliers de gènes.
 Les gènes renferment des instructions pour la fabrication des
protéines dans les cellules. Les protéines constituent une partie
importante des nombreux processus biologiques qui ont lieu dans
les cellules.
6
De l’ADN aux protéines
LES ÉTAPES…
7
L’ADN est situé dans le noyau, il constitue le matériel génétique
Double hélice
d’ADN
noyau
cytoplasme
APPARIEMENT DES BASES:
A = Adénine
T = Thymine
C = Cytosine
G = Guanine 8
L’ARNm (acide ribonucléique) copie et transporte l’information
génétique du noyau au cytoplasme
noyau
ARN messager
cytoplasme
APPARIEMENT DES BASES :
A = Adénine
U = Uracile
C = Cytosine
G = Guanine
9
Le ribosome déchiffre les codons de l’ARNm et participe à la formation de
la protéine
noyau
Ribosome
cytoplasme
10
L’ARNt reconnaît le codon de l’ARNm et apporte l’acide aminé qui y
correspond pour former une chaîne polypeptidique
Liaison peptidique
a.a
a.a
ARNt ARNt
Anticodon
…
ACG UAC
Codon
Ribosome
11
1. Transcription de l’ADN en ARNm (dans le noyau)
TA C A C G G G AAT T
AT G T G C C C T TAA
2. L’ARNm sort du noyau et se fixe sur le ribosome dans le cytoplasme où la
protéine sera formée des acides aminés apportés par l’ARNt (Traduction)
Met
Cys
Pro
STOP
Protéine
formée
ARNt ARNt
ARNt
ARNt
UAC ACG G GA AUU
12
Deuxième base
U
C
A
G
CUU
CUC
CUA
CUG
AUU
AUC
AUA
AUG
GUU
GUC
GUA
GUG
Phe
Leu
Leu
Ile
Met *
Val
* Codon de départ
UCU
UCC
UCA
UCG
CCU
CCC
CCA
CCG
ACU
ACC
ACA
ACG
GCU
GCC
GCA
GCG
A
Ser
UAU
UAC
UAA
UAG
Pro
CAU
CAC
CAA
CAG
Thr
Ala
AAU
AAC
AAA
AAG
GAU
GAC
GAA
GAG
G
Tyr
Stop
Stop
His
Gln
Asn
Lys
Asp
Glu
UGU
UGC
UGA
UGG
CGU
CGC
CGA
CGG
AGU
AGC
AGA
AGG
GGU
GGC
GGA
GGG
Cys
Stop
Trp
Arg
Ser
Arg
Gly
U
C
A
G
U
C
A
G
U
C
A
G
Troisième base
Première base
U
UUU
UUC
UUA
UUG
C
U
C
A
G
13
Notion de réseaux de régulation
génétique
14
Il existe plusieurs protéines particulières, spécifiquement dédiées à la
régulation.
Ces protéines se lient à la molécule d’ADN sur des sites particuliers appelés
opérateurs et ont pour effet:
 Bloquer la transcription
 Accélérer la transcription
Les gènes codent pour des protéines alors que certaines de ces protéines
interviennent dans l’expression génétique. (Phénomène de rétroaction)
Ces boucles de rétroaction sont à l’origine de la notion
du réseau génétique.
15
La bactérie a besoin de l’énergie pour survivre, elle doit dégager les molécules
de glucose et récupérer de l’énergie.
En cas de manque de glucose, la bactérie doit se tourner vers une autre source
d’énergie: le lactose.
Jacob et Monod ont observé que lorsqu’il y a un manque de glucose et en
présence de lactose, la concentration en perméase et galactosidase subit une
brusque augmentation.
La bactérie a besoin de ces deux molécules pour traiter le lactose.
Ce phénomène constitue une bascule génétique, on parle également
d’induction
16
Gène qui code pour la galactosidase
Gène qui code pour la
perméase
Opérateur
I
Gal
Per
Trans
…
Opéron lactose bloqué
débloqué
Répresseur
J. Della-Dora, L.Tournier: Les réseaux de régulation génétique
un exemple de modélisation en biologie
17
La dégradation lactique n’est nécessaire que lorsque la cellule ne dispose plus
de glucose.
Il existe alors une molécule au rôle d’activateur (CAP) qui forme un complexe
avec une autre substance AMP (n’est présente que s’il n’y a plus de glucose)
pour augmenter la transcription.
On distingue alors quatre états:
 GL : La cellule dispose du glucose et n’a pas donc besoin du lactose:
l’opéron est bloqué.
 GL : La cellule n’a plus de glucose et dispose de lactose. L’opéron est
débloqué et accéléré par l’AMP. On parle d’induction activée.
 GL : La cellule dispose des deux sucres. L’opéron est débloqué mais la
transcription est freinée par la présence de glucose (Pas de AMP).
 GL : La cellule ne dispose d’aucun sucre.
18
Palsson: Systems biology
19
Modélisation, simulation et analyse
Copasi, Range…
20
Modélisation
Simulation
Analyse
Éditeur de texte
Outils de commande
Représentation graphique
Outils de traçage (plotting)
Copasi rassemble tout ceci dans un outil avec une interface graphique
Les utilisateurs de Copasi peuvent être des biochimistes et biologistes sans
avoir besoin d’une connaissance au sujet des méthodes de simulation.
COPASI est développé par le groupe de Mendes (Virginia
bioinformatics institute) http://www.copasi.org
21
Description du modèle
Menu sous la forme d’un
arbre hiérarchique
22
Les substances chimiques
23
Modèle avec quatre réactions
24
Équations différentielles
25
La matrice stoechiométrique est déduite à travers les réactions chimiques
Les réactions:
R1: A  X
R2: 2X + Y  3X
R3: X + B  Y + D
R4: X  E
Matrice stoechiométrique
Pas de A : 0 – 1= -1
R1 R2 R3 R4
A
B
D
E
X
Y
-1
0
0
0
1
0
0 0 0
0 -1 0
0 1 0
0 0 1
1 -1 -1
-1 1 0
26
Matrice stoechiométrique
27
La matrice jacobienne:
Avec :
f1  Vc 1.A  Vc 1X X Y   Vc 1.X B  Vc 1.X 
f 2  Vc 1.X X Y   Vc 1.X B
28
df1
dx
df1
dY
df 2
dX
df 2
dY
 2Vc X Y   Vc B   Vc
2
-3
 Vc  X 
2
 2Vc X Y   Vc B 
 Vc X 
X   0.5
Y   6
B   3
La matrice J est
comme suit :
2
0.25
-0.25
Calcul des valeurs propres de J :
P x   Det  J  xI 
7
1
Px   x 2  x 
4
4
33
16
1  1.593

2  0.156
29
Matrice jacobienne
Valeurs propre
30
Rapport de stabilité
31
Choix de la méthode de résolution
32
Variation de la concentration ou bien du
nombre de particules
33
34
35
Range est un programme écrit en C++ qui génère un réseau aléatoire selon le
langage NEMO (NEtwork MOtif).
NEMO est un langage reconnu par la grammaire Yacc et par conséquent, on
peut obtenir un fichier en SBML (Systems Biology Markup Language).
SBML est un format compréhensible par des nombreux logiciels, dédié pour la
représentation des modèles de réseaux biochimiques.
Le fichier SBML peut être introduit dans un simulateur biochimique comme par
exemple le COPASI (COmplex PAtheway SImulator).
RANGE est développé par James Long (Alaska university)
http://range.sourceforge.net/
36
G2
G1
G0
G3
G5
G4
G0 (P1+, P2+, P3-, P4-, P5+)
37
[root@localhost range]# . /range 100
[
GLIST(
Nombre de gènes: ici 100
G1(P0-, P1-),
G2(P1-),
G3(P1-),
G4(P1-),
Convertir du langage NEMO
au langage sbml
…
]
[root@localhost range]# . /range 100 | ./nemo2sbml
SBML document written: regulatoryNetwork_100genes_0.xml
Fichier sbml généré
38
39
Réaction de synthèse
Réaction de dégradation
40
Les équations différentielles
41
Stabilité du système
42
43
Il existe plusieurs logiciels de visualisation:





Pajek – Slovenia
Biolayout, EBI
GraphViz
Cytoscape
…
Cytoscape est un logiciel de visualisation des réseaux génétiques qui supporte
le langage SBML.
44
45
Téléchargement