Introduction à la Bio-Informatique

publicité
Introduction à la
Bio-Informatique
Nadia El-Mabrouk
Plan de la présentation
Définition de la bioinformatique
Défis de la biologie moléculaire
Bases de données
Analyse des séquences d’ADN, ARN et protéines
1.
2.
3.
4.
1.
2.
3.
5.
6.
7.
8.
Recherche dans les bases de données
Alignement de deux séquences
Alignement multiple
Prédiction de gènes
Prédiction de structures d’ARN et de protéines
Théorie de l’évolution
Expression des gènes, puces à ADN
1. Qu’est-ce que la Bio-Informatique?
Champs multi-disciplinaire qui utilise des méthodes informatiques
(mathématiques, statistiques, combinatoires…) pour:





Formaliser des problèmes de biologie moléculaire;
Développer des outils formels;
Analyser les données;
Prédire des résultats biologiques;
Organiser les données.
Discipline relativement nouvelle, qui évolue en fonction des
nouveaux problèmes posés par la biologie moléculaire.
Pas de consensus sur la définition de la bio-informatique.
La Bio-Informatique s’applique à tout type de données biologiques:
 Les séquences d’ADN et de protéines
 Les structures d’ARN et de protéines
 Les contenus en gènes des génomes
 Les puces à ADN (microarrays)
 Les réseaux d’interactions entre protéines
 Les réseaux métaboliques
 Les arbres de phylogénie
Utilités:
 Faire avancer les connaissances en biologie, en génétique
humaine, en théorie de l’évolution…
 Aider à la conception de médicaments
 Comprendre les maladies complexes..
2. Défis de la biologie moléculaire
Analyser, comprendre et organiser une masse
de données biologiques:
 Plus de 169 génomes complètement
séquencés et publiés, dont l’homme (23
paires de chros.) et la souris (20 paires de
chro.)
 Projet HapMap du génome humain:
Construction de la carte des haplotypes
 Projets de séquençage de plus de 400
procaryotes et 360 eucaryotes
Défis de la biologie moléculaire (suite)



Décoder l’information contenue dans les séquences d’ADN et de
protéines

Trouver les gènes

Différencier entre introns et exons

Analyser les répétitions dans l’ADN

Identifier les sites des facteurs de transcription

Étudier l’évolution des génomes
Génomique structurale:

Modéliser les structures 3D des protéines et des ARN structurels

Déterminer la relation entre structure et fonction
Génomique fonctionnelle

Étudier la régulation des gènes

Déterminer les réseaux d’interaction entre les protéines
3. Les bases de données bioinformatiques
les plus utilisées

NCBI, National Center for Biotechnology Information






EMBL, The European Molecular Biology Laboratory
ExPASy, Expert Protein Analysis System, Protéomique





Swiss-Prot: Séquences de protéines
PROSITE: Domaines et familles de protéines
SWISS-MODEL: Outil de prédiction 3D de protéines
Différents outils de recherche
PDB, Protein Data Bank



GenBank: Séquences d’ADN (3 billion de paires de bases)
Site officiel de BLAST
PubMed: Permet la recherche de références
COGs: Familles de gènes orthologues …
Base de données de structures 3D de protéines
Visualisation et manipulation de structures
SCOP, Structural Classification of Proteins
4. Intérêt des séquences



La séquence nucléotidique d’un gène détermine la
séquence d’AA de la protéine
La séquence d’une protéine détermine sa structure
et sa fonction
Généralement, une similarité de séquence implique
une similarité de structure et de fonction (l’inverse
n’est pas toujours vrai)
Évolution basée, en grande partie, sur la duplication
suivie de modification. D’où, beaucoup de
redondance dans les bases de données
4.1 Recherche dans les bases de données
Tache courante d’un biologiste





Est-ce qu’une nouvelle séquence a déjà été complètement ou
partiellement déposée dans les bases de données?
Est-ce que cette séquence contient un gène?
Est-ce que ce gène appartient à une famille connue? Quelle est
la protéine encodée?
Existe-t-il d’autres gènes homologues?
Existe-t-il des séquences non-codantes similaires. Répétitions ou
séquences régulatrices
Logiciels les plus connus: Smith-Waterman, FASTA et BLAST
4.2 Alignement local et global
Alignement de deux séquences: Méthodes naturelle pour comparer
deux séquences. On compte le nombre de ``différences’’
(insertion, suppression, substitutions)
Alignement Global:
CAG CA– C GTG GATTCTC G G
|
| |
| | | | |
| |
|
TA TCAG C G TG G – CAC TAG C
Alignement Local:
CAGCAC T T – G G A T TCTCGG
| |
| | |
TAGT T T A G G - T GGCAT
Recherche:
CAG CA– CT TG GATTCTC G G
| |
|
| | |
CAGCGTGG
Comparaison de deux génomes
Signification de l’alignement de séquences
Modèle sous-jacent: Mutations ponctuelles
Exemple: Substitition de caractère
Séquence ancestrale
inconnue
GCG
| |
ACG
A
B
Séquences observées
A
ACG
G
GCG
ACG
Alignement pondéré
Au lieu de compter le nombre de ``mutations’’, matrice de score
pour les substitutions. Matrices empiriques basées sur des
alignements de séquences ``homologues’’. Sensées refléter le
taux de mutation d’un AA en un autre
PAM250, BLOSUM62 les plus utilisées
Exemple:
Case (i,j) de PAM250: Fréquence avec laquelle Ai remplacée par Aj
dans les séquences qui divergent de 250 PAM (taux d’évolution
entre les séquences comparées)
Case (i,j) de BLOSUM: Fréquence avec laquelle Ai est aligné avec
Aj dans des alignements de la base de données BLOCKS
Matrice BLOSUM 62
Score positif pour les identités,
et négatif pour les mismatchs
4.3 Alignement multiple






Trouver des caractéristiques communes à une
famille de protéines
Relier la séquence à la structure et à la fonction
Caractériser les gènes homologues
Caractériser les régions conservées et le régions
variables
Déduire des contraintes de structures pour les ARN
Construire des arbres de phylogénie
5. Prédiction de gènes
Étant donné une nouvelle séquence d’ADN, identifier les
régions qui codent pour des protéines
Trouver les ORF (open reading frame): suite de codons
entre un START et un STOP. Tester 6 cadres de lecture
5'
3'
atgcccaagctgaatagcgtagaggggttttcatcatttgaggacgatgtataa
1 atg ccc aag ctg aat agc gta gag ggg ttt tca tca ttt gag gac gat gta taa
M P K L N S V E G F S S F E D D V *
2 tgc cca agc tga ata gcg tag agg ggt ttt cat cat ttg agg acg atg tat
C P S * I A * R G F H H L R T M Y
3 gcc caa gct gaa tag cgt aga ggg gtt ttc atc att tga gga cga tgt ata
A Q A E * R R G V F I I * G R C I
Pour valider un ORF:
 Considérer la taille de l’ORF (assez long)


Est-ce que l’usage des codons est similaire
à celui des autres gènes du même
organisme?
Rechercher la séquence d’AA obtenue
dans les bases de données. Permet
également de localiser les exons
Programmes de prédiction de gènes
Considèrent:
 Caractéristiques des
séquences d’introns,
exons, sites d’épissage,
sites de régulation
 Séquences conservées
(régions promotrices,
facteurs de transcription,
fin de transcription)
Caractéristiques spécifique
à chaque espèce.
6. Prédiction de structures 2D et 3D
d’ARN


Retrouver les nucléotides co-variants dans un alignement
multiple
Minimiser l’énergie libre
Prédiction de structures de protéines



Retrouver des
domaines conservés à
partir d’un alignement
d’AA
Comparer avec la
structure connue
d’une protéine
homologue
Algorithmes
d’apprentissages et de
réseaux de neurones.
Résultat dépend de
l’ensemble
d’entrainement
Problème très difficile
en pratique
7. Théorie de l’évolution




Tous les organismes vivants dérivent d’un ancêtre
commun
Diversité due à la spéciation (séparation d’une
espèce en deux espèces)
Pas d’information directe sur le passé.
Reconstruction d’une phylogénie basée sur des
modèles simplifiés utilisant des données incomplètes
Modèles basés sur l’idée que les caractères sont
transmis d’une génération à l’autre, et au cours de
l’évolution subissent une suite de mutations
Arbres de phylogénie




Racine: Ancêtre commun
Feuilles: Espèces actuelles
Nœuds internes: Points de spéciation
Taille des branches: Temps d’évolution
Types de données et Méthodes
 Types de données:
 Séquences d’ADN
 Séquences de protéines
 Méthodes




Alignement de séquence
Calcul de distances
Minimisation du nombre de mutations
Approches probabilistes de maximum de
vraisemblance
Réarrangements génomiques





Duplication
Suppression
Inversion
Transposition
Translocation
réciproque
Comparaison de l’ordre des gènes
Réarrangements génomiques sur le chromosome X
de l’homme et de la souris
8. Expression des gènes – Puces à ADN
Mesure les
niveaux
d’expressions des
gènes.
À partir de l’ARNm
recueilli dans une
cellule
Puce à ADN comparant contenant tous les
gènes de la levure
Objectifs





Classifier les gènes selon leur niveau de
transcription
Retrouver des réseaux de régulation entre
les gènes
Déduire la fonction de gènes inconnus
Étudier le comportement des gènes face à
différents stimuli, à différents cycles de la
cellule
Trouver les gènes responsables de maladies
7. Projet du génome humain
ADN de deux individus similaire a 99.9%
0.1% restant: Spécificité génétique de chaque individu
Single nucleotide polymorphisms (SNPs): Nucléotides qui diffèrent
entre deux individus. Marqueurs de choix pour:
• Déterminer les allèles à l’origine des maladies mendéliennes rares
• Trouver les gènes responsables de maladies fréquentes
• Comprendre l’histoire des populations
Haplotypes fréquents pour dys44
C C G A T A C T T A C C T N G T A G G C A A G A C G T T N A C T C C G G
B001
. A .
.
.
.
T .
.
.
.
T
.
. A .
.
T .
T
.
T T .
. A .
.
.
.
.
.
T T A .
B003
. A .
.
.
.
T .
.
.
.
T
.
. A .
.
T .
T
.
T T .
A A .
.
.
.
.
.
T T A .
B002
A .
. C .
.
T .
.
.
.
T
.
.
.
.
.
.
.
.
.
T .
.
.
.
C .
.
.
.
.
.
B004
A .
. C .
.
T .
.
.
.
T
.
.
.
.
.
.
.
.
.
T .
.
.
.
C .
.
.
.
.
T T A .
B006
.
.
.
.
C .
.
.
.
.
T
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. D .
.
.
.
B008
.
.
.
.
.
.
T .
. G .
T
.
. A .
.
.
.
T G T T .
. A .
.
.
.
.
.
T T A .
B005
.
.
.
.
.
.
T .
. G .
T
.
. A . G .
.
T
.
T T .
A .
.
.
.
.
.
.
T T A .
B011
. A .
.
.
.
T .
. G .
T
.
. A . G T .
T
.
T T .
A .
.
.
.
.
.
.
T T A .
B009
. A .
.
.
.
T .
. G .
T
.
. A .
.
T .
T
.
T T .
A A .
.
.
.
.
.
T T A .
B016
. A .
.
.
.
T .
. G .
T
.
.
.
.
.
T .
T
.
T T .
A A .
.
.
.
.
.
T T A .
B032
. A .
.
.
.
T .
. G .
T
.
.
A .
.
T .
T
.
T T .
. A .
.
.
.
.
.
T T A .
B013
.
.
.
.
.
.
T .
. G .
T
.
. A . G T .
T
.
T T .
.
.
.
.
.
.
.
.
T T A .
B051
.
.
.
.
.
.
T .
. G .
T
.
. A . G T .
T
.
T T .
A .
.
.
.
.
.
.
T T A .
.
.
.
.
.
. A .
Haplotype
Suite de sites polymorphes le long d’un segment d’ADN
Carte des haplotypes: Décrit la diversité génétique d’une population
Chez l’homme, deux copies de chaque chromosome (à part X,Y)
Génotype:
…C A C G G A C G C… (mère)
…C T C G G A G G C…
(père)
Génotypage: Trouver les haplotypes à partir des génotypes
HapMap
Projet international pour la construction de la carte des
haplotypes
(Japon, U.K., Canada, Chine, Nigéria, USA)
Échantillon de 270 personnes. Théoriquement,
suffisant pour retrouver la plupart des haplotypes
fréquents (fréquence > 5%)
En Novembre 2003: 13 million de génotypes à partir
de 145,554 SNPs
Un des objectifs de HapMap: Trouver quelques
marqueurs qui caractérisent tous les haplotypes
Téléchargement