Module de Bioinformatique appliquée

publicité
Module de
Bioinformatique appliquée
à l’analyse des séquences
GB3 2012-2013
Karine Robbe-Sermesant
Romain Gautier
Objectifs du module
Bioinformatique appliquée à l’analyse des séquences
• Comprendre et apprendre à utiliser les informations et
les outils disponibles sur internet pour des applications
en biotechnologies
Principales
Bases de données
en Biologie
Outils disponibles
pour l’analyse des
séquences
Objectifs du module
Bioinformatique appliquée à l’analyse des séquences
• Avoir du recul sur le contenu d’une base de données de biologie
• Connaître et pouvoir utiliser un certains nombre d’outils
bioinformatiques
• Savoir rechercher l’outil et/ou la base de données le/la mieux
approprié(s) pour répondre à un certain nombre de questions
biologiques
Points du module
• Principales Base de données en Biologie
Nucléiques, Protéiques, Gene Ontology (GO), domaines protéiques…..
•
•
•
•
•
•
Alignement de séquences 2 à 2 (global, local)
Recherche de similitude de séquences (Blast)
Outils de recherche globaux (SRS)
Alignement multiple (ClustalW)
Navigateurs de génomes (EnsEmbl, UCSC)
Prédiction de structure protéique (2D, 3D)
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
A.Introduction à la bioinformatique
• La bio-informatique est un champ de recherche multi-disciplinaire :
Informatique
Mathématiques
Biologie
Médecine
Physique
Chimie/
Biochime
A. Introduction à la bioinformatique
• La bioinformatique recouvre des champs de recherches très
différents regroupant à la fois une forte utilisation de l’informatique
et des mathématiques pour répondre à une question biologique.
– Stockage et recherche d’informations (base de données de séquences,
d’annotations, outils globaux de recherche…)
– Analyse de séquences (alignements, phylogénie, recherche de motifs,
analyse de génomes…)
– Analyses omiques (génome, transcriptome, protéome…)
– Modélisations d’interactions géniques
– Modélisations moléculaires (Structure des protéines, des ARN)
– Modélisations physiologiques (cellules, organes, organismes, populations…)
– Analyse en imagerie médicale et microscopique
– …
A. Introduction à la bioinformatique
• La bioinformatique recouvre des champs de recherches très
différents regroupant à la fois une forte utilisation de l’informatique
et des mathématiques pour répondre à une question biologique.
– Stockage et recherche d’informations (base de données de séquences,
d’annotations, outils globaux de recherche…)
– Analyse de séquences (alignements, phylogénie, recherche de motifs,
analyse de génomes…)
– Analyses omiques (génome, transcriptome, protéome…)
– Modélisations d’interactions géniques
– Modélisations moléculaires (Structure des protéines, des ARN)
– Modélisations physiologiques (cellules, organes, organismes, populations…)
– Analyse en imagerie médicale et microscopique
– …
A. Introduction à la bioinformatique
• Paradoxe :
• La biologie porte une part de variabilité. Elle peut ne pas être
totalement prévisible et totalement reproductible et est souvent
dynamique
• Les Mathématiques et l’Informatique qui sont des sciences exactes
comportent des concepts et des théories précises
La bioinformatique nécessite souvent de décomplexifier des
problèmes biologiques (modèles)
A. Introduction à la bioinformatique
• Apport de l’informatique
Stockage et
organisation des
données
Automatisation
de tâches
manuelles
Permet de stocker par exemple les séquences des protéines et d’y associer
différentes annotations : positions des domaines, des sites actifs, d’un propeptide, spécificité d’expression, rôle fonctionnel, associations à des
pathologies….
Certaines tâches simples ne peuvent pas être réalisées à la main pour de
nombreuses séquences (manque de temps, d’intérêt et risque d’erreurs)
et sont donc automatisées (traduction, recherche de sites d’enzymes de
restriction…)
Un algorithme est une suite finie et non-ambiguë d’instructions
permettant de donner la réponse à un problème.
Algorithme
Cas particulier : les heuristiques
Puisque toutes les combinaisons ne peuvent être essayées dans un temps
raisonnable, certains choix stratégiques doivent être faits (cf Blast)
A. Introduction à la bioinformatique
• Apport des mathématiques
Statistiques
Permet d’évaluer des résultats entre eux en proposant
des calculs de scores et de probabilités (p-value)
=> Aide l’interprétation
Modélisation
Permet de faire des prédictions à partir d’une mise en
équation d’un système et des données biologiques
A. Introduction à la bioinformatique
• Quelques théories et concepts en Biologie :
• La théorie de l'évolution énoncée par Darwin (1859), complétée par Kimura avec la
théorie neutraliste de l'évolution (1983).
• Les lois de Mendel (en 1866 ).
=> Première théorie biologique à partir d'une analyse statistique.
• La mise en évidence des chromosomes comme support cellulaire de l'hérédité et
de l'information génétique (Morgan, 1913).
• La découverte de la structure en double hélice de l'ADN (Watson et Crick, 1953),
puis du mécanisme de la régulation génétique impliqué dans le dogme central de
la biologie moléculaire (1965). Des dérogations au dogme ont finalement été
trouvées notamment par Temin et Baltimore (1970)
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
B. La séquence biologique pour les informaticiens
•
Enoncer que l'information génétique de tout organisme vivant est contenue dans
une séquence fut un concept révolutionnaire. La séquence devient un élément
essentiel en biologie grâce à la biologie moléculaire (enzyme de restriction, PCR,
vecteur de clonage, évolution des techniques de séquençage)
⇒ La séquence devient un objet élémentaire et formel qui manquait à la
biologie pour se constituer une branche théorique
• C'est une chaîne de caractères basée sur un alphabet simple et fixe.
– ADN : 4 nucléotides ATCG
– ARN : 4 nucléotides AUCG
– Protéines : 20 acides aminés
•
La séquence est manipulable par des algorithmes !
⇒ Récupération et manipulation de certains éléments ou groupes
d’éléments dans la chaine de caractère
B. La séquence biologique pour les informaticiens
Le code génétique : une règle de traduction !
B. La séquence biologique pour les informaticiens
• D’où viennent les séquences ?
– Clonage d’une séquence d’ADNc dans un laboratoire
⇒ Obligation de publier la séquence pour pouvoir publier l’article scientifique correspondant
- Avant : publication de la séquence dans une des figures de l’article
- De nos jours : Soumission à une base de données
– Séquençage d’un banque d’Expressed Sequence Tag (EST)
Permettait de quantifier l’expression des transcrits dans différents tissus en clonant
des fragments de cDNA
(De nous jours, technique remplacée par les biopuces et le séquençage nouvelle génération)
– Grand projets et consortium
- Séquençage de génomes entiers
- Séquençage massif d’ADNc
Historique des technologies
d’analyse qualitative et quantitative des séquences
1975 1977
Séquençage
-Sanger
-Gilbert
Southern
Blot
1990
1995
puces à ADN
(microarray)
Séquençage par
mesure de la fluorescence
1999 2000
2006
2011
Evolution puces à ADN
Séquençage par
Electrophorèse capillaire
Next
« Next-next
Generation generation
Séquencing Sequencing »
(NGS)
Séquençage Haut débit !!!
(High Throughput Sequencing HTS)
B. La séquence biologique pour les informaticiens
• Les séquences les plus fréquentes :
ARN
ADN
Génome
Complet
Linéaire
ou Circulaire
Fragment
génomique
ADNc
(entier ou
partiel)
Protéine
EST
Contient
0 à n gènes
ADN
recombinant
Protéine
Fragment
Protéine
recombinante
B. La séquence biologique pour les informaticiens
• Les séquences issues de l’ADN recombinant:
–
–
–
Présence de séquences plasmidiques
Existence de séquences mutés
Transcrits issus des gènes fusionnés avec un tag
Exemples de tag utilisés pour la purification ou la détection :
B. La séquence biologique pour les informaticiens
• Les séquences issues de l’ADN recombinant:
Exemple de construction pour un gène de
fusion avec un tag en C-terminal
CDS du gène d’intérêt
Linker( + Site de Protéase)
TAG
Promoteur
Plasmide
Gène de résistance
à un antibiotique
ARNm de fusion
5’
3’
Protéine de fusion
N-term
C-term
B. La séquence biologique pour les informaticiens
• Les séquences issues de l’ADN recombinant:
Exemple de séquence nucléotidique contenant la séquence codante d’un gène de fusion
(ici fusion GST en Ct-terminal)
ATG
Promoter T7
STOP
ARF1
GST
STOP
*
CDS du tag
CDS du gène d’intérêt
Linker
Vecteur
(plasmide)
• Tags :
•
(avec ou sans
site protéase)
Vecteur
(plasmide)
GST(Glutathion-S transferase), GFP (Green fluorescent protein), (his)*6, FLAG…
La position du Tag peut être en N-terminal ou en C-terminal de la protéine
d’intérêt (sur le schéma: coté C-terminal)
B. La séquence biologique pour les informaticiens
Rappel de biologie : tous les ARN ne codent pas pour des protéines !!
Certains ARN sont dit « non-codants »
ARN
ARN non
codant
ARN codant
ARNm
ARNr
ARNt
ARN nc long
(>250 nt)
Petits ARN
B. La séquence biologique pour les informaticiens
Rappel de biologie : convention Brin sens = Brin codant
5'
3'
3'
5'
Transcription
Brin sens= brin codant
5'
3'
ARN
5'
3'
3'
5'
Brin matrice = brin antisens = brin non-codant
B. La séquence biologique pour les informaticiens
Rappel de Biologie : maturation des ARNm des eucaryotes
=> Epissage
(Berg, Biochemistry)
B. La séquence biologique pour les informaticiens
• Représentation graphique du gène eucaryote:
Amont
Aval
Exons
5’UTR
Promoteur
3’UTR
Introns
*
ATG
Région codante (CDS = coding sequence)
Premier exon
codon stop
TGA, TAA, TAG
Dernier exon
B. La séquence biologique pour les informaticiens
• Différences par rapport à une séquence de référence (polymorphisme ou
mutation)
Substitution
SNP
CNV
Insertion/Délétion
B. La séquence biologique pour les informaticiens
• Effet d’une mutation sur la séquence nucléotidique selon sa localisation
Exons
5’UTR
Promoteur
3’UTR
Introns
ATG
*
Effet sur la séquence de la protéine traduite ?
Régulation ?
Protéine
tronquée
-Mutation faux-sens (Substitution d’acide aminé)
-Mutation synonyme (même acide aminé)
-Mutation non-sens (introduction d’un codon STOP)
-Insertion(s)
-Délétion(s)
-Défaut d’épissage (jonction intron/exon)
Régulation ?
Exon
Protéine
plus longue
B. La séquence biologique pour les informaticiens
• Insertion/délétion d’1, 2 ou nucléotides groupés dans la région codante
1 nucléotide
2 nucléotides
Décalage de phase
(= Frameshift)
3 nucléotides
Pas de Décalage de phase
1 insertion/délétion
Pas de Décalage de phase
1 insertion/délétion
+ 1 substitution
B. La séquence biologique pour les informaticiens
• Exemples d’analyse bioinformatique d’une séquence :
> Description
MASEQUENCE
Le format fasta est un format de séquence nucléotidique couramment utilisé
dans les outils bioinformatiques
B. La séquence biologique pour les informaticiens
B. La séquence biologique pour les informaticiens
• Exemples d’analyse bioinformatique d’une séquence :
⇒ Création de l’inverse complémentaire (reverse complementary) outil RevSeq
B. La séquence biologique pour les informaticiens
• Exemples d’analyse bioinformatique d’une séquence :
⇒ traduction dans les 6 phases de lecture (= 6-frames translation)
Codon 1 Codon 2 Codon3 Codon4 Codon5
Phase 1+ :
B. La séquence biologique pour les informaticiens
• Exemples d’analyse bioinformatique d’une séquence :
⇒ traduction dans les 6 phases de lecture (= 6-frames translation)
Phase +3
Phase +2
Phase +1
Phase -1
Phase -2
Phase -3
B. La séquence biologique pour les informaticiens
• Exemples d’analyse bioinformatique d’une séquence :
⇒ traduction dans les 6 phases de lecture (= 6-frames translation) : Transeq
B. La séquence biologique pour les informaticiens
• Exemples d’analyse bioinformatique d’une séquence :
⇒ traduction dans les 6 phases de lecture (= 6-frames translation)
Phase +1
Phase +2
Phase +3
Phase -1
Phase -2
Phase -3
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
C. Bases de données : a) les bases de données en biologie
• Historique : Un besoin de stockage !
Dans les années 80 :
– Le nombre de séquences publiées augmente considérablement grâce aux avancées
technologiques et un accès facile pour la communauté des biologistes doit être
proposé.
– Les échanges de données informatiques commencent être facilités par le
développement de réseaux informatiques
– Un consensus apparaît : il faut disposer de centres de références dans lesquels toutes
les séquences connues seront déposées. Des serveurs "mondiaux" naissent :
1988 : NCBI aux USA / Base de données Genbank
1986 : DDBJ au Japon / Base de données DDBJ
1980 : EBI en Europe / Base de données EMBL
1986 : SIB en Suisse / Base de données SwissProt
Séquences nucléiques
Séquences protéiques
C. Bases de données : a) les bases de données en biologie
1995 Haemophilus influenzae
1,8. 106 pb
1700 gènes
1997 Saccharomyces cerevisiae
1,3. 107 pb
6 400 gènes
1999 Caenorhabditis elegans
9,7. 107 pb
19 000 gènes
2000 Drosophila melanogaster
1,37. 108 pb
13 000 gènes
2001 (2004) Homme
3,4. 109 pb
25000 gènes
(Gregory, 2005)
39
C. Bases de données : a) les bases de données en biologie
•
Organisation des données :
• Notion d’identifiant unique
Un identifiant permet de retrouver un élément dans un base de données de façon non ambiguë
• Fichiers Textes
Les informations peuvent être présentées dans une fiche (= un fichier texte) avec une fiche pour
chaque élément de la base. Cette fiche peut être présentée ensuite sous format html avec des
hyperliens, des illustrations….
• Base de données relationnelles
Souvent, les bases de données en biologie utilisent des outils informatiques de
stockage de l’information = Système de gestion de Base de données relationnelles (SGBD)
• Organisation des informations sous forme de tables ayant des liens entre elles
• Efficacité de stockage et de recherche d’informations croisées (« requêtes »)
• Références Croisées
• Liens entre les différentes bases de données pour permettre aux biologistes de trouver un
maximum d’informations
C. Bases de données : a) les bases de données en biologie
PubMed
PMID
PubMed IDentifiant
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
C. Bases de données : b) Séquences nucléiques
• NCBI / Genbank (USA)
– Format Genbank des fiches
– Il existe des subdivisions spécifiques :
Genbank
• Expressed Sequence Tag (dbEST)
• Genome Survey Sequence (GSS)
• EMBL (Europe)
– Format EMBL des fiches
– ENA : EMBL nucleotide Archive
ENA : EMBL nucleotide
Archive
• DDBJ (Japan)
• Genbank comme EMBL et DDBJ sont des bases de donnes de soumission
et contiennent donc de nombreuses redondances.
=> Des bases de données comme RefSeq (NCBI) ont été créée pour regrouper les
séquences similaires de transcrits et limiter la redondance.
C. Bases de données : b) Séquences nucléiques
Echange des nouvelles soumissions toutes les 24h !
Genbank
ENA : EMBL nucleotide
Archive
C. Bases de données : b) Séquences nucléiques
Echange des nouvelles soumissions toutes les 24h !
Genbank
ENA : EMBL nucleotide
Archive
En une journée, la séquence soumise par le chercheur français à l’EMBL va se retrouver dans
les 3 banques de données avec un reformatage spécifique à chaque banque.
C. Bases de données : b) Séquences nucléiques
• Soumission d’une séquence et suite :
• Le chercheur est l’auteur de la séquence, il soumet :
• La séquence nucléotidique
Attention, cette séquence peut contenir des erreurs de séquences :
- erreur de séquençage
- erreur de manipulation informatique (envoie de l’inverse
complémentaire, séquence de vecteurs de clonage …)
• Les informations supplémentaires = des annotations
Organisme, position des gènes si ADN génomique, du CDS si ARNm…..
Elle peut aussi contenir des erreurs d’annotations souvent dues au manque de
connaissances biologiques à la date de soumission
• Chaque banque réorganise l’information (identifiant, format spécifique)
Mise
à
jour
• Les annotations vont évoluer avec les nouvelles connaissances en biologie =>
Beaucoup d’annotations sont automatiques
!
• Des liens vers d’autres bases de données seront rajoutées
Références croisées (= Cross-References)
C. Bases de données : b) Séquences nucléiques
C. Bases de données : b) Séquences nucléiques
Projets de
Métagénomique
C. Bases de données : b) Séquences nucléiques
Format EMBL
Références
Identifiants
permettant de faire un
lien vers d’autres
banques de données
C. Bases de données : b) Séquences nucléiques
Format EMBL (fichier texte)
P53 humain
PMID
PubMed IDentifiant
C. Bases de données : b) Séquences nucléiques
Format EMBL (fichier texte)
Position du CDS
Identifiants
permettant de faire un
lien vers d’autres
banques de données
C. Bases de données : b) Séquences nucléiques
Format EMBL (fichier texte)
Lien vers Uniprot
Traduction du CDS
Séquence nucléique
C. Bases de données : b) Séquences nucléiques
Fiche au format
Genbank
(ici version html)
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
C. Bases de données : UniProtKB
http://www.uniprot.org
UniProt Knowledgebase: Collaboration entre EBI, SIB et PIR
Décrire dans une fiche unique les produits derivés d’un gène dans une espèce donnée.
-
UniProtKB/Swiss-Prot
Non-redondante, annotation manuelle.
- UniProtKB/TrEMBL
Traduction automatique de la base de données EMBL selon les annotation de CDS
Redondante, annotation automatique
!
C. Bases de données : c) UniProtKB
• TrEMBL
Ensemble des séquences protéiques conceptuelles
obtenues par traduction automatique des séquences codante
contenues dans EMBL, avec des annotations non vérifiées, mais
avec l’objectif d’obtenir une couverture maximale
C. Bases de données : c) UniProtKB
• Les annotations :
Nom de la protéine, Nom du gène
Fonction
Activité enzymatique
Composition en domaines
Localisation cellulaire
Spécificité d’expression (tissus, stade de développement…)
Implication dans des pathologies
Effet des mutations
Interactions moléculaires
Liens vers d’autres base de données = Références croisées
(EMBL, SMART,GO, PDB,OMIM….)
C. Bases de données : c) UniprotKB
Statistiques pour UniprotKB/TrEMBL
Release 2011_12 of 14-Dec-2011 of UniProtKB/TrEMBL contains 18510272 sequence entries
Total number of species represented in this release of UniProtKB/TrEMBL: 406001
C. Bases de données : c) UniprotKB
Statistiques pour UniprotKB/SwissProt
Release 2011_12 of 14-Dec-11 of UniProtKB/Swiss-Prot contains 533657 sequence entries
C. Bases de données : c) UniprotKB
Statistiques pour UniprotKB/TrEMBL
!
C. Bases de données : c) UniprotKB
Statistiques pour UniprotKB/Swissprot
!
C. Bases de données : c) UniprotKB
Statistiques pour UniprotKB/Swissprot
C. Bases de données : c) UniprotKB
C. Bases de données : c) UniprotKB
REVIEWED !
ACC
ID
1 seul organisme par fiche
C. Bases de données : c) UniprotKB
C. Bases de données : c) UniprotKB
1 seul organisme par fiche
C. Bases de données : UniprotKB
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
C. Bases de données : d) Domaines protéiques
• Les domaines sont les pièces légos de l’évolution
• Différentes base de données de domaines :
– Répertorie les différents domaines protéiques
– Annote les protéines avec ses domaines
– Egalement : analyse de motifs, de familles protéiques, de sites de
phosphorylations…
INTERPRO
C. Bases de données : d) Domaines protéiques
Exemple : base de données SMART
IGF1R_HUMAN
Furin-like
Repeats
Domain
Faible
complexité
Fibronectine
Type 3
Domain
Tyrosine kinase
Domain
Transmembrane
domain
C. Bases de données : d) Domaines protéiques
IGF1R_HUMAN
EGFR_HUMAN
FYN_HUMAN
FGFR1_HUMAN
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
C. Bases de données : e) Gene Ontology
• Notion d’ontologie :
•
Une ontologie est l'ensemble structuré des termes et concepts représentant le
sens d'un champ d'informations d'un domaine de connaissances.
•
L'ontologie constitue en soi un modèle de données représentatif d'un
ensemble de concepts dans un domaine, ainsi que des relations entre ces
concepts.
=> Un recensement des concepts sous la forme d'un vocabulaire contrôlé.
⇒ Liaison de ces concepts par des relations qui modélisent notre
connaissance. Exemple Gene Ontology (is_a , part_of_a)
C. Bases de données : e) Gene Ontology
• Exemple :
Meuble
is_a
is_a
Meuble de
rangement
Siege
is_a
is_a
is_a
Chaise
fauteuil
Part_of_a
Part_of_a
Dossier
Tabouret
is_a
Placard
C. Bases de données : e) Gene Ontology
Impossible d'afficher l'image. Votre ordinateur manque peut-être de mémoire pour ouv rir l'image ou l'image est endommagée. Redémarrez l'ordinateur, puis ouv rez à nouv eau le fichier. Si le x rouge est toujours affiché, v ous dev rez peut-être supprimer l'image av ant de la réinsérer.
•
Exemple d’outil d’annotation : la « Gene Ontology »
– Gene Ontology (GO)
– Gene Ontology Annotation (GOA)
•
•
http://geneontology.org/
http://www.ebi.ac.uk/ego
Utilisation d’un vocabulaire controlé
Lien entre les termes sous forme de graphes
– Directed Acyclic Graph (DAG)
• 3 composants dans GO :
– Cellular component
Endosome, Mitochondrion, Apoptosome, Centriole…
– Biological process
Notch signaling pathway, G1 phase, Serotonin biosynthesis…
– Molecular function
Inositol 3-kinase activity, clathrin binding…
http://www.ebi.ac.uk/ego
http://www.ebi.ac.uk/ego
!
Automatique
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
A. Introduction à la bioinformatique
B. La séquence biologique pour les informaticiens
C. Les bases de données en Biologie :
a. Un besoin de stockage et d’organisation : les bases de données en biologie
b. Bases de données nucléiques : Genbank/ EMBL/ DDBJ
c. Bases de données protéiques : UniprotKB/Trembl et UniprotKB/SwissProt
d. Bases de données de domaines protéiques
e. Bases de données d’ontologies : Gene Ontology (GO)
f. Bases de données de structures : PDB
C. Bases de données : f) Structures protéiques
•
Protein Data Bank ou PDB est une collection mondiale de données sur la structure
tridimensionnelle (ou structure 3D) de macromolécules biologiques : protéines,
essentiellement, et acides nucléiques.
•
Ces structures sont essentiellement déterminées par cristallographie aux rayons X ou
par spectroscopie RMN.
•
•
“ As of 18 January 2012 the PDB contains 78628 entries and EMDB contains 1242 entries »
Identifiant de la structure: code 4 lettres/chiffres
C. Bases de données : f) Structures protéiques
PDBe
(PDB in Europe)
Cours1
Introduction à la bioinformatique et
aux bases de données en Biologie
Conclusion : Bioinformatique mais… Interprétation biologique !
•
De nombreuses informations sont mises à la disposition de le communauté
scientifique en biologie par le mise en place de bases de données spécifiques.
•
Il existe des références croisées entre les différentes bases de données.
•
Les banques de données biologiques sont très souvent le point de départ pour
réaliser une analyse, il est cependant essentiel de garder à l’esprit que des
erreurs (manuelles ou automatiques) sont parfois présentes…
Téléchargement