Introduction aux bases de données

publicité
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Introduction aux bases de données: application en
biologie
D. Puthier1
1
ERM206/Technologies Avancées pour le Génome et la Clinique,
http://tagc.univ-mrs.fr/staff/Puthier,
[email protected]
ESIL, 2009
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
introduction
Toute activité humaine génère des données:
Ex: Au sein d’une entreprise, les données manipulées ont souvent la
même structure: nom, prénom, sexe, date de naissance...
Si ces données sont générées par des moyens informatiques: base de
données (BDD – Database)
Définition: Une base de données est un ensemble structuré de données,
géré à l’aide d’un ordinateur.
Capable de gérer des volumes très importants.
Exhaustivité: la base contient toutes les informations requises pour le
service que l’on en attend
Unicité: la même information n’est présente qu’une seule fois
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Motivation
Accumulation des données biologiques
Séquences génomiques
Données de génomique fonctionnelle
Organisation et intégration des données
Annotations fonctionnelles
Modélisation explicative et prédictive
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Rapide historique
Nombreuse DB apparues dans les années 80.
EMBL Nucleotide Sequence Database, Hamm GH et al (1986) Nucleic
Acids Res., 19, 5-9
GenBank genetic sequence databank, Bilofsky HS et al (1986) Nucleic
Acids Res., 14, 1-4.
Face aux nombreuses applications des banques moins généralistes ont
vu le jour (PROSITE, BLOCKS, TRANSFAC,...).
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Quelques bases de données.
Séquences nucléiques: EMBL, GenBank, DDBJ (DNA Data Bank),...
Séquences protéiques: SwissProt,...
Motifs protéiques: PROSITE, Pfam,...
Motifs nucléiques: TRANSFAC, JASPAR,...
Génomes annotés: NCBI, ENSEMBL,...
Structures: PDB, DALI,...
Métabolisme: KEGG, iPath (EMBL),...
Annotation: Gene Ontology,...
Transcriptome: ArrayExpress, GEO, TranscriptomeBrowser,...
Signalisation: KEGG, BIOCARTA,GenMAPP,...
Interaction: BIND, DIP, HPRD, APID, STRING...
Proteomics: ExPASy,...
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
NAR database issue
The current issue of Nucleic Acids Research includes descriptions of 179
databases, of which 95 are new. These databases (along with several
molecular biology databases described in other journals) have been
included in the Nucleic Acids Research online Molecular Biology
Database Collection, bringing the total number of databases in the
collection to 1170
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
SGBD: Système de Gestion de Base de Données
(DataBase Management System – DBMS)
Tous les SGBD ont à peu près les mêmes fonctionalités.
Leurs différences: coût, volume de traitement, nombre d’utilisateurs
simultanés,...
Principaux SGBD
ORACLE (Oracle Corporation), Microsoft SQL Server (Sybase/Microsoft)
DB2 (IBM), mySQL (open source), PostgreSQL (open source).
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Le logiciel: SGBD.
Apports escomptés d’un SGBD ?
Centralisation des données.
Assurer un stockage pérenne des données.
Mise en relation des données.
Assurer un accès rapide aux données.
Gestion de très gros volumes de données
Assurer le respect des règles de cohérence définies sur les données.
être une interface entre une application et les données (ex: procédure).
Assurer la confidentialité des données.
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Le logiciel: SGBD.
Les bases de données du modèle «relationnel» sont les plus répandues.
Il existe d’autres modèles (place minime sur le marché):
hiérarchique (largement utilisé dans les premiers SGBD).
En réseau (un graphe où les entités sont reliées entre elles à l’aide de
pointeurs logiques).
Orienté objet.
Relationnel objet...
Plus d’information...http://fr.wikipedia.org/wiki/Base_de_données
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
(source wikipédia) En 1970, Edgar Frank Codd publia un article où il
proposait de stocker des données hétérogènes dans des tables, dont la
structure permet d’établir des relations entre elles. En 1970, cette idée
était considérée comme une curiosité intellectuelle. On doutait alors que
les tables puissent être jamais gérées de manière efficace par un
ordinateur. Ce scepticisme n’a cependant pas empêché E.F. Codd de
poursuivre ses recherches. Un premier prototype de Système de gestion
de bases de données relationnelles (SGBDR) est construit dans les
laboratoires d’IBM. Depuis les années 1980, cette technologie a mûri et a
été adoptée par l’industrie. En 1987, le langage SQL, est standardisé.
Malgré le succès du langage SQL qui a suivi, Codd dénoncera cet outil
qu’il considère comme une interprétation incorrecte de ses théories. À
l’heure actuelle, les SGBDR sont présents dans de nombreux logiciels,
sont très répandus dans les bases de données et représentent une
industrie de plusieurs milliards de dollars.
D. Puthier
BDD
introduction
l’exemple de la bioinformatique
SGBD: Système de Gestion de Base de Données
Les différents modèles de base de données
SGBD relationnel (SGBDR): historique.
Le stockage des données: les tables
Le stockage des données: les tables
Données de structure identique –> stockées dans une même table.
Ex: Liste de gènes
entrezID
916
geneSymbol
CD3E
geneName
CD3E antigen, epsilon polypeptide
chromosome
11
Attention: toutes les données d’une même colonne sont du même type.
Ex: float, char, int..., (!= tableur)
les lignes sont des enregistrements.
D. Puthier
BDD
Téléchargement