introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Introduction aux bases de données: application en biologie D. Puthier1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/Puthier, [email protected] ESIL, 2009 D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables introduction Toute activité humaine génère des données: Ex: Au sein d’une entreprise, les données manipulées ont souvent la même structure: nom, prénom, sexe, date de naissance... Si ces données sont générées par des moyens informatiques: base de données (BDD – Database) Définition: Une base de données est un ensemble structuré de données, géré à l’aide d’un ordinateur. Capable de gérer des volumes très importants. Exhaustivité: la base contient toutes les informations requises pour le service que l’on en attend Unicité: la même information n’est présente qu’une seule fois D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Motivation Accumulation des données biologiques Séquences génomiques Données de génomique fonctionnelle Organisation et intégration des données Annotations fonctionnelles Modélisation explicative et prédictive D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Rapide historique Nombreuse DB apparues dans les années 80. EMBL Nucleotide Sequence Database, Hamm GH et al (1986) Nucleic Acids Res., 19, 5-9 GenBank genetic sequence databank, Bilofsky HS et al (1986) Nucleic Acids Res., 14, 1-4. Face aux nombreuses applications des banques moins généralistes ont vu le jour (PROSITE, BLOCKS, TRANSFAC,...). D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Quelques bases de données. Séquences nucléiques: EMBL, GenBank, DDBJ (DNA Data Bank),... Séquences protéiques: SwissProt,... Motifs protéiques: PROSITE, Pfam,... Motifs nucléiques: TRANSFAC, JASPAR,... Génomes annotés: NCBI, ENSEMBL,... Structures: PDB, DALI,... Métabolisme: KEGG, iPath (EMBL),... Annotation: Gene Ontology,... Transcriptome: ArrayExpress, GEO, TranscriptomeBrowser,... Signalisation: KEGG, BIOCARTA,GenMAPP,... Interaction: BIND, DIP, HPRD, APID, STRING... Proteomics: ExPASy,... D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables NAR database issue The current issue of Nucleic Acids Research includes descriptions of 179 databases, of which 95 are new. These databases (along with several molecular biology databases described in other journals) have been included in the Nucleic Acids Research online Molecular Biology Database Collection, bringing the total number of databases in the collection to 1170 D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables SGBD: Système de Gestion de Base de Données (DataBase Management System – DBMS) Tous les SGBD ont à peu près les mêmes fonctionalités. Leurs différences: coût, volume de traitement, nombre d’utilisateurs simultanés,... Principaux SGBD ORACLE (Oracle Corporation), Microsoft SQL Server (Sybase/Microsoft) DB2 (IBM), mySQL (open source), PostgreSQL (open source). D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Le logiciel: SGBD. Apports escomptés d’un SGBD ? Centralisation des données. Assurer un stockage pérenne des données. Mise en relation des données. Assurer un accès rapide aux données. Gestion de très gros volumes de données Assurer le respect des règles de cohérence définies sur les données. être une interface entre une application et les données (ex: procédure). Assurer la confidentialité des données. D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Le logiciel: SGBD. Les bases de données du modèle «relationnel» sont les plus répandues. Il existe d’autres modèles (place minime sur le marché): hiérarchique (largement utilisé dans les premiers SGBD). En réseau (un graphe où les entités sont reliées entre elles à l’aide de pointeurs logiques). Orienté objet. Relationnel objet... Plus d’information...http://fr.wikipedia.org/wiki/Base_de_données D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables (source wikipédia) En 1970, Edgar Frank Codd publia un article où il proposait de stocker des données hétérogènes dans des tables, dont la structure permet d’établir des relations entre elles. En 1970, cette idée était considérée comme une curiosité intellectuelle. On doutait alors que les tables puissent être jamais gérées de manière efficace par un ordinateur. Ce scepticisme n’a cependant pas empêché E.F. Codd de poursuivre ses recherches. Un premier prototype de Système de gestion de bases de données relationnelles (SGBDR) est construit dans les laboratoires d’IBM. Depuis les années 1980, cette technologie a mûri et a été adoptée par l’industrie. En 1987, le langage SQL, est standardisé. Malgré le succès du langage SQL qui a suivi, Codd dénoncera cet outil qu’il considère comme une interprétation incorrecte de ses théories. À l’heure actuelle, les SGBDR sont présents dans de nombreux logiciels, sont très répandus dans les bases de données et représentent une industrie de plusieurs milliards de dollars. D. Puthier BDD introduction l’exemple de la bioinformatique SGBD: Système de Gestion de Base de Données Les différents modèles de base de données SGBD relationnel (SGBDR): historique. Le stockage des données: les tables Le stockage des données: les tables Données de structure identique –> stockées dans une même table. Ex: Liste de gènes entrezID 916 geneSymbol CD3E geneName CD3E antigen, epsilon polypeptide chromosome 11 Attention: toutes les données d’une même colonne sont du même type. Ex: float, char, int..., (!= tableur) les lignes sont des enregistrements. D. Puthier BDD