Université d’Alexandrie Université d’Alexandrie - AUF Initiation à la Bioinformatique Auteur(s): Mohamed GAD 2009/2010 Auteur(s) : Mohamed GAD Professeur à l’institut des études supérieures et de la recherche El Shatby, Alexandrie, EGYPTE 2009/2010 Université d’Alexandrie - AUF Mèl : [email protected] Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Introduction Le NCBI (Figure 1) est établi depuis 1988 à la « National Library of Medicine (NLM) » des États-Unis pour être une source d’information de biologie moléculaire, créer des bases de données destinées aux publiques, monter des projets de recherche dans le domaine de biologie computational, le développer des outils d’analyse des données génomiques et disséminer des informations biomédicles. On peut accéder au site de NCBI à partir du l’adresse suivante http://www.ncbi.nlm.nih.gov Figure 1 : Page d’accueil de NCBI La page d’accueil présent une barre (figure 2) qui contient une zone de requête « for » pour entrer les termes de la recherche « par exemple : cancer ». Sur la gauche, il y a un menu déroulant à partir du quel on peut choisir la base de donnée à consulter (figure 3). En entrant le mot de recherche « cancer », figure 2, une nouvelle page est obtenue (figure 4 ». Cette page est l’interface Entrez du NCBI. Entrez donne accès à toutes les bases de données sur NCBI. On peut voir l’architecture d’Entrez à l’adresse suivante http://www.ncbi.nlm.nih.gov/Sitemap/. 2 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 2 : Barre de recherche de la page d’accueil du NCBI 3 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 3 : Page d’accueil du NCBI avec le menu déroulant de recherche 4 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 4 : Entrez du NCBI avec toutes les données concernant le mot recherché « cancer » Les bases de données de la littérature PubMed est une base de données de citations scientifiques depuis 1948.Ellel contient plus de 18 million de publications. Pour interroger PubMed, on peut tout simplement entrer les termes de la recherche dans la zone de requête (figure 3) en choisissant pubmed da la liste déroulante. La barre de fonctionnalité placée directement en dessous (figure 6) fournit des options de recherche supplémentaires : Limits et Preview/Index. Les autres options History, Clipboard, Details peuvent être utilisées après avoir effectué une recherche. Quelle que soit la page affichée, au cours de l’interrogation, la zone de requête et ces différentes options sont toujours présentes à l’écran. 5 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 5 : L’architecture de l’Entrez 6 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 6 : L’outil PubMed de NCBI Par défaut les références récupérées (figure 7) sont présentées dans le format résumé « Summary » qui comprend les zones auteur, titre et source, ainsi que le numéro d’enregistrement de la référence dans PubMed « le PMID ». Les références sont présentées par groupe de 20 par page. Figure 7: Resultat type sur PubMed En changeant l’objectif de recherche en « protéine » et en utilisant le même mot clé « cancer » on obtient le résultat montré dans la figure 8 7 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 8 : Résultat type avec le mot clé « cancer » dans les bases de données des protéines. 8 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) En cliquant sur le «P04637 » on obtient plus de détails sur la protéine (figure 9a). La source d’information de la protéine est, entourée en orange, montrée à gauche et dans notre cas c’est la base de données de Swiss-Prot (SP). Figure 9a : Les détails d’une protéine dans les bases de données On peut voir aussi (figure 9a) : Le numéro d’enregistrement (locus ; accession, version) dans le SP. Les autres bases de données qui contiennent des informations sur la protéine (DBsource) Les mots clés (key word) qui étaient suggérées par les auteurs pour la recherche dans les bases de données L’organisme d’origine (source organism) de cette protéine Les références bibliographiques (reference) qui parlent de cette protéine Un résumé (comments), figure 9b, sur les caractéristiques de cette protéine Des informations sur la composition (features) et la structure de cette protéine On peut changer la façon de présentation de cette protéine on changeant le format (figure 9a, en vert). Par exemple la format FASTA (figure 10) 9 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) La format FASTA est un format qui commence par « > » suivie par le titre de protéine qui contient le « gi » « l'identifiant général », le numéro d'accés dans la base de données d'origine et le nom de la protéine. En suite la séquence de la protéine. 10 Université d’Alexandrie - AUF Initiation à la Bioinformatique (NB 625 Optionnel) Neurobiologie (M1) Figure 9b : Les détails d’une protéine dans les bases de données Figure 10 : le format FASTA de la protéine 11