Outil d’aide au clonage positionnel Bioinformatic tool for positionnal cloning Guénola Ricard†* Sophie Gallina† Philippe Froguel† † * Institut de Biologie de Lille, CNRS UPRES A 8090, 1, rue du Pr. Calmette, 59000 Lille. DESS EGOISt (Etude des Génomes : Outils Informatiques et Statistiques)– Université de Mont Saint Aignan Courriel : {guenola.ricard, sophie.gallina, philippe.froguel}@mail-good.pasteur-lille.fr Résumé Nous avons développé un outil bio-informatique pour inventorier les SNP d' une région d' intérêt, et les classer en fonction des annotations associées à leur position (gène connu ou prédit, exon, région régulatrice ou intron, transcrit, séquence homologue dans une autre espèce…). Nous avons développé cet outil dans la mesure où les serveurs d' annotations existants (Golden Path, Ensembl, NCBI…) ne permettent pas de rechercher des "combinaisons d' annotations", par exemple «SNP se trouvant dans un exon». Cet outil est conçu pour prendre en compte l' évolution des versions de l' assemblage du génome humain et des annotations qui y sont associées. Il permettra aux biologistes d’obtenir soit un ensemble complet de résultats, soit un état des mises à jours (modification de position, ajout d' annotations …). Afin de favoriser l' intégration de différentes sources d' annotations, les résultats produits seront exportés selon le protocole DAS (Distributed Annotation System). Mots-clés : classification des SNP, visualisation des annotations, DAS (système d' annotations distribuées). Abstract We developed a bio-informatic tool to explore SNPs in a region of interest, and classify these SNPs according to their position in other annotations (known gene, prediction, exon, intron, mRNA,..) We developed this tool because existing annotation servers (Golden Path, Ensembl, NCBI …) do not allow user to search for "combined annotation" (ie “SNP in exon”). This tool will manage regular updates from new versions of the human draft and associated annotations and will supply biologists with a complete list of results or reports of modifications in positions, additional annotations…. In order to promote annotations integration, results will be exported using DAS protocol (Distributed Annotation System). Keywords: SNPs classification, annotations visualisation, DAS (Distributed Annotation System). 1 Introduction Le principal axe de recherche de l’UPRES A 8090 de l’Institut de Biologie de Lille est l’étude génétique des maladies multifactorielles telles que le diabète de type 2 et l’obésité. Pour trouver les gènes impliqués dans ces maladies, les chercheurs peuvent utiliser 2 stratégies : 1. Gène candidat : Tester l' implication d' un gène déjà connu et ayant un rapport avec la pathologie 2. Génétique inverse : • Genome Scan : Tester l' ensemble du génome par des méthodes d' analyse de liaison pour localiser des régions chromosomiques liées à la maladie, c' est à dire susceptibles de contenir les gènes de prédisposition à la maladie. • Clonage positionnel : Rechercher les gènes connus ou inconnus se trouvant dans cette région et tester leur éventuelle association avec la maladie étudiée par des analyses de déséquilibre de liaison avec des polymorphismes de type SNP (Single Nucleotide Polymorphisms), qui sont très fréquents dans le génome. L' outil que nous avons développé a pour but de faciliter l' étape de clonage positionnel en automatisant la sélection de SNP intéressants dans une région. JOBIM 2002 Outil G. JOBIM Ricard, d’aide 2002 S.auGallina clonage positionnel et P. Froguel 325 2 Problématiques Pour rechercher les gènes et les annotations localisés dans une région, les chercheurs utilisent différents serveurs d’ annotations tels que le Genome Browser de l’ UCSC [1] , Ensembl [2], Map viewer [3] du NCBI, ... Durant cette recherche, plusieurs problématiques se dégagent : 1. Les annotations sont distribuées sur plusieurs serveurs. La phase d’ étude in silico de la région est donc longue et fastidieuse : on se heurte à un grand nombre d’ annotations redondantes. 2. De plus ces données évoluent au fur et à mesure de l’ apparition de nouvelles versions de l’ assemblage du génome. Il est important que les chercheurs puissent prendre connaissance de ces changements d’ une version à l’ autre, sans avoir à refaire entièrement l’ organisation de leur région. 3. Pour détecter des associations préférentielles entre un allèle et un gène impliqué dans la maladie, nous utilisons des SNP. Il existe environ un SNP tous les 800 paires de bases. Pour une région de 5Mb, on trouve donc dans les bases publiques plus de 6000 SNP, dont un grand nombre «non confirmés». Typer ces 6000 SNP sur la population étudiée (environ 200 individus) est très coûteux et inutile. L' alternative consiste à ne typer que les SNP les plus intéressants, sélectionnés et classés en fonction de l’ environnement dans lesquels ils se trouvent (par exemple, exon d' un gène). L' utilisation d' outils standards de visualisation avec plusieurs types d' annotations (SNP, gènes connus, prédictions, mRNA) est suffisante pour effectuer ce travail de sélection sur des petites portions (< 1Mb), mais s' avère inexploitable au delà. 4. De plus au fur et à mesure de l' avancement du clonage positionnel, nous disposons des résultats obtenus sur les premiers SNP analysés. Nous souhaitons pouvoir intégrer ces résultats, ou toute autre donnée locale pertinente, avec la sélection de SNP obtenus par cet outil. 3 Réalisation Ces problématiques bien qu’ apparemment distinctes, ne peuvent être traitées séparément. C’ est à la suite de cette constatation que nous avons développé une base de données relationnelle et des procédures pour traiter et intégrer les différentes annotations que nous souhaitons associer aux SNP. Après avoir rapatrié les données d’ annotations depuis le serveur de l' UCSC, nous avons effectué un traitement pour attacher à un SNP, toutes les informations qui lui sont relatives, puis nous avons créé une interface web conviviale permettant une interrogation intuitive de cette base. Les biologistes peuvent ainsi interroger la base contenant les données associées à leur région en sélectionnant également les SNP qu’ ils souhaitent voir afficher. Les possibilités de sélection sont : • • Une sous-région La localisation des SNP que l’ on souhaite afficher : 1. Dans les gènes (mais également de façon plus spécifique dans les exons, régions flanquantes et régulatrices, introns) 2. Dans les séquences d’ ARNm et les EST 3. Dans les prédictions (mais également de façon plus spécifique dans les exons prédits, régions flanquantes et régulatrices prédites, introns prédits) L’ utilisateur peut croiser les requêtes et demander par exemple à afficher les SNP contenus dans un gène prédit par au moins deux logiciels de prédiction et retrouvé dans un mRNA. Il est alors possible d’ afficher un grand nombre d’ informations associées aux annotations (dont le nucléotide changé et éventuellement l’ acide aminé modifié) et des liens web vers les bases de données publiques. Comme évoqué précédemment, les biologistes obtiennent une grande quantité de données qui sont parfois mises à jour sur les serveurs d’ annotations. Notre objectif est d’ éviter de leur fournir à nouveau une grande liste de données. Nous réalisons par conséquent une nouvelle base que nous comparons avec l’ ancienne afin de pouvoir leur donner uniquement les modifications. 326 JOBIM 2002 4 Résultats Rappel des parameters selectionnés Nom Position Distance du du SNP SNP 915861 23533946 Localisation intervalle 23533946 - 23543986 paramètres typeSNP : all, Origine Commentaire Exon 1 23534351) (23533901- Variation Validation confirmé Nombre de réponses : 18 Prédiction Genscan Prédiction Ensembl Prédiction Fgenesh Intronique NT_011512.521 0 AF086441 mRNA 2298368 23534544 598 NT_011512.521 Prédiction G/A Intronique NT_011512.521 2298369 23535095 551 NT_011512.521 Prédiction C/G Intronique NT_011512.521 2282471 23535562 467 NT_011512.521 Prédiction C/T Intronique NT_011512.521 2282472 23535707 145 NT_011512.521 Prédiction A/G Intronique NT_011512.521 2282473 23536007 300 NT_011512.521 Prédiction A/T Intronique NT_011512.521 2829806 23539003 2996 NM_017446 (PRED22) gène connu Intronique T/G Intronique ENST00000284967 2829807 23539900 897 NM_017446 (PRED22) Intronique mais proche gène connu de l’exon 2 (2353996123540009) T/C Intronique mais proche de Intronique mais proche de 4 (23539961l’exon 2 (23539961-23540009) l’exon 23540009) C21000071 ENST00000284967 1539764 23543403 3503 NM_017446 (PRED22) gène connu Intronique C/T 28 NM_017446 (PRED22) gène connu Intronique G/T Intronique mais proche de l’exon 3 (2353882723538916) C21000071 Intronique NT_011512.522 Intronique ENST00000284967 Intronique C21000071 A/G Intronique NT_011512.522 Intronique ENST00000284967 Intronique C21000071 G/A Intronique mais proche de Intronique mais proche de Intronique mais proche de 5 (23543938l’exon 2 (23543938-23544092) l’exon 3 (23543938-23544092) l’exon 23544092) C21000071 ENST00000284967 NT_011512.522 … 1539765 23543797 2248298 23543885 88 NM_017446 (PRED22) Intronique mais proche gène connu de l’exon 3 (2354393823544092) 2829809 23543914 29 NM_017446 (PRED22) Intronique mais proche gène connu de l’exon 3 (2354393823544092) C/A Intronique mais proche de Intronique mais proche de Intronique mais proche de 5 (23543938l’exon 2 (23543938-23544092) l’exon 3 (23543938-23544092) l’exon 23544092) C21000071 ENST00000284967 NT_011512.522 1135638 23543962 48 NM_017446 (PRED22) gène connu Exon 3 23544092) (23543938- A/G +++ exon 2 (23543938- +++ exon 3 (23543938-23544092) +++ exon 5 (2354393823544092) NT_011512.522 ENST00000284967 23544092) C21000071 10576 24 NM_017446 (PRED22) gène connu Exon 3 23544092) (23543938- T/C +++ exon 2 (23543938- +++ exon 3 (23543938-23544092) +++ exon 5 (2354393823544092) NT_011512.522 ENST00000284967 23544092) C21000071 23543986 FIG. 1 – Consultation des SNP sélectionnés La figure 1 montre un extrait des résultats obtenus lors d' une interrogation sur les SNP localisés dans une région du chromosome 21. La seule restriction entrée en paramètre a été l’ intervalle 23 533 946 – 23 543986 ; l’ utilisateur a demandé à voir tous les SNP de cette région avec leur localisation relative aux autres annotations. La couleur rouge est utilisée pour faire ressortir les SNP se trouvant dans les exons des gènes connus, la couleur verte, pour faire ressortir les SNP se trouvant sur le mRNA. Le Nom du SNP comporte un lien vers le site SNPper [4] qui est un site dédié aux SNP. La colonne Position du SNP donne la position par rapport à l' assemblage du NCBI. La colonne Origine spécifie s' il s' agit d' un gène connu, prédit ou identifié à partir d' une région homologue dans une autre espèce. La colonne Commentaire donne des précisions sur la localisation du SNP (partie codante ou non de l’ annotation). La colonne Variation précise le changement de nucléotides et éventuellement celui de l’ acide aminé si l’ information est disponible. La colonne Validation précise si le SNP est confirmé, suivant les données de la base dbSNP [5]. Les 3 colonnes suivantes concernent les données fournies par les logiciels de prédiction Genscan [6], Ensembl et Fgenesh [7]. Des critères plus stringents auraient pu être spécifiés dans le formulaire, tels que « SNP se trouvant dans les mRNA et prédits par au moins 2 logiciels de prédiction, parmi Genscan, Ensembl et Fgenesh » ou bien « SNP se trouvant dans les exons ou les parties flanquantes des gènes connus » et ceci pour le chromosome 21 entier ou seulement une partie de ce chromosome. Nous avons choisi une stratégie permettant une réponse instantanée pour l’ utilisateur, ce qui nécessite la création d’ une table de pré-traitement contenant toutes les informations relatives à chaque SNP. Les temps d’ exécution des différentes étapes de construction de cette table dépendent de la taille de la région et du nombre d’ annotations. A titre d’ exemple le traitement de la totalité du chromosome 21 JOBIM 2002 327 (44 Mb) prend environ 1 heure. Les algorithmes de traitement sont en cours d’ optimisation. La place mémoire nécessaire sur le disque est de l’ ordre de 4 Mo pour le chromosome 21 (34061 SNP). 5 Intégration de l'outil dans un ensemble de développement L' objectif est que les biologistes puissent visualiser sur leur région, en même temps les données issues des serveurs publiques, les SNP sélectionnés avec leur niveau d' intérêt, et les résultats des SNP déjà analysés dans le laboratoire. En d' autres termes, il s' agit d' intégrer des annotations publiques et locales, provenant de différents serveurs. Le protocole DAS [8] (Distributed Annotation System) répond à cette préoccupation, en permettant l’ intégration à la volée, c' est à dire au niveau client, de plusieurs sources de données, sans nécessité d' interaction entre les serveurs concernés. Ce protocole est basé sur le principe d' un serveur de référence unique pour les données d' assemblage, et de multiples serveurs d' annotations. C' est pourquoi nous avons choisi ce protocole pour intégrer nos outils. L' outil de classification des SNP utilisera ce protocole pour exporter ses résultats, c' est à dire la liste des SNP sélectionnés et les diverses informations associées. Les SNP sélectionnés seront donc vus comme un type d' annotation supplémentaire. Par ailleurs les résultats des analyses de différents polymorphismes (micro-satellites, SNP) sont également interrogeable via un serveur d' annotations. Actuellement, ces résultats relatifs aux phénotypes sont stockés dans une base de données relationnelle, qui comporte des informations sur les populations utilisées, les phénotypes étudiés, les localisations des régions ou des gènes, les méthodes utilisées, les scores obtenus et la source de ces résultats (laboratoire ayant produit ces résultats, publication). Les résultats disponibles sur d' autres espèces (souris, rat) y seront bientôt intégrés. Cette base pourra exister en 2 versions : une version de travail locale au laboratoire, et une version publique accessible par Internet pour les résultats publiés. Ces 2 types de résultats locaux étant accessibles par un serveur DAS, tout client DAS pourra les visualiser conjointement aux annotations publiques. 6 Implémentation Ce projet a été développé sur un serveur SUN Enterprise 3500 sous Solaris. Le SGBD utilisé est MySQL. Les procédures d' importation des données à partir des bases publiques sont implémentées en Perl avec les modules DBI, LWP. Les procédures d' intégration entre les différentes annotations sont développées en PHP. L' interface utilisateur pour l' accès aux résultats est développée en PHP. Enfin, nous utilisons le logiciel LDAS [9] comme serveur DAS. Références [1] [2] [3] [4] [5] [6] [7] [8] [9] 328 Golden Path http://genome.ucsc.edu, http://www.cse.ucsc.edu/~kent/ Ensembl http://www.ensembl.org/Homo_sapiens Mapviewer http://www.ncbi.nlm.nih.gov/cgi-bin/Entrez/hum_srch SNPper http://bio.chip.org:8080/bio dbSNP http://www.ncbi.nlm.nih.gov/SNP/ Genscan http://genes.mit.edu/GENSCANinfo.html Fgenesh http://genomic.sanger.ac.uk/gf/Help/fgenesh.html LINCOLN STEIN, SEAN EDDY, ROBIN DOWELL, Distributed Sequence Annotation System (DAS) http://stein.cshl.org/das july 26, 2000. LDAS http://biodas.org/servers JOBIM 2002