Réalisation d`une api de manipulation des fichiers fasta

Téléchargement

UNIVERSITÉ DE MONTPELLIER 1&2

TIC ET SANTÉ, BÂTIMENT 2 – 860, RUE SAINT-PRIEST – 34090 MONTPELLIER

Spécialité « Bioinformatique, Connaissances, Données » du Master STIC pour la Santé – /

GMIN207 – Travaux Pratiques no1

Réalisation d’une API de manipulation des ﬁchiers FASTA

Alban MANCHERON

1 Description du format FASTA

Le format FASTA permet de représenter les séquences nucléiques. Ce format est utilisé par l’ensemble de la

communauté des biologistes et bioinformaticiens. Ce format fût initialement utilisé par le logiciel homonyme

développé par D. LIPMAN & W. PEARSON en .

Une séquence au format FASTA débute par une ligne de description commençant par le symbole ‘>’ (histori-

quement, la ligne de description pouvait également débuter par ‘;’, voire même être écrite sur plusieurs lignes

successives commençant par ‘;’). Les lignes suivantes décrivent la séquence biologique (nucléique ou pro-

téique) en suivant le standard IUPAC à une lettre, jusqu’à rencontrer la ﬁn du ﬁchier ou la description d’une

nouvelle séquence. L’usage recommande de décrire la séquence biologique par blocs de lignes de 60 à80

symboles.

Exemple de séquence au format FASTA :

>gi|295656579|gb|HM026173.1| Homo sapiens isolate W97X sex determining region Y gene, partial cds

GCGAAACTCAGAGATCAGCAAGCAGCTGGGATACCAGTGAAAAATGCTTACTGAAGCCGAAAAATGGCCA

TTCTTCCAGGAGGCACAGAAATTACAGGCCATGCACA

Étant devenu un standard d’échange des données, la ligne descriptive de la séquence est très souvent une

suite d’informations séparées par des ‘|’ sans espaces (c.f. recommandations du NCBI). Il arrive parfois que la

communauté utilise le terme de ﬁchier multi-FASTA pour distinguer les ﬁchiers contenant plusieurs séquences

des ﬁchiers n’en contenant qu’une seule.

Vous trouverez de plus amples informations sur le site de Wikipedia 1, ainsi que sur le site du NCBI 2.

2 Objectif du TP

Votre travail consiste dans un premier temps à réaliser une API (Application Programming Interface) permettant

de manipuler les ﬁchiers FASTA et plus généralement les séquences biologiques.

Vous devez donc permettre de lire un dans ce format, vériﬁer sa conformité (en afﬁchant au besoin les recom-

mandations non respectées et les erreurs rencontrées aﬁn d’assister un éventuel utilisateur dans la correction de

ses ﬁchiers).

Votre API doit permettre le comptage du nombre de séquences présentes dans le ﬁchier, d’analyser le ou les

entêtes des séquences (ou d’une séquence en particulier), de récupérer la ou les séquences dans un objet in-

formatique facile à manipuler (calcul des séquences complémentaires inversées, extraction de sous-séquences,

...).

Bien évidemment, il vous est recommandé de trouver des solutions efﬁcaces en temps comme en espace pour

répondre à ce cahier des charges.

1. http://en.wikipedia.org/

2. http://www.ncbi.nlm.nih.gov/

1/2

GMIN207 – TP no1UM 1 & 2 – spécialité BCD du Master STIC pour la Santé

Enﬁn, eu égard aux volumes de données biologique sans cesse croissant, la plupart des ﬁchiers sont échangés

après compression (gzip,bzip2, . .. ). Nous vous proposons donc, en option, d’intégrer à votre API la gestion

de ﬁchiers compressés avec gzip en les lisant « à la volée ». Cette possibilité n’étant pas primordiale, il vous

est suggéré de ne l’intégrer que si les demandes préalables sont entièrement satisfaites.

3 Informations complémentaires

Pour mener à bien votre développement, il vous est conseillé de fortement vous documenter au préalable (e.g.,

sur la norme IUPAC ; sur la manière dont vous coderez vos séquences nucléiques – et donc la manière dont

vous calculerez les opérations de complémentaire inversé ; sur les recommandations du NCBI pour les entêtes

FASTA ; . . . ).

Pour chaque méthode que vous développerez, vous calculerez l’ordre de grandeur de sa complexité (temps et

espace). Vous vériﬁerez que les temps de calculs 3et la mémoire utilisée 4vous observerez sur différents jeux

d’essais sont cohérents avec la complexité temporelle et spatiale calculée. . .

Il vous est également recommandé de proposer plusieurs méthodes donnant le même résultat (pensez à exploiter

le polymorphisme offert par les langages objets comme JavaTM et C++).

Pour tester votre API, vous devrez récupérer des données sur le site du NCBI. Il vous est demandé de récupérer

des séquences de différentes longueurs ('100pb,'1 000pb,'1 000 000pb).

Enﬁn, sachez que ce travail constitue les prémices du projet. Il vous est donc fortement recommandé de vous y

consacrer sérieusement.

3. Si vous codez en JavaTM , vous pourrez utiliser System.currentTimeMillis() ou System.nanoTime() ou (ce serait encore

mieux) la méthode getCurrentThreadCpuTime() de l’interface java.lang.management.ThreadMXBean. Si vous préférez le C++

(sous linux), vous pourrez utiliser la fonction getrusage(int, struct rusage *) déclarée dans <sys/resource.h>.

4. Si vous codez en JavaTM , vous pourrez utiliser les méthodes maxMemory(),totalMemory() et freeMemory() de la classe

Runtime ou (toujours encore mieux) la méthode getHeapMemoryUsage(). Si vous préférez le C++ (sous linux), vous pourrez utiliser

comme précédemment la fonction getrusage(int, struct rusage *).

2/2 Alban MANCHERON

1 / 2 100%

Documents connexes

Séquences Littérature CE2 (2019/2020) - Programmation

Formation Java SE Approfondissement à Nantes, à Paris, à

Exploitation d`Anagene

JFR 2013 - 5111 - IRM thoracique (aorte et coeur... radiologue 1e partie Mis à jour le 26/05/2014 par SFR

La création d`une unité de production

Formation Java : Perfectionnement

Présentation PowerPoint

management des organisations

Java EE for Trading Interfaces Junior Engineer

TP3-A : Des accidents sources de diversité.

Analyse informatique de l`information génétique

Fiche de suivi (Sciences humaines)

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Réalisation d`une api de manipulation des fichiers fasta

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Réalisation d`une api de manipulation des fichiers fasta

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib