1. Nature du projet

publicité
Délégation aux Systèmes d'Information
Pôle des "services d'appui à la recherche"
Informatique scientifique
Appel à projets interne
SPIRALES 2008
Formulaire de demande DSI-SPIRALES
« Soutien aux Projets Informatiques dans les Equipes Scientifiques »
Remise des projets :
16 novembre 2007
à [email protected]
Contact :
Régis Hocdé - Informatique Scientifique
[email protected]
ou [email protected]
I.R.D (Institut Recherche Développement)
www.ird.fr
Siège social : 213 rue La Fayette 75010 Paris
Demande d’un soutien DSI sur les projets informatiques des UR/US.
Formulaire de demande DSI-SPIRALES 2008
« Soutien aux Projets Informatiques dans les Equipes Scientifiques ».
Le présent formulaire comporte différentes parties qui doivent ou non être
renseignées selon la nature de votre projet. La modification du formulaire en une série de
questions précises est destinée à faciliter le travail des évaluateurs.
Les propositions doivent être adressée sous forme électronique (au format RTF, DOC ou
PDF) à l'adresse suivante : [email protected]
1. Nature du projet
Cette partie (questions 1 à 4) doit être renseignée quelque soit la nature de la
proposition (nouveau projet ou continuum d’un projet SPIRALES existant, étude de
faisabilité, projet finalisé de développement d’une application IS ou autre).
1. Titre du projet :
Analyse, conception et développement des systèmes d’information MOCCAdb et CoffeeGD et d’un portail web
dédiés à la génomique du caféier au sein de la génopole de Montpellier, dans le cadre du réseau International
Coffee Genome Network (ICGN)
2. Résumé du projet proposé (5 lignes maximum)
Les équipes « Génomique Fonctionnelle et Evolution des Caféiers » (UR 188) et « Diversité et amélioration » (UR 186)
ont initié en 2006 un projet visant à développer deux nouvelles bases de données destinées respectivement à la gestion des
données liées aux marqueurs microsatellites (MOCCAdb) et à la cartographie physique (CoffeeGD). L’autre objectif de ce
projet est de mettre en place un portail web dédié à la génomique du caféier permettant une inter-opérabilité des différentes
bases de données (ESTdb, MOCCAdb, CoffeeGD) et un accès unique à l'ensemble des données.
Grace au financement SPIRALES en 2006 - 2007, le développement de ces trois applications a bien avancé (les versions
beta ont été créées). Les outils mis en place sont suffisamment génériques et évolutifs pour être utilisables dans le cadre
d’autres projets sur d’autres organismes et suscitent de plus en plus l’intérêt de la part d’autres équipes IRD et des partenaires.
Leur mise en production sur le web le plus rapidement possible s’impose tout naturellement. N’ayant pas d’autres moyens
humains et financiers pour engager du personnel qualifié en informatique, nous faisons aujourd’hui cette demande de
renouvellement exceptionnel afin de finaliser les développements et rendre nos applications complètement fonctionnelles
3. Type de projet
 Nouveau projet SPIRALES :
 Etude de faisabilité : Demande d’appui pour une analyse fine des besoins et la formulation de spécifications,
éventuellement développement d’un prototype (en vue d’une seconde phase destinée au développement et à la
réalisation du projet),
Ne renseigner que les parties 1 – 2 – 3 – 5 du présent formulaire.
 Projet finalisé de développement d’une application IS (proposition finalisée et détaillée en matière
d’expression des besoins, d’identification des solutions et des moyens…),
Formulaire de demande SPIRALES 2008
page 236
[email protected]
Ne renseigner que les parties 1 – 2 – 3 – 5 – 6 – 8 du présent formulaire.
Joindre le cas échéant tous documents utiles (document de spécifications techniques et fonctionnelles,
cahier des charges, propositions techniques et financières reçues…)
 Projet autre qu’un développement d’application IS (proposition finalisée concernant tous autres domaines :
animations, évènements, traitement de données, calcul intensif…),
Ne renseigner que les parties 1 – 2 – 3 – 5 – 7 – 8 du présent formulaire.
Continuum d'un projet SPIRALES existant (prévu sur 2007 -2008 ou suite d’un précédent projet SPIRALES)
 Continuum d’un développement d’une application IS,
Ne renseigner que les parties 1 – 2 – 3 – 4 – 6 – 8 du présent formulaire.
 Continuum d’un projet autre qu’un développement d’application IS,
Ne renseigner que les parties 1 – 2 – 3 – 4 –7 – 8 du présent formulaire.
Les demandes d'hébergement d'applications IS, d’accès à un serveur de développement,
de création de dépôt Subversion (SVN), de formations IS…
ne constituent pas des demandes SPIRALES et doivent être adressées directement à
[email protected] sans échéance particulière.
4. Durée prévue :
 Durée prévue :
 1 an
 2 ans

Pour les continuums : date de démarrage du projet
2. Porteur(s) de projet
Cette partie (questions 5 à 17) doit être renseignée quelque soit la nature de la
proposition (nouveau projet ou continuum d’un projet SPIRALES existant, étude de
faisabilité, projet finalisé de développement d’une application IS ou autre).
5. Unité :
 UMR  UR  US
N° 188 Nom : DIA-PC
6. Département
 DME  DRV  DSS
7. Nom du porteur de projet :
Christine Dubreuil-Tranchant
8. Statut et coordonnées du porteur de projet :
Ingénieur d'étude en bio-informatique – IRD Montpellier – 04 67 41 63 34 – 04 67 41 62 22 [email protected]
Formulaire de demande SPIRALES 2008
page 336
[email protected]
9. Nom et coordonnées du Directeur d'Unité (si différent) :
Serge Hamon -
Directeur UR 188, DR1 – IRD Montpellier – 04 67 41 61 94 – 04 67 41 62 22 –
[email protected]
10. Aval du directeur d'unité (obligatoire).
S. Hamon, directeur d'unité, actuellement en déplacement, donnera directement son aval écrit par mail à [email protected].
11. Implantation principale de l'unité :
Centre IRD Montpellier
12. Site de déroulement du projet :
Centre IRD Montpellier
13. Site administratif à partir duquel se feront les dépenses budgétaires
Centre IRD Montpellier
14. Projets inter-unité ou inter-organismes :
 Projet inter-unités
 Projet inter-organismes
15. Liste des unités ou organismes partenaires du projet
UR 186 – Directeur : Michel Nicole – Centre IRD Montpellier
16. Liste des intervenants impliqués de manière effective dans la
réalisation du projet :
(autant de fois que nécessaire)
Christine Dubreuil-Tranchant – IE en bioinformatique – IRD – UR 188 – Chef de projet informatique sur les différents projets
inclus dans ce projet SPIRALE
Valérie Poncet - Chercheur – UR 188 – IRD Montpellier – Responsable scientifique de la base de données MOCCAdb,
Groupe de travail portail web dédié à la génomique du caféier
Philippe Lashermes - Chercheur – UR 186 - IRD Montpellier – Responsable scientifique de la base de données coffeeGD,
Groupe de travail portail web dédié à la génomique du caféier
Diana Fernandez - Chercheur – UR 186 – IRD Montpellier – Groupe de travail portail web dédié à la génomique du caféier
Formulaire de demande SPIRALES 2008
page 436
[email protected]
Claudine Campa – Chercheur – UR 188 – IRD Montpellier - Groupe de travail portail web dédié à la génomique du caféier
Marie-Christine Combes – IE – UR 186 – IRD Montpellier - Groupe de travail sur le développement de la base de données
CoffeeGD
17. Disponibilité / implication de chacun des intervenants effectifs :
exprimée en % de temps-homme ou en jours-homme (ETP total ou
pour une période)
Christine Dubreuil-Tranchant – forte disponibilité – 1 jour / semaine
Valérie Poncet – forte disponibilité – 1 jour / semaine
Philippe Lashermes – moyenne disponibilité – 2 jours / mois
Diana Fernandez – faible disponibilité – 0.5 jour / mois
Claudine Campa – moyenne disponibilité – 1 jour /mois
Marie-Christine Combes – moyenne disponibilité – 2 jours/mois
L'essentiel est de donner un ordre de grandeur (et non pas une évaluation monétaire) : s’agit-il de 4 jours de travail (4
jours ETP) pour l’année, 15 jours ETP ou 40 jours ETP (un jour par semaine) ou de s’impliquer à temps complet (200
jours ETP)… ?
3. Moyens / appui demandés à la DSI
Cette partie (questions 18 à 27) doit être renseignée quelque soit la nature de la
proposition (nouveau projet ou continuum d’un projet SPIRALES existant, étude de
faisabilité, projet finalisé de développement d’une application IS ou autre).
18. Contribution demandée à la DSI pour 2008 en euros HT et TTC :
Montant 2008 demandé :
20000 € HT soit 23920€ TTC (pour les projets en France)
Ventilation par poste :
Fonctionnement :
Equipement :
Prestation de service :
20000
23920
(les informations apportées doivent être cohérentes avec celles précisées à la question 24.)
19. Demande envisagée pour 2009 – si projet de 2 ans - en euros HT et
TTC :
Montant 2009 envisagé :
€ HT soit
€ TTC (pour les projets en France)
Ventilation par poste :
Fonctionnement :
Equipement :
Prestation de service :
Formulaire de demande SPIRALES 2008
page 536
[email protected]
20. Montant(s) précédemment attribué(s) par la DSI - en euros HT :
2004
2005
Montants attribués (€ HT)
2006
2007
10600
10600
21. Moyens affectés au projet et Cofinancements acquis hors SPIRALES
(€ HT) :
Autres sources de financements acquis :
Montant (€ HT) :
Moyens apportés par l'unité (hors ressources humaines)
Montant (€ HT) :
22. Moyens humains affectés au projet :
En 2006 :
-
2 stages de 6 mois réalisés par 2 étudiantes du Master Informatique Pour les Sciences, Université de Montpellier 2, ont
permis d’initier le développement des 2 bases de données (MOCCAdb et CoffeeGD) prévu dans le projet SPIRALES
2006 -2007
-
Une prestation de 4 mois a poursuivi le développement des 2 bases de données
-
1 CDD de 2 mois financé par la DSI a permis de réaliser la phase d’analyse pour la mise en place du portail web et de
développer un prototype du moteur de recherche au niveau du portail permettant de rechercher des informations dans
différentes bases de données.
En 2007 :
Une prestation de 4 mois a permis d’améliorer les versions bêta des deux bases de données et de développer des
interfaces de leur administration et d’alimentation automatique.
Tous les développeurs ont été encadrés par le chef de projet bioinformatique et par les responsables scientifiques des
bases de données. De nombreuses réunions de travail ont été régulièrement organisées avec le chef de projet, les responsables
scientifiques des bases de données et/ou le groupe de travail. La même organisation sera suivie pour l’année 2008
23. Coût total estimé du projet (toutes années confondues) :
Estimation du coût total du projet toutes années SPIRALES confondues : crédits SPIRALES, moyens fournis par l’unité et
cofinancements acquis (hors ressources humaines) : 41200
€ HT
24. Ressources humaines extérieures mobilisées ou demandées:
 Compétences mobilisées ou souhaitées (profil type) : ingénieur en bioinformatique, chef de projet
 Intervention d’un/de prestataire(s) de service : chef de projet, analyste développeur
 Mobilisation d'un/de stagiaire(s) (sous réserve de compétences fortes en informatique scientifique au sein de l’équipe
porteur du projet et de capacités de l’équipe à dégager du temps pour assurer un réel encadrement)
 Demande d’appui de l’équipe ‘Informatique scientifique’ de la DSI / pour l’appui méthodologique et le suivi de projet :
 Demande d’appui de l’équipe ‘Informatique scientifique’ de la DSI / pour le développement et/ou la réalisation du projet
(avec estimation du temps-homme nécessaire) :
La DSI, suite au comité d'évaluation, pourra pour quelques projets et sur quelques sites (Nouméa, Dakar,
Formulaire de demande SPIRALES 2008
page 636
[email protected]
Montpellier…) et dans la limite des moyens humains de la DSI disponibles, convertir ces demandes d’appui
ou de financement de prestataire de service en temps-homme, c'est-à-dire par une intervention directe du
‘pool informatique scientifique’.
25. Demande d’un dépôt Subversion (SVN) :
Description des besoins pour ce projet SPIRALES (une demande formelle et détaillée, avec signature de la charte sera
néanmoins nécessaire dans un 2nd temps) - (Définition SVN: http://fr.wikipedia.org/wiki/Subversion_(logiciel))
26. Demande d’hébergement(s) / d’accès à un (des) serveur(s)
1/ de développement et de tests pour la durée du projet,
2/ de ‘pré production’ et de recette pendant ou à l’issue du projet,
3/ d’exploitation à l’issue du projet :
L’application sera hébergée sur le serveur de production de la plate-forme bioinformatique de Montpellier.
Description des besoins pour ce projet SPIRALES: technologies, capacité… (une demande formelle et détaillée, avec
signature de la charte sera néanmoins nécessaire dans un 2nd temps)
27. Appui de la DSI apporté pour l'élaboration du projet ?
Si vous avez bénéficié de l'appui de la DSI (coordination IS, pool d'informaticiens scientifiques de Dakar ou Nouméa, SIL…)
pour l'élaboration de cette proposition, décrivez très brièvement le type d’appui.
Comme pour tout projet bioinformatique, le SIL de Montpellier est impliqué (expertise, conseil technique et
administration système de la plate-forme bioinformatique de Montpellier).
4. Bilan / Etat d’avancement des phases précédentes (seulement pour les demandes de
continuums)
Cette partie (questions 28 à 32) ne concerne que les demandes de continuums
pour des projets SPIRALES initiés au cours des années précédentes.
Il est vivement conseillé d'accompagner la demande de tous documents utiles :
rapport de phases préliminaires, cahier des charges, résultats, prototype, ‘vues
écrans’ de l’application développée, démonstrateur en ligne…
28. Etat d'avancement du projet :
A – Base de données et site Web MOCCAdb
Au cours de la première année du projet SPIRALES (2006), la version v0.1 de MOCCAdb a été livrée et installée sur le
serveur de production de l'IRD de Montpellier, et une phase de test par les utilisateurs a été ouverte. Début 2007, un bilan a été
fait avec les utilisateurs concernant l'amélioration des interfaces de consultation.
En 2007, le développement de MOCCAdb a été poursuivi selon deux axes : (1) amélioration des interfaces de
consultation existantes selon les souhaits exprimées par les utilisateurs ; (2) implémentation des interfaces d'administration et
d'alimentation automatique de la base de données. Ce développement a fait l'objet d'une prestation de service de 2 mois.
Voici le bilan succinct des travaux réalisés :
Formulaire de demande SPIRALES 2008
page 736
[email protected]
I – Amélioration des interfaces de consultation existantes
Des modifications diverses ont été effectuées afin d'améliorer l'affichage des informations sur plusieurs pages Web, dont
les principales sont :

Mise à jour du schéma conceptuel (UML), du schéma physique et du script de création de la base de données (rajout
de nouveaux attributs demandés par les utilisateurs)

Intégration du nouveau bandeau d’entête MOCCAdb du site Web (Fig. 1)

Intégration d'une nouvelle entrée du menu « About MOCCAdb » (Fig. 1) et implémentation des liens Contact,
Copyright, Webmaster au pied de page

Elaboration d'un nouveau formulaire et d'une liste intermédiaire de résultats au niveau de l'entrée « Search Diversity »
(cf. en attaché des nouvelles captures d'écran MOCCAdb mdb_capture_ecran.ppt)

Amélioration des formats d’exportation de données (Excel, fasta)
Fig. 1 – Page d'accueil MOCCAdb (la nouvelle charte graphique)
II – Implémentation des interfaces d'administration et d'alimentation automatique de la base de données

Les interfaces d'administration ont été implémentées et sont fonctionnelles (voir le fichier mdb_captures_ecran.ppt
avec les captures d’écran en attaché)

Les formats de soumission automatique de données à partir de fichiers Excel ont été élaborés pour tous les types de
données,
et
le
guide
de
soumission
a
été
rédigé
(voir
le
fichier
Spirales2008_portail_annexe_mdb_guide_soumission.doc avec le guide de soumission ci-joint)

Les scripts d'alimentation automatique ont été élaborés, et une interface Web d'alimentation automatique implémentée
(cf. captures d’écran en attaché)
Formulaire de demande SPIRALES 2008
page 836
[email protected]

Une partie des données expérimentales a été insérée dans la base de données en utilisant cette interface
Le site Web de l'application est accessible en intranet sur http://bio-info/moccadb.
Les données expérimentales restantes sont en cours de préparation par les utilisateurs selon les formats de soumission
fournis.
B – Base de données et site Web CoffeeGD
Le développement de CoffeeGD s'est déroulé dans le cadre d'une prestation de 2 mois.
Pour cette application, comme pour MOCCadb, le développement a concerné les deux aspects : consultation et
alimentation de la base de données. De plus, suite à l'accumulation de nouvelles données depuis sa conception en début 2006,
la vision par les utilisateurs des types d'entités à stocker dans la base de données a évolué; des modifications importantes dans
son schéma conceptuel ont été par conséquent introduites afin de pouvoir intégrer ces nouvelles données.
Voici le bilan :
I – Modifications du schéma conceptuel de la base de données (cf. les nouveaux diagrammes des classes en attaché: fichier
Spirales2008_portail_annexe_cgd_classes.pdf)

Une classe générique « entity » comprenant toutes les entités à stocker dans la base de données a été créé, et les
définitions strictes des markers et des sondes ont été élaborées

La notion de l'« ortholog », qui était présente dans l'ancien schéma UML sous une forme très préliminaire, a été
approfondie (un package supplémentaire a été créé)

Suite à ces modifications, le script de création de la base de données a été mis à jour, et des nouvelles maquettes ont
été élaborées pour les formulaires de recherche de markers et sondes
II – Consultation de la base de données
Développement

Les interfaces de consultation ont été finalisées pour quatre des 7 entrées du menu « Search », en accord avec ce qui
avait été prévu dans le cahier de charges (Fig. 2 et d’autres captures d'écran en attaché ; fichier
cgd_captures_ecran.ppt).

L'affichage des informations concernant les entités stockées dans la base de données est différentiel en fonction de
l'accès authentifié ou non. Les droits d'accès sont attribués par banque BAC / carte.

Après une phase de test de 2 semaines (avec un jeu de données fictives), elles ont été validées en totalité lors d'une
réunion des utilisateurs (une liste des améliorations souhaitables a été dressée ; à faire ultérieurement).
Formulaire de demande SPIRALES 2008
page 936
[email protected]
Fig. 2 – CoffeeGD : Page de recherche de sondes (le nouveau formulaire)
III – Administration et alimentation de la base de données
Conception et analyse :
 Les maquettes des interfaces graphiques ont été élaborées pour l'administration et alimentation de la base de données
(voir fichier Spirales2008_portail_annexe_cgd_maquettes.pdf ci-joint)
 Les formats de soumission de données et le guide de soumission ont été élaborés (cf. pièce jointe)
 Une analyse détaillée des fichiers avec les données expérimentales a été effectuée avec la productrice principale de
données, et des consignes concernant leur formatage ont été rédigées. Les données sont en cours de la préparartion.
Développement :

Une partie des interfaces d'administration et d'alimentation manuelle (via des formulaires HTML) a été implémentée.
(voir cgd_captures_ecran.ppt)
IV – Rédaction de la documentation technique a été initiée
L'application CoffeeGD v0.1 se trouve sur http://bio-info/coffeaDB
C – Portail Web dédié à la génomique des caféiers
Le prototype du portail Web dédié ressources génomiques des caféiers créé par Fabrice Bénédet en 2007 est
actuellement installé en local sur l'un des PC de la plateforme bioinformatique.
Une réunion de restitution de son travail a eu lieu en juin 2007 (cf. pièce jointe : présentation PowerPoint
Spirales2008_portail_Conception_du_portail_Web.ppt).
Des descriptions des équipes de l'IRD concernées par le projet ont été intégrées dans le site Web.
Voici le rappel des principales caractéristiques de l'application :

Architecture globale adoptée :
Formulaire de demande SPIRALES 2008
page 1036
[email protected]
Utilisateurs
Administrateur
Portail Web
CONSULTATION
Site Web MoccaDB
Moteur de recherche
Bases de données
IRD
Autres pages
Page Description
Schéma global :
Données intégrées
Site Web CoffeaDB
Page Liens
Autres...
CoffeeGD
Autres bases
publiques
Autres bases
Autres bases
(SOL...) publiques
privées
MoccaDB

(ESTdb...)
(SOL...)
Architecture d’une page du portail web
Logo
IRD
Moteur de recherche de séquences
Contenu du site
Menu
principal
Lien site IRD, Informations légales

Charte graphique du portail web
Formulaire de demande SPIRALES 2008
page 1136
[email protected]

Plan de navigation du portail
- Lien site IRD
- Legal mentions
- Moteur de recherche
Home
Scientific program

Genomic resources
Bioinformatic resources
Genetic resources
Links
Prototype du moteur de recherche
Le moteur de recherche correspond à un formulaire au niveau duquel il est possible d'effectuer des recherches de
séquences et marqueurs dans différentes bases de données (par nom de séquence ou de marqueurs, par type de séquence ou par
espèce végétale).
Pour le prototype, nous avons limité les critères de recherche et les sources de données : MOCCAdb et CoffeeGD mais
le système est suffisamment générique pour intégrer relativement facilement de nouvelles sources de données.
Capture d'écran :
Formulaire de demande SPIRALES 2008
page 1236
[email protected]
La solution adoptée pour l'intégration des données de multiples sources de données est proche de l'entrepôt de données.
Voici les différentes étapes qui nous ont permis de réaliser ce moteur de recherche :
1.
Extraction des données des deux bases de données, transformation des données pour une mise en conformité
selon un schéma global et thésaurus puis stockage des données normalisées

Une partie de chaque modèle physique (correspondant essentiellement aux tables, dites tables principales, contenant
les données impliquées au niveau du moteur de recherche ou aux tables liées à ces tables principales) est décrit sous la
forme de document XML

les données sont extraites automatiquement de chaque base de données par un programme partant de la description
XML des schémas.

Les données sont ensuite normalisées en utilisant un thésaurus

Les données normalisées sont stockées en s’appuyant sur un schéma global propre au domaine
2.
La consultation-interrogation par un module de recherche au niveau du fichier normalisé. Le résultat est
affiché en utilisant une feuille de style XSLT et un moteur XML-XSLT.
Remarque : Devant la faible quantité de données utilisée pour le prototype, il a été choisi d’utiliser comme structure de
stockage des fichiers à plat que ce soit pour les données en entrée (correspondances, thesaurus) ou en sortie (données stockées).
Formulaire de demande SPIRALES 2008
page 1336
[email protected]
29. Respect de l’échéancier (et rappel de l’échéancier) :
Dans notre demande de financement initiale, la livraison des versions 1.0 des deux bases de données et applications Web
MOCCAdb et CoffeeGD ainsi que du portail Web des ressources génomiques des caféiers était prévue en fin 2007.
En partant du montant de financement accordé par SPIRALES en 2007 (ne permettant que 4 mois de CDD) et du
nombre important des tâches à réaliser pour chaque application, il a été décidé de limiter le développement aux bases de
données MOCCAdb et CoffeeGD. En mettant 2 mois de travail pour chaque base de données. Les tâches principales réalisables
en cette période ont été définies (voir le cahier des charges élaboré pour la prestation 2007 en attaché : CDC-prestation-IRDUR141-2007.doc).
Pour MOCCAdb, le planning défini pour la prestation a été pratiquement respecté.
Pour CoffeeGD, les taches accomplies correspondent à 75% de ce qui était prévu dans le cahier des charges.
Le développement du portail Web, n'a pas été poursuivi.
(Voir les explications dans la section suivante)
30. Objectifs atteints OU non encore réalisés (et raisons) :
Au cours de l'année 2007, les objectifs suivants ont été atteints :

La version 0.2 de MOCCAdb est achevée. Elle permet la recherche et la consultation de tous les types de données
stockés dans la base de données et est prête à l'insertion de données expérimentales à partir de fichiers Excel, selon les
formats de soumissions élaborés

La version 0.1 de CoffeeGD est achevée. Elle permet la consultation des principaux types de données. L'insertion
automatique de données expérimentales sera possible après finalisation des scripts d'alimentation.
Le développement de CoffeeGD a pris un certain retard par rapport au planning initial à cause de la re-modélisation
importante de son schéma conceptuel, non prévue à une telle échelle dans le cahier des charges. Cette re-modélisation s'est
avérée nécessaire pour la finalisation des interfaces de consultation et pour la conception des interfaces d'alimentation de la
base de données.
Les objectifs fixés pour le portail Web n'ont pas pu être réalisés en 2007 par les raisons suivantes :

Contrainte de temps : le montant de financement attribué en 2007 n'a suffit que pour 4 mois de prestation (contre 6
mois demandés), ce qui n’a pas permis de planifier sa finalisation dans le cahier des charges (voir ci-dessus)

Dépendance de l'avancement du développement des deux bases de données dans lesquelles le moteur de recherche va
chercher les informations : étant donné que le moteur de recherche s'appuie sur les schémas relationnels des deux
bases de données et que ceux-ci ont beaucoup évolué en 2007, il n'aurait pas été possible de continuer le
développement du moteur de recherche avant la livraison des versions stables de CoffeeGD et MOCCAdb.
(A noter aussi : la responsable de la plateforme bioinformatique Christine Dubreuil-Tranchant étant partie début août 2007, ce
qui n’a permis que 2,5 mois de chevauchement avec le prestataire)
Objectifs non encore réalisés (prévues pour 2008) :

Finalisation du développement de MOCCAdb, migration sur le serveur de production, insertion des données
expérimentales, une dernière phase de test et mise en production de la version stable sur le Web

Finalisation du développement de CoffeeGD, migration sur le serveur de production, insertion des données
expérimentales et lancement d'une phase de test avant la mise en production sur le Web

Finaliser le prototype du portail web en le migrant sur le serveur de production. Les technologies utilisées pour le
prototype nécessitent la dernière version de PHP, non installée sur la plateforme bioinformatique. Finaliser l’interface
affichant les résultats suite au lancement du moteur de recherche

Finalisation de la documentation technique détaillée pour les trois outils mis en place; traduction de celle-ci, ainsi que
des guides d'utilisation et de soumission, en anglais
Formulaire de demande SPIRALES 2008
page 1436
[email protected]
Suite à l'accumulation de nouveaux types de données par les équipes depuis le début du projet en 2006, les besoins des
utilisateurs ont évolué et de nouveaux objectifs concernant le rajout de nouveaux modules et fonctionnalités aux bases de
données MOCCAdb et CoffeeGD ont été fixés pour 2008 :
MOCCAdb

Analyse, conception et implémentation de l'insertion et de recherche de nouveaux types de marqueurs de diversité
(INDEL, transposons) dans la base de données MOCCAdb. Le schéma conceptuel de MOCCAdb est suffisamment
souple et générique pour permettre d'intégrer ces nouveaux types de données.

Extension de la base de données afin de pouvoir y stocker et rechercher des marqueurs provenant d’espèces et de
familles autres que les caféiers.

Analyse, conception et implémentation de l'insertion de cartes génétiques provenant d’autres espèces et de sites
externes

Conception et implémentation de recherche de marqueurs associés à une “voie métabolique” ou à une fonction
putative (critère à définir pour les séquences d'ADN stockées dans la base de données)

Création de liens vers des bases de données végétales morphologiques externes; analyse de la possibilité de rendre ces
liens bi-directionnels
CoffeeGD

Plusieurs dizaines de milliers d’EST ont été obtenues chez le caféier (cf. ESTdb) et leur utilisation dans le cadre
d’étude de transcriptomique est en constante augmentation. Notamment, dans le cadre du projet PuceCafé soutenu par
une ANR, des puces oligonucléotides longs à haute densité (i.e. 15522 unigènes) sont mises au point et vont être
utilisées dans de nombreuses études. Il apparaît donc comme particulièrement pertinent d’associer les informations de
cartographie physique et génétique accumulées dans CoffeeGD avec les nouvelles données d’analyse de transcription.
31. Livrables produits (outils, documentations, méthodes, URLs…) /
fournis à l’équipe IS :

MOCCAdb version 0.2, doc technique, formats de soumission et guide de soumission de données

CoffeeGD version 0.1, formats de soumission et guide de soumission de données

Prototype du portail Web des ressources génomiques des caféiers, cahier de charges avec une synthèse du travail
32. Moyens humains et services de la DSI mis à contribution en 2007
(personnes ressources du pool ‘IS’, dépôt SVN, hébergement sur
serveur, formation…) ?
Lors du développement, les trois applications ont été hébergées sur le serveur de développement du centre de l'IRD à
Montpellier. Elles ont bénéficié de l’assistance technique et administration système du SIL (Y. Pournin)
5. Description des besoins
Cette partie (questions 33 à 36) concerne tous les nouveaux projets (étude de
faisabilité, projet finalisé de développement d’une application IS ou autre).
La demande peut-être être accompagnée de tous documents utiles :
présentation du projet global ou descriptif du projet, rapport de phases
préliminaires, étude de faisabilité, dossier d'expression des besoins ou
cahier des charges, devis détaillé…
Formulaire de demande SPIRALES 2008
page 1536
[email protected]
33. Objectifs scientifique
Actions ou projets de recherche soutendus par ce projet SPIRALES
OU renvoyer à un document joint
34. Description et analyse des besoins
OU renvoyer à un document joint
35. Description de l'existant (moyens – outils – compétences)
OU renvoyer à un document joint
36. Difficultés rencontrées jusqu’à présent :
6. Description du projet – SEULEMENT SI « développement d’application IS »
(méthodes, solutions, et moyens)
Cette partie (question 37 à 96) concerne les nouveaux projets finalisés de
développement d’application IS ainsi que les demandes de continuums portant
également le développement d’application IS.
La demande peut-être être accompagnée de tous documents utiles :
présentation du projet global ou descriptif du projet, rapport de phases
préliminaires, étude de faisabilité, dossier d'expression des besoins ou
cahier des charges, devis détaillé…
37. Nom de votre outil
Trois applications informatiques développées à l'IRD font l’objet de la présente demande :

Portail Web dédié à la génomique des caféiers

Système d'information MOCCAdb (Markers of Coffea and Close Associates)

Système d'information CoffeeGD (Coffee Genomic Database)
38. Si votre outil existe déjà, quel est l’URL du site internet ou des
documents qui le décrivent? Ou, si l’outil a été décrit dans un article,
fournir les références
Les versions beta de MOCCAdb et CoffeeGD achevées à 90% sont disponibles via Intranet sur le serveur de
développement de l'IRD de Montpellier, aux adresses respectives http://bio-info/coffeaDB et http://bio-info/moccadb
Le prototype du portail Web est installé en local sur l'un des PC de la plateforme bioinformatique.
Formulaire de demande SPIRALES 2008
page 1636
[email protected]
1. Innovation :
39. Ecrire 3 scénarios qui illustrent comment votre outil sera ou a été
utilisé dans votre communauté scientifique ou domaine d’activités
Les outils faisant l’objet de la présente demande seront utilisés par les scientifiques travaillant dans le domaine de la
génomique des caféiers.
1.
MOCCAdb servira de base de connaissances et d'outil de travail pour les utilisateurs à la recherche de marqueurs de
diversité chez les caféiers, mais aussi, grâce à l'extension de la base de données prévue en 2008, chez d'autres espèces
et familles. L'extension de la base de données aux espèces et familles autres que le caféier permettra d'élargir
considérablement la communauté scientifique pour laquelle l'application sera utile.
La recherche de marqueurs est basée sur plusieurs critères (nom, type, origine, cartographie, voie métabolique etc.). Il
est possible d'exporter les informations obtenues sur les marqueurs et les séquences sous des formats utilisables pour
des traitements supplémentaires (e.g. le format fasta permettant la comparaison et les alignements multiples de
séquences en vue d’études phylogéniques etc.)
2.
CoffeeGD est essentiellement un outil de travail pour l'équipe « Diversité et amélioration » (UR 186) et ses partenaires
(i.e. Cenicafe/Colombie). Il permet surtout de rechercher des informations sur les clones BAC et les sondes, les
conditions expérimentales d'hybridation et sur la cartographie physique.
3.
Le portail Web permettra une « visualisation » du travail de recherche effectué à l'IRD. Il doit également servir de
porte d’entrée à de multiples sources et ainsi servir d’outil pour tirer profit d’une masse de données ou d’informations.
Ainsi, il comporte un moteur de recherche qui permettra d'accéder d'une façon unique aux données stockées dans
MOCCAdb et CoffeeGD (d'autres bases de données internes ou externes pourront être rajoutées ultérieurement). Il est
aujourd'hui possible de rechercher des marqueurs et des séquences par leur nom, type, origine.
A partir du portail Web, on pourra également accéder aux sites Web des bases de données « caféiers » de l'IRD
(MOCCAdb, CoffeeGD, ESTdb) et aux descriptions des équipes impliquées (thématiques, objectifs, partenaires). Les
contacts (noms, e-mail, adresses) affichés sur ces pages faciliteront le dialogue entre les chercheurs.
40. Décrire, en un paragraphe, les innovations de votre projet pour votre
communauté scientifique
Le portail Web créé dans ce projet :
 améliore la visibilité des activités réalisées en génomique des caféiers au sein de l’IRD,
 propose une information intégrée/globale permettant d'offrir un service à forte valeur ajoutée,
 est une entrée unique vers les ressources, permettant d'offrir des services à forte valeur ajoutée pour les équipes.
Voir aussi la section suivante.
41. Existent-ils d’autres outils similaires au vôtre ? Si c’est le cas, lister
ces outils et décrire les avantages de votre outil par rapport aux
autres
Il existe des bases de données publiquement accessibles qui stockent certaines informations sur la génomique des caféiers
(e.g. site SOL, dédié essentiellement à la famille Solanaceae, contient aussi des données sur les caféiers ; le site le site
coffeeDNA de l’université de Trieste renferme des données de génomique et transcriptomique des caféiers).
Par rapport à ces applications, nos outils proposent l’accès à des informations nouvelles et surtout plus complètes. Que
ce soit sur le nombre d’espèces de caféiers pour lesquelles des données ont été obtenues, ou encore sur la nature des données.

Ainsi, MOCCAdb est destinée à stocker des données de diversité intra- et inter-spécifique pour le genre Coffea (non
seulement pour les espèces cultivées, mais aussi pour des espèces sauvages), ainsi que des informations sur la
transférabilité des marqueurs de caféiers sur d'autres genres et familles végétales.

Une vraie innovation de CoffeeGD par rapport aux outils existants est qu'elle permettra de stocker et de rechercher les
orthologues des marqueurs de caféiers chez d'autres espèces. A l'heure actuelle, les informations concernant les
orthologues sont disponibles uniquement sur le site SOL.

Le portail Web des ressources génomiques des caféiers est unique dans son genre car il permet de réunir toutes les
Formulaire de demande SPIRALES 2008
page 1736
[email protected]
ressources génomiques sur le caféier de l'IRD et de ses partenaires du réseau international ICGN.
42. Si vous proposez des améliorations à un outil existant, combien
d’utilisateurs ont déjà téléchargés ou obtenus une copie de la
version actuelle ?
Nos applications n'étant pas encore achevées, elles ne sont pas disponibles aux consultations extérieures et aux
téléchargements de données.
43. Le projet proposé est-il basé sur de nouvelles conclusions
scientifiques ou méthodes innovantes ? Si c’est le cas, décrire les
fondements et lister les références les plus pertinentes.
Depuis 2006, les équipes de l'IRD impliquées dans le projet SPIRALES initial ont accumulé de nouveaux types de
données qu'elles souhaiteraient pouvoir insérer dans leurs bases de données :

L'équipe « Génomique Fonctionnelle et Evolution des caféiers » possède aujourd'hui des données sur plusieurs types
de marqueurs de diversité testés dans plusieurs espèces appartenant à des familles différentes.

De nombreuses informations sur la position de ces marqueurs sur différentes cartes génétiques / physiques, ainsi que
sur les voies métaboliques sous-jacentes ont été récemment acquises par l’équipe «Génomique Fonctionnelle et
Evolution des caféiers », la synthèse et le croisement des différentes informations apparaissent pertinents

L'apparition et le développement des bases de données morphologiques externes avec des descriptifs des espèces
végétales rend très intéressant le développement de liens avec ces bases.

L'équipe « Diversité et amélioration » dispose de données sur les orthologues des marqueurs de caféiers chez l'arabette
et la tomate (ces derniers grâce à l'avancement rapide du séquençage du génome de la tomate
http://www.sgn.cornell.edu/about/tomato_sequencing.pl).
Références :
 Bustamante-Porras J., Campa C., Poncet V., Noirot M., Leroy T., Hamon S., and de Kochko A. (2007). Molecular
characterization of an ethylene receptor gene (CcETR1) in coffee trees, its relationship with fruit development and
caffeine content. Mol Genet Genomics 277:701–712
 Mahesh V., Million-Rousseau R., Ullmann P., Chabrillange N., Bustamante J., Mondolot L., Morant M., Noirot M.,
Hamon S., de Kochko A., Werck-Reichhart D., and Campa C. (2007). Functional characterization of two p-coumaroyl
ester 3'-hydroxylase genes from coffee tree: evidence of a candidate for chlorogenic acid biosynthesis. Plant Mol Biol
64: 145-59.
 Mahesh V., Rakotomalala J. J., Le Gal L., Vigne H., de Kochko A., Hamon S., Noirot M., and Campa C. (2006).
Isolation and genetic mapping of a Coffea canephora phenylalanine ammonia-lyase gene (CcPAL1) and its
involvement in the accumulation of caffeoyl quinic acids. Plant Cell Rep 25: 986-92.
 N'Diaye A., Noirot M., Hamon S., and Poncet V. (2007). Genetic basis of species differentiation between Coffea
liberica Hiern and C. canephora Pierre: Analysis of an interspecific cross. Genetic Resources and Crop Evolution 54:
1011-1021.
 Poncet V., Dufour M., Hamon S., Hamon P., de Kochko A., and Leroy T. (2007). Development of genomic
microsatellite markers in Coffea canephora and their transferability to other coffee species. Genome: in press.
 Poncet V., Rondeau M., Tranchant C., Cayrel A., Hamon S., de Kochko A., and Hamon P. (2006). SSR mining in
coffee tree EST databases: potential use of EST-SSRs as markers for the Coffea genus. Mol Genet Genomics 276:
436-49.

Mahé L., Combes M.C., Lashermes P. (2007) Comparison between a coffee single copy chromosomal region and
Arabidopsis duplicated counterparts evidenced high level synteny between the coffee genome and the ancestral
Arabidopsis genome. Plant Mol Biol 64:699-711.

Wu F, Mueller LA, Crouzillat D, Pétiard V, Tanksley SD (2006) Combining Bioinformatics and Phylogenetics to
Identify Large Sets of Single Copy, Orthologous Genes (COS) for Comparative, Evolutionary and Systematic Studies:
A Test Case in the Euasterid Plant Clade. Genetics 174:1407-1420
Formulaire de demande SPIRALES 2008
page 1836
[email protected]
2. Calendrier, budget et risques
44. Calendrier du projet montrant les tâches clés et les dates
d’échéances
Début de projet prévu par la DSI : mi février 2008
Etape 1 : finalisation et mise en production des versions 1.0 de MOCCAdb et de CoffeeGD (2,5 -3 mois)

finalisation des scripts d'alimentation et d'administration des deux bases de données (5 – 6 semaines)

migration sur le serveur de production et insertion de la totalité des données expérimentales (1 semaine)

tests beta (performances, bugs résiduels, interfaces) (2 - 3 semaines)

corrections des bugs et améliorations éventuelles de l'affichage des informations et de la sécurité d'accès, mise en
production sur le Web (2 semaines)

finalisation et traduction en anglais des documentations techniques des deux bases de données (peut se faire lors de la
phase de test) (3 semaines)
Mise en production de CoffeeGD et MOCCAdb sur le Web : fin avril - mi mai 2008
Etape 2 : finalisation du portail Web (3 - 3,5 mois)

Finalisation du moteur de recherche (3 semaines)

Analyse, conception et implémentation d'une interface d'administration (10 jours)

Intégration des données sur le matériel (plantes) provenant de collections & de prospections + bibliographie (+
photothèque optionnelle) (Cette intégration nécessite la création d'un petite BD) (15 jours)

Ajouter d'autres sources comme ESTdb (7 jours)

En vue de l'augmentation de la quantité de données, prévoir, pour l'intégration des données, leur stockage dans une
BD relationnelle ou dans une BD XML native (15 jours)

installation de la version beta du portail sur le serveur de production et ouverture d'une phase de test (2 – 3 semaines)

rédaction de la doc technique (peut se faire lors de la phase de test) (15 jours)
Mise du portail sur le Web : mi-août 2008
Etape 3 : rajout de nouvelles fonctionnalités à MOCCAdb et à CoffeeGD (2 mois)
Analyse et conception (3 – 4 semaines)
MOCCAdb

Insertion de nouveaux types de marqueurs de diversité et de nouvelles espèces et familles végétales dans la base de
données : rajout de nouvelles classes dans le schéma conceptuel de la base de données ; élaboration, si besoin, de
nouvelles maquettes des interfaces graphiques ; analyse des formats de stockage des nouvelles données et préparation
des formats de soumission

Etude de faisabilité de l'implémentation des liens bi-directionnels vers les bases de données morphologiques
CoffeeGD
 Analyse et conception de la demande d'associer la base de données CoffeeGD avec les données de transcriptomique
(et notamment, avec ESTdb)
Implémentation / développement

Modifications des requêtes d'interrogation des BD et des interfaces Web (–3 - 4 semaines)
Mise à jour des documentations techniques (1 semaine)
Livraison prévue : mi-octobre 2008.
Formulaire de demande SPIRALES 2008
page 1936
[email protected]
45. Eventuellement, budget détaillé montrant les coûts des tâches clés,
des différents modules ou phases.
(Les informations apportées doivent être cohérentes avec celles précisées à la question 18.)
46. Si vous demandez des fonds pour des activités autres que du
« développement logiciel », pourquoi ces activités sont-elles
essentielles à l’accomplissement de votre projet ?
47. Quel sont les risques encourus si votre projet ne peut être finalisé à
échéance et dans le budget prévu ? Comment comptez-vous pallier à
ces risques ?
Nous avons soigneusement estimé la durée de chaque étape et les principales tâches à accomplir. Si le financement
accordé par la DSI est suffisant pour assurer la durée du projet demandée (8 mois de prestation), le risque de non-achèvement
est minimal. Dans le cas où le montant obtenu serait moins élevé, les équipes de l'IRD ne pourront pas compléter le
financement manquant car il n'existe pas actuellement d'appel d'offres permettant d'embaucher du personnel qualifié en
bioinfomatique. L’état actuel de l’avancement du projet ne permet pas non plus de confier les développements à des débutants
(e.g. étudiants en stage).
Pour pallier ce risque et tout autre risque lié, par exemple, à une sous-estimation de la durée de certaines étapes, nous
avons numéroté les étapes du projet par ordre de priorité. Pour chaque étape, nous allons strictement définir dans le cahier de
charges, l'ordre d'exécution des tâches, des tâches critiques etc. (diagrammes PERT, GANTT). Ainsi, par exemple, si l'étape 3
n'est pas achevée, nous aurons néanmoins des produits fonctionnels mais moins complets donc moins informatifs pour la
communauté scientifique.
48. Si vous demandez un soutien d’un an, accepteriez-vous de recevoir
les crédits l’année prochaine plutôt que cette année ?
Non
49. Si cette demande concerne la phase 1 d’un projet prévu sur 2 ans,
pouvez-vous réaliser le projet en entier sur une année si vous
obtenez les crédits en une seule fois ? Comment cela impacterait-il
votre projet ?
3. Architecture de l’outil
50. Décrire l’architecture envisagée pour votre outil. Identifier les
composants clés de l’application et décrire comment ils
interagissent.
Le schéma ci-dessous montre l'architecture générale et les interactions entre les outils faisant l’objet de ce projet (jaune
pâle) ainsi que leur interaction avec des outils bioinformatiques de la plateforme bioinformatique (jaune foncé) de l'IRD et avec
des sources de données externes (« corail »). Les liens existants sont représentés par les lignes solides, ceux à développer, en
pointillés.
Ainsi, le portail Web des ressources génomiques des caféiers sera lié aux ressources génomiques de l'IRD : les bases de
données MOCCAdb, CoffeeGD, faisant l’objet de ce projet, et ESTdb, dédié au stockage de séquences EST végétales. Le
moteur de recherche pourra extraire des informations de ces bases de données.
Les applications CoffeeGD et MOCCAdb seront liées à l'application CMAP permettant d'afficher des données sur la
cartographie physique et génétique et à BLAST (grâce à la possibilité d'exporter les séquences sous format fasta).
Formulaire de demande SPIRALES 2008
page 2036
[email protected]
De plus, à partir du site Web de MOCCAdb, nous avons accès aux sites Web SOL et NCBI, et des liens bi-directionnels
sont prévus vers des bases de données morphologiques externes.
Portail
« Ressources génomiques
des caféiers »
NCBI
CoffeeGD
ESTdb
MOCCAdb
SOL Genomic Network
CMAP
BLAST
BD botaniques
morphologiques
L’architecture interne du portail Web est présentée plus haut (paragraphe 28).
Quant à l’architecture des systèmes d’information MOCCAdb et CoffeeGD, chaque base de données comporte 26 tables.
Les sites Web des deux bases de données ont une architecture hiérarchisée (3 - 4 niveaux de profondeur, en fonction des
entrées). Les menus SEARCH proposent plusieurs entrées permettant les recherches d’informations via des formulaires multicritères. La soumission d’un formulaire aboutit à une page intermédiaire avec une liste des résultats, à partir de laquelle on
accède à des descriptions détaillées des données. Des chemins transversaux entre les pages de résultats facilitent la navigabilité
sur le site. Voir ci-dessous, par exemple, l’architecture du site Web de MOCCAdb (pour la consultation des données).
Formulaire de demande SPIRALES 2008
page 2136
[email protected]
HOME
SEARCH
BLAST
UPLOAD DATA
Marker
Sequence
Map
Diversity
Form
search marker
Form
search sequence
Form
search map
Form
search diversity
Form
search project
List of markers
List of sequences
List of maps
List of results
???
Selected marker
Selected sequence
Selected map
Diversity data
for selected marker
Project
Info project
Map visualisation
51. Lister les méthodes/référentiels d’analyses, de conception et de
développement utilisés pour élaborer l’outil.

Analyse et conception : UML (Unified Modelling Language)

Technologies Web standard et langages de programmation : PHP 5, XHTML, XML, XSLT, CSS, JavaScript, Ajax

Le Système de Gestion de Bases de Données MySQL, SQL 92
52. Lister les langages de programmations et les outils de
développement envisagés. Préciser le type de syntaxe qui sera
utilisée pour la documentation du code.
Langages de programmations et outils de développement utilisés :

Langages de programmation : PHP 5, XHTML, XML, XSLT, CSS, JavaScript.

Le logiciel libre Umbrello (Linux) est utilisé pour la modélisation UML.

L'éditeur de texte Emacs sous Linux est utilisé pour l'écriture des scripts.

L'accès aux bases de données se fait via terminal ou via l'interface phpMyAdmin.
Documentation du code :
Tous les scripts sont soigneusement commentés. Pour la documentation du code, la syntaxe standard propre à chaque
langage est utilisée. E.g. pour PHP, les commentaires multi-lignes sont mis entre /* */ ; les lignes de commentaires sont
introduites par //.
Pour chaque fichier de script, la documentation est divisée en plusieurs zones : en début du fichier, le nom du fichier
Formulaire de demande SPIRALES 2008
page 2236
[email protected]
source, son auteur, description global du fichier, puis les chemins pour require /include, des fonctions globales (s'il y en a) avec
des descriptions (protocole d'appel).
Les commentaires sont écrits en français ; si la déclaration des applications à l'Agence de Protection des Logiciels est
envisagée en vue de diffusion possible aux partenaires externes, ils seront traduits en anglais.
53. Lister le matériel et les logiciels requis pour faire fonctionner votre
outil.
Les applications MOCCAdb, CoffeeGD et portail Web n'étant pas achevées, les contraintes matérielles ne pourront être
testées qu'après leur installation sur le serveur de production et l'insertion des données expérimentales.
Leur fonctionnement nécessite le serveur Apache 2.0.53 et PHP 5.0.3, ainsi que MySQL (version 3.2x minimum). Tous
ces outils sont installés sur le serveur de production sous un système d'exploitation Linux (RedHat AS 3.0).
Les outils bioinformatiques requis : CMAP, blast (installés sur le serveur).
Sur les postes clients, il suffit d'avoir un navigateur Web (de préférence, Mozilla / Firefox) et des outils bureautiques
standards (un éditeur de texte comme Notepad, un tableur comme Excel).
54. Comment ces choix influeront sur l’appropriation de votre outil par
les utilisateurs cibles ?
Etant donné que la consultation des sites Web du portail et des bases de données mises en place ne nécessite que des
outils bureautiques et Web standards, présents sur la majorité des postes clients, il n'y aura aucun empêchement quant à leur
appropriation par les utilisateurs
55. Justifier le choix de ces technologies (conformité à des référentiels,
robustesse, pérennité, communauté de développeur importante…) :
Choix du SGBD MySQL

Ce SGBD offre des performances suffisantes quant à de moyens volumes de traitements et un nombre restreint
d'utilisateurs

Il est gratuit (sous licence GNU GPL)

Il possède un outil d'administration Open Source phpMyAdmin très convivial.
Actuellement, toutes les bases de données hébergées au niveau de la plateforme bio-informatique de l'IRD tournent sous
MySQL 3.2 (seul SGBD disponible). Le choix du SGBD s’est donc naturellement porté sur MySQL, avec la formulation
cependant de plusieurs remarques (notamment de passer à une version supérieure)
XHTML, XML et les feuilles de style en cascade CSS sont des normes standards en termes de publication Web (selon les
recommandations officielles du World Wide Web Consortium (W3C)).
PHP (Pre Hypertext Preprocessor) est un langage interprété conçu en 1994 par Rasmus Lerdorf pour créer et gérer facilement
des sites Web dynamiques.
Les principaux atouts de PHP sont :

sa gratuité et son fonctionnement sous plusieurs systèmes d’exploitation (Windows, Linux, MacOS X etc.)

la possibilité d'inclure le script PHP au sein d'une page HTML

développement généralement plus rapide et son coût moins élevé par rapport à J2EE ou .NET

la possibilité de connexion à la majorité des SGBD dont MySQL est le plus couramment utilisée avec PHP

une sécurité renforcée, les utilisateurs n’accédant en aucun cas au code source des fichiers php stockés sur le serveur.

une communauté importante de développeurs en PHP existe (environ 40% des sites Web sont créés en utilisant PHP).
La version 5 de PHP a été choisie car elle dispose de fonctionnalités supplémentaires (modèle objet) nécessaires pour le
fonctionnement du portail Web « caféier ».
4. Données en entrée et en sortie
56. Énumérer et décrire les données en entrée et en sortie de votre outil.
Formulaire de demande SPIRALES 2008
page 2336
[email protected]
En entrée

fichiers Excel (plus précisément, transformés en CSV) avec les données expérimentales pour l'insertion en batch

saisie manuelle dans des formulaires HTML pour l'insertion de certains types de données

saisie manuelle dans des formulaires HTML pour les recherches dans la base de données
En sortie

pages Web affichant les résultats de recherche

affichage graphique de cartes génétiques et physiques avec CMAP,

fichiers d'exportation de données sous format Excel ou plein texte (format fasta).
57. Décrire la disponibilité (ou l’accessibilité), le format de stockage et
d’organisation ainsi que la qualité des données utilisées en entrée.
Quel est le coût et l’effort requis de l’utilisateur pour collecter,
acheter, obtenir ou convertir ces données ? Dans quelles mesures le
coût et l’effort requis limiteront-ils l’adoption de votre outil ?
Les fichiers Excel seront utilisés pour l'alimentation automatique des bases de données selon les formats de soumission
élaborés. Ces fichiers sont remplis en permanence par les producteurs de données d'un projet à partir de leurs cahiers de
manipulations. Une partie de données sera récupérée gratuitement sur des sites Web publics ou dans des publications
scientifiques externes. Pour la soumission, les fichiers Excel devront être convertis en format CSV (procédure facile exécutée
au niveau de Excel).
La qualité scientifique de ces données sera vérifiée avant la soumission par le responsable du projet.
Si les fichiers avec les données ont été remplis conformément aux formats prédéfinis, il n'y aura aucun effort particulier à
faire pour la soumission.
De même, pour la consultation des données, le seul effort consiste à la connexion à la base de données désirée. Les
recherches se lancent sur des combinaisons de critères et l’affichage permet d’accéder à des tableaux synthétiques avant l’accès
à des données plus détaillées. Certaines données (conditions expérimentales, séquences…) peuvent être téléchargées sous
différents formats.
58. Les données seront-elles testées ou validées par l’outil en entrée ? Si
oui, comment ?
Les données en entrée seront testées par nos outils :
Pour les saisies dans les formulaires de recherche de données, ce sera JavaScript, intégré dans le script PHP et exécuté
coté client, qui vérifiera que tous les champs obligatoires sont renseignés et que les valeurs saisies sont de type approprié.
Pour l'alimentation des bases de données à partir de fichiers CSV, ce sera le script PHP qui effectuera les vérifications :

en effectuant des requêtes SQL sur la base de données, il vérifiera, pour chaque ligne de données soumise, le respect
des contraintes d'intégrité (l'unicité des identifiants afin d'éviter l'insertion de doublons, les clés étrangères etc.).

Il vérifiera également la conformité des formats des valeurs numériques et des dates aux standards utilisés par le
SGBD.

Un fichier d'erreur sera généré à la fin de l'insertion de données, qui précisera le(s) types d'erreurs pour chaque ligne
du fichier soumis.
Pour les saisies dans les formulaires d'administration et d'alimentation manuelle, la vérification sera mixte : une partie
sera vérifiée par les scripts JavaScript, une autre, par le script PHP.
59. Validerez-vous ou avez-vous déjà validé scientifiquement les
données en sortie de votre outil ? Si oui, décrire comment cela se
fera ou a été fait.
La qualité scientifique des données en entrée sera vérifiée d’une part par le responsable du projet et par les utilisateurs et
/ ou générateurs de données.
Formulaire de demande SPIRALES 2008
page 2436
[email protected]
La validation des données en sortie se fera à travers de publications scientifiques.
60. Décrire l’utilité immédiate des données en sortie de votre outil et les
nécessaires conversions, post-traitements ou analyses ultérieures
requis. Comment l’effort requis impactera-t-il l’adoption de votre outil
par les utilisateurs cibles ?
En plus de l'affichage des pages Web avec les résultats de recherche, les utilisateurs pourront exporter les données sous
format texte (fasta) ou tableau (Excel). Un choix d'options d'exportation (nombre de résultats et types des informations
souhaités) est proposé. La possibilité d'exporter les séquences d'ADN sous format fasta représente une fonctionnalité
importante car permet leur utilisation immédiate pour des alignements multiples en vue de comparaison de génomes et d'études
de phylogénie...
Pour MOCCAdb, l’exportation de données croisées associées à un lot de marqueurs choisis (données expérimentales,
transférabilité, cartographie…) facilitera leur utilisation / exploitation par d’autres utilisateurs travaillant sur le café ou d’autres
espèces plus ou moins apparentées.
61. Existent-ils des métadonnées ou y a-t-il production de métadonnées
décrivant les lots de données en entrée ou sortie ? Si oui, comment
sont-elles gérées et entreposées ? Sont-elles basées sur des
standards ?
Pour que le moteur de recherche du portail Web puisse aller rechercher les informations dans des bases de données
ayant des schémas physiques différents, ceux-ci sont décrits dans un fichier de correspondances sous le format XML. La
description des schémas se base sur le format RDF.
Les données sont extraites automatiquement de chaque base de données par un programme partant de la description
XML des schémas
62. La description ou le référencement des données est-il / sera-t-il basé
sur un ou des référentiels ou thésaurus ? Si oui, lesquels ?
Les données extraites par le programme (voir ci-dessus) sont ensuite normalisées en utilisant un thésaurus
Les données normalisées sont stockées en s’appuyant sur un schéma global propre au domaine
63. Quels sont les éventuels standards ou normes utilisées ?
Les normes W3C concernant la publication Web sont utilisées (utilisation du XHTML, XML, CSS).
Les requêtes d’interrogation des bases de données se basent sur le standard SQL 92.
64. Votre outil est-il prévu pour être utilisé de manière interactive par les
utilisateurs, par d’autres outils ou programmes (communication
entre outils sur la base de requêtes ou autres) ou les deux ?
Oui, les bases données MOCCAdb et CoffeeGD et le portail Web seront utilisées de manière interactive par les
utilisateurs (recherche et consultation de données, administration et alimentation des bases de données).
Les deux bases de données seront également utilisées par le portail Web (son moteur de recherche) sur la base de
requêtes SQL.
65. Si votre outil pourra être utilisé dans les 2 cas, de manière interactive
et de manière automatisée par d’autres applications, décrire les
caractéristiques et fonctionnalités non accessibles pour chaque
Formulaire de demande SPIRALES 2008
page 2536
[email protected]
mode d’utilisation.
Lors de l’utilisation automatisée des bases de données par le portail Web, son moteur de recherche ne pourra accéder (et
faire remonter) qu’aux données publiques de chaque base de données.
66. Si votre outil pourra communiquer de manière automatisée avec
d’autres programmes, écrire brièvement 3 scénarios d’utilisation qui
illustrent les détails de ces communications.
1.
Les sites Web des bases de données CoffeeGD et MOCCAdb font appel à l’application CMAP pour afficher les
données de la cartographie physique et génétique.
2.
Le site Web de MOCCAdb propose des liens vers des sites Web publiques (NCBI, SOL) : en cliquant sur le nom d'un
marqueur ou d'une séquence d'ADN sur les pages avec les résultats, on accède à l'affichage des informations
supplémentaires sur ce marqueur ou cette séquence sur ces sites.
3.
A partir du portail Web, il sera possible d’accéder aux sites Web des bases de données MOCCAdb et CoffeeGD ainsi
qu'à d’autres ressources et outils créés à l’IRD (e. g. ESTdb).
67. Si votre outil intégrera ou fera appel à des outils d’autres
développeurs, décrire brièvement 3 scénarios d’utilisation
Voir la section précédente
5. Rapports d’erreurs et d’avancement
68. De quelle manière votre outil montrera la progression du traitement
aux utilisateurs ? Qu’est-ce qui sera signalé ?
A la fin des traitements (recherche ou insertion de données), un résumé est affiché avec un rappel des paramètres soumis
et des statistiques (nombre de résultats trouvés ou nombre de lignes insérées, supprimées ou mises à jour dans chaque table de
la base de données concernée). En cas de non insertion de certaines données lors de la soumission de fichiers Excel, un lien
vers le fichier d'erreur généré est aussi affiché.
Un chemin des requêtes s’affichera tout au long de la navigation par l’utilisateur et si sa requête n’aboutit à aucune
donnée, un message d’erreur sera affiché.
69. Comment votre outil notifiera-t-il à l’utilisateur l’apparition d’une
erreur et quelles informations seront affichées dans le message
d’erreur ?
Les erreurs de l'insertion de données à partir de fichiers CSV (dues à des erreurs du formatage par les utilisateurs ou nonrespect des contraintes d’intégrité) seront envoyées par le script PHP dans un fichier d'erreur. Le lien vers le fichier d’erreur
sera affiché sur la page de résultat.
Les erreurs liées aux saisies dans les formulaires HTML ou au problème d’authentification d’utilisateurs seront signalées
via des alertes JavaScript personnalisées.
L’affichage des erreurs d’exécution du script ou d’échec de connexion à la BD sera minimisé en production pour les
utilisateurs afin de ne pas les effrayer et de ne pas dévoiler des détails des scripts ; par contre, l’administrateur en sera averti
(voir la section 91)
70. Avez-vous mis en place un processus de gestion des erreurs et de
correction par l’équipe de développement et comment ?
La gestion d’erreurs en cours de développement sera effectuée selon les fonctionnalités proposées par PHP (fonctions
Formulaire de demande SPIRALES 2008
page 2636
[email protected]
trigger_error() ou die()). Ainsi, au cas d'erreurs de connexion à la base de données ou de requêtes SQL, un message d'erreur
personnalisé sera affiché sur les pages Web. Par exemple, pour les erreurs des requêtes SQL, le message comportera le nom de
la requête concernée, permettant sa localisation rapide, concaténé au message standard de SQL (retourné par la fonction
mysql_error()). Les erreurs seront aussi enregistrées dans un fichier de log.
6. Documentation
71. Quelles sont les différentes documentations prévues : nature et
format de la (des) documentation(s) ? cible visée ? (spécifications
fonctionnelles, spécifications techniques, docs/API développeurs…)
Sont prévues :

La documentation technique pour chacune des trois applications (destinée aux concepteurs / développeurs)

Guides d'utilisation et de soumission de données; ce dernier, avec une description détaillée des formats de soumission
de données.

Fichiers Excel avec les formats de soumission de données
72. Lister les sujets ou principaux chapitres qui apparaitront dans la/les
documentation(s) de votre outil
Exemple de la documentation technique :
1. OBJECTIFS DU DOCUMENT
2. PRESENTATION DE L'APPLICATION (DU SYSTEME D'INFORMATION)
3. ANALYSE DE L'EXISTANT ET RECENCEMENT DES BESOINS
4. CONCEPTION
4.1. Notation UML
4.2. Aspects fonctionnels
4.2.1. Diagramme de hiérarchie d’acteurs
4.2.2. Diagrammes de cas d’utilisation
4.3. Aspect dynamique
4.4. Aspects statiques
4.4.1. Diagrammes de classes et paquetages
4.4.2. Dictionnaires des données et des associations
4.4.3. Schéma relationnel
4.5. Maquettes des interfaces graphiques
5. CHOIX TECHNOLOGIQUES
6. ARCHITECTURE
6.1. Base de données
6.2. Site Web
6.2.1. Architecture des dossiers contenant les fichiers du site
6.2.2. Description des fichiers
6.2.3. Architecture hiérarchisée du site Web
6.2.4. Nomenclature des fichiers et des variables
6.2.5. Structure générale des pages Web
6.2.6. Solutions techniques (optionnel)
7. CONCLUSIONS
8. PERSPECTIVES
Exemple du guide de soumission (cf. les guides de soumission en attaché):
INTRODUCTION
Formulaire de demande SPIRALES 2008
page 2736
[email protected]
Liste de fichiers avec formats de soumissions
FORMAT DE FICHIERS
FORMAT DE DONNEES
Général
Consignes du formatage par fichier de soumission
SOUMISSION DE DONNEES
L'ordre de soumission de données
Confirmation d'insertion des données et fichier d'erreur
7. Multilinguisme - traduction
73. Lister les langues parlées par vos utilisateurs cibles.
Français, anglais, espagnol, portugais
74. Lister les langues dans lesquelles votre outil, votre documentation et
tous les autres livrables seront traduits. Si vous ne traduisez par
votre outil dans toutes les langues parlées par vos utilisateurs,
comment cela affectera-t-il l’adoption de votre outil ?
Les trois applications existeront uniquement en anglais. C'est une langue parlée par toute la communauté scientifique, il
n'y aura donc aucun problème pour l'adoption des outils par les utilisateurs ciblés.
75. Quelles méthodes ou technologies seront utilisées pour la traduction
de votre outil, votre documentation et des autres livrables?
Les textes du site Web et des documentations techniques seront traduits par un traducteur professionnel et vérifiés par un
porteur de la langue
8. Processus et équipe de développement
76. Avez-vous déjà géré des projets de développement logiciel
précédemment ? Décrire brièvement votre(vos) expérience(s)
passée(s).
Oui. Deux autres projets de développement logiciel sont menés actuellement au sein de la plateforme bioinformatique :

Développement de la plateforme bio-informatique IRD plante (EST-DB) : Analyse, conception et développement de
nouveaux modules pour l’annotation automatique et pour la génomique comparative (SPIRALES, début en 2007)

InterProtDB, un système d’information dédié à la gestion et l’intégration de données protéomiques produites à haut
débit (SPIRALES, début en 2007)
77. Les développements seront-ils réalisés par des membres de votre
équipe, par un prestataire sous contrat, ou autre ?
Le service bioinformatique n’ayant pas de moyens humains pour assurer les développements, ils seront réalisés par un
prestataire sous contrat.
78. Si vous avez déjà sélectionné des développeurs, de votre équipe ou
d’un prestataire, lister les, spécifier leurs rôles et décrire leurs
compétences et leurs expériences passées. Attacher leurs CV si vous
les avez.
Formulaire de demande SPIRALES 2008
page 2836
[email protected]
Plechakova Olga – chef de projet / concepteur / développeur
Cf. son CV en pièce jointe
79. Si vous envisagez un prestataire de service, avez-vous déjà travaillé
avec un prestataire auparavant ? Décrire comment vous vous
assurerez qu’il développe ce que vous recherchez, dans les temps et
avec le budget prévu.
Nous avons déjà travaillé avec un prestataire pour ce projet ainsi que pour les autres projets menés par le service
bioinformatique.
Pour assurer le bon déroulement de la prestation:

En début de la prestation, un planning détaillé est élaboré, précisant l'ordre et la priorité des taches.

Des références bibliographiques ou sur des outils existants pouvant « inspirer » le prestataire sont mis à sa disposition

Des réunions de travail ainsi que des démonstrations et des tests du produit sont régulièrement organisées à la fin de
chaque étape de développement afin de valider les livrables

En cas de retard, les causes du retard sont analysées, et le planning initial est éventuellement modifié (redéfinition de
l'ordre et de priorité des taches afin de minimiser le risque de non achèvement du projet)
80. Impliquerez-vous vos utilisateurs cibles dans le processus de
conception et d’implémentation de l’outil ? Si oui, décrire comment.
Les utilisateurs cibles sont impliqués tout au long de la durée du projet :

dans le processus de l’analyse et de la conception via les interviews, groupes de travail, réunions d’utilisateurs. Ils ont
à leur disposition tous les documents accompagnant la modélisation (diagrammes UML etc).

dans les tests des applications. Une réunion d’utilisateurs est organisée à la fin de chaque phase de test afin de valider
l’application et de la mettre en production.
81. Où sera hébergé le code source de votre outil durant son
développement puis durant sa maintenance ?
Durant l’étape de développement, les applications seront hébergées sur le serveur de développement de l’IRD de
Montpellier (http://bio-info). Pour la phase de test final avec les vraies données et mise en production, les applications seront
migrées sur le serveur de production (http://bioinfo).
82. L’outil sera-t-il placé dans une plateforme collaborative ou au sein
d’une communauté de développement de projets open-source ? si
oui, lesquels ?
Non
9. Licence et distribution
83. L’utilisation de l’outil sera-t-elle soumise à une licence pour les
utilisateurs qui l’installeront sur leurs propres machines? S’agira-t-il
d’une licence libre ? Le code source de l’outil sera-t-il protégé ou
complètement ouvert ? (décrire l’éventuel coût, le type de licence et
toutes autres éventuelles obligations)
Le projet ne prévoit pas l’installation des applications créées sur les machines des utilisateurs. Elles seront installées sur
le serveur web de l’IRD. Leur utilisation se fera par Internet. Toutefois, pour les partenaires dans certains pays du Sud, il serait
envisageable d’installer une copie locale des bases de données. Dans ce cas, cela se ferait sous une licence libre, après la
déclaration des applications auprès l’APL (non prévue en 2008)
Formulaire de demande SPIRALES 2008
page 2936
[email protected]
84. Existe-t-il des parties ou modules de votre outil qui sont protégés par
des brevets ou des marques ?
Non
85. Décrire comment l’outil sera distribué ou rendu accessible aux
utilisateurs (lister les sites web si nécessaire)
Le portail Web et les bases de données CoffeeGD et MOCCAdb seront intégrés dans le site Web de la plateforme
bioinformatique de l’IRD de Montpellier. Dans un premier temps, comme toutes les autres applications de la plateforme, ils
seront accessibles uniquement pour les IRD-iens, soit sur place (via intranet, sur http://bioinfo) soit les expatriés (via
http://www.mpl.ird.fr/bioinfo, accès soumis à authentification).
Pour rendre les applications accessibles aux utilisateurs externes, il faudra définir le nom de domaine avec le SIL.
10. Installation
86. La procédure d’installation sera-t-elle automatisée par un programme
ou un script ou l’outil devra-t-il être installé « manuellement » ?
(Préciser les OS et distribution)
Il n’y aura pas de procédure unique automatisée pour l’installation des applications :

Les fichiers avec les codes sources des sites Web devront être copiés manuellement sur le serveur sous Linux dans les
répertoires préalablement crées selon l’architecture définie dans la doc technique.

Les bases de données devront être créées par un administrateur système

Les tables des bases de données seront créées automatiquement en lançant les scripts SQL dans la ligne de commande.
87. Est-ce que le programme ou script d’installation détectera et
signalera les logiciels requis manquants ?
Non car pas de programme d’installation prévu en 2008 (voir ci-dessus)
88. Est-ce que le programme ou script d’installation permettra la
désinstallation de l’outil ?
Non car pas de programme d’installation prévu en 2008 (voir ci-dessus)
89. Si l’installation n’est pas pris en charge par un programme ou un
script, existera-t-il une notice d’installation ?
Si, dans le futur (voir la section 83), il est décidé de distribuer les applications pour une installation en local, un guide
d’installation sera rédigé en anglais et attaché à la version distribuée (non prévu en 2008).
90. De quelle manière la complexité de la procédure d’installation
limitera l’adoption/l’utilisation de l’outil par les utilisateurs cibles ?
Bien que manuelle, la procédure d’installation n’est pas complexe ; accompagnée d’une notice d’installation, elle ne
posera pas de soucis pour l’adoption de l’outil par les utilisateurs cibles. Toutefois, l'installation devra être effectuée par un
informaticien / bio informaticien possédant les droits de « root » sur le serveur.
Formulaire de demande SPIRALES 2008
page 3036
[email protected]
11. Opération
91. Les utilisateurs pourront-ils faire fonctionner l’outil sans votre aide?
Si les utilisateurs doivent solliciter votre équipe ou des consultants
externes ou suivre une formation, décrire les détails et les coûts
Une fois les applications installées, les utilisateurs pourront les faire fonctionner sans une aide particulière de la part du
bio informaticien.
12. Assurance qualité, maintenance et support
92. Lister les techniques que votre équipe utilisera pour détecter les
erreurs ou défauts.
Autant en phase de développement l'affichage des erreurs est important, autant en production, afin de ne pas effrayer
l'utilisateur et de ne pas dévoiler des informations sur le script, cet affichage sera désactivé en mettant en « off » la directive
display_errors dans le fichier de configuration php.ini.
Avec ce type de comportement, pour connaître les éventuels problèmes de l'application, on va stocker les messages
d'erreur dans un fichier de log. L'administrateur sera également averti par email en cas d'erreurs graves.
93. Dans le cas où vous auriez un programme ‘beta’ en fin de
développement, décrire comment il fonctionnera. Si des utilisateurs
se sont déjà engagés pour l’utiliser, listez-les.
Les versions beta constitueront une étape intermédiaire du projet (pour les bases de données MOCCAdb et CoffeeGD,
elles sont achevées à 80 – 90%). Ces versions beta auront toutes les fonctionnalités en ce qui concerne la consultation des
données et alimentation des bases de données. Après l'insertion de données expérimentales, elles seront testées en intranet par
les membres des équipes concernées.
94. De quelle manière votre équipe fera-t-elle le suivi des erreurs dans ce
projet ?
Toutes les erreurs du projet, comme toutes les taches accomplies avec succès, seront notées dans le fichier du suivi de
projet. Les erreurs seront signalées au chef de projet. En cas d'urgence, une réunion de crise sera organisée afin de corriger le
problème.
95. De quelle manière apporterez-vous un support à vos utilisateurs
pendant la durée de ce projet, et après ?
Pendant la durée du projet, les utilisateurs seront informés par le chef du projet de l'avancement du développement, de
l'ouverture de la phase de tests etc. Un échange mutuel lors des réunions et par email permettra de tenir compte de leur souhaits
et remarques et d’améliorer les applications. Des consignes concernant le format de données en entrées seront aussi données.
Quand le projet sera fini, le bio informaticien - administrateur de bases de données assurera la maintenance des bases de
données (amélioration des performances, de sécurité, gestion d'erreurs, sauvegardes, mises à jour...)
96. De quelle manière apporterez-vous un appui aux développeurs
d’autres outils qui souhaiteraient utiliser et intégrer votre outil aux
leurs ?
En cas de demande d'intégration d'un de nos outils dans des outils d'autres développeurs, après un accord préalable entre
les chefs des projets, la documentation technique de nos outils sera mise à disposition de l'autre équipe. Les développeurs
extérieurs seront invités à rencontrer les personnes de l'IRD intéressées par une telle intégration soit individuellement soit lors
de réunions organisées par le bio informaticien, éventuellement, en présence du SIL afin d'estimer sa faisabilité.
Formulaire de demande SPIRALES 2008
page 3136
[email protected]
7. Description du projet – HORS développement d’application IS (méthodes, solutions,
et moyens)
Cette partie (questions 97 à 99) concerne les nouveaux projets ainsi que les
demandes de continuums (HORS développement d’application IS).
La demande peut être accompagnée de tous documents utiles :
présentation du projet global ou descriptif du projet, rapport de phases
préliminaires, étude de faisabilité, dossier d'expression des besoins ou
cahier des charges, devis détaillé…
97. Description du projet :
98. Description
approprié).
technique
du
projet
/
choix
technologiques
(si
99. Organisation, faisabilité et échéancier du projet.
8. Pertinence, résultats/livrables attendus et valorisation du projet
Cette partie (questions 100 à 106) doit être renseignée quelque soit la nature de la
proposition (nouveau projet ou continuum d’un projet SPIRALES existant, étude de
faisabilité, projet finalisé de développement d’une application IS ou autre).
La demande peut-être être accompagnée de tous documents utiles :
présentation du projet global ou descriptif du projet, rapport de phases
préliminaires, étude de faisabilité, dossier d'expression des besoins ou
cahier des charges, devis détaillé…
100.
Résultats attendus (livrables) : (10 lignes maximum)

Version stable de MOCCAdb mise en production sur le Web

Version stable de CoffeeGD

Portail Web des ressources génomiques des caféiers.
Formulaire de demande SPIRALES 2008
page 3236
[email protected]
101.
Pertinence du projet pour votre communauté scientifique
Des équipes des Unités de Recherche 186 « RPB » et 188 « DIA-PC » mènent plusieurs projets de génomique portant sur
les caféiers, plantes tropicales d'intérêt majeur pour les pays du Sud. La quantité et la diversité des données issues de ces projets
ne cessent d'augmenter et imposent le stockage de ces données dans des bases de données spécialisées afin d'assurer leur
gestion rationnelle.
Des bases de données publiques destinées à la génomique et à la transcriptomique existent de part le monde et sont
accessibles « on line » mais elles ne gèrent pas exactement les mêmes types de données (en général, elles sont moins complètes
par rapport aux données générées par les équipes de l'IRD). D'autre part, les scientifiques de l'IRD disposent non seulement des
données publiques qu'ils souhaiteraient rendre aisément accessibles à toute la communauté du domaine (aspect base de
connaissances) mais aussi des données privées qu'ils partageraient uniquement avec leurs partenaires jusqu'à leur publication
(aspect outil de travail pour l'équipe). Cela a donc imposé l'initiation en 2006 du projet SPIRALES par les équipes « Diversité
et amélioration » (UR 186) et « Génomique Fonctionnelle et Evolution des Caféiers» (UR 188) sur la création de deux
nouvelles bases de données adaptées exactement aux besoins de ces équipes (MOCCAdb et CoffeeGD). Ces bases de données
accessibles via des sites web permettront aux scientifiques de mieux gérer, partager et exploiter les données produites par ces
équipes. D’autre part, la création du portail Web dédié à la génomique du caféier, également prévue dans le projet, permettra à
la fois une interopérabilité des différentes bases de données (ESTdb, MOCCAdb, CoffeeGD) et un accès unique à l'ensemble
des données.
Les modèles des deux bases de données sont suffisamment souples et génériques pour pouvoir intégrer de nouveaux types
de données sur les caféiers mais aussi sur d'autres espèces et familles végétales et pourront donc être distribuées à terme à des
partenaires et à d'autres équipes de l'IRD travaillant dans la génomique végétale.
102. Pertinence du projet vis à vis des objectifs de SPIRALES /
justification d'un financement DSI
Ce projet rentre tout à fait dans les objectifs de SPIRALES. Il a comme objectif d'aider à finaliser deux bases de données
très complètes en génomique des caféiers et un portail Web unique dans son genre. La documentation technique (les schémas
des bases de données etc.) sera bien sûr distribuée au sein de l'IRD et aux partenaires. Comme il a été mentionné ci-dessus, les
applications pourront être également distribuées. Enfin, l'application permettra de mieux partager et d’exploiter les
informations au sein des unités de recherche concernées avec les partenaires. L'alimentation des bases de données se fera aussi
pour les données expérimentales des partenaires.
103.
Retours sur investissement attendus (pour l'unité, l'institut…)
Les bases de données MOCCAdb et CoffeeGD permettront aux UR de mieux gérer et surtout de mieux exploiter le
volume de données génomiques en constante augmentation. De plus, en intégrant d'autres applications telles que CMAP ou
blast, MOCCAdb et CoffeeGD deviennent de véritables systèmes d'informations intégrant des données de natures diverses.
Avec la mise sur le Web du portail Web d'accès unique aux ressources génomiques des caféiers de l'IRD, on assurera une
meilleure connaissance des travaux de l'IRD et reconnaissance de son rôle de leader dans le développement du Sud, ce qui
permettra de renforcer la collaboration et coopération avec les partenaires du Sud et encouragera les partenaires présents et
futurs à partager leur propres données.
104. Capitalisation, valorisation, transfert de savoirs-faire ou d'outils
possibles ou prévus en matière d'IS
A long terme, le transfert des bases de données (notamment, MOCCAdb) serait possible dans des pays du Sud.
105.
1.
Valorisation possible ou prévue
Mise en ligne des bases de données (http://www.mpl.ird.fr/bioinfo) avec un accès par l’ensemble de la
Formulaire de demande SPIRALES 2008
page 3336
[email protected]
communauté scientifique aux données publiques et un accès restreint pour les partenaires aux données privées
2.
Publication de MOCCAdb dans un volume de la revue Nucleic Acid Research spécialement dédié à la
bioinformatique (Article en cours de rédaction, soumission du résumé été 2008)
3.
Présentation aux partenaires (CENICAFE, Colombie; Université d'Arizona; Cameroun, CIRAD....) dès que
l'application sera fonctionnelle
4.
Présentation aux partenaires de la plateforme de Nouvelle Calédonie (UNC, IAC, Pasteur, IFREMER).
5.
Présentation par V. Poncet ou collaborateurs de MOCCAdb et du portail lors du prochain colloque ASIC 2008
(22nd International Conference on Coffee Science; 14-19 Septembre 2008, Campinas, Brésil).
6.
Présentation (sous le forme d'un poster) par P. Lashermes de CoffeeGD lors du prochain colloque ASIC 2008
(22nd International Conference on Coffee Science; 14-19 Septembre 2008, Campinas, Brésil).
7.
Diffusion de la méthodologie (cahier des charges, doc technique) aux partenaires et au sein de l’IRD.
106.
Observations particulières :
La somme demandée pour 2008 (20000 € HT) est supérieure à celle que nous avons obtenue en 2007. En effet, la
finalisation de ces trois applications, ayant chacune une architecture complexe et utilisant des technologies différentes,
demande encore beaucoup de travail au niveau de développement qui n’a pas pu être effectué faute de financement
supplémentaire. Néanmoins, les versions beta, permettant déjà la consultation des données et l’insertion de certains types de
données ont été créées. Il serait très regrettable pour la communauté scientifique visée (IRD et ses partenaires) de ne pas
pouvoir rendre les outils mis en place complètement fonctionnels et accessibles sur le Web. Par ailleurs, un article scientifique
sur MOCCAdb est en cours de rédaction ; une publication dans une revue de référence serait sans doute valorisante pour les
projets de recherche menés à l’IRD.
C. Dubreuil-Tranchant étant en congé maternité, nous avons rédigé ce compte rendu et ce projet sans elle. Certains
détails n’ont donc pu être renseignés, mais dès son retour elle pourra fournir toutes les informations supplémentaires si
nécessaire.
Formulaire de demande SPIRALES 2008
page 3436
[email protected]
Téléchargement