Laboratoire d’Informatique de École doctorale STIM, n. 503 Nantes-Atlantique « Sciences et technologies UMR 6241 de l’information et des mathématiques » Sujet de thèse pour 2013 Modélisation par contraintes du métabolisme des écosystèmes microbiens vers une optimisation multi-objectifs Directeur de thèse Nom, Prénom : Bourdon, Jérémie Équipe d’accueil : ComBi Unité de recherche : LINA (UMR 6241) Unité de rattachement : Univ. Nantes Courriel : jeremie.bourdon (at) univ-nantes.fr Téléphone : (+33/0) 2 51 12 58 25 Taux d’encadrement : 50 % Co-directeur de thèse Nom, Prénom : Eveillard, Damien Unité de recherche : LINA (UMR 6241) Unité de rattachement : Univ. Nantes Courriel : damien.eveillard (at) univ-nantes.fr Téléphone : (+33/0) 2 51 12 59 85 Taux d’encadrement : 50 % Financement prévu : MESR, CNRS-Région Sujet de thèse pour 2013 Modélisation par contraintes du métabolisme des écosystèmes microbiens vers une optimisation multi-objectifs Résumé. Le sujet proposé vise à modéliser les interactions microbiennes tels qu’elles existent de manière naturelle dans l’environnement. Les interactions entre bactéries forment un réseau de réactions biochimiques, qui régissent le comportement global d’un écosystème microbien. Cette thèse a pour but de proposer une méthodologie à base de contraintes, pour (i) représenter ce réseau ainsi que les différentes informations environnementales associées, et (ii) estimer l’activité de chaque réactions biochimiques du réseau via une optimisation des flux de matières. L’originalité de ces travaux sera dans un premier temps de poser proprement le système microbien comme un système de contraintes, pour ensuite appliquer des techniques d’optimisation multi-objectifs, jamais appliquées jusqu’alors, et ce pour mieux rendre compte de la complexité des systèmes microbiens qui font que plusieurs espèces cohabitent. Les perspectives de cette thèse sont le contrôle des flux parcourant les écosystèmes microbiens, ce qui représente un enjeu industriel, notamment pour la production de biocarburant. Mots clés. contraintes, optimisation, bioinformatique et microbiologie environnementale 2 Introduction Contexte et problématique Cette thèse s’inscrit dans le cadre bidisciplinaire de la bioinformatique et propose une alternative à la bioinformatique «classique», principalement orientée vers la biologie moléculaire, pour aller vers une bioinformatique d’avant-garde, ou «systems biology», qui s’intéresse à l’analyse et la simulation des comportements d’un système biologique contraint par son environnement. La problématique est d’extraire, de manière automatique, les propriétés émergentes d’un système dynamique, complexe par nature. Par exemple, cette biologie des systèmes identifie le rôle d’un gène sur la croissance d’une cellule [BES11], ou le lien qui existe entre le génome d’une bactérie et son métabolisme [BER11]. Parallèlement, la dernière décennie a vu l’émergence d’un nouveau domaine biologique à l’interface de la génomique et de l’écologie : la génomique environnementale [RV04]. Un défi majeur de ce domaine scientifique est l’élucidation, au niveau moléculaire, du fonctionnement des communautés microbiennes dans leur environnement. Grâce aux récents progrès biotechnologiques (i.e. séquençage massif de génomes et protéomique à haut débit), il est possible aujourd’hui d’avoir une perception complète, voir hollistique, d’un écosystème. Par exemple, les microbiologistes, grâce à ces nouvelles expériences, veulent comprendre pourquoi certaines nappes phréatiques se dénitrifient naturellement en présence de communautés bactériennes, comment certaines communautés microbiennes produisent du biocarburant à partir de polysaccharrides [WLW+ 12], comprendre la distribution des micro-organismes marins en fonction des océans [KAB+ 11]. D’un point de vue informatique, répondre à ces questions revient à extraire les propriétés émergentes d’un écosystème microbien modélisé, ouvrant un nouveau champ d’application appelé «systems ecology» [KS11]. Comme en «systems biology», le rôle de l’informatique est ici une fois de plus essentiel pour appuyer cette nouvelle thématique émergente, et ce bien au-delà de ce qu’elle peut traditionnellement fournir (puissance de calcul, capacité de stockage), notamment par ses capacités à formaliser et à extraire des informations avec toutes leurs interdépendances et d’en inférer d’autres. Problèmes et opportunités Dans un écosystème, l’ensemble des individus et les populations d’individus interagissent dans le temps et l’espace en fonction des fluctuations environnementales. Les interactions forment des réseaux qui sont classiquement analysés de manière formelle par les écologues (i.e. principalement par des systèmes d’équations différentielles ordinaires - ODEs). Cependant les approches traditionnelles écologiques sont rapidement limitées par le manque d’information cinétique concernant les interactions entre individus. Pour pallier à ce sous paramétrage, nous proposons de modéliser le problèmevia les transformations de matière issue des interactions entre bactéries. En effet, chaque bactérie produit des composés, les métabolites, qui sont consommés par d’autres bactéries. Ces métabolites sont donc convertis par diverses réactions biochimiques, produisant un réseau. 3 Figure 1 – Illustration de l’analyse à l’équilibre de flux. À partir d’un réseau métabolique (gauche), il est possible rechercher les flux qui doivent parcourir le syst‘eme à l’équilibre tel que la réaction représentée en rouge soit utilisée de manière optimale. Les résultats de l’optimisation sont sur la partie droite. L’épaisseur des flèches associées aux réactions correspond à l’intensité relative des différents flux après optimisation. La structure de ce réseau est décrite par sa matrice stœchiométrique S ∈ Rm×n . Les lignes de cette matrice correspondant aux métabolites, tandis que les colonnes sont les réactions utilisant les métabolites avec une certaine stœchiometrie. À l’équilibre, les taux de formation des métabolites sont égal à leurs taux de consommation, ce qui s’exprime par l’équation des flux à l’équilibre Sv = 0 avec v ∈ Rn étant le vecteur des flux métaboliques à l’équilibre. Ces flux sont par ailleurs contraints par des critères thermodynamiques qui peuvent être modélisées par des inégalités linéaires v min ≤ v ≤ v max v min et v max étant respectivement les bornes inférieures et supérieures des capacités de flux des réactions considérées. Rechercher les flux qui maximisent le flux d’une réaction donnée (voir Figure 1) tout en respectant les précédentes contraintes est appelé une analyse à l’équilibre de flux (Flux Balance Analysis - FBA) [SKB+ 02]. Cette approche est aujourd’hui répandue pour analyser les systèmes biologiques cellulaires [OTP10, BM09, RRC05]. Appliquer ces techniques d’optimisation sur les systèmes environnementaux a récemment été posé comme prioritaire pour la mise en application de la "systems ecology" [FR12, FD11]. Cependant cette tâche reste difficile sur des communautés de bactéries ou des écosystèmes microbiens, et ce malgré les enjeux économiques derrière le contrôle des systèmes microbiens (i.e. dépollution, 4 production de métabolites à valorisation industrielle comme les antibiotiques ou le biocarburant...). Il faut en effet tenir compte de contraintes environnementales qui ne sont pour l’instant par abordées par les études qui se focalisent sur les systèmes cellulaires. Travail demandé Objectifs Pour développer une analyse de flux à l’équilibre dédiée à un cadre écologique, il faut tenir compte des contraintes biochimiques (C) telles que déjà énoncées plus haut, mais également d’autres contraintes qui font la spécificité du problème. Parmi celles-ci, on peut citer l’énergie libre associée à chaque réaction ou la diversité des communautés microbiennes en présence (ensemble de contraintes C1 ). Ces nouvelles contraintes sont autant d’inégalités sur les entiers qui doivent compléter le système de contraintes biochimiques [HH10]. Deuxièmement, nous envisageons un autre système de contraintes modélisant les stratégies déployées par les communautés microbiennes dans le milieu. En effet, les contraintes sur les échanges entre espèces (ensemble de contraintes C2 ) peuvent conduire à différentes stratégies de flux identifié par les écologues comme la symbiose, le parasitisme ou le commensalisme [ZM12]. Ces stratégies sont autant de contraintes supplémentaires à prendre en compte qui peuvent modifier le comportement global de l’écosystème. Dernièrement, pour les deux systèmes de contraintes mentionnés ci-dessus, voire leurs combinaison, l’optimisation suivant un unique critère (classiquement la production de matière biologique) n’est plus satisfaisante, et il faut envisager une optimisation du système de flux dans la communauté qui maximise différents critères énergétiques. Par exemple, on peut citer le besoin de prendre en compte la production d’énergie globale au sein de l’écosystème et la maximisation du transfert d’énergie entre 2 espèces [SZZ+ 12]. La résolution de ce nouveau problème nécessite de mettre en oeuvre des techniques d’optimisation multi-objectifs, jusqu’alors ignorées par la communauté des biologistes, et ce pour résoudre les nouveaux problèmes de contraintes que propose de formaliser cette thèse. Plan de travail prévisionnel de l’étude • Mise en place d’un système de communauté microbienne de référence, d’après [ZM12]. • Simuler une analyse de flux standard sur le système référence et identifier grâce aux données de la littérature et bases de données à disposition, le particularité inhérentes à la microbiologie environnementale. • Adapter le système de référence aux contraintes de diversité microbiennes C + C1 , et simuler une analyse de flux standard. • Adapter le système de référence aux contraintes de stratégies d’échanges entre espèces C + C2 , et simuler une analyse de flux standard. 5 • Optimiser le système de contraintes C + C1 + C2 sous critères multi-objectifs, comme inspiré de [SZZ+ 12]. • En perspective, en fonction de l’avancé des travaux, il sera envisagé de simuler le comportement du système de communautés microbienne lorsque évolue les conditions environnementales comme la teneur en substrats énergétiques [PB04] La résolution des problèmes proposés trouvera des applications pratiques dans les divers projets dans lesquels nous sommes déjà impliqués : modélisation des communautés microbiennes dans les mines de cuivre du Chili (ANR Biotempo), modélisation de l’évolution du comportement coopératif des bactéries du sol (ANR ECS), analyse des communautés microbiennes dans les océans (sous contractant du projet ANR Investissement d’Avenir OCEANOMICS), modélisation des systèmes microbiens de detoxification à l’arsenic (Initiative Structurante CNRS «Ecosphère Continentale et Côtière»). Ces différents projets seront autant de déclinaison de la résolution du problème de contraintes proposé par le candidat, permettant la diffusion de ses travaux auprès des différentes communautés scientifiques avec lesquels nous collaborons déjà. Candidats Compétences Les candidats doivent avoir des compétences avérées et/ou des connaissances suffisantes en modélisation mathématique, optimisation, modélisation des systèmes biologiques, bioinformatique. Déclarations de candidature et résultats universitaires connus Marko Budinich est candidat à ce sujet de thèse. Le candidat a une formation interdisciplinaire en informatique et en biologie, axée sur les biotechnologies. • Undergraduate studies in Engineering Science, mention Biotechnology, 2005 - Santiago, Chile Universidad (6,5 in a scale range from 1,0 to 7,0. In this scale, 6,5 qualifies as "Highest Distinction" in Chile ; 12/540 students) • Graduate studies in Biotechnological Engineering, 2007 - Santiago, Chile Universidad (8/17 students) Marko Budinich est depuis 2008 ingénieur de recherche en bioinformatique au centre de mathématiques de l’université du Chili, à Santiago du Chili. Il a depuis acquis une expérience très solide en traitement des données en biologie moléculaire, donnant lieu à deux publications scientifiques et un dépôt de brevet. Il travaille sur l’analyse de données génomiques produites par des acteurs industriels chiliens (mine, aquaculture) et maîtrise dors et déjà les techniques de modélisation des réseaux métaboliques (Flux Balance Analysis : 6 optimisation linéaire des flux métaboliques) qui sont nécessaires à la mise en oeuvre de la thèse proposée. 7 Bibliographie [BER11] P Bordron, D Eveillard, and I Rusu. Integrated analysis of the gene neighbouring impact on bacterial metabolic networks. IET systems biology, 5(4) :261– 268, July 2011. [BES11] Jérémie Bourdon, Damien Eveillard, and Anne Siegel. Integrating quantitative knowledge into a qualitative gene regulatory network. PLoS computational biology, 7(9) :e1002157, September 2011. [BM09] Nanette R Boyle and John A Morgan. Flux balance analysis of primary metabolism in Chlamydomonas reinhardtii. BMC systems biology, 3 :4, 2009. [FD11] Michael J Follows and Stephanie Dutkiewicz. Modeling diverse communities of marine microbes. Annual review of marine science, 3 :427–451, 2011. [FR12] Karoline Faust and Jeroen Raes. Microbial interactions : from networks to models. Nature Reviews Microbiology, 10(8) :538–550, August 2012. [HH10] Timothy J Hanly and Michael A Henson. Dynamic flux balance modeling of microbial co-cultures for efficient batch fermentation of glucose and xylose mixtures. Biotechnology and Bioengineering, 108(2) :376–385, October 2010. [KAB+ 11] Eric Karsenti, Silvia G Acinas, Peer Bork, Chris Bowler, Colomban de Vargas, Jeroen Raes, Matthew Sullivan, Detlev Arendt, Francesca Benzoni, JeanMichel Claverie, Mick Follows, Gaby Gorsky, Pascal Hingamp, Daniele Iudicone, Olivier Jaillon, Stefanie Kandels-Lewis, Uros Krzic, Fabrice Not, Hiroyuki Ogata, Stéphane Pesant, Emmanuel Georges Reynaud, Christian Sardet, Michael E Sieracki, Sabrina Speich, Didier Velayoudon, Jean Weissenbach, Patrick Wincker, and Tara Oceans Consortium. A holistic approach to marine eco-systems biology. PLoS biology, 9(10) :e1001177, October 2011. [KS11] Niels Klitgord and Daniel Segrè. Ecosystems biology of microbial metabolism. Current opinion in biotechnology, 22(4) :541–546, August 2011. [OTP10] Jeffrey D Orth, Ines Thiele, and Bernhard Ø Palsson. What is flux balance analysis ? Nature Biotechnology, 28(3) :245–248, March 2010. 8 [PB04] A Provost and G Bastin. Dynamic metabolic modelling under the balanced growth condition. Journal of process control, 14 :717–728, 2004. [RRC05] Karthik Raman, Preethi Rajagopalan, and Nagasuma Chandra. Flux balance analysis of mycolic acid pathway : targets for anti-tubercular drugs. PLoS computational biology, 1(5) :e46, October 2005. [RV04] Francisco Rodriguez-Valera. Environmental genomics, the big picture ? FEMS Microbiology Letters, 231 :153–158, 2004. [SKB+ 02] Joerg Stelling, Steffen Klamt, Katja Bettenbrock, Stefan Schuster, and Ernst Dieter Gilles. Metabolic network structure determines key aspects of functionality and regulation. Nature, 420(6912) :190–193, November 2002. [SZZ+ 12] Robert Schuetz, Nicola Zamboni, Mattia Zampieri, Matthias Heinemann, and Uwe Sauer. Multidimensional optimality of microbial metabolism. Science (New York, NY), 336(6081) :601–604, May 2012. [WLW+ 12] Adam J Wargacki, Effendi Leonard, Maung Nyan Win, Drew D Regitsky, Christine Nicole S Santos, Peter B Kim, Susan R Cooper, Ryan M Raisner, Asael Herman, Alicia B Sivitz, Arun Lakshmanaswamy, Yuki Kashiyama, David Baker, and Yasuo Yoshikuni. An engineered microbial platform for direct biofuel production from brown macroalgae. Science (New York, NY), 335(6066) :308–313, January 2012. [ZM12] Ali R Zomorrodi and Costas D Maranas. OptCom : a multi-level optimization framework for the metabolic modeling and analysis of microbial communities. PLoS computational biology, 8(2) :e1002363, February 2012. 9 CV du directeur de thèse Nom : BOURDON, Prénom : Jérémie Grade : Maître de conférence habilité Emploi actuel : Maître de conférences, Université de Nantes Encadrement en cours : Vincent Picard (50%, co-encadrement Anne Siegel, IRISA, Rennes), début septembre 2012 Faits marquants et responsabilités récents : • Habilitation à diriger des recherches défendue le 5 décembre 2012. • Maître de conférences à l’université de Nantes, depuis septembre 2003 • Délégation INRIA dans l’équipe SYMBIOSE (IRISA) (2008-2010) • Membre du conseil scientifique de Biogenouest depuis 2004 Publications les plus significatives des cinq dernières années 1. Ahmad J, Bourdon J., Eveillard D., Fromentin J., Roux O., Sinoquet C. (2009). Temporal constraints of a gene regulatory network : Refining a qualitative simulation. Biosystems 98, 149-159. 2. Bourdon J., Rusu I. Statistical Properties of Factor Oracles. Journal of Discrete Algorithms, 2010, 9 (2011), pp. 59-66. 3. Carat Solenne ; Houlgatte Rémi ; Bourdon J., A parallel scheme for comparing transcription factor binding sites matrices, Journal of Bioinformatics and Computational Biology, 2010, 8 (3), pp. 485–502. 4. Bourdon J., Eveillard, D., Siegel, A., Integrating quantitative knowledge into a qualitative gene regulatory network, PLoS Comput Biol 7(9). 2011. 5. Tonon T., Eveillard D., Prigent S., Bourdon J., Potin P., Boyen C., Siegel A., Toward Systems Biology in Brown Algae to Explore Acclimation and Adaptation to the Shore Environment, OMICS A Journal of Integrative Biology, Volume 15, Number 12, 2011 10 CV du co-directeur de thèse Nom : EVEILLARD, Prénom : Damien Grade : Maitre de Conférences Education and Research Positions 2006-present Associated professor in Computer Sciences, University of Nantes, France. 2004-06 NSF Postdoctoral Fellowship, Oceanography dpt, Texas A&M University, USA. 2004 PhD in Biological Modeling, University of Nancy 1, France. 2000 Master’s Degree in Oceanography, University of Paris 6, France. Selected (recent) Publications (Publication number : 21) • Bouskill, N. J., Eveillard, D., Chien, D., Jayakumar, A. & Ward, B. B. 2012. Environmental factors determining ammonia-oxidizing organism distribution and diversity in marine environments. Environ Microbiol 14, pp. 714–729. • Gnimpieba, E. Z., Eveillard, D., Guéant, J.-L. & Chango, A. 2011. Using logic programming for modeling the one-carbon metabolism network to study the impact of folate deficiency on methylation processes. Mol Biosyst 7, pp. 2508–2521. • Bourdon, J., Eveillard, D. & Siegel, A. 2011. Integrating quantitative knowledge into a qualitative gene regulatory network. PLoS Comput Biol 7, e1002157. • Tonon, T. et al. Toward systems biology in brown algae to explore acclimation and adaptation to the shore environment. OMICS 15, pp. 883–892. Others 2010 NSF laureate Integrative Biology Course in Antarctica (3,5% selection) 2010-14 Award of Scientific Excellence (PES) 2006-present co-Supervision of 4 Master students and 3 PhD students 2006 «Retour post-doc» laureate (now ANR "retour post-doc" fund) : «Constraints programming in Biology» 11