Le projet scientifique

publicité
Le projet scientifique
« Modélisation de la diversité microbienne et approches métagénomiques »
La thématique
Les «microbes» sont essentiels pour la vie sur terre : les bactéries dans l'océan sont au coeur
du cycle du carbone et de l’oxygène, tandis que celles dans le sol permettent la diversité des
plantes. Même à l'intérieur de nos corps, les bactéries sont nécessaires pour la digestion et
l'absorption des aliments, pour fournir certaines molécules comme des vitamines et pour
modeler notre système immunitaire. Sans bactérie, la vie telle qu'on la connaît sur terre
n'existerait pas. Evidemment, les micro-organismes sont parfois nuisibles... L'ensemble des
interactions entre eux et nous montre l'importance de mieux les comprendre et de les
contrôler, que ce soit pour la santé humaine ou pour notre environnement.
La génétique et la microbiologie ont permis d'étudier en détail de nombreuses souches de
bactéries cultivées en laboratoire. Malheureusement, ces souches ne représentent qu'une
infime partie du monde microbien et donc bien peu de sa diversité ; or, s'il est devenu à la
mode de parler de préservation de la biodiversité, il faut se rappeler que le monde des
prokaryotes a un niveau de diversité bien plus élevé que celui des eukaryotes, et que sans
doute les virus forment un réservoir de diversité encore plus important. Pour être concret, on
estime qu'il y a sur terre 1030 phages, 1025 bactéries, mais beaucoup moins que 1020
organismes pluricellulaires... Une autre limitation des études de souches isolées est de laisser
de côté tous les aspects inhérents aux communautés bactériennes (Mann, 2003). La
métagénomique (Nelson, 2003) a pour objectif de comprendre les génomes à l'échelle de
populations. Pour les organismes eukaryotes évolués, les individus sont cloisonnés par la
barrière des espèces et la description des génomes des communautés se réduit essentiellement
à la somme des génomes des espèces présentes. La situation en microbiologie est autrement
plus complexe du fait des échanges de matériel génétique entre individus (échanges
horizontaux dûs aux mécanismes de transmission par des phages, des plasmides ou par
l'adsorption d'ADN directement du milieu environnant, Ochman, 2000). Les communautés de
bactéries semblent organisées en groupes de pseudo-espèces (notons quand même que ce
point reste controversé, voir Ward, 1998 et Daubin, 2003), chacune ayant des fonctions
différentes et parfois complémentaires ; on peut donc parler de propriétés émergentes. Dans
leur état naturel, les micro-organismes s'auto-assemblent et se structurent, échangeant matériel
génétique (échanges horizontaux) et espèces biochimiques (entre autres pour le quorum
sensing). Naturellement la tache d'analyser ces populations est difficile, mais les enjeux sont
grands, d'une part pour une compréhension en biologie fondamentale, mais aussi pour les
retombées socio-économiques ; parmi les applications, citons les communautés de bactéries
capables de dégrader des produits chimiques toxiques, ou celles responsables de maladies
humaines, souvent via des biofilms (plaque dentaire, mucoviscidose).
Pour comprendre ces structurations et l'adaptabilité des populations des micro-organismes, il
faut mieux connaître les processus de diversification et de transfert horizontal de matériel
génétique ; de plus, il faut développer des outils algorithmiques pour en extraire les souspopulations ou pseudo-espèces, l'existence de celles-ci étant au coeur de la stabilité et
réactivité de ces systèmes.
Motivations : des responsables, de la candidate
Les responsables ont pour objectif d’avancer significativement la théorie et l'analyse de la
biodiversité des micro-organismes ; cet effort fera appel aux mathématiques, à la physique
statistique et à l'algorithmique, d'où le choix de candidate (voir plus loin) et l'effort conjugué
des deux responsables, l'un microbiologiste, l'autre physicien statisticien/algorithmicien. De
telles approches pluridisciplinaires ayant pour finalité des recherches biologiques existent
depuis de nombreuses années hors des frontières de la France, et depuis peu voient aussi le
jour dans l'hexagone ; citons par exemple l'Institut de Biologie de Lille, le laboratoire Joliot à
l'ENS-Lyon, ou, plus proche d'Orsay, la création d'une orientation biologie moléculaire à
l'IHES de Bures. Notre projet s'inscrit dans une volonté des deux laboratoires concernés,
l'IGM et le LPTMS, d'encourager la pluridisciplinarité ; les chercheurs les plus impliqués audelà bien sûr des responsables et de la candidate seront M. Mézard et J.P. Rousset. Nous
aurons aussi des contacts scientifiques étroits avec A. Denise et C. Froidevaux du LRI,
membres moteurs du PPF bioinformatique. Notons ici que l’engagement pluridisciplinaire des
responsables ne date pas d’aujourd’hui : (1) M. DuBow a mis en place avec R. Mastrippolito
le Master « Physique et Systèmes Biologiques ». (2) O. Martin est co-responsable du pôle
numérique « Physique Statistique et Mesures de Complexité » du CNRS ; ce pôle co-organise
une journée sur la complexité dans les systèmes biologiques le 10 juin 2005 à Orsay. O.
Martin s’est aussi donné comme objectif de monter une équipe de biologie quantitative au
LPTMS. (3) Finalement, M. DuBow et O. Martin enseigneront avec R. Mastrippolito un
module de L3 intitulé « La Physique des Systèmes Biologiques » en septembre 2005.
La candidate est une théoricienne de la physique statistique ; elle a été formée au Tata
Institute par D. Dhar, scientifique de très grande visibilité internationale et connu pour ses
solutions élégantes de différents modèles d’équilibre et hors équilibre. (On notera en
particulier ses travaux sur les modèles de tas de sable abéliens, sujet souvent repris en
informatique théorique.) Dans sa thèse, Mme Sumedha a effectué plusieurs travaux sur des
problèmes associés à des structures combinatoires, à la fois du point de vue de la physique
statistique et de l’algorithmique ; c’est aussi une numéricienne habile, maîtrisant la théorie et
la pratique des processus stochastiques. Quand on regarde à l’échelle mondiale, on observe
depuis une dizaine d’années un très large éventail d’applications pluridisciplinaires de la
physique statistique ; Mme Sumedha, comme de nombreux jeunes, sait que les applications
aux questions quantitatives ou computationnelles dans les biosciences sont porteuses et elle a
donc choisi de s’y consacrer. Sa motivation semble particulièrement forte : en effet, vu les
délais inhérents à cette demande, elle a très courageusement décliné une offre de postdoc aux
Etats-Unis.
Principales méthodes
Un des problèmes fondamentaux est que la diversité est une notion à géométrie variable,
c’est-à-dire que la diversité d’une population (Nei, 1979) dépend du degré de résolution de ce
qu’on mesure. Par exemple, si les génomes sont résolus individuellement à l’échelle de
chaque base, la diversité de la population humaine est le nombre total d’individus (chaque
individu étant unique). Il est souvent désirable de considérer un niveau de résolution
compatible avec les outils de mesure accessibles ; on considérera par exemple que la diversité
d’une faune est le nombre d’espèces existantes. Une telle définition est biologiquement
pertinente mais se pose la question de délimitation des espèces et de la détection des espèces
rares. Des modélisations ont été proposées (Curtis et al., 2002 et 2004), mais presque tout
reste à faire d’une part théoriquement et d’autre part du point de vue de la pertinence des
modèles dans différents systèmes (communautés bactériennes ou de phages dans notre cas).
Quand l’évolution des espèces se fait sous la forme d’un arbre de la vie, des hypothèses
plausibles peuvent être avancées et testées. Par exemple, quand une dynamique conduit à une
distribution pour le nombre d’espèces et le nombre d’individus dans chaque espèce, on peut
inférer le nombre d’espèces à partir d’échantillons dans cette communauté ; on développera
des tests sur la puissance de ces approches avec pour objectifs (1) l’optimisation de la taille
des échantillons à prélever, et (2) l’inférence des paramètres dans la dynamique qui a conduit
à cette population. Notre expérience pour ce type de problème est bien adaptée à ces objectifs,
d’une part du côté de la théorie (Martin et al., 2001), d’autre part du côté du matériel
biologique car nous avons séquencé de nombreux phages (Liu et al., 2004, Kwan et al., 2005)
et sommes très actif dans l’étude des communautés microbiennes.
Pour les bactéries, il n'existe probablement pas de définition d'espèces qui cloisonne les
individus comme chez les eukaryotes ; par échange horizontal d’ADN, on peut passer d'une
souche à une autre en utilisant suffisamment d'étapes dans les échanges. Néanmoins, il faut
savoir si spontanément les populations microbiennes s'organisent en sous-populations
relativement distinctes. Si la réponse était positive (Daubin, 2003), cela signifierait que les
génomes des individus forment naturellement des « clusters ». Pour déterminer si cette
structuration existe, nous développerons des algorithmes de clustérisation, d'une part
hiérarchique comme quand on traite les eukaryotes mais aussi non-hiérarchique ce qui est plus
difficile mais sans doute nécessaire dans les systèmes bactériens. Ce type de problème est
rencontré très souvent en physique statistique des systèmes désordonnés et nous avons une
expertise claire dans ce domaine (Martin et al., 2004, Servin et al., 2004, Mézard et al., 2005).
Notons aussi que d’autres physiciens statisticiens ont appliqué de telles approches à des
problèmes génomiques (Nimwegen et al., 2002). Du côté de la candidate, elle a travaillé sur
des algorithmes d'arbres hiérarchiques et donc elle a une bonne base pour attaquer ce
problème. Si nous parvenons à clustériser les différents génomes dans une communauté
microbienne, une telle classification peut être utilisée ultérieurement pour interpréter les bases
de l'adaptation des pseudo-espèces. On peut aussi concevoir que la clustérisation n'est jamais
assez nette pour être un concept pertinent, mais si c'est le cas, il sera utile de le savoir. De
façon générale, toute information sur l'organisation de la diversité génomique aura des
applications dans l'interprétation de fonctions biologiques à partir de données moléculaires
ainsi que dans l'inférence de l'histoire évolutive des populations concernées (DuBow , 2005).
Le dernier problème que nous mentionnerons ici concerne l’exploitation de données
« poolées ». En effet , pour des raisons pratiques et financières, les données génomiques et
métagénomiques s’obtiennent souvent par pooling et non pas via des clones. Le problème à
résoudre est d’inférer la structure génomique des individus à partir de ces données de
mélange ; en génétique des populations on parle de retrouver les haplotypes ancestraux et il y
a des applications aussi en génétique d’association. Ce problème est difficile mais sa
résolution aurait un grand impact (Venter et al., 2004) ; nous proposons donc d’essayer
plusieurs stratégies d’inférence en exploitant nos clustérisations des données génomiques
ainsi que des méthodes d’échantillonnage par Monte Carlo.
Dans tous les travaux proposés, on notera que le fil conducteur est la combinaison d’outils
d'analyse mathématique, statistique, d’approches de modélisation et de simulation, ainsi que
le développement d'algorithmes spécifiques, avec application à des données génomiques :
(1) issues de l'équipe de M. DuBow. Celle-ci a prélevé et analysé des microorganismes
d'environnements solides car c'est là que réside la plus grande biomasse. Les environnements
choisis sont très différents : les sédiments de la Seine à Issy les Moulineaux (tempéré et
humide) d'une part, et les sables du Sahara (chaud et sec) d'autre part (Prigent et al., 2005).
(2) en libre accès sur le Web, en particulier les données métagénomiques au GENEBANK
du NCBI.
et (3) obtenues par simulation.
Références
Curtis T. P. and W.T. Sloan.
Prokaryotic diversity and its limits : microbial community structure in nature and implications
for microbial ecology.
Current Opinions in Microbiology 7 (2004) 221-226.
Curtis T. P., W. T. Sloan and J. W. Scannell.
Estimating prokaryotic diversity and its limits.
PNAS 99 (2002) 10494-10499.
Daubin V., N. A. Moran and H. Ochman.
Phylogenetics and the cohesion of bacterial genomes.
Science 301 (2003) 829-832.
DuBow M. S.
The return of the phages : New approaches that reveal their impact, diversity and evolution.
BioEssays (2005) revue invitée, en préparation.
Kwan T., J. Liu , M. S. DuBow, P. Gros and J. Pelletier.
The Complete Annotated Genome Sequences of 27 Staphylococcus aureus Bacteriophages.
Proc. Natl. Acad. Sci. USA 102 (2005) 5174-5179.
Liu J., M. Dehbi, G. Moeck, F. Arhin, P. Bauda, D. Bergeron, M. Callejo, V. Ferretti, N. Ha,
T. Kwan, J. McCarty, R. Srikumar, D. Williams, J.J. Wu, P. Gros, J. Pelletier, M.S. DuBow.
Antimicrobial drug discovery through bacteriophage genomics.
Nature Biotechnology 22 (2004) 185-191.
Mann N. H., A. Cook, A. Millard, S. Bailey, and M. Clokie.
Marine ecosystems: bacterial photosynthesis genes in a virus.
Nature 424 (2003) 741.
Martin O.C., R. Monasson and R. Zecchina.
Statistical mechanics methods and phase transitions in optimization problems.
Theoretical Computer Science 265 (2001) 3-67.
Martin O. C., M. Mézard and O. Rivoire.
A frozen glass phase in the multi-index matching problem.
Phys. Rev. Lett. 93 (2004) 217205.
Mézard M., T. Mora and R. Zecchina.
Clustering of solutions in the random satisfiability problem.
Phys. Rev. Lett. (2005) à paraître.
Nei M.
Mathematical Model for Studying Genetic Variation in Terms of Restriction Endonucleases.
PNAS 76 (1979) 5269-5273.
Nelson K. E.
The future of microbial genomics.
Journal of Environmental Microbiology 5 (2003) 1223-1225.
Ochman H., J. G. Lawrence and E. A. Groisman.
Lateral gene transfer and the nature of bacterial innovation.
Nature 405 (2000) 299-304.
Prigent M., M. Leroy, F. Confalonieri, M. Dutertre and M. S. DuBow.
A Diversity of Bacteriophage Forms and Genomes can be Isolated from the Surface Sands of
the Sahara Desert.
Extremophiles (2005) à paraître.
Cette référence explique aussi comment l'équipe extrait les génomes viraux.
Servin B., O.C. Martin, M. Mezard and F. Hospital.
Toward a theory of marker-assisted gene pyramiding.
Genetics 168 (2004) 513-523.
Van Nimwegen E., M. Zavolan, N. Rajewsky, and E. D. Siggia.
Probabilistic clustering of sequences: Inferring new bacterial regulons by comparative
genomics.
PNAS 99 (2002) 7323-7328.
J. Craig Venter et al.
Environmental Genome Shotgun Sequencing of the Sargasso Sea.
Science 304 (2004) 66-74.
Ward D. M.
A natural species concept for prokaryotes.
Current Opinion in Microbiology 1 (1998) 271-277.
.
Téléchargement