Le projet scientifique

Téléchargement

« Modélisation de la diversité microbienne et approches métagénomiques »

La thématique

Les «microbes» sont essentiels pour la vie sur terre : les bactéries dans l'océan sont au coeur

du cycle du carbone et de l’oxygène, tandis que celles dans le sol permettent la diversité des

plantes. Même à l'intérieur de nos corps, les bactéries sont nécessaires pour la digestion et

l'absorption des aliments, pour fournir certaines molécules comme des vitamines et pour

modeler notre système immunitaire. Sans bactérie, la vie telle qu'on la connaît sur terre

n'existerait pas. Evidemment, les micro-organismes sont parfois nuisibles... L'ensemble des

interactions entre eux et nous montre l'importance de mieux les comprendre et de les

contrôler, que ce soit pour la santé humaine ou pour notre environnement.

La génétique et la microbiologie ont permis d'étudier en détail de nombreuses souches de

bactéries cultivées en laboratoire. Malheureusement, ces souches ne représentent qu'une

infime partie du monde microbien et donc bien peu de sa diversité ; or, s'il est devenu à la

mode de parler de préservation de la biodiversité, il faut se rappeler que le monde des

prokaryotes a un niveau de diversité bien plus élevé que celui des eukaryotes, et que sans

doute les virus forment un réservoir de diversité encore plus important. Pour être concret, on

estime qu'il y a sur terre 1030 phages, 1025 bactéries, mais beaucoup moins que 1020

organismes pluricellulaires... Une autre limitation des études de souches isolées est de laisser

de côté tous les aspects inhérents aux communautés bactériennes (Mann, 2003). La

métagénomique (Nelson, 2003) a pour objectif de comprendre les génomes à l'échelle de

populations. Pour les organismes eukaryotes évolués, les individus sont cloisonnés par la

barrière des espèces et la description des génomes des communautés se réduit essentiellement

à la somme des génomes des espèces présentes. La situation en microbiologie est autrement

plus complexe du fait des échanges de matériel génétique entre individus (échanges

horizontaux dûs aux mécanismes de transmission par des phages, des plasmides ou par

l'adsorption d'ADN directement du milieu environnant, Ochman, 2000). Les communautés de

bactéries semblent organisées en groupes de pseudo-espèces (notons quand même que ce

point reste controversé, voir Ward, 1998 et Daubin, 2003), chacune ayant des fonctions

différentes et parfois complémentaires ; on peut donc parler de propriétés émergentes. Dans

leur état naturel, les micro-organismes s'auto-assemblent et se structurent, échangeant matériel

génétique (échanges horizontaux) et espèces biochimiques (entre autres pour le quorum

sensing). Naturellement la tache d'analyser ces populations est difficile, mais les enjeux sont

grands, d'une part pour une compréhension en biologie fondamentale, mais aussi pour les

retombées socio-économiques ; parmi les applications, citons les communautés de bactéries

capables de dégrader des produits chimiques toxiques, ou celles responsables de maladies

humaines, souvent via des biofilms (plaque dentaire, mucoviscidose).

Pour comprendre ces structurations et l'adaptabilité des populations des micro-organismes, il

faut mieux connaître les processus de diversification et de transfert horizontal de matériel

génétique ; de plus, il faut développer des outils algorithmiques pour en extraire les sous-

populations ou pseudo-espèces, l'existence de celles-ci étant au coeur de la stabilité et

réactivité de ces systèmes.

Motivations : des responsables, de la candidate

Les responsables ont pour objectif d’avancer significativement la théorie et l'analyse de la

biodiversité des micro-organismes ; cet effort fera appel aux mathématiques, à la physique

statistique et à l'algorithmique, d'où le choix de candidate (voir plus loin) et l'effort conjugué

des deux responsables, l'un microbiologiste, l'autre physicien statisticien/algorithmicien. De

telles approches pluridisciplinaires ayant pour finalité des recherches biologiques existent

depuis de nombreuses années hors des frontières de la France, et depuis peu voient aussi le

jour dans l'hexagone ; citons par exemple l'Institut de Biologie de Lille, le laboratoire Joliot à

l'ENS-Lyon, ou, plus proche d'Orsay, la création d'une orientation biologie moléculaire à

l'IHES de Bures. Notre projet s'inscrit dans une volonté des deux laboratoires concernés,

l'IGM et le LPTMS, d'encourager la pluridisciplinarité ; les chercheurs les plus impliqués au-

delà bien sûr des responsables et de la candidate seront M. Mézard et J.P. Rousset. Nous

aurons aussi des contacts scientifiques étroits avec A. Denise et C. Froidevaux du LRI,

membres moteurs du PPF bioinformatique. Notons ici que l’engagement pluridisciplinaire des

responsables ne date pas d’aujourd’hui : (1) M. DuBow a mis en place avec R. Mastrippolito

le Master « Physique et Systèmes Biologiques ». (2) O. Martin est co-responsable du pôle

numérique « Physique Statistique et Mesures de Complexité » du CNRS ; ce pôle co-organise

une journée sur la complexité dans les systèmes biologiques le 10 juin 2005 à Orsay. O.

Martin s’est aussi donné comme objectif de monter une équipe de biologie quantitative au

LPTMS. (3) Finalement, M. DuBow et O. Martin enseigneront avec R. Mastrippolito un

module de L3 intitulé « La Physique des Systèmes Biologiques » en septembre 2005.

La candidate est une théoricienne de la physique statistique ; elle a été formée au Tata

Institute par D. Dhar, scientifique de très grande visibilité internationale et connu pour ses

solutions élégantes de différents modèles d’équilibre et hors équilibre. (On notera en

particulier ses travaux sur les modèles de tas de sable abéliens, sujet souvent repris en

informatique théorique.) Dans sa thèse, Mme Sumedha a effectué plusieurs travaux sur des

problèmes associés à des structures combinatoires, à la fois du point de vue de la physique

statistique et de l’algorithmique ; c’est aussi une numéricienne habile, maîtrisant la théorie et

la pratique des processus stochastiques. Quand on regarde à l’échelle mondiale, on observe

depuis une dizaine d’années un très large éventail d’applications pluridisciplinaires de la

physique statistique ; Mme Sumedha, comme de nombreux jeunes, sait que les applications

aux questions quantitatives ou computationnelles dans les biosciences sont porteuses et elle a

donc choisi de s’y consacrer. Sa motivation semble particulièrement forte : en effet, vu les

délais inhérents à cette demande, elle a très courageusement décliné une offre de postdoc aux

Etats-Unis.

Principales méthodes

Un des problèmes fondamentaux est que la diversité est une notion à géométrie variable,

c’est-à-dire que la diversité d’une population (Nei, 1979) dépend du degré de résolution de ce

qu’on mesure. Par exemple, si les génomes sont résolus individuellement à l’échelle de

chaque base, la diversité de la population humaine est le nombre total d’individus (chaque

individu étant unique). Il est souvent désirable de considérer un niveau de résolution

compatible avec les outils de mesure accessibles ; on considérera par exemple que la diversité

d’une faune est le nombre d’espèces existantes. Une telle définition est biologiquement

pertinente mais se pose la question de délimitation des espèces et de la détection des espèces

rares. Des modélisations ont été proposées (Curtis et al., 2002 et 2004), mais presque tout

reste à faire d’une part théoriquement et d’autre part du point de vue de la pertinence des

modèles dans différents systèmes (communautés bactériennes ou de phages dans notre cas).

Quand l’évolution des espèces se fait sous la forme d’un arbre de la vie, des hypothèses

plausibles peuvent être avancées et testées. Par exemple, quand une dynamique conduit à une

distribution pour le nombre d’espèces et le nombre d’individus dans chaque espèce, on peut

inférer le nombre d’espèces à partir d’échantillons dans cette communauté ; on développera

des tests sur la puissance de ces approches avec pour objectifs (1) l’optimisation de la taille

des échantillons à prélever, et (2) l’inférence des paramètres dans la dynamique qui a conduit

à cette population. Notre expérience pour ce type de problème est bien adaptée à ces objectifs,

d’une part du côté de la théorie (Martin et al., 2001), d’autre part du côté du matériel

biologique car nous avons séquencé de nombreux phages (Liu et al., 2004, Kwan et al., 2005)

et sommes très actif dans l’étude des communautés microbiennes.

Pour les bactéries, il n'existe probablement pas de définition d'espèces qui cloisonne les

individus comme chez les eukaryotes ; par échange horizontal d’ADN, on peut passer d'une

souche à une autre en utilisant suffisamment d'étapes dans les échanges. Néanmoins, il faut

savoir si spontanément les populations microbiennes s'organisent en sous-populations

relativement distinctes. Si la réponse était positive (Daubin, 2003), cela signifierait que les

génomes des individus forment naturellement des « clusters ». Pour déterminer si cette

structuration existe, nous développerons des algorithmes de clustérisation, d'une part

hiérarchique comme quand on traite les eukaryotes mais aussi non-hiérarchique ce qui est plus

difficile mais sans doute nécessaire dans les systèmes bactériens. Ce type de problème est

rencontré très souvent en physique statistique des systèmes désordonnés et nous avons une

expertise claire dans ce domaine (Martin et al., 2004, Servin et al., 2004, Mézard et al., 2005).

Notons aussi que d’autres physiciens statisticiens ont appliqué de telles approches à des

problèmes génomiques (Nimwegen et al., 2002). Du côté de la candidate, elle a travaillé sur

des algorithmes d'arbres hiérarchiques et donc elle a une bonne base pour attaquer ce

problème. Si nous parvenons à clustériser les différents génomes dans une communauté

microbienne, une telle classification peut être utilisée ultérieurement pour interpréter les bases

de l'adaptation des pseudo-espèces. On peut aussi concevoir que la clustérisation n'est jamais

assez nette pour être un concept pertinent, mais si c'est le cas, il sera utile de le savoir. De

façon générale, toute information sur l'organisation de la diversité génomique aura des

applications dans l'interprétation de fonctions biologiques à partir de données moléculaires

ainsi que dans l'inférence de l'histoire évolutive des populations concernées (DuBow , 2005).

Le dernier problème que nous mentionnerons ici concerne l’exploitation de données

« poolées ». En effet , pour des raisons pratiques et financières, les données génomiques et

métagénomiques s’obtiennent souvent par pooling et non pas via des clones. Le problème à

résoudre est d’inférer la structure génomique des individus à partir de ces données de

mélange ; en génétique des populations on parle de retrouver les haplotypes ancestraux et il y

a des applications aussi en génétique d’association. Ce problème est difficile mais sa

résolution aurait un grand impact (Venter et al., 2004) ; nous proposons donc d’essayer

plusieurs stratégies d’inférence en exploitant nos clustérisations des données génomiques

ainsi que des méthodes d’échantillonnage par Monte Carlo.

Dans tous les travaux proposés, on notera que le fil conducteur est la combinaison d’outils

d'analyse mathématique, statistique, d’approches de modélisation et de simulation, ainsi que

le développement d'algorithmes spécifiques, avec application à des données génomiques :

(1) issues de l'équipe de M. DuBow. Celle-ci a prélevé et analysé des microorganismes

d'environnements solides car c'est là que réside la plus grande biomasse. Les environnements

choisis sont très différents : les sédiments de la Seine à Issy les Moulineaux (tempéré et

humide) d'une part, et les sables du Sahara (chaud et sec) d'autre part (Prigent et al., 2005).

(2) en libre accès sur le Web, en particulier les données métagénomiques au GENEBANK

du NCBI.

et (3) obtenues par simulation.

Références

Curtis T. P. and W.T. Sloan.

Prokaryotic diversity and its limits : microbial community structure in nature and implications

for microbial ecology.

Current Opinions in Microbiology 7 (2004) 221-226.

Curtis T. P., W. T. Sloan and J. W. Scannell.

Estimating prokaryotic diversity and its limits.

PNAS 99 (2002) 10494-10499.

Daubin V., N. A. Moran and H. Ochman.

Phylogenetics and the cohesion of bacterial genomes.

Science 301 (2003) 829-832.

DuBow M. S.

The return of the phages : New approaches that reveal their impact, diversity and evolution.

BioEssays (2005) revue invitée, en préparation.

Kwan T., J. Liu , M. S. DuBow, P. Gros and J. Pelletier.

The Complete Annotated Genome Sequences of 27 Staphylococcus aureus Bacteriophages.

Proc. Natl. Acad. Sci. USA 102 (2005) 5174-5179.

Liu J., M. Dehbi, G. Moeck, F. Arhin, P. Bauda, D. Bergeron, M. Callejo, V. Ferretti, N. Ha,

T. Kwan, J. McCarty, R. Srikumar, D. Williams, J.J. Wu, P. Gros, J. Pelletier, M.S. DuBow.

Antimicrobial drug discovery through bacteriophage genomics.

Nature Biotechnology 22 (2004) 185-191.

Mann N. H., A. Cook, A. Millard, S. Bailey, and M. Clokie.

Marine ecosystems: bacterial photosynthesis genes in a virus.

Nature 424 (2003) 741.

Martin O.C., R. Monasson and R. Zecchina.

Statistical mechanics methods and phase transitions in optimization problems.

Theoretical Computer Science 265 (2001) 3-67.

Martin O. C., M. Mézard and O. Rivoire.

A frozen glass phase in the multi-index matching problem.

Phys. Rev. Lett. 93 (2004) 217205.

Mézard M., T. Mora and R. Zecchina.

Clustering of solutions in the random satisfiability problem.

Phys. Rev. Lett. (2005) à paraître.

Nei M.

Mathematical Model for Studying Genetic Variation in Terms of Restriction Endonucleases.

PNAS 76 (1979) 5269-5273.

Nelson K. E.

The future of microbial genomics.

Journal of Environmental Microbiology 5 (2003) 1223-1225.

Ochman H., J. G. Lawrence and E. A. Groisman.

Lateral gene transfer and the nature of bacterial innovation.

Nature 405 (2000) 299-304.

Prigent M., M. Leroy, F. Confalonieri, M. Dutertre and M. S. DuBow.

A Diversity of Bacteriophage Forms and Genomes can be Isolated from the Surface Sands of

the Sahara Desert.

Extremophiles (2005) à paraître.

Cette référence explique aussi comment l'équipe extrait les génomes viraux.

Servin B., O.C. Martin, M. Mezard and F. Hospital.

Toward a theory of marker-assisted gene pyramiding.

Genetics 168 (2004) 513-523.

Van Nimwegen E., M. Zavolan, N. Rajewsky, and E. D. Siggia.

Probabilistic clustering of sequences: Inferring new bacterial regulons by comparative

genomics.

PNAS 99 (2002) 7323-7328.

J. Craig Venter et al.

Environmental Genome Shotgun Sequencing of the Sargasso Sea.

Science 304 (2004) 66-74.

Ward D. M.

A natural species concept for prokaryotes.

Current Opinion in Microbiology 1 (1998) 271-277.

1 / 5 100%

Le projet scientifique

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Le projet scientifique

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib