des tests sur la puissance de ces approches avec pour objectifs (1) l’optimisation de la taille
des échantillons à prélever, et (2) l’inférence des paramètres dans la dynamique qui a conduit
à cette population. Notre expérience pour ce type de problème est bien adaptée à ces objectifs,
d’une part du côté de la théorie (Martin et al., 2001), d’autre part du côté du matériel
biologique car nous avons séquencé de nombreux phages (Liu et al., 2004, Kwan et al., 2005)
et sommes très actif dans l’étude des communautés microbiennes.
Pour les bactéries, il n'existe probablement pas de définition d'espèces qui cloisonne les
individus comme chez les eukaryotes ; par échange horizontal d’ADN, on peut passer d'une
souche à une autre en utilisant suffisamment d'étapes dans les échanges. Néanmoins, il faut
savoir si spontanément les populations microbiennes s'organisent en sous-populations
relativement distinctes. Si la réponse était positive (Daubin, 2003), cela signifierait que les
génomes des individus forment naturellement des « clusters ». Pour déterminer si cette
structuration existe, nous développerons des algorithmes de clustérisation, d'une part
hiérarchique comme quand on traite les eukaryotes mais aussi non-hiérarchique ce qui est plus
difficile mais sans doute nécessaire dans les systèmes bactériens. Ce type de problème est
rencontré très souvent en physique statistique des systèmes désordonnés et nous avons une
expertise claire dans ce domaine (Martin et al., 2004, Servin et al., 2004, Mézard et al., 2005).
Notons aussi que d’autres physiciens statisticiens ont appliqué de telles approches à des
problèmes génomiques (Nimwegen et al., 2002). Du côté de la candidate, elle a travaillé sur
des algorithmes d'arbres hiérarchiques et donc elle a une bonne base pour attaquer ce
problème. Si nous parvenons à clustériser les différents génomes dans une communauté
microbienne, une telle classification peut être utilisée ultérieurement pour interpréter les bases
de l'adaptation des pseudo-espèces. On peut aussi concevoir que la clustérisation n'est jamais
assez nette pour être un concept pertinent, mais si c'est le cas, il sera utile de le savoir. De
façon générale, toute information sur l'organisation de la diversité génomique aura des
applications dans l'interprétation de fonctions biologiques à partir de données moléculaires
ainsi que dans l'inférence de l'histoire évolutive des populations concernées (DuBow , 2005).
Le dernier problème que nous mentionnerons ici concerne l’exploitation de données
« poolées ». En effet , pour des raisons pratiques et financières, les données génomiques et
métagénomiques s’obtiennent souvent par pooling et non pas via des clones. Le problème à
résoudre est d’inférer la structure génomique des individus à partir de ces données de
mélange ; en génétique des populations on parle de retrouver les haplotypes ancestraux et il y
a des applications aussi en génétique d’association. Ce problème est difficile mais sa
résolution aurait un grand impact (Venter et al., 2004) ; nous proposons donc d’essayer
plusieurs stratégies d’inférence en exploitant nos clustérisations des données génomiques
ainsi que des méthodes d’échantillonnage par Monte Carlo.
Dans tous les travaux proposés, on notera que le fil conducteur est la combinaison d’outils
d'analyse mathématique, statistique, d’approches de modélisation et de simulation, ainsi que
le développement d'algorithmes spécifiques, avec application à des données génomiques :
(1) issues de l'équipe de M. DuBow. Celle-ci a prélevé et analysé des microorganismes
d'environnements solides car c'est là que réside la plus grande biomasse. Les environnements
choisis sont très différents : les sédiments de la Seine à Issy les Moulineaux (tempéré et
humide) d'une part, et les sables du Sahara (chaud et sec) d'autre part (Prigent et al., 2005).
(2) en libre accès sur le Web, en particulier les données métagénomiques au GENEBANK
du NCBI.