al. 2006). De telles études stimulent les développements théoriques associés permettant
l’analyse de ces données complexes dans un cadre statistique de plus en plus rigoureux (Hey
2006; Hey and Nielsen 2004), visant à déterminer l’influence de la démographie, de la
sélection et des échanges secondaires dans la détermination de la ségrégation de la diversité
entre taxons proches.
La souris domestique (Mus musculus) est un excellent modèle pour aborder ces questions. En
effet, plusieurs sous-espèces différenciées occupant des aires de distribution disjointes sont
reconnues. Elles sont issues d’une radiation géographique à partir d’une zone de
différenciation initiale située au Moyen-Orient et au nord du sous-continent Indien, et
présentent des incompatibilités génétiques partielles, traduisant un début d’acquisition
d’isolement reproductif (Boursot et al. 1993). Les données préliminaires montrent des patrons
contrastés suivant les régions du génome, depuis un large partage de polymorphisme jusqu’à
une différenciation complète. La très bonne connaissance du génome de cette espèce permet
d’envisager une approche de cette question à l’échelle du génome, et de faire le lien entre les
patrons de différenciation observés, les propriétés locales du génome, et la fonction des gènes
concernés.
Méthode : Analyse bioinformatique : Les nombreuses données de polymorphisme déjà
disponibles pour la souris, sous forme de reséquençages de génomes complets, et de typage de
SNPs (Single Nucleotide Polymorphisms) à haut débit, sur des génomes de lignées de
laboratoire, et certains génomes d’origine sauvage des différentes sous-espèces, serviront à
définir des régions candidates pour des patrons de coalescence contrastés entre sous-espèces.
Les lignées de laboratoire étant des hybrides entre les sous-espèces, l’étude des déséquilibres
de liaison entre fractions du génome d’origines taxonomiques différentes servira également à
détecter les régions fonctionnellement différenciées participant à des incompatibilités entre
génomes.
Les gènes contenus dans ces régions candidates seront ensuite analysés à la lumière des bases
de données d’ontologie des gènes, d’expression différentielle dans différents organes et au
cours du développement, et d’implication dans des réseaux métaboliques. Ceci permettra
d’affiner et de rationaliser le choix de régions et gènes candidats.
Séquençage : Les gènes candidats retenus par l’analyse bioinformatique seront séquencés
dans un panel représentatif des sous-espèces de la souris domestique. L’échantillonnage est
disponible au laboratoire.
Analyse des données de séquence : Les données de séquence seront analysées en utilisant la
batterie de logiciels de génétique des populations et de simulations existante, ainsi qu’avec les
nouveaux outils statistiques développés par les partenaires du projet ANR, qui viseront plus
spécifiquement à faire la part entre les différentes causes possibles de TSB (persistance de
polymorphisme ancestral neutre ou sous sélection diversifiante, introgression secondaire).
Résultat attendu : L’analyse bioinformatique des données de polymorphisme à l’échelle
génomique permettra de tester les corrélations entre les patrons de polymorphisme et de
divergence et divers paramètres d’intérêt : nature des chromosomes (sexuels ou autosomes),
intensité de la recombinaison, fonctions biologiques et patrons d’expression des gènes.
L’acquisition de nouvelles séquences de régions candidates permettra de vérifier sur un
meilleur échantillonnage de génomes les prédictions de l’analyse génomique. Ces données
permettront de tester les hypothèses sélectives émises, et de documenter des cas où la
sélection pourrait expliquer la différenciation, ou au contraire le maintien de polymorphisme
ancestral, ou encore l’introgression secondaire entre les sous-espèces.