pour accéder au document

Téléchargement

2017 UMR 7196 Structure et Instabilité des Génomes

Etude des mécanismes évolutifs et des fonctions associés aux séquences centromériques de primates

Loïc Ponger

[email protected]

Sujet de thèse:

Christophe Escudé

Co-directeur(s) titulaire(s) HDR: Co-directeur(s) non-titulaire(s) HDR:

ADN Répété, Chromatine, Evolution (ARChE)

Equipe:

Cacheux, Ponger, Gerbault-Seureau, Richard and Escudé. (2016) Diversity and distribution of alpha satellite DNA in the genome of an Old World monkey:

Cercopithecus solatus BMC Genomics 17(1), 916.

Nozeret, Loll, Escudé and Boutorine. (2015) Polyamide Fluorescent Probes for Visualization of Repeated DNA Sequences in Living Cells. Chembiochem

16, 549-554

Ollion, Loll, Cochennec, Boudier and Escudé. (2015) Proliferation-dependent positioning of individual centromeres in the interphase nucleus of human

lymphoblastoid cell lines. Molecular Biology of the Cell 26, 2550-2560

Ollion, Cochennec, Loll, Escudé, Boudier ( 2015) Analysis of nuclear organization with TANGO, software for high-throughput quantitative analysis of 3D

fluorescence microscopy images. Methods Mol Biol. 1228, 203-22

Publications récentes des directeurs de thèse avec leurs anciens doctorants:

Le centromère est un locus chromosomique particulier sur lequel se fait l'assemblage d'une structure protéique, le kinétochore, et qui permet ainsi la

bonne ségrégation des chromatides soeurs lors de la division des cellules eucaryotes. Paradoxalement, alors que la fonction du centromère et les

protéines impliquées sont relativement bien conservées au cours de l'évolution, l'ADN sous-jacent, généralement constitué de séquences répétées en

tandem, présente une très grande diversité de séquences d'un groupe taxonomique à un autre.

Chez la plupart des primates, on trouve sur chaque centromère plusieurs milliers de répétitions d'un motif d'environ 171 paires de bases. Ces répétitions

constituent une grande famille de séquences appelées alpha-satellites pour laquelle de nombreuses sous-familles ont pu être identifiées. Les monomères

d'alpha-satellite de ces différentes sous-familles possèdent une organisation spatiale complexe à l'intérieur et au voisinage des centromères. Bien que les

mécanismes à l'origine de la diversité de ces séquences et de leur organisation ne soient pas encore précisément connus, il est admis que ces

séquences sont soumises à des mécanismes évolutifs spécifiques permettant notamment l'amplification de certaines séquences créant ainsi de nouvelles

séries de séquences fortement homogènes entre elles. Il a été montré que certaines familles possèdent des sites de fixation pour des protéines

impliquées dans la fonction du centromère. Il a également été montré que certaines de ces séquences pouvaient se replier pour former des structures

d'ADN particulières dont le rôle dans la fonction du centromère demeure une simple hypothèse. L'existence d'une éventuelle pression de sélection

favorisant ou éliminant de tels sites de fixation ou de telles structures n'a jamais été étudiée jusqu'ici.

L'objectif de la thèse sera d'étudier, par une approche bioinformatique, l'ADN alpha-satellite d'une quinzaine d'espèces de primates afin de mieux

comprendre les mécanismes évolutifs et les fonctions associées à ces séquences. L'étape initiale sera d'identifier et extraire les séquences alpha-

satellites présentes dans les banques publiques. Le doctorant développera une méthode permettant d'identifier les différentes sous-familles présentes au

sein d'un jeux de données composé de plusieurs milliers de séquences. Il/elle étudiera les propriétés de ces sous-familles afin de les comparer aux

éléments déjà connus chez certaines espèces. Parallèlement, en utilisant des approches statistiques connues, il/elle estimera les taux de substitution qui

s'appliquent dans ces sous-familles (ou sur des parties de ces séquences) afin de tester la présence de pressions de sélection différentes. Ces résultats

seront remis dans le contexte évolutif et fonctionnel des séquences alpha-satellites mais ils pourront aussi être discutés dans le cadre plus général des

centromères d'autres groupes taxonomiques.

Ce travail permettra :

- le développement et l'implémentation d'une méthode de classification fonctionnant sur des milliers de séquences homologues qui sera applicable à

l'ADN alpha-satellites mais aussi, potentiellement, aux séquences satellite d'autres espèces.

- la caractérisation des différentes familles de séquences alpha-satellite permettant ainsi de proposer des scénarios concernant l'évolution de ces

séquences au sein des primates : distribution taxonomique, divergence, organisation, présence d'éléments fonctionnels connus,

- la mise en évidence de pressions de sélection particulières permettant 1) de confirmer ou infirmer l'importance des éléments connus et 2) de découvrir

de nouveaux éléments potentiellement fonctionnels. Cela permettra de mieux comprendre le rôle de ces séquences dans la fonction des centromères.

Descriptif du sujet de thèse et méthodes envisagées:

La description des différentes sous-familles de séquences alpha-satellites et les scénarios évolutifs associés pourront faire l'objet d'une publication. En

fonction de l'importance du développement méthodologique, la méthode de classification utilisée pourra être intégrée à cette publication ou publiée

séparément.

L'étude des pressions de sélection au sein des différentes sous-familles permettant de caractériser les mécanismes évolutifs et les motifs fonctionnels

associés pourra être publiée dans un journal de biologie et d'évolution.

Les données générées au cours de ce travail seront intégrées dans une base de données en cours de développement au sein de l'équipe. Le doctorant

sera co-auteur de la publication décrivant la base de données et les outils associés.

Stratégie de publication:

Les séquences étudiées seront extraites des banques de séquences publiques (projets génomes ou séquençage à haut débit). Une étude préliminaire (S.

Bridel, stage de M2, 2015-2016) nous a montré que de nombreuses séquences de bonne qualité sont disponibles pour une quinzaine d'espèces

appartenant aux trois grands groupes de primates : 6 grands singes, 8 singes de l'ancien monde et 2 singes du nouveau monde.

Réorientation possible du sujet si échecs:

Directeur de thèse:

Les méthodes informatiques, bioinfomatiques et statistiques dédiés à l'analyse des séquences sont partiellement en place au sein de l'équipe suite,

notamment, au travail de thèse de Lauriane Cacheux (thèse soutenue le 15 novembre 2016).

Les ressources informatiques, serveurs de calcul et serveur web, sont disponibles au Muséum via la plateforme de bioinformatique du département.

Les risques sont donc relativement limités.

- Semestres 1 et 2: extraction des données présentes dans les banques publiques et mise au point d'une méthode permettant d'identifier les sous-familles

d'alpha-satellites chez les différents primates étudiés.

- Semestres 2, 3 et 4: étude des familles identifiées, étude des pressions de sélection sur les éléments fonctionnels connus et recherche d'éléments

inconnus.

- Semestre 5 : Intégration des données dans la base développée au sein de l'équipe.

- Semestre 6: Finalisation des articles et rédaction du manuscrit de thèse.

Faisabilité sur 3 ans (échéancier):

Le candiat devra posséder :

- de solides connaissances fondamentales en génomique, en évolution (moléculaire), en bioinformatique (alignement, phylogénie, ') et en statistiques

- de fortes compétences en programmation en Python, en Shell et en R.

Profil du candidat recherché:

1 / 2 100%