pour accéder au document

publicité
2017
Sujet de thèse:
UMR 7196 Structure et Instabilité des Génomes
Etude des mécanismes évolutifs et des fonctions associés aux séquences centromériques de primates
Directeur de thèse:
Christophe Escudé
[email protected]
Co-directeur(s) titulaire(s) HDR:
Co-directeur(s) non-titulaire(s) HDR:
Loïc Ponger
Equipe:
ADN Répété, Chromatine, Evolution (ARChE)
Publications récentes des directeurs de thèse avec leurs anciens doctorants:
Cacheux, Ponger, Gerbault-Seureau, Richard and Escudé. (2016) Diversity and distribution of alpha satellite DNA in the genome of an Old World monkey:
Cercopithecus solatus BMC Genomics 17(1), 916.
Nozeret, Loll, Escudé and Boutorine. (2015) Polyamide Fluorescent Probes for Visualization of Repeated DNA Sequences in Living Cells. Chembiochem
16, 549-554
Ollion, Loll, Cochennec, Boudier and Escudé. (2015) Proliferation-dependent positioning of individual centromeres in the interphase nucleus of human
lymphoblastoid cell lines. Molecular Biology of the Cell 26, 2550-2560
Ollion, Cochennec, Loll, Escudé, Boudier ( 2015) Analysis of nuclear organization with TANGO, software for high-throughput quantitative analysis of 3D
fluorescence microscopy images. Methods Mol Biol. 1228, 203-22
Descriptif du sujet de thèse et méthodes envisagées:
Le centromère est un locus chromosomique particulier sur lequel se fait l'assemblage d'une structure protéique, le kinétochore, et qui permet ainsi la
bonne ségrégation des chromatides soeurs lors de la division des cellules eucaryotes. Paradoxalement, alors que la fonction du centromère et les
protéines impliquées sont relativement bien conservées au cours de l'évolution, l'ADN sous-jacent, généralement constitué de séquences répétées en
tandem, présente une très grande diversité de séquences d'un groupe taxonomique à un autre.
Chez la plupart des primates, on trouve sur chaque centromère plusieurs milliers de répétitions d'un motif d'environ 171 paires de bases. Ces répétitions
constituent une grande famille de séquences appelées alpha-satellites pour laquelle de nombreuses sous-familles ont pu être identifiées. Les monomères
d'alpha-satellite de ces différentes sous-familles possèdent une organisation spatiale complexe à l'intérieur et au voisinage des centromères. Bien que les
mécanismes à l'origine de la diversité de ces séquences et de leur organisation ne soient pas encore précisément connus, il est admis que ces
séquences sont soumises à des mécanismes évolutifs spécifiques permettant notamment l'amplification de certaines séquences créant ainsi de nouvelles
séries de séquences fortement homogènes entre elles. Il a été montré que certaines familles possèdent des sites de fixation pour des protéines
impliquées dans la fonction du centromère. Il a également été montré que certaines de ces séquences pouvaient se replier pour former des structures
d'ADN particulières dont le rôle dans la fonction du centromère demeure une simple hypothèse. L'existence d'une éventuelle pression de sélection
favorisant ou éliminant de tels sites de fixation ou de telles structures n'a jamais été étudiée jusqu'ici.
L'objectif de la thèse sera d'étudier, par une approche bioinformatique, l'ADN alpha-satellite d'une quinzaine d'espèces de primates afin de mieux
comprendre les mécanismes évolutifs et les fonctions associées à ces séquences. L'étape initiale sera d'identifier et extraire les séquences alphasatellites présentes dans les banques publiques. Le doctorant développera une méthode permettant d'identifier les différentes sous-familles présentes au
sein d'un jeux de données composé de plusieurs milliers de séquences. Il/elle étudiera les propriétés de ces sous-familles afin de les comparer aux
éléments déjà connus chez certaines espèces. Parallèlement, en utilisant des approches statistiques connues, il/elle estimera les taux de substitution qui
s'appliquent dans ces sous-familles (ou sur des parties de ces séquences) afin de tester la présence de pressions de sélection différentes. Ces résultats
seront remis dans le contexte évolutif et fonctionnel des séquences alpha-satellites mais ils pourront aussi être discutés dans le cadre plus général des
centromères d'autres groupes taxonomiques.
Ce travail permettra :
- le développement et l'implémentation d'une méthode de classification fonctionnant sur des milliers de séquences homologues qui sera applicable à
l'ADN alpha-satellites mais aussi, potentiellement, aux séquences satellite d'autres espèces.
- la caractérisation des différentes familles de séquences alpha-satellite permettant ainsi de proposer des scénarios concernant l'évolution de ces
séquences au sein des primates : distribution taxonomique, divergence, organisation, présence d'éléments fonctionnels connus,
- la mise en évidence de pressions de sélection particulières permettant 1) de confirmer ou infirmer l'importance des éléments connus et 2) de découvrir
de nouveaux éléments potentiellement fonctionnels. Cela permettra de mieux comprendre le rôle de ces séquences dans la fonction des centromères.
Stratégie de publication:
La description des différentes sous-familles de séquences alpha-satellites et les scénarios évolutifs associés pourront faire l'objet d'une publication. En
fonction de l'importance du développement méthodologique, la méthode de classification utilisée pourra être intégrée à cette publication ou publiée
séparément.
L'étude des pressions de sélection au sein des différentes sous-familles permettant de caractériser les mécanismes évolutifs et les motifs fonctionnels
associés pourra être publiée dans un journal de biologie et d'évolution.
Les données générées au cours de ce travail seront intégrées dans une base de données en cours de développement au sein de l'équipe. Le doctorant
sera co-auteur de la publication décrivant la base de données et les outils associés.
Réorientation possible du sujet si échecs:
Les séquences étudiées seront extraites des banques de séquences publiques (projets génomes ou séquençage à haut débit). Une étude préliminaire (S.
Bridel, stage de M2, 2015-2016) nous a montré que de nombreuses séquences de bonne qualité sont disponibles pour une quinzaine d'espèces
appartenant aux trois grands groupes de primates : 6 grands singes, 8 singes de l'ancien monde et 2 singes du nouveau monde.
Les méthodes informatiques, bioinfomatiques et statistiques dédiés à l'analyse des séquences sont partiellement en place au sein de l'équipe suite,
notamment, au travail de thèse de Lauriane Cacheux (thèse soutenue le 15 novembre 2016).
Les ressources informatiques, serveurs de calcul et serveur web, sont disponibles au Muséum via la plateforme de bioinformatique du département.
Les risques sont donc relativement limités.
Faisabilité sur 3 ans (échéancier):
- Semestres 1 et 2: extraction des données présentes dans les banques publiques et mise au point d'une méthode permettant d'identifier les sous-familles
d'alpha-satellites chez les différents primates étudiés.
- Semestres 2, 3 et 4: étude des familles identifiées, étude des pressions de sélection sur les éléments fonctionnels connus et recherche d'éléments
inconnus.
- Semestre 5 : Intégration des données dans la base développée au sein de l'équipe.
- Semestre 6: Finalisation des articles et rédaction du manuscrit de thèse.
Profil du candidat recherché:
Le candiat devra posséder :
- de solides connaissances fondamentales en génomique, en évolution (moléculaire), en bioinformatique (alignement, phylogénie, ') et en statistiques
- de fortes compétences en programmation en Python, en Shell et en R.
Téléchargement