Année 2016-2017 - Demande d’allocation doctorale ED Santé, Sciences Biologiques et Chimie du Vivant (SSBCV) n°549 1. Informations administratives : Nom de l’encadrant responsable de la thèse : Yves Bigot Unité : UMR PRC 7247 – INRA Centre Val de Loire Equipe (si unité multi-équipes): Plasticité Génomique et Expression Phénotypique Email de l’encadrant : [email protected] Co-encadrant éventuel : [email protected] et [email protected] 2. Titre de la thèse : Diversité des éléments d'ADN dérivés d'éléments transposables qui façonnent l'épigénome aviaire 3. Résumé : 3.1. Contexte et objectifs La maîtrise de l'optimisation des phénotypes par sélection génomique et-ou par reprogrammation épigénétique en manipulant les conditions environnementales dépend largement de notre compréhension du fonctionnement et de l'organisation des génomes. Notre compréhension des conséquences épigénétiques du stress ou des perturbateurs endocriniens sur le phénotype des animaux en dépendent aussi. Dans ce contexte, la qualité des modèles de génomes utilisés va donc interférer sur notre maîtrise aux niveaux de la complétion de leur séquence et de la densité et la qualité des annotations disponibles sur la séquence même de l'ADN (description des gènes, variants de transcrit ARN, localisation des promoteurs et sites d'initiation de la transcription, etc ...). Actuellement, un front de science de l'annotation est de localiser les déterminants du statut des histones dans la chromatine. Comme ces déterminants sont répétés dans le génome, notre proposition est de nous intéresser aux séquences répétées dispersées, principalement les éléments transposables (ETs) qui sont connus pour contenir de tels déterminants. Notre objectif est d’annoter des locus candidats de tels déterminants. Ces locus seront identifiés dans le génome du poulet en recherchant les ETs conservés et synténiques dans 2 autres espèces aviaires, le diamant mandarin et la caille japonaise. Chaque type de déterminants sera ensuite caractérisé in silico. 3.2. Intérêt du modèle aviaire dans le contexte de la thèse La plupart des études qui ont examiné le rôle des séquences dérivées d'ETs dans la régulation de l'état de la chromatine sont des études de cas faites chez l'homme et la souris. Dans ces modèles, aborder ces questions à l'échelle du génome présente des difficultés particulières. Celles-ci incluent la grande taille de la plupart des génomes de vertébrés et des caractéristiques de leurs ETs qui sont pour le moins pas idéales, en particulier parce que nombre d'entre eux est de l'ADN parasite "fossile" sous une pression de sélection insuffisante pour être éliminés rapidement à l'échelle de l'évolution. Contrairement aux modèles mammifères, les génomes aviaires semblent être bien meilleurs candidats pour atteindre l'objectif de ce projet. En effet, les génomes aviaires sont 3 fois plus petits (~ 1,2 Gpb) que ceux des mammifères tandis que leur nombre de gènes codant des protéines est similaire. Cette situation résulterait en fait d'une forte sélection qui a éliminé les séquences d'ADN 1 inutiles au cours de l'évolution de la lignée Saurischia, parmi lesquels les oiseaux sont la seule lignée non éteinte. Ces génomes présentent également une divergence de séquence plus lente au cours de l'évolution de ce taxon et un taux élevé de synténie chromosomique. Les caractéristiques des ETs dans les génomes aviaires sont également favorables à notre projet. Notre récente réannotation des répétitions (y compris ETs) dans le génome de la poule rouge de jungle (Red Jungle Fowl (RJF), l'ancêtre de la poule domestique) en utilisant des pipelines fonctionnant ab initio a radicalement changé le paysage des ETs dans cette espèce. Dans le génome de RJF, les ETs représentent 15,7% du génome, et ~ 5% d'entre eux sont des copies très fragmentées (> 100 pb). Cette faible teneur en ETs est à corréler avec la taille du génome de RJF et est considérée comme étant une conséquence directe de la sélection sur les séquences d'ADN dites inutiles. Les ETs ont des propriétés spécifiques dans le génome de RJF: i) ils sont non-aléatoirement distribués à l'intérieur et entre les chromosomes, ii) ils sont rassemblés dans les régions inter et intragéniques non codantes, et surtout, iii) ils sont composés de seulement 33 espèces (alors que les génomes des autres vertébrés contiennent de 200-1000 espèces d'ETs). Les génomes aviaires sont donc de bons modèles pour étudier les synténies chromosomiques, y compris celles de courtes séquences répétées conservées. Les conséquences de la sélection au cours de l'évolution de leur clade suggèrent que la proportion de copies d'ETs intervenant dans le fonctionnement du noyau et de la chromatine doit être plus élevée dans les génomes aviaires que chez d'autres espèces de vertébrés. 3.3. Programme de travail Les travaux sont organisés en cinq tâches : 1 - Détecter, caractériser et annoter les répétitions en tandem et dispersées, la matière noire dérivée des répétitions dans les génomes du diamant mandarin et de la caille japonaise en utilisant des outils adaptés à une approche de novo, TRF et REPET. 2 - Identifier les principales espèces ETs et construire pour chacune d'elles un modèle pour leur annotation. 3 - Identifier les répétitions synténiques entre trois génomes aviaires : poule rouge de jungle, caille japonaise, diamant mandarin. 4 - Rechercher des conservations intra et inter spécifique de motifs de liaison par des facteurs de transcription dans les répétitions synténiques en prenant en compte leur position vis à vis des gènes (intragénique versus intergénique). 5 - Classifier les répétitions synténiques en fonction des sites de liaison par des facteurs de transcription (ex : présence de sites de liaison par YY1 plus 1 ou 2 autres facteurs de transcription => classification parmi les candidats PREs, présence de sites de liaison par CTCF => classification parmi les candidats barrière ou insulateurs, etc ...). 4. Résumé en anglais : Diversity of DNA elements derived from transposable elements that shape the avian epigenome. 3.1. Context & objectives Mastering the optimization of phenotypes by genomic selection and-or the epigenetic reprogramming by manipulating environmental conditions largely depend on our understanding of the functionning and the organisation of genomes. Our understanding of epigenetic consequences of stress or endocrine disruptors on the phenotype of animals are also dependent of them. In this context the quality of genome models used is going to interfere with our mastering at levels of their sequence completeness and the density and quality of available annotations (description of genes, RNA transcript variants, promoter location and start sites of transcription, etc. ...). Currently, a front science in genomics is to locate the determinants of the histones status in chromatin. Because these determinants are repeated in the genome, our proposal is to focus on dispersed repeated sequences, mainly transposable elements (ETs) that are known to contain some determinants of histone modifications. Our objective in the project will be to annotate candidate loci containing such determinants. These loci will be identified in the chicken genome by searching for syntenic ET fragments in 2 other avian species, the zebra finch and Japanese quail. Each type of determinants will then be characterized in silico. 2 3.2. Interest of avian model in the context of the thesis To date, most studies that have examined the role of TE-derived sequences involved in the regulation of chromatin status have been performed in human and murine models2-10. In these models, addressing these issues at the scale of the genome presents particular challenges. These include the large size of most vertebrate genomes, as well as TEs with less than ideal characteristics, including TE copies and species that are not under strong enough selection to be eliminated. Unlike these mammalian models, avian genomes appear to be much better candidates to reach the stated objective. Indeed, avian genomes are three times smaller than those of mammals (~1.2 Gbp) while the number of coding genes is similar. This has been hypothesized to be the result of strong purifying selection that has eliminated useless DNA sequences during evolution of the Saurischia lineage, among which birds are the only non-extinct lineage. These genomes also display slower sequence divergence during the evolution of the avian clade25 and an elevated rate of chromosomal synteny. Other features of TEs in avian genome are also favourable to our project. Our recent reannotation of repeats (including TEs) in Red Jungle Fowl (RJF, the ancestor of the domesticated chicken) using ab initio pipelines, has dramatically changed the TE landscape by circumventing problems previously raised by the use of library based methods. In the RJF, TEs represent 15.7% of the genome, and ~5% of them are highly fragmented copies (>100 bp). This low TE content is correlated with the RJF genome size and is viewed as being a direct consequence of selection against these DNA sequences. RJF TEs also display specific features: i) they are non-randomly distributed within and between chromosomes, ii) they are gathered in inter and intragenic non-coding regions, and above all, iii) they represent 33 species (while other vertebrates display from 200 to 1000 of TE species).Hence, avian genomes are good models to study chromosomal syntenies, including those of short conserved and repeated DNA copies. The consequences of the selection on their organisation during the evolution of their clade suggest that the proportion of TE copies involved in the functioning of the nucleus and associated chromatin should be more elevated in avian genomes than in other vertebrate species. 3.3. Workprogramme The work is organized in five tasks: 1 - Detect, characterize and annotate the tandem and interspersed repeats, the dark matter derived from old repeats in the genomes of the zebrafinch and Japanese quail using tools for de novo approach, TRF and REPEAT. 2 - Identify key TE species and build for each of them a model for their annotation. 3 - Identify the syntenic repetitions between three avian genomes: the red jungle fowl, the Japanese quail, and the Zebrafinch. 4 - Search for conserved binding motifs for transcription factors in syntenic repeats taking into account their position with respect to genes (intragénique versus intergenic). 5 - Classify syntenic repeats based on binding sites for transcription factors (eg, presence of binding sites for YY1 plus 1 or 2 other transcription factors => classification among PRE candidates, presence of binding sites for CTCF => classification among the barrier or insulator candidates, etc ...). 3