Anthropologie Génétique et génétique des populations / SNP / GWAS / Principes et principaux résultats Bastien Boussau [email protected] Table des matières 1. Génétique des populations 2. Le génome humain et son séquençage 3. Histoire évolutive de l’homme et de son génome 4. L’histoire de l’homme importe pour étudier son génome 5. Approches génétiques pour identifier les causes génétiques des maladies 6. Génomique et médecine personnalisée 1.Génétique des populations Génétique des populations La génétique des populations s’intéresse aux fréquences d’allèles dans les populations • Allèle = version d’un gène. Exemple: il existe chez l’homme plusieurs allèles du gène BRCA1, dont certains prédisposent à certains cancers. • Population = sous-ensemble d’individus d’une même espèce. La génétique des populations s’appuie d’un côté sur la génétique, et de l’autre sur les mathématiques/statistiques. 1.Génétique des populations Génétique des populations • Génétique : la reproduction sexuée • Evolution neutre • Sélection naturelle ou sexuelle et son impact sur les génomes 1.Génétique des populations La reproduction sexuée http://www.empiricalzeal.com/category/genetics/ 1.Génétique des populations La reproduction sexuée Méiose (recombinaison) http://www.empiricalzeal.com/category/genetics/ 1.Génétique des populations Evolution neutre des allèles • Initialement, un allèle démarre avec une fréquence de 1/2N, où N est le nombre d’individus dans la population • Au cours des générations suivantes, la fréquence de cet allèle va évoluer • Si cet allèle a un impact positif sur la fitness (valeur adaptative) de l’individu, comment la sélection naturelle agirat-elle sur l’évolution de sa fréquence ? • Si cet allèle a un impact négatif sur la fitness (valeur adaptative) de l’individu, comment la sélection naturelle agirat-elle sur l’évolution de sa fréquence ? • Si cet allèle n’a pas d’impact sur la fitness, alors la fréquence de l’allèle évoluera de façon neutre. Comment ? 1.Génétique des populations Evolution neutre en fonction de la taille de population 20 individus 200 individus 2000 individus 1.Génétique des populations Evolution des allèles en présence de sélection L’allèle dont on simule la fréquence offre un avantage sélectif de 5% (s = 0.05) Pour référence: Lactase in Scandinavians: 0.09<s<0.19 G6PD deficiency: 0.02<s<0.05 sickle-cell: 0.05<s<0.18 (Bersaglieri et al. 2004, Tishkoff et al 2001, Li 1975) NB: G6PD deficiency et Sickle cell protègent tous deux contre la malaria 20 individus 200 individus 2000 individus 1.Génétique des populations Sélection et liaison entre gènes http://evolution.berkeley.edu/evolibrary/news/080101_recenthumanevo 1.Génétique des populations Le concept de taille des populations en génétique • La taille des populations affecte l’efficacité de la sélection • Ce n’est pas le seul paramètre : si la population est très fragmentée, si la reproduction ne se fait pas entre individus tirés au hasard, la sélection est moins efficace • On utilise donc un concept différent de la taille observée des populations, la taille efficace des populations • C’est le résultat d’une correction de la taille censitaire de population Table des matières 1. Génétique des populations 2. Le génome humain et son séquençage 3. Histoire évolutive de l’homme et de son génome 4. L’histoire de l’homme importe pour étudier son génome 5. Approches génétiques pour identifier les causes génétiques des maladies 6. Génomique et médecine personnalisée 2.Le génome humain Le génome humain 23 chromosomes ~3 000 000 000 nucléotides 2% codant, 98% non-codant ~20 000 gènes codant pour des protéines Par Courtesy: National Human Genome Research Institute — Modified from Human Genome ProjectFrom en: with same file name, contributor: en:User:TedE, Domaine public, https://commons.wikimedia.org/w/index.php?curid=889311 2.Le génome humain Variations du génome: SNPs • SNPs: Single Nucleotide Polymorphisms: 1 SNP tous les 1000 nucléotides —>les humains sont 99.9% identiques au niveau génomique http://www.traitgenetics.com/en/index.php?option=com_content&task=view&id=33&Itemid=54 2.Le génome humain Variations du génome: CNVs • CNVs: Copy Number Variations: duplications locales • Exemple: gène de l’amylase a High starch Low starch 0.30 N Median 133 7 93 5 Mean 6.72 5.44 s.d. 2.35 2.04 Proportion of individuals 0.20 0.15 0.10 0.05 0.00 b als ure.com/naturegenetics 0.25 1.0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 AMY1 diploid gene copy number Interprétation ? Figure 2 Diet and AMY1 estimated AMY1 diploid with traditional diets tha and populations with trad starch). (b) Cumulative d each of the seven popula Supplementary Fig. 1 from the combined hi (70%) was nearly two tions (37%). To visuali AMY1 gene copies, we DNA fibers Perry et al. 2007(fiber FIS AMY1 copy number e The among-populat do not fit expectation model of genetic drift: African and Asian po 2.Le génome humain Variations du génome: CNVs • CNVs: Copy Number Variations: duplications locales a 0.30 High starch Low starch N Median 133 7 93 5 Mean 6.72 5.44 s.d. 2.35 2.04 Proportion of individuals 0.25 0.20 0.15 Figure 2 Diet and AMY1 estimated AMY1 diploid with traditional diets tha and populations with trad starch). (b) Cumulative d each of the seven popula of individuals ww.nature.com/naturegenetics Supplementary Fig. 1 from the combined hi 0.10 (70%) was nearly two tions (37%). To visuali 0.05 AMY1 gene copies, we DNA fibers Perry et al. 2007(fiber FIS 0.00 2 3 4 5 6 7 8 9 10 11 12 13 14 15 AMY1 copy number e AMY1 diploid gene copy number The among-populat Les populations do not fit expectation b 1.0 consommant de l’amidon en quantité ont davantage de copies du gène codant pour l’amylase dans leur génomemodel of genetic drift: African and Asian po 0.8 predictsfusions AMY1 copy nu • Anomalies génétiques à plus grande échelle: larges duplications, High starch observation, we hypot chromosomiques… 0.6 Japanese 2.Le génome humain Séquençage de génome complet • Toute la séquence de l’euchromatine est obtenue 2.Le génome humain Coût du séquençage du génome humain • 2001: Human Genome Project: 2.7 milliards • “In January 2014, Illumina (company) launched its HiSeq X Ten Sequencer which delivers the first $1,000 genome at 30x coverage, including reagent costs ($797), instrument depreciation ($137 per genome), and sample preparation ($55–$65 per genome) amortised over 18,000 genomes sequenced per year over a four-year operational period.” https://en.wikipedia.org/wiki/ $1,000_genome 2.Le génome humain Séquençage de génome complet • Toute la séquence de l’euchromatine est obtenue • Le coût du séquençage a grandement baissé: autour de 1000€ aujourd’hui: • Fragmentation du génome en petits fragments d’ADN • Séquençage des petits fragments d’ADN • Assemblage par informatique d’un génome aussi complet que possible 2.Le génome humain Séquençage de génomes anciens • L’ADN peut se conserver plusieurs milliers d’années, surtout au froid • Les méthodes modernes de génomique peuvent être adaptées pour séquencer de l’ADN à partir d’os • ex: ADN d’anciens européens, de Neandertal, de Denisova, de mammouths, de chevaux archaïques… 2.Le génome humain Séquençage d’exome • On ne séquence que la portion du génome qui code pour des protéines, qui est sélectionnée chimiquement par hybridation • ~2% du génome est codant: moins cher que du séquençage de génome complet 2.Le génome humain Détermination de SNPs • • Utilisation de puces qui contiennent les allèles les plus communs (100 000 à 1 000 000 positions): • fragmentation du génome • hybridation des fragments sur la puce Les allèles rares ou simplement pas présents sur la puce ne sont pas obtenus Table des matières 1. Génétique des populations 2. Le génome humain et son séquençage 3. Histoire évolutive de l’homme et de son génome 4. L’histoire de l’homme importe pour étudier son génome 5. Approches génétiques pour identifier les causes génétiques des maladies 6. Génomique et médecine personnalisée 3. Histoire de l’homme Interpréter les génomes: révéler les événements de sélection passée et l’histoire de l’homme • • Histoire de l’homme: • Les fossiles humains peuvent être datés par des méthodes physiques et géologiques • Les mutations arrivent à un certain rythme, qui est fonction du temps (horloge moléculaire) • En comparant les génomes d’un grand nombre d’hommes existant aujourd’hui ainsi que d’hommes archaïques et d’espèces cousines, on peut reconstruire l’histoire des populations humaines Evénements de sélection passée: • L’analyse des génomes d’un grand nombre d’hommes existant aujourd’hui ainsi que d’hommes archaïques et d’espèces cousines permet de reconstruire quelles mutations ont été positives et négatives au cours de l’histoire de l’homme • Une mutation positive pour la fitness de l’organisme monte en fréquence dans la population • Une mutation négative pour la fitness de l’organisme baisse en fréquence dans la population • Ces changements de fréquence entraînent aussi le morceau de chromosome autour de la mutation 3. Histoire de l’homme Rappel: Sélection et liaison entre gènes http://evolution.berkeley.edu/evolibrary/news/080101_recenthumanevo 3. Histoire de l’homme Grotte des Contrebandiers (Morocco) Zouhara Cave (Morocco) Temara (Morocco) Dar-es-Soltane (Morocco) Haua Fteah (Libya) L’histoire de l’homme moderne telle que racontée par les fossiles et les génomes Singa (Sudan) Aduma (Ethiopia) Herto (Ethiopia) Bouri (Ethiopia) Dire-Dawa (Ethiopia) Early Archaic H. sapiens Omo Kibish (Ethiopia) Late Archaic H. sapiens Modern H. sapiens Mumba (Tanzania) Naissance en Afrique il y a moins de 200 000 ans Campbell et col., 2014 Border Cave (South Africa) Die Kelders (South Africa) Klaises River Mouth (South Africa) Current Opinion in Genetics & Development 3. Histoire de l’homme Une histoire complexe de migrations… 200 kya Modern Human Origins Migrations internes à l’Afrique et hors d’Afrique 150 kya Population Divergence 100 kya Migration from Africa ? 50 kya ? Archaic Hominin (in Africa) Neanderthal (outside of Africa) Australia/Melanesia Campbell et col., 2014 Americas Asia Non-Africans Middle East/Europe Other Africans Bantu-speaking Agriculturalists Central African Pygmy HGs Sub-Saharan Africans San HGs Present 3. Histoire de l’homme … et d’introgressions 200 kya Modern Human Origins 150 kya Population Divergence 100 kya Migration from Africa ? 50 kya ? Denisova (outside of Africa) Archaic Hominin (in Africa) Neanderthal (outside of Africa) Australia/Melanesia Campbell et col., 2014 Americas Asia Non-Africans Middle East/Europe Other Africans Bantu-speaking Agriculturalists Central African Pygmy HGs Sub-Saharan Africans San HGs Present 3. Histoire de l’homme De nombreuses migrations en Afrique Figure 3 European Ottoman Semitic Arabian trade across the Red Sea ar gg Ba ja Fulani/Fulbe Ar ab ic Maures Be a Arab Senegambia Sierra Leone Windward Coast Gold Coast Cushitic Ubangi western Bantu Nilotes Bight of Biafa Arab World Slave Trade Kh oi sa n eas tern Bantu Trans-Atlantic Slave Trade Nilo-Saharan Bight of Benin Language Families Afroasiatic Nilo-Saharan Khoesan Campbell et col., 2014 Niger-Kordofanian 3. Histoire de l’homme L’expansion de l’homme à la surface du globe 15Kya 45Kya 35-40Kya 50-60Kya 45Kya 60-100Kya Founder effect Source of founder effect Migration path Fig. 1. Ancient dispersal patterns of modern humans during the past 100,000 y. This map highlights demic events that began with a source population in southern Africa 60 to 100 kya and conclude with the settlement of South America approximately 12 to 14 kya. Wide arrows indicate major founder events during the demographic expansion into different continental regions. Colored arcs indicate the putative source for each of these founder events. Thin arrows indicate potential migration paths. Many additional migrations occurred during the Holocene (11). Henn et col. 2012 Table des matières 1. Génétique des populations 2. Le génome humain et son séquençage 3. Histoire évolutive de l’homme 4. L’histoire de l’homme importe pour étudier son génome 5. Approches génétiques pour identifier les causes génétiques des maladies 6. Génomique et médecine personnalisée 4. Histoire du génome La migration cause des goulots d’étranglement Genetic Diversity Fig. 2. A third analys variation in Ea estimated a div groups that wa those found by mtDNA data. In addition growth, popula Africa is impor the OOA migr populations ou African popula amount of gen the genetic var from region to relatively deep Studies of patt polymorphism hunter-gathere exceptionally h several of thes Hadza, Sandaw the first to dive went on to bec groups in Afri outside Africa the speakers o Henn et col. 2012 Schematic of a serial found effect. We illustrate the effect of serial founder events on genetic diversity 4. Histoire du génome A C 2200000 2000000 1800000 Maya Yakut ambodian Pathan Mozabite Mbuti San 1600000 1400000 Heterozygotes ! Les goulots d’étranglement B ont eu un impact encore visible aujourd’hui 2400000 Figure S5: Number of heterozygotes per individual genome for 7 populations Fig. 1. Decrease heterozygosity and estimated Ne with distance from southern Africa. (A) Nombre de insites sequencing arepar indicated on the map. Putative migration paths after the origin of modern hu hétérozygotes génome Henn et col. 2015 4. Histoire du génome Analyse du génome d’Helicobacter pylori Linz et col. 2007 4. Histoire du génome Comparaison avec une génération de reproduction consanguine • Par auto-fécondation (observé par exemple chez certaines plantes), l’hétérozygotie est divisée par 2 à chaque génération. • Par reproduction entre frère et soeur, l’hétérozygotie est divisée par 1.2 • L’effet des nombreux goulots d’étranglement a presque été aussi fort qu’une génération d’auto-fécondation (passage de 2.4 à 1.6 millions de sites hétérozygotes = division par 1.5) et plus fort que 2 générations de reproduction entre frères et soeurs 4. Histoire du génome Davantage de variants délétères dans les populations hors d’Afrique Henn et col. 2015 (PSMC) to estimate changes in Ne (11, 12, 27). Because dating 4. Histoire du with génome demographic events PSMC is dependent on both the assumed mutation rate and the precision with which a given event can be inferred, we compare relative bottleneck magnitudes and timing among the seven HGDP populations. Consistent with previous analyses (27), the OOA populations show a sharp reduction in Ne, with virtually identical population histories (Fig. 1B discovered in the exome dataset into categories based on Genom Evolutionary Rate Profiling (GERP) Rejected Substitution (R scores. These conservation scores reflect various levels of constra within a mammalian phylogeny (Materials and Methods) and used to categorize mutations by their predicted deleterious eff (30, 31). Importantly, the allele present in the human referen genome was not used in the GERP RS calculation, avoiding t Polymorphismes délétères homozygotes A B C D E F Effet délétère Henn et col. 2015 4. Histoire du génome Le séquençage individuel montre que les individus portent de nombreuses mutations ARTICLE délétères récessives Pathogenic Variants for Mendelian and Complex Traits in Exomes of 6,517 European and African Americans: Implications for the Return of Incidental Results Holly K. Tabor,1,2,9 Paul L. Auer,3,4,9 Seema M. Jamal,2 Jessica X. Chong,2 Joon-Ho Yu,2 Adam S. Gordon,5 Timothy A. Graubert,6 Christopher J. O’Donnell,7 Stephen S. Rich,8 Deborah A. Nickerson,5 NHLBI Exome Sequencing Project, and Michael J. Bamshad2,5,* • • • Exome sequencing (ES) is rapidly being deployed for use in clinical settings despite limited empirical data about the number and types of Tous les individus avaient au moins 5 allèles entraînant une incidental results (with potential clinical utility) that could be offered for return to an individual. We analyzed deidentified ES data from 6,517 participants (2,204 African Americans and 4,313 European Americans) from the médicamenteux National Heart, Lung, and Blood Institute Exome réponse altérée à certains traitement Sequencing Project. We characterized the frequencies of pathogenic alleles in genes underlying Mendelian conditions commonly assessed by newborn-screening (NBS, n (parmi ¼ 39) programs,14 genesgènes) associated with age-related macular degeneration (ARMD, n ¼ 17), and genes known to influence drug response (PGx, n ¼ 14). From these 70 genes, we identified 10,789 variants and curated them by manual reviewindividus of OMIM, HGMD, locus-specific databases, or moins primary literature to aallèle total of 399prédisposant validated pathogenic variants. The 99% des avaient au un mean number of risk alleles per individual was 15.3. Every individual had at least five known PGx alleles, 99% of individuals had at least ARMD risk allele, and 45% of individuals were carriers for at least one pathogenic NBS allele. The carrier burden for severe recessive àone la dégénérescence maculaire liée à l’âge (parmi 17 childhood disorders was 0.57. Our results demonstrate that risk alleles of potential clinical utility for both Mendelian and complex traits are detectable in every individual. These findings highlight the necessity of developing guidelines and policies that consider the return of gènes) results to all individuals and underscore the need to develop innovative approaches and tools that enable individuals to exercise their choice about the return of incidental results. 45% des individus portent au moins un allèle pathogène d’un gène utilisé dans les cribles pour nouveaux-nés sions about the return of genetic results, given that the Introduction vast majority of individuals indicate that they want access (parmi 39(ES/gènes) to a broad range of results beyond those with a direct Exome sequencing and whole-genome sequencing 4. Histoire du génome L’histoire évolutive conditionne l’architecture génomique Evolution de l’homme: Evolution du chien: • Origine: 100 000 ans • Origine: 10 000 ans • Répartition géographique globale: • Répartition géographique globale: • • différents climats • différents climats • différents régimes alimentaires • différents régimes alimentaires • différents niveaux de consanguinité • différents niveaux de consanguinité sélection naturelle • sélection artificielle 4. Histoire du génome Sélection artificielle chez le chien bull terrier 1931 1950 1976 La sélection artificielle récente a été très efficace chez le chien d and sustained evolution of breeds. (A) Purebred St. Bernard skulls from !1850 (Top), 1921 (Middle), and 1967 (Bottom). (B) Purebred bull terrier 931 (Top), 1950 (Middle), and 1976 (Bottom) (24). (C) Purebred Newfoundland skulls from 1926 (Top), 1964 (Middle), and 1971 (Bottom). Despite enetic diversity caused by population structure and history, these breeds are able to continually create new and more extreme morphological a rapid and sustained pace. Analysis of the Runx-2 repeats in the 1931 bull terrier reveals a more intermediate allele (Q19A14) than is present in the errier (Q19A13). Fondon III et Garner, 2004 By Ivob - Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=4675663 4. Histoire du génome Sélection pour la taille aux PaysDoes natural selection favour taller stature Bas among the tallest people on earth? ed from http://rspb.royalsocietypublishing.org/ on August 19, 2016 Gert Stulp1,2, Louise Barrett3,4, Felix C. Tropf2 and Melinda Mills5 1 Department of Population Health, London School of Hygiene and Tropical Medicine, London WC1E 7HT, UK Department of Sociology, University of Groningen, Grote Rozenstraat 31, Groningen 9712 TG, The Netherlands 3 Department of Psychology, University of Lethbridge, 4401 University Drive West, Lethbridge, Alberta, Canada T1 K 3M4 4 Applied Behavioural Ecology and Ecosystems Research Unit, University of South Africa, Private Bag X6 Florida 1710, Johannesburg, South Africa 5 Nuffield College/Department of Sociology, Manor Road, Oxford OX1 3UQ, UK 2 GS, 0000-0003-0173-5554; MM, 0000-0003-1704-0001 The Dutch are the tallest people on earth. Over the last 200 years, they have grown 20 cm in height: a rapid rate of increase that points to environmental causes. This secular trend in height is echoed across all Western populations, but came to an end, or at least levelled off, much earlier than in The Netherlands. One possibility, then, is that natural selection acted congruently with these environmentally induced changes to further promote tall stature among the people of the lowlands. Using data from the LifeLines study, which follows a large sample of the population of the north of The Netherlands (n ¼ 94 516), we examined how height was related to measures of reproductive success (as a proxy for fitness). Across three decades (1935–1967), height was consistently related to reproductive output (number of children born and number of surviving children), favouring taller men and average height women. This was despite a later age at first birth for taller individuals. Furthermore, even in this low-mortality population, taller women experienced higher child survival, which contributed positively to their increased reproductive success. Thus, natural selection in addition to good environmental conditions may help explain why the Dutch are so tall. Il y aurait de la sélection naturelle en faveur de la grande taille aux Pays-Bas, pas aux Etats-Unis Stulp et col., 2014 4. Histoire du génome © 2007 Nature Publishing Group http://www.nature.com/naturegenetics Evolution de la tolérance au lactose chez l’adulte Convergent adaptation of human lactase persistence in Africa and Europe Sarah A Tishkoff1,9, Floyd A Reed1,9, Alessia Ranciaro1,2, Benjamin F Voight3, Courtney C Babbitt4, Jesse S Silverman4, Kweli Powell1, Holly M Mortensen1, Jibril B Hirbo1, Maha Osman5, Muntaser Ibrahim5, Sabah A Omar6, Godfrey Lema7, Thomas B Nyambo7, Jilur Ghori8, Suzannah Bumpstead8, Jonathan K Pritchard3, Gregory A Wray4 & Panos Deloukas8 A SNP in the gene encoding lactase (LCT) (C/T-13910) is associated with the ability to digest milk as adults (lactase persistence) in Europeans, but the genetic basis of lactase persistence in Africans was previously unknown. We conducted a genotypephenotype association study in 470 Tanzanians, Kenyans and Sudanese and identified three SNPs (G/C-14010, T/G-13915 and C/G-13907) that are associated with lactase persistence and that have derived alleles that significantly enhance transcription from the LCT promoter in vitro. These SNPs originated on different haplotype backgrounds from the European C/T-13910 SNP and from each other. Genotyping across a 3-Mb region demonstrated haplotype homozygosity extending 42.0 Mb on chromosomes carrying C-14010, consistent with a selective sweep over the past B7,000 years. These data provide a marked example of convergent evolution due to strong selective pressure resulting from shared cultural traits—animal domestication and adult milk consumption. LaInmême caractéristique évolué dans aukb most humans, the ability to digest lactose, the main a carbohydrate lactaseindépendamment persistence trait: C/T-13910 and G/A-22018, located B14 present in milk, declines rapidly after weaning because of decreasing and B22 kb upstream of LCT, respectively, within introns 9 and 13 of levels of the enzyme lactase-phlorizin hydrolase (LPH). LPH is the adjacent minichromosome maintenance 6 (MCM6) gene (Fig. 1). moins deux populations humaines, en impliquant des predominantly expressed in the small intestine, where it hydrolyzes The T-13910 and A-22018 alleles were 100% and 97% associated with lactose into glucose and galactose, sugars that are easily absorbed intodifférentes lactase persistence, respectively, in the Finnish study , and the T-13910 mutations Tishkoff etpersistence col.,in2007 the bloodstream . However, some individuals, particularly descen- allele is B86%–98% associated with lactase other 4 4 1 4. Histoire du génome EWS Evolution de la tolérance à l’altitude chez l’homme Other studies have focuse integration of candidate adapt wide regulatory variation. F EGLN1 HIF1α + HIF1β used a genome-wide set of ex loci (eQTLs) to test the hypoth involved in gene expression hav HIF1 human adaptation. The authors HIF1α HIF1β transcription LD-based neutrality test (iHS) w complex Ethiopian identified in the HapMap Euro Tibetan population samples, and iden PPARA Tibetan and Andean signals, for example, genes i response, including the hum (HLA-C) in Europeans and A Genetic regulation of response to hypoxia HLA-DPB2 and HLA-DRB5 in formally tested whether these Figure 2 | An abridged hypoxia-inducible factor 1 Différentes onthNature contribué àactor l’adaptation à are correlate Reviews pathway. mutations istinct enes in the poxia in uci e| Genetics tures of adaptation (HIF1) pathway implicated in adaptation in differenthumaines eQTLs, and found a significant l’altitude dansare différentes populations hi h a titu e popu ations i in at a titu es Scheinfeldt metres sample and a suggestive associa et Tishkoff 2013 RORA THRB 4. Histoire du génome L’adaptation aux pathogènes cause une grande partie de la différenciation génétique entre populations Signatures of Environmental Genetic Adaptation Pinpoint Pathogens as the Main Selective Pressure through Human Evolution Matteo Fumagalli1,2*, Manuela Sironi1, Uberto Pozzoli1, Anna Ferrer-Admettla3, Linda Pattini2, Rasmus Nielsen3 1 Scientific Institute IRCCS E. Medea, Bioinformatic Lab, Bosisio Parini, Italy, 2 Bioengineering Department, Politecnico di Milano, Milan, Italy, 3 Departments of Integrative […] show the diversity of the pathogenic environment is the Biology we and Statistics, Universitythat of California Berkeley, Berkeley, California, United States oflocal America predominant driver of local adaptation, and that climate, at least as measured here, Abstract only plays a relatively minor role. While background demography by far Previous genome-wide scans of positive natural selection in humans have identified a number of non-neutrally evolving genes that play important roles in skin pigmentation, metabolism, or immune function. Recent studies have also shown that makes the strongest contribution in explaining the genetic variance among a genome-wide pattern of local adaptation can be detected by identifying correlations between patterns of allele frequencies and environmental variables. Despite these observations, the degree to which natural selection is primarily populations, we detected about 100 genes which show an unexpectedly strong driven by adaptation to local environments, and the role of pathogens or other ecological factors as selective agents, is still under debate. To address this issue, we correlated the spatial allele frequency distribution of a large sample of SNPs from 55 correlation allele frequencies and environment, after distinct human between populations to a set of environmental factors that describe local pathogenic geographical features such as climate, diet regimes, and pathogen loads. In concordance with previous studies, we detected a significant enrichment of genic SNPs, correcting fornon-synonymous demography.[…] Among theFurthermore, loci targeted bydiversity pathogen-driven and particularly SNPs associated with local adaptation. we show that the of the local pathogenic environment is the predominant driver of local adaptation, and that climate, at least as measured here, selection, wea relatively foundminor anrole.enrichment of genes associated to autoimmune diseases, only plays While background demography by far makes the strongest contribution in explaining the variance among populations, we detected about 100 genes which show an unexpectedly strong correlation such genetic as celiac disease, type 1 diabetes, multiple sclerosis, lends between allele frequencies and pathogenic environment, after correctingand for demography. Conversely, for diet regimes which and climatic conditions, no genes show a similar correlation between the environmental factor and allele frequencies. This result credence hypothesis that some susceptibility alleles for autoimmune is validated to usingthe low-coverage sequencing data for multiple populations. Among the loci targeted by pathogen-driven selection, we found an enrichment of genes associated to autoimmune diseases, such as celiac disease, type 1 diabetes, and multiples sclerosis, which lendsmaintained credence to the hypothesis that some susceptibility alleles for autoimmune diseases may be diseases may be in human population due to past selective maintained in human population due to past selective processes. processes. 4. Histoire du génome Les gènes de l’immunité innée ARTICL ont une histoire complexe Genomic Signatures of Selective Pressures and Introgression from Archaic Hominins at Human Innate Immunity Genes Matthieu Deschamps,1,2,3 Guillaume Laval,1,2 Maud Fagny,1,2,3 Yuval Itan,4 Laurent Abel,4,5,6 Jean-Laurent Casanova,4,5,6,7,8 Etienne Patin,1,2 and Lluis Quintana-Murci1,2,* • Les gènes de l’immunité innée ont évolué sous une plus Human genes governing innate immunity provide a valuable tool for the study of the selective pressure imposed by microorganisms host genomes. A comprehensive, genome-wide study of how selective constraints and adaptations have driven the evolution of inn forte contrainte de sélection que les autres gènes (aussi immunity genes is missing. Using full-genome sequence variation from the 1000 Genomes Project, we first show that innate immun genes have globally evolved under stronger purifying selection than the remainder of protein-coding genes. We identify a gene set un observé dans études inter-espèces) the strongest selective constraints, mutations in which are likely to predispose individuals to life-threatening disease, as illustrated STAT1 and TRAF3. We then evaluate the occurrence of local adaptation and detect 57 high-scoring signals of positive selection at inn immunity genes, variation in which has been associated with susceptibility to common infectious or autoimmune diseases. Furth more, we show that most adaptations targeting coding variation have occurred in the last 6,000–13,000 years, the period at which p ulations shifted from hunting and gathering to farming. Finally, we show that innate immunity genes present higher Neandertal in gression than the remainder of the coding genome. Notably, among the genes presenting the highest Neandertal ancestry, we find TLR6-TLR1-TLR10 cluster, which also contains functional adaptive variation in Europeans. This study identifies highly constrai genes that fulfill essential, non-redundant functions in host survival and reveals others that are more permissive to change—contain variation acquired from archaic hominins or adaptive variants in specific populations—improving our understanding of the relative logical importance of innate immunity pathways in natural conditions. • La plupart des événements de sélection positive sont survenus il y a entre 6000 et 13000 ans, au moment de la transition vers l’agriculture • Les gènes de l’immunité sont plus insouvent hérités de predicting their involvement in disease. Ge Introduction Neandertal que les autres gènes evolving under strong purifying selection are predicted 2,4,7,16 4. Histoire du génome L’importance de l’évolution sur la complexité de la structure génétique Architecture génétique de la taille: • Chez l’homme: “ Using genome-wide data from 253,288 individuals, […] we show that the most strongly associated ~2,000 SNPs explained ~21% of phenotypic variance.” (Wood et al., 2014) • Chez le chien: 6 SNPs: 85%(Boyko et al., 2010) Table des matières 1. Génétique des populations 2. Le génome humain et son séquençage 3. Histoire évolutive de l’homme et de son génome 4. L’histoire de l’homme importe pour étudier son génome 5. Approches génétiques pour identifier les causes génétiques des maladies 6. Génomique et médecine personnalisée 5. Génétique des maladies Approches génétiques pour identifier les causes génétiques des maladies • L’histoire évolutive de l’homme est compliquée, et rend difficile l’analyse de son génome • Néanmoins, on veut comprendre comment le génome fonctionne, et ce qui cause les maladies génétiques • Pour cela deux grands types de méthodes: • approches de génétique classique et approches familiales • approches populationnelles de type Genome-Wide Association Studies (GWAS) 5. Génétique des maladies Approches de génétique classique • Etude de l’histoire familiale et des génomes des individus • Ex: fibrose kystique (mucoviscidose) 1989, maladie de Huntington (1992) 5. Génétique des maladies Différents protocoles pour REVIEWS différentes mutations a Inherited mutations Autosomal recessive Compound heterozygous variants in a ected siblings Consanguineous autosomal recessive Homozygous variants in a ected siblings Heterozygous variants in una ected parents Heterozygous variants in una ected parents b De novo dominant mutations X-linked recessive X-chromosome variants in carrier females X-chromosome variants in a ected males Autosomal dominant Heterozygous variants in a ected family members Heterozygous variants in una ected family members c Mosaic mutations 1 Patient 1 heterozygous variants 2 Patient 2 heterozygous variants Patient 3 heterozygous variants na ected tissue A ected tissue 3 Variants in una ected tissue Variants in a ected tissue Boycott et al., 2013 5. Génétique des maladies Génétique classique aidée R E V I Ele W Sséquençage haut débit par Gènes identifiés par du séquençage d’exome 70 60 50 40 30 20 10 Ju l– D ec 20 12 20 12 n Ju n– Ja Ju l– D ec 20 11 20 11 Ja n– Ju n 20 10 ec Ju l– D n Ju Ja n– ec 20 09 20 10 0 Ju l– D Number of novel disease-causing genes identi ed 80 Strategies for the ident genes. Standard pipe cess the sequencing d including mapping, va sequence data can be databases (including phism (SNP) database Project 15, the Exome V HapMap Project16), as w These comparisons re are typically identified a reference genome) t occurring at a frequenc Initially, both inherite are catalogued; the sub definitively disease cau step (see REFS 17,18 for causality). For a well-d of mutations in the sam or families Boycott et al., results 2013 in a 5. Génétique des maladies Premier succès: Syndrome de Freeman–Sheldon • Maladie autosomale dominante, aussi appelée arthrogrypose distale • Séquençage de 12 individus: 8 provenant de diverses populations, 4 non apparentés mais présentant le syndrome de Freeman–Sheldon • Résultats: plusieurs gènes candidats identifiés. En particulier: MYH3, déjà connu, muté chez les 4 individus malades Ng et al., 2009 5.nor Génétique maladies in thedes eight HapMap exomes. Taking the predicted deleteriousness of individual mutations into account served as an effective filter as well (Fig. 2, row 5), but was not required to identify MYH3. Ranges Number of genes in which each affected has at least one… Beaucoup de mutations à étudier expérimentalement FSS24895 FSS24895 FSS10208 FSS24895 FSS10208 FSS10066 FSS24895 FSS10208 FSS10066 FSS22194 Any 3 of 4 FSS24895 FSS10208 FSS10066 FSS22194 4,510 3,284 2,765 2,479 3,768 NS/SS/I not in dbSNP 513 128 71 53 119 NS/SS/I not in eight HapMap exomes 799 168 53 21 160 NS/SS/I neither in dbSNP nor eight HapMap exomes 360 38 8 1 (MYH3) 22 …And predicted to be damaging 160 10 2 1 (MYH3) 3 Non-synonymous cSNP, splice site variant or coding indel (NS/SS/I) Figure 2 | Direct identification of the causal gene for a monogenic disorder by exome sequencing. Boxes list the number of genes with one or more non- Ng et al., 2009 5. Génétique des maladies Autre cas: Miller syndrome • On ne savait pas si c’était autosomal dominant ou récessif • Séquençage de 4 individus venant de 3 familles • Modèle dominant : 8 gènes candidats • Modèle récessif : 1 seul gène candidat, DHODH • (Découverte d’un autre gène expliquant un syndrome partagé par les deux individus apparentés) • Séquençage de DHODH dans 4 autres individus venant de 3 autres familles : tous ont des mutations délétères dans DHODH Ng et al., 2010 5. Génétique des maladies Genome-Wide association studies • • But: identifier les régions du génome associées à un phénotype particulier: • caractéristique physique ou intellectuelle/psychiatrique • maladie • mesure physiologique Approche: trouver des corrélations entre le génotype et le phénotype 1. échantillonnage d’un grand nombre d’individus 2. caractérisation de SNPs dans les génomes 3. analyse statistique pour trouver les corrélations significatives 54 5. Génétique des maladies GWAS: échantillonnage • • Un grand nombre d’individus doit être échantillonné: • WTCCC 2007: 2000 malades et 3000 contrôles • Hu et al. 2016 (23AndMe): 89 283 individus Les phénotypes doivent être mesurés de façon standardisée 5. Génétique des maladies GWAS: caractérisation de SNPs dans les génomes • Faite par puces: nombre de SNPs varie entre 100 000 et 1 million • Si différentes puces sont utilisées, alors des étapes d’homogénéisation des données sont nécessaires 5. Génétique des maladies GWAS: Analyse statistique • Différentes approches statistiques pour phénotypes quantitatifs (ex: taille) ou qualitatif (ex: malade) • Typiquement, chaque SNP est considéré indépendamment des autres: • • est-ce que le SNP1 est corrélé avec le trait? • est-ce que le SNP2 est corrélé avec le trait? • … Des corrections doivent être appliquées • correction pour les tests multiples • correction pour la structure génétique des populations • d’autres facteurs doivent être pris en compte: âge, sexe, caractéristiques cliniques, lieu de vie… 5. Génétique des maladies GWAS: des succès Welter et al. NAR 2013 5. Génétique des maladies GWAS: des faiblesses • Basé sur des puces à SNPs: tous les allèles ne sont pas présents • Pas la même efficacité selon les populations • Pas applicable pour les maladies rares, mais applicable pour les maladies communes: • hypothèse sous-jacente: les maladies communes sont dues à des allèles communs • les allèles impliqués ont nécessairement un effet moindre que pour les maladies rares • les maladies communes sont probablement dues à plusieurs allèles agissant en interaction (épistasie) • malheureusement, les méthodes statistiques ont des difficultés à détecter les allèles agissant en interaction Table des matières 1. Génétique des populations 2. Le génome humain et son séquençage 3. Histoire évolutive de l’homme et de son génome 4. L’histoire de l’homme importe pour étudier son génome 5. Approches génétiques pour identifier les causes génétiques des maladies 6. Génomique et médecine personnalisée 6. Médecine personnalisée Les patients ont aujourd’hui accès à leur ADN Des compagnies fournissent des services de séquençage et d’analyse des génomes 6. Médecine personnalisée Exemple: 23AndMe • 2007 : prédictions de santé et de généalogie pour 99$ • 2013: Le FDA (Food and Drug Administration) interdit les prédictions génétiques • 2015: les informations de porteur pour 36 maladies génétiques sont autorisées 6. Médecine personnalisée 6. Médecine personnalisée 6. Médecine personnalisée 6. Médecine personnalisée 6. Médecine personnalisée Connaître son “autre” génome: le microbiome 6. Médecine personnalisée Connaître son “autre” génome: le microbiome 6. Médecine personnalisée Connaître son “autre” génome: le microbiome 6. Médecine personnalisée Médecine personnalisée: des questions ouvertes (1) • A des fins de prévention, faudrait-il séquencer les génomes de tout le monde ? De populations à risque seulement ? • Faut-il fournir aux patients les données ? • Les compagnies privées peuvent-elles accéder à ces données avec le consentement du patient ? 6. Médecine personnalisée Médecine personnalisée: des questions ouvertes (2) • Autorise-t-on les analyses génétiques que commanderait un couple pour savoir la probabilité que leur enfant soit homozygote pour un allèle fortement délétère ? • Faut-il altérer la prise en charge d’un patient étant données ses prédispositions génétiques ? • Autorise-t-on le séquençage pré-implantatoire ? 6. Médecine personnalisée Visionnage conseillé Conclusion 1. L’étude des génomes éclaire l’histoire évolutive de l’homme 2. Cette histoire évolutive a un impact sur l’architecture des génomes humains 3. Cette architecture rend la détection des allèles causant des maladies difficile 4. Néanmoins les approches de génomique identifient de plus en plus d’allèles 5. Chaque individu porte des allèles uniques, certains sont impliqués dans des maladies rares: ceci motive le développement de la génomique personnalisée 6. Comment gérer ces nouvelles données et les intégrer au soin médical?