Génétique – Gènes – Génomes Des petits pois de Mendel à la post-génomique XIXème siècle XXème siècle XXIème siècle •Genomes 2nd edition, T.A. Brown (accessible sur internet), Wiley-Liss http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=genomes.TOC&depth=2 •GENES VII, B. Lewin (Bibliothèque centrale, 586-5 LEW), Oxford Press •Précis de Génomique, Gibson & Muse, Editions de Boek •Evolution moléculaire, Ph Luchetta, M. Ch. Maurel, D. Higuet, M. Vervoot, Dunod, 2005 •Ecological Genomics, Van Straalen & Roelofs, 2012 •Génomique Environnementale, ISTE, 2016 MNHN, 15 septembre 2016, I. Florent ([email protected]) 1 Biodiversité actuelle : ~1,8 millions espèces décrites 10-100 millions d’espèces ? « Descent with modification », C. Darwin, Origin of species, 1859 Last Universal Common Ancestor 2 from Kutschera et al., 2011 L’étude de cette biodiversité du monde vivant a révélé son unité Chimique 4+2=6 éléments chimiques principaux Biochimique les briques élémentaires du vivant (Métabolique) Cellulaire 2 types : Procaryotes / Eucaryotes Génétique tous les organismes vivants* possèdent un génome constitué d’ADN, qui est transmis à la descendance : transmission avec modification = évolution 3 * Sauf certains virus mais sont ils « vivants » ? Unité chimique du monde vivant : 4+2 éléments principaux : C, H, O, N + P,S C H O N Si Na Monde inorganique 0.18% 0.95% 48% 0.03% 28% 2.4% Cellule de vertébré 19.4% 9.30% 62% 5.15% 0.04% 0.05% Cellule végétale 24% 8.5% 64% 0.8% 0.65% 0.05% Éléments plus rares: Fer, Magnésium, Zinc, Manganèse, molybdène, cuivre 4 Evolution Moléculaire, Luchetta et al., 2005 Unité biochimique du monde vivant • « briques élémentaires du vivant »* = molécules organiques constituées de ces CHON+PS 5 bases azotées : ( acides nucléiques, ADN et ARN) 20 acides aminés ( protéines) Lipides (membranes…) glucides (stockage de l’énergie…) 5 Cf annexe 1 Evolution Moléculaire, Luchetta et al., 2005 Deux grands types d’organisations cellulaires : Procaryote Eucaryote 6 Histoire simplifiée du monde vivant « explosion » au Cambrien apparition des eucaryotes multicellulaires ~570 millions A ~2-2.2 milliards A premières cellules eucaryotes endosymbiose (Margulis, ~1970) LECA ~3.5 milliards A premières cellules : procaryotes LUCA RNA World 3.8 milliards d’années premières molécules organiques BIG BANG : 4,6 milliards d’années 7 Le matériel génétique = ADN Eucaryotes : ADN génomique dans le noyau, linéaire = chromosomes Procaryotes : ADN génomique circulaire*, dans le cytoplasme *généralement Eucaryotes : ADN mitochondrial circulaire* dans mitochondrie(s) Eucaryotes photosynthétiques : ADN chloroplastique circulaire dans les chloroplastes NB: Virus à ADN Virus à ARN (BROWN) 8 Flux de l’information génétique ATGC AUGC ACDEFGHIKLMNPQRSTVWY Dans le cytoplasme pour les procaryotes 1. TRANSCRIPTION (ADN ARNm) Dans le NOYEAU* * Pour les eucaryotes 2. TRADUCTION Dans le cytoplasme*9 (ARNm PROTEINE) TRANSCRIPTION = Synthèse de l’ARN(m) TRANSCRIPTION Enzymes = ARN Polymérases ADNdépendantes : progressent de 5’ en 3’ (BROWN) Un ARNm fait 1- <10 kb en général 10 Epissage des ARNs avant traduction : introns éliminés, exons conservés (Eucaryotes) Epissage Gènes sans introns (procaryotes, eucaryotes) Gènes avec introns (eucaryotes) 11 TRADUCTION des ARN messagers en protéines (par Ribosomes dans cytoplasme) Protéine en cours de synthèse Noter les ARN ribosomaux et de transfert 12 Rappels: PROTEINES = enchaînements linéaires de (20) acides aminés* (BROWN) * Certaines protéines s’assemblent avec d’autres pour former des complexes 13 20 acides aminés, 4 familles chimiques (BROWN) 14 Le code génétique est universel (1961) • TRIPLETS • 61 codons « SENS » 20 aa Parmi ces 61 : codon START = AUG « dégénérescence » sur la 3ème base • 3 codons « STOP » : UAA, UAG, UGA 15 * Exceptions très rares Unité du monde vivant chimique biochimique cellulaire… code génétique… Diversité des organismes HISTOIRE EVOLUTIVE ??? « Descent with modification », C. Darwin, Origin of species, 1859 Last Universal Common Ancestor 16 Les classifications du monde vivant Animaux Animaux Bactéries* Champignons Végétaux Bactéries Système à trois règnes (-> milieu du XXème siècle) Végétaux Protistes Le système à cinq règnes De Whittaker (1969) Eubactéries Eucaryotes Archées Les trois domaines du vivant Selon C. Woese (1990) : avec les séquences des gènes d’ARN ribosomaux 17 Evolution Moléculaire, Luchetta et al., 2005 Arbre du vivant (Tree of life) simplifié MONDE EUCARYOTE: Unicellulaires (Protistes) et Pluricellulaires (Animaux, Plantes, Fungi) MONDE PROCARYOTE Bactéries Archées 18 GENETIQUE – GENES – GENOMES 1865 1900 1909 1913 1927 1933 Génomes Etudes évolutives et des études fonctionnelles à grande échelle (transcriptome – protéome, …) Exploration de la diversité « non cultivable » (GENE VII) Post-Génomique Post-gènomes Gènomes 1958 1961 1977 1995 ~2000 Gènes Génétique 1944 1945 1953 Génétique : travaux précurseurs de Mendel (1822-1884) Redécouverte des lois de Mendel Le mot gène (« qui donne naissance à ») est créé par Johanssen Les chromosomes contiennent des arrangements linéaires de gènes Les mutations correspondent à des changements sur les gènes qui modifient les caractères Morgan prix Nobel (physiologie et Médecine) théorie chromosomique de l’hérédité (Drosophile); 1ères cartes génétiques La nature chimique du matériel génétique est déterminée : l’ADN La correspondance : un gène une protéine est établie La structure de l’ADN en double hélice est decryptée Prix Nobel Watson, Crick, Wilkins en 1962 La réplication de l’ADN est semi-conservative Le code génétique est formé de triplets On est capable de séquencer l’ADN On est capable de séquencer les génomes Naissance de la Métagénomique 19 IIa- Grégor Mendel 1822-1884, Moine Botaniste, originaire de Moravie progéniture F1 Modèle expérimental : Pisum sativum Possibilité de contrôler les croisements 20 Choix de sept caractères à étudier, 2 « allèles » par caractère Obtention de lignées pures pour un caractère donné par autofécondations Question = Comment sont transmis les caractères lors des croisements des lignées pures ??? Transmission non aléatoire des caractères 21 Les LOIS de Mendel Cf annexe 2 IIb- Wilhelm Johannsen 1857-1927, botaniste danois Invente le terme de « gène » en 1909 (« qui donne naissance à ») Invente les termes « phénotype » et « génotype » en 1911 Génotype = ensemble des caractères qui sont transmis Phénotype = ensemble des caractères qui s’expriment* Le terme « génome » est inventé par le botaniste Hans Winkler en 1920 22 IIc- Avery (1944) et Hersey et Chase (1952) montrent que l’ADN et non les protéines, est le support physique des caractères transmis Expérience de Avery* en 1944 : le principe transformant des pneumocoques est l’ADN Expérience de Hershey et Chase* en 1952 : avec le Phage T2 (marquage de l’ADN au phosphore 32 ; des protéines au soufre 35) * Expériences illustrées en annexes (3) 23 IId- Morgan (1866 – 1945) – Américain Travaille sur la Drosophile (mouche du vinaigre) Prix Nobel de Médecine en 1933 pour avoir démontré que les chromosomes sont les supports physiques de l’information génétique il construit avec Alfred Sturtevant les premières cartes de localisation des gènes sur les chromosomes, les cartes génétiques 24 IIe- Watson et Crick décryptent la structure en double hélice de l’ADN en 1953 1. Étude de clichés de diffraction aux rayons X structure répétitive de type hélice diamètre de 2 nm pas de 3,4 nm soit ~10 nucléotides par tour 12A 34A 2. Densité de l’ADN correspondrait à 2 chaînes 3. Quel que soit l’ADN étudié on a toujours autant de bases puriques que de bases pyrimidiques A+G = C+T et A/T = G/C = 1 (Chargaff) 22A 2 nm = 20A 25 (GENE VII) Largeur constante Bases complémentaires A-T ; C-G Brins complémentaires Brins antiparallèles (GENE VII) Dans la double hélice d’ADN les bases sont à plat, empilées les unes au dessus des autres Elle sont perpendiculaires au squelette sucre-phosphate. Le squelette sucre-phosphate porte des charges négatives neutralisées dans le noyau par des protéines basiques qui jouent un rôle important dans l’organisation de l’ADN au sein 26 de la cellule (structure de la chromatine) Propriétés remarquables lui permet d’être recopiée à l’identique Information conservée de molécule mère à molécule fille Fourche de réplication Fragments d’Okasaki (BROWN) 27 Mais…. Des erreurs ponctuelles peuvent se produire ; fréquence moyenne 10-7 Snps = Single nucleotide polymorphism • Si les mutations sont dans les gènes codant les protéines, elles peuvent être délétères (et contre sélectionnées) • Si les mutations sont dans les régions « non codantes », elles peuvent passer inaperçues…. Et s’accumuler… - Moteurs de l’évolution 28 …Insertions ou délétions de bases… Conduisent à des décalages de phases….. …. Dans les séquences codantes…. 29 …. Mais peuvent aussi passer inaperçues ….Réarrangements chromosomiques Duplication /perte de gène Inversion / translocation « Reading the story of DNA » 30 III- Génome, définition • ensemble du matériel génétique transmis à la descendance • i.e. ensemble de régions codantes et non codantes qui constituent l’ADN génomique des organismes • régions non codantes sont : • régions régulatrices des gènes • ARN ribosomique et de transfert • transposons (parfois codants) • centromères, télomères… 31 Génome procaryote typique Haemophilus influenzae 1.830.137 bp 1743 gènes Fleischmann et al., 1995, Science La majorité du génome code pour des protéines* pour des ARNs ribosomaux pour des ARNs de transfert 32 * Code couleur selon les catégories fonctionnelles Génome eucaryote typique : homo sapiens Human nuclear genome ∼ 3 200 000 000 bp 33 De grandes variations de tailles (GENE VII) 34 Chez H. sapiens, les gènes codant les protéines sont très minoritaires: ~1,5% 36% 1.5% du génome 16% 46% 35 % d’ADNs non codants chez les eucaryotes Encephalitozoon cuniculii (microsporidie): 2.9 106 bp ~2000 gènes Homo sapiens 3 109 bp ~25.000 gènes <5% non codant ! >98.5% non codant ! ~80% chez les plantes 36 Génomes et nombre de gènes ??? Size (bp) # of genes Saccharomyces cerevisiae 12 x 106 ~6 200 Plasmodium falciparum 23 x 106 ~5 300 Caenorhabditis elegans 97 x 106 ~19 Arabidopsis thaliana 115 x 106 ~25 000 Drosophila melanogaster 123 x 106 ~13 600 Anopheles gambiae 278 x 106 ~13 700 Takifugu rubripes 390 x 106 ~29 000 3.2 x 109 ~25 000 Homo sapiens 000 37 1 On sait séquencer les génomes* 2 1 : isoler l’ADN 2 : le FRACTIONNER (fragments aléatoires) purifier des fragments de taille ~homogène 3 : CLONER chaque fragment séparément (construction de banque) 4 : SEQUENCER chaque clone (MILLIERS DE CLONES) 5 : ASSEMBLER toutes les séquences (recherche d’overlaps) 4 (élaboration des contigs) 3 Voir annexes 4 pour les « old » techniques de séquençage 5 38 La phase d’assemblage, suivie de l’annotation (où sont les gènes codants, où sont les régions régulatrices…) peut prendre beaucoup de temps ! Mais plus on connaît de génomes plus la tâche est facilitée ! http://www.Genoscope.cns.fr 39 Décryptage (séquençage) des génomes http://www.genomesonline.org 2009 (1077 complets) ; 2012 (3705 complets, 14600 en cours !!!) 183 (2012) 2551 en cours 3363 (2012) 11831 en cours 116 (2009) 895 (2009) 65 (2007) 524 (2007) 28 (2004) 175 (2004) Nombre de Génomes 1400 159 (2012) 218 en cours 1200 1000 A complets A en cours 800 66 (2009) B complets B en cours 600 E complets E en cours 46 (2007) 400 200 19 (2004) 0 2004 40 2005 2006 années 2007 2008 Genomes Online Database, is a World Wide Web resource for comprehensive access to information regarding genome and metagenome sequencing projects, and their associated metadata, around the world. 41 www.genomesonline.org Projets séquençages complets de génomes 2006 2014 !!! 20 mille génomes pour 2 millions d’espèces : ~1% de la biodiversité ? 2324/21444 433/4566 382/345 156/120 42 www.genomesonline.org L’avènement des NGS a fait chuter le cout du séquençage >> 1000x 43 E. Pennisi, 2014, Science 343, 829 L’apparition des NGS a causé une seconde révolution dans le séquençage des génomes • En 2009 : 1300g séquencés – 188 Archées, 4800 Bactéries, 1524 Eucaryotes – Mais la liste des espèces séquencées n’est pas représentative de la biodiversité sur terre* • • • • • • Pas de reptiles, amphibiens, mollusques, annélides Pas d’oiseaux Pas d’autres arthropodes que les insectes Unicellulaires eucaryotes très mal représentés… Il y a un grand décalage entre les espèces « modèles en génétiques » et les espèces « d’intérêt écologique », qui sont généralement bcp moins bien caractérisées… Il y a des problèmes éthiques (ex: oiseaux protégés) 44 An introduction to Ecological Genomics, Nico M. Van Straalen & Dick Roelofs, Oxford 2012 Qu’apporte la connaissance des gènes et des génomes ???? • Etudes évolutives : évolution des gènes, évolution des fonctions biologiques, évolution des régulations : doit permettre de reconstruire les mécanismes de l’évolution des espèces génomique évolutive • Avoir accès à la diversité biologique (non cultivable) dans tous les environnements (métagénomique, métabarcoding) génomique environnementale • Inventorier la biodiversité Barcoding • Réaliser des études fonctionnelles des organismes (voies métaboliques, transcriptomes, protéomes) 45 Retracer l’histoire évolutive des gènes, des fonctions ou des régulations Recherche des Gènes homologues = qui ont un ancêtre commun par fouilles dans les bases de données* (BLAST) Degré de similitude degré de parenté études phylogénétiques outils Phylogénomiques * EMBL, GenBank, SwissProt, etc………….. 46 Comprendre la structuration des génomes au cours de l’évolution Exemple chez les Kinétoplastidés : L. major / T. brucei / T. cruzi Principe Permet de « reconstruire » la structure génétique de l’ancêtre commun 47 Comprendre l’histoire évolutive des espèces ?? (H. Roest-Crollius) 48 Avoir accès à la biodiversité non cultivables des Environnements La métagénomique Besoin de : • Méthodes de séquençage à haut débit • Bio-informatique performante • BASES de DONNEES 49 Analyse métagénomique : découverte de nouvelles eubactéries et Archées Gulf of Aden, 2011: diverses profondeurs, eaux froides, eaux chaudes 45 échan XXIème siècle : l’ère de la Post-Génomique ? 51 Génomique Comparative : projets « mille » génomes Objectifs: disposer de données génomiques pour des milliers d’espèces d’un groupe donné pour • Documenter la biodiversité • Préciser les relations phylogénétiques entre les organismes • Identifier les liens entre patrons génétiques (ensembles de gènes) et traits fonctionnels • Éclairer sur la compréhension des processus biologiques fondamentaux à fort impact économique ou sociétal: • Cycle du carbone VERTEBRES: 10.000 génomes • Réseaux métaboliques • 1 représentant de chaque • Lutte contre les pathogènes genre connu • Maladies émergentes o Histoire évolutive ? • Résilience aux stress environnementaux o Modifications génétiques FUNGI: 1000 FUNGAL genomes / MYCORRHIZAL initiative: o Innovations fonctionnelles • 2 représentants de chacune des 500 familles connues o Duplications de génomes • Milieux terrestres et aquatiques 1000 HUMAN genomes ARTHROPODES : 5000 genome initiative • Intérêt scientifique, agronomique, alimentaire, Microbiome Humain et + médical, + science médico-légale (MetaHIT) Métagénomique des Environnements Microbiome Humain et + (MetaHIT) OCEANOMICS (World OceanBioresources) Inclus les virus EARTH MICROBIOME PROJECT 200.000 échantillons sur toute la terre • Métagénomique • Métatranscriptomique • métabarcode TARA Oceans Plancton (PK, EK, Virus) NGS + Imagerie Plancton=98% du volume de la biosphère Source inexplorée de biomolécules TERRAGENOME (sols) IDEALG : Valorisation de « végétaux marins » et microorganismes associés NB: observatoires génomiques = 15 sites de référence dans le monde choisi pour permettre un suivi TEMPOREL de l’évolution de cette biodiversité: Ecosystèmes marins et continentaux • 2 en Asie pacifique dont 1 station en Polynésie • 8 en Europe dont les site de Rothamsted (Terragenome) et les stations marines Roscoff et Banyuls (Oceanomics, Tara, Idealg) • 2 zones polaires (arctique et antarctique) • 3 aux USA META-BARCODE : mise en évidence de la sous évaluation de la biodiversité (eucaryote ici) La biodiversité eucaryote réelle (B.), déduite de 59 études meta-barcode (région V9 du rDNA 18S), dans une diversité d’environnements (eaux marines, eaux douces, sols), révèle 80% d’espèces, correspondant à des Protistes (eucaryotes unicellulaires) non « catalogués », Les espèces « cataloguées » (A.) sont principalement les Métazoaires et les Fungi (super groupe Opistokhontes, cf arbre C.) et les Plantes (Streptophyta, dans les Glucophyta de arbre C.) A. B. : Pawlowski et al., 2014, Plos Biology: the CBOL Protist Working Group C. : Adl et al., 2012, Journal of Euk. Microbiology Diversité des marqueurs moléculaires pertinents pour le barcoding des eucaryotes Pawlowski et al., 2014, Plos Biology: the CBOL Protist Working Group Génétique – Gènes - Génomes Introduction pour les non-biologistes Annexes XXème siècle XXIème siècle 56 Annexe 1 Acides nucléiques - chimie ADN ARN Sucre / Phosphate / Sucre / Phosphate SUCRE = 2’ désoxyribose (ADN) bases puriques : A et G bases pyrimidiques : C et T (BROWN) 57 Annexe 2 Exemple d’analyse expérimentale : pois lisses x pois ridés croisement •1. Un caractère résulte de la combinaison de 2 allèles dans chaque individu. Dans une lignée pure ces deux allèles sont identiques. •2. Ces allèles sont disjoints au moment de la production des gamètes mâles et femelle. •3. Tous les descendant dans une F1 sont identiques, ils ont reçu chacun un allèle (mâle plus femelle). •4. Si on croise entre eux les individus de la F1 on a une redistribution non aléatoire des allèles Les LOIS de Mendel, transmission non aléatoire des caractères 58 Annexe 3 I.1- Deux expériences ont permis de montrer que l’Acide désoxyribonucléique est le support physique des caractères 1944 : le principe transformant des pneumocoques est l’ADN (Avery) 1952 : expérience de Hershey et Chase avec le Phage T2 par marquage de l’ADN au phosphore 32 (GENE VII) Rough Non pathogène Smooth pathogène 59 Séquençage de l’ADN par la méthode de Sanger (1977, didéoxynucléotides) (BROWN) Annexe 4.1 60 Séquençage de l’ADN Les séquenceurs actuels utilisent le même principe mais chacun des 4 didéoxynucléotides est couplé à un fluorochrome différent A. Les produits des 4 réactions, réalisées séparément, sont déposés ENSEMBLE sur un capillaire d’électrophorèse Annexe 4.2 B. En sortie de capillaire, un détecteur mesure la fluorescence ; des logiciels reconstituent la séquence nucléotidique (BROWN) 61 IIIc- La technique de PCR a révolutionné la biologie moléculaire et l’étude du monde vivant Polymerase Chain Reaction : principe Avec une paire d’oligonucléotides flanquant une région d’ADN d’intérêt (~100bp à quelques qq kb) on peut AMPLIFIER cette région, de façon exponentielle ~1 milliard de fois… (BROWN) 62 PCR, détail de la réaction (BROWN) 63 Quelques ng d’ADN cycles nombre de molécules obtenues nombre de molécules obtenues 1 2 2,E+00 2 4 4,E+00 3 8 8,E+00 4 16 2,E+01 5 32 3,E+01 6 64 6,E+01 7 128 1,E+02 8 256 3,E+02 9 512 5,E+02 10 1024 1,E+03 11 2048 2,E+03 12 4096 4,E+03 13 8192 8,E+03 ,, ,, ,, ,, ,, ,, 26 67108864 7,E+07 27 134217728 1,E+08 28 268435456 3,E+08 29 536870912 5,E+08 30 1073741824 1,E+09 30 cycles de PCR PCR : puissance de la méthode Des µg de fragment dADN choisi !!! 64 Applications : clonages de gènes d’intérêt, BarCoding, Génomique Environnementale… Hypothesis about the Eukaryotic Tree Choanoflagellates Animals Unikonta Fungi Common ancestor of all eukaryotes Amoebozoans Diplomonads Excavata Euglenozoans Alveolates Chromalveolata Stramenopiles DHFR-TS gene fusion Rhizarians Rhizaria Red algae Green algae Plants Archaeplastida Parenté (coding genes) Homme – others Chimpanzé, Pan troglodytes 30.000 gènes, 98% communs Arabette, A. thaliana 25.000 gènes, 26% communs Souris, Mus musculus 30.000 gènes, 90% communs Levure, S. cerevisiae 6.275 gènes, 23% communs Poisson zèbre, Danio rerio 30.000 gènes, 85% communs Ver, C. elegans 19.000 gènes, 21% communs Mouche, D. melanogaster 13.600 gènes, 36% communs Bactérie, E. coli 4.800 gènes, 7% communs http://nature.ca/genome/03/c/20/03c_21_f.cfm#c_22 66 67 Nécessité d’élaborer des bases de données de référence / espèces Ex: Ribosomal rRNA databases • Au début du 21ème siècle on a commencé à assembler des bases de données de toutes les séquences d’ARN ribosomique – 200.000 micro-organismes – Ribosomal database project II (http://rdp.cme.msu.edu) pour rRNA 16S des Eubactéries et Archées – European Ribosomal RNA database http://www.psb.ugent.be/rRNA ) contient la plus grande diversité: A, B, E + mitochondries et plastes ! Barcoding of Life ? Cf PCR 68 Expédition Tara Océans – les milieux oligotrophes dévoilent une plus grande diversité d’espèces 69 70 Illumina 54 48 182 Roche 454 Ion Torrent 834 Abi SOLiD 320 Ion Proton 317 Pacific Biosciences Other Répartition des nouvelles technologies de séquençage (NTS/NGS) dans les centres de séquençage mondiaux (7389 machines, 1027 centres, htt^://omicsmaps.com/stats ). (source: "Génomique Environnementale" ISTE, 2016)