Réalisé par: BENMOHAMED Ryad DERBAL Walid MAHMOUDI Imene Etudiants de 3eme année LMD Génétique Faculté des Sciences Agro-veterinaire et biologie a l’USD de Blida I- La chronologie de la génétique ⇒ 1865 – autrichien Gregor Mendel: père fondateur de la génétique. Il est à l'origine des lois de Mendel ou les lois de l’hérédité, qui définissent la manière dont les gènes se transmettent de générations en générations. ⇒ 1869 – l’ADN est isolé par Friedrich Miescher (médecin suisse) en récupérant les bandages – il isole du pus une substance riche en phosphore - la nucléine. ⇒ 1879 –Walter Flemming (allemand) décrit la mitose – la division cellulaire ⇒ 1902 –Walter Sutton (américain): – observe la méiose, propose la théorie chromosomique de l’hérédité. Il remarque que le modèle de séparation des chromosomes supporte tout à fait la théorie de Mendel. ⇒ 1909 –Wilhelm Johannsen (danois) – crée le terme gène, fait la différence entre phénotype & génotype ⇒ 1911 – Thomas Morgan (américain) – démontre que les chromosomes sont les supports physiques des gènes. Il découvre la liaison génétique et les recombinaisons génétiques. ⇒ 1913 - Morgan & Sturtevant: carte génétique du chromosome X ⇒ 1953 - Watson & Crick présentent le modèle en double hélice d’ADN. ⇒ 1957 – Meselson & Stahl (américains) démontrent que la réplication d’ADN est semi-conservative. ⇒ Les années 1960: Jacob & Monod (français) – la régulation de l’expression des gènes. Le principe du code génétique est admis, existence de séquences d’ADN non traduites. ⇒ 1968 – Marshall Nirenberg (américain) – déchiffrage du code génétique (Khorana & Holley). ⇒ 1975 – Fred Sanger (anglais) – séquençage de l’ADN (‘chain termination method’) ⇒ 1976 –Walter Fiers (Belge – Gand) – premier génome ARN viral séquencé (bactériophage MS2). ⇒ 1977 – Fred Sanger – premier génome ADN viral séquencé (bactériophage Φ-X174). ⇒ 1995 – premier génome de bactérie séquencé (Haemophilus influenza) par ‘Institute of Genomic research’ – 5368 bp. ⇒ 1996 – premier génome d’eucaryote séquencé – la levure Saccharomyces cerevisiae ⇒ 1998 - premier génome d’eucaryote multicellulaire séquencé – le nématode Caenorhabditis elegans. ⇒ 1990 – séquencer le génome humain – James Watson (NIH) - The Human Genome Project (HGP). ⇒ 2000 – une version préliminaire du génome humain. ⇒ 2003 – génome complet (92.3%). ⇒ 2006 – publication de la séquence du dernier chromosome humain dans Nature. ⇒ 2,858,015,675 bp (2.86 Gb) séquencé ⇒ ~25,000 gènes II- Généralités et Définitions 1.Le génome: est l'ensemble du matériel génétique d'un individu ou d'une espèce codé dans son ADN (à l'exception de certains virus dont le génome est porté par des molécules d‘ARN). Il contient en particulier toutes les séquences codantes (transcrites en ARN messagers, et traduites en protéine) et non-codantes (non transcrites, ou transcrites en ARN, mais non traduites). Chez les eucaryotes : Le génome nonnucléaire Le génome Le génome nucléaire Le génome mitochondrial Le génome chloroplastique Le chercheur français Christian Vélot compare le génome à une encyclopédie dont les différents volumes, seraient les chromosomes. Les gènes seraient les phrases contenues dans ces volumes et ces phrases seraient écrites dans un langage génétique représenté par quatre bases (adénine, guanine, cytosine et thymine) abrégées en AGCT. La science qui étudie le génome est la génomique. = 2.Le gène C’est quoi un gène chez les eucaryotes? C’est une séquence complète d’ADN transcrit et traduit (Exon), celle-ci interrompue par des régions transcrites non-codante (Intron), mais éliminés lors de la maturation de l’ARNm. 2.1.types de gènes Par gène, on entendra ici une portion d'ADN génomique qui est essentielle pour une fonction spécifique. On reconnait 3 types de gènes: 1 2 Gènes codant pour des protéines Gènes spécifiant des ARN 3 Gènes de régulation Gènes de réplication Spécifient les sites d'initiation et de terminaison de la réplication de l'ADN . Gènes de recombinaison Sites de reconnaissance spécifique pour des enzymes impliqués dans la recombinaison . Gènes de ségrégation Sites d'attachement des chromosomes pendant la mitose ou la méiose. Sites d'attachement pour des protéines, des hormones, des acides nucléiques, ou d'autres molécules. III-Taille et composition du génome des eucaryote 1.La taille du génome: correspond à la quantité d´ADN contenue dans une copie d´un génome. La taille d´un génome est également appelé valeur C. Elle est mesurée soit par sa masse où on utilise le picogramme, noté pg comme unité, ou bien par le nombre de nucléotides (paires de bases) avec le Mégabase, notée Mb (1 million de nucléotides) comme unité. 1 pg correspond à 978 Mb. Dolezel J, Bartoš J, Voglmayr H, Greilhuber J, « Nuclear DNA content and genome size of trout and human », dans Cytometry A, vol. 51, no 2, 2003, p. 127-128 Origine du terme Le terme de "Taille du génome" est souvent attribué par erreur à Hinegardner, puisque Hinegardner utilisa ce terme en 1969 dans le sens "nombre de gènes". Par contre, en février 1969, Wolf et al. utilisèrent le terme "taille du génome" avec le sens actuel. Le terme de "taille du génome" est devenu populaire au début des années 1970 sans doute suite à la publication du livre de Susumu Ohno, Evolution by Gene Duplication. · ↑ (en) Hinegardner R, Molecular Evolution, Sinauer Associates, Inc., Sunderland, 1976, « Evolution of genome size », p. 179-199 · ↑ Wolf U, Ritter H, Atkin NB, Ohno S, « Polyploidization in the fish family Cyprinidae, Order Cypriniformes. I. DNA-content and chromosome sets in various species of Cyprinidae », dans Humangenetik, vol. 7, 1969, p. 240-244 · ↑ (en) Ohno S, Evolution by Gene Duplication, Springer-Verlag, New York, 1970 2.Les mesures: Il existe différentes mesures de la taille d'un génome. La taille est souvent exprimée en paires de bases (pb ou bp), en milliers de paires de bases ou kilobases (Kb), ou en picogrammes (poids). Un picogramme correspond approximativement à1 milliard de paires de bases. Est-ce que la taille du génome augmente avec la taille et la complexité de l’organisme? 3.Le paradoxe de la valeur C: 3.1 définition de la valeur C:Le C désigne une valeur Constante ou Caractéristique d'un génome d'une espèce donnée. Cette mesure est commode car elle est comparable entre organismes haploides et polyploides 3.2 le paradoxe: Notion décrivant l'absence de correspondance entre le nombre de gènes présent chez un organisme quelconque et la taille de son génome haploïde (valeur de C). Ce paradoxe est largement due a la présence de larges portions d'ADN non codant chez les eucaryotes. ⇒ La taille du génome d’un organisme n’est pas proportionnel a son nombre de gènes exprimés, la complexité l’est! BOE 2111 – SBOE M111 La taille (en nombre de paires de bases = pdb) de différents génomes haploïdes, regroupés par grands groupes d'êtres vivants est présentée sur le diagramme ci-dessous NB : Les génomes des vers (non figurés sur le diagramme) comprennent entre 5.107 et 108 pdb. 3.3. Explication du paradoxe Les chercheurs ont montré que les différences de tailles entre génomes sont majoritairement dues à : 1 l'ADN qui ne codent pas pour des protéines et qui est souvent répété . Ces morceaux d'ADN répétés sont, en grande partie, des éléments transposables capables de se multiplier dans les génomes et donc de les envahir petit à petit. 2 A cela s'ajoute le fait que les gènes eucaryotes sont formés d‘exons(parties codantes) et d‘intros (longues séquences noncodantes éliminées avant la traduction de l'ARNm en protéine) 1.↑ John, B. and Miklos, G.L.G. (1988) The Eukaryotic Genome in Development and Evolution, Allen & Unwin 4.Nature composite du génome des eucaryotes Chez les eucaryotes, on a observé que différentes régions du génome possédaient différents contenus en GC. Les différentes régions possédants des densités relativement homogènes en % de GC sont appelées isochores et couvrent de longs segments d'ADN. Le génome des eucaryotes présente donc une structure mosaïque. Il existe ainsi plusieurs familles d'isochores chez les mammifères, définies en fonction de leur densité en GC. Familles L1 et L2 : pauvres en GC Familles H1 et H2 : riches en GC Famille H3 : très riche en GC les régions chromosomiques riches en GC sont en moyenne enrichies en gènes et les gènes sont alors plus compacts (c'est-à-dire que la proportion d’introns par rapport aux exons est plus faible). Les régions riches en GC sont aussi appauvries en rétroélément en LINs Par ailleurs, les télomères sont des régions riches en GC. IV- Constitution répétitive des génomes eucaryotes Une proportion très importante du génome des eucaryotes est formée d'ADN répété. La proportion d'ADN répété est variable selon les lignages. On distingue 4 fractions dans le génome des eucaryotes. ADN autohybridant ADN très répété ADN moyennement répété ADN non répété •5 à10 % du génome •Palyndromes, formant des structures en épingle à cheveux. • 10 à 20 % du génome • Courtes séquences d'ADN (quelques nucléotides à quelques centaines de nucléotides). •En moyenne répétées 500'000 fois. •20 à 30 % du génome •Quelques centaines à quelques milliers de nucléotides •Quelques centaines de copies •40 à 70 % du génome •Copies uniques. hautement répétées modérément répétées copie unique CHMI 2227 - E.R. Gauthier, Ph.D. 1. ADN répété 1.1 ADN répété non codant 1.1.1 ADN répétés en tandem localisés: Ce sont des « blocs » (ou séries) de séquences d’ADN répétées en tandem qui constitue les régions centromériques soit sur des chromosomes particuliers, soit sur tous les chromosomes. Selon la taille moyenne des blocs de séquences répétées, sont définies trois sous groupes: ADN satellite, ADN minisatellite, ADN microsatellite MEDECINE/SCIENCES 2007 ; 23 : 729-34 1. ADN répété 1.1 ADN répété non codant 1.1.1 ADN répétés en tandem localisés: (MEDECINE/SCIENCES 2007 ; 23 : 729-34) ADN satellite Localisé en bloc de 100 Kb a plusieurs Mb de longueur dans les régions d’hétérochromatine du génome. Comporte de longues séries de répétitions en tandem. Selon la composition en bases et après centrifugation, on distingue trois bandes satellite à différente densité. Satellite β Satellite II et III Satellite alphoide Satellite I et autres répétitions Chromosome 21 Chromosome 9 1. ADN répété 1.1 ADN répété non codant 1.1.1 ADN répétés en tandem localisés: ADN minisatellite (MEDECINE/SCIENCES 2007 ; 23 : 729-34) Se sont de courte séquence en tandem hautement répétitive et hyper variable, localisé dans le site euchromatine et prés des télomères. 1. ADN répété 1.1 ADN répété non codant 1.1.1 ADN répétés en tandem localisés: ADN microsatellite (MEDECINE/SCIENCES 2007 ; 23 : 729-34) Se sont de courte répétition d’une séquence en tandem de 1 a 4 nucléotides, dispersés dans tout le génome: ADN mono génique, intron, région flanquant, région inter génique, les gènes. 1. ADN répété 1.1 ADN répété non codant 1.1.2 ADN répétés dispersé: Se sont des séquences répétées dispersées représentées par: transposons à ADN, SINE, LINE, rétrovirus Arabette Nématode Drosophile Souris Homme LINE/SINE 0,5 % 0,4 % 4,7 % 28 % 28 % Séquences: rétrovirus 4,8 % 0% 6,4 % 10 % 7% Séquences: Transposons 5,1 % 5,3 % 3,6 % 1% 3% Total 10,5 % 6,5 % 14,9 % 38 % 38 % Tableau des fréquences des séquences répétées dispersée chez différents eucaryotes 1. ADN répété 1.1 ADN répété non codant 1.1.2 ADN répétés dispersé: SINE (pseudo-gènes rétro transcrits): Eléments courts dispersé. Une quarantaine de famille a été identifiée, la plus fréquents est la séquence Alu, avec environ 10^6 copies (soit en moyenne une copie tous les 4 bases). Riche en GC. se sont des rétro séquences non-fonctionnelle. 1. ADN répété 1.1 ADN répété non codant 1.1.2 ADN répétés dispersé: LINE (rétro transposons) Long éléments dispersés. Existent trois familles: LINE 1, LINE 2, LINE 3. les LINE humains sont essentiellement représentés par les éléments L1 ou LINE 1. La L1 est constituée d’environ 60 000 a 100 000 répétitions dispersées, parmi elles, de nombreux membres sont activement transposable. 1. ADN répété 1.1 ADN répété non codant 1.1.2 ADN répétés dispersé: Se sont des séquences répétées dispersées représentées par: rétrovirus endogènes et éléments de type rétrovirus Virus dont le génome est constitué d'ARN. Sa particularité est de posséder une "transcriptase inverse", enzyme qui permet la transcription de l'ARN viral du génome en molécule d'ADN "complémentaire" (ADNc) capable de s'intégrer à l'ADN de la cellule hôte. Il utilise ensuite la machinerie cellulaire pour se répliquer. Le rétrovirus est utilisé comme vecteur pour le transfert de gène, notamment à visée thérapeutique. © 2001-2009 Futura-Sciences, tous droits réservés MadeInFutura 1. ADN répété 1.1 ADN répété non codant 1.1.2 ADN répétés dispersé: Se sont des séquences répétées dispersées représentées par: transposons à ADN Tous les eucaryotes possèdent dans leur génome des éléments transposables. (exception: rotifères bdelloides – Arkhipova & Meselson, 2000) Découverte des transposons chez le maïs (Barbara McClintock, Nobel 1983 exposé dans les années 50) decouverts 10 ans après chez les bactéries.... les transposons provoquent des instabilités génétiques 1. ADN répété 1.2 ADN répété codant 1.2.1 Mécanisme permettant la répétition de l’ADN codant: La transposition de l’ADN: 2 type d’éléments transposables, transposons, se déplace a l'intérieur du génome par l'intermédiaire d’un ADN (mécanisme de type « couper-coller » ou « copier-coller ») BOE 2111 – SBOE M111 et Rétrotransposons, transportés a l'intérieur du génome par l'intermédiaire d’un ARN. BOE 2111 – SBOE M111 La duplication de gènes en tandem: est souvent le résultat d’un Crossing Over inégal ou d’échanges inégaux entre les chromatides sœurs , les gènes dupliqués peuvent dégénérés en pseudogénes. Cosmology, 2009, Vol 1, In Press Peer Reviewed 1. ADN répété 1.2 ADN répété codant 1.2.2 Les conséquences de la duplication: (in)stabilité de la duplication: elle est du soit a la non transmission du génotype, soit a une délétion d’une des copie s, et soit au maintien des deux copies. Pseudogènes: se sont des copies non fonctionnelle qui s’expriment pas sois parce qu’ils sont non transcrits, soit parce qu’ils sont non traduits (non) divergence des copies: divergence des séquences régulatrices codante ou séquences codantes: 2.ADN non répété L'ADN non répété correspond essentiellement aux gènes qui codent pour des protéines. Comme ces gènes sont parfois apparentés car provenant d'anciennes duplications ils forment des familles qui ont des séquences présentant plus ou moins de ressemblance. V- Les familles multigénique C’est quoi une famille multigénique? C’est un ensemble de gènes qui présentent un fort degré de similarité.(à partir de 20% de ressemblances on peut considérer que cela n'est pas le fruit du hasard) issus d'un gène ancestral. Ainsi les protéines produites par ces gènes auront globalement les mêmes fonctions, c'est par exemple le cas de l’hémoglobine et du CMH. NB: En général, les membres d'une famille multigénique résident sur le même chromosome. 1. Famille des gènes classique rassemblés en clusters: Caractérisée par un degré extrêmement élevé de similitude entre les membres de la même famille , il s’agit de gènes devant êtres transcrit en grand nombre en un temps restreint . Gènes des ARNr 18s, 28s, 8,5s. Gènes des ARNr 5s. Gènes spécifiant, les ARNt. Gènes des histones 2.Famille qui contiens des répétitions variables regroupées: Évolution de la famille de la globine ⇒ Une comparaison entre les séquences de gènes de cette famille multigénique laisse entrevoir l’ordre dans lequel les gènes sont apparus L’évolution des divers gènes de la globine : ⇒ La similitude entre les séquences des acides aminés de la a-globine et de la b-globine corrobore au modèle de duplication et mutation des gènes, c.a.d.: 3. Fonction des génes dupliqués ils peuvent conduire à : Des produits qui sont exprimés de façon prédominante dans certains environnements. Des produits différents. Des à des produits différents qui sont les isoformes tissu-spécifique ou isozymes. Des produits complètement différents après duplication , transposition et mutation. 3.1. Localisation de gènes dupliqués Les membres d’une famille multigénique peuvent êtres soit : -Dispersés sur plusieurs Chromosomes ( tableau 4 ) - Regroupés à un endroit spécifique d’un chromosome ( tableau 5 ) Famille Nombr e de copies caractéristiques -Adolase 5 -PAX -Chaine lourde de la ferritine 9 >15 -Glycéraldéhyde3phosphate deshydrogénase -Actine >18 -Trois gènes fonctionnels et deux pseudogènes répartis sur cinq chromosomes différents. -Au moins huit gènes exprimés. -Un gène fonctionnel connu sur le chromosome 11 ; la plupart sont des pseudogènes rétrotranscrits. -Un gène fonctionnel en 12p ; de nombreux pseudo-gènes rétrotranscrits . -Quatre gènes fonctionnels et de nombreux pseudo-gènes rétrotranscrits. >20 Tableau 4 : Exemple de familles de gènes dispersés Famille Nombre de copies Organisation Localisation chromosomique -Groupe des gènes du complément C. 2 6p21.3 -Groupes de gènes de l’hormone de croissance 5 -Groupe des gènes de l’αglobine 7 -Gènes des histones 100 -Répétition en tandem de 30kb ; les deux sont exprimés. -Regroupés sur 67 Kb ; trois gènes fonctionnels , un gène exprimé de fonction inconnue ; trois pseudogènes. -Regroupés sur 50kb; trois gènes fonctionnels , un exprimé de fonction inconnue , trois pseudogènes. -Regroupement de quelques localisations , notamment groupe sur le chromosome 1p21 17q22.24 16p13.3 1p21 , 6 , 12q. Tableau 5 : Exemple de famille de gènes regroupés 4. Superfamilles de gènes Dans certaines familles , les gènes codent des produits que l’on sait proche sur le plan fonctionnel , mais qui ne présentent qu’une faible homologie de séquence sur de longs fragments , sans acides aminés conservé significatif . Il existe une parenté commune distante au cours de l’évolution ex : • Gènes des immunoglolines. • Gènes HLA. • Gènes des récepteurs T4 et T8. VI- Carte génétique: 1.Définition : •Une carte génétique est un alignement linéaire des gènes sur un chromosome, basé sur les fréquences de recombinaison (carte de liaison) ou sur l’emplacement physique (carte physique ou chromosomique). Les termes de carte factorielle, ou de carte statistique, sont également fréquemment employés comme synonymes de carte génétique. 2. Le concept des cartes génétiques Plus deux gènes sont proches moins ils recombinent. La fréquence de recombinaison entre deux gènes est une ESTIMATION de la distance qui les sépare sur le chromosome sur lequel ils sont localisés. 1 % = 1 cM ~ 1 Mb 10 % = 10 cM ~ 10 Mb 3.Objectif de la carte génétique L'action de cartographier consiste à déterminer les positions relatives des loci (gènes ou séquences d’ADN) sur un chromosome 4. Le marqueur génétique C’est une séquence polymorphe d'ADN aisément détectable, utilisée en cartographie génétique pour « baliser » le génome. Jusqu'en 1980, les marqueurs génétiques étaient uniquement des gènes polymorphes, cartographiés à partir de l'analyse des phénotypes. Les nouvelles biotechnologies (PCR…) permettent une analyse directe du polymorphisme des séquences d'ADN pour dresser une carte génétique. Il existe différentes sortes de marqueurs : STS, RFLP, microsatellites, minisatellites, RAPD, SNP, EST, gènes... 1.↑ Daniel Prat & al, Analyse du génome et gestion des ressources génétiques forestières [lire en ligne [archive]], pp. 73-74, éd. Quae, 2006, 456 p. (ISBN 2738012272).