LE GENOME : Définition, taille et structuration I/ DEFINITION Ensemble du matériel génétique d’un individu ou d’une espèce codé par son ADN ou ARN (virus), contenant toutes les séquences codantes (transcrites en ARN et traduites en protéines) et non codantes (non transcrites en ARN ou transcrites mais non traduites). II/ TAILLE 1°/ Expression de la taille des génomes : Deux unités d’expression, une unité de nombre et une unité de masse. Unité de nombre : L’ADN étant formé de quantités équimolaires de pentose, acide phosphorique et base, sa taille peut être exprimée en nombres de bases ou paires de bases. On utilise alors suivant la taille importante du génome le Kb ou Mb (Mégabases = 10+6 bases Ex : le génome humain possède une taille de 3,2 milliard pb soit 3,2 10+3 Mb, celui de E. coli une taille de 4,2 Mb (On donne la taille de la cellule haploïde). Cette unité (1 Mb) correspond également au centimorgan, utilisé auparavant comme étant la longueur d’un ADN tel que la probabilité de subir un crossing over est de 1% par méïose. Unité de masse : L’unité de masse utilisée est le pg = 10-12 g La relation entre les deux unités est : Nombre de bases = masse en pg x 0,978 10+9 Donc 1 pg = 978 Mb = 1 milliard de pb III/ ETUDE DES GENOMES L’étude des génomes a débuté par la génétique classique et par l’analyse biochimique du support qu’est l’ADN. Les périodes suivantes ont marqué l’évolution de cette discipline : 1953 : Découverte de la structure de l’ADN 1965 : 1ère séquence d’un AN 1968 : Découverte des enzymes de restriction 1977 : Séquence d’une molécule d’ADN 1982 : Création d’une banque de données 1999 : 5,5 millions de séquences réalisées 2001 : 120 000 séquences par semaine soit un chiffre d’environ 15 millions de séquences stockées Des organismes modèles sont l’objet de plusieurs séquençages : Bactérie : E. coli ; champignon : Saccharomyces cerevisiae ; nématode : Caenorhabditis elegans ; insecte : Drosophila melanogaster ; plante : Arabidopsis thaliana et mammifère : Homo sapiens. Le traitement de l’information brute contenue dans une séquence réalisée consiste en une annotation dont l’objectif est de : -Prédire, le contenu en gènes, la position des gènes à l’intérieur d’un génome (le début, la fin, et chez les eucaryotes, les introns et les exons), ainsi que leur organisation (gènes uniques ou en opéron, avec des séquences promotrices, des terminateurs, des sites de fixation ribosomaux (RBS) …). Il s’agit d’une annotation structurale. -Prédire la fonction potentielle de ces gènes (nom probable, fonction probable et interactions probables), on parle d'annotation fonctionnelle. III/ LE GENOME DANS LE MONDE VIVANT Chez les virus, le génome est contenu soit dans une ou plusieurs molécules d'ADN ou d'ARN, à simple ou double brin. Chez les procaryotes (bactéries et archées), le génome est généralement contenu dans une molécule d'ADN circulaire. Peut aussi exister un génome extra chromosomique, contenu dans des plasmides et des épisomes. Chez les eucaryotes, on distingue : - Le génome nucléaire, contenu dans le noyau qui caractérise les eucaryotes. C'est de ce génome dont on parle en général quand on parle du génome d'un eucaryote (animal, plante, champignon, etc.) ; - les génomes non-nucléaires, contenus dans des organites : le génome mitochondrial, contenu dans les mitochondries, chez la quasi-totalité des eucaryotes et le génome chloroplastique, contenu dans les chloroplastes, chez les algues et les plantes supérieures. Chez quelques eucaryotes tels que la levure des plasmides de taille réduite, peuvent également coexister. La taille du génome peut varier de quelques kilo-bases chez les virus à plusieurs centaines de milliers de Mb chez certains eucaryotes. La quantité d'ADN, contrairement à ce qui a été longtemps supposé, n'est pas proportionnelle à la complexité d'un organisme ; ainsi, l'amibe Amoeba dubia, un organisme unicellulaire, a un génome environ 200 fois plus grand que l’homme Homo sapiens. Ce constat est fréquemment appelé paradoxe de la valeur C. IV/ VARIABILITE 1°/ Mise en évidence : La taille des génomes eucaryotes est très variable. Ces variations peuvent exister entre deux groupes et au sein du même groupe. 2°/ Causes : Ces variations sont dues à un ensemble de mécanismes conduisant à une augmentation (Amplification des transposons, des séquences répétées, duplication du génome, taille et nombre des introns dans les cellules eucaryotes) ou une réduction de la taille du génome (perte d’ADN, transfert de gènes parasite-hôte). 3°/ Exemples de séquences répétitives : On distingue deux grands types de séquences hautement répétitives : - ADN Satellite : ADN de séquence simple qui contient des séries répétées en tandem de 5 à 200nt (ex : ACAAACT chez la drosophile). Ces séquences sont séparées par ultracentrifugation différentielle car elles diffèrent dans la pp de AT et CG plus denses. Cet ADN est appelé satellite en raison des bandes secondaires obtenues de part et d’autre de la bande principale. Ces séquences existent en millions d’exemplaires et représente 10 à 20% de l’ADN génomique des eucaryotes supérieurs. - SINE et LINE : ce sont d’autres structures non agglomérées en file indienne ou séquences dispersées. *SINE ou Short Interspersed Elements ou petits éléments dispersés : les principales SINE des mammifères sont les séquences Alu appelées ainsi en raison de l’existence d’un site unique de restriction de l’enzyme AluI. Ces séquences ont une taille de 300pb, existent en 1 million d’exemplaires et représente 10% de l’ADN cellulaire total. Bien que ces séquences soient transcrites en ARN, elles ne sont pas traduites en protéines et leur rôle est inconnu. *LINE ou Long Interspersed Elements ou longs éléments dispersés : la majorité de ces séquences comprend 6000 pb, existent en 5000 exemplaires dans le génome. Ces séquences sont transcrites et certains transcrits sont traduits en protéines. Aucun rôle connu n’a été rapporté pour ces séquences nucléotidiques ou protéiques. Les SINE et LINE sont des éléments transposables capables de se déplacer dans le génome. Certaines d’entre elles ont un rôle dans la modulation de l’expression des gènes. Pas de rôle utile important mais effet évolutif en raison de la diversification des génomes. V/ GENOME EXTRANUCLEAIRE Le génome extranucléaire existe chez les organismes eucaryotes : - Génome mitochondrial (mt) chez la quasi-totalité des eucaryotes. - Génome chloroplastique (chl) chez les algues et les plantes supérieures. Ces deux organites sont considérés, suivant la théorie endosymbiotique, comme étant des organismes bactériens qui ont colonisé des cellules hôtes de grande taille. Bactéries endosymbiotiques originelles organites eucaryotiques *Génome mt : le génome mt consiste en un ADN de taille variable refermé sur lui-même et présent en un certain nombre d’exemplaires. Celui de l’homme et de nb animaux ne dépasse pas les 16 kb, les levures ont génome mt d’environ 80 kb, certaines plantes un génome de taille plus importante (200 à 2000 kb) due à l’existence de régions non codantes. Le génome mt de tous les eucaryotes ne code que pour un nombre restreint de protéines intervenant dans le système d’oxydation phosphorylante, d’ARNr et ARNt nécessaires pour la traduction des séquences codant les protéines à l’intérieur même des mt. Le génome mt humain contient : - 13 séquences codant des protéines de la chaîne respiratoire : protomères I, III, IV et V des complexes protéiques. - Séquences codant des ARNr 16S et 12S - Séquences codant 22 ARNt Remarque : Les ribosomes mt des animaux et levures ne possèdent que ces 2 espèces d’ARNr (16S et 12S), les ribosomes bactériens contiennent 3 espèces (23S, 16S et 5S), ceux des plantes possèdent en plus un ARNr de 4,5S (23S, 16S et 5S, 4,5S). L’ADN mt peut subir des mutations transmises à la descendance exclusivement/la mère. *Génome chl : Il ressemble au génome mt de par la structure : molécule fermée, existant en plusieurs exemplaires à l’intérieur de l’organite mais différant par la taille : 120 à 160kb et comprenant environ 120 gènes. Le génome chl code pour : - 4 gènes codant pour l’ARNr 23S, 16S, 5S et 4,5S - 21 gènes codant pour des protéines ribosomiales (1/3 des protéines du ribosome chloroplastique) - 30 gènes codant différents ARNt permettant de lire tous les codons du code universel. - 4 gènes codant quelques protomères de l’ARN polymérase, les autres protomères sont codés par l’ADN nucléaire. - 30 gènes codant les protéines impliquées dans le processus de photosynthèse (photosystème I et II, cytochrome bf et ATP synthétase) et un protomère de la Rubisco ou Ribulose 1,5 biphosphate carboxylase. Cette enzyme est essentielle dans le stroma et prépondérante dans la biosphère.