Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 1
EVOLUTION MOLECULAIRE ET PHYLOGENESE
CHAPITRE III : EVOLUTION MOLECULAIRE ET PHYLOGENESE 2
I PROPRIETE DES GENOMES
A] ETUDE DES GENOMES
Le mot génome est du au botaniste Winkler. La définition actuelle est : ensemble des molécules d’acides nucléiques vecteurs
d’information héréditaire.
De manière générale, le génome correspond à une ou plusieurs molécules d’ADN (ou d’ARN dans de plus rares cas). L’origine
exacte du mot est inconnue (gène + chromosome ?). La génomique est donc une sous-discipline de la génétique, traitant de
clonage et de caractérisation moléculaire du génome complet. Elle est composée de deux grands domaines :
Génomique structurale : caractérisation de la nature physique de génomes entiers.
Génomique fonctionnelle : caractérisation du protéome et des différents modes d’expression des gènes.
Avec les années passant, les progrès en biologie moléculaire et en bioinformatique nous permettent d’avoir de plus en plus
d’informations comme les séquences complètes des génomes d’un grand nombre d’espèces, si bien qu’en 2004 avaient été
séquencés :
19 séquences de génomes d’Archées
165 séquences de génomes d’Eubactéries
30 séquences de génomes d’Eucaryotes
1326 séquences de génomes viraux.
B] TAILLE DU GÉNOME
Déterminer la taille du génome n’est pas chose simple. Le séquençage est long et cher, et on préfèrera estimer la taille en
utilisant la quantité d’ADN présente dans une cellule. Pour cela on a une relation entre la masse du génome haploïde et le
nombre de paires de bases :
    
Avec m la masse, M le poids moléculaire moyen, n le nombre de paires de bases, et N
A
le nombre d’Avogadro. En pratique,
lorsqu’on calcule, on considère qu’un 1 pg d’ADN = 1 Gb.
L’ADN peut être quantifié par densitométrie (coloration de l’ADN, et le colorant est quantifié par quantité de lumière absorbée)
ou fluorométrie (marquage de l’ADN avec des molécules fluorescentes excitées à la bonne longueur d’onde, comme l’iodure de
propidium, et mesure de cette fluorescence).
On définit la valeur C comme étant la taille du génome haploïde d’un organisme, exprimée soit en pg soit en pB. Cette valeur est
constante ou caractéristique au sein d’une espèce, mais varie beaucoup entre grands groupes d’organismes. Certains
organismes, comme les amides, ont des valeurs C non-significative car la diploïdie est supposée mais pas sûre.
On a généralement chez les procaryotes une proportionnalité entre le nombre de gènes et la taille du génome, car la quasi-
totalité de l’ADN est codant chez eux (pas d’épissage, etc.…). Chez les Eucaryotes les valeurs C sont totalement paradoxales :
certains organismes relativement proches ont des valeurs C totalement éloignées, il n’y a aucune corrélation entre taille du
génome et complexité de l’organisme : c’est le paradoxe de la valeur C.
Ce paradoxe est du au fait qu’une partie importante du génome est de l’ADN intergénique, des introns qui varient généralement
en fonction de la taille des nomes. C’est en comprenant l’importance de l’ADN non-codant qu’on a pu résoudre ce paradoxe.
De fait, si on considère qu’une grande partie de l’ADN ne constitue pas un gène, il n’y a pu de paradoxe au niveau du rapport
nombre de gènes/complexité. A noter qu’on conserve une bonne relation entre taille du génome et taille des cellules/noyaux.
Deux théories ont été émises :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 2
- Celle qui insiste sur la nature de l’ADN non-codant, la théorie de l’ADN poubelle ou junk DNA. Elle dit que le génome est
sans cesse sujet à des évènements de duplication, suite auxquels une des deux copies accumule des mutations et
devient un pseudogène. Lorsque les pseudogènes s’accumulent, le cout et le temps nécessaire pour répliquer cet ADN
inutile deviennent trop grands et défavorisent l’organisme.
- Celle de l’ADN égoïste. Elle dit qu’une partie de l’ADN non codant existe et croit uniquement pour son seul bénéfice
(transposons, plasmides). Ces éléments génomiques parasites sont en compétition les uns avec les autres pour avoir
une représentation maximale dans le génome.
Dans ces deux théories il n’y a pas de relation de cause à effet entre la taille du génome et celle des cellules, mais des
mécanismes tendant à augmenter la taille du génome par sélection, avec comme limites le coût et le temps nécessaire pour la
réplication de l’ADN. Ces théories insistent sur un rôle quantitatif de l’ADN dans la cellule (relation cause/effet).
Il y a différentes forces évolutives responsables de la modification de la taille de ces nomes, lesquels peuvent agir dans les
deux sens :
Augmentation de taille (ou maintien)
o Mutations, qui peuvent se multiplier par :
Duplication de génome (polyploïdisation), de chromosomes, ou de segments.
Invasion et prolifération d’éléments transposables
Transfert horizontal d’ADN (conjugaison, transformation, transduction chez les bactéries)
o Sélection qui agira pour :
Maintenir une distance minimale entre les gènes (permettant ainsi une bonne régulation de la
transcription)
Maintenir une taille minimale des introns (permettant un épissage correct et préservant les
séquences régulatrices éventuellement présentes)
Diminution de taille
o Mutations, pouvant causer :
Perte d’ADN due à des délétions de morceaux d’ADN aux rôles essentiels.
Réduction de ploïdies complètes ou partielles (sans effet considérable)
o Sélection, qui agira :
Sur le génome, réduisant le coût et le temps de réplication en diminuant la taille.
Sur la taille des introns, pour réduire le coût et le temps de transcription.
Les délétions ont un rôle essentiel, puisque chez les bactéries par exemple, on aura un génome de petite taille avec très peu
d’ADN non-codant. Pourtant, celui-ci subit beaucoup de transferts horizontaux, qui sont très fréquents chez ce genre
d’organismes et augmentent ainsi la taille des génomes. Il y a donc bien plus de délétions que de duplications afin de pouvoir
conserver un ADN petit et compact.
En conclusion, la taille du génome dépend de l’importance des différentes forces évolutives, qui elles-mêmes sont commandés
par les caractéristiques de l’organisme, son mode de vie, et son environnement. Il n’y a pas de « tendance simple et générale »
dans l’évolution ; nous ne sommes pas dans une évolution du type « petits génomes pour organismes simples grand génomes
pour organismes complexes ».
Mais il existe un cas légèrement plus complexe, celui des parasites, comme les mycoplasmes. La petite taille de leur génome est
due à une sélection misant majoritairement sur la réduction, car comme ils vivent aux dépends d’autres organismes, une grosse
partie du génome devient inutile et n’est plus soumise à une sélection qui va la conserver. On peut aussi imaginer que cette
réduction de taille est due à l’absence, ou la réduction, des mécanismes compensatoires des délétions (c'est-à-dire des
mécanismes permettant de contrer les duplications par transferts horizontaux).
C] STRUCTURE DU GENOME
Le génome des procaryotes et celui des eucaryotes est très différent :
Procaryotes
Une grande molécule d’ADN circulaire (le chromosome), et un nombre variable de petites molécules circulaires (plasmides). Le
génome est riche en gènes avec peu de régions intergéniques. Les gènes codant pour les protéines sont dépourvues d’introns, et
ceux codant pour les ARNt en possèdent mais ce sont des introns autocatalytiques.
Ces gènes peuvent être organisés en opérons (région comprenant une ou plusieurs régions codantes permettant la synthèse de
protéines impliquées dans une me fonction cellulaire). L’ADN non-codant, lui, est représenté par des séquences répétées,
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 3
séquences de tailles et compositions variées survenant plusieurs fois dans le génome, soit dispersées (comme c’est le cas des
éléments transposables e.g. les éléments IS), soit les unes à côté des autres (on dit qu’elles sont « en tandem ») mais aussi par
les régions régulatrices des gènes (i.e. sites de fixation des facteurs de régulation et de transcription).
Eucaryotes
Une ou plusieurs molécules d’ADN linéaire de très grande taille, située(s) dans le noyau, plus un nombre variable de petites
molécules d’ADN circulaires localisées dans les organites, et éventuellement dans le cytoplasme sous forme de plasmides dans le
cas de certains champignons. La majeure partie de cet ADN n’est pas codante et correspond aux introns et aux séquences
répétées (plus de 20 % chez les levures, 60 % chez les mammifères, 80 % chez certaines plantes).
L’ADN eucaryote est très répété, à un point que 5 à 10 % du génome est capable de s’hybrider avec lui-même. Ces séquences
répétées sont, comme chez les procaryotes, soit en tandem, soit dispersées :
Séquences Répétées en Tandem :
o Les satellites : courtes séquences répétées en tandem un très grand nombre de fois. Il peut donc s’auto-
hybrider. On les retrouve au niveau des centromères, des régions télomériques et sur certains
chromosomes qu’ils constituent en grande partie. Ce sont des éléments majeurs de l’hétérochromatine.
o Les minisatellites : aussi appelés VNTR pour variable number tandem repeat, séquences de 15 à 500 paires
de bases, répétées en tandem pour former des groupes de quelques KpB. Ils sont dispersés dans le
génome surtout dans les régions sous-télomériques. Le nombre de répétitions d’un individu à l’autre est
tellement variable que cela permet d’établir des empreintes ADN très utiles en médecine légale.
o Les microsatellites : On les appelle SSR pour Simple Sequence Repeat bien que ce nom désigne parfois
l’ensemble des satellites. Leurs séquences répétées font de 1 à 13 pB.
Séquences Répétées Dispersées que l’on appelle éléments transposables. Ce sont des éléments qui peuvent être
très ou moyennement répétés. On les retrouve dans les deux chromatines, entre les gènes comme sur les introns.
Ces séquences sont capables de se déplacer et se multiplier dans le génome de façon autonome, ce qui implique
qu’elles peuvent coder tout les produits nécessaire à cette fonction. On en retrouve deux classes :
Classe I (Rétrotransposons) : Transposent via un intermédiaire ARN selon un mode réplicatif. L’ARNm produit est
rétrotranscrit et intégré.
Rétrotransposons à LTR (longue séquence terminale répétée) Rétrotransposons sans LTR
LINEs (1 à 7 KpB) SINEs (100 à 500 pB)
Leur LTR contient des séquences régulatrices pour l’initiation
et la terminaison de la transcription. Ils disposent de deux
domaines particuliers se situant avant : le domaine gag qui
code pour des polyprotéines virales (matrice, capside,
nucléocapside), et le domaine pol qui code pour un ensemble
de protéines nécessaires à la transposition : protéases,
intégrases, reverse-transcriptases, RNAses. Certains d’entre
eux ne sont pas autonomes et ne synthétisent pas ces
protéines, ils doivent emprunter celles des autres
rétrotransposons.
Deux ORF, une similaire au
domaine gag des
rétrotransposons à LTR, et
une codant pour les enzymes
de transposition
(endonucléase, RTase,
RNAse). Ils sont transcrits par
la polymérase II.
Pas de séquences codantes
mais 2 boites de consensus
du promoteur reconnu par la
polymérase III. Ils utilisent
donc les enzymes d’autres
rétrotransposons une fois
transcrits par la polymérase
III.
Superfamille Ty1-copia Superfamille Gypsy-Ty3
Séquences d’intégration et de
reverse-transcription
inversées par rapport à
Gypsy-Ty3. Ne dispose pas de
gènes codants pour une
enveloppe.
Séquences d’intégration et de
reverse-transcription
inversées par rapport à Ty1-
copia. Dispose de gènes
codants pour une enveloppe.
Classe II (Transposons) : Transposent via un intermédiaire ADN selon un mode conservatif.
Disposent à leurs extrémités de séquences terminales inversement répétées (TIR) qui encadrent une ou plusieurs ORFs codant
pour des transposases afin d’exciser l’ADN au site donneur et l’intégrer au site receveur. La encore, certains d’entre eux ne sont
pas autonomes et utilisent les transposases des autres transposons.
Ces éléments constituent :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 4
- 45 % du génome humain, mais la majorité est inactive car délétés d’une partie. Tout les Transposons sont inactifs chez
l’homme (3 % du génome uniquement de toute façon, car ils ne se répliquent pas et leur durée de vie est donc courte),
et il y a seulement deux types de rétrotransposons encore actifs. Tout cela reste putatif car il pourrait y en avoir
d’autres dans l’hétérochromatine non-séquencée.
- 9 % du génome de la drosophile (52 % de l’hétérochromatine, 5 % de l’euchromatine) dont les plus fréquents sont les
LTR. Il n’y a pas de SINES. Ces éléments sont encore très actifs et récents en rapport à l’homme.
- 16 % de l’euchromatine et 60 % de l’hétérochromatine du moustique ce qui pourrait expliquer le fait que le génome
soit plus grand. Les rétrotransposons à LTR sont encore une fois les plus fréquents, bien que les SINEs soient cette fois
présents.
Chez la levure on ne retrouve plus que des LTR, alors que chez les organismes qui vivent en parasites (microsporidies,
apicomplexés) il n’y a plus de transposons du tout.
Ces séquences répétées, dans leur ensemble, sont à l’origine de réarrangements chromosomiques. Les éléments transposables
par exemple vont être à l’origine de crossing-over inégaux donc de recombinaisons entre régions non-homologues des
chromosomes. 4 types de réarrangement peuvent être induits :
1. Duplications
2. Inversions
3. Délétions
4. Translocations
Ces éléments transposables codent pour diverses enzymes qui in fine pourront avoir un certain nombre d’effets sur le génome
de l’organisme. De plus par leur mobilité, ils vont être capables de s’insérer à plusieurs endroits du génome (dans des gènes,
contribuant au brassage des exons, ou dans les régions régulatrices). Chez les mammifères, cela a un impact majeur sur
l’évolution, comme les séquences Alu chez les primates qui sont les éléments transposables les plus retrouvés dans le génome
humain (plus d’un million de copies). Ces rétrotransposons de la catégorie des SINEs sont assez récents (correspond à la
radiation évolutive des primates) et issus d’une duplication du gène des ARN 7SL (constituant ARN des signaux SRP).
Les ADN satellites eux présentent une grande instabilité car du fait du nombre de répétitions variables qu’ils possèdent, ils
peuvent provoquer des glissements de polymérases pouvant causer des maladies. Par exemple, une mutation du gène IT15
située sur le locus ip16.3 du chromosome 4 peut causer la chorée de Huntington. Cette mutation est en fait une expansion d’un
microsatellite consistant en une répétition de triplets CAG (glutamines). En temps normal, il nous faut moins de 26 répétitions. Si
un individu en a de 27 à 35 fois, il ne développera pas la maladie mais risque de la transmettre à ses enfants. Entre 36 et 40 fois,
il risque de développer lui-même cette chorée avec une très forte probabilité qui devient une certitude après 41 répétitions. La
forme juvénile de cette maladie dominante se manifeste par un nombre supérieur à 60 répétitions.
II EVOLUTION DES GENOMES
L’épissage est le processus servant à la maturation des ARNnh (ou ARN pré-messagers) en ARNm en supprimant les introns. Ce
processus se fait à l’aide du splicéosome, un complexe de snRNP, mélange de protéines et d’ARNsn.
Il n’y a pas de proportions identiques et homogènes au niveau de la composition des nucléotides dans les génomes eucaryotes
et procaryotes. Par exemple, on n’a pas la même proportion de Weak (A, T) et de Strong (C, G) et on détermine donc la
« composition en C + G » pour chaque espèce. Il y a des biais très important dans cette composition chez certaines espèces, et
c’est la conséquence de l’utilisation différentielle des codons (les différents codons donnant un même acide aminé ne seront pas
utilisés à la même fréquence pour donner cet acide, et la fréquence des différents codons ne sera pas la même dans tout les
génomes).
Les hypothèses concernant le fait que les taux de substituions sont différents et que les taux de G et C soient supérieurs à 50 %
font intervenir un rôle éventuel de la sélection naturelle. La liaison G-C est en effet plus stable que la liaison A-T, le génome sera
donc riche en G-C plus stables, et les acides aminés codés par des codons contenant des G-C seront favorisés. Il y a aussi un lien
avec l’environnement puisque les plupart des bactéries vivant à haute température, et qui devraient donc avoir un taux de G + C
supérieur afin de stabiliser leur protéines, ont effectivement ce taux plus élevé à quelques exceptions près.
La composition en nucléotides des génomes procaryotes est donc déterminée par le taux de substitutions des nucléotides et
par des forces sélectives notamment liées à l’environnement et au mode de vie.
Chez les eucaryotes, c’est différent. Le taux de G + C est beaucoup moins variable, proche des 40 %. Il y a hétérogénéité d’une
région d’un génome à une autre. C’est très important chez certains vertébrés tels que les mammifère ou l’on peut trouver des
isochores, longs fragments d’ADN de composition homogène mais différente des fragments adjacents.
Le génome est donc une mosaïque de fragments d’ADN aux compositions différentes. Il y a 5 classes de fragments chez
l’homme (chez le poulet on en a 6, et chez la souris 4) :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 5
Les L1 et L2, pauvres en GC, environ 63 % du génome
Les H1, H2 et H3, de plus en plus riches en GC, représentant respectivement 24 %, 7.5 %, et 4.7 % du génome.
Les isochores ont donc une composition en G + C homogène ; les variations au sein de ces fragments sont significativement plus
faible que la variation au niveau du génome entier. Pour mesurer ces variations, on dispose de deux méthodes :
Avec fenêtres : on subdivise le génome en fenêtres d’une taille donnée, puis en sous-fenêtres, et on compare ensuite le
taux de G + C entre ces fenêtres et sous-fenêtres et on teste la différence. Cela revient à supposer que le génome
humain n’a pas d’isochore, ce qui est faux.
Sans fenêtres, ce qui est beaucoup plus difficile à faire.
Les isochores ont une importance au niveau évolutif et fonctionnel. Les gènes et séquences répétées ne sont pas répartis
aléatoirement dans les différentes classes d’isochores, on trouve les gènes de manière prédominante et avec des introns de
grandes tailles, dans les régions riches en Strongs, ou les SINEs sont en densité plus importantes (les LINEs sont eux sont plus
importants dans les régions pauvres en Strongs). Il y a donc une certaine architecture, qui a probablement joué un rôle dans
l’évolution des génomes.
Les apparitions d’un nouveau gène ou d’une nouveauté génétique sont généralement dues à des remaniements d’éléments
préexistants : des fragments d’ADN correspondant soit à des gènes, soit à des portions de gènes, soit à des fragments
intergénique. C’est le bricolage moléculaire, théorie de Jacob disant que la cellule est un bricoleur utilisant des éléments dont
elle dispose pour en créer d’autres, sans chercher la meilleure solution possible. Parmi ces évènements de bricolage, on
retrouve :
1. La duplication : à l’origine de nombreuses familles de gènes, elle a largement contribué à la diversification des
eucaryotes. Une copie peut conserver sa fonction alors que l’autre évolue librement, et selon l’importance des
remaniements, on parle de duplication simple ou de duplications complètes du génome (dans le cas d’une
polyploïdisation).
2. Éléments transposables (voir plus haut)
3. Brassage d’exons : insertions ou délétions d’exons entre gènes différents. Ce sont des mécanismes qui permettent de
créer des nouveautés génétiques par association ou réassociation d’éléments préexistants. La rétrotransposition, qui
peut intégrer un rétrotransposon dans un gène, permettra d’avoir des copies non conformes de gènes et donc d’avoir
des nouveautés à court terme.
4. Epissage alternatif (voir Biologie Moléculaire)
5. Transfert horizontal : transfert de matériel génétique entre deux espèces différentes même très éloignées. C’est un
phénomène très présent chez les procaryotes, mais aussi entre les organites et le noyau des eucaryotes.
6. Autres mécanismes : fusion, fission, création de gènes de novo.
III DETECTION DE LA SELECTION AU NIVEAU MOLECULAIRE
La sélection agit sur le phénotype mais laisse sa signature au niveau moléculaire. Par exemple, une mutation conférant un
avantage de fitness peut éliminer toute la variation préexistante. C’est un processus déterministe (prévisible). Les variations de
l’ADN que cause la sélection auront des patterns très différents de ce que d’autres processus, qui eux sont stochastiques,
comme par exemple la dérive, peut causer. Il y a donc des études cherchant à détecter les effets de la sélection au niveau
moléculaire, utilisant des approches différentes des approches phénotypiques, qui ont certains avantages :
Les coefficients de sélections faibles, mais avec un sens biologique, peuvent être impossibles à mesurer directement :
toutefois, ils laissent une empreinte dans les patterns de variation des séquences d’ADN.
Cela donne une image de la sélection sur des échelles de temps évolutives, pas écologiques, et donc qui a eu lieu de
nombreuses générations plus tôt.
Permet de poser des questions sur la sélection sans connaitre l’agent de sélection.
Découverte de gènes associés avec l’évolution de nouveaux traits.
Malgré cela, lorsqu’on détecte une signature, il n’est pas toujours simple de faire le lien avec le phénotype, encore moins avec
l’environnement.
A] THEORIE NEUTRALISTE DE LEVOLUTION
Proposée par Kimura, ainsi que le duo King & Jukes, mais finalement détaillée par Kimura, cette théorie établit que la plupart des
mutations sont délétères, mais que parmi celles qui ne le sont pas, seule une portion négligeable est avantageuse : la grande
majorité sont des mutations neutres au regard du fitness.
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !