Evolution Moléculaire et Phylogénèse 2

publicité
EVOLUTION MOLECULAIRE ET PHYLOGENESE
CHAPITRE III : EVOLUTION MOLECULAIRE ET PHYLOGENESE 2
I – PROPRIETE DES GENOMES
A] ETUDE DES GENOMES
Le mot génome est du au botaniste Winkler. La définition actuelle est : ensemble des molécules d’acides nucléiques vecteurs
d’information héréditaire.
De manière générale, le génome correspond à une ou plusieurs molécules d’ADN (ou d’ARN dans de plus rares cas). L’origine
exacte du mot est inconnue (gène + chromosome ?). La génomique est donc une sous-discipline de la génétique, traitant de
clonage et de caractérisation moléculaire du génome complet. Elle est composée de deux grands domaines :
• Génomique structurale : caractérisation de la nature physique de génomes entiers.
• Génomique fonctionnelle : caractérisation du protéome et des différents modes d’expression des gènes.
Avec les années passant, les progrès en biologie moléculaire et en bioinformatique nous permettent d’avoir de plus en plus
d’informations comme les séquences complètes des génomes d’un grand nombre d’espèces, si bien qu’en 2004 avaient été
séquencés :
19 séquences de génomes d’Archées
165 séquences de génomes d’Eubactéries
30 séquences de génomes d’Eucaryotes
1326 séquences de génomes viraux.
B] TAILLE DU GÉNOME
Déterminer la taille du génome n’est pas chose simple. Le séquençage est long et cher, et on préfèrera estimer la taille en
utilisant la quantité d’ADN présente dans une cellule. Pour cela on a une relation entre la masse du génome haploïde et le
nombre de paires de bases :
∗ =
Avec m la masse, M le poids moléculaire moyen, n le nombre de paires de bases, et NA le nombre d’Avogadro. En pratique,
lorsqu’on calcule, on considère qu’un 1 pg d’ADN = 1 Gb.
L’ADN peut être quantifié par densitométrie (coloration de l’ADN, et le colorant est quantifié par quantité de lumière absorbée)
ou fluorométrie (marquage de l’ADN avec des molécules fluorescentes excitées à la bonne longueur d’onde, comme l’iodure de
propidium, et mesure de cette fluorescence).
On définit la valeur C comme étant la taille du génome haploïde d’un organisme, exprimée soit en pg soit en pB. Cette valeur est
constante ou caractéristique au sein d’une espèce, mais varie beaucoup entre grands groupes d’organismes. Certains
organismes, comme les amides, ont des valeurs C non-significative car la diploïdie est supposée mais pas sûre.
On a généralement chez les procaryotes une proportionnalité entre le nombre de gènes et la taille du génome, car la quasitotalité de l’ADN est codant chez eux (pas d’épissage, etc.…). Chez les Eucaryotes les valeurs C sont totalement paradoxales :
certains organismes relativement proches ont des valeurs C totalement éloignées, il n’y a aucune corrélation entre taille du
génome et complexité de l’organisme : c’est le paradoxe de la valeur C.
Ce paradoxe est du au fait qu’une partie importante du génome est de l’ADN intergénique, des introns qui varient généralement
en fonction de la taille des génomes. C’est en comprenant l’importance de l’ADN non-codant qu’on a pu résoudre ce paradoxe.
De fait, si on considère qu’une grande partie de l’ADN ne constitue pas un gène, il n’y a pu de paradoxe au niveau du rapport
nombre de gènes/complexité. A noter qu’on conserve une bonne relation entre taille du génome et taille des cellules/noyaux.
Deux théories ont été émises :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 1
Celle qui insiste sur la nature de l’ADN non-codant, la théorie de l’ADN poubelle ou junk DNA. Elle dit que le génome est
sans cesse sujet à des évènements de duplication, suite auxquels une des deux copies accumule des mutations et
devient un pseudogène. Lorsque les pseudogènes s’accumulent, le cout et le temps nécessaire pour répliquer cet ADN
inutile deviennent trop grands et défavorisent l’organisme.
- Celle de l’ADN égoïste. Elle dit qu’une partie de l’ADN non codant existe et croit uniquement pour son seul bénéfice
(transposons, plasmides). Ces éléments génomiques parasites sont en compétition les uns avec les autres pour avoir
une représentation maximale dans le génome.
Dans ces deux théories il n’y a pas de relation de cause à effet entre la taille du génome et celle des cellules, mais des
mécanismes tendant à augmenter la taille du génome par sélection, avec comme limites le coût et le temps nécessaire pour la
réplication de l’ADN. Ces théories insistent sur un rôle quantitatif de l’ADN dans la cellule (relation cause/effet).
-
Il y a différentes forces évolutives responsables de la modification de la taille de ces génomes, lesquels peuvent agir dans les
deux sens :
• Augmentation de taille (ou maintien)
o Mutations, qui peuvent se multiplier par :
Duplication de génome (polyploïdisation), de chromosomes, ou de segments.
Invasion et prolifération d’éléments transposables
Transfert horizontal d’ADN (conjugaison, transformation, transduction chez les bactéries)
o Sélection qui agira pour :
Maintenir une distance minimale entre les gènes (permettant ainsi une bonne régulation de la
transcription)
Maintenir une taille minimale des introns (permettant un épissage correct et préservant les
séquences régulatrices éventuellement présentes)
• Diminution de taille
o Mutations, pouvant causer :
Perte d’ADN due à des délétions de morceaux d’ADN aux rôles essentiels.
Réduction de ploïdies complètes ou partielles (sans effet considérable)
o Sélection, qui agira :
Sur le génome, réduisant le coût et le temps de réplication en diminuant la taille.
Sur la taille des introns, pour réduire le coût et le temps de transcription.
Les délétions ont un rôle essentiel, puisque chez les bactéries par exemple, on aura un génome de petite taille avec très peu
d’ADN non-codant. Pourtant, celui-ci subit beaucoup de transferts horizontaux, qui sont très fréquents chez ce genre
d’organismes et augmentent ainsi la taille des génomes. Il y a donc bien plus de délétions que de duplications afin de pouvoir
conserver un ADN petit et compact.
En conclusion, la taille du génome dépend de l’importance des différentes forces évolutives, qui elles-mêmes sont commandés
par les caractéristiques de l’organisme, son mode de vie, et son environnement. Il n’y a pas de « tendance simple et générale »
dans l’évolution ; nous ne sommes pas dans une évolution du type « petits génomes pour organismes simples – grand génomes
pour organismes complexes ».
Mais il existe un cas légèrement plus complexe, celui des parasites, comme les mycoplasmes. La petite taille de leur génome est
due à une sélection misant majoritairement sur la réduction, car comme ils vivent aux dépends d’autres organismes, une grosse
partie du génome devient inutile et n’est plus soumise à une sélection qui va la conserver. On peut aussi imaginer que cette
réduction de taille est due à l’absence, ou la réduction, des mécanismes compensatoires des délétions (c'est-à-dire des
mécanismes permettant de contrer les duplications par transferts horizontaux).
C] STRUCTURE DU GENOME
Le génome des procaryotes et celui des eucaryotes est très différent :
Procaryotes
Une grande molécule d’ADN circulaire (le chromosome), et un nombre variable de petites molécules circulaires (plasmides). Le
génome est riche en gènes avec peu de régions intergéniques. Les gènes codant pour les protéines sont dépourvues d’introns, et
ceux codant pour les ARNt en possèdent mais ce sont des introns autocatalytiques.
Ces gènes peuvent être organisés en opérons (région comprenant une ou plusieurs régions codantes permettant la synthèse de
protéines impliquées dans une même fonction cellulaire). L’ADN non-codant, lui, est représenté par des séquences répétées,
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 2
séquences de tailles et compositions variées survenant plusieurs fois dans le génome, soit dispersées (comme c’est le cas des
éléments transposables e.g. les éléments IS), soit les unes à côté des autres (on dit qu’elles sont « en tandem ») mais aussi par
les régions régulatrices des gènes (i.e. sites de fixation des facteurs de régulation et de transcription).
Eucaryotes
Une ou plusieurs molécules d’ADN linéaire de très grande taille, située(s) dans le noyau, plus un nombre variable de petites
molécules d’ADN circulaires localisées dans les organites, et éventuellement dans le cytoplasme sous forme de plasmides dans le
cas de certains champignons. La majeure partie de cet ADN n’est pas codante et correspond aux introns et aux séquences
répétées (plus de 20 % chez les levures, 60 % chez les mammifères, 80 % chez certaines plantes).
L’ADN eucaryote est très répété, à un point que 5 à 10 % du génome est capable de s’hybrider avec lui-même. Ces séquences
répétées sont, comme chez les procaryotes, soit en tandem, soit dispersées :
Séquences Répétées en Tandem :
o Les satellites : courtes séquences répétées en tandem un très grand nombre de fois. Il peut donc s’autohybrider. On les retrouve au niveau des centromères, des régions télomériques et sur certains
chromosomes qu’ils constituent en grande partie. Ce sont des éléments majeurs de l’hétérochromatine.
o Les minisatellites : aussi appelés VNTR pour variable number tandem repeat, séquences de 15 à 500 paires
de bases, répétées en tandem pour former des groupes de quelques KpB. Ils sont dispersés dans le
génome surtout dans les régions sous-télomériques. Le nombre de répétitions d’un individu à l’autre est
tellement variable que cela permet d’établir des empreintes ADN très utiles en médecine légale.
o Les microsatellites : On les appelle SSR pour Simple Sequence Repeat bien que ce nom désigne parfois
l’ensemble des satellites. Leurs séquences répétées font de 1 à 13 pB.
Séquences Répétées Dispersées que l’on appelle éléments transposables. Ce sont des éléments qui peuvent être
très ou moyennement répétés. On les retrouve dans les deux chromatines, entre les gènes comme sur les introns.
Ces séquences sont capables de se déplacer et se multiplier dans le génome de façon autonome, ce qui implique
qu’elles peuvent coder tout les produits nécessaire à cette fonction. On en retrouve deux classes :
Classe I (Rétrotransposons) : Transposent via un intermédiaire ARN selon un mode réplicatif. L’ARNm produit est
rétrotranscrit et intégré.
Rétrotransposons sans LTR
Rétrotransposons à LTR (longue séquence terminale répétée)
LINEs (1 à 7 KpB)
SINEs (100 à 500 pB)
Leur LTR contient des séquences régulatrices pour l’initiation
et la terminaison de la transcription. Ils disposent de deux
domaines particuliers se situant avant : le domaine gag qui
code pour des polyprotéines virales (matrice, capside,
nucléocapside), et le domaine pol qui code pour un ensemble
de protéines nécessaires à la transposition : protéases,
intégrases, reverse-transcriptases, RNAses. Certains d’entre
eux ne sont pas autonomes et ne synthétisent pas ces
protéines, ils doivent emprunter celles des autres
rétrotransposons.
Deux ORF, une similaire au
domaine gag des
rétrotransposons à LTR, et
une codant pour les enzymes
de transposition
(endonucléase, RTase,
RNAse). Ils sont transcrits par
la polymérase II.
Pas de séquences codantes
mais 2 boites de consensus
du promoteur reconnu par la
polymérase III. Ils utilisent
donc les enzymes d’autres
rétrotransposons une fois
transcrits par la polymérase
III.
Superfamille Ty1-copia
Superfamille Gypsy-Ty3
Séquences d’intégration et de
Séquences d’intégration et de
reverse-transcription
reverse-transcription
inversées par rapport à
inversées par rapport à Ty1Gypsy-Ty3. Ne dispose pas de
copia. Dispose de gènes
gènes codants pour une
codants pour une enveloppe.
enveloppe.
Classe II (Transposons) : Transposent via un intermédiaire ADN selon un mode conservatif.
Disposent à leurs extrémités de séquences terminales inversement répétées (TIR) qui encadrent une ou plusieurs ORFs codant
pour des transposases afin d’exciser l’ADN au site donneur et l’intégrer au site receveur. La encore, certains d’entre eux ne sont
pas autonomes et utilisent les transposases des autres transposons.
Ces éléments constituent :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 3
45 % du génome humain, mais la majorité est inactive car délétés d’une partie. Tout les Transposons sont inactifs chez
l’homme (3 % du génome uniquement de toute façon, car ils ne se répliquent pas et leur durée de vie est donc courte),
et il y a seulement deux types de rétrotransposons encore actifs. Tout cela reste putatif car il pourrait y en avoir
d’autres dans l’hétérochromatine non-séquencée.
- 9 % du génome de la drosophile (52 % de l’hétérochromatine, 5 % de l’euchromatine) dont les plus fréquents sont les
LTR. Il n’y a pas de SINES. Ces éléments sont encore très actifs et récents en rapport à l’homme.
- 16 % de l’euchromatine et 60 % de l’hétérochromatine du moustique ce qui pourrait expliquer le fait que le génome
soit plus grand. Les rétrotransposons à LTR sont encore une fois les plus fréquents, bien que les SINEs soient cette fois
présents.
Chez la levure on ne retrouve plus que des LTR, alors que chez les organismes qui vivent en parasites (microsporidies,
apicomplexés) il n’y a plus de transposons du tout.
-
Ces séquences répétées, dans leur ensemble, sont à l’origine de réarrangements chromosomiques. Les éléments transposables
par exemple vont être à l’origine de crossing-over inégaux donc de recombinaisons entre régions non-homologues des
chromosomes. 4 types de réarrangement peuvent être induits :
1. Duplications
2. Inversions
3. Délétions
4. Translocations
Ces éléments transposables codent pour diverses enzymes qui in fine pourront avoir un certain nombre d’effets sur le génome
de l’organisme. De plus par leur mobilité, ils vont être capables de s’insérer à plusieurs endroits du génome (dans des gènes,
contribuant au brassage des exons, ou dans les régions régulatrices). Chez les mammifères, cela a un impact majeur sur
l’évolution, comme les séquences Alu chez les primates qui sont les éléments transposables les plus retrouvés dans le génome
humain (plus d’un million de copies). Ces rétrotransposons de la catégorie des SINEs sont assez récents (correspond à la
radiation évolutive des primates) et issus d’une duplication du gène des ARN 7SL (constituant ARN des signaux SRP).
Les ADN satellites eux présentent une grande instabilité car du fait du nombre de répétitions variables qu’ils possèdent, ils
peuvent provoquer des glissements de polymérases pouvant causer des maladies. Par exemple, une mutation du gène IT15
située sur le locus ip16.3 du chromosome 4 peut causer la chorée de Huntington. Cette mutation est en fait une expansion d’un
microsatellite consistant en une répétition de triplets CAG (glutamines). En temps normal, il nous faut moins de 26 répétitions. Si
un individu en a de 27 à 35 fois, il ne développera pas la maladie mais risque de la transmettre à ses enfants. Entre 36 et 40 fois,
il risque de développer lui-même cette chorée avec une très forte probabilité qui devient une certitude après 41 répétitions. La
forme juvénile de cette maladie dominante se manifeste par un nombre supérieur à 60 répétitions.
II – EVOLUTION DES GENOMES
L’épissage est le processus servant à la maturation des ARNnh (ou ARN pré-messagers) en ARNm en supprimant les introns. Ce
processus se fait à l’aide du splicéosome, un complexe de snRNP, mélange de protéines et d’ARNsn.
Il n’y a pas de proportions identiques et homogènes au niveau de la composition des nucléotides dans les génomes eucaryotes
et procaryotes. Par exemple, on n’a pas la même proportion de Weak (A, T) et de Strong (C, G) et on détermine donc la
« composition en C + G » pour chaque espèce. Il y a des biais très important dans cette composition chez certaines espèces, et
c’est la conséquence de l’utilisation différentielle des codons (les différents codons donnant un même acide aminé ne seront pas
utilisés à la même fréquence pour donner cet acide, et la fréquence des différents codons ne sera pas la même dans tout les
génomes).
Les hypothèses concernant le fait que les taux de substituions sont différents et que les taux de G et C soient supérieurs à 50 %
font intervenir un rôle éventuel de la sélection naturelle. La liaison G-C est en effet plus stable que la liaison A-T, le génome sera
donc riche en G-C plus stables, et les acides aminés codés par des codons contenant des G-C seront favorisés. Il y a aussi un lien
avec l’environnement puisque les plupart des bactéries vivant à haute température, et qui devraient donc avoir un taux de G + C
supérieur afin de stabiliser leur protéines, ont effectivement ce taux plus élevé à quelques exceptions près.
La composition en nucléotides des génomes procaryotes est donc déterminée par le taux de substitutions des nucléotides et
par des forces sélectives notamment liées à l’environnement et au mode de vie.
Chez les eucaryotes, c’est différent. Le taux de G + C est beaucoup moins variable, proche des 40 %. Il y a hétérogénéité d’une
région d’un génome à une autre. C’est très important chez certains vertébrés tels que les mammifère ou l’on peut trouver des
isochores, longs fragments d’ADN de composition homogène mais différente des fragments adjacents.
Le génome est donc une mosaïque de fragments d’ADN aux compositions différentes. Il y a 5 classes de fragments chez
l’homme (chez le poulet on en a 6, et chez la souris 4) :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 4
•
•
Les L1 et L2, pauvres en GC, environ 63 % du génome
Les H1, H2 et H3, de plus en plus riches en GC, représentant respectivement 24 %, 7.5 %, et 4.7 % du génome.
Les isochores ont donc une composition en G + C homogène ; les variations au sein de ces fragments sont significativement plus
faible que la variation au niveau du génome entier. Pour mesurer ces variations, on dispose de deux méthodes :
Avec fenêtres : on subdivise le génome en fenêtres d’une taille donnée, puis en sous-fenêtres, et on compare ensuite le
taux de G + C entre ces fenêtres et sous-fenêtres et on teste la différence. Cela revient à supposer que le génome
humain n’a pas d’isochore, ce qui est faux.
Sans fenêtres, ce qui est beaucoup plus difficile à faire.
Les isochores ont une importance au niveau évolutif et fonctionnel. Les gènes et séquences répétées ne sont pas répartis
aléatoirement dans les différentes classes d’isochores, on trouve les gènes de manière prédominante et avec des introns de
grandes tailles, dans les régions riches en Strongs, ou les SINEs sont en densité plus importantes (les LINEs sont eux sont plus
importants dans les régions pauvres en Strongs). Il y a donc une certaine architecture, qui a probablement joué un rôle dans
l’évolution des génomes.
Les apparitions d’un nouveau gène ou d’une nouveauté génétique sont généralement dues à des remaniements d’éléments
préexistants : des fragments d’ADN correspondant soit à des gènes, soit à des portions de gènes, soit à des fragments
intergénique. C’est le bricolage moléculaire, théorie de Jacob disant que la cellule est un bricoleur utilisant des éléments dont
elle dispose pour en créer d’autres, sans chercher la meilleure solution possible. Parmi ces évènements de bricolage, on
retrouve :
1. La duplication : à l’origine de nombreuses familles de gènes, elle a largement contribué à la diversification des
eucaryotes. Une copie peut conserver sa fonction alors que l’autre évolue librement, et selon l’importance des
remaniements, on parle de duplication simple ou de duplications complètes du génome (dans le cas d’une
polyploïdisation).
2. Éléments transposables (voir plus haut)
3. Brassage d’exons : insertions ou délétions d’exons entre gènes différents. Ce sont des mécanismes qui permettent de
créer des nouveautés génétiques par association ou réassociation d’éléments préexistants. La rétrotransposition, qui
peut intégrer un rétrotransposon dans un gène, permettra d’avoir des copies non conformes de gènes et donc d’avoir
des nouveautés à court terme.
4. Epissage alternatif (voir Biologie Moléculaire)
5. Transfert horizontal : transfert de matériel génétique entre deux espèces différentes même très éloignées. C’est un
phénomène très présent chez les procaryotes, mais aussi entre les organites et le noyau des eucaryotes.
6. Autres mécanismes : fusion, fission, création de gènes de novo.
III – DETECTION DE LA SELECTION AU NIVEAU MOLECULAIRE
La sélection agit sur le phénotype mais laisse sa signature au niveau moléculaire. Par exemple, une mutation conférant un
avantage de fitness peut éliminer toute la variation préexistante. C’est un processus déterministe (prévisible). Les variations de
l’ADN que cause la sélection auront des patterns très différents de ce que d’autres processus, qui eux sont stochastiques,
comme par exemple la dérive, peut causer. Il y a donc des études cherchant à détecter les effets de la sélection au niveau
moléculaire, utilisant des approches différentes des approches phénotypiques, qui ont certains avantages :
• Les coefficients de sélections faibles, mais avec un sens biologique, peuvent être impossibles à mesurer directement :
toutefois, ils laissent une empreinte dans les patterns de variation des séquences d’ADN.
• Cela donne une image de la sélection sur des échelles de temps évolutives, pas écologiques, et donc qui a eu lieu de
nombreuses générations plus tôt.
• Permet de poser des questions sur la sélection sans connaitre l’agent de sélection.
• Découverte de gènes associés avec l’évolution de nouveaux traits.
Malgré cela, lorsqu’on détecte une signature, il n’est pas toujours simple de faire le lien avec le phénotype, encore moins avec
l’environnement.
A] THEORIE NEUTRALISTE DE L’EVOLUTION
Proposée par Kimura, ainsi que le duo King & Jukes, mais finalement détaillée par Kimura, cette théorie établit que la plupart des
mutations sont délétères, mais que parmi celles qui ne le sont pas, seule une portion négligeable est avantageuse : la grande
majorité sont des mutations neutres au regard du fitness.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 5
La nature de cette mutation dépend de la place de celle-ci dans la séquence. Elle pourra être neutre si on tombe dans du
génome non-codant, ou sur le troisième nucléotide du codon. Le destin de ces mutations neutres est alors gouverné par la
dérive génétique.
Il existe une théorie mathématique simple, servant de modèle nul, dans les tests statistiques. Ces tests sont basés sur l’un des
trois modèles mutationnels :
Le modèle de l’allèle infini, dans laquelle chaque nouvelle mutation produit un nouvel allèle dans une population.
Le modèle en site infini, qui considère que chaque nouvelle mutation se produit à un site qui n’a pas déjà muté. Utilisé
pour modéliser l’évolution des séquences.
Le modèle en pas japonais, dans lequel on pose l’hypothèse que les mutations arrivent pas à pas, et que les allèles
mutent uniquement vers des états voisins (AGAGAGAGAGAG donne AGAGAGAG). Ce modèle a été développé pour les
données allozymiques, mais maintenant, on l’utilise pour les loci microsatellites.
On peut faire deux prédictions clés :
1. Lorsqu’on a un modèle neutre, la quantité de variation qui entre dans une population est en équilibre avec la quantité
de variation qui est perdue ou fixée par dérive génétique. Sous le modèle en site infini par exemple, à l’équilibre
mutation/dérive, l’hétérozygotie attendue est = 4 ∗ ∗ µ, avec Ne la taille effective de la population et µ le taux de
mutation. Le taux d’évolution (ou de fixation) ν, qui correspond au nombre de nouvelles mutations qui entrent dans
une population à chaque génération, peut donc se calculer en multipliant 2Nµ par la probabilité de fixation d’une
nouvelle mutation. On obtient donc = 2 ∗ µ ∗ soit ν = µ, ne dépendant pas de la taille de la population au final.
La quantité de divergence entre les copies orthologues d’un gène dépend seulement du taux de mutation et de la quantité de
è
temps séparant les copies. Ainsi, la théorie neutraliste prévoit que le ratio
va être le même pour deux
!"#$% $&"'()è%
gènes, car les deux dépendent du taux de mutation.
2. A l’équilibre mutation/dérive, H0 peut être spécifiée pour n’importe quel modèle mutationnel. Même si des allèles
entrent (par mutation) et sortent (par fixation et perte), on peut déterminer une distribution attendue des fréquences
alléliques à partir de H0 et de la taille de l’échantillon : c’est la distribution neutre. Elle contient de nombreux allèles à
faible fréquence et un petit nombre d’allèles à plus forte fréquence.
En observant la distribution de fréquences d’allèles RFLP sur deux populations humaines, on pourra par exemple s’apercevoir
sur la population 1 que l’allèle observé le plus fréquent l’est bien plus que ce qu’on attendrait sous l’hypothèse neutraliste, et il y
a beaucoup moins d’allèles à fréquences intermédiaires. Il y a donc un écart significatif entre les distributions observées et
attendues. L’hypothèse neutraliste est rejetée. Avec la population 2, les deux distributions sont en accord, et l’on considèrera
alors que l’hypothèse neutraliste peut être acceptée sur celle-ci.
B] MODELE DE SELECTION
La sélection agit, au niveau moléculaire, avec selon le cas :
Fixation des allèles (sélection positive ou directionnelle). Survient lorsque des individus ont une fitness plus grande,
donc sont favorisés. Par exemple, lorsque l’on a pulvérisé du DDT sur les moustiques pour enrayer la malaria et le virus
du Nil, les moustiques avec une forte résistance à ce pesticide vont être favorisés. On sera alors en excès d’allèles à
faible fréquence (et le sélectionné sera majoritaire).
Elimination des allèles (sélection négative ou purifiante). Elle permet d’éliminer progressivement les mutations
défavorables pour les individus de la population. On sera alors en excès d’allèles à faible fréquence.
Maintient de deux ou plusieurs allèles dans une population (sélection balancée). C’est un cas ou les deux allèles sont
nécessaires dans la population, car l’environnement exige des espèces très adaptées. Les allèles seront donc conservés
pendant une plus grande période. On sera alors en excès d’allèles à fréquences intermédiaires.
Les sites liés sont très importants. En effet, leur histoire évolutive est corrélée à celle des sites soumis à sélection : la sélection
peut influence des gènes proches de ceux qui sont ciblés. Il est donc possible de trouver des preuves de sélection dans un
génome même si la cible de cette sélection est inconnue. Elle peut être à une distance génomique considérable.
L’auto-stop génétique fait référence à la fixation adaptative d’un mutant avantageux et des variations liées neutres. Après la
sélection, la variation au gène sous sélection et aux gènes liés qui ont été entrainés sera réduite ou éliminée. La force de cet
effet (quantité de réduction après sélection) dépendra donc de la force de la sélection, et du taux de recombinaison dans la
région donnée. La sélection d’arrière-plan ou de background, est la suppression de mutations délétères par sélection et
l’enlèvement des variant neutres liés à cette sélection. Ce processus réduit donc également la variation génétique, comme
l’auto-stop, particulièrement dans les régions de faibles recombinaisons ou l’auto-stop est faible. Ceci pourrait donc constituer
une hypothèse expliquant la corrélation qu’on observe entre diversité nucléotidique et taux de recombinaison.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 6
C] TESTS STATISTIQUES DU MODELE NEUTRE
Le modèle neutre standard est un modèle avec :
• Variation génétique supposée sélectivement neutre
• Populations panmictiques
• Populations de taille constante
• L’équilibre mutation/dérive
Les mutations ponctuelles dans les séquences d’ADN sont typiquement modélisées en utilisant les modèles en sites infinis.
De nombreux tests statistiques vont renvoyer un résultat significatif s’il y a des changements dans la taille des populations
même en absence de sélection ; la déviation de ces hypothèses peut donc conduire au rejet de l’hypothèse nulle.
Les études moléculaires de sélection auront comme but important de distinguer les effets des processus non-démographiques
(migration, non-random mating, croissance des populations, bottlenecks) de la sélection. Pour cela, on compare les patterns de
variation à de multiples loci. En général, la sélection affecte seulement des gènes spécifiques, alors que les processus de
population vont affecter tout les loci dans le génome.
Les différents tests diffèrent énormément dans leur pouvoir de détecter justement des événements qui ne sont pas neutres.
Certains sont plus efficace dans la détection de sélection plus récente, alors que d’autres le seront plus pour la sélection plus
ancienne.
1.
Tests basés sur la distribution des fréquences alléliques
Le premier test de ce genre, basé sur le modèle en allèle infini, prenait en compte les séquences d’ADN au niveau des
populations, sur plusieurs années. Il compare le nombre observé d’allèles, no, et l’hétérozygotie observée dans un échantillon :
• En cas d’excès d’hétérozygotie, étant donné le nombre observé d’allèles à un locus, on est dans un cas de sélection
balancée, ou une contraction de la population.
• En cas de déficit d’hétérozygotie, il y a sélection positive, une expansion de la population, ou de faibles fréquences
d’allèles délétères.
Le test par excellence de ce type, mais basé sur le modèle en sites infinis, est le D de Tajima. Il compare le nombre observé de
sites polymorphes (corrigés pour la taille de l’échantillon), θW, avec l’hétérozygotie nucléotidique observée dans l’échantillon
(θπ). Ces deux valeurs sont des estimateurs du paramètre de mutation neutre 4Neµ. A l’équilibre, on a donc θW = θπ = 4Neµ. La
statistique D est définie par la différence entre ces estimateurs :
+, − +.
*=
/01(*)
Elle prend une valeur positive quand +. > +, et on a alors excès de polymorphisme à fréquences intermédiaires (sélection
balancée ou contraction de la population, auquel cas on a perte des allèles rares. Elle prend une valeur négative dans le cas
contraire, où on a un excès de polymorphisme à faibles fréquences, indicateur de sélection positive directionnelle (étant donné
qu’après épisode sélectif la variation est éliminée et on a de nouvelles mutations qui arrivent à faibles fréquences). Cela peut
aussi indiquer la présence d’allèles légèrement délétères, qui restent à faibles fréquences à cause de la sélection contre eux, ou
avec une récente expansion de population car les allèles rares sont maintenus dans ces cas là.
Pour avoir une puissance raisonnable, il faut de larges échantillons. Mais même avec ça, la capacité à détecter la sélection ou les
changements de taille de population est restreinte à une fenêtre de temps très étroite après l’événement de sélection.
Lorsqu’arrive les mutations, les tests ont un pouvoir dès qu’une distribution neutre est atteinte. On utilise ces tests pour
détecter à la fois la sélection positive directionnelle et la sélection balancée. Dans la plupart des cas, les explications
démographiques peuvent être exclues seulement si on montre que la distribution des fréquences alléliques aux autres loci est
distincte.
2.
Tests basés sur le polymorphisme intra-spécifique et la divergence interspécifique
Ces tests utilisent des données de la variation à l’intérieur et entre les espèces. On s’attend à ce que le ratio de polymorphisme
en rapport à la divergence soit le même pour les différentes gènes, s’il y a neutralité, et ce même si le montant réel de variation
est différent entre les gènes. Par exemple :
Les histones sont très conservées et ont un taux de mutations neutre qui est donc faible.
La plupart de l’ADN intergénique lui, est généralement non conservé et dispose donc d’un taux de mutation neutre
supérieur.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 7
Les séquences de codage d’histones montent donc moins de variabilité que celles de l’ADN intergénique, à la fois à l’intérieur et
entre les espèces. Toutefois, le ratio polymorphisme/divergence devrait être le même pour les deux loci.
La première formulation de ça sous forme de test, par Hudson et al, est le test HKA. Celui-ci incorpore n’importe quel nombre de
loci, et utilise les données de polymorphisme d’une ou deux espèces, et les données de divergences à partir de comparaisons
interspécifique. Il calcule les valeurs attendues de polymorphisme et de divergence en utilisant les estimateurs des moindres
carrés, et les compare aux valeurs observées, afin de générer une statistique de test distribuée approximativement selon un Χ².
On suppose que ces loci sont indépendant, mais le test est conservatif s’ils sont liés.
En comparant de nombreux loci, le test HKA est capable de démêler la sélection spécifique au locus, des effets au niveau des
populations. Si une population à traversé une contraction, la variation génétique sera réduite à tout les loci, et le test ne sera
pas significatif. En revanche, si la sélection a une variation réduite juste à un locus, le ratio par rapport à la divergence sera plus
faible à ce locus, et le test sera significatif.
L’hypothèse nulle H0 sera alors : « Ratio Polymorphisme / divergence est identique pour différents gènes ». Le rejet de cette
hypothèse sera donc du :
• Soit à un polymorphisme élevé ou réduit
• Soit à une divergence élevée ou réduit
Mais la sélection aux loci liés affectera les niveaux de polymorphisme sans affecter les niveaux de divergence, donc le rejet de H0
dans le test HKA peut être du non pas à la sélection aux sites étudiés, mais à celle aux sites liés, potentiellement à une distance
considérable du locus étudié.
Un autre test de ce type est le test MK, qui compare le nombre de mutations synonymes et non-synonymes, à l’intérieur et
entre les espèces. Sous l’hypothèse de neutralité, ce test, en suivant la même logique que le précédent, indique que le ratio est
identique pour les mutations synonymes et non synonymes. Les déviations peuvent être testées avec un test d’indépendance
(test exact de Fischer, test du Χ²).
Sur ce test, le rejet de H0 peut donc être du à :
• Un excès ou déficit des comptages dans les polymorphismes synonymes
• Un excès ou déficit des comptages dans les polymorphismes non-synonymes
• Un excès ou déficit des comptages dans les divergences synonymes
• Un excès ou déficit des comptages dans les divergences non-synonymes
En pratique, on suppose souvent que les mutations silencieuses sont neutres et que donc le rejet de l’hypothèse reflète la
sélection sur les mutations non-synonymes.
Les différences majeures entre ces deux tests sont :
HKA compare deux loci qui recombinent librement l’un par rapport à l’autre, alors que MK compare deux classes de
sites intercalés.
Les loci comparés en HKA ont des histoires évolutives indépendantes, et peuvent avoir des généalogies génétiques plus
courtes ou plus longues, donc plus ou moins de polymorphisme du fait du hasard. Les classes comparées dans MK
partagent la même généalogie génétique du fait qu’elles sont intercalées.
HKA aura deux sources de variance (variance d’échantillonnage, variance évolutive) et MK une seule (variance
d’échantillonnage)
La sélection aux sites liés doit être considéré en HKA, pas en MK (du à l’intercalement). Un rejet du MK implique que les
sites étudiés sont eux-mêmes la cible de la sélection.
Les tests sont donc complémentaires : le HKA peut détecter la sélection à une distance mais typiquement ne donne pas
d’informations directe sur les gènes sous sélection. Le MK ne détecte pas la sélection à une distance mais donnera l’information
sur les gènes spécifiques sous sélection
3.
Tests basés sur la différenciation entre populations
Un test de ce type est le test Fst, utilisé pour tester l’action de la sélection. Le flux de gènes entre populations génère une valeur
moyenne de différenciation pour la plupart des loci. Le reste des loci constituent donc des exceptions, qui, en principe, devraient
être dues à :
• L’adaptation locale (différenciation à des niveaux inhabituellement hauts à certains loci)
• La sélection balancée qui agirait similairement dans différentes population, donnant des niveaux de différenciation en
dessous de la moyenne à certains loci
Une autre approche serait de regarder des niveaux d’hétérozygotie pour différents loci dans différentes populations.
4.
Tests basés sur le déséquilibre de liaison
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 8
Le déséquilibre de liaison est l’association non-aléatoire des allèles à différents gènes. La sélection positive directionnelle
diminue la variation génétique mais peut aussi conduite à une augmentation du DL, spécialement si l’allèle sélectionné n’a pas
été fixé. Cette idée a permit la création de tests cherchant les excès de DL, qui sont susceptibles d’être plus sensibles à
l’identification d’allèles récemment sélectionnés, car les balayages sélectifs vont éliminer la variation.
5.
Tests basés sur les taux de fixation et les patrons d’évolution moléculaire
Contrairement aux autres types de tests, ces tests sont basés sur des patrons entre espèces, et ne nécessitent pas des données
sur la variation génétique à l’intérieur de celles-ci. Ils peuvent ainsi détecter la sélection qui a eu lieu dans un passé plus ancien.
Ils sont basés sur la partition des séquences d’ADN en sites dans lesquels les mutations ne sont pas synonymes et en sites dans
lesquelles elles le sont. Pour un gène donné, on compte alors le nombre de sites synonymes et non-synonymes. Les séquences
sont ensuite alignées et les nombres observés de mutations synonymes ou pas sont comptés.
Si aucune sélection n’opère, les nombres observés de mutations synonymes et non-synonymes devraient être proportionnel au
nombre de sites synonymes et non-synonymes. Le ratio de substitutions non-synonymes par site non-synonymes, Ka (ou dN),
sur les substitutions synonymes par site synonymes, Ks (ou dS), devrait être de 1.
S’il y a sélection négative purifiante, ce ratio Ka/Ks sera inférieur à un. A l’inverse, sous sélection positive, il sera supérieur à un.
Pour de nombreux gènes, dans les comparaisons interspécifiques, il est de l’ordre de 0.1 et ou 0.2 reflétant le fait que la plupart
des gènes sont sous contrainte sélective. Pour être supérieur à un, la sélection doit être forte.
Les études évolutives de ces 20 dernières années montrent que beaucoup de gènes sous sélection positive sont soit impliqués
dans l’immunité, soit impliqués dans la reproduction. C’est probablement une conséquence du fait que ces deux classes de
gènes sont impliquées dans des processus coévolutifs dans lesquels les pressions de sélection changent constamment.
D] GENOMIQUE ET SELECTION
Le séquençage des génomes, désormais achevé sur de nombreux organismes, rend de plus en plus possible l’accomplissement
de tests de sélection à l’échelle de l’ensemble du génome. Avec suffisamment de marqueurs à une densité suffisante, on devrait
pouvoir identifier la plupart des régions qui ont récemment été sous sélection.
Cette approche a été utilisée avec les tests basés sur le DL, la distribution des fréquences, les patterns de différentiation, les
niveaux d’hétérozygoties et les patrons d’évolution interspécifiques. Elle implique de faire des études sur des milliers de loci et
ainsi des milliers de tests. Sur 1000 tests, on s’attendra à ce que 50 d’entre eux au moins soit significatif sous le modèle nul.
Séparer ces faux positifs d’une réelle signature de sélection va devoir faire appel à une des deux approches suivantes :
• Utilisation d’une valeur P très conservatrice, minimisant la vraisemblance que les résultats tests avec de faibles
probabilités vont être dus à la chance
• Identifier les outliers dans la distribution observée et traiter ceux-ci comme des candidats pour des gènes sous
sélection.
Certains ont alors cherchés des preuves de confirmation qu’un locus particulier pouvait être sous sélection en regardant les
marqueurs adjacents, bien que cela néglige le fait que les loci liés aient des histoires évolutives corrélées, même sous modèle
nul. Une approche pour confirmer cela est d’utiliser différents tests qui dépendent tous de données indépendantes. Par
exemple, si un locus montre un Ka/Ks très élevé entre espèces et une variation significativement réduite à l’intérieur de celles-ci
dans un test HKA, nous avons plus de confiance en le résultat.
Cependant, une considération sur la sélection est une hypothèse de fonction : la meilleure preuve qu’un gène est sous sélection
vient des études fonctionnelles dans lesquelles les variants alléliques sont montrés comme étant associés à des différences
fonctionnelles qui affectent la fitness.
IV – EXEMPLES
Variabilité nucléotidique du gène de l’acétyl-coA carboxylase et signature de sélection par un herbicide chez la plante
de vulpin des champs (« black-grass »)
La grande majorité des mutations qui apparaissent dans la nature sont des mutations neutres ou délétères. Leur fréquence
dépend principalement des phénomènes de dérive génétique. Peu d’étude ont démontré l’existence d’une sélection positive à
l’échelle locale ; généralement, les pressions de sélection qui sont étudiées sont anciennes, d’où la difficulté à repérer leur
influence au niveau moléculaire.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 9
Dans les champs cultivés, l’adjonction d’herbicides constituent une pression de sélection puissante, récente et ciblée sur
quelques gènes. Les populations de mauvaises herbes sont donc d’excellents candidats pour tenter de repérer la signature
moléculaire d’évènements de sélection récents.
Le système étudié est le suivant :
• Plante : vulpin des champs, une plante adventice (étrangère au milieu ou elle a été introduite et qu’elle a envahi) des
champs de céréales du nord-ouest européen. Elle est allogame et annuelle.
• Gène : gène codant pour l’Acétyl-coA carboxylase, une enzyme nucléaire à plusieurs domaines (biotine carboxylase,
biotine-carboxyl carrier, carboxyl transferase) de 250 kDa
• Herbicide : ciblant l’Acétyl-coA carboxylase, en se liant au domaine C-Term provoquant la mort de l’individu. Il est
utilisé massivement depuis les années 1980. Récemment, des allèles conférant une résistance à cet herbicide sont
apparus.
L’objectif de l’étude était de détecter au niveau de la séquence du gène la signature de la sélection. Pour cela, l’étude a porté
sur 18 populations de vulpin, sous 4 aspects différents :
- Etude du polymorphisme (diversité nucléotidique, présence ou non de biais de codons, ici il n’y en a pas, ratio Ka/Ks qui
ici et négatif). Le domaine C-Term est très conservé entre les espèces et au sein du vulpin. Les substitutions dans ce
domaine sont pour la majorité connues pour conférer la résistance à l’herbicide. C’est une séquence très conservée, ce
qui est cohérent avec l’idée d’une sélection négative en l’absence d’herbicide : les rares mutations sélectionnées sont
celles conférant la résistance à l’herbicide.
Etude de la diversité inter et intra-population via tests fst et mantel. Cette étude se fait sur 8 populations avec au moins
4 individus par population. Le test de fst donne 0.42, une valeur étonnamment haute pour une plante allogame
annuelle. Le test de mantel ne détecte pas de relation entre la différenciation génétique et la distance géographique.
L’étude a donc montré une forte différenciation des populations, de manière contradictoire avec la biologie de la plante. Il y a
donc bien une sélection directionnelle ou locale qui pourrait s’expliquer par :
o Un déséquilibre de liaison entre le gène étudié et un autre gène
o Le fait que le gène en question est lui-même soumis à une sélection directionnelle et/ou locale qui agirait sur
les mutations conférant la résistance.
-
Tests d’écart à la neutralité sélective et à l’équilibre démographique (D de Tajima, H de Fay & Wu, Déséquilibre de
liaison)
+. − +4
*=
5/01(+. − +4 )
Si D est négatif, il y a un excès de mutations rares par rapport à un modèle d’évolution neutre et d’équilibre démographique – il
y a sélection directionnelle ou expansion de population. Si D est positif, il y a sélection divergente.
+. − +6
=
5/01(+. − +6 )
θH étant un estimateur de la diversité nucléotidique basé sur la fréquence des allèles dérivés. Si H est très négatif, il y a excès
d’allèles dérivés suite à la sélection directionnelle avec effet d’entrainement. Si D est proche de 0 ou négatif, cela signifie
sélection directionnelle avec autostop ou expansion démographique. C’est le cas ici.
En plus de ça, un déséquilibre de détection a été détecté sur 284 paires sur 2145 ce qui est significatif sur le test de Fischer.
-
Etude de relations phylogénétiques entre les haplotypes par la stratégie du minimum spanning network qu’on réalise
avec les 38 haplotypes non-recombinants, donc après éliminations des recombinants. On obtient un cluster centré
autour de 3 haplotypes :
o Un cluster regroupant la mutation Lys-to-Arg
o Les 3 regroupant les mutations Ile-to-Leu et Ile-to-Asn.
L’apparition des mutations s’est donc faite de façon indépendante.
-
En conclusion, le gène en question est soumis à une sélection purificatrice en raison de sa fonction vitale pour la plante. Suite à
l’utilisation d’herbicide depuis longtemps, les rares mutations sélectionnées sont celles conférant la résistance. Ces allèles sont
apparus de façon indépendante, soit par mutation, soit par migration.
Cet article à donc mis en évidence pour la première fois une sélection directionnelle récente et en cours. De plus, il semblerait
qu’elle soit à l’échelle locale, du fait que les populations soient très différenciées pour ce gène, en contradiction avec la biologie
de la plante.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 10
Du phénotype au génotype : Tb1 chez le maïs et la couleur du pelage chez la souris
C’est une approche différente : on commence avec un phénotype d’intérêt et ensuite on cartographie et analyse les statistiques
de variations des séquences d’ADN pour identifier les gènes responsable et pour mieux comprendre la nature de la sélection.
La différence majeure entre le mais et son ancêtre sauvage, la téosinte, c’est l’architecture. Grâce à la cartographie et au
clonage, les auteurs ont identifié le gène Tb1 comme le gène qui contrôle cette différence. Le séquençage de ce gène montre
une région 5’ non-transcrite qui ne contient que 3 % de l’hétérozygotie trouvée chez la téosinte, et une région transcrite qui elle
contient 39 % de l’hétérozygotie trouvée chez la téosinte.
Par un test HKA comparant la région non-transcrite 5’ avec d’autres gènes neutres, on voit que le ratio
polymorphisme/divergence à la région 5’ de Tb1 significativement réduit. Cela suggère qu’une mutation bénéfique a été fixée
dans la région de régulation 5’ de Tb1 durant la domestication du maïs. C’est cohérent avec le fait que l’allèle Tb1 du maïs est
exprimé à un niveau plus fort que l’allèle Tb1 de la téosinte. Ce test nous a donc permit de voir que les effets de la sélection sont
limités à une région génomique étroite.
Cette information, utilisée avec des estimateurs du taux de recombinaison, peut donner un indication sur la force de sélection
sur ce gène durant la période de domestication du maïs et sur le temps durant lequel cette sélection a conduit cet allèle à la
fixation. Enfin, une analyse phylogénétique des allèles du maïs et de la téosinte dans les régions 5’ ont aidé à identifier l’ancêtre
spécifique de la téosinte pour le maïs. Ils ont alors pu suggérer que la domestication du maïs était arrivée dans la vallée de Balas
River dans le Sud Ouest de Mexico.
Dans la même optique, une étude a été réalisée sur des différences adaptatives de couleur chez la petite souris des rochers. En
général, cette souris est claire, et vit sur des rochers clairs. Dans certaines régions, des souris foncées sont trouvées sur des
rochers sombres. On a alors voulu mettre en rapport la couleur des rochers et celle des souris (adaptation contre la prédation ?).
La couleur ancestrale est bien répartie géographiquement, alors la couleur sombre dérivée est trouvée dans des endroits isolés.
On aura alors recours à des études d’association avec des marqueurs dans des gènes candidats pour identifier les bases
génétiques de ces différences adaptatives. Dans une population de l’Arizona, la variation allélique du gène Me1R est
parfaitement associée à la variation de couleurs des souris. Un allèle de ce gène, différent de 4 acides aminés des autres, a été
trouvé seulement dans les animaux sombres. Les patterns de variation de séquence de ce gène ont révélé que l’allèle D était
presque dépourvu de variation génétique, suggérant qu’un balayage sélectif avait récemment conduit cet allèle à sa fréquence
actuelle.
Cette hypothèse est appuyée par des études fonctionnelles in vitro qui ont montré que cet allèle code pour un récepteur avec
une fonction très active par rapport aux autres allèles. Le gène apparait donc être responsable du mélanisme adaptatif de ces
populations de souris. Toutefois, on a découvert plus tard des phénotypes mélaniques similaires chez des souris qui n’avaient
pas de changement dans Me1R. Ainsi, les études de génétiques des populations révèlent que la couleur adaptative sombre à
évolué indépendant dans cette espèce malgré les changements à différents gènes.
En comparant les patterns de différenciation des populations à Me1R avec ceux à un locus d’ADN mitochondrial (donc supposé
neutre), on a pu estimer la force de la sélection sur ces allèles. On est ici dans une situation ou le lien entre génotype,
phénotype, et environnement, est relativement clair. Mais même dans cette situation, les analyses ne peuvent pas nous dire
laquelle des mutations des 4 acides aminés de cet allèle est responsable des différences phénotypiques de couleur. En principe,
cela pourrait être résolu en introduisant chaque mutation séparément dans le gène et en testant la fonction de ces différents
récepteurs in vitro.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 11
Téléchargement
Explore flashcards