Contrôle continu : Evolution Moléculaire (EM7BMAAM

publicité
Contrôle continu : Evolution Moléculaire (EM7BMAAM) – Octobre 2015
Questions de cours :
1. Quel est l'impact sur le calcul de la distance évolutive entre deux séquences, de la présence de
substitutions multiples ayant pu se produire au même site ? Comment palie-on à ce problème ?
( 2 points)
Les substitutions multiples qui ont pu se produire au même site ne sont pas directement
observables par la comparaison des séquences. Leur présence résulte en une sous-estimation des
distances évolutives entre les séquences analysées. Ce phénomène est plus critique dans le cas des
séquences d’acides nucléiques car elles possèdent un alphabet plus pauvre que les séquences
protéiques : quatre lettres au lieu de 20.
Pour tenter de corriger le biais du aux mutations multiples, des hypothèses sont faites sur la
façon dont les bases ou les acides aminés se sont substitués à un locus donné au cours de
l'évolution conduisant à la construction d'un modèle évolutif. Plusieurs modèles évolutifs
existent pour analyser les séquences d'acides nucléiques comme pour analyser les séquences
protéiques. Ces modèles vont de modèles simples, ayant une vision simplificatrice de l'évolution
à des modèles de plus en plus complexes rendant mieux compte de l'évolution. Cependant, les
modèles plus complexes nécessitent l'estimation d'un nombre plus grand de paramètres et ne
peuvent être utilisés que si le jeu de données est suffisamment grand (nombre de séquences et
taille des séquences), sinon l'estimation des paramètres risque d'être erronée, ce qui est pire que
l'utilisation d'un modèle évolutif plus simple quant à la reconstruction phylogénétique obtenue.
2. Le tableau suivant montre la distribution de 4 caractères dans 4 organismes différents.
 Quelle méthode de reconstruction d'arbre utiliseriez-vous pour établir les relations
phylogénétiques existant entre ces espèces? (1 point)
Nous avons ici des données morphologiques représentées par la présence/absence d'un
caractère dérivé. L'approche que nous utiliserons sera donc une approche cladistique
utilisant la méthode de parcimonie pour la construction de l'arbre phylogénétique.

Reconstruisez cet arbre en expliquant les principes de la construction et en détaillant chaque
étape.
Caractères
Gésier (1)
Espèces
Grenouille
Chien
Alligator
Pie
0
0
1
1
Membrane
nictitante (2)
0
0
1
1
Plume (3)
0
0
0
1
Sang
(4)
0
1
0
1
chaud
0 signifie que le caractère n’est pas observé et 1 que le caractère est observé.
Reconstruction de l'arbre : (2 points)
Première étape : On construit un arbre avec les 3 premières espèces et on reporte sur les branches le
numéro du caractère transformé. Ici la grenouille sert de groupe externe car elle ne possède aucun des
caractères dérivés analysés. Nous obtenons l'arbre présenté ci-dessous.
1
Seconde étape : Nous allons rajouter la quatrième espèce sur cet arbre. Il y a trois possibilités car trois
branches internes. Pour chaque arbre, nous allons placer sur ces branches l'apparition des caractères
dérivés permettant d'expliquer la topologie. Nous conserverons l'arbre le plus parcimonieux, c'est-àdire celui dont la topologie s'explique par le minimum de changements. Dans note cas, il s'agit de
l'arbre encadré dont la topologie s'explique par 5 changements. Pour les deux autres arbres, nous avons
supposé que les caractères 1 et 3 étaient apparus indépendamment sur les branches menant à l'alligator
et à la pie. Nous aurions pu faire l'hypothèse qu'ils étaient apparus avant la séparation
chien/alligator(pie) et auraient subi une réversion sur la branche menant à au chien. Le nombre de
changement aurait été équivalent.
Problème (basé sur les travaux publiés de Aoki et al., Mol. Biol. Evol. 30(11): 2494-2508, 2013)
Plusieurs espèces bactériennes appartenant au groupe taxonomique des -protéobactéries et certaines
appartenant au groupe des -protéobactéries ont établi une relation symbiotique avec les
légumineuses. Ces espèces ont été appelées-rhizobia et -rhizobia. Cependant l'origine évolutive des
gènes de nodulation impliqués dans la fixation de l'azote reste incertaine. Dans cet article, les auteurs
se sont intéressés à l'origine et l'évolution de deux de ces gènes, nodI et nodJ, dont les produits
protéiques jouent un rôle clef dans la sécrétion des facteurs Nod qui sont reconnus par les
légumineuses lors de la nodulation.
Ils ont recherché les protéines présentant des similarités de séquences avec les protéines NodI et NodJ
dans les génomes de bactéries et d'archés complètement séquencés. Les résultats de cette recherche
ont montré que les protéines NodI et NodJ présentaient des similarités de séquences avec deux
domaines fonctionnels portés par une même protéine DRA qui est un transporteur ABC appartenant à
la famille des exporteurs impliqués dans la résistance aux drogues et aux antibiotiques. NodI possède
des conservations de séquence avec le domaine ATPase de DRA (DRA-ATPase) et NodJ avec le
domaine perméase (DRA-permease).
A partir de ces résultats, ils ont extrait un jeu de données plus petit en choisissant des espèces
bactériennes représentatives des différents groupes taxonomiques pour réaliser leurs analyses
évolutives.
2
1) Une fois le jeu de données (i.e., les séquences) à analyser établi, décrivez les différentes étapes qui
doivent être réalisées pour construire un arbre phylogénétique. (2 points)
Un alignement multiple sera tout d'abord construit en utilisant un logiciel à cet effet (Muscle,
ClustalO,..). Cet alignement pourra être amélioré par correction manuelle ci-nécessaire. Ensuite,
une recherche du modèle évolutif le mieux adapté aux données sera réalisé à l'aide de Protest
(données de séquences protéiques) ou de JModelTest (données de séquences nucléiques). Le
résultat de ces deux méthodes nous informera aussi sur la nécessité ou non d'utiliser la
correction Gamma permettant de prendre en compte plusieurs classes de vitesse d'évolution des
sites. Pour les modèles évolutifs, dans le cas des séquences protéiques nous disposons notamment
des modèles PAM, JTT, WAG et LG. Dans le cas des séquences nucléiques, un plus grand
nombre de modèles sont disponibles (Jukes et Cantor, Kimura 2 paramètres, Tamura, Tamura
et Nei etc.). Ces modèles tentent de modéliser ce qui est connu sur l'évolution des séquences et
tentent de corriger le biais du aux substitutions multiples que l'on ne peut pas observer
directement à partir des séquences actuelles et qui conduisent à une sous estimation des
distances évolutives.
L'arbre phylogénétique sera construit en utilisant ce modèle et une méthode de maximum de
vraisemblance (PhyML). La robustesse de chacune des branches de la topologie sera évaluée par
l'utilisation de la méthode du bootstrap. Deux arbres pourront être construits pour le même jeu
de données et ceci avec deux méthodes différentes (PhML et BioNJ par exemple). Si les deux
arbres sont congruents, cela renforcera notre confiance dans la topologie obtenue.
Comme les gènes nodI et nodJ sont toujours trouvés en opérons et que les arbres obtenus
indépendamment sur chacune des protéines (NodI et NodJ) présentent quasiment la même topologie,
dans la suite de l'analyse, ils ont concaténé dans une même séquence, les protéines NodI et NodJ
codées par le même opéron. Un premier arbre a été construit en utilisant PhyML (Figure 1).
2) Pourquoi avoir établi l'arbre à partir des séquences protéiques et non à partir des séquences de leurs
gènes ? (0,5 point)
Les arbres ont été construits à partir de séquences protéiques et non nucléiques car lorsque les
espèces sont distantes dans l'évolution, les séquences nucléiques peuvent avoir subi des
substitutions multiples qui conduiront à une sous-estimation de leurs distances évolutives. On
peut même dans certains cas avoir perdu le signal phylogénétique. On préfère donc travailler au
niveau protéique.
3) A quelle classe de méthodes de reconstruction d'arbre appartient PhyML ? (0,5 point)
PhyML méthode du maximum de vraisemblance
4) A quoi correspondent les nombre figurant sur les branches des arbres des Figures 1 et 2 (0,5
point)? Comment sont-ils obtenus (1 point) ? Quel est l'intérêt de calculer ces valeurs ? (0,5 point)
Les nombres sur les branches correspondent aux valeurs de bootstrap.
Ils sont obtenus par ré-échantillonnage par tirage aléatoire avec remise des positions alignées
pour construire un alignement de même longueur. Un arbre phylogénétique sera construit en
utilisant cet alignement aléatoire. Ce processus est réitéré plusieurs fois (100 au minimum).
Ensuite, le nombre de fois où chaque branche de la topologie de départ est retrouvée dans ces
arbres "aléatoires" est calculé. La valeur de bootstrap correspondra au pourcentage de fois où
la branche a été retrouvée.
Cette méthode permet de tester individuellement la validité de chaque branche interne de
l’arbre et d'estimer sa robustesse. De manière générale, une faible valeur de bootstrap indique
que la quantité d’information supportant la bipartition induite par une branche interne est
faible. Si on applique les critères standards utilisés en statistique, il ne faudrait considérer
comme robuste que les branches ayant un support de bootstrap ≥ 95%. Des travaux ont montré
que ce seuil était trop élevé et que des supports de 70% pouvaient correspondre à des branches
valides.
3
5) Pourquoi avoir utilisé pour la construction de cet arbre la séquence de Methylococcus capsulatus
Bath qui une bactérie n'appartenant ni au - ni au -protéobactéries ? (0,5 point)
Cette séquence joue le rôle de groupe externe. Elle permet donc d'enraciner notre arbre, c'est-àdire d'identifier le nœud racine correspondant à l'ancêtre hypothétique de nos séquences
d'intérêt, à savoir des - et - protéobacteries
6) Parmi les espèces présentes sur l'arbre, qu'elles sont celles dont le génome renferme à la fois les
gènes codant pour NodI, NodJ et DRA-ATPase/permease ? (1 point)
Les espèces dont les génomes renferment à la fois les gènes pour NodI, NodJ et DRAATPase/permease sont :
Burkholderia sp CCGE1002
Burkholderia phymatum STM815
7) Parmi les espèces présentes sur l'arbre, qu'elles sont celles dont le génome renferme uniquement les
gènes codant pour NodI, NodJ ? (0,5 point)
Toutes les espèces (13 au total) appartenant au groupe des -rhizobia.
8) Etablir un scénario évolutif pour expliquer l'origine des gènes nodI et nodJ dans les - et -rhizobia
(Pour répondre à cette question, vous vous attacherez à décrire les évènements de duplication, perte de
gènes et transferts horizontaux qui ont pu se produire.) (2 points)
Les différents arbres sont enracinés par des groupes externes. Il est donc possible d'orienter les
événements évolutifs à partir des branches les plus profondes de l'arbre. Chez les
Burkholderiaceae, seuls les génomes de Burkholderia phymatum STM815 et de Burkholderia sp
CCGE1002 possèdent les gènes codant pour NodI/NodJ en plus du gène codant pour DRA, ce
qui suggère qu'une duplication de gène s'est produite chez leur dernier ancêtre commun, ancêtre
des Burkholderia. Sous cette hypothèse l'absence des gènes nodI et nodJ, chez les 5 autres
Burkholderia, peut s'interpréter comme une délétion dans ces 5 génomes (figure 1). Les régions
codantes fusionnées dans DRA se sont séparés en deux gènes (fission) après la duplication.
L'arbre enraciné de la figure 2 montre que les -rhizobia et les-rhizobia forment deux clades
bien distincts supportés par une valeur de bootstrap de 100. Le gène codant pour DRA est
absent des génomes d'-rhizobia. En l'absence d'information sur la présence de ce gène chez les
-protéobactéries, groupe auquel appartiennent les -rhizobia, il n'est pas possible de conclure
sur l'absence de ce gène dans ces génomes. La localisation des gènes nodIJ des -rhizobia
comme sous-arbre frère du sous-arbre nodIJ des Burkholderia dans la figure 1 suggère
fortement (valeur de bootstraps 100%) que ces gènes ont été acquis par transfert horizontal
dans le génome ancêtre à l'ensemble des -rhizobia actuelles et ceci à partir d'un ancêtre des
Burkholderia actuelles.
Ils ont poursuivi leur étude en construisant un arbre phylogénétique des espèces bactériennes en
utilisant les séquences de 25 familles de protéines présentes dans l'ensemble des génomes étudiés. Ils
ont ensuite comparé la topologie des deux arbres, celui des espèces bactériennes et celui des protéines
NODIJ/DRA-ATPase/permease (Figure 2).
9) Pour construire l'arbre des espèces bactériennes, les gènes codant pour les protéines constituant
chacun des 25 groupes de séquences doivent-ils être homologues, paralogues ou orthologues ? (1
point)
Les séquences appartenant à chacun des groupes doivent être orthologues et donc également
homologues.
10) Quand l'arbre phylogénétique des espèces et l'arbre des protéines étudiés sont congruents, quelle
hypothèse peut-on faire quant à la façon dont les gènes codant pour les protéines ont été hérités par les
différents génomes ? (0,5 point)
4
Dans ce cas, les gènes ont été hérités verticalement. C'est-à-dire que le gène était présent dans le
génome de l'espèce ancêtre et a été hérité par les espèces filles suite au processus de spéciation.
11) Les deux arbres obtenus ((espèces et protéines NODIJ/DRA-ATPase/permease) sont-ils
congruents ? Argumentez votre réponse. (2 points)
Non ces deux arbres ne sont pas congruents car la comparaison avec l'arbre des espèces montre
des lignes qui se croisent indiquant que des feuilles dans les deux arbres ne sont pas localisées au
même endroit dans chacune des deux topologies.
En fait, si nous distinguons les deux sous-arbres, le sous-arbre correspondant à l'évolution de la
protéine DRA-ATPase/permease est congruent avec le sous-arbre espèces des -protéobactéries,
révélant que ce gène a été transmis de façon verticale au sein de ces espèces (à travers le
processus de spéciation).Par contre, le sous-arbre correspondant à l'évolution de la protéine
NodIJ n'apparaît pas congruent avec le sous-arbre espèces des -rhizobia. En effet, les
séquences NodIJ des espèces Ensifer fredii NGR234, Rhizobium etli CFN 42, Rhizobium etli CFN
652, Mesorhizobium loti MAFF303099, Mesorhizobium ciceri biovar biserrulae WSM1271, Ensifer
meliloti 1021 et Ensifer medicae WSM419 ne sont pas localisées au même endroit dans les deux
topologies (arbre séquences NodIJ et arbre espèces) indiquant que les gènes nodI et nodJ de ces
espèces ont été acquis par transferts horizontaux. Cependant, ces observations sont à pondérer
en raison des valeurs très faibles de bootstrap observées sur les branches de l'arbre NodIJ.
12) Les auteurs ont montré que les longueurs des branches du sous-arbre des protéines NodI/J étaient
statistiquement supérieures à celles du sous-arbre DRA-ATPase/permease. Quelle interprétation
biologique pouvez-vous apporter à ce résultat ? (1 point)
Les longueurs des branches d'un arbre étant proportionnelle au nombre de mutations observé
entre les séquences, un accroissement de cette longueur indique une augmentation du nombre de
mutations entre les séquences comparées, donc une accélération de la vitesse d'évolution. Ceci
est fréquemment rencontré après un évènement de duplication d'un gène, où la nouvelle copie
du gène n'est pas soumise à la contrainte évolutive et peut donc accumuler des mutations sans
que cela ait un impact sur la fitness de l'organisme (le gène "n'a pas encore de fonction").
L'accumulation de ces mutations permet ainsi l'apparition d'une nouvelle fonction qui pourra
être sélectionnée par l'évolution.
13) Le scénario évolutif largement décrit dans la littérature considère que les -protéobactéries sont à
l'origine des rhizobias. Pensez-vous que les analyses évolutives réalisées sur les gènes nodI et nodJ
conforte cette hypothèse ? Justifier votre réponse. (1,5 point)
Non, les résultats obtenus par cette analyse évolutive ne conforte pas ce scénario évolutif. En
effet, il est montré ici que les gènes nodI et nodJ seraient apparus dans les Burkholderia, donc
dans les -protéobacteries, à la suite d'une duplication du gène ancêtre codant la protéine DRAATPase/permease dans le génome ancêtre des espèces actuelles de Burkholderia et que les rhizobia auraient acquis ces gènes par transfert horizontal (HGT). Nous pouvons noter que les
conclusions reposent sur un faible jeu de données et que des analyses ultérieures reposant sur
une plus grande diversité de génomes seraient requises pour confirmer ou modifier le modèle
évolutif proposé.
5
Téléchargement