1
Correction du Contrôle continu : Evolution Moléculaire (EM7BMAAM)
Octobre 2013
Problème (basé sur les travaux publiés de Takenaka et al., Mol. Biol. Evol. 29(6): 1669-1681, 2012)
Takenata et collaborateurs ont étudié la capacité de bioluminescence des Copepods qui sont les taxa
les plus nombreux de la faune zoo-planctonique trouvée dans les océans. Un fort élément de preuve de
la présence de bioluminescence dans un organisme particulier est l'identification moléculaire et
l'analyse fonctionnelle de la luciférase. Des échantillons de plancton ont donc été collectés et les
Copepods vivants ont été sélectionnés. Pour déterminer les espèces de Copepods vivantes présentes
dans les échantillons, les séquences d'ARNr 18S ont été obtenue par PCR et comparées à celles
présentes dans les bases de données. Ces séquences auxquelles ont été ajoutées des séquences
d'organismes n'appartenant pas aux taxa des Copepods ont permis d'établir un arbre phylogénétique
des espèces (Figure 1). Il a été réalisé à l'aide de la méthode PhyML.
De même, les séquences cDNA des luciférases présentes dans les ARN totaux de ces organismes ont
été amplifiées en utilisant des primers déterminés à partir des régions conservées identifiées à partir
des séquences de ce gène présentes dans les banques de données. Pour les analyses évolutives, les
séquences en acides aminés de la luciférase déduites de celles des cDNA obtenus ont été utilisées
(Figure 2A : arbre obtenu avec la méthode PhyML, Figure 2B : arbre obtenu avec la méthode
Neighbor Joining (NJ)). Parmi les espèces de Copepods identifiées dans les échantillons, les gènes
codant pour la luciférase ont été identifiés par cette étude uniquement dans : Metridia pacifica,
Metridia longa, Metridia okhotensis, Pleuromamma abdominalis, Lucicutia ovaliformis, Heterostylites
major, Heterorhabdus tanneri et Gaussia princeps. Des études antérieures avaient montré la présence
de ce gène dans les espèces de Copepods suivantes : Pleuromamma scutullata, Pleuromamma xiphias,
Metridia asymmetrica, Metridia curticauda et Metridia lucens GU594642.
1) Une fois le jeu de données (i.e., les séquences) à analyser établi, décrivez les différentes étapes qui
doivent être réalisées pour construire un arbre phylogénétique. (3 points)
Un alignement multiple sera tout d'abord construit en utilisant un logiciel à cet effet (Muscle,
ClustalO,..). Cet alignement pourra être amélioré par correction manuelle ci-nécessaire. Ensuite,
une recherche du modèle évolutif le mieux adapté aux données sera réalisé à l'aide de Protest
(données de quences protéiques) ou de JModelTest (données de séquences nucléiques). Le
résultat de ces deux méthodes nous informera aussi sur la nécessité ou non d'utiliser la
correction Gamma permettant de prendre en compte plusieurs classes de vitesse d'évolution des
sites. Pour les modèles évolutifs, dans le cas des séquences protéiques nous disposons notamment
des modèles PAM, JTT, WAG et LG. Dans le cas des séquences nucléiques, un plus grand
nombre de modèles sont disponibles (Jukes et Cantor, Kimura 2 paramètres, Tamura, Tamura
et Nei etc.). Ces modèles tentent de modéliser ce qui est connu sur l'évolution des séquences et
tentent de corriger le biais du aux substitutions multiples que l'on ne peut pas observer
directement à partir des séquences actuelles et qui conduisent à une sous estimation des
distances évolutives.
L'arbre phylogénétique sera construit en utilisant ce modèle et une méthode de maximum de
vraisemblance (PhyML). La robustesse de chacune des branches de la topologie sera évaluée par
l'utilisation de la méthode du bootstrap. Deux arbres pourront être construits pour le même jeu
de données et ceci avec deux méthodes différentes (PhML et BioNJ par exemple). Si les deux
arbres sont congruents, cela renforcera notre confiance dans la topologie obtenue.
2) A quoi correspondent les nombre figurant sur les branches des arbres des Figures 1 et 2 (0,5
point)? Comment sont-ils obtenus (1 point) ? Quel est l'intérêt de calculer ces valeurs ? (1 point)
Les nombres sur les branches correspondent aux valeurs de bootstrap.
Ils sont obtenus par -échantillonnage par tirage aléatoire avec remise des positions alignées
2
pour construire un alignement de même longueur. Un arbre phylogénétique sera construit en
utilisant cet alignement aléatoire. Ce processus est réitéré plusieurs fois (100 au minimum).
Ensuite, le nombre de fois chaque branche de la topologie de départ est retrouvée dans ces
arbres "aléatoires" est calculé. La valeur de bootstrap correspondra au pourcentage de fois
la branche a été retrouvée.
Cette méthode permet de tester individuellement la validité de chaque branche interne de
l’arbre et
d'estimer sa robustesse. De manière générale, une faible valeur de bootstrap indique que la
quantité d’information supportant la bipartition induite par une branche interne est faible. Si on
applique les critères standards utilisés en statistique, il ne faudrait considérer comme robuste
que les branches ayant un support de bootstrap ≥ 95%. Des travaux ont montré que ce seuil était
trop élevé et que des supports de 70% pouvaient correspondre à des branches valides.
3) Analyse de l'arbre phylogénétique des espèces (Figure 1) :
a) Pourquoi avoir utilisé pour la construction de cet arbre des séquences d'espèces de Crustacés
n'appartenant pas aux taxa des Copepods ? (0,5 point)
Pour disposer d'un groupe externe qui permettra d'identifier la racine des séquences
d'intérêt à savoir positionner l'ancêtre hypothétique commun des Copepods.
b) Pourquoi avoir utilisé les séquences de l'ARNr 18S (équivalent eucaryote de l'ARNr 16S
procaryote) et non une approche de type super matrice permettant une reconstruction
phylogénétique utilisant un ensemble de séquences de gènes orthologues ? (1 point)
Pour réaliser un arbre phylogénétique par une approche super-matrice il faut pouvoir
identifier un ensemble de gènes appartenant aux génomes coeur des organismes
analysés. Pour cela il faut donc disposer du génome complet de ces organismes, ce qui
n'est pas le cas ici.
c) Sur cet arbre, les espèces de Copepods possédant des gènes de luciférase forment-elles un
groupe monophylétique, paraphylétique ou polyphylétique ? Argumentez votre réponse. (2
points)
Il forme un groupe monophylétique car l'ensemble des organismes pour lequel le gène de
la luciférase a été identifié est issu d'un même ancêtre hypothétique.
4) Analyse des arbres construits à partir des séquences protéiques de luciférase obtenues dans cette
étude (Figure 2). L'arbre de la Figure 2A a été obtenu avec la méthode PhyML et celui de la figure 2B
avec la méthode Neighbor Joining (NJ)
a) A quelle classe de méthodes appartiennent chacune de ces méthodes ? (2 points)
NJ méthode de distance, PhyML méthode du maximum de vraisemblance.
b) Le modèle évolutif le plus adapté aux données s'est avéré être le modèle WAG accompagné
d'une correction par la loi Gamma. Pourquoi utilise-t-on une correction par la loi Gamma ? (1
point)
Le cadre conceptuel utilisé, le modèle de Markov en temps continu, impose des
hypothèses liées à ce modèle, notamment celle d'uniformité du processus, c'est à dire que
tous les sites d'une séquence suivent le même processus et que les probabilités et taux de
substitution sont applicables à tous les sites. Conséquences, on suppose que les sites
évoluent à la même vitesse. Or nous savons que cela est faux. Pour prendre en compte
des vitesses d'évolution différentes des sites, la correction la plus courante est apportée
en utilisant la loi Gamma ne dépendant que d'un seul paramètre, le paramètre alpha.
Cette loi est discrétisée et permet de prendre en compte plusieurs classes de vitesse
évolutive des sites (souvent 4 classes).
c) Les deux arbres obtenus sont-ils congruents ? Argumentez votre réponse. (2 points)
Les deux arbres ne sont pas totalement congruent (n'ont pas tout à fait la même
topologie). La séquence GLuc est positionnée différemment sur chaque arbre. Sur
l'arbre NJ la branche Gluc est sister group du sous-arbre Mluc, MoLuc1, MpLuc et
Paluc1 et sur l'arbre PhyML GLuc est sister group de l'autre sous-arbre (Paluc2,
MoLuc2 et MpLuc2).
3
d) Les gènes codant pour les séquences MoLuc1 et MoLuc2 sont-ils homologues, orthologues,
paralogues? Argumentez votre réponse. (2 points)
Les séquences MoLuc1 et MoLuc2 sont homologues et paralogues. Homologues car elles
possèdent un ancêtre commun et paralogues car elles sont issues d'un événement de
duplication.
e) On se concentrera sur l'arbre obtenu avec PhyML (Figure 2A). Quelle évolution le gène de la
luciférase a-t-il subit dans les espèces analysées ? Pour répondre à cette question, vous vous
attacherez à décrire les évènements de duplication, perte de gènes et transferts horizontaux qui
ont pu se produire. Vous préciserez sur quelles branches de l'arbre ces évènements ont eu la
plus grande chance de s'être produits. (2 points) Est-ce que des évènements de même type
(duplication ou perte de gènes) se seraient produits de façon indépendante ? Si oui, lesquels.
(2 points)
Le gène codant pour la luciférase aurait été acquis dans l'ancêtre commun des
Augaptiloidea car il n'a été identifié jusqu'à aujourd'hui que dans les organismes de ce
groupe. Il aurait par la suite subi une duplication dans l'ancêtre des organismes
(Gaussia, Pleuromamma et Metridia) et un des deux gènes aurait été perdu dans
Gaussia. Il aurait également subi une duplication dans le génome de H. tanneri et dans
celui de H. major.
Aucun transfert horizontal n'ait détectable car l'arbre obtenu avec les séquences de
luciférase ne montre pas d'incongruence avec celui des espèces.
Les 3 événements de duplication décrits ci-dessus se seraient produits de façon
indépendante. En effet, si un seul événement de duplication s'était produit dans l'ancêtre
de tous ces organismes, les deux gènes auraient du former deux sous-arbres distincts or
ce n'est pas le cas. On observe trois sous-arbres comprenant deux copies du gènes.
4
Figure 1 : arbre phylogénétique des espèces obtenu avec la méthode PhyML
Les différents taxa sont reportés (traits verticaux).
5
Figure 2 : A) arbre obtenu avec la méthode PhyML, B) arbre obtenu avec la méthode NJ
Les noms des séquences correspondent à l'abréviation du nom de l'espèce suivi de Luc (pour luciférase) suivi d'un
chiffre si plusieurs gènes codant pour cette protéine ont été identifiés. Les abréviations des noms d'espèces sont : M
pour Metridia longa, Mo pour Metridia okhotensis, Mp pour Metridia pacifica, Pa pour Pleuromamma
abdominalis, G pour Gaussia princeps, Lo pour Lucicutia ovaliformis, Ht pour Heterorhabdus tanneri et Hm pour
Heterostylites major. Les différents taxa sont reportés (traits verticaux).
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !