1
Correction du Contrôle continu : Evolution Moléculaire (EM7BMAAM) –
Octobre 2013
Problème (basé sur les travaux publiés de Takenaka et al., Mol. Biol. Evol. 29(6): 1669-1681, 2012)
Takenata et collaborateurs ont étudié la capacité de bioluminescence des Copepods qui sont les taxa
les plus nombreux de la faune zoo-planctonique trouvée dans les océans. Un fort élément de preuve de
la présence de bioluminescence dans un organisme particulier est l'identification moléculaire et
l'analyse fonctionnelle de la luciférase. Des échantillons de plancton ont donc été collectés et les
Copepods vivants ont été sélectionnés. Pour déterminer les espèces de Copepods vivantes présentes
dans les échantillons, les séquences d'ARNr 18S ont été obtenue par PCR et comparées à celles
présentes dans les bases de données. Ces séquences auxquelles ont été ajoutées des séquences
d'organismes n'appartenant pas aux taxa des Copepods ont permis d'établir un arbre phylogénétique
des espèces (Figure 1). Il a été réalisé à l'aide de la méthode PhyML.
De même, les séquences cDNA des luciférases présentes dans les ARN totaux de ces organismes ont
été amplifiées en utilisant des primers déterminés à partir des régions conservées identifiées à partir
des séquences de ce gène présentes dans les banques de données. Pour les analyses évolutives, les
séquences en acides aminés de la luciférase déduites de celles des cDNA obtenus ont été utilisées
(Figure 2A : arbre obtenu avec la méthode PhyML, Figure 2B : arbre obtenu avec la méthode
Neighbor Joining (NJ)). Parmi les espèces de Copepods identifiées dans les échantillons, les gènes
codant pour la luciférase ont été identifiés par cette étude uniquement dans : Metridia pacifica,
Metridia longa, Metridia okhotensis, Pleuromamma abdominalis, Lucicutia ovaliformis, Heterostylites
major, Heterorhabdus tanneri et Gaussia princeps. Des études antérieures avaient montré la présence
de ce gène dans les espèces de Copepods suivantes : Pleuromamma scutullata, Pleuromamma xiphias,
Metridia asymmetrica, Metridia curticauda et Metridia lucens GU594642.
1) Une fois le jeu de données (i.e., les séquences) à analyser établi, décrivez les différentes étapes qui
doivent être réalisées pour construire un arbre phylogénétique. (3 points)
Un alignement multiple sera tout d'abord construit en utilisant un logiciel à cet effet (Muscle,
ClustalO,..). Cet alignement pourra être amélioré par correction manuelle ci-nécessaire. Ensuite,
une recherche du modèle évolutif le mieux adapté aux données sera réalisé à l'aide de Protest
(données de séquences protéiques) ou de JModelTest (données de séquences nucléiques). Le
résultat de ces deux méthodes nous informera aussi sur la nécessité ou non d'utiliser la
correction Gamma permettant de prendre en compte plusieurs classes de vitesse d'évolution des
sites. Pour les modèles évolutifs, dans le cas des séquences protéiques nous disposons notamment
des modèles PAM, JTT, WAG et LG. Dans le cas des séquences nucléiques, un plus grand
nombre de modèles sont disponibles (Jukes et Cantor, Kimura 2 paramètres, Tamura, Tamura
et Nei etc.). Ces modèles tentent de modéliser ce qui est connu sur l'évolution des séquences et
tentent de corriger le biais du aux substitutions multiples que l'on ne peut pas observer
directement à partir des séquences actuelles et qui conduisent à une sous estimation des
distances évolutives.
L'arbre phylogénétique sera construit en utilisant ce modèle et une méthode de maximum de
vraisemblance (PhyML). La robustesse de chacune des branches de la topologie sera évaluée par
l'utilisation de la méthode du bootstrap. Deux arbres pourront être construits pour le même jeu
de données et ceci avec deux méthodes différentes (PhML et BioNJ par exemple). Si les deux
arbres sont congruents, cela renforcera notre confiance dans la topologie obtenue.
2) A quoi correspondent les nombre figurant sur les branches des arbres des Figures 1 et 2 (0,5
point)? Comment sont-ils obtenus (1 point) ? Quel est l'intérêt de calculer ces valeurs ? (1 point)
Les nombres sur les branches correspondent aux valeurs de bootstrap.
Ils sont obtenus par ré-échantillonnage par tirage aléatoire avec remise des positions alignées