3
1) Une fois le jeu de données (i.e., les séquences) à analyser établi, décrivez les différentes étapes qui
doivent être réalisées pour construire un arbre phylogénétique. (2 points)
Un alignement multiple sera tout d'abord construit en utilisant un logiciel à cet effet (Muscle,
ClustalO,..). Cet alignement pourra être amélioré par correction manuelle ci-nécessaire. Ensuite,
une recherche du modèle évolutif le mieux adapté aux données sera réalisé à l'aide de Protest
(données de séquences protéiques) ou de JModelTest (données de séquences nucléiques). Le
résultat de ces deux méthodes nous informera aussi sur la nécessité ou non d'utiliser la
correction Gamma permettant de prendre en compte plusieurs classes de vitesse d'évolution des
sites. Pour les modèles évolutifs, dans le cas des séquences protéiques nous disposons notamment
des modèles PAM, JTT, WAG et LG. Dans le cas des séquences nucléiques, un plus grand
nombre de modèles sont disponibles (Jukes et Cantor, Kimura 2 paramètres, Tamura, Tamura
et Nei etc.). Ces modèles tentent de modéliser ce qui est connu sur l'évolution des séquences et
tentent de corriger le biais du aux substitutions multiples que l'on ne peut pas observer
directement à partir des séquences actuelles et qui conduisent à une sous estimation des
distances évolutives.
L'arbre phylogénétique sera construit en utilisant ce modèle et une méthode de maximum de
vraisemblance (PhyML). La robustesse de chacune des branches de la topologie sera évaluée par
l'utilisation de la méthode du bootstrap. Deux arbres pourront être construits pour le même jeu
de données et ceci avec deux méthodes différentes (PhML et BioNJ par exemple). Si les deux
arbres sont congruents, cela renforcera notre confiance dans la topologie obtenue.
Comme les gènes nodI et nodJ sont toujours trouvés en opérons et que les arbres obtenus
indépendamment sur chacune des protéines (NodI et NodJ) présentent quasiment la même topologie,
dans la suite de l'analyse, ils ont concaténé dans une même séquence, les protéines NodI et NodJ
codées par le même opéron. Un premier arbre a été construit en utilisant PhyML (Figure 1).
2) Pourquoi avoir établi l'arbre à partir des séquences protéiques et non à partir des séquences de leurs
gènes ? (0,5 point)
Les arbres ont été construits à partir de séquences protéiques et non nucléiques car lorsque les
espèces sont distantes dans l'évolution, les séquences nucléiques peuvent avoir subi des
substitutions multiples qui conduiront à une sous-estimation de leurs distances évolutives. On
peut même dans certains cas avoir perdu le signal phylogénétique. On préfère donc travailler au
niveau protéique.
3) A quelle classe de méthodes de reconstruction d'arbre appartient PhyML ? (0,5 point)
PhyML méthode du maximum de vraisemblance
4) A quoi correspondent les nombre figurant sur les branches des arbres des Figures 1 et 2 (0,5
point)? Comment sont-ils obtenus (1 point) ? Quel est l'intérêt de calculer ces valeurs ? (0,5 point)
Les nombres sur les branches correspondent aux valeurs de bootstrap.
Ils sont obtenus par ré-échantillonnage par tirage aléatoire avec remise des positions alignées
pour construire un alignement de même longueur. Un arbre phylogénétique sera construit en
utilisant cet alignement aléatoire. Ce processus est réitéré plusieurs fois (100 au minimum).
Ensuite, le nombre de fois où chaque branche de la topologie de départ est retrouvée dans ces
arbres "aléatoires" est calculé. La valeur de bootstrap correspondra au pourcentage de fois où
la branche a été retrouvée.
Cette méthode permet de tester individuellement la validité de chaque branche interne de
l’arbre et d'estimer sa robustesse. De manière générale, une faible valeur de bootstrap indique
que la quantité d’information supportant la bipartition induite par une branche interne est
faible. Si on applique les critères standards utilisés en statistique, il ne faudrait considérer
comme robuste que les branches ayant un support de bootstrap ≥ 95%. Des travaux ont montré
que ce seuil était trop élevé et que des supports de 70% pouvaient correspondre à des branches
valides.