II - Comment construire une phylogénie moléculaire

publicité
EVOLUTION MOLECULAIRE ET PHYLOGENESE
CHAPITRE II : COMMENT CONSTRUIRE UNE PHYLOGENIE MOLECULAIRE
I – CHOIX DE LA SEQUENCE
Il faut d’abord choisir la séquence à comparer en pensant à tous les paramètres :
• Elle doit être présente dans toutes les espèces à classer, ce qui n’est pas évident : les cnidaires par exemple ont plus de
gènes en commun avec l’homme que les insectes (car ils se sont très différenciés du reste des animaux). On prendra par
exemple l’ADN ribosomal, que bactéries comme eucaryotes partagent.
• Elle ne doit pas causer de problèmes d’horloges – des gènes n’évoluent pas assez vite ne sont pas assez différents donc
pas assez significatifs. A l’inverse, un gène évoluant trop vite risque de générer trop d’homoplasies ; s’il y a eu plus
d’une substitution par site, ils ne sont plus utilisables. Pour exemple, l’une des raisons de l’échec du Bar coding fut que
chez les cnidaires, à cause des gènes de réparations perdus chez les autres animaux mais présent chez eux, on a une
très lente évolution… Il est facile de voir qu’un gène évolue lentement, mais difficile de savoir s’il évolue trop vite.
• Il doit bien s’agit du même gène dans toutes les espèces : il faut se méfier des familles multigéniques, gènes se
dupliquant à partir d’un ancestral et chaque copie dérive ensuite (comme les cytochrome oxydase). Si l’on compare les
mauvaises copies, on reconstruira l’histoire de la duplication du gène, mais pas la spéciation de l’espèce.
La même copie de la famille dans différentes espèces sont nommés gènes orthologues. En revanche des copies différentes de
cette famille dans les différentes espèces sont des gènes paralogues (on parle de métalogues s’il s’agit de membres d’une même
famille dans une seule espèce). Il est toutefois impossible de savoir si l’on compare la même copie, et il faut regarder TOUT les
membres de famille pour reconnaitre duplication et spéciations. On peut donc faire deux types d’arbres :
- Arbres d’espèces
- Arbres de gènes
Dans une famille multigénique, les deux sont différents.
Elle doit éviter l’évolution concertée : par exemple, il y a des centaines de gènes codant pour des ADNr, qui devraient
logiquement être d’autant plus différenciés entre eux que leur origine est ancienne. Mais pas du tout, elles se
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 1
ressemblent énormément. Ceci est peut être du à des éléments de recombinaisons entre copies : si ça arrive souvent,
celles-ci ne sont donc plus ni orthologues ni paralogues mais homogénéisées.
II – ALIGNEMENT DE LA SÉQUENCE
Pour construire un arbre, la séquence choisie, il faut mesurer les divergences, donc connaitre et identifier les substitutions. Pour
cela, la première chose essentielle est d’aligner la séquence de la bonne manière. Voir cours de Biologie Virtuelle pour aller dans
le détail car ici on va rester général. A l’œil, aligner les séquences, c’est long et subjectif. Une méthode plus efficace serait de
faire un dot plot qui va être graphique et faire ressortir des alignements qui ne sautent pas forcément aux yeux (fenêtres
coulissantes).
Les alignements peuvent être faits à base de distance en utilisant des formules :
‫ = ܦ‬෍ሺ݉௜ ∗ ‫ݕ‬௜ ሻ + ሺ݉௞ ∗ ‫ݕ‬௞ ሻ
Avec mi le coût des mésappariements, yi le nombre de mésappariements, mk le cout d’un gap de longueur k, yk le nombre de
gaps. L’on garde alors les meilleurs scores.
Pour faire des alignements multiples, on utilisera Clustal, qui fait tout les alignements possibles deux à deux, un arbre guide à
partir de ça, et alignera alors en suivant cet arbre (voir cours de biologie virtuelle). Cela permet de minimiser le nombre de gaps
et de mésappariement. L’arbre construit n’est pas basé sur la distance génétique mais sur le score des alignements. En général,
Clustal à du mal à gérer les gaps terminaux et les séquences de longueur différentes. C’est pourquoi on utilisera parfois Multalin.
III – MODELES DE SUBSTITUTIONS
Tout ça reste du domaine de l’hypothèse. On ne saura jamais ce qu’il est passé réellement. Mais on peut faire des modèles :
Modèle de Jukes et Cantor
Dans ce modèle, les mutations tombent au hasard et peuvent toucher plusieurs fois le même site, redonnant donc possiblement
plusieurs fois le même état. Ce modèle se représente classiquement avec une matrice de substitution nommée Pt.
PAA PAC PAG PAT
PCA PCC PCG PCA
PGA PGC PGG PGT
PTA PTC PTG PTT
On a donc, pour tout changement, une probabilité α, mais pour une conservation de la même chose, la probabilité sera
logiquement de 1 - 3α.
1 - 3α
α
α
α
α
1 - 3α
α
α
α
α
1 - 3α
α
α
α
α
1 - 3α
Cette matrice peut aussi servir au calcul du vecteur de composition que l’on pourra prédire à toutes générations :
‫ܨ‬௡ = ሺߨ஺ , ߨ஼ , ߨீ , ߨ ் ሻ
‫ܨ‬௡ାଵ = ‫ܨ‬௡ ∗ ܲ௧
Dans ce modèle, la distance D sera égale, avec p la proportion de positions divergentes, à
3
4
‫ = ܦ‬− ln ሺ1 − ‫݌‬ሻ
4
3
Modèle de Kimura à deux paramètres
Ce modèle est plus complexe car prend en compte les transversions (changements purine en pyrimidine ou inversement) de
manière différente des simples transitions. La matrice, elle aussi, sera donc changée :
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 2
1 - 2β + α
β
β
1 - 2β + α
α
β
β
α
α
β
β
1 - 2β + α
α
β
1 - 2β + α
β
Bien évidemment D s’en retrouve également changé :
1
1
1
1
‫ = ܦ‬ln ൬
൰ + ln ሺ
ሻ
2
1 − 2ܲ − ܳ
4
1 − 2ܳ
P = proportion observée de transition.
Q = proportion observée de transversions.
Les autres modèles comme le modèle d’Hasegawa, Kishino et Yano, basé sur le Kimura en un poil modifié, ou le modèle
général réversible ou GTR, ultra-compliqué avec des probabilités différentes pour chaque mutation.
Le choix du modèle se fait par calcul de la vraisemblance, ou likelihood de l’alignement pour chaque modèle, ‫ܮ‬ሺ‫ܣ‬ሻ = ܲሺ‫ܪ|ܣ‬ሻ
avec A alignement et H le modèle. On prend alors la plus forte vraisemblance. Là encore on peut faire appel à la bioinformatique
avec Modeltest qui fait ça très bien.
On peut aussi faire des complexifications autour d’un modèle (variations γ, mutations compensatoires, c'est-à-dire favorisation
d’une mutation lorsqu’une autre à déjà eu lieu).
IV – METHODES DE CONSTRUCTIONS D’ARBRES
Il existe deux grands types de méthodes pour construire un arbre.
Méthodes phénétiques
Ces méthodes reposent toutes sur le calcul de distances. Cela permet d’obtenir un arbre non-ambigu mais c’est moins robuste.
Car en effet, on construit un arbre à partir d’une matrice de distance – mais ça n’est pas forcément représentatif de la vraie
évolution.
Parmi les méthodes phénétiques, la méthode par défaut est le Neighbor-joining (voir BV) qui repose donc sur l’horloge
moléculaire. Dès le départ, on suppose donc que l’horloge moléculaire est la même dans toutes les séquences, c'est-à-dire que
toutes les mutations sont neutres. C’est une hypothèse très lourde.
Les méthodes par optimisation de critère
Ces méthodes cherchent d’abord tous les arbres possibles, et choisissent un « meilleur arbre », qui sera celui qui rendra un
paramètre optimal (le moins de mutation). Ce sont des méthodes qui ne prennent pas en compte l’horloge et n’obligent donc
pas d’hypothèses aussi lourdes.
La création de tous ces arbres pour chercher le meilleur d’entre eux fait donc appel à des recherches heuristiques. On cherche
l’évolution minimale, le score de parcimonie le plus elevé, en coupant des bouts d’arbre et en les branchant ailleurs. Auquel cas
on garde celui-là.
On peut aussi faire du branch & bound : à partir d’un arbre à 3 branches, on essaye d’en rajouter par tous les moyens possibles
en regardant ce qui donne le meilleur score, et on continue de cette façon. Mais attention, on peut avoir des scores plus élevés à
une étape si on prend un score moins élevé à l’étape précédente. On choisira donc la topologie qui, le coup d’après, est encore
la meilleure.
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 3
Il existe une seconde méthode, celle du maximum de vraisemblance : elle repose sur le même principe mais on prend l’arbre qui
rend les données les plus probables d’après un modèle : ‫ܲ = ܮ‬ሺ݀‫݊݊݋‬é݁‫݁ݎܾݎܽ|ݏ‬ሻ. C’est à calculer pour tous les arbres.
Troisième type de méthodes par optimisation de critère, les méthodes bayesiènnes : on cherche l’arbre le plus probable d’après
les données, c’est donc l’inverse :
ܲሺ‫݊݊݋݀ ݐ݁ ݁ݎܾݎܣ‬é݁‫ݏ‬ሻ
ܲሺܽ‫݊݊݋݀|݁ݎܾݎ‬é݁‫ݏ‬ሻ =
ܲሺ݀‫݊݊݋‬é݁‫ݏ‬ሻ
Avec ܲሺ‫݊݊݋݀ ݐ݁ ݁ݎܾݎܣ‬é݁‫ݏ‬ሻ = ܲሺܽ‫݁ݎܾݎ‬ሻ ∗ ܲሺ݀‫݊݊݋‬é݁‫݁ݎܾݎܽ|ݏ‬ሻ = ܲሺܽ‫݁ݎܾݎ‬ሻ ∗ ‫ܮ‬
On a donc :
ܲሺܽ‫݁ݎܾݎ‬ሻ ∗ ܲሺ݀‫݊݊݋‬é݁‫݁ݎܾݎܽ|ݏ‬ሻ
ܲሺܽ‫݊݊݋݀|݁ݎܾݎ‬é݁‫ݏ‬ሻ =
ܲሺ݀‫݊݊݋‬é݁‫ݏ‬ሻ
Dans le jargon bayésien, P(arbre) = prior to data, P(arbre|données) = posterior to data.
La robustesse d’un arbre peut être mesurée par méthode bootstrap. C'est-à-dire que l’on va prendre chaque séquence et la
réécrire en prenant, à chaque position un des nucléotides qui la compose aléatoirement dans le désordre. On peut donc se
ème
retrouver avec 100 fois le premier nucléotide dans la nouvelle séquence et 0 fois le 2 . On fait ça une centaine de fois, et on
construit tout les arbres associés.
Si notre différenciation entre deux espèces dépend d’une seule mutation, elle n’est pas très fiable : ça peut être un simple
accident. Auquel cas, en faisant de l’aléatoire comme ça, sur les centaines d’arbres théoriques qui vont sortir, on a très peu de
chance de retrouver cette différenciation. En revanche, si la différenciation dépend de plusieurs mutations, elle est bien plus
fiable. Dans ce cas, on aura beaucoup plus de chance de la retrouver sur nos arbres générés aléatoirement (car il y a plus de
nucléotides qui peuvent être mutés).
Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/)
Page 4
Téléchargement