II - Comment construire une phylogénie moléculaire

Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 1

EVOLUTION MOLECULAIRE ET PHYLOGENESE

CHAPITRE II : COMMENT CONSTRUIRE UNE PHYLOGENIE MOLECULAIRE

I – CHOIX DE LA SEQUENCE

Il faut d’abord choisir la séquence à comparer en pensant à tous les paramètres :

• Elle doit être présente dans toutes les espèces à classer, ce qui n’est pas évident : les cnidaires par exemple ont plus de

gènes en commun avec l’homme que les insectes (car ils se sont très différenciés du reste des animaux). On prendra par

exemple l’ADN ribosomal, que bactéries comme eucaryotes partagent.

• Elle ne doit pas causer de problèmes d’horloges – des gènes n’évoluent pas assez vite ne sont pas assez différents donc

pas assez significatifs. A l’inverse, un gène évoluant trop vite risque de générer trop d’homoplasies ; s’il y a eu plus

d’une substitution par site, ils ne sont plus utilisables. Pour exemple, l’une des raisons de l’échec du Bar coding fut que

chez les cnidaires, à cause des gènes de réparations perdus chez les autres animaux mais présent chez eux, on a une

très lente évolution… Il est facile de voir qu’un gène évolue lentement, mais difficile de savoir s’il évolue trop vite.

• Il doit bien s’agit du même gène dans toutes les espèces : il faut se méfier des familles multigéniques, gènes se

dupliquant à partir d’un ancestral et chaque copie dérive ensuite (comme les cytochrome oxydase). Si l’on compare les

mauvaises copies, on reconstruira l’histoire de la duplication du gène, mais pas la spéciation de l’espèce.

La même copie de la famille dans différentes espèces sont nommés gènes orthologues. En revanche des copies différentes de

cette famille dans les différentes espèces sont des gènes paralogues (on parle de métalogues s’il s’agit de membres d’une même

famille dans une seule espèce). Il est toutefois impossible de savoir si l’on compare la même copie, et il faut regarder TOUT les

membres de famille pour reconnaitre duplication et spéciations. On peut donc faire deux types d’arbres :

- Arbres d’espèces

- Arbres de gènes

Dans une famille multigénique, les deux sont différents.

Elle doit éviter l’évolution concertée : par exemple, il y a des centaines de gènes codant pour des ADNr, qui devraient

logiquement être d’autant plus différenciés entre eux que leur origine est ancienne. Mais pas du tout, elles se

Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 2

ressemblent énormément. Ceci est peut être du à des éléments de recombinaisons entre copies : si ça arrive souvent,

celles-ci ne sont donc plus ni orthologues ni paralogues mais homogénéisées.

II – ALIGNEMENT DE LA SÉQUENCE

Pour construire un arbre, la séquence choisie, il faut mesurer les divergences, donc connaitre et identifier les substitutions. Pour

cela, la première chose essentielle est d’aligner la séquence de la bonne manière. Voir cours de Biologie Virtuelle pour aller dans

le détail car ici on va rester général. A l’œil, aligner les séquences, c’est long et subjectif. Une méthode plus efficace serait de

faire un dot plot qui va être graphique et faire ressortir des alignements qui ne sautent pas forcément aux yeux (fenêtres

coulissantes).

Les alignements peuvent être faits à base de distance en utilisant des formules :

ܦ = ෍ሺ݉

௜

∗ݕ

௜

ሻ+ሺ݉

௞

∗ݕ

௞

ሻ

Avec m

le coût des mésappariements, y

le nombre de mésappariements, m

le cout d’un gap de longueur k, y

le nombre de

gaps. L’on garde alors les meilleurs scores.

Pour faire des alignements multiples, on utilisera Clustal, qui fait tout les alignements possibles deux à deux, un arbre guide à

partir de ça, et alignera alors en suivant cet arbre (voir cours de biologie virtuelle). Cela permet de minimiser le nombre de gaps

et de mésappariement. L’arbre construit n’est pas basé sur la distance génétique mais sur le score des alignements. En général,

Clustal à du mal à gérer les gaps terminaux et les séquences de longueur différentes. C’est pourquoi on utilisera parfois Multalin.

III – MODELES DE SUBSTITUTIONS

Tout ça reste du domaine de l’hypothèse. On ne saura jamais ce qu’il est passé réellement. Mais on peut faire des modèles :

Modèle de Jukes et Cantor

Dans ce modèle, les mutations tombent au hasard et peuvent toucher plusieurs fois le même site, redonnant donc possiblement

plusieurs fois le même état. Ce modèle se représente classiquement avec une matrice de substitution nommée P

On a donc, pour tout changement, une probabilité α, mais pour une conservation de la même chose, la probabilité sera

logiquement de 1 - 3α.

1 - 3α

α α α

α 1 - 3α α α

α α 1 - 3α α

α α α 1 - 3α

Cette matrice peut aussi servir au calcul du vecteur de composition que l’on pourra prédire à toutes générations :

௡

= ሺߨ

஺

,ߨ

஼

,ߨ

ீ

,ߨ

்

ሻ

௡ାଵ

= ܨ

௡

∗ܲ

௧

Dans ce modèle, la distance D sera égale, avec p la proportion de positions divergentes, à

ܦ = −3

4ln ሺ1 −4

3݌ሻ

Modèle de Kimura à deux paramètres

Ce modèle est plus complexe car prend en compte les transversions (changements purine en pyrimidine ou inversement) de

manière différente des simples transitions. La matrice, elle aussi, sera donc changée :

Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 3

1 - 2β + α

β α β

β 1 - 2β + α

β α

α β

1 - 2β + α β

β α β

1 - 2β + α

Bien évidemment D s’en retrouve également changé :

ܦ = 1

2ln൬ 1

1 −2ܲ − ܳ൰+ 1

4ln ሺ 1

1−2ܳሻ

P = proportion observée de transition.

Q = proportion observée de transversions.

Les autres modèles comme le modèle d’Hasegawa, Kishino et Yano, basé sur le Kimura en un poil modifié, ou le modèle

général réversible ou GTR, ultra-compliqué avec des probabilités différentes pour chaque mutation.

Le choix du modèle se fait par calcul de la vraisemblance, ou likelihood de l’alignement pour chaque modèle, ܮሺܣሻ= ܲሺܣ|ܪሻ

avec A alignement et H le modèle. On prend alors la plus forte vraisemblance. Là encore on peut faire appel à la bioinformatique

avec Modeltest qui fait ça très bien.

On peut aussi faire des complexifications autour d’un modèle (variations γ, mutations compensatoires, c'est-à-dire favorisation

d’une mutation lorsqu’une autre à déjà eu lieu).

IV – METHODES DE CONSTRUCTIONS D’ARBRES

Il existe deux grands types de méthodes pour construire un arbre.

Méthodes phénétiques

Ces méthodes reposent toutes sur le calcul de distances. Cela permet d’obtenir un arbre non-ambigu mais c’est moins robuste.

Car en effet, on construit un arbre à partir d’une matrice de distance – mais ça n’est pas forcément représentatif de la vraie

évolution.

Parmi les méthodes phénétiques, la méthode par défaut est le Neighbor-joining (voir BV) qui repose donc sur l’horloge

moléculaire. Dès le départ, on suppose donc que l’horloge moléculaire est la même dans toutes les séquences, c'est-à-dire que

toutes les mutations sont neutres. C’est une hypothèse très lourde.

Les méthodes par optimisation de critère

Ces méthodes cherchent d’abord tous les arbres possibles, et choisissent un « meilleur arbre », qui sera celui qui rendra un

paramètre optimal (le moins de mutation). Ce sont des méthodes qui ne prennent pas en compte l’horloge et n’obligent donc

pas d’hypothèses aussi lourdes.

La création de tous ces arbres pour chercher le meilleur d’entre eux fait donc appel à des recherches heuristiques. On cherche

l’évolution minimale, le score de parcimonie le plus elevé, en coupant des bouts d’arbre et en les branchant ailleurs. Auquel cas

on garde celui-là.

On peut aussi faire du branch & bound : à partir d’un arbre à 3 branches, on essaye d’en rajouter par tous les moyens possibles

en regardant ce qui donne le meilleur score, et on continue de cette façon. Mais attention, on peut avoir des scores plus élevés à

une étape si on prend un score moins élevé à l’étape précédente. On choisira donc la topologie qui, le coup d’après, est encore

la meilleure.

Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 4

Il existe une seconde méthode, celle du maximum de vraisemblance : elle repose sur le même principe mais on prend l’arbre qui

rend les données les plus probables d’après un modèle : ܮ = ܲሺ݀݋݊݊é݁ݏ|ܽݎܾݎ݁ሻ. C’est à calculer pour tous les arbres.

Troisième type de méthodes par optimisation de critère, les méthodes bayesiènnes : on cherche l’arbre le plus probable d’après

les données, c’est donc l’inverse :

ܲሺܽݎܾݎ݁|݀݋݊݊é݁ݏሻ=ܲሺܣݎܾݎ݁ ݁ݐ ݀݋݊݊é݁ݏሻ

ܲሺ݀݋݊݊é݁ݏሻ

Avec ܲሺܣݎܾݎ݁ ݁ݐ ݀݋݊݊é݁ݏሻ= ܲሺܽݎܾݎ݁ሻ∗ܲሺ݀݋݊݊é݁ݏ|ܽݎܾݎ݁ሻ= ܲሺܽݎܾݎ݁ሻ∗ܮ

On a donc :

ܲሺܽݎܾݎ݁|݀݋݊݊é݁ݏሻ=ܲሺܽݎܾݎ݁ሻ∗ܲሺ݀݋݊݊é݁ݏ|ܽݎܾݎ݁ሻ

ܲሺ݀݋݊݊é݁ݏሻ

Dans le jargon bayésien, P(arbre) = prior to data, P(arbre|données) = posterior to data.

La robustesse d’un arbre peut être mesurée par méthode bootstrap. C'est-à-dire que l’on va prendre chaque séquence et la

réécrire en prenant, à chaque position un des nucléotides qui la compose aléatoirement dans le désordre. On peut donc se

retrouver avec 100 fois le premier nucléotide dans la nouvelle séquence et 0 fois le 2

ème

. On fait ça une centaine de fois, et on

construit tout les arbres associés.

Si notre différenciation entre deux espèces dépend d’une seule mutation, elle n’est pas très fiable : ça peut être un simple

accident. Auquel cas, en faisant de l’aléatoire comme ça, sur les centaines d’arbres théoriques qui vont sortir, on a très peu de

chance de retrouver cette différenciation. En revanche, si la différenciation dépend de plusieurs mutations, elle est bien plus

fiable. Dans ce cas, on aura beaucoup plus de chance de la retrouver sur nos arbres générés aléatoirement (car il y a plus de

nucléotides qui peuvent être mutés).

1 / 4 100%

Documents connexes

Résumé

3 À la croisée des chemins - Conseil de l`industrie forestière du

Presentazione standard di PowerPoint

Le Téléthon est national. Ce mot est composé de deux autres mots

Les arbres

Phyl-ARIANE Phylogénomique : Algorithmes et

L`augmentation de gaz carbonique dans l`air, à cause du

Rapport de l`Académie de médecine « Maladies rares, le

ARBRE 1

Un été magnifique mais… sûrement pas pour les arbres!

Newsletter n°2

Découvrez la nature au bord des chemins

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

II - Comment construire une phylogénie moléculaire

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

II - Comment construire une phylogénie moléculaire

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib