Par Krys3000 (Groupe « The Trust » - http://www.cours-en-ligne.tk/) Page 2
ressemblent énormément. Ceci est peut être du à des éléments de recombinaisons entre copies : si ça arrive souvent,
celles-ci ne sont donc plus ni orthologues ni paralogues mais homogénéisées.
II – ALIGNEMENT DE LA SÉQUENCE
Pour construire un arbre, la séquence choisie, il faut mesurer les divergences, donc connaitre et identifier les substitutions. Pour
cela, la première chose essentielle est d’aligner la séquence de la bonne manière. Voir cours de Biologie Virtuelle pour aller dans
le détail car ici on va rester général. A l’œil, aligner les séquences, c’est long et subjectif. Une méthode plus efficace serait de
faire un dot plot qui va être graphique et faire ressortir des alignements qui ne sautent pas forcément aux yeux (fenêtres
coulissantes).
Les alignements peuvent être faits à base de distance en utilisant des formules :
ܦ = ሺ݉
∗ݕ
ሻ+ሺ݉
∗ݕ
ሻ
Avec m
i
le coût des mésappariements, y
i
le nombre de mésappariements, m
k
le cout d’un gap de longueur k, y
k
le nombre de
gaps. L’on garde alors les meilleurs scores.
Pour faire des alignements multiples, on utilisera Clustal, qui fait tout les alignements possibles deux à deux, un arbre guide à
partir de ça, et alignera alors en suivant cet arbre (voir cours de biologie virtuelle). Cela permet de minimiser le nombre de gaps
et de mésappariement. L’arbre construit n’est pas basé sur la distance génétique mais sur le score des alignements. En général,
Clustal à du mal à gérer les gaps terminaux et les séquences de longueur différentes. C’est pourquoi on utilisera parfois Multalin.
III – MODELES DE SUBSTITUTIONS
Tout ça reste du domaine de l’hypothèse. On ne saura jamais ce qu’il est passé réellement. Mais on peut faire des modèles :
Modèle de Jukes et Cantor
Dans ce modèle, les mutations tombent au hasard et peuvent toucher plusieurs fois le même site, redonnant donc possiblement
plusieurs fois le même état. Ce modèle se représente classiquement avec une matrice de substitution nommée P
t
.
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
P
On a donc, pour tout changement, une probabilité α, mais pour une conservation de la même chose, la probabilité sera
logiquement de 1 - 3α.
1 - 3α
α α α
α 1 - 3α α α
α α 1 - 3α α
α α α 1 - 3α
Cette matrice peut aussi servir au calcul du vecteur de composition que l’on pourra prédire à toutes générations :
ܨ
= ሺߨ
,ߨ
,ߨ
ீ
,ߨ
்
ሻ
ܨ
ାଵ
= ܨ
∗ܲ
௧
Dans ce modèle, la distance D sera égale, avec p la proportion de positions divergentes, à
ܦ = −3
4ln ሺ1 −4
3ሻ
Modèle de Kimura à deux paramètres
Ce modèle est plus complexe car prend en compte les transversions (changements purine en pyrimidine ou inversement) de
manière différente des simples transitions. La matrice, elle aussi, sera donc changée :