transparents 1ere partie.

publicité
Plan
Introduction à la
Phylogénie moléculaire
Abdoulaye Baniré Diallo
(Université du Québec à Montréal)
Aujourd’hui-Semaine 1
! Introduction à l’analyse phylogénétique
• Le problème et les applications
! Les données moléculaires
• Les caractères et les distances
! Rappel sur les arbres
•
•
•
•
Arbre enraciné vs arbre non enraciné
Arbres binaires
Nombre de topologies possibles
Dénombrement de topologies
! Les méthodes de distances
• Principe
• Relation matrice-phylogénie
• Algorithmes PGM
!
!
!
!
Introduction
Les données moléculaires
Rappel sur les arbres
Les méthodes d’inférence phylogénétique
•
•
•
•
!
!
!
!
!
!
Les méthodes de distances
Les méthodes de parcimonie
Les méthodes de Maximum de vraisemblance
Les méthodes Bayésiennes
Les validations statistiques
Splits and Spectra
Les réseaux phylogénétiques
Les phylogénies connues
Simulation
Sujets divers
Arbre et relations inter-espèces
Arbre et relations inter-espèces
! Darwin (1859) a initié l’arbre comme support formel de la
représentation des relations inter-espèces
! Au début les modes de classifications des espèces étaient:
• Les comparaisons morphologiques
• Les comparaisons comportementales
• Les répartitions géographiques
! Aujourd’hui les phylogénies obtenues à partir:
•
•
•
•
•
•
des séquences moléculaires (phylogénie moléculaire)
des caractères discrets
des fréquences des gènes
des traits quantitatifs
des sites de restriction
des microsatellites
Arbre et relations inter-espèces
! l'histoire du
développement
paléontologique des
organismes par
analogie avec
l'ontogénie ou histoire
du développement
individuel
! Haeckel (1860)
Phylogénie-phylogenèse
! Définition:
• l’histoire de la formation et de l’évolution
d’une espèce, d’un phylum (série
évolutive des formes animales dérivant
d’un ancêtre commun)
! Du grec
• Phûlon = tribus
• Genesis = origine
Arbre et relations inter-espèces
La phylogénie moléculaire
! Définition:
Plus de 3000 articles traitent
de l’analyse phylogénétique
• La phylogénie moléculaire est la discipline ayant
pour objectif la reconstruction de l'histoire
évolutive des espèces par comparaison des
séquences de leurs gènes ou de leurs protéines.
! Données:
• Un ensemble d’organismes (taxa) et pour chacun
un ensemble de données moléculaires
(séquences par exemple).
La phylogénie moléculaire
(Données)
Taxons
Caractères
La phylogénie moléculaire
(Résultats)
Taxon B
Taxon C
Espèce
Espèce
Espèce
Espèce
Espèce
A
B
C
D
E
ATGGCTATTCTTATAGTACG
ATCGCTAGTCTTATATTACA
TTCACTAGACCTGTGGTCCA
TTGACCAGACCTGTGGTCCG
TTGACCAGTTCTCTAGTTCG
Taxon A
L’espace entre les taxons et leur
position (en terme de hauteur)
ne signifie rien.
Taxon D
Taxon E
Cette dimension peut avoir des longueurs
de branches identiques (cladogramme et ultramétrique)
ou non identiques (arbre additif ou phylogramme)
La phylogénie moléculaire
Applications
Histoire de l’évolution
! Projet: Tree of life
• Avec plus de 4000
pages web, le projet
présente la diversité des
organismes sur la terre,
leurs histoires
évolutionaires et leurs
caractéristiques
Évolution des caractères
La phylogénie moléculaire
Applications
! Bio-écologie
• Déplacement d’espèces
• Relation hôtes-parasites
La phylogénie moléculaire
Applications
Utilisation de la phylogénie pour comprendre
les phénomènes de duplications et pertes de
gènes
! Épidémiologie
• Tracer l’évolution d’un
virus à travers ces
différentes souches
(dentiste)
A. Arbre de gène
Est ce que le Dr David Acer a contaminé ses patients ?
DENTIST
Patient C
Arbre phylogénétique
des séquences de VIH
du DENTISTE, ses
7 patients et
35 infectés
dans la même région
Géographique.
Patient A
Patient G
Patient B
Patient E
Patient A
DENTIST
Oui:
Les séquences de VIH de 5
de ses patients sont dans le
même clade que les
séquences de VIH du Dr
Acer.
Local control 2
Local control 3
Patient F
No
Local control 9
Local control 3
Ou et al. (1992), Page et Holmes (1998)
Est ce que le Dr Richard Smith a contaminé sa
femme?
! En 1998, la femme du Dr Richard accuse son
mari médecin de l’avoir délibérément injecté du
sang contaminé au VIH.
! Des arbres d’évolutions du virus ont prouvé que
le médecin a effectivement contaminé sa
femme.
! Premières preuves d’arbres d’évolutions
acceptés par une cour criminelle aux USA.
! Il a été condamné à 50 ans de prison pour
meurtre au second degré.
Local control 35
Patient D
B. L’arbre de gènes superposé à un
arbre d’espèces pour identifier
les pertes de gènes.
No
La phylogénie moléculaire
Caractéristiques
! Sujet difficile car vérité non connue.
• A–C–A
• Beaucoup de controverse
• Les scénarios doivent être justifiés.
La phylogénie moléculaire
Historique de la reconstruction d’arbre
! Les années 1950: la plupart des publications
présentaient des arbres de moins de 50 taxons.
! Les années 1990: les arbres phylogénétiques avec
500 espèces peuvent être reconstruits en quelques
heures.
! Algorithmes vastes et complexes.
! Aujourd’hui: des phylogénies avec 16000 taxons
peuvent être reconstruites en moins d’une journée.
! Ici nous survolons les principales
techniques de base.
! Futur: reconstruire l’arbre de vie ?
Prédiction phylogénétique
Données moléculaires:
Caractères
! Un caractère est un trait commun (ou
susceptible de l’être plutôt) à tous les taxons
et pouvant prendre plusieurs valeurs
appelées "états".
! Données non moléculaires:
Caractères:
branchies
nageoires
dents
…
Baleine
Non
Oui
Non
…
Requin
Oui
Oui
Oui
…
…
…
…
…
…
Taxons :
Woese 1987; Barns et al. 1996; Brown et Doolittle 1997
Données moléculaires
Caractères
! Alignement d’un gène ou d’une protéine.
! Exemple: 3 taxons de 20 caractères et 5
états (A, C, G, T, -)
Espèce A
Espèce B
Espèce C
ATGGCTATTC-TATAGTACG
ATCGCT-GTCTTATATTACA
TTCACT--ACCTGTGGTCCA
! Les taxons représentent les lignes de la
matrice et les caractères désignent les
colonnes.
Commentaire sur les alignements
! Choix des séquences
• L’évolution des séquences choisies devrait
refléter ce que l’on veut calculer.
! Exemples:
• Mixer ARNribo et ARNt: non sens.
• ARNribo stable => espèces divergentes
• ADNmito a un taux de mutation 17 fois que celui
de l’ADN nucléaire => organismes proches
! Autres types de caractères
• Binaire avec sites de restrictions.
Commentaire sur les alignements
! Alignement constitue la base de la
reconstruction phylogénétique.
• Un mauvais alignement ruine une
reconstruction. Ainsi il y a un gros effort à
fournir à l’alignement.
! Il faudrait pouvoir comparer ce qui est
comparable.
Données moléculaires
Distance
! n taxons
! Matrice D avec n ligne et n colonnes
! di,j – estimation de la distance évolutive entre les
taxons i et j.
! Exemples de distances
• Distances en termes de réarrangements génomiques
(inversions, translocations et substitutions) cf. GRIMM.
• Distances entre séquences:
! Distance de Hamming
! D’édition (matrices PAM, Dayhoff, Blosum)
! Remarques
• perte d’information par rapport à la reconstruction basée
sur un alignement, mais permet d’utiliser des algorithmes
rapides
Les 4 grandes étapes de l’analyse phylogénétique
1 Sélectionner les données
2
Les méthodes de distances
Calcul de distances
(Quel modèle?)
Choix de la méthode
3
MB
ML
Modèle?
! Ce processus de reconstruction n’est valable
que si l’on considère que des spéciations.
Aligner les séquences
Les méthodes basées caractères
MP
Poids?
Modèle?
(sites, substitutions)?
Optimisation de critères
LS
ME
Arbre Unique
NJ
PGM
Calculer ou estimer l’arbre qui traduit mieux les données
4
Remarque
Effectuer des tests statistiques de robustesses
! Les spéciations sont obtenus à partir de
séquences orthologues (Homologues).
! Si les séquences sont sujettes à des
transferts latéraux (bactéries) alors un
modèle en arbre est non pertinent.
! Il faut utiliser un réseau dans ce dernier cas.
20/01/09
Adapté de
Hillis et al., (1993)
Réseaux
Aujourd’hui-Semaine 2
!
!
!
!
Homologie
Distances
Modèles d’évolution
Rappel sur les arbres
• Arbre enraciné vs arbre non enraciné
• Arbres binaires
• Nombre de topologies possibles
• Dénombrement de topologies
!
Les méthodes de distances
• Principe
• Relation matrice-phylogénie
• Algorithmes PGM
• Algorithme NJ
• Critère des moindres carrés
• Évaluation de l’espace de topologies
• Détails sur les arbres
Homologie
! 2 nucléotides dans différentes séquences
sont homologues si les 2 séquences héritent
toutes cet état directement d’un ancêtre
commun.
! Pour déterminer si des nucléotides sont
homologues, il faudrait connaître les
relations évolutionaires entre les différentes
espèces contenant ces nucléotides.
! Homologie vs Homoplasie
Homologie
! La même chose s’applique au niveau des
caractères moléculaires.
• 2 protéines dans 2 organismes peuvent être
codées par le même gène. (le gène provient d’un
ancêtre commun)
• 2 gènes peuvent avoir plusieurs acides aminés
en commun et avoir une fonction similaire.
Cependant si la fonction est acquise
indépendamment alors celle-ci n’est pas
homologue.
! Plusieurs gènes peuvent appartenir à une
famille de gènes (homologues).
Homologie
! L’homologie dépend de la partie que nous
comparons
• Les ailes de la chauve souris et de l’oiseau sont
homologues comme avant bras et non comme
ailes.
• Les deux ont hérité leurs avant bras de leur
ancêtre commun.
! i.e. l’avant bras n’a pas évolué indépendamment
• Cependant, chez les deux groupes les avant bras
sont devenus des outils de vol.
! Leur ancêtre commun ne peut pas voler.
• Donc les ailes découlent d’une homoplasie.
Homologie
Orthologie-paralogie
Distance génétique
! De façon basique, les séquences
d’ADN ne sont pas très informatives
sur l’histoire évolutive.
! Pour chaque site, le nombre maximal
de différences est 1.
! Il existe seulement 4 états. Donc, si il y
a plus d’une substitution, nous perdons
la substitution passée.
Distance génétique
! Les substitutions
multiples cachent
l’histoire évolutive entre
les séquences.
! Nous pouvons
classifier les
substitutions d’une
autre manière.
Différences observés
! La mesure simple de la distance est de compter le
nombre de nucléotides différents entre 2
séquences.
! Cette mesure constitue une mauvaise estimation du
nombre de changements évolutionnaires.
! Si les changements sont communs, alors le même
site peut répéter la même substitution.
! Plus le temps est long, plus la différence observée
devient plus petite par rapport au nombre réel de
substitutions.
Comparaison entre le nombre de
substitutions réelles et observées
Séquence 1
Séquence
2
Substitution unique
T
T"A
1
1
Substitutions
multiples
A
A " G "T
1
2
Substitutions
coïncidentes au
même site
A"C
A"G
1
2
Substitutions
parallèles
T"A
T"A
0
2
Substitutions
convergentes
A"C"T
A"T
0
3
Substitutions
inverses
T"A"T
T
0
2
Distances observées vs réelles
Nombre de
Nombre de
substitution substitution
s observées
s réelles
Divergence temporelle
Modèles d’évolution des
séquences
Différences observées
Méthodes de correction des
distances
! Les méthodes existantes sont interreliées.
! Étant donné que les différences observées sousestiment les changements évolutionnaires, il existe
peut-être une voie pour convertir cette différence en
une mesure qui correspond à la distance actuelle.
! Elles diffèrent par le nombre de paramètres qu’elles
comportent.
• Variation de la fréquence des nucléotides.
• Types de substitutions
• Différences entre les probabilités de substitutions.
! Cette distance est souvent appelée "distance
corrigée".
! Un framework général montre leur interrelation.
! Il existe plusieurs modèles défini chacun autour
d’assomption à propos de l’évolution.
! Zharkih (1994) passe en revue une large partie de
ces méthodes.
Le modèle de Jukes-Cantor
(1969)
! Simple
! chances égales de
changement
! chances égales de
transition vers les trois
autres bases (s’il y a
changement)
! présume une égalité des
fréquences des 4 bases
dans la séquence
nucléotidique
Jukes et Cantor (1969)
_
A
_
C
_
_
! La distance ainsi obtenue
devient infinie lorsque la
différence entre les
séquences est supérieure
à 3/4.
G
_
_
T
Le modèle de Jukes-Cantor
(1969)
où _ = u/3
! D’après les auteurs, cela
ne peut se produire dans
les données si les
séquences sont
infiniment longues
Jukes et Cantor (1969)
D = ut = '
3 &
3
#
ln $1 ' DS !
4 %
4
"
Le modèle Kimura 2-paramètres
(1980)
_
A
G
_
_
C
_
_
T
1 1 (# 4(" + ! )T ) 1 (#8 ! T )
# e
+ e
4 2
4
1 1 (#8 ! T )
Prob (transversion | T ) = # e
2 2
Prob (transitio n | T ) =
Purines
transition
_
Le modèle Kimura 2-paramètres
(1980)
transversion
D=!
Pyrimidines
! Taux de substitution total par site est (!+2")
Kimura (1980)
1
ln (1 ! 2 P ! Q) 1 ! 2Q
2
[
]
le modèle de Jukes et Cantor (1969) est un cas particulier du modèle
Kimura 2-paramètres pour ! = " et P = Q/2.
Kimura (1980)
Le modèle Tajima-Nei
(1984)
! non égalité des différentes fréquences.
! Similaire à Jukes Cantor
! Fréquences de nucléotides variables
! F84 et HKY sont les plus utilisés.
! étendent le modèle Kimura 2-paramètres en un modèle
de fréquences asymétriques des nucléotides.
D %
(
D = ) b ln &1 ) S #
b $
'
où
b
=
2
(
1 (&
& fraction[i ]2 + DS
1)
!
2 & i"{A, C,G ,T }&'
h
'
! F84 et HKY ont 5 paramètres.
! Tamura-Nei a 6 paramètres.
%%
##
##
$$
! Différences entre la fréquence des purines et des
pyrimidines.
et
h
=
Tajima et Nei (1984)
Les modèles Tamura-Nei, F84 et
HKY
( frequence_ parallele[i, j ]2
1
&
!
!
2 i"{A,C, G ,T }j"{A,C ,G ,T }& fraction[i] * fraction[ j ]
'
%
#
#
$
Felsenstein et Churchill (1996),
Hasegawa, Kishino et Yano (1985),
Tamura et Nei (1993)
Les modèles Tamura-Nei, F84 et
HKY
A:
De :
A
G
C
Les modèles Tamura-Nei, F84 et
HKY
T
#
2( A( G &
(R
1
ln $$1 '
PR '
Q !!
(R
2( R "
% 2( A( G
&
#
2( (
(Y
1
' T C ln $$1 '
PY '
Q !!
(Y
2( Y "
% 2( T ( C
&
( ( (
( ( ( # &
#
1
' $$( R( Y ' A G Y ' C T R !! ln $$1 Q !!
(R
(Y
%
" % 2( R( Y "
D='
A
-
!R"G / "R + #"G
#"C
#"T
G
!R"A / "R + #"A
-
#"C
#"T
C
#"A
#"G
-
!Y"T / "Y + #"T
T
#"A
#"G
!Y"C / "Y + #"C
-
Tamura et Nei (1993)
D’autres modèles
! Le modèle GTR est plus complexe que les modèles décrits
précédemment. Chacun des 6 paramètres de substitutions a
sa propre probabilité.
! Il existe d’autres modèles pour effectuer des corrections
spécifiques.
• Tamura accorde une importance aux variations (G-C)
• Jin-Nei-Gamma suppose un changement selon une distribution
Gamma des taux de substitutions des sites.
! Le nombre de paramètre influence la variance.
! Il existe des modèles d’évolution pour les séquences
protéiques.
• Kimura-protein
Jin et Nei (1990),
Kimura (1993),
Tamura (1992)
! !R = !Y correspond au modèle F84
! !R / !Y = #R / #Y correspond à HKY
Felsenstein et Churchill (1996),
Hasegawa, Kishino et Yano (1985),
Tamura et Nei (1993)
Modèles d’évolution
Rappels sur les arbres
Rappels sur les arbres
Racine
racine
Nœuds internes
a
Nœuds externes
ou feuilles
X
Partiellement résolue
Complètement résolu
A
A
A
B
C
E
C
E
C
D
B
B
E
D
D
Polytomie or multifurcation
bifurcation
a
b c
(b)
d
a
(c)
b c d
Rappels: Types d’arbre
Résolution d’une phylogénie
Complètement non résolue
Étoile
Y
d
(a)
X
Y
X
Y
b
Branches
racine
c
3 arbres possibles pour 4 taxons
(A, B, C, D)
Le nombre d’arbres non enracinés
A
B
# Taxons
Arbre 1
A
B
Arbre 2
C
A
D
Arbre 3
B
A
D
C
D
C
A
C
B
D
C
•
L’inférence phylogénétique cherche à découvrir lequel des
arbres possibles est corrects.
•
Le vrai arbre (au sens biologique): est celui qui représente le
mieux l’histoire évolutionaire des taxons.
C
D
E
B
A
C
D
)(n - 3)!
Une autre racine
B
C
C
Root
(2
E
F
( n -3)
Adapté de C-B Stewart Lecture (2000)
L’inférence de relation entre les taxons
requièrent une racine
B
1
3
15
105
945
10,935
135,135
2,027,025
.
.
.
.
!3.58 x 10 36
(2n - 5)!
B
Adapté de C-B Stewart Lecture (2000)
3
4
5
6
7
8
9
10
.
.
.
.
30
B
A
# arbres non
enracinés
Root
D
Arbre non enraciné
D
Arbre non enraciné
A
A
A
A
B
C
B
D
C
D
Arbre enraciné
Arbre enraciné
Root
Adapté de C-B Stewart Lecture (2000)
Root
Adapté de C-B Stewart Lecture (2000)
Nombre de racines possibles pour un arbre
de 4 taxons?
A
Arbre non enraciné 1:
2
1
B
Arbre enraciné 1a
4
C
5
Arbre enraciné 1a
D
3
B
A
A
C
D
A
B
B
D
C
C
A
D
A
Arbre enraciné 1b Arbre enraciné 1c Arbre enraciné 1d Arbre enraciné 1d
B
C
Des réarrangements ne modifiant pas la
topologie
C
D
D
C
D
A
B
B
Ces arbres racontent 5 différentes histoires
Adapté de C-B Stewart Lecture (2000)
Utilisez un taxon qui est en dehors du
groupe d’intérêt.
Nécessite une connaissance à priori
des relations taxonomiques.
C
B
B
C
D
D
C
A
A
B
B
B
B
C
D
D
A
C
A
C
D
B
outgroup
A
C
B
A
d (A,D) = 10 + 3 + 5 = 18
Midpoint = 18 / 2 = 9
10
A
D
E
C
D
C
3
B
Adapté de C-B Stewart Lecture (2000)
D
Nombre d’arbres enracinés vs non enracinés
A
Outgroup:
Mettre la racine au milieu du plus long
chemin entre 2 taxons.
Assume que l’évolution respecte
l’horloge moléculaire.
A
D
Adapté de C-B Stewart Lecture (2000)
Deux façons d’enracinés un arbre
phylogénétique
Point moyen (Midpoint):
A
C
2
2
5
D
B
F
# Taxa
3
4
5
6
7
8
9
.
.
.
.
30
# Unrooted
# Rooted
Trees x # Roots =
Trees
1
3
3
3
5
15
15
7
105
105
9
945
945
11
10,395
10,935
13
135,135
135,135
15
2,027,025
.
.
.
.
.
.
.
.
.
.
.
.
~3.58 x 1036
57
~2.04 x 1038
E
Adapté de C-B Stewart Lecture (2000)
Similarité vs. Relation évolutionnaire
Types de similarités
La similarité entre deux entités
La Similarité est différente de la relation évolutionnaire bien que
cette dernière est obtenue à partir de certaines forme de la première.
Similaire: Ressemblance (une observation)
Relation: connexion génétique (Fait historique)
6
1
1
3
1
5
C
C
G
Relation évolutionnaire:
Caractères ancestraux partagés (‘plésiomorphies’)
Caractères dérivés partagés (‘’synapomorphie’)
G
Homoplasie (évolution indépendante du même caractère):
Évènements convergents, évènements parallèles, évènement inverse.
Taxon B
Taxon C
Taxon A
C est plus similaire en séquence
de A (d = 3) que de B (d = 7),
mais C et B sont mieux reliés.
G
C
C
G
C
G
T
G
C
G
C
G
Taxon D
Adapté de C-B Stewart Lecture (2000)
Adapté de C-B Stewart Lecture (2000)
Représentation des partitions
Taxons
i
ii
iii
iv
…
x
y
…
A
1
1
0
0
…
1
0
…
B
1
1
0
0
…
?
?
…
C
0
0
1
1
…
0
1
…
D
0
0
1
1
…
?
?
…
E
0
0
1
0
…
0
1
…
F
0
1
0
0
…
1
0
…
C
B
iv
racine
i
racine
F
D
x
C
y
iii
ii
A
E
A
E
F
Les méthodes de distances:
principe général
Séquences d’ADN
A: CGTAAT
B: CGTACG
C: CGTCGA
D: ACT……
E: ………….
F: ………….
Les méthodes de distances
Matrice de dissimilarités
Les méthodes de distances:
principe général
Arbre Phylogénétique
A B C D E F
A
A 0 3 3 5 5 4
B
B 3 0 3 5 5 4
C
C 3 3 0 4 4 3
D
D 5 5 4 0 2 3
E
E 5 5 4 2 0 3
F 4 4 3 3 3 0
F
! di,j = distance évolutionnaire entre les taxons
i et j.
! Distance évolutionnaire représente le
nombre d’étapes d’évolution:
• Mutations nucléiques ou protéiques.
• Réarrangement.
! Cette distance est souvent estimée et non
connue avec précision (mutation
silencieuse).
Distances: Condition à vérifier
Propriété 1: d (a, b) ! 0
Non-négativité
Propriété 2: d (a, b) = d (b, a)
Symétrie
propriété 3:
d (a, b) = 0 ssi a = b
distinction
Propriété 4: d (a, c) " d (a, b) + d (b, c)
a
inégalité triangulaire
9
c
6
Relation matrice-phylogénie
! Étant donnée une matrice D, il n’est pas
toujours possible de la représenter par une
phylogénie T de sorte que les distances de
D soient identiques à celles de T.
! Dans ce cas, il faut s’en approcher le mieux
possible en optimisant un critère.
5
b
Adapté de C-B Stewart Lecture (2000)
Clustering
Remarques Clustering
! Principe très général
n groupes =n taxons
n-1 étapes
1 étape = fusion gloutonne de 2 groupes
• Données isolées que l’on structure en les regroupant pas à
pas
! Très utilisé en bioinformatique
• Analyse des données d’expression de gènes
• Assemblage d’EST
• phylogénie
! Questions
1 groupe structuré = la phylogénie
• Comment choisir des groupes à fusionner?
• Comment remplacer 2 groupes par un seul dans la matrice
de distance?
• Comment valuer les branches?
UPGMA: exemple
Algorithmes PGM
unweighted pair-group method using arithmetic
averages
#
$ Considérer chacun des taxons comme un groupe de
profondeur 0.
%$ Pour c de 1 à n-1 faire
#
$Trouver deux groupes i et j minimisant Di,j.
&$ Fusionner i et j en un groupe (ij) en les connectant à
un ancêtre x de profondeur Di,j /2.
Différences observées entre les séquences
Distance:
A
'$ Supprimer de D les lignes et colonnes i et j.
($ Ajouter à D une ligne et une colonne pour le groupe
(i,j) en calculant la distance de (ij) à chaque autre
groupe k
)$ Lorsqu’il reste deux groupes, placer la racine entre ces
2.
A
B
-
B
63
-
C
94
79
C
D
E
F
111
96
47
-
E
67
23
83
100
-
F
20
58
89
106
62
-
G
107
92
43
16
96
102
D
G
D
E
F
B
63
-
C
94
79
-
D
111
96
47
-
E
67
20
83
100
-
F
23
58
89
106
62
-
G
107
92
43
16
96
102
G
-
Fusion de D et G
G
-
D
C
-
Distance minimale
A
B
A
-
A
B
C
D
E
F
-
B
63
-
C
94
79
-
D
111
96
47
-
E
67
23
83
100
-
F
20
58
89
106
62
-
G
107
92
43
16
96
102
D
A
G
A
-
B
C
E
F
A
-
B
63
-
C
94
79
-
E
67
23
83
-
F
20
58
89
62
-
DG
109
94
45
98
104
G
d kl =
d il + d jl
2
DG
-
Distance minimale
A
B
C
E
F
Fusion de A et F
A
DG
A
-
B
63
-
C
94
79
-
E
67
23
83
-
F
20
58
89
62
-
DG
109
94
45
98
104
D
G
A
F
-
B
C
B
C
E
F
B
63
-
C
94
79
-
E
67
23
83
-
F
20
58
89
62
-
DG
109
94
45
98
104
-
D
G
AF
D
-
C
92
79
-
E
65
23
62
-
DG
107
94
45
98
F
DG
C
61
-
C
92
79
-
E
65
23
62
-
DG
107
94
45
98
A
F
AF
-
BE
63
-
C
92
71
-
DG
107
96
45
DG
-
-
B
E
D
G
A
F
E
DG
-
Fusion de B et E
BE
C
61
-
B
G
B
B
A
AF
AF
AF
DG
-
Distance minimale
AF
E
A
B
E
-
Fusion de (DG) et C
Distance minimale
AF
BE
C
DG
AF
D
G
AF
-
BE
63
-
C
92
71
-
DG
107
96
45
C
AF
-
BE
63
-
CDG
102
88
C
A
F
B
D
E
G
Fusion de (BE) et (AF)
BE
AF
-
BE
63
-
CDG
102
88
CDG
G
C
A
F
B
E
AFBE
-
CDG
94
CDG
A
F
B
E
-
D
D
-
FIN
AFBE
AF
CDG
-
F
A
BE
B
G
C
A
F
B
E
E
Racine
D
G
C
Précision sur PGM
! UPGMA
• Si le groupe i respectivement j contient ni (resp.
nj) taxons:
• D(ij),k = 1/2 (Di,k + Dj,k)
! WPGMA
•
D(ij),k = 1/(ni+ nj) (ni Di,k + nj Dj,k)
Distances ultramétriques
Doit satisfaire une cinquième propriété:
Propriété 5
d (a, b) " maximum [d (a, c), d (b, c)]
4
a
Les 2 plus grandes distances
sont égales et définissent un
triangle isocèle
6
b
6
! Complexité
•
•
•
•
O(n3)
n-1 itération de la boucle 2
étape 2.1 O(n2)
étape 6 O(n2)
c
Similarité = Relation si la distance
est
ultramétrique!
a
2
2
2
4
b
c
PGM et ultramétricité
! L’arbre produit par une méthode PGM est
ultramétrique: les feuilles sont à la même distance
de la racine.
! Valide seulement lorsque les organismes ont évolué
à la même vitesse évolutive (horloge moléculaire).
! Si la matrice de distances vérifie l’ultramétricité alors
les distances données par UPGMA sont identiques
aux premières.
! Sinon les résultats peuvent être très mauvais.
! Aucune maîtrise de la déviation par rapport à la
matrice de distances initiale.
Rappel: Algorithmes PGM
#
$ Considérer chacun des taxons comme un groupe de
profondeur 0.
%$ Pour c de 1 à n-1 faire
#
$Trouver deux groupes i et j minimisant Di,j.
&$ Fusionner i et j en un groupe (ij) en les connectant à un
ancêtre x de profondeur Di,j /2.
'$ Supprimer de D les lignes et colonnes i et j.
($ Ajouter à D une ligne et une colonne pour le groupe (i,j) en
calculant la distance de (ij) à chaque autre groupe k
)$ Lorsqu’il reste deux groupes, placer la racine entre ces 2.
Précision sur PGM
! UPGMA
• Si le groupe i respectivement j contient ni (resp.
nj) taxons:
• D(ij),k = 1/2 (Di,k + Dj,k)
! WPGMA
•
D(ij),k = 1/(ni+ nj) (ni Di,k + nj Dj,k)
! Complexité
•
•
•
•
O(n3)
n-1 itération de la boucle 2
étape 2.1 O(n2)
étape 6 O(n2)
Exercice
A
0
B
8
0
C
7
9
0
D
12
14
11
0
! Reconstruire l’arbre en utilisant UPGMA.
Neighbor Joining
!
!
!
!
!
Algorithme de NJ
Saitou et Nei, 1987.
Autorise un taux d’évolution différent entre les
lignées étudiées.
Il permet d’inférer des phylogénies sur des
centaines d’espèces.
Le principe de Neighbor Joining consiste en la
recherche séquentielle des voisins en minimisant la
longueur totale de l’arbre.
Algorithme glouton.
Algorithme de NJ
Exercice
A
0
B
8
0
C
7
9
0
D
12
14
11
! Calculer U
! Reconstruire l’arbre et les longueurs de
branches en utilisant NJ.
0
Commentaires sur NJ
! Idée
• être moins sensible que PGM aux différences de
vitesses d’évolution.
! Technique
• Minimiser la distance entre les groupes
fusionnés.
! Complexité
• O
(n3)
: similaire à PGM
! Produit un arbre additif
Addivité
! L’arbre produit par NJ est optimal Di,j = Ai,j
pour tout i et j si et seulement si:
•
! Sinon aucun contrôle sur la déviation.
! Remarques générales: pour qu’une matrice
de distances traduise mieux un arbre
évolutionnaire il faut:
•
•
Conclusion sur NJ et UPGMA
! Implanté dans les principaux logiciels:
• Paup (Swofford)
• Phylip (Felsenstein)
! Méthode qui choisit l’arbre le plus proche de la matrice de
données étant donné un critère.
! Critère
• Valeur numérique associée à une phylogénie, qui permet
entre autres de la comparer (en terme de qualité) avec
d’autres phylogénies.
weighbor (Bruno, Socci et Halpern)
BioNJ (Gascuel)
! Méthodes algorithmiques:
Qu’elle soit métrique ou ultramétrique
Qu’elle soit additive.
Méthodes d’ajustement
! NJ existe en plusieurs variante dont:
•
•
Di,j + Dk,l ! max{Di,k + Dj,l; Di,l + Dj,k}
! Critère des moindres carrés
• Un arbre produit sans optimisation d’un critère numérique précis.
! Si les matrices ne sont ni ultramétriques ou additives, elles
peuvent mener à de mauvais résultats.
! NJ est plus robuste (surtout pour les espèces proches).
! Impossibilité de comparer la qualité de 2 arbres.
!
!
!
!
W indique la confiance accordée aux distances
Si W = 1 moindres carrés non pondérés (Cavalli-Sforza, 1967)
Si W = 1/(dij)2 Fitch et Margoliash (1967)
Si W = 1/(dij) Beyer (1974)
Précision sur le critère des
moindres carrés
Comment utiliser le critère des
moindres carrés
!
Plusieurs topologies possibles:choisir celle ayant la
valeur de LS optimale.
! Données: D, n taxons
!
Intuition sur LS(A)
•
Si A représente parfaitement D (additive et A obtenu par
NJ, par exemple) alors LS(A) = 0
Sinon plus LS(A) augmente moins A correspond à D.
•
!
Wi,j
•
•
!
Si Di,j est fiable alors Wi,j augmente sinon il diminue (si 0 =
oublier cette donnée).
Idée: ne pas discriminer sur une distance pas fiable.
Il existe plusieurs autres variantes du poids.
! Étape 3: Calculer LS(Ti) pour toutes les topologies.
! Étape 4: Choisir l’arbre ayant le score LS le plus bas.
Commentaires sur LS
! Problème algorithmique:
• Évaluer la topologie A aux branches valuées ayant le score
le plus bas pour LS est NP-difficile.
! Remarques: NJ est une bonne approximation.
! Exploration de l’espace des solutions.
! Valuer optimalement les branches d’une topologie =
trouver la valuation qui produira le score LS
minimal.
• Peut être résolu par Algèbre Linéaire (Felsenstein 2004, p
148-153).
Les longueurs de branches
Trouver les longueurs par Algèbre linéaire
Récapitulatif
! 2 types de méthodes / 2 philosophies
• Algorithmique (clustering): rapides mais limitées.
• Basées sur un critère : lourdes mais plus
informatives.
! Il existe de nombreuses variantes de ces
méthodes.
Explorer l’espace des topologies
!
Trouver l’arbre optimal.
!
Topologie = structure de l’arbre.
!
Espace des topologies à n feuilles = tous les arbres
non valués de n feuilles.
!
Le problème:
•
• Critère d’évolution minimum par exemple.
! Important:
• Connaître le plus précisément la qualité des
données pour savoir quelle méthode employer
(Wi,j, additivité, horloge moléculaire,…).
!
2 stratégies:
•
•
!
Comment examiner tous les éléments de cet espace pour
choisir celui qui optimise le critère donné?
Recherche exacte.
Recherche heuristique.
Problème NP-difficile en général.
Remarques
!
Optimiser un critère:
•
Étant donné D, trouver l’arbre optimal minimisant le
critère choisi.
!
Techniques similaires pour arbres enracinés.
!
Nombre de topologies (O (2n-5)!).
!
À 1/(1 million de seconde) par topologie, il nous
faut plus de 6.786 années pour reconstruire toutes
les topologies d’un arbre de 15 feuilles.
Recherche exacte
!
!
!
!
Principe: partir de 3 taxons et ajouter les autres feuilles une à
une.
Sommet: une topologie
Arête: ajouter une arête à une topologie.
Ajout d’une nouvelle arête entraîne la division d’une arête
existante.
Z
A
B
A
B
C
Recherche exacte: Arbre de choix
Recherche exacte
! Parcourir tout l’arbre de choix et à chaque
feuille (topologie complète), calculer son
score et la conserver si ce score est
meilleur que tous ceux calculés avant.
! Parcours récursif.
! Valable pour n <= 10.
! Utiliser branch and bound, branch and cut.
Branch and bound
! Diminue l’espace de solution.
! Utilise un score optimal à jour.
• Choix du score de départ important.
• Intérêt d’une bonne approximation.
Branch and
bound
! X= sommet courant de score ">#
• Il existe un score pour une topologie incomplète.
! Ajouter une feuille ne dégradera pas le score: pas toujours
vérifié (LS).
! Il n’est pas nécessaire d’explorer les descendants de X.
! Nous sommes sûr de trouver un arbre de score optimal, mais
nous ne contrôlons pas le temps d’exécution.
! Technique générale d’exploration d’un arbre de possibilités.
Heuristiques: principe du maximum
local
!
Espace de possibilités de 11.
!
Chacune ayant un score entre 1 et 5.
!
Voisins de X: les nœuds accessibles à
partir de X avec un saut de 1.
!
Idée: partir d’un sommet quelconque et
se déplacer vers son meilleur voisin tant
que c’est possible
!
Phylogénie:
•
•
Sommets = topologies
Arêtes = réarrangements de topologies
Les 15
arbres
possibles
pour 5
feuilles
Commentaires
! Technique sensible aux choix de la topologie de
départ.
! NJ est une bonne approximation.
! Peut nécessiter un recalcul de certaines
informations ajoutées à une topologie.
! Réarrangements classiques: NNI, SPR, TBR.
Réarrangement
NNI
! Le nombre de voisin peut être assez élevé mais la
méthode reste polynomiale.
! Peut être utilisé avec une technique de branch and
bound.
! Stratégie gloutonne.
Réarrangement
SPR
Réarrangement
TBR
Addition de taxons pas à pas
!
!
!
À partir de 3 taxons, ajouter le
taxon suivant optimalement
(glouton).
O(n2 * calcul du score).
Variantes basées sur l’ordre
d’insertion des taxons.
!
PAUP: insère le taxon qui optimise
l’augmentation du score.
!
FARRIS: défini un ordre d’insertion
des taxons à partir de leur distance
à un taxon de référence.
Récapitulatif
! 2 stratégies
• Recherche exacte (branch and bound)
• Heuristique.
! Choix dicté par le nombre de taxons.
! Possibilité de combiner plusieurs techniques
• Réarrangements + branch and bound
• Addition pas à pas ou décomposition en étoile +
réarrangements.
! Possibilité de générer plusieurs phylogénies
optimales.
! Multitudes de variantes possibles.
Décomposition en étoile
!
Partir d’une étoile E et à
chaque étape, remplacer E
par une plus petite.
!
Ajout de branchement itératif.
!
Glouton: créer le
branchement qui minimise le
score du nouvel arbre.
!
O(n3 * calcul du score).
!
Quel algorithme l’emploie?
Téléchargement