Inférence de super-arbres
phylogénétiques multiples
en utilisant l’algorithme
des k-moyennes
Nadia Tahiri
BIF7002 – Hiver 2017
Plan
I.
Introduction
1. Phylogénie
2. Mesures de comparaison des arbres
II. Classification d’arbres phylogénétiques
1. Problématique
2. Algorithme
III. Résultats
1. Simulations
2. Données réelles (biologiques et linguistiques)
IV. Conclusion
Introduction
La phylogénie
La phylogénie (ou phylogénèse) étudie la parenté entre différents êtres vivants en
vue de comprendre leur évolution.
branches
ancêtres virtuels
racine
Temps
feuilles (espèces)
Reconstruction d’un arbre phylogénétique
alignement des séquences
AAATGATCTGCGTCAATATTATAA
AAATGATCTGCGTCAATATTA---------------------TAA
GCCTGATCCTCACTACTGTCATCTTAA
GCCTGATCCTCACTA------------------CTGTCATCTTAA
ATAGGGCCCGTATTTACCCTATAG
ATA---------------------GGGCCCGTATTTACCCTATAG
AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA
AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA
AACTGATCTGCTTCAATAATTTAA
AACTGATCTGCTTCAATAATT---------------------TAA
0
4
2
4
4
4
0
4
4
2
2
4
0
4
4
4
4
4
0
4
4
2
4
4
0
application d’une
méthode de
reconstruction d’arbres
calcul des distances
ou des dissimilarités
entre les espèces
Mesures de comparaison des arbres
Il existe quatre principales mesures de comparaison d’arbres
phylogénétiques:
 La distance des moindres carrés (LS) (Gauss, 1795);
 La dissimilarité de bipartitions (DB) (Boc et al., 2010, Makarenkov et
al., 2007);
 La distance de quartets (QD) (Bryant et al., 2000);
 La distance de Robinson et Foulds (RF) (Robinson et Foulds, 1981).
Classification d’arbres phylogénétiques
Nadia Tahiri, Matthieu Willems, Vladimir Makarenkov (2015) Inférence de super-arbres
phylogénétiques multiples en utilisant l’algorithme des k-moyennes, article publié dans les
actes de la conférence SFC-2015.
Problématique
Idée: Classification d’arbres phylogénétiques
basée sur l’algorithme des k-moyennes
permet de distinguer les familles de gènes qui
ont la même histoire évolutive (e.g. gènes
orthologues)
 Nécessité de fusionner les arbres
phylogénétiques via le projet ToL (Tree
of Life) 1 (Maddison et al., 2007)
 Perte d’informations
 Incohérence de la fusion des arbres
phylogénétiques
Nous proposons ici une méthode de
partitionnement d’un ensemble de n
arbres phylogénétiques qui se base
sur l’algorithme des k-moyennes
1
http://tolweb.org/tree/
Algorithmes d’inférence d’arbres consensus
Arbre T1
Arbre T2
Arbre consensus (strict et majoritaire) de T1 et T2
Les trois principales approches pour l’inférence d’arbres consensus :
 Arbre consensus strict (Sokal et Rohlf, 1981)
 Arbre consensus majoritaire (Margush et McMorris, 1981)
 Arbre consensus majoritaire étendu (Felsenstein, 1985)
Algorithmes d’inférence d’un super-arbre
Les méthodes de super-arbres réconcilient des arbres phylogénétiques définis
sur des ensembles de taxons différents mais partiellement chevauchants.
Principales méthodes d’inférence de super-arbres:
 Dans le passé (Gordon, 1986)
Arbres sources
Super-arbre
Illustration d’une reconstruction dans le
passé (Bininda-Edmonds, 2004).
Algorithmes d’inférence d’un super-arbre
Les méthodes de super-arbres réconcilient des arbres phylogénétiques définis
sur des ensembles de taxons différents mais partiellement chevauchants.
Principales méthodes d’inférence de super-arbres:
 Dans le présent : MPR (Ragan, 1992; Doyle, 1992)
E
F G H J K L
AB C D E
A B
C
F G H I J K L
K L
C DE H I K
Construction d’un super-arbre
en utilisant les techniques
d’optimisation ou de consensus
Super-arbre
Arbres sources
Illustration d’une reconstruction dans le
passé (Bininda-Edmonds, 2004).
Algorithme
Nom : Super-trees
Méthode : utilisation de l’algorithme des k-moyennes pour classifier les arbres
phylogénétiques
Propriété : arbre consensus est un arbre médian d’un groupe d’arbres dans le sens de la distance
topologique de Robinson et Foulds (Barthélemy et McMorris,1986).
Données en entrée :
- n arbres phylogénétiques définis sur des ensembles d’espèces (i.e., objets, taxa)
différents, mais chevauchants
Particularité : Il faudra filtrer les ensembles d’espèces
Difficulté : Définir un seuil minimum de feuilles chevauchantes entre les arbres
phylogénétiques
Données en sortie :
- partitionnement optimal de ces arbres en un ou plusieurs groupes;
- pour chaque groupe retrouvé:
 la liste des arbres phylogénétiques associés;
 Indices de validités des clusters utilisés:
 CH (Calinski-Harabasz, 1974),
 W.
Algorithme des k-moyennes
Description: Permet de déterminer le partitionnement optimal des données (i.e., arbres
phylogénétiques dans notre cas) en k groupes selon un critère de similarité (MacQueen, 1967).
Distance choisie: distance de Robinson et Foulds (1981)
A
C
D
A
E
D
B
T
E
B
T’
C
La distance topologique de Robinson et Foulds entre deux arbres phylogénétiques est égale
au nombre minimal d’opérations élémentaires de fusion et de séparation de noeuds,
nécessaires pour transformer un arbre en un autre (d(T,T’) = 2).
Critères d’évaluation
• Calinski-Harabasz (1974);
•W.
Fonction objective
OFappr 
K N k 1 N k
   RFnorm (Tki , Tkj )
k 1 i 1 j i 1
N – nombre d’arbres phylogénétiques
K – nombre de groupes
Nk – nombre d’arbres phylogénétiques dans le cluster k
RFnorm – Distance topologique de Robinson et Foulds normalisée par 2n-6
Tki – arbre phylogénétique i du cluster k
Tkj – arbre phylogénétique j du cluster k
Critère de calinski-harabasz (1974)
SS B ( N  K )
CH =

SSW ( K  1)
N – nombre d’arbres phylogénétiques
K – nombre de groupes
SSB – indice d’évaluation intergroupe
SSW – indice d’évaluation intragroupe
Les indices SSW – Cas des arbres complets
SSW – indice d’évaluation intragroupe
K
SSW
1

k 1 N k
N k 1 N k
  RF (Tki , Tkj )
i 1 j i 1
RF – distance topologique de Robinson et Foulds (1981)
Tki et Tkj – deux arbres phylogénétiques appartenant à la même classe k
Nk – nombre d’arbres phylogénétiques dans la classe k
K – nombre de classes
N – nombre total d’arbres phylogénétiques dans le jeu de données
Les indices SSW – Cas des arbres partiels
SSW – indice d’évaluation intragroupe
K
SSW
1

k 1 N k
 RF (Tki , Tkj ) 

 

j i 1  2n(Tki , Tkj )  6 
N k 1 N k

i 1
2
RF – distance topologique de Robinson et Foulds (1981)
Tki et Tkj – deux arbres phylogénétiques appartenant à la même classe k
Nk – nombre d’arbres phylogénétiques dans la classe k
K – nombre de classes
N – nombre total d’arbres phylogénétiques dans le jeu de données
2n(Tki , Tkj )  6 – valeur maximale de RF entre les arbres Tik et Tjk, ayant n (Tki , Tkj ) feuilles
communes
Les indices SSB – Cas des arbres complets
SSB – indice d’évaluation intergroupe

1  N 1 N

SS B     RF (Ti , T j )   SSW
N  i 1 j i 1

les arbres Ti et Tj appartiennent à des classes différentes
Les indices SSB – Cas des arbres partiels
SSB – indice d’évaluation intergroupe
2

N 1 N  RF (T , T )  
1
i
j
   SSW
SS B     
N i 1 j i 1 2n(Ti , T j )  6  


les arbres Ti et Tj appartiennent à des classes différentes
Limite:
Ne permet pas de comparer la solution en un arbreconsensus unique (cas où K = 1) avec la solution admettant
les arbres-consensus multiples (cas où K ≥ 2).
Fonction objective W
Fonction objective W
où :
1 K
W () 
 k → Min
N  K k 1
2

N k 1 N k 

RF
(
T
,
T
)
2
ki kj


 , if N k  1


 k   N  ( N  1)


k
k
i 1 j i 1  2n (Tki , Tkj )  6 

 0, if N k  1
RF – distance de Robinson et Foulds (1981)
Tki et Tkj – deux arbres phylogénétiques Tki et Tkj appartenant à la même classe k
RF(Tki, Tkj) – distance RF entre les arbres phylogénétiques Tki et Tkj
Nk – nombre d’arbres phylogénétiques dans la classe k
K – nombre de classes
N – nombre total d’arbres phylogénétiques considérés
n(Tki, Tkj) – nombre d’espèces identiques dans les arbres phylogénétiques Tki et Tkj
Limite:
Ne tient pas compte de la distance intergroupe.
Résultats
Validation de l’approche et des critères
Plan des simulations:
- Étape 1: Générer k arbres phylogénétiques binaires aléatoires {T1…Tk}, ayant de
n1 à n2 feuilles chacun (et au moins n feuilles communes), où k = {1…10} et n = {8,
16, 32, 64}.
- Étape 2: Pour chaque arbre phylogénétique Ti (où i = 1…k), générer l’ensemble de
100 arbres appartenant à la classe i pour chacun des intervalles indiqués cidessous. Pour ce faire: nous allons générer des arbres phylogénétiques aléatoires
tels que le pourcentage de similitude (mesuré à l’aide de la distance RF) entre eux
et Ti soit:
de 0 à 10% (Intervalle I),
de 10 à 25% (Intervalle II),
de 25 à 50% (Intervalle III).
- Étape 3: Exécuter l’algorithme Super-trees sur les ensembles d’arbres
générés avec les différents paramètres
(k, N, n, Intervalle, Fonctions Objectives = W, CH;
2 variantes testées: la distance RF était mise au carrée ou non),
Mesure de la qualité des résultats par les indices Rand et Rand ajusté.
Indice Rand ajusté
 nij    ai   b j   n 
ij  2   i 2  j  2   2 
        
ARI 
 b j    ai   b j 
1   ai 




 j  2   i 2  j  2 
2  i 2 
      
 n
 
 2
,
Remarque:
Mesure la qualité des résultats par la différence du nombre simulé de
clusters et du nombre de clusters dans la partition trouvée par notre
algorithme (i.e. similarité entre deux partitions de clusters)
Avoir une connaissance a priori des données (i.e. nombre de clusters)
Intervalle [-1; 1]
Très sensible versus à l’indice Rand
1
(Hubert et Arabie, 1985)
Validation de l’approche et des critères
du nombre clusters
Différence
clusters
Différence du nombre
(trouvé vs réel) (trouvé vs réel)
(d)
2.0
Étude de l’évolution de l’indice Rand ajusté moyen et de la différence du nombre
de classes
pour les quatre critères:
1.5
-- CH ;
2.0
1.0
-- CH où RF n’est pas au carré ;
1
2
0.5
-- W
-- W où RF n’est pas au carré.
(b)
1.0
1.0
0.8
0.8
0.6
0.6
0.4
ARI
1.0
0.0
ARI
(a)
1.5
0.5
3
4
Nombre de cluster
5
0.2
0.4
0.2
0.0
0.0
8
0.0
16
32
64
1
Number of leaves
2(c)
2
3
4
5
Number of clusters
3
4
Nombre de cluster
5
(d)
1.0
2.0
Difference in number
of clusters
1
0.8
ARI
(d)
1.5
0.6
1.0
0.4
0.5
0.2
0.0
0%
0.0
10%
25%
50%
Level of noise
75%
1
2
3
4
Number of clusters
5
Validation de l’approche et des critères
Étude de l’évolution de l’indice Rand ajusté moyen (avec différents taux de bruit) :
(b)
1.0
1.0
0.9
0.9
ARI (CH)
ARI (CH)
(a)
0.8
0.7
0.6
8
16
(d)
32
Différence du nombre clusters
(trouvé vs réel)
Number of leaves
(c)
0.7
0.6
ARI (W)
0% de bruit
0.7
10% de bruit
0.6
0.5
0.4
0.3
8
16
1
2
3
4
25% de bruit
5
Number of clusters
2.0
50% de bruit
(d)
0.9
1.5
0.8
1.0
0.7
0.6
0.5
0.4
0.5
0.3
32
Number of leaves
0.5
64
ARI (W)
0.5
0.8
64
1
2
3
4
5
Number of clusters
0.0
1
2
3
4
Nombre de cluster
5
Validation de l’approche et des critères
Comparaison de :
notre algorithme basé sur l’indice de validité CH (dont la distance RF n’est pas
mis au carré
avec Δ l’approche directe (i.e. par l’inférence d’un consensus et dont la distance
RF est mis au carré)
(a)
(b)
1.0
0.9
0.9
ARI
ARI
1.0
0.8
0.7
0.8
8
16
32
64
0.7
20
128
Number of leaves
60
80
100
Number of trees
(c)
(d)
700
500
600
Time (in seconds)
Time (in seconds)
40
500
400
300
200
100
0
8
16
32
64
Number of leaves
128
400
300
200
100
0
20
40
60
80
Number of trees
100
Classification des protéines ribosomales des
archaebactéries (Matte-Tailliez et al., 2002 )
Données:
- Soit 49 protéines
ribosomales de 14
archéobactéries (étudiées
initialement par Matte-Tailliez
et al., 2002).
Motivations:
- Trouver les protéines des 14
archaebactéries partageant la
même histoire évolutive.
- Détecter les gènes qui ont
subi les mêmes transferts
horizontaux (HGT).
L’arbre d’espèces pour 14 archéobactéries
(Matte-Tailliez et al., Mol. Biol. Evol., 2002).
Classification des protéines ribosomales des
archaebactéries (Matte-Tailliez et al., 2002 )
Arbres consensus selon le critère CH
(a)
H. marismortui
(b)
H. marismortui
Halobacterium sp.
Halobacterium sp.
M. barkeri
A. fulgidus
A. fulgidus
F. acidarmanus
F. acidarmanus
T. acidophilum
T. acidophilum
M. thermoautotrophicum
M. thermoautotrophicum
M. jannashii
C2
-3
-2
M. jannashii
P. horikoshii
C2
P. horikoshii
P. abyssi
-4
P. abyssi
P. furiosus
P. furiosus
S. solfataricus
S. solfataricus
A. pernix
P. aerophilum
Arbre consensus 1 (avec les transferts)
C2
C2
C
1-
2
-3
C1
-1
C1
M. barkeri
A. pernix
-1
P. aerophilum
Arbre consensus 2 (avec les transferts)
Données biologiques de Stockham et al. 2002
Groupe biologique
étudié
Nombre
d’espèces
Nombre d’arbres
phylogénétiques
Nombre de
classes trouvé
par Stockham et
al. 2002
Nombre de
classes trouvé
par notre
algorithme avec
le critère CH
PEVCCA *1
129
168
3
3
PEVCCA2
129
654
5
5
Campanulaceae family
51
450
3
3
Caesalpinia family
13
216
1 (supposé par
les auteurs)
2
Évolution des langues Indo-Européennes (IE)
La base de données:
- Organisée par Dyen et al. (1997) et
améliorée par Boc et al. (2010).
- Regroupée en 200 mots de la liste
Swadesh, traduite dans 87 langues et
structurée en 1315 cognats.
Motivations:
- Trouver des groupes de langues partageant la
même histoire évolutive.
- Mettre en avant l’origine des langues IE
Hypothèse Kourgane
Hypothèse Anatolienne
ou une nouvelle hypothèse
L’arbre d’évolution des langues IE
(Gray et Atkinson, Nature, 2003).
Résultats pour les langues IE
La langue Riksmal est l’hybride du Danois et du couple (Islandais, Féroïen)
Split-graphe pour sept langues nord-germaniques
(Willems et al., BMC Evol. Bio., 2016).
Résultats pour les langues IE
La langue Riksmal est l’hybride du Danois et du couple (Islandais, Féroïen)
SwedishUp
(a)
SwedishUp
(b)
SwedishVL
Faroese
0.40
0.83
Danish
Icelandic
0.63
Riksmal
Danish
0.79
0.40
0.58
Riksmal
Icelandic
0.67
SwedishVL
Swedish
0.20
Faroese
Swedish
Deux super-arbres que nous avons retrouvés pour les langues nord-germaniques en
utilisant le critère CH
Conclusion
Conclusion
 Développement :
d’un nouvel algorithme pour la classification des super-arbres
de nouveaux critères de classification (i.e. fonction objective W et le critère CalinskiHarabasz CH) pour le cas des arbres phylogénétiques (i.e., additifs)
 Validation de l’approche par simulations
 Application de l’algorithme sur des données réelles (i.e. biologiques et linguistiques)
Variante k-médoïde, autres indices tel que : Silhouette, Gap statistique et variantes de CH
Perspectives
 Définir un seuil du choix du bon critère (CH vs W)
Améliorer la complexité de l’algorithme
 Incorporer le boostrapping accompagnant les résultats des super-arbres
 Définir un seuil minimum de feuilles chevauchantes entre les arbres phylogénétiques
Merci de votre attention !!!
Remerciements
Mon directeur de thèse : Vladimir Makarenkov
Mes collaborateurs et membres du laboratoire de bioinformatique de l’Université
du Québec à Montréal:
 Dunarel Badescu (McGill)
 Nancy Badran (UQÀM)
 Abdoulaye Baniré Diallo (UQÀM)
 Alexandre Gondeau (UQÀM)
Les fonds FQRNT et la fondation de l’UQÀM pour le financement de ce projet
Références
•
•
•
•
•
•
•
Barthélemy, J. P., & McMorris, F. R. (1986). The median procedure
for n-trees. Journal of Classification, 3(2), 329-334.
Calinski, T. et Harabasz, J. 1974. A dendrite method for cluster
analysis. Communications in Statistics-theory and Methods, 3(1),
1-27.
Gordon, A. D. (1986). Consensus supertrees: the synthesis of
rooted trees containing overlapping sets of labeled leaves.
Journal of Classification, 3(2), 335-348.
MacQueen, J. (1967). Some methods for classification and
analysis of multivariate observations. In Proceedings of the fifth
Berkeley symposium on mathematical statistics and probability,
1(281-297), 14.
Robinson, D.R. et Foulds, L.R. (1981) Comparison of phylogenetic
trees. Mathematical Biosciences, 53, 131-147.
Tahiri, N., Willems, M., Makarenkov, V. (2014) Classification
d’arbres phylogénétiques basée sur l’algorithme des k-moyennes,
Actes de SFC-2014.
Tahiri, N., Willems, M., Makarenkov, V. (2015) Inférence de
super-arbres phylogénétiques multiples en utilisant l’algorithme
des k-moyennes, Actes de SFC-2015.