Détection des transferts horizontaux de gènes - LabUnix

publicité
Détection des transferts horizontaux de gènes :
modèles et algorithmes appliqués à l’évolution des
espèces et des langues
Alix Boc
Université du Québec à Montréal
Bif7002 – Séminaire de Bioinformatique
BIF7002 – Séminaire de Bioinformatique
Alix Boc
Sommaire
 Reconstruction des arbres phylogénétiques
 Transferts horizontaux de gènes
 Détection des transferts de gènes complets
 Détection des transferts de gènes partiels
 Application en biolinguistique
 Travaux futurs
BIF7002 – Séminaire de Bioinformatique
2
Alix Boc
Inf7212 - Introduction aux systèmes informatiques
Reconstruction des arbres phylogénétiques
Bif7002 - Séminaire Bioinformatique
Alix Boc
L’arbre phylogénétique
espèces
Inf7212 - Introduction aux systèmes informatiques
branches
ancêtres virtuels
racine
Bif7002 - Séminaire Bioinformatique
4
Alix Boc
Reconstruction d’un arbre phylogénétique
 Alignement de séquences
AAATGATCTGCGTCAATATTATAA
GCCTGATCCTCACTACTGTCATCTTAA
ATAGGGCCCGTATTTACCCTATAG
AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA
AACTGATCTGCTTCAATAATTTAA
• ClustalW (Higgins et al., 1994)
• DiAlign (Morgenstern, 1999)
• ….
• Distances
AAATGATCTGCGTCAATATTA---------------------TAA
• Maximum de parcimonie
• Maximum de vraisemblance
• Approche Bayesienne
GCCTGATCCTCACTA------------------CTGTCATCTTAA
ATA---------------------GGGCCCGTATTTACCCTATAG
AACTGGTCCACCCTTATACTAAAAGACGCCTCACTAGGAAGCTAA
AACTGATCTGCTTCAATAATT---------------------TAA
Bif7002 - Séminaire Bioinformatique
5
Alix Boc
Définitions : reconstruction d’un arbre phylogénétique
 Application d’un modèle d’évolution (méthodes de distances)
• Uncorrected Distances
• Jukes Cantor
• Tajima-Nei
• Kimura 2 parameters
• Tamura
• Jin-Nei Gamma
• ….
0
4
2
4
4
4
0
4
4
2
2
4
0
4
4
4
4
4
0
4
4
2
4
4
0
 Application d’une méthode de reconstruction (méthodes de distances)
• Neighbor Joining
• ADDTREE
• Unweighted Neighbor Joining
• Circular order reconstruction
• Weighted least-squares
• BioNJ
• ….
Bif7002 - Séminaire Bioinformatique
6
Alix Boc
Problématique
Bif7002 - Séminaire de Bioinformatique
7
Alix Boc
Les modèles en réseau
Certains mécanismes d’évolution ne peuvent être représentés que par des modèles en
réseau.
Root
1
2
3
Sp1
4
Sp2 Sp4 Sp3
5
 Le transfert horizontal de gènes (Hallett et Lagergren, 2001, Boc et Makarenkov, 2003)
 L’hybridation (Huson, 1998, Bryant et Moulton, 2004)
 L’homoplasie et la convergence de gènes (Legendre et Makarenkov, 2002)
 La duplication ancestrale et la perte partielle de gènes (Delwiche et Palmer, 1996)
BIF7002 – Séminaire de Bioinformatique
8
Alix Boc
Le transfert horizontal de gène
BIF7002 – Séminaire de Bioinformatique
9
Alix Boc
Quelques méthodes pour la detection de transferts horizontaux de gènes
 Hein (1993); Hein et al. (1995, 1996)
 Haseler et Churchill (1993)
 Page (1994); Page et Charleston (1998)
 Charleston (1998)
 Hallett et Lagergren (2001)
 Mirkin, Fenner, Galperin et Koonin (2003)
 V’yugin, Gelfand et Lyubetsky (2003)
 Boc et Makarenkov (2003); Makarenkov et al. (2006)
 C. Than, D. Ruths et L. Nakhleh (2008)
BIF7002 – Séminaire de Bioinformatique
10
Alix Boc
Détection des transferts complets
(Boc et al., 2010)
BIF7002 – Séminaire de Bioinformatique
Alix Boc
Détection des transferts complets
Rhodobacter
Rhodobacter
Xanthobacter
Xanthobacter
Nitrobacter
Nitrobacter
Thiobacillus fe1
Chromatium L
Chromatium L
Thiobacillus fe1
Hydrogenovibrio L2
Hydrogenovibrio L2
Arbre d’espèces
Arbre de gène (e.g., rbcL)
Données : arbres phylogénétiques d’espèces et de gène sur le même ensemble d’espèces.
Trouver : nombre minimal de déplacements de sous-arbres dans l’arbre d’espèces permettant
de le transformer en l’arbre de gène (=> scénario de réconciliation).
Contraintes : incorporer les règles d’évolution et maintenir la complexité algorithmique
polynomiale (le problème SPR, subtree pruning and regrafting, a été montré NP-complet par
Hein et al., 1996).
BIF7002 – Séminaire de Bioinformatique
12
Alix Boc
Exemples de règles d’évolution
Règles d’évolution : 2 exemples
Contrainte de sous-arbres
Root
Les transferts sur la même
lignée sont interdits.
Root
Le transfert entre les branches (z,w) et (x,y) de l’arbre
d’espèces T sera permis si et seulement si le sous-arbre
regroupant les deux sous-arbres affectés, et enraciné par la
LGT1
branche (z,b) dans T1, est présent dans l’arbre de gène.
LGT2
Lineage 1
Lineage 2
Les transferts croisés sont
interdits.
BIF7002 – Séminaire de Bioinformatique
La contrainte de sous-arbres permet de prendre en
compte automatiquement toutes les règles d’évolution.
13
Alix Boc
Critères d’optimisation
Moindres carrés
Q
 (d (i, j)   (i, j))
i
2
Dissimilarité de bipartitions
 min
Cette dissimilarité mesure la différence topologique entre deux tables de
bipartitions décrivant deux arbres. Elle est définie comme suit :
j
d(i,j) - distance entre i et j dans l’arbre d’espèces.
(i,j) - distance entre i et j dans l’arbre de gène.
bd  ( 
Min ( Min ( d ( a, b); d ( a, b)) )  
aBT bBT '
Min ( Min ( d (b, a ); d (b, a )) )) / 2
bBT ' aBT
où d(a,b) est la distance de Hamming entre les vecteurs de bipartitions a et b
Robinson et Foulds
ex: bd(T,T’)= ((2 + 1 + 2) + (2 + 1 + 1))/2 = 4.5.
A
C
D
A
E
D
1
B
T
E
B
T1
4
T
6
4
3
T’
C
a
b
c
d
2
f
e
La distance topologique de Robinson et Foulds (1981)
entre deux arbres phylogénétiques est égale au
nombre minimal d’opérations élémentaires de fusion et
de séparation de noeuds nécessaires pour transformer
5
2
a 0 1 1 1 0 1 2
b 0 0 1 1 0 1 1
c 0 0 1 0 0 1 2
3
6
5
1
2 0 1 1
1 0 1 0
0
0
1
1
0
0
1 0 0 0
1
0
1
e
f
d
un arbre en un autre.
Ex : la distance de Robinson et Foulds entre les arbres
T et T1 est égale à 2.
BIF7002 – Séminaire de Bioinformatique
14
Alix Boc
Algorithme
BIF7002 – Séminaire de Bioinformatique
Alix Boc
Algorithme
Inférer les arbres d’espèces et de gène T et T’ sur le même ensemble d’espèces;
Enraciner T et T’ selon des évidences biologiques ou en utilisant un outgroup ou un midpoint;
Si (il existe des sous-arbres identiques avec au moins deux feuilles dans T et T’) alors
Réduire la taille du problème en les réduisant à une seule espèce dans T et T’;
Sélectionner le critère d’optimisation : OC = LS (moindres-carrés), RF (distance de Robinson et Foulds), QD (distance des
quartets) ou BD (dissimilarité de bipartitions);
Calculer la valeur initiale de OC entre T et T’;
T0 = T;
k = 1;
Tant que (OC ≠ 0)
{
Trouver l’ensemble de tous les THG éligibles à l’étape k (noté E_THGk);
L’ensemble E_THGk contient seulement les transferts satisfaisant la contrainte de sous-arbre;
Tant que (les THG satisfaisants les conditions des Théorèmes 2 et 1 existent)
{
Si (il existe des THG appartenant à E_THGk et satisfaisant les conditions du Théorème 2) alors
Effectuer les opérations SPR correspondant à ces THG;
Si (il existe des THG appartenant à E_THGk et satisfaisant les conditions du Théorème 1) alors
Effectuer les opérations SPR correspondant à ces THG;
}
Effectuer toutes les opérations SPR correspondant aux THG satisfaisant la contrainte de sous-arbres;
Calculer la valeur de OC pour identifier la direction de chaque THG;
k = k + 1;
Décrémenter la taille du problème en réduisant en une arête tous les sous-arbres identiques dans Tk et T’;
Calculer la valeur de OC entre Tk et T’;
}
Éliminer tous les transferts inutiles;
BIF7002 – Séminaire de Bioinformatique
16
Alix Boc
Algorithme : exemple
L’exemple ci-dessous montre comment l’arbre d’espèces T et transformé en l’arbre de gène T1.
A
A
A
A
B
D
D
D
C
B
C
C
D
C
E
F
1
2
3
E
E
B
E
F
F
F
B
Scénario trouvé :
1 - transfert de A vers D
2 - transfert de E vers B
3 - transfert de C vers F
BIF7002 – Séminaire de Bioinformatique
À chaque transfert est associé :
• la nouvelle valeur des moindres carrés
• la nouvelle distance de Robinson et Foulds
• la nouvelle dissimilarité de bipartitions
17
Alix Boc
Validation
Déterminer le pourcentage d’apparition de chaque THG pour plusieurs réplicats de
l’arbre de gène. Les réplicats sont générés à partir des séquences.
Le premier arbre de gène est
la référence T’.
A
B
NJ or PhyML
A
A
B
B
D
C
C
D
F
E
E
F
E
A
B
HGT-Detection
B
B
C
C
C
D
D
D
A
E
F
F
E
A
80%
60%
C
D
E
F
arbre d’espèces T
n-1 réplicats de
l’arbre de gène.
BIF7002 – Séminaire de Bioinformatique
A
A
F
B
C
C
D
D
E
E
B
F
n scénarios de
réconciliation.
18
F
La robustesse de chaque
transfert est estimée par le
nombre d’apparitions dans
la liste de scénarios.
Alix Boc
Validation des transferts horizontaux
Trois stratégies possibles :
1.
Les séquences utilisées pour construire les arbres d’espèces et de gène sont
répliquées.
2.
Seules les données de séquences utilisées pour construire l’arbre de gène sont
répliquées.
3.
Le bootstrap des transferts peut être calculé entre deux topologies d’arbres seulement.
HGT _ BS (t )  (
 (
1i  NT 1 j  NT ' 1 k  N ij
σ k,ij (t )
Nij
100%) )/( NT  NT' )
 1, si t est dans le scénario de coût minimal k pour les arbres d' espècesT et de gène T ' ,

i
j
σ
(t )  
k,ij
 0, sinon.

où NT et NT’ sont, respectivement, le nombre d’arbres d’espèces et de gène générés à partir des
réplicats et Nij est le nombre de scénarios de coût minimal obtenus quand l’algorithme est appliqué
à l’arbre d’espèces Ti et l’arbre de gène Tj’.
BIF7002 – Séminaire de Bioinformatique
19
Alix Boc
Simulations Monte-Carlo
Taux de détection en fonction du
nombre de transferts.
a)
Detection rate (%)
50
RF
60-70% confidence
45
QD
40
LS
BD
35
Comparaison de la stratégie basée sur BD avec
LatTrans (Hallett et Lagergren, 2001).
LatTrans
30
25
20
15
10
2
3
4
5
6
7
8
9
10
50
Number of transfers
Detection rate (%)
RF
70-80% confidence
50
QD
45
LS
40
BD
35
LatTrans
30
25
20
15
10
1
2
3
4
5
6
7
8
9
10
Number of transfers
c)
Detection rate (%)
70
RF
80-90% confidence
65
QD
60
LS
55
BD
50
LatTrans
45
30
a)
45
35
30
25
20
15
10
20
15
10
5
5
0
0
1
2
3
4
5
6
7
Number of transfers
40
b)
25
40
Running time (sec)
b)
55
Running time (sec)
1
8
9
10
10
20
30
40
50
60
70
80
90
100
Number of leaves
35
30
1
2
3
4
5
6
7
8
9
10
Number of transfers
d)
Detection rate (%)
90
RF
90-100% confidence
QD
85
LS
80
BD
75
LatTrans
70
65
60
55
1
2
3
4
5
6
7
8
9
10
Number of transfers
BIF7002 – Séminaire de Bioinformatique
20
Alix Boc
Exemple : évolution du gène rpl12e
(Matte-Tailliez et al., 2002 )
BIF7002 – Séminaire de Bioinformatique
21
Alix Boc
Transferts horizontaux du gène rpl12e
Hypothèse : des transferts du gène rpl12e seraient survenus entre les groupes des Crenarchaeota
et des Thermoplasmatales (Matte-Tailliez et al., 2004).
Ferroplasma acidarinanus
Pyrobaculum aerophilum
Thermoplasma acidophilum
Aeropyrum pernix
Aeropyrum pernix
Sulfolobus solfataricus
Pyrobaculum aerophilum
Pyrococcus furiosus
Sulfolobus solfataricus
Pyrococcus abyssi
Pyrococcus abyssi
Pyrococcus horikoshii
Pyrococcus horikoshii
Methanococcus jannaschii
Methanobacterium thermoautotrophicum
Pyrococcus furiosus
Archaeoglobus fulgidus
Methanococcus jannaschii
Methanosarcina barkeri
Archaeoglobus fulgidus
Haloarcula marismortui
Methanosarcina barkeri
Halobacterium sp.
Methanobacterium thermoautotrophicum
Thermoplasma acidophilum
Haloarcula marismortui
Ferroplasma acidarinanus
Halobacterium sp.
Arbre d’espèces
BIF7002 – Séminaire de Bioinformatique
Arbre du gène rpl12e
22
Alix Boc
Scénario de réconciliation retrouvé pour le gène rpl12e
Pyrobaculum aerophilum
100
Aeropyrum pernix
3 74%
Sulfolobus solfataricus
Pyrococcus furiosus
100
2 60% Pyrococcus abyssi
100
Pyrococcus horikoshii
4 69%
Methanococcus jannaschii
30
Methanobacterium thermoautotrophicum
5 60%
Archaeoglobus fulgidus
94
55
1 55%
Methanosarcina barkeri
100
100
72
10
Haloarcula marismortui
Halobacterium sp.
Thermoplasma acidophilum
100
Ferroplasma acidarinanus
BIF7002 – Séminaire de Bioinformatique
23
Alix Boc
Détection des transferts partiels
BIF7002 – Séminaire de Bioinformatique
Alix Boc
Détection des transferts partiels
Transfert partiel versus transfert complet
Contexte d’évolution
Root
Les bactéries et les archées peuvent évoluer
dans différentes conditions en s’échangeant
des parties gènes, ce qui mène à la création
des gènes mosaïques.
5
3
2
4
1
A
B
C
D
E
Partial Transfer
F
Complete Transfer
Root
Un gène mosaïque est un allèle composé de
sous-séquences provenant des espèces ou
des souches différentes.
Root
5
3
2
7
Généralisation : appliqué à l’échelle d’un
génome, on peut estimer le taux de transferts
horizontaux (complets et partiels) entre les
espèces.
BIF7002 – Séminaire de Bioinformatique
25
4
1
6
A
B
C
D
E
F
A
B
C
D
E
F
Alix Boc
Transfert partiel : première approche
Nouvelle fonction d’optimisation qui tient compte de
l’existence de plusieurs chemins et du taux de gène
transféré.
Formule originale :
Q    (d(i, j)  (i, j))2  min
i
j
Formule modifiée :

Q ( L,  ) 
 ((1   ) 
ijS
lijk   (
k path(ij )
l
k
ia
k path(ia)
lijk
où (i,j) est la distance originale entre i et j;

l
k
jb )   (i,
k path( jb)
j )) 2 
( l
k
ij
ijS k path(ij )
  (i, j )) 2  min
est la taille de l’arête k du chemin (ij);  est la fraction
de gène transférée (0 ≤  ≤ 1);
BIF7002 – Séminaire de Bioinformatique
26
Alix Boc
Transfert partiel : deuxième approche
HGT
scenario
Algorithme
A
B
50%
C
90%
D
E
F
Étape 1. Inférons un arbre phylogénétique T
pour un esemble d’espèces X.
HGT inference (e.g., using HGT-Detection)
Partial
gene tree
Set of
species X
A
B
C
D
E
F
A
B
D
C
F
E
Species
tree
A
B
C
D
E
F
Tree inference (e.g., using PhyML)
GGTAAAAGACTACCGTCTTACTTACTACACTCCAGATTATGTTGTAAAGGATACTGATATCCTA
TTCCGTATGACTCCACAACCAGGTGTTCCACCTGAAGAGTGTGCTGCTGCTGTAGCTGCAGAAT
CAGGTACATGGACAACTGTATGGACTGATGGACTAACAAGTCTTGACCGTTACAAAGGACGTTG
TATCGAGCCAGTTCCAGGTGAAGATAACCAATACGTTTGTTACGTAGCTTACCCAATCGATCTC
GAAGGATCAGTTACTAACCTATTCACTTCAATTGTAGGTAACGTATTTGGATTCAAGGCTCTAC
TACGTCTTGAGGATCTACGTATTCCTCCTGCTTACTGTAAGACTTTCGTAGGACCTCCTCACGG
i
Window size w
j
Étape 2. Pour i variant de 1 à |l-w|, inférons
l’arbre de gène T’ en utilisant les sousséquences situées dans la fenêtre coulissante
entre i et |i+w|. Appliquons HGT-Detection sur T
et T’.
Étape 3. Établissons une liste de transferts
prédits. Les transferts entrelacés (Si,j+w .. Sj,j+w)
seront considérés comme un unique transfert
affectant les sites de i à |j+w|.
Complexité
Multiple sequence alignment (MSA) of size l
O(r  (
BIF7002 – Séminaire de Bioinformatique
27
(l  w)
 (C ( Phylo _ Inf )    n 4 )))
s
Alix Boc
Transfert partiel : simulations Monte-Carlo
Taux de détection et taux de faux positifs en fonction du nombre de feuilles et
du nombre de transferts horizontaux partiels.
False positive (FP) rate
HGT detection rate
60
50
40
30
20
10
0
5
4
3
2
1
Number of transfers
(a)
1
2
3
4
(b)
5
100
90
80
70
60
50
40
30
20
10
0
8
16
32
Number of species
BIF7002 – Séminaire de Bioinformatique
(d)
28
2
3
4
5
100
90
80
70
60
50
40
30
20
10
0
8
64
5
4
3
2
Number of transfers
1
False positive (FP) rate
HGT detection rate
64
32
16
8
100
90
80
70
60
50
40
30
20
10
0
1
(c)
64
32
16
8
16
32
64
Number of species
Alix Boc
Exemple : Étude de l’évolution du gène rbcL
(Delwiche et Palmer, 1996)
BIF7002 – Séminaire de Bioinformatique
Alix Boc
Exemple : Étude de l’évolution du gène rbcL (Delwiche et Palmer 1996)
Les nouveaux algorithmes ont été appliqués à l’étude de l’évolution du gène rbcL initialement
décrite dans Delwiche et Palmer (1996).
100
Xanthobacter
Rhodobacter Sphaeroides I
Alcaligenes H16 chromosomal
Alcaligenes H16 plasmid
83
Alcaligenes 17707 chromosomal
79
100
Mn oxidizing bacterium (S|85-9a1)
100
83
100
94
Prochlorococcus
Hydrogenovibrio L2
Chromatium L
Hydrogenovibrio L1
Pseudomonas
57
74
98
Cyanidium
Olistodiscus
52
56
Ectocarpus
Cylindrotheca
Cryptomonas
68
Porphyridium
64
Antithamnion
84
Ahnfeltia
64
66
76
81
100
60
Thiobacillus ferrooxidans fe1
Nitrobacter
Thiobacillus ferr. 19859
100
Thiobacillus denitrificans I
67
Chromatium A
46
endosymbiont
Anacystis
88
99
42
60
22
99
50 steps
Synechococcus
Anabaena
Prochlorothrix
Synechocystis
73
Prochloron
Cyanophora
Chlorella
51
32
Bryopsis
Pyramimonas
91
Chlamydomonas
65
100
Euglena
Coleochaete
99
Marchantia
Pseudotsuga
64 97
Nicotiana
49
Oryza
-Proteobacteria
b-Proteobacteria
-Proteobacteria
Red Type
(FORM I)
Red and Brown Plastids
Cyanobacteria
g-Proteobacteria
b-Proteobacteria
g-Proteobacteria
-Proteobacteria
g-Proteobacteria
b-Proteobacteria
g-Proteobacteria
b-Proteobacteria
Cyanobacteria
Green Type
(FORM I)
Glaucophyte Plastid
Green Plastids
BIF7002 – Séminaire de Bioinformatique
30
Alix Boc
Résultats : étude de l’évolution du gène rbcL (Delwiche et Palmer 1996)
Détection des THG partiels
Détection des THG complets
Rhodobacter Sphaeroïde I
Xanthobacter
Mn oxidizing bacterium
Nitrobacter
1 76.2%
63.4%
7
4 82.2%
8 51.5% 5 48.5%
3 61.4%
9 97%
2 81.2%
6 42.6%
Alcaligenes H16 plasmid
Alcaligenes H16 Chromosomal
Alcaligenes 17707 Chromosomal
Thiobacillus denitificans I
endosymbiont
Pseudomonas
Thiobacillus ferr. 19859
Thiobacillus fe1
Chromatium A
Chromatium L
Hydrogenovibrio L1
Hydrogenovibrio L2
Prochlorococus
Anacystis
Anabaena
Synechococcus
Prochlorothrix
Synechocystis
Prochloron
Cyanophora
Anthithamnion
Ahnfeltia
Porphyridium
Cryptomonas
Ectocarpus
Olistodiscus
Cylindrotheca
Cyanidium
Oryza
Nicotiana
Pseudotsuga
Marchantia
Coleochaete
Bryopsis
Cholrella
Pyramimonas
Euglena
Chlamydomonas
BIF7002 – Séminaire de Bioinformatique
-Proteobacteria
1 69% (1-524)
58%
7
(101404)
b-Proteobacteria
10 52% (1-214)
5 51% (1-484) 4 72% (21-524)
g-Proteobacteria
62% (231-474)
9
62%
(161414)
Cyanobacteria
Glaucophyte plastid
Red & Brown algae
Green Plastids
31
2
72%
(151532)
12
11 61% (231-474)
13 65%
6 52% (31-424)
(281-532)
Rhodobacter Sphaeroïde I
Xanthobacter
Mn oxidizing bacterium
Nitrobacter
-Proteobacteria
Alcaligenes H16 plasmid
Alcaligenes H16 Chromosomal
Alcaligenes 17707 Chromosomal
Thiobacillus denitificans I
endosymbiont
Pseudomonas
b-Proteobacteria
Thiobacillus ferr. 19859
Thiobacillus fe1
Chromatium A
Chromatium L
Hydrogenovibrio L1
Hydrogenovibrio L2
g-Proteobacteria
Prochlorococus
Anacystis
Anabaena
Synechococcus
Prochlorothrix
Synechocystis
Prochloron
Cyanophora
Cyanobacteria
Anthithamnion
Ahnfeltia
Porphyridium
Cryptomonas
Ectocarpus
Olistodiscus
Cylindrotheca
Cyanidium
Red & Brown algae
Oryza
Nicotiana
Pseudotsuga
Marchantia
Coleochaete
Bryopsis
Cholrella
Pyramimonas
Euglena
Chlamydomonas
Green Plastids
Glaucophyte plastid
Alix Boc
Conclusions
BIF7002 – Séminaire de Bioinformatique
Alix Boc
Conclusions
Dans le cadre de cette recherche doctorale nous avons apporté plusieurs contributions
importantes dont :
• un algorithme efficace de détection des transferts horizontaux complets
(HGT-Detection).
• une nouvelle mesure de comparaison d’arbres : la dissimilarité de bipartitions.
• un processus de validation des transferts horizontaux.
• deux algorithmes de détection des transferts partiels et d’indentification des gènes
mosaïques.
L’étude de l’évolution des langues IE a montré que notre méthode peut être utile dans
plusieurs domaines scientifiques.
Les méthodes relatives à la détection des transferts horizontaux de gènes sont librement
accessibles à l’adresse URL suivante : www.trex.uqam.ca.
BIF7002 – Séminaire de Bioinformatique
33
Alix Boc
Travaux futurs
Détection des transferts complets
• Mesure de l’impacte des artéfacts de reconstruction et d’autres évènements d’évolution
sur la détection des THG.
Détection des transferts partiels
• Développement d’un modèle prenant en compte la duplication ancestrale et la perte
partielle de gènes.
• Validation du modèle, par des simulations statistiques, de détection des transferts partiels
basé sur l’optimisation par les moindres carrés.
Évolution des langues Indo-Européennes
• Validation manuelle des 1484 arbres de mots.
• Analyse de l’origine des langues Indo-Européennes.
BIF7002 – Séminaire de Bioinformatique
34
Alix Boc
Références

Boc, A. et Makarenkov, V. (2003) New Efficient Algorithm for Detection of Horizontal Gene Transfer Events. In Benson G. et Page R. (Eds.). WABI 2003,
Algorithms in Bioinformatics, Springer-Verlag, pp. 190-201.

Boc, A., Philippe, H. et Makarenkov, V. (2010a) Inferring and validating horizontal gene transfer events using bipartition dissimilarity. Systematic Biology, 59, 195211.

Boc, A., A-M. Di Sciullo et V. Makarenkov. (2010b). Classification of the Indo-European languages using a phylogenetic network approach. In H. Locarek-Junge
et C. Weihs (Eds.). IFCS 2009. Studies in Classification, Data Analysis, and Knowledge Organization, Springer Berlin-Heidelberg-New York, pp. 647-655.

Delwiche, C.F. et Palmer, J. D. (1996) Rampant Horizontal Transfer and Duplication of Rubisco Genes in Eubacteria and Plastids. Mol. Biol. Evol., 13, 873-882.

Dyen, I., Kruskal, J.B. et Black, P. (1997) Comparative IE Database Collected by Isidore Dyen, http://www.ntu.edu.au/education/langs/ielex/IE-RATE1.

Gray, R.D. et Atkinson, Q.D. (2003) Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426, 435-439.

Hallett, M., et Lagergren, J. (2001) Efficient algorithms for lateral gene transfer problems. In El-Mabrouk, N., Lengauer, T. et Sankoff, D. (Eds.), Proceedings of
the fifth annual international conference on research in computational biology, ACM Press, New-York, pp. 149-156.

Levenshtein, V. I. (1966) Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady , 10, 707–710.

Makarenkov,V. (2001),T-Rex: reconstructing and visualizing phylogenetic trees and reticulation networks. Bioinformatics, 17, 664-668.

Makarenkov, V., Boc, A., Delwiche, C.F. et Philippe, H. (2006) New efficient algorithm for modeling partial and complete gene transfer scenarios. In Batagelj, V.,
Bock, H.-H., Ferligoj, A. et Ziberna, A. (Eds.). IFCS 2006, Series: Studies in Classification, Data Analysis, and Knowledge Organization, Springer Verlag, pp. 341349.

Matte-Tailliez, O., Brochier,C., Forterre, P. et Philippe,H. (2002) Archaeal phylogeny based on ribosomal proteins. Mol. Biol. Evol., 19, 631-639.

Robinson, D.R. et Foulds, L.R. (1981) Comparison of phylogenetic trees. Mathematical Biosciences, 53, 131-147.

Than, C. Ruths, D. et Nakhleh, L. (2008) PhyloNet: A Software Package for Analyzing and Reconstructing Reticulate Evolutionary Relationships. BMC
Bioinformatics, 9, 322.

Woese, C.R., Olsen, G., Ibba, M. et Söll,D. (2000) Aminoacyl-tRNA synthetases, the genetic code, and the evolutionary process. Microbiol. Mol. Biol. Rev., 64,
202-236.
BIF7002 – Séminaire de Bioinformatique
35
Alix Boc
Téléchargement