Cours d`Annie Château

advertisement
Introduction à la
Phylogénie moléculaire
Annie Chateau
Plan
 Introduction
 Les données moléculaires
 Rappel sur les arbres
 Les méthodes d’inférence phylogénétique
•
•
•
•
Les méthodes de distances
Les méthodes de parcimonie
Les méthodes de Maximum de vraisemblance
Les méthodes Bayésiennes
Plan
 Introduction
 Les données moléculaires
 Rappel sur les arbres
 Les méthodes d’inférence phylogénétique
•
•
•
•
Les méthodes de distances
Les méthodes de parcimonie
Les méthodes de Maximum de vraisemblance
Les méthodes Bayésiennes
Arbre et relations inter-espèces
Arbre et relations inter-espèces
 Darwin (1859) a initié l’arbre comme support formel de la représentation
des relations inter-espèces
 Au début les modes de classifications des espèces étaient:
• Les comparaisons morphologiques
• Les comparaisons comportementales
• Les répartitions géographiques
 Aujourd’hui les phylogénies sont obtenues à partir:
•
•
•
•
•
•
des séquences moléculaires (phylogénie moléculaire)
des caractères discrets
des fréquences des gènes
des traits quantitatifs
des sites de restriction
des microsatellites
Phylogénie-phylogenèse
 Définition:
• l’histoire de la formation et de l’évolution d’une
espèce, d’un phylum (série évolutive des
formes animales dérivant d’un ancêtre
commun)
 Du grec
• Phûlon = tribus
• Genesis = origine
Arbre et relations inter-espèces
 l'histoire du développement
paléontologique des
organismes par analogie
avec l'ontogénie ou histoire
du développement individuel
 Haeckel (1860)
Arbre et relations inter-espèces
Plus de 3000 articles traitent de
l’analyse phylogénétique
La phylogénie moléculaire
 Définition:
• La phylogénie moléculaire est la discipline ayant pour
objectif la reconstruction de l'histoire évolutive des
espèces par comparaison des séquences de leurs
gènes ou de leurs protéines.
 Données:
• Un ensemble d’organismes (taxa) et pour chacun un
ensemble de données moléculaires (séquences par
exemple).
La phylogénie moléculaire
(Données)
Taxons
Espèce
Espèce
Espèce
Espèce
Espèce
A
B
C
D
E
Caractères
ATGGCTATTCTTATAGTACG
ATCGCTAGTCTTATATTACA
TTCACTAGACCTGTGGTCCA
TTGACCAGACCTGTGGTCCG
TTGACCAGTTCTCTAGTTCG
La phylogénie moléculaire
(Résultats)
Taxon B
Taxon C
Taxon A
L’espace entre les taxons et leur
position (en terme de hauteur)
ne signifie rien.
Taxon D
Taxon E
Cette dimension peut avoir des longueurs
de branches identiques (cladogramme et ultramétrique)
ou non identiques (arbre additif ou phylogramme)
La phylogénie moléculaire
Applications
 Projet: Tree of life
• Avec plus de 4000 pages web, le
projet présente la diversité des
organismes sur la terre, leurs
histoires évolutionaires et leurs
caractéristiques
• http://tolweb.org/tree/phylogeny.html
Histoire de l’évolution
Évolution des caractères
La phylogénie moléculaire
Applications
 Bio-écologie
• Déplacement d’espèces
• Relation hôtes-parasites
La phylogénie moléculaire
Applications
La phylogénie moléculaire
Applications
 Épidémiologie
• Tracer l’évolution d’un
virus à travers ses
différentes souches
(dentiste)
Utilisation de la phylogénie pour comprendre les
phénomènes de duplications et pertes de gènes
A. Arbre de gène
B. L’arbre de gènes superposé à un
arbre d’espèces pour identifier
les pertes de gènes.
Est ce que le Dr David Acer a contaminé ses patients ?
DENTIST
Patient C
Arbre phylogénétique
des séquences de VIH
du DENTISTE, ses
7 patients et
35 infectés
dans la même région
Géographique.
Patient A
Patient G
Patient B
Patient E
Patient A
Oui:
Les séquences de VIH de 5 de
ses patients sont dans le
même clade que les
séquences de VIH du Dr Acer.
DENTIST
Local control 2
Local control 3
Patient F
No
Local control 9
Local control 35
Local control 3
Patient D
Ou et al. (1992), Page et Holmes (1998)
No
Est ce que le Dr Richard Smith a contaminé sa femme?
 En 1998, la femme du Dr Richard accuse son mari
médecin de lui avoir délibérément injecté du sang
contaminé au VIH.
 Des arbres d’évolutions du virus ont prouvé que le
médecin a effectivement contaminé sa femme.
 Premières preuves d’arbres d’évolutions acceptées
par une cour criminelle aux USA.
 Il a été condamné à 50 ans de prison pour meurtre
au second degré.
Plan
 Introduction
 Les données moléculaires
 Rappel sur les arbres
 Les méthodes d’inférence phylogénétique
•
•
•
•
Les méthodes de distances
Les méthodes de parcimonie
Les méthodes de Maximum de vraisemblance
Les méthodes Bayésiennes
La phylogénie moléculaire
Caractéristiques
 Sujet difficile car vérité non connue.
• A–C–A
• Beaucoup de controverse
• Les scénarios doivent être justifiés.
 Algorithmes vastes et complexes.
 Ici nous survolons les principales
techniques de base.
La phylogénie moléculaire
Historique de la reconstruction d’arbre
 Les années 1950: la plupart des publications présentaient
des arbres de moins de 50 taxons.
 Les années 1990: les arbres phylogénétiques avec 500
espèces peuvent être reconstruits en quelques heures.
 Aujourd’hui: des phylogénies avec 16000 taxons peuvent
être reconstruites en moins d’une journée.
 Futur: reconstruire l’arbre de vie ?
Prédiction phylogénétique
Woese 1987; Barns et al. 1996; Brown et Doolittle 1997
Données moléculaires:
Caractères
 Un caractère est un trait commun (ou susceptible
de l’être plutôt) à tous les taxons et pouvant
prendre plusieurs valeurs appelées "états".
 Données non moléculaires:
…
Caractères:
branchies
nageoires
dents
Baleine
Non
Oui
Non
…
Requin
Oui
Oui
Oui
…
…
…
…
…
…
Données moléculaires
Caractères
 Alignement d’un gène ou d’une protéine.
 Exemple: 3 taxons de 20 caractères et 5 états
(A, C, G, T, -)
Espèce A
Espèce B
Espèce C
ATGGCTATTC-TATAGTACG
ATCGCT-GTCTTATATTACA
TTCACT--ACCTGTGGTCCA
 Les taxons représentent les lignes de la matrice
et les caractères désignent les colonnes.
Commentaire sur les alignements
 Alignement constitue la base de la
reconstruction phylogénétique.
• Un mauvais alignement ruine une
reconstruction. Ainsi il y a un gros effort à
fournir à l’alignement.
 Il faudrait pouvoir comparer ce qui est
comparable.
Commentaire sur les alignements
 Choix des séquences
• L’évolution des séquences choisies devrait refléter ce
que l’on veut calculer.
 Exemples:
• Mixer ARNr et ARNt: non sens.
• ARNr stable => espèces divergentes
• ADN mitochondrial avec un taux de mutation 17 fois
que celui de l’ADN nucléaire => organismes proches
 Autres types de caractères
• Binaire avec sites de restrictions.
Résumé
 Les paramètres importants sont :
• la qualité de l'alignement
• le choix des séquences (gènes)
• le choix des espèces (effet d'attraction des
longues branches)
 Deux grandes classes de méthodes :
• les méthodes de distance
• les méthodes basées sur les caractères
Données moléculaires
Distance
 n taxons
 Matrice D avec n ligne et n colonnes
 di,j – estimation de la distance évolutive entre les taxons i
et j.
 Exemples de distances
• Distances en termes de réarrangements génomiques (inversions,
translocations et substitutions) cf. GRIMM.
• Distances entre séquences:
 Distance de Hamming
 D’édition (matrices PAM, Dayhoff, Blosum)
 Remarques
• perte d’information par rapport à la reconstruction basée sur un
alignement, mais permet d’utiliser des algorithmes rapides
Les 4 grandes étapes de l’analyse phylogénétique
1 Sélectionner les données
2
Aligner les séquences
Les méthodes de distances
Les méthodes basées caractères
Calcul de distances
(Quel modèle?)
Choix de la méthode
3
MB
Modèle?
ML
MP
Poids?
Modèle?
(sites, substitutions)?
Optimisation de critères
LS
ME
Arbre Unique
NJ
Calculer ou estimer l’arbre qui traduit mieux les données
4
Adapté de Hillis et al., (1993)
Effectuer des tests statistiques de robustesses
PGM
Remarque
 Ce processus de reconstruction n’est valable que
si l’on considère que des spéciations.
 Les spéciations sont obtenus à partir de
séquences orthologues (Homologues).
 Si les séquences sont sujettes à des transferts
latéraux (bactéries) alors un modèle en arbre est
non pertinent.
 Il faut utiliser un réseau dans ce dernier cas.
Réseaux
Homologie
 2 nucléotides dans différentes séquences sont
homologues si les 2 séquences héritent toutes
cet état directement d’un ancêtre commun.
 Pour déterminer si des nucléotides sont
homologues, il faudrait connaître les relations
évolutionaires entre les différentes espèces
contenant ces nucléotides.
 Homologie vs Homoplasie
Homologie
 L’homologie dépend de la partie que nous
comparons
• Les ailes de la chauve souris et de l’oiseau sont
homologues comme avant bras et non comme ailes.
• Les deux ont hérité leurs avant bras de leur ancêtre
commun.
 i.e. l’avant bras n’a pas évolué indépendamment
• Cependant, chez les deux groupes les avant bras sont
devenus des outils de vol.
 Leur ancêtre commun ne peut pas voler.
• Donc les ailes découlent d’une homoplasie.
Homologie
 La même chose s’applique au niveau des
caractères moléculaires.
• 2 protéines dans 2 organismes peuvent être codées
par le même gène. (le gène provient d’un ancêtre
commun)
• 2 gènes peuvent avoir plusieurs acides aminés en
commun et avoir une fonction similaire. Cependant si
la fonction est acquise indépendamment alors celle-ci
n’est pas homologue.
 Plusieurs gènes peuvent appartenir à une famille
de gènes (homologues).
Homologie
Orthologie-paralogie
Distance génétique
 De façon basique, les séquences d’ADN ne
sont pas très informatives sur l’histoire
évolutive.
 Pour chaque site, le nombre maximal de
différences est 1.
 Il existe seulement 4 états. Donc, si il y a
plus d’une substitution, nous perdons la
substitution passée.
Distance génétique
 Les substitutions multiples
cachent l’histoire évolutive
entre les séquences.
 Nous pouvons classifier
les substitutions d’une
autre manière.
Différences observés
 La mesure simple de la distance est de compter le
nombre de nucléotides différents entre 2 séquences.
 Cette mesure constitue une mauvaise estimation du
nombre de changements évolutionnaires.
 Si les changements sont communs, alors le même site
peut répéter la même substitution.
 Plus le temps est long, plus la différence observée devient
plus petite par rapport au nombre réel de substitutions.
Comparaison entre le nombre de
substitutions réelles et observées
Séquence 1
Séquence 2
Nombre de
substitutions
observées
Nombre de
substitutions
réelles
Substitution unique
T
TA
1
1
Substitutions multiples
A
A  G T
1
2
Substitutions
coïncidentes au même
site
AC
AG
1
2
Substitutions
parallèles
TA
TA
0
2
Substitutions
convergentes
ACT
AT
0
3
Substitutions inverses
TAT
T
0
2
Distances observées vs réelles
Modèles d’évolution des
séquences
Différences observées
 Étant donné que les différences observées sous-estiment
les changements évolutionnaires, il existe peut-être une
voie pour convertir cette différence en une mesure qui
correspond à la distance actuelle.
 Cette distance est souvent appelée "distance corrigée".
 Il existe plusieurs modèles défini chacun autour
d’assomption à propos de l’évolution.
Méthodes de correction des distances
 Les méthodes existantes sont interreliées.
 Elles diffèrent par le nombre de paramètres qu’elles
comportent.
• Variation de la fréquence des nucléotides.
• Types de substitutions
• Différences entre les probabilités de substitutions.
 Un framework général montre leur interrelation.
 Zharkih (1994) passe en revue une large partie de ces
méthodes.
Modèles d’évolution
Plan
 Introduction
 Les données moléculaires
 Rappel sur les arbres
 Les méthodes d’inférence phylogénétique
•
•
•
•
Les méthodes de distances
Les méthodes de parcimonie
Les méthodes de Maximum de vraisemblance
Les méthodes Bayésiennes
Rappels sur les arbres
Racine
Nœuds internes
Nœuds externes
ou feuilles
Branches
Rappels sur les arbres
racine
a
c
X
b
racine
(a)
d
a
X
Y
X
Y
Y
b c
(b)
d
a
b
c
(c)
d
Résolution d’une phylogénie
Complètement non résolue
Étoile
Partiellement résolue
Complètement résolu
A
A
A
B
C
E
C
E
C
D
B
B
E
D
D
Polytomie or multifurcation
bifurcation
Rappels: Types d’arbre
3 arbres possibles pour 4 taxons
(A, B, C, D)
Arbre 1
Arbre 2
Arbre 3
A
C
A
B
A
B
B
D
C
D
D
C
• L’inférence phylogénétique cherche à découvrir lequel des arbres
possibles est corrects.
• Le vrai arbre (au sens biologique): est celui qui représente le mieux
l’histoire évolutionaire des taxons.
Adapté de C-B Stewart Lecture (2000)
Le nombre d’arbres non enracinés
A
B
C
A
B
C
A
C
B
D
D
E
A
C
D
(2n - 5)!
B
F
E
Adapté de C-B Stewart Lecture (2000)
(2( n-3) )(n - 3)!
L’inférence de relation entre les taxons requièrent
une racine
B
C
Root
D
Arbre non enraciné
A
A
B
C
D
Arbre enraciné
Root
Adapté de C-B Stewart Lecture (2000)
Une autre racine
B
C
Root
Arbre non enraciné
D
A
A
B
C
D
Arbre enraciné
Root
Adapté de C-B Stewart Lecture (2000)
Nombre de racines possibles pour un arbre de 4
taxons?
A
Arbre non enraciné 1:
4
1
B
Arbre enraciné 1a
2
Arbre enraciné 1b
C
5
D
3
Arbre enraciné 1c
Arbre enraciné 1d
Arbre enraciné 1d
B
A
A
C
D
A
B
B
D
C
C
C
C
A
A
D
D
D
B
B
Ces arbres racontent 5 différentes histoires
Adapté de C-B Stewart Lecture (2000)
Des réarrangements ne modifiant pas la
topologie
Arbre enraciné 1a
B
A
C
D
A
C
A
D
C
B
B
D
C
D
D
C
A
A
B
B
B
B
C
D
D
C
A
A
Adapté de C-B Stewart Lecture (2000)
Deux façons d’enraciner un arbre
phylogénétique
Outgroup:
Utilisez un taxon qui est en dehors du
groupe d’intérêt.
Nécessite une connaissance à priori
des relations taxonomiques.
outgroup
Point moyen (Midpoint):
Mettre la racine au milieu du plus long
chemin entre 2 taxons.
Assume que l’évolution respecte
l’horloge moléculaire.
A
d (A,D) = 10 + 3 + 5 = 18
Midpoint = 18 / 2 = 9
10
C
3
B
Adapté de C-B Stewart Lecture (2000)
2
2
5
D
Nombre d’arbres enracinés vs non enracinés
C
A
D
B
A
C
B
A
B
D
E
C
F
D
E
Adapté de C-B Stewart Lecture (2000)
x
=
Similarité vs. Relation évolutionnaire
La Similarité est différente de la relation évolutionnaire bien que cette
dernière est obtenue à partir de certaines forme de la première.
Similaire: Ressemblance (une observation)
Relation: connexion génétique (Fait historique)
6
1
1
3
1
5
Taxon B
Taxon C
Taxon A
Taxon D
Adapté de C-B Stewart Lecture (2000)
C est plus similaire en séquence
de A (d = 3) que de B (d = 7),
mais C et B sont mieux reliés.
Types de similarités
La similarité entre deux entités
Relation évolutionnaire:
Caractères ancestraux partagés (‘plésiomorphies’)
Caractères dérivés partagés (‘’synapomorphie’)
C
Homoplasie (évolution indépendante du même caractère):
Évènements convergents, évènements parallèles, évènement inverse.
G
C
G
G
C
C
C
G
G
T
G
G
G
C
C
Adapté de C-B Stewart Lecture (2000)
Représentation des partitions
C
B
iv
racine
i
ii
A
F
D
x
iii
E
racine
F
A
Taxons
i
ii
iii
iv
…
x
y
…
A
1
1
0
0
…
1
0
…
B
1
1
0
0
…
?
?
…
C
0
0
1
1
…
0
1
…
D
0
0
1
1
…
?
?
…
E
0
0
1
0
…
0
1
…
F
0
1
0
0
…
1
0
…
C
y
E
Plan
 Introduction
 Les données moléculaires
 Rappel sur les arbres
 Les méthodes d’inférence phylogénétique
•
•
•
•
Les méthodes de distances
Les méthodes de parcimonie
Les méthodes de Maximum de vraisemblance
Les méthodes Bayésiennes
Les méthodes de distances
Les méthodes de distances:
principe général
Séquences d’ADN
Matrice de dissimilarités
Arbre Phylogénétique
A
A B C D E F
A: CGTAAT
B: CGTACG
C: CGTCGA
D: ACT……
E: ………….
F: ………….
A 0
3
3
5
5
4
B 3
0
3
5
5
4
C 3
3
0
4
4
3
D 5
5
4
0
2
3
E
5
5
4
2
0
3
F
4
4
3
3
3
0
B
C
D
E
F
Les méthodes de distances:
principe général
 di,j = distance évolutionnaire entre les taxons i et j.
 Distance évolutionnaire représente le nombre
d’étapes d’évolution:
• Mutations nucléiques ou protéiques.
• Réarrangement.
 Cette distance est souvent estimée et non
connue avec précision (mutation silencieuse).
Distances: Condition à vérifier
Propriété 1: d (a, b) ≥ 0
Non-négativité
Propriété 2: d (a, b) = d (b, a)
Symétrie
propriété 3: d (a, b) = 0 ssi a = b
Distinction
Propriété 4: d (a, c) ≤ d (a, b) + d (b, c)
Inégalité triangulaire
a
9
c
6
5
b
Adapté de C-B Stewart Lecture (2000)
Relation matrice-phylogénie
 Étant donnée une matrice D, il n’est pas toujours
possible de la représenter par une phylogénie T
de sorte que les distances de D soient identiques
à celles de T.
 Dans ce cas, il faut s’en approcher le mieux
possible en optimisant un critère.
Clustering
n groupes =n taxons
n-1 étapes
1 étape = fusion gloutonne de 2 groupes
1 groupe structuré = la phylogénie
Remarques Clustering
 Principe très général
• Données isolées que l’on structure en les regroupant pas à pas
 Très utilisé en bioinformatique
• Analyse des données d’expression de gènes
• Assemblage d’EST
• phylogénie
 Questions
• Comment choisir des groupes à fusionner?
• Comment remplacer 2 groupes par un seul dans la matrice de
distance?
• Comment valuer les branches?
Algorithmes PGM
1.
Considérer chacun des taxons comme un groupe de profondeur 0.
2.
Pour c de 1 à n-1 faire
1.
Trouver deux groupes i et j minimisant Di,j.
3.
Fusionner i et j en un groupe (ij) en les connectant à un ancêtre x
de profondeur Di,j /2.
4.
Supprimer de D les lignes et colonnes i et j.
5.
Ajouter à D une ligne et une colonne pour le groupe (i,j) en
calculant la distance de (ij) à chaque autre groupe k
6.
Lorsqu’il reste deux groupes, placer la racine entre ces 2.
Précision sur PGM
 UPGMA
• Si le groupe i respectivement j contient ni (resp. nj)
taxons:
• D(ij),k = 1/2 (Di,k + Dj,k)
 WPGMA
•
D(ij),k = 1/(ni+ nj) (ni Di,k + nj Dj,k)
 Complexité
•
•
•
•
O(n3)
n-1 itération de la boucle 2
étape 2.1 O(n2)
étape 6 O(n2)
Neighbor Joining
 Saitou et Nei, 1987.
 Autorise un taux d’évolution différent entre les
lignées étudiées.
 Il permet d’inférer des phylogénies sur des
centaines d’espèces.
 Le principe de Neighbor Joining consiste en la
recherche séquentielle des voisins en
minimisant la longueur totale de l’arbre.
 Algorithme glouton.
Algorithme de NJ
Algorithme de NJ
Exercice
A
0
B
8
0
C
7
9
0
D
12
14
11
 Reconstruire l’arbre et les longueurs de
branches en utilisant NJ.
0
Méthodes d’ajustement
 Méthode qui choisit l’arbre le plus proche de la matrice de données
étant donné un critère.
 Critère
• Valeur numérique associée à une phylogénie, qui permet entre autres de
la comparer (en terme de qualité) avec d’autres phylogénies.
 Critère des moindres carrés




W indique la confiance accordée aux distances
Si W = 1 moindres carrés non pondérés (Cavalli-Sforza, 1967)
Si W = 1/(dij)2 Fitch et Margoliash (1967)
Si W = 1/(dij) Beyer (1974)
Précision sur le critère des
moindres carrés
 Plusieurs topologies possibles:choisir celle ayant la valeur de
LS optimale.
 Intuition sur LS(A)
• Si A représente parfaitement D (additive et A obtenu par NJ, par
exemple) alors LS(A) = 0
• Sinon plus LS(A) augmente moins A correspond à D.
 Wi,j
• Si Di,j est fiable alors Wi,j augmente sinon il diminue (si 0 = oublier cette
donnée).
• Idée: ne pas discriminer sur une distance pas fiable.
 Il existe plusieurs autres variantes du poids.
Comment utiliser le critère des
moindres carrés
 Données: D, n taxons

Étape 3: Calculer LS(Ti) pour toutes les topologies.

Étape 4: Choisir l’arbre ayant le score LS le plus bas.
Commentaires sur LS
 Problème algorithmique:
• Évaluer la topologie A aux branches valuées ayant le score le plus bas
pour LS est NP-difficile.
 Remarques: NJ est une bonne approximation.
 Exploration de l’espace des solutions.
 Valuer optimalement les branches d’une topologie = trouver la
valuation qui produira le score LS minimal.
• Peut être résolu par Algèbre Linéaire (Felsenstein 2004, p 148-153).
Parcimonie
Parcimonie
 Principe
• Étant donnés une matrice de caractères et un coût
pour chaque transformation de l’état d’un caractère
(étape d’évolution), chercher la (ou les)
phylogénie(s) la (ou les) moins coûteuse(s).
Exemple
 5 taxons A, B, C, D, E.
 6 caractères [1..6].
 2 états possibles.
1 2 3 4 5 6
A 1 0 0 1 1 0
B 0 0 1 0 0 0
C 1 1 0 0 0 0
 Coût de 1 pour une
substitution.
 Coût optimal de 8.
D 1 1 0 1 1 1
E 0 0 1 1 1 0
2 Solutions
Identiques si non enracinés
Remarques
 Homoplasie
• Évolution parallèle (caractère 4 et 5)
 Nœuds internes (états ancestraux)
• Y : 100110
• X : 110110
• Z : 001110
 Alignement
• Nous considérerons des matrices de caractères.
 Formule générale du coût total: k caractères
k
∑ ∑ Wc Tc (i , j )
b = ( i, j) c = 1
 Wc = poids du caractère
Tc(i,j) = coût
Algorithme de Fitch (1971)
 Données: n taxons, une topologie T à n feuilles et un
caractère c et ses n états pour les n taxons.
 Principe
• Associer à chaque nœud interne de T un ensemble d’états
menant à une complétion optimale.
• Déduire une complétion optimale du résultat de l’étape 1.
 Exemple
• n = 5 et on a C A C A G et un arbre T. Déduire l’histoire
évolutionnaire la plus parcimonieuse.
Fitch: Mise en oeuvre
 Étape 1: calcul des états possibles pour chaque
caractère à chaque nœud.
 Parcours profondeur postfixe.
• Si le nœud est une feuille alors son état est gardé.
• Sinon si l’intersection entre les 2 descendants du nœud est
vide alors l’union de leurs états est pris
• sinon nous prenons l’intersection.
Exemple Fitch
Fitch: Mise en oeuvre
 Étape 2: déterminer la valeur des états ancestraux.
 Parcours profondeur préfixe.
• Soit x le nœud courant
• Si x = racine alors nous choisissons un élément quelconque
de la racine.
• Sinon si le parent est identique à un élément de l’ensemble
des éléments de x alors choisir celui-ci.
• Sinon choisir un élément quelconque de l’ensemble x
d’éléments.
Fitch: récapitulatif
 Traite un problème de programmation dynamique dans un
arbre.
 Théorème:
• L’algorithme de Fitch calcule une complétion optimale de la
topologie T.
 Proposition:
• Pour n taxons, c caractères et k nombre d’états possibles
• O (n * c* k) en temps
• O(n*k+c) en espace.
 Mais
• La recherche d’une topologie optimale maintient le problème
comme NP-difficile.
Parcimonie et Fitch
 Pour chaque topologie T à n feuilles
• Pour chaque caractère c
 Compléter T pour c (Algorithme de Fitch)
 Soit Sc(T), le coût de T pour c
• Calculer le coût global de T
S (T ) =
C
∑
Wc Sc (T )
c= 1
 Conserver la topologie complétée T ayant le coût
minimal.
 Remarque: Wc
 Poids de la colonne, qualité de l’alignement
 Prise en compte des codons,…
Maximum de
Vraisemblance
Principe
 Méthode basée sur un critère probabiliste:
• La vraisemblance (Likelihood) par rapport à un
modèle probabiliste d’évolution.
 Utilise la notion de critère.
 Le plus souvent la plus consistente des
méthodes existantes.
 Pas intuitif comme les autres méthodes.
Exemple




4 taxons; 1 caractère; 2 états (0 et 1).
Modèle d’évolution
0  1 : 0.25; 0  0 : 0.75;
1  0 : 0.25; 1  1 : 0.75;
A:0
X
C:1
B:0 A:0
T1
y
X
D:1 B:0
C:1 A:0
T2
X
y
D:1 D:1
B:0
T3
y
C:1
Exemple
X
Y
L(T1)
L(T2)
0
0
(3/4)3(1/4)2
(3/4)3(1/4)2
0
1
(3/4)2(1/4)3
(3/4)4(1/4)1
1
0
(3/4)2(1/4)3
(3/4)0(1/4)5
1
1
(3/4)3(1/4)2
(3/4)3(1/4)2
9/128
17/128
Somme =
T2 est plus vraisemblable que T1.
Quelle est la comparaison par rapport à T3?
Commentaires
 Si la probabilité que 0  1 ou 10 avait été élevée
qu’aurions nous?
 La vraisemblance dépend du modèle.
 Schéma algorithmique général:
• Essayer toutes les topologies.
 Comme en parcimonie:
• Travailler caractère par caractère (indépendance).
• Prendre la meilleure phylogénie globale.
Problème
 Qu’est ce qu’un modèle d’évolution?
 Comment calculer la vraisemblance d’une phylogénie
pour un caractère et un modèle donnés?
Principe de la vraisemblance
 D – ensemble de données.
 H – hypothèse basée sur ces données
(phylogénie).
 Vraisemblance de H par rapport à D
• L(H) = Prob(D|H).
• Probabilité que les données correspondent à
l’hypothèse.
Méthodes bayesiennes
Les méthodes Bayésiennes
 Principe
• D = données
H = hypothèse
Pr( H ) Pr( D | H )
Pr( H | D) =
Pr( D)
• Pr(H) – probabilité à priori de l’hypothèse
 Avant d’examiner les données
• Pr(H|D) – probabilité à posteriori de l’hypothèse
 À la lumière des données
• Pr(D|H) – vraisemblance de l’hypothèse
Pr( D) =
∑
Pr( Hi ) Pr( D | Hi )
Hi
 Somme sur toutes les hypothèses possibles
Méthodes Bayésiennes
Pr( H 1 | D ) Pr( D | H 1 ) Pr( H 1 )
=
Pr( H 2 | D) Pr( D | H 2 ) Pr( H 2 )

H1 vs H2 : 3/2 (prior)

Ratio de vraisemblance H1/H2 = 1/2.

Posterior H1 vs H2 = 3/4
Méthodes Bayésiennes
 Examiner l’espace des phylogénies et
conserver la plus probable à postériori. (MAP:
Maximum aPosteriory Probability).
 Utiliser la probabilité de chaque hypothèse
pour valider le regroupement de certains
taxons.
Problèmes de l’approche
Bayésienne
 Nécessite d’avoir une distribution à priori sur les
hypothèses
• Bon: si nous avons une certaine connaissance à priori sur
les hypothèses, nous pourrons l’intégrer au calcul.
• Problème: si nous n’en avons pas ou elle est controversée.
 Le calcul de prob(D)
• Trop lourd car repose sur toutes les hypothèses.
• Nous pouvons approximer la distribution à postériori.
Pour et contre les principales
méthodes

Méthode de distance, approche algorithmique
+ Rapide
+ Correction des distances possibles selon les modèles d’évolution
- Perte d’information dans les distances
- Produit un arbre et ne donne aucune autre mesure pour comparer les
hypothèses

Parcimonie
+ Principe plus simple et critère à fondement biologique
- Pas de modèles d’évolution
- Peut être lent pour trouver l’espace des solutions

Maximum de vraisemblance
+ basé sur les modèles d’évolution
- basé sur les modèles d’évolution
- Très très lent. (un très supplémentaire aurait exister sans la présence de
PHYML).
Téléchargement