π A - WebCampus

publicité
L’INFÉRENCE PHYLOGÉNÉTIQUE
Raphaël Helaers , Ph.D.
Bioinformaticien ICP-UCL
PHYLOGÉNIE
« Étude de la formation et de l’évolution des
organismes vivants en vue d’établir leur parenté »
PLATON, ARISTOTE (ANTIQUITÉ)
• Classification des organismes vivants
• Échelle permettant de classer ces organismes
des plus simples aux plus perfectionnés
• Dans cette vision, les espèces sont fixes et
permanentes
• Incompatible avec la notion d’évolution
LINNÉ (1758) : TAXONOMIE
Règne
Animal
Phylum
Chordata
Subphylum
Vertebrata
Classe
Mammalia
Ordre
Carnivora
Famille
Ursidae
Genre
Ursus
Espèce
U. maritimus
DARWIN (1859)
• « De l’Origine des Espèces »
• Hérédité : les espèces partagent un lien de
parenté
• La diversité du vivant s’explique par le
processus d’évolution
• Moteur de l’évolution adaptative : la sélection
naturelle
MENDEL (1856-1871 -> 1900)
• Quelles sont les règles de l’hérédité d’une
génération à l’autre ?
• Lois de Mendel
• Meilleure compréhension des mécanismes de
l’évolution
• Nouvelles méthodes pour étudier l’évolution
(eg : génétique des populations)
PHYLOGÉNIE : « L’ARBRE DE LA VIE »
Généalogie de
tous les
organismes
vivants et de leur
évolution au cours
du temps …
PHYLOGÉNIE : « L’ARBRE DE LA VIE »
… permettant
d’inférer les
formes
ancestrales des
espèces actuelles
ARBRE PHYLOGÉNÉTIQUE
ARBRE PHYLOGÉNÉTIQUE
ARBRE PHYLOGÉNÉTIQUE
ARBRE PHYLOGÉNÉTIQUE
ARBRE PHYLOGÉNÉTIQUE
ARBRE PHYLOGÉNÉTIQUE
• Nœuds = taxa
 Feuilles = espèces actuelles
 Nœuds internes = espèces ancestrales
• Topologie = relations de parenté
• Longueurs des branches = distance évolutive
• Racine = ancêtre commun le plus proche entre
les taxa représentés.
RACINER UN ARBRE
INFÉRENCE PHYLOGÉNÉTIQUE
Delphinidae (36 esp.)
Monodontidae &
Phocoenidae (8 esp.)
RECONSTRUCTION
Franciscana
Boto
Baiji
Ziphiidae (20 esp.)
DE LA PHYLOGÉNIE
Susu
Physeteroidea (3 esp.)
Mysticeti (12 esp.)
Inférence : topologie,
longueur des branches,
âge des noeuds
Données observées
DONNÉES OBSERVÉES
• Jusqu’aux années 60




Morphologie
Physiologie
Comportement
Répartition géographique
• Problèmes
 Faible nombre de caractères disponibles
 Indépendance des caractères parfois douteuse
 Phénomène de convergence
DONNÉES OBSERVÉES
Les relations phylogénétiques entre les espèces peuvent être contre-intuitive
l
lizard
gator
falcon
Phenetic
Phylog enetic
g
f
∗∗
∗
DONNÉES OBSERVÉES
• Phylogénie moléculaire (1960+)
 Les variations des séquences d’acides aminés sont
conservées d’une espèce à l’autre
 Développement des techniques de séquençage des
génomes
 Utilisation des séquences génétiques pour l’inférence
phylogénétique
 Elle a permis de réorganiser certaines phylogénies
1. Certaines espèces auparavant regroupées sont apparues
comme convergentes
2. Certaines espèces très différentes et classées dans des
groupes divergents sont apparues comme fortement
apparentées
EXEMPLE (1)
• Fortes ressemblances morphologiques
• La cladistique classique les classa donc comme étant très proches
• La phylogénie moléculaire montra qu’elles sont en réalité éloignées
génétiquement
• On parle de « Convergence évolutive »
EXEMPLE (2)
• Les données
moléculaires ont
permis de déterminer
que les cétacés
étaient très proches
des artiodactyles
• Une vache, un cochon
ou un chameau est
donc plus proche d’un
dauphin ou d’une
baleine bleue que
d’un cheval ou un
tapir !
DONNÉES MOLÉCULAIRES
• Comme pour les données morphologiques, il
faut comparer des caractères homologues
pour pouvoir inférer une phylogénie
• Par exemple : les séquences d’ADN codant
pour une même protéine présente chez
chaque espèces de notre phylogénie.
• On parle de séquences homologues
ALIGNEMENT DES SÉQUENCES
• Plus des espèces ont divergé au cours de
l’évolution, plus leur ADN sera différent
 Mutations
 Insertions
 Délétions
• Utilisation
d’alignements
de séquences
homologues
MATRICE DE DISTANCE
• Observation des séquences actuelles
• Mesure de leur divergence
seq1
seq2
seq3
seq4
ACCGTCATCAGG
GCTATCGCCAGC
ACCGTTATCAGG
GCTGTCGTCAGG
Calcul des distances entre
chaque paire de séquence
s1 s2 s3 s4
s1 0
5
1
3
s2
0
6
2
0
4
s3
s4
0
ALGORITHME DE « CLUSTERING »
UPGMA*
• Construction de la
matrice de distances
• Topologie initiale en
étoile
• Trouver la distance
minimale
• Créer un nouveau nœud
interne
• Recommencer
* Unweighted Pair Group Method with Arithmetic Mean
DISTANCES : LE PROBLÈME
• Le nombre de différences observées
entre 2 séquences alignées séparée
par un temps t est un indicateur très
faible du nombre de substitutions qui
se sont produites entre ces 2
séquences.
• La divergence entre deux séquences
n’augmente pas linéairement avec le
temps car plusieurs substitutions
peuvent se produire sur le même site.
• La similarité peut même augmenter
avec le temps, en revenant au
nucléotide initial après plusieurs
substitutions.
MODÉLISATION DES MUTATIONS
• Plusieurs modèles ont été proposés pour
simuler la dynamique des substitutions
nucléotidiques au cours du temps.
• Ils permettent de répondre à la question :
« Si l’état d’un caractère est un ‘A’ au temps t0,
quelle est la probabilité PA(t) que l’état de ce
caractère sera un ‘A’ au temps t ? »
MODÉLISATION DES SUBSTITUTIONS
• Processus de Markov homogène
• Q = matrice de taux instantané
• P(t) = probabilité de transition le long d’une branche
de longueur t
MODÈLE DE JUKES CANTOR (1969)
•
•
•
•
Modèle le plus simple
Réversible dans le temps (PAC = PC  A)
Les fréquences des bases sont égales (πA = πC = πG = πT)
Toutes les substitutions se produisent à un même taux (μ)
Probabilité de transition de l’état i
à l’état j, au temps t, le long d’une
branche de longueur r :
MODÈLE KIMURA 2 PARAMETERS (1980)
• Comme JC mais avec un 2e paramètre de taux (κ)
• Ce paramètre permet aux transitions de se produire à un
taux différent des transversions.
 Transitions : substitutions entre les états A↔G, et entre les états C↔T
 Transversions : substitutions entre les états A ↔C, A↔T, C↔G, G↔T
MODÈLE HKY (1985)
• Comme K2P mais les fréquences des
bases (πA, πC, πG, πT) peuvent être différentes
• On considère généralement les fréquences observées
dans les données
MODÈLE « GENERAL TIME REVERSIBLE »
• Modèle « réversible dans le temps » le plus général (il
inclut tous les autres)
• 6 paramètres de taux (a, b, c, d, e, f)
• Sans doute le plus proche de la réalité
• Plus lourd à calculer
= valeurs propres de Q
= vecteurs propres de Q
CORRECTION DES DISTANCES
• L’utilisation d’un modèle de substitution nucléotidique
nous permet de « corriger » les mesures de divergence
entre séquences
• L’algorithme de clustering peut donc être utilisé avec
ces distances corrigées : Neighbor Joining Tree
• Malgré cela, plusieurs problèmes se posent encore :
 Perte d’information (la matrice de distance ne permet pas
de reconstruire l’alignement dont elle est issue)
 Aucune information qualitative sur l’arbre obtenu
 Difficulté pour comparer des arbres
CRITÈRE D’OPTIMALITÉ
• Permet de comparer les phylogénies
• Pratiquement, le critère choisi nous donnera
un score pour chaque arbre possible
• En générant tous les arbres possibles nous
pourrions déterminer l’arbre ayant le meilleur
score comme la phylogénie la plus probable
CRITÈRE D’OPTIMALITÉ
• Évolution minimale  
 Basé sur les matrices de distance
• Parcimonie  
 Privilégie le scénario impliquant le minimum de changements
évolutifs (= minimiser la longueur de l’arbre)
 Uniquement efficace quand le nombre de substitutions est
faible
• Maximum de vraisemblance  





Probabilité qu’un arbre ait généré les données observées
Utilise les modèles de substitution nucléotidique
Cadre statistique consistant
Robuste (peu affecté par les erreurs d’échantillonnage)
Résiste bien aux éventuelles violations des hypothèses du
modèle
CRITÈRE D’OPTIMALITÉ
• Le maximum de vraisemblance est l’une des
meilleures approches à l’heure actuelle, mais
estimer un arbre nécessite un temps de calcul
important
 La vraisemblance doit être calculée pour chaque site
(= colonne) de l’alignement
 La procédure est récursive, le temps de calcul
augmente de manière importante lorsqu’on ajoute
des séquences
 L’utilisation d’un modèle de substitution
nucléotidique complexe (mais plus proche de la
réalité) augmente encore le temps de calcul
CALCUL DE LA VRAISEMBLANCE D’UN ARBRE
CALCUL DE LA VRAISEMBLANCE D’UN ARBRE
CALCUL DE LA VRAISEMBLANCE D’UN ARBRE
CALCUL DE LA VRAISEMBLANCE D’UN ARBRE
CALCUL DE LA VRAISEMBLANCE D’UN ARBRE
TROUVER LA PHYLOGÉNIE OPTIMALE
• La vraisemblance nous informe sur la
qualité d’une phylogénie
• Il suffit de trouver la phylogénie qui maximise
la vraisemblance
• Malheureusement le nombre de topologies
possibles pour un ensemble de n séquences
croît factoriellement
NOMBRE D’ARBRES POSSIBLES
B(3) = 1
B(5) = 15
B(4) = 3
NOMBRE D’ARBRES POSSIBLES
PROBLÈMES …
• Il devient donc impossible de générer tous les
arbres possibles pour plus de quelques
dizaines de séquences (et d’estimer leur
vraisemblance …)
• Inférence phylogénétique
= problème NP-Complexe
• Aucun algorithme ne peut résoudre ce
problème en un temps fini
PROBLÈMES …
• La précision de l’inférence augmente avec le
nombre et la longueur des séquences
• Le nombre de données moléculaires à
disposition des chercheurs ne cesse
d’augmenter
• Beaucoup de questions en biologie évolutive
nécessitent de travailler avec de grands jeux
de données
… ET SOLUTIONS !
• Parcourir l’espace de
recherche (inconnu)
de manière intelligente,
sans devoir générer
toutes les topologies possibles
• Se contenter d’une solution garantie proche
de l’optimal, plutôt qu’une solution exacte
• Famille des méta-heuristiques !
MÉTA-HEURISTIQUES
• Hill climbing
• Greedy algorithm
(algorithme glouton)
• Simulated annealing
(recuit simulé)
• Swarn intelligence algorithms
 Algorithme génétique
(simple ou méta-populationnel)
 Ant colony optimization
(algorithme des fourmis)
 Stochastic diffusion search
• Tabu search
• …
MÉTA-HEURISTIQUES : OUTILS COMMUNS
• Estimateur (= maximum de vraisemblance)
• Génération d’une solution (= topologie) de départ
• Opérateur(s) permettant de parcourir l’espace de
recherche
 Perturber un arbre pour en générer un autre +/proche
 Perturbations topologiques
 Perturbations des longueurs de branches
 Perturbations des paramètres du modèle
PERTURBATION D’UN ARBRE : NNI
Nearest Neighbor Interchange
PERTURBATION D’UN ARBRE : SPR
Subtree Pruning
and Regrafting
PERTURBATION D’UN ARBRE : TBR
Tree Bisection
Reconnection
OPTIMUM LOCAL
ALGORITHME GLOUTON
• La solution courante est améliorée jusqu’à atteindre un optimum
• L’optimum atteint peut être local
• Comme il n’y a aucune garantie d’atteindre un optimum global, il
faut échantillonner les solutions de départ pour couvrir le plus
d’espace de recherche possible
ALGORITHME GLOUTON
NON
S0
S1
OUI
SIMULATED ANNEALING
• Un paramètre (appelé température) permet d’accepter parfois des
solution « moins bonnes »
• Si la valeur de ce paramètre est diminuée suffisamment lentement,
l’algorithme garanti une convergence vers l’optimum global
SIMULATED ANNEALING
S0
S1
NON
OUI
NON
OUI
ALGORITHME GÉNÉTIQUE
• Tente d’imiter le processus naturel d’évolution
d’une population d’individus (ensemble
d’arbres de départ) sur de nombreuses
générations (itérations de l’algorithme)




Mutations (opérateurs perturbant un arbre)
Recombinaisons
Sélection
Reproduction
ALGORITHME GÉNÉTIQUE
• Recombinaison d’arbres phylogénétiques
ALGORITHME GÉNÉTIQUE
MUTATIONS
ET/OU
RECOMBINAISON
SELECTION
• Classement
• Tournoi
• Remplacement
• Amélioration
• Le meilleur gagne
Population
Meilleur
individu
REPRODUCTION
ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL
!! CONSENSUS !!
MUTATIONS
ET/OU
RECOMBINAISON
SELECTION
Pop1
Pop2
Pop3
Meilleur individu dans
une population
REPRODUCTION
ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL
• Exemple d’une branche consensus entre 2
arbres
ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL
Les populations communiquent entre elles via les
consensus commun entre tous les arbres.
b
o
a
n
f
g
c
d
h
e
j
i
k
m
l
Les consensus présents
dans une majorité
d’arbre sont préservés
ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL
METAPIGA 2
HTTP://www.metapiga.org
•4 métaheuristiques
•ADN, protéines, charactères
binaires
•Nombreux modèles
•Partitionnement du dataset
•Conditions d’arrêt
automatiques
•Valeur de support des
branches
•Reconstruction des
séquences ancestrales
•Parallélisation sur machines
multicoeurs, GRID, clusters
• Interface graphique et aide
interactive
Téléchargement