L’INFÉRENCE PHYLOGÉNÉTIQUE Raphaël Helaers , Ph.D. Bioinformaticien ICP-UCL PHYLOGÉNIE « Étude de la formation et de l’évolution des organismes vivants en vue d’établir leur parenté » PLATON, ARISTOTE (ANTIQUITÉ) • Classification des organismes vivants • Échelle permettant de classer ces organismes des plus simples aux plus perfectionnés • Dans cette vision, les espèces sont fixes et permanentes • Incompatible avec la notion d’évolution LINNÉ (1758) : TAXONOMIE Règne Animal Phylum Chordata Subphylum Vertebrata Classe Mammalia Ordre Carnivora Famille Ursidae Genre Ursus Espèce U. maritimus DARWIN (1859) • « De l’Origine des Espèces » • Hérédité : les espèces partagent un lien de parenté • La diversité du vivant s’explique par le processus d’évolution • Moteur de l’évolution adaptative : la sélection naturelle MENDEL (1856-1871 -> 1900) • Quelles sont les règles de l’hérédité d’une génération à l’autre ? • Lois de Mendel • Meilleure compréhension des mécanismes de l’évolution • Nouvelles méthodes pour étudier l’évolution (eg : génétique des populations) PHYLOGÉNIE : « L’ARBRE DE LA VIE » Généalogie de tous les organismes vivants et de leur évolution au cours du temps … PHYLOGÉNIE : « L’ARBRE DE LA VIE » … permettant d’inférer les formes ancestrales des espèces actuelles ARBRE PHYLOGÉNÉTIQUE ARBRE PHYLOGÉNÉTIQUE ARBRE PHYLOGÉNÉTIQUE ARBRE PHYLOGÉNÉTIQUE ARBRE PHYLOGÉNÉTIQUE ARBRE PHYLOGÉNÉTIQUE • Nœuds = taxa Feuilles = espèces actuelles Nœuds internes = espèces ancestrales • Topologie = relations de parenté • Longueurs des branches = distance évolutive • Racine = ancêtre commun le plus proche entre les taxa représentés. RACINER UN ARBRE INFÉRENCE PHYLOGÉNÉTIQUE Delphinidae (36 esp.) Monodontidae & Phocoenidae (8 esp.) RECONSTRUCTION Franciscana Boto Baiji Ziphiidae (20 esp.) DE LA PHYLOGÉNIE Susu Physeteroidea (3 esp.) Mysticeti (12 esp.) Inférence : topologie, longueur des branches, âge des noeuds Données observées DONNÉES OBSERVÉES • Jusqu’aux années 60 Morphologie Physiologie Comportement Répartition géographique • Problèmes Faible nombre de caractères disponibles Indépendance des caractères parfois douteuse Phénomène de convergence DONNÉES OBSERVÉES Les relations phylogénétiques entre les espèces peuvent être contre-intuitive l lizard gator falcon Phenetic Phylog enetic g f ∗∗ ∗ DONNÉES OBSERVÉES • Phylogénie moléculaire (1960+) Les variations des séquences d’acides aminés sont conservées d’une espèce à l’autre Développement des techniques de séquençage des génomes Utilisation des séquences génétiques pour l’inférence phylogénétique Elle a permis de réorganiser certaines phylogénies 1. Certaines espèces auparavant regroupées sont apparues comme convergentes 2. Certaines espèces très différentes et classées dans des groupes divergents sont apparues comme fortement apparentées EXEMPLE (1) • Fortes ressemblances morphologiques • La cladistique classique les classa donc comme étant très proches • La phylogénie moléculaire montra qu’elles sont en réalité éloignées génétiquement • On parle de « Convergence évolutive » EXEMPLE (2) • Les données moléculaires ont permis de déterminer que les cétacés étaient très proches des artiodactyles • Une vache, un cochon ou un chameau est donc plus proche d’un dauphin ou d’une baleine bleue que d’un cheval ou un tapir ! DONNÉES MOLÉCULAIRES • Comme pour les données morphologiques, il faut comparer des caractères homologues pour pouvoir inférer une phylogénie • Par exemple : les séquences d’ADN codant pour une même protéine présente chez chaque espèces de notre phylogénie. • On parle de séquences homologues ALIGNEMENT DES SÉQUENCES • Plus des espèces ont divergé au cours de l’évolution, plus leur ADN sera différent Mutations Insertions Délétions • Utilisation d’alignements de séquences homologues MATRICE DE DISTANCE • Observation des séquences actuelles • Mesure de leur divergence seq1 seq2 seq3 seq4 ACCGTCATCAGG GCTATCGCCAGC ACCGTTATCAGG GCTGTCGTCAGG Calcul des distances entre chaque paire de séquence s1 s2 s3 s4 s1 0 5 1 3 s2 0 6 2 0 4 s3 s4 0 ALGORITHME DE « CLUSTERING » UPGMA* • Construction de la matrice de distances • Topologie initiale en étoile • Trouver la distance minimale • Créer un nouveau nœud interne • Recommencer * Unweighted Pair Group Method with Arithmetic Mean DISTANCES : LE PROBLÈME • Le nombre de différences observées entre 2 séquences alignées séparée par un temps t est un indicateur très faible du nombre de substitutions qui se sont produites entre ces 2 séquences. • La divergence entre deux séquences n’augmente pas linéairement avec le temps car plusieurs substitutions peuvent se produire sur le même site. • La similarité peut même augmenter avec le temps, en revenant au nucléotide initial après plusieurs substitutions. MODÉLISATION DES MUTATIONS • Plusieurs modèles ont été proposés pour simuler la dynamique des substitutions nucléotidiques au cours du temps. • Ils permettent de répondre à la question : « Si l’état d’un caractère est un ‘A’ au temps t0, quelle est la probabilité PA(t) que l’état de ce caractère sera un ‘A’ au temps t ? » MODÉLISATION DES SUBSTITUTIONS • Processus de Markov homogène • Q = matrice de taux instantané • P(t) = probabilité de transition le long d’une branche de longueur t MODÈLE DE JUKES CANTOR (1969) • • • • Modèle le plus simple Réversible dans le temps (PAC = PC A) Les fréquences des bases sont égales (πA = πC = πG = πT) Toutes les substitutions se produisent à un même taux (μ) Probabilité de transition de l’état i à l’état j, au temps t, le long d’une branche de longueur r : MODÈLE KIMURA 2 PARAMETERS (1980) • Comme JC mais avec un 2e paramètre de taux (κ) • Ce paramètre permet aux transitions de se produire à un taux différent des transversions. Transitions : substitutions entre les états A↔G, et entre les états C↔T Transversions : substitutions entre les états A ↔C, A↔T, C↔G, G↔T MODÈLE HKY (1985) • Comme K2P mais les fréquences des bases (πA, πC, πG, πT) peuvent être différentes • On considère généralement les fréquences observées dans les données MODÈLE « GENERAL TIME REVERSIBLE » • Modèle « réversible dans le temps » le plus général (il inclut tous les autres) • 6 paramètres de taux (a, b, c, d, e, f) • Sans doute le plus proche de la réalité • Plus lourd à calculer = valeurs propres de Q = vecteurs propres de Q CORRECTION DES DISTANCES • L’utilisation d’un modèle de substitution nucléotidique nous permet de « corriger » les mesures de divergence entre séquences • L’algorithme de clustering peut donc être utilisé avec ces distances corrigées : Neighbor Joining Tree • Malgré cela, plusieurs problèmes se posent encore : Perte d’information (la matrice de distance ne permet pas de reconstruire l’alignement dont elle est issue) Aucune information qualitative sur l’arbre obtenu Difficulté pour comparer des arbres CRITÈRE D’OPTIMALITÉ • Permet de comparer les phylogénies • Pratiquement, le critère choisi nous donnera un score pour chaque arbre possible • En générant tous les arbres possibles nous pourrions déterminer l’arbre ayant le meilleur score comme la phylogénie la plus probable CRITÈRE D’OPTIMALITÉ • Évolution minimale Basé sur les matrices de distance • Parcimonie Privilégie le scénario impliquant le minimum de changements évolutifs (= minimiser la longueur de l’arbre) Uniquement efficace quand le nombre de substitutions est faible • Maximum de vraisemblance Probabilité qu’un arbre ait généré les données observées Utilise les modèles de substitution nucléotidique Cadre statistique consistant Robuste (peu affecté par les erreurs d’échantillonnage) Résiste bien aux éventuelles violations des hypothèses du modèle CRITÈRE D’OPTIMALITÉ • Le maximum de vraisemblance est l’une des meilleures approches à l’heure actuelle, mais estimer un arbre nécessite un temps de calcul important La vraisemblance doit être calculée pour chaque site (= colonne) de l’alignement La procédure est récursive, le temps de calcul augmente de manière importante lorsqu’on ajoute des séquences L’utilisation d’un modèle de substitution nucléotidique complexe (mais plus proche de la réalité) augmente encore le temps de calcul CALCUL DE LA VRAISEMBLANCE D’UN ARBRE CALCUL DE LA VRAISEMBLANCE D’UN ARBRE CALCUL DE LA VRAISEMBLANCE D’UN ARBRE CALCUL DE LA VRAISEMBLANCE D’UN ARBRE CALCUL DE LA VRAISEMBLANCE D’UN ARBRE TROUVER LA PHYLOGÉNIE OPTIMALE • La vraisemblance nous informe sur la qualité d’une phylogénie • Il suffit de trouver la phylogénie qui maximise la vraisemblance • Malheureusement le nombre de topologies possibles pour un ensemble de n séquences croît factoriellement NOMBRE D’ARBRES POSSIBLES B(3) = 1 B(5) = 15 B(4) = 3 NOMBRE D’ARBRES POSSIBLES PROBLÈMES … • Il devient donc impossible de générer tous les arbres possibles pour plus de quelques dizaines de séquences (et d’estimer leur vraisemblance …) • Inférence phylogénétique = problème NP-Complexe • Aucun algorithme ne peut résoudre ce problème en un temps fini PROBLÈMES … • La précision de l’inférence augmente avec le nombre et la longueur des séquences • Le nombre de données moléculaires à disposition des chercheurs ne cesse d’augmenter • Beaucoup de questions en biologie évolutive nécessitent de travailler avec de grands jeux de données … ET SOLUTIONS ! • Parcourir l’espace de recherche (inconnu) de manière intelligente, sans devoir générer toutes les topologies possibles • Se contenter d’une solution garantie proche de l’optimal, plutôt qu’une solution exacte • Famille des méta-heuristiques ! MÉTA-HEURISTIQUES • Hill climbing • Greedy algorithm (algorithme glouton) • Simulated annealing (recuit simulé) • Swarn intelligence algorithms Algorithme génétique (simple ou méta-populationnel) Ant colony optimization (algorithme des fourmis) Stochastic diffusion search • Tabu search • … MÉTA-HEURISTIQUES : OUTILS COMMUNS • Estimateur (= maximum de vraisemblance) • Génération d’une solution (= topologie) de départ • Opérateur(s) permettant de parcourir l’espace de recherche Perturber un arbre pour en générer un autre +/proche Perturbations topologiques Perturbations des longueurs de branches Perturbations des paramètres du modèle PERTURBATION D’UN ARBRE : NNI Nearest Neighbor Interchange PERTURBATION D’UN ARBRE : SPR Subtree Pruning and Regrafting PERTURBATION D’UN ARBRE : TBR Tree Bisection Reconnection OPTIMUM LOCAL ALGORITHME GLOUTON • La solution courante est améliorée jusqu’à atteindre un optimum • L’optimum atteint peut être local • Comme il n’y a aucune garantie d’atteindre un optimum global, il faut échantillonner les solutions de départ pour couvrir le plus d’espace de recherche possible ALGORITHME GLOUTON NON S0 S1 OUI SIMULATED ANNEALING • Un paramètre (appelé température) permet d’accepter parfois des solution « moins bonnes » • Si la valeur de ce paramètre est diminuée suffisamment lentement, l’algorithme garanti une convergence vers l’optimum global SIMULATED ANNEALING S0 S1 NON OUI NON OUI ALGORITHME GÉNÉTIQUE • Tente d’imiter le processus naturel d’évolution d’une population d’individus (ensemble d’arbres de départ) sur de nombreuses générations (itérations de l’algorithme) Mutations (opérateurs perturbant un arbre) Recombinaisons Sélection Reproduction ALGORITHME GÉNÉTIQUE • Recombinaison d’arbres phylogénétiques ALGORITHME GÉNÉTIQUE MUTATIONS ET/OU RECOMBINAISON SELECTION • Classement • Tournoi • Remplacement • Amélioration • Le meilleur gagne Population Meilleur individu REPRODUCTION ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL !! CONSENSUS !! MUTATIONS ET/OU RECOMBINAISON SELECTION Pop1 Pop2 Pop3 Meilleur individu dans une population REPRODUCTION ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL • Exemple d’une branche consensus entre 2 arbres ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL Les populations communiquent entre elles via les consensus commun entre tous les arbres. b o a n f g c d h e j i k m l Les consensus présents dans une majorité d’arbre sont préservés ALGORITHME GÉNÉTIQUE MÉTA-POPULATIONNEL METAPIGA 2 HTTP://www.metapiga.org •4 métaheuristiques •ADN, protéines, charactères binaires •Nombreux modèles •Partitionnement du dataset •Conditions d’arrêt automatiques •Valeur de support des branches •Reconstruction des séquences ancestrales •Parallélisation sur machines multicoeurs, GRID, clusters • Interface graphique et aide interactive