Plan Introduction à la Phylogénie moléculaire Abdoulaye Baniré Diallo (Université du Québec à Montréal) Aujourd’hui-Semaine 1 ! Introduction à l’analyse phylogénétique • Le problème et les applications ! Les données moléculaires • Les caractères et les distances ! Rappel sur les arbres • • • • Arbre enraciné vs arbre non enraciné Arbres binaires Nombre de topologies possibles Dénombrement de topologies ! Les méthodes de distances • Principe • Relation matrice-phylogénie • Algorithmes PGM ! ! ! ! Introduction Les données moléculaires Rappel sur les arbres Les méthodes d’inférence phylogénétique • • • • ! ! ! ! ! ! Les méthodes de distances Les méthodes de parcimonie Les méthodes de Maximum de vraisemblance Les méthodes Bayésiennes Les validations statistiques Splits and Spectra Les réseaux phylogénétiques Les phylogénies connues Simulation Sujets divers Arbre et relations inter-espèces Arbre et relations inter-espèces ! Darwin (1859) a initié l’arbre comme support formel de la représentation des relations inter-espèces ! Au début les modes de classifications des espèces étaient: • Les comparaisons morphologiques • Les comparaisons comportementales • Les répartitions géographiques ! Aujourd’hui les phylogénies obtenues à partir: • • • • • • des séquences moléculaires (phylogénie moléculaire) des caractères discrets des fréquences des gènes des traits quantitatifs des sites de restriction des microsatellites Arbre et relations inter-espèces ! l'histoire du développement paléontologique des organismes par analogie avec l'ontogénie ou histoire du développement individuel ! Haeckel (1860) Phylogénie-phylogenèse ! Définition: • l’histoire de la formation et de l’évolution d’une espèce, d’un phylum (série évolutive des formes animales dérivant d’un ancêtre commun) ! Du grec • Phûlon = tribus • Genesis = origine Arbre et relations inter-espèces La phylogénie moléculaire ! Définition: Plus de 3000 articles traitent de l’analyse phylogénétique • La phylogénie moléculaire est la discipline ayant pour objectif la reconstruction de l'histoire évolutive des espèces par comparaison des séquences de leurs gènes ou de leurs protéines. ! Données: • Un ensemble d’organismes (taxa) et pour chacun un ensemble de données moléculaires (séquences par exemple). La phylogénie moléculaire (Données) Taxons Caractères La phylogénie moléculaire (Résultats) Taxon B Taxon C Espèce Espèce Espèce Espèce Espèce A B C D E ATGGCTATTCTTATAGTACG ATCGCTAGTCTTATATTACA TTCACTAGACCTGTGGTCCA TTGACCAGACCTGTGGTCCG TTGACCAGTTCTCTAGTTCG Taxon A L’espace entre les taxons et leur position (en terme de hauteur) ne signifie rien. Taxon D Taxon E Cette dimension peut avoir des longueurs de branches identiques (cladogramme et ultramétrique) ou non identiques (arbre additif ou phylogramme) La phylogénie moléculaire Applications Histoire de l’évolution ! Projet: Tree of life • Avec plus de 4000 pages web, le projet présente la diversité des organismes sur la terre, leurs histoires évolutionaires et leurs caractéristiques Évolution des caractères La phylogénie moléculaire Applications ! Bio-écologie • Déplacement d’espèces • Relation hôtes-parasites La phylogénie moléculaire Applications Utilisation de la phylogénie pour comprendre les phénomènes de duplications et pertes de gènes ! Épidémiologie • Tracer l’évolution d’un virus à travers ces différentes souches (dentiste) A. Arbre de gène Est ce que le Dr David Acer a contaminé ses patients ? DENTIST Patient C Arbre phylogénétique des séquences de VIH du DENTISTE, ses 7 patients et 35 infectés dans la même région Géographique. Patient A Patient G Patient B Patient E Patient A DENTIST Oui: Les séquences de VIH de 5 de ses patients sont dans le même clade que les séquences de VIH du Dr Acer. Local control 2 Local control 3 Patient F No Local control 9 Local control 3 Ou et al. (1992), Page et Holmes (1998) Est ce que le Dr Richard Smith a contaminé sa femme? ! En 1998, la femme du Dr Richard accuse son mari médecin de l’avoir délibérément injecté du sang contaminé au VIH. ! Des arbres d’évolutions du virus ont prouvé que le médecin a effectivement contaminé sa femme. ! Premières preuves d’arbres d’évolutions acceptés par une cour criminelle aux USA. ! Il a été condamné à 50 ans de prison pour meurtre au second degré. Local control 35 Patient D B. L’arbre de gènes superposé à un arbre d’espèces pour identifier les pertes de gènes. No La phylogénie moléculaire Caractéristiques ! Sujet difficile car vérité non connue. • A–C–A • Beaucoup de controverse • Les scénarios doivent être justifiés. La phylogénie moléculaire Historique de la reconstruction d’arbre ! Les années 1950: la plupart des publications présentaient des arbres de moins de 50 taxons. ! Les années 1990: les arbres phylogénétiques avec 500 espèces peuvent être reconstruits en quelques heures. ! Algorithmes vastes et complexes. ! Aujourd’hui: des phylogénies avec 16000 taxons peuvent être reconstruites en moins d’une journée. ! Ici nous survolons les principales techniques de base. ! Futur: reconstruire l’arbre de vie ? Prédiction phylogénétique Données moléculaires: Caractères ! Un caractère est un trait commun (ou susceptible de l’être plutôt) à tous les taxons et pouvant prendre plusieurs valeurs appelées "états". ! Données non moléculaires: Caractères: branchies nageoires dents … Baleine Non Oui Non … Requin Oui Oui Oui … … … … … … Taxons : Woese 1987; Barns et al. 1996; Brown et Doolittle 1997 Données moléculaires Caractères ! Alignement d’un gène ou d’une protéine. ! Exemple: 3 taxons de 20 caractères et 5 états (A, C, G, T, -) Espèce A Espèce B Espèce C ATGGCTATTC-TATAGTACG ATCGCT-GTCTTATATTACA TTCACT--ACCTGTGGTCCA ! Les taxons représentent les lignes de la matrice et les caractères désignent les colonnes. Commentaire sur les alignements ! Choix des séquences • L’évolution des séquences choisies devrait refléter ce que l’on veut calculer. ! Exemples: • Mixer ARNribo et ARNt: non sens. • ARNribo stable => espèces divergentes • ADNmito a un taux de mutation 17 fois que celui de l’ADN nucléaire => organismes proches ! Autres types de caractères • Binaire avec sites de restrictions. Commentaire sur les alignements ! Alignement constitue la base de la reconstruction phylogénétique. • Un mauvais alignement ruine une reconstruction. Ainsi il y a un gros effort à fournir à l’alignement. ! Il faudrait pouvoir comparer ce qui est comparable. Données moléculaires Distance ! n taxons ! Matrice D avec n ligne et n colonnes ! di,j – estimation de la distance évolutive entre les taxons i et j. ! Exemples de distances • Distances en termes de réarrangements génomiques (inversions, translocations et substitutions) cf. GRIMM. • Distances entre séquences: ! Distance de Hamming ! D’édition (matrices PAM, Dayhoff, Blosum) ! Remarques • perte d’information par rapport à la reconstruction basée sur un alignement, mais permet d’utiliser des algorithmes rapides Les 4 grandes étapes de l’analyse phylogénétique 1 Sélectionner les données 2 Les méthodes de distances Calcul de distances (Quel modèle?) Choix de la méthode 3 MB ML Modèle? ! Ce processus de reconstruction n’est valable que si l’on considère que des spéciations. Aligner les séquences Les méthodes basées caractères MP Poids? Modèle? (sites, substitutions)? Optimisation de critères LS ME Arbre Unique NJ PGM Calculer ou estimer l’arbre qui traduit mieux les données 4 Remarque Effectuer des tests statistiques de robustesses ! Les spéciations sont obtenus à partir de séquences orthologues (Homologues). ! Si les séquences sont sujettes à des transferts latéraux (bactéries) alors un modèle en arbre est non pertinent. ! Il faut utiliser un réseau dans ce dernier cas. 20/01/09 Adapté de Hillis et al., (1993) Réseaux Aujourd’hui-Semaine 2 ! ! ! ! Homologie Distances Modèles d’évolution Rappel sur les arbres • Arbre enraciné vs arbre non enraciné • Arbres binaires • Nombre de topologies possibles • Dénombrement de topologies ! Les méthodes de distances • Principe • Relation matrice-phylogénie • Algorithmes PGM • Algorithme NJ • Critère des moindres carrés • Évaluation de l’espace de topologies • Détails sur les arbres Homologie ! 2 nucléotides dans différentes séquences sont homologues si les 2 séquences héritent toutes cet état directement d’un ancêtre commun. ! Pour déterminer si des nucléotides sont homologues, il faudrait connaître les relations évolutionaires entre les différentes espèces contenant ces nucléotides. ! Homologie vs Homoplasie Homologie ! La même chose s’applique au niveau des caractères moléculaires. • 2 protéines dans 2 organismes peuvent être codées par le même gène. (le gène provient d’un ancêtre commun) • 2 gènes peuvent avoir plusieurs acides aminés en commun et avoir une fonction similaire. Cependant si la fonction est acquise indépendamment alors celle-ci n’est pas homologue. ! Plusieurs gènes peuvent appartenir à une famille de gènes (homologues). Homologie ! L’homologie dépend de la partie que nous comparons • Les ailes de la chauve souris et de l’oiseau sont homologues comme avant bras et non comme ailes. • Les deux ont hérité leurs avant bras de leur ancêtre commun. ! i.e. l’avant bras n’a pas évolué indépendamment • Cependant, chez les deux groupes les avant bras sont devenus des outils de vol. ! Leur ancêtre commun ne peut pas voler. • Donc les ailes découlent d’une homoplasie. Homologie Orthologie-paralogie Distance génétique ! De façon basique, les séquences d’ADN ne sont pas très informatives sur l’histoire évolutive. ! Pour chaque site, le nombre maximal de différences est 1. ! Il existe seulement 4 états. Donc, si il y a plus d’une substitution, nous perdons la substitution passée. Distance génétique ! Les substitutions multiples cachent l’histoire évolutive entre les séquences. ! Nous pouvons classifier les substitutions d’une autre manière. Différences observés ! La mesure simple de la distance est de compter le nombre de nucléotides différents entre 2 séquences. ! Cette mesure constitue une mauvaise estimation du nombre de changements évolutionnaires. ! Si les changements sont communs, alors le même site peut répéter la même substitution. ! Plus le temps est long, plus la différence observée devient plus petite par rapport au nombre réel de substitutions. Comparaison entre le nombre de substitutions réelles et observées Séquence 1 Séquence 2 Substitution unique T T"A 1 1 Substitutions multiples A A " G "T 1 2 Substitutions coïncidentes au même site A"C A"G 1 2 Substitutions parallèles T"A T"A 0 2 Substitutions convergentes A"C"T A"T 0 3 Substitutions inverses T"A"T T 0 2 Distances observées vs réelles Nombre de Nombre de substitution substitution s observées s réelles Divergence temporelle Modèles d’évolution des séquences Différences observées Méthodes de correction des distances ! Les méthodes existantes sont interreliées. ! Étant donné que les différences observées sousestiment les changements évolutionnaires, il existe peut-être une voie pour convertir cette différence en une mesure qui correspond à la distance actuelle. ! Elles diffèrent par le nombre de paramètres qu’elles comportent. • Variation de la fréquence des nucléotides. • Types de substitutions • Différences entre les probabilités de substitutions. ! Cette distance est souvent appelée "distance corrigée". ! Un framework général montre leur interrelation. ! Il existe plusieurs modèles défini chacun autour d’assomption à propos de l’évolution. ! Zharkih (1994) passe en revue une large partie de ces méthodes. Le modèle de Jukes-Cantor (1969) ! Simple ! chances égales de changement ! chances égales de transition vers les trois autres bases (s’il y a changement) ! présume une égalité des fréquences des 4 bases dans la séquence nucléotidique Jukes et Cantor (1969) _ A _ C _ _ ! La distance ainsi obtenue devient infinie lorsque la différence entre les séquences est supérieure à 3/4. G _ _ T Le modèle de Jukes-Cantor (1969) où _ = u/3 ! D’après les auteurs, cela ne peut se produire dans les données si les séquences sont infiniment longues Jukes et Cantor (1969) D = ut = ' 3 & 3 # ln $1 ' DS ! 4 % 4 " Le modèle Kimura 2-paramètres (1980) _ A G _ _ C _ _ T 1 1 (# 4(" + ! )T ) 1 (#8 ! T ) # e + e 4 2 4 1 1 (#8 ! T ) Prob (transversion | T ) = # e 2 2 Prob (transitio n | T ) = Purines transition _ Le modèle Kimura 2-paramètres (1980) transversion D=! Pyrimidines ! Taux de substitution total par site est (!+2") Kimura (1980) 1 ln (1 ! 2 P ! Q) 1 ! 2Q 2 [ ] le modèle de Jukes et Cantor (1969) est un cas particulier du modèle Kimura 2-paramètres pour ! = " et P = Q/2. Kimura (1980) Le modèle Tajima-Nei (1984) ! non égalité des différentes fréquences. ! Similaire à Jukes Cantor ! Fréquences de nucléotides variables ! F84 et HKY sont les plus utilisés. ! étendent le modèle Kimura 2-paramètres en un modèle de fréquences asymétriques des nucléotides. D % ( D = ) b ln &1 ) S # b $ ' où b = 2 ( 1 (& & fraction[i ]2 + DS 1) ! 2 & i"{A, C,G ,T }&' h ' ! F84 et HKY ont 5 paramètres. ! Tamura-Nei a 6 paramètres. %% ## ## $$ ! Différences entre la fréquence des purines et des pyrimidines. et h = Tajima et Nei (1984) Les modèles Tamura-Nei, F84 et HKY ( frequence_ parallele[i, j ]2 1 & ! ! 2 i"{A,C, G ,T }j"{A,C ,G ,T }& fraction[i] * fraction[ j ] ' % # # $ Felsenstein et Churchill (1996), Hasegawa, Kishino et Yano (1985), Tamura et Nei (1993) Les modèles Tamura-Nei, F84 et HKY A: De : A G C Les modèles Tamura-Nei, F84 et HKY T # 2( A( G & (R 1 ln $$1 ' PR ' Q !! (R 2( R " % 2( A( G & # 2( ( (Y 1 ' T C ln $$1 ' PY ' Q !! (Y 2( Y " % 2( T ( C & ( ( ( ( ( ( # & # 1 ' $$( R( Y ' A G Y ' C T R !! ln $$1 Q !! (R (Y % " % 2( R( Y " D=' A - !R"G / "R + #"G #"C #"T G !R"A / "R + #"A - #"C #"T C #"A #"G - !Y"T / "Y + #"T T #"A #"G !Y"C / "Y + #"C - Tamura et Nei (1993) D’autres modèles ! Le modèle GTR est plus complexe que les modèles décrits précédemment. Chacun des 6 paramètres de substitutions a sa propre probabilité. ! Il existe d’autres modèles pour effectuer des corrections spécifiques. • Tamura accorde une importance aux variations (G-C) • Jin-Nei-Gamma suppose un changement selon une distribution Gamma des taux de substitutions des sites. ! Le nombre de paramètre influence la variance. ! Il existe des modèles d’évolution pour les séquences protéiques. • Kimura-protein Jin et Nei (1990), Kimura (1993), Tamura (1992) ! !R = !Y correspond au modèle F84 ! !R / !Y = #R / #Y correspond à HKY Felsenstein et Churchill (1996), Hasegawa, Kishino et Yano (1985), Tamura et Nei (1993) Modèles d’évolution Rappels sur les arbres Rappels sur les arbres Racine racine Nœuds internes a Nœuds externes ou feuilles X Partiellement résolue Complètement résolu A A A B C E C E C D B B E D D Polytomie or multifurcation bifurcation a b c (b) d a (c) b c d Rappels: Types d’arbre Résolution d’une phylogénie Complètement non résolue Étoile Y d (a) X Y X Y b Branches racine c 3 arbres possibles pour 4 taxons (A, B, C, D) Le nombre d’arbres non enracinés A B # Taxons Arbre 1 A B Arbre 2 C A D Arbre 3 B A D C D C A C B D C • L’inférence phylogénétique cherche à découvrir lequel des arbres possibles est corrects. • Le vrai arbre (au sens biologique): est celui qui représente le mieux l’histoire évolutionaire des taxons. C D E B A C D )(n - 3)! Une autre racine B C C Root (2 E F ( n -3) Adapté de C-B Stewart Lecture (2000) L’inférence de relation entre les taxons requièrent une racine B 1 3 15 105 945 10,935 135,135 2,027,025 . . . . !3.58 x 10 36 (2n - 5)! B Adapté de C-B Stewart Lecture (2000) 3 4 5 6 7 8 9 10 . . . . 30 B A # arbres non enracinés Root D Arbre non enraciné D Arbre non enraciné A A A A B C B D C D Arbre enraciné Arbre enraciné Root Adapté de C-B Stewart Lecture (2000) Root Adapté de C-B Stewart Lecture (2000) Nombre de racines possibles pour un arbre de 4 taxons? A Arbre non enraciné 1: 2 1 B Arbre enraciné 1a 4 C 5 Arbre enraciné 1a D 3 B A A C D A B B D C C A D A Arbre enraciné 1b Arbre enraciné 1c Arbre enraciné 1d Arbre enraciné 1d B C Des réarrangements ne modifiant pas la topologie C D D C D A B B Ces arbres racontent 5 différentes histoires Adapté de C-B Stewart Lecture (2000) Utilisez un taxon qui est en dehors du groupe d’intérêt. Nécessite une connaissance à priori des relations taxonomiques. C B B C D D C A A B B B B C D D A C A C D B outgroup A C B A d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9 10 A D E C D C 3 B Adapté de C-B Stewart Lecture (2000) D Nombre d’arbres enracinés vs non enracinés A Outgroup: Mettre la racine au milieu du plus long chemin entre 2 taxons. Assume que l’évolution respecte l’horloge moléculaire. A D Adapté de C-B Stewart Lecture (2000) Deux façons d’enracinés un arbre phylogénétique Point moyen (Midpoint): A C 2 2 5 D B F # Taxa 3 4 5 6 7 8 9 . . . . 30 # Unrooted # Rooted Trees x # Roots = Trees 1 3 3 3 5 15 15 7 105 105 9 945 945 11 10,395 10,935 13 135,135 135,135 15 2,027,025 . . . . . . . . . . . . ~3.58 x 1036 57 ~2.04 x 1038 E Adapté de C-B Stewart Lecture (2000) Similarité vs. Relation évolutionnaire Types de similarités La similarité entre deux entités La Similarité est différente de la relation évolutionnaire bien que cette dernière est obtenue à partir de certaines forme de la première. Similaire: Ressemblance (une observation) Relation: connexion génétique (Fait historique) 6 1 1 3 1 5 C C G Relation évolutionnaire: Caractères ancestraux partagés (‘plésiomorphies’) Caractères dérivés partagés (‘’synapomorphie’) G Homoplasie (évolution indépendante du même caractère): Évènements convergents, évènements parallèles, évènement inverse. Taxon B Taxon C Taxon A C est plus similaire en séquence de A (d = 3) que de B (d = 7), mais C et B sont mieux reliés. G C C G C G T G C G C G Taxon D Adapté de C-B Stewart Lecture (2000) Adapté de C-B Stewart Lecture (2000) Représentation des partitions Taxons i ii iii iv … x y … A 1 1 0 0 … 1 0 … B 1 1 0 0 … ? ? … C 0 0 1 1 … 0 1 … D 0 0 1 1 … ? ? … E 0 0 1 0 … 0 1 … F 0 1 0 0 … 1 0 … C B iv racine i racine F D x C y iii ii A E A E F Les méthodes de distances: principe général Séquences d’ADN A: CGTAAT B: CGTACG C: CGTCGA D: ACT…… E: …………. F: …………. Les méthodes de distances Matrice de dissimilarités Les méthodes de distances: principe général Arbre Phylogénétique A B C D E F A A 0 3 3 5 5 4 B B 3 0 3 5 5 4 C C 3 3 0 4 4 3 D D 5 5 4 0 2 3 E E 5 5 4 2 0 3 F 4 4 3 3 3 0 F ! di,j = distance évolutionnaire entre les taxons i et j. ! Distance évolutionnaire représente le nombre d’étapes d’évolution: • Mutations nucléiques ou protéiques. • Réarrangement. ! Cette distance est souvent estimée et non connue avec précision (mutation silencieuse). Distances: Condition à vérifier Propriété 1: d (a, b) ! 0 Non-négativité Propriété 2: d (a, b) = d (b, a) Symétrie propriété 3: d (a, b) = 0 ssi a = b distinction Propriété 4: d (a, c) " d (a, b) + d (b, c) a inégalité triangulaire 9 c 6 Relation matrice-phylogénie ! Étant donnée une matrice D, il n’est pas toujours possible de la représenter par une phylogénie T de sorte que les distances de D soient identiques à celles de T. ! Dans ce cas, il faut s’en approcher le mieux possible en optimisant un critère. 5 b Adapté de C-B Stewart Lecture (2000) Clustering Remarques Clustering ! Principe très général n groupes =n taxons n-1 étapes 1 étape = fusion gloutonne de 2 groupes • Données isolées que l’on structure en les regroupant pas à pas ! Très utilisé en bioinformatique • Analyse des données d’expression de gènes • Assemblage d’EST • phylogénie ! Questions 1 groupe structuré = la phylogénie • Comment choisir des groupes à fusionner? • Comment remplacer 2 groupes par un seul dans la matrice de distance? • Comment valuer les branches? UPGMA: exemple Algorithmes PGM unweighted pair-group method using arithmetic averages # $ Considérer chacun des taxons comme un groupe de profondeur 0. %$ Pour c de 1 à n-1 faire # $Trouver deux groupes i et j minimisant Di,j. &$ Fusionner i et j en un groupe (ij) en les connectant à un ancêtre x de profondeur Di,j /2. Différences observées entre les séquences Distance: A '$ Supprimer de D les lignes et colonnes i et j. ($ Ajouter à D une ligne et une colonne pour le groupe (i,j) en calculant la distance de (ij) à chaque autre groupe k )$ Lorsqu’il reste deux groupes, placer la racine entre ces 2. A B - B 63 - C 94 79 C D E F 111 96 47 - E 67 23 83 100 - F 20 58 89 106 62 - G 107 92 43 16 96 102 D G D E F B 63 - C 94 79 - D 111 96 47 - E 67 20 83 100 - F 23 58 89 106 62 - G 107 92 43 16 96 102 G - Fusion de D et G G - D C - Distance minimale A B A - A B C D E F - B 63 - C 94 79 - D 111 96 47 - E 67 23 83 100 - F 20 58 89 106 62 - G 107 92 43 16 96 102 D A G A - B C E F A - B 63 - C 94 79 - E 67 23 83 - F 20 58 89 62 - DG 109 94 45 98 104 G d kl = d il + d jl 2 DG - Distance minimale A B C E F Fusion de A et F A DG A - B 63 - C 94 79 - E 67 23 83 - F 20 58 89 62 - DG 109 94 45 98 104 D G A F - B C B C E F B 63 - C 94 79 - E 67 23 83 - F 20 58 89 62 - DG 109 94 45 98 104 - D G AF D - C 92 79 - E 65 23 62 - DG 107 94 45 98 F DG C 61 - C 92 79 - E 65 23 62 - DG 107 94 45 98 A F AF - BE 63 - C 92 71 - DG 107 96 45 DG - - B E D G A F E DG - Fusion de B et E BE C 61 - B G B B A AF AF AF DG - Distance minimale AF E A B E - Fusion de (DG) et C Distance minimale AF BE C DG AF D G AF - BE 63 - C 92 71 - DG 107 96 45 C AF - BE 63 - CDG 102 88 C A F B D E G Fusion de (BE) et (AF) BE AF - BE 63 - CDG 102 88 CDG G C A F B E AFBE - CDG 94 CDG A F B E - D D - FIN AFBE AF CDG - F A BE B G C A F B E E Racine D G C Précision sur PGM ! UPGMA • Si le groupe i respectivement j contient ni (resp. nj) taxons: • D(ij),k = 1/2 (Di,k + Dj,k) ! WPGMA • D(ij),k = 1/(ni+ nj) (ni Di,k + nj Dj,k) Distances ultramétriques Doit satisfaire une cinquième propriété: Propriété 5 d (a, b) " maximum [d (a, c), d (b, c)] 4 a Les 2 plus grandes distances sont égales et définissent un triangle isocèle 6 b 6 ! Complexité • • • • O(n3) n-1 itération de la boucle 2 étape 2.1 O(n2) étape 6 O(n2) c Similarité = Relation si la distance est ultramétrique! a 2 2 2 4 b c PGM et ultramétricité ! L’arbre produit par une méthode PGM est ultramétrique: les feuilles sont à la même distance de la racine. ! Valide seulement lorsque les organismes ont évolué à la même vitesse évolutive (horloge moléculaire). ! Si la matrice de distances vérifie l’ultramétricité alors les distances données par UPGMA sont identiques aux premières. ! Sinon les résultats peuvent être très mauvais. ! Aucune maîtrise de la déviation par rapport à la matrice de distances initiale. Rappel: Algorithmes PGM # $ Considérer chacun des taxons comme un groupe de profondeur 0. %$ Pour c de 1 à n-1 faire # $Trouver deux groupes i et j minimisant Di,j. &$ Fusionner i et j en un groupe (ij) en les connectant à un ancêtre x de profondeur Di,j /2. '$ Supprimer de D les lignes et colonnes i et j. ($ Ajouter à D une ligne et une colonne pour le groupe (i,j) en calculant la distance de (ij) à chaque autre groupe k )$ Lorsqu’il reste deux groupes, placer la racine entre ces 2. Précision sur PGM ! UPGMA • Si le groupe i respectivement j contient ni (resp. nj) taxons: • D(ij),k = 1/2 (Di,k + Dj,k) ! WPGMA • D(ij),k = 1/(ni+ nj) (ni Di,k + nj Dj,k) ! Complexité • • • • O(n3) n-1 itération de la boucle 2 étape 2.1 O(n2) étape 6 O(n2) Exercice A 0 B 8 0 C 7 9 0 D 12 14 11 0 ! Reconstruire l’arbre en utilisant UPGMA. Neighbor Joining ! ! ! ! ! Algorithme de NJ Saitou et Nei, 1987. Autorise un taux d’évolution différent entre les lignées étudiées. Il permet d’inférer des phylogénies sur des centaines d’espèces. Le principe de Neighbor Joining consiste en la recherche séquentielle des voisins en minimisant la longueur totale de l’arbre. Algorithme glouton. Algorithme de NJ Exercice A 0 B 8 0 C 7 9 0 D 12 14 11 ! Calculer U ! Reconstruire l’arbre et les longueurs de branches en utilisant NJ. 0 Commentaires sur NJ ! Idée • être moins sensible que PGM aux différences de vitesses d’évolution. ! Technique • Minimiser la distance entre les groupes fusionnés. ! Complexité • O (n3) : similaire à PGM ! Produit un arbre additif Addivité ! L’arbre produit par NJ est optimal Di,j = Ai,j pour tout i et j si et seulement si: • ! Sinon aucun contrôle sur la déviation. ! Remarques générales: pour qu’une matrice de distances traduise mieux un arbre évolutionnaire il faut: • • Conclusion sur NJ et UPGMA ! Implanté dans les principaux logiciels: • Paup (Swofford) • Phylip (Felsenstein) ! Méthode qui choisit l’arbre le plus proche de la matrice de données étant donné un critère. ! Critère • Valeur numérique associée à une phylogénie, qui permet entre autres de la comparer (en terme de qualité) avec d’autres phylogénies. weighbor (Bruno, Socci et Halpern) BioNJ (Gascuel) ! Méthodes algorithmiques: Qu’elle soit métrique ou ultramétrique Qu’elle soit additive. Méthodes d’ajustement ! NJ existe en plusieurs variante dont: • • Di,j + Dk,l ! max{Di,k + Dj,l; Di,l + Dj,k} ! Critère des moindres carrés • Un arbre produit sans optimisation d’un critère numérique précis. ! Si les matrices ne sont ni ultramétriques ou additives, elles peuvent mener à de mauvais résultats. ! NJ est plus robuste (surtout pour les espèces proches). ! Impossibilité de comparer la qualité de 2 arbres. ! ! ! ! W indique la confiance accordée aux distances Si W = 1 moindres carrés non pondérés (Cavalli-Sforza, 1967) Si W = 1/(dij)2 Fitch et Margoliash (1967) Si W = 1/(dij) Beyer (1974) Précision sur le critère des moindres carrés Comment utiliser le critère des moindres carrés ! Plusieurs topologies possibles:choisir celle ayant la valeur de LS optimale. ! Données: D, n taxons ! Intuition sur LS(A) • Si A représente parfaitement D (additive et A obtenu par NJ, par exemple) alors LS(A) = 0 Sinon plus LS(A) augmente moins A correspond à D. • ! Wi,j • • ! Si Di,j est fiable alors Wi,j augmente sinon il diminue (si 0 = oublier cette donnée). Idée: ne pas discriminer sur une distance pas fiable. Il existe plusieurs autres variantes du poids. ! Étape 3: Calculer LS(Ti) pour toutes les topologies. ! Étape 4: Choisir l’arbre ayant le score LS le plus bas. Commentaires sur LS ! Problème algorithmique: • Évaluer la topologie A aux branches valuées ayant le score le plus bas pour LS est NP-difficile. ! Remarques: NJ est une bonne approximation. ! Exploration de l’espace des solutions. ! Valuer optimalement les branches d’une topologie = trouver la valuation qui produira le score LS minimal. • Peut être résolu par Algèbre Linéaire (Felsenstein 2004, p 148-153). Les longueurs de branches Trouver les longueurs par Algèbre linéaire Récapitulatif ! 2 types de méthodes / 2 philosophies • Algorithmique (clustering): rapides mais limitées. • Basées sur un critère : lourdes mais plus informatives. ! Il existe de nombreuses variantes de ces méthodes. Explorer l’espace des topologies ! Trouver l’arbre optimal. ! Topologie = structure de l’arbre. ! Espace des topologies à n feuilles = tous les arbres non valués de n feuilles. ! Le problème: • • Critère d’évolution minimum par exemple. ! Important: • Connaître le plus précisément la qualité des données pour savoir quelle méthode employer (Wi,j, additivité, horloge moléculaire,…). ! 2 stratégies: • • ! Comment examiner tous les éléments de cet espace pour choisir celui qui optimise le critère donné? Recherche exacte. Recherche heuristique. Problème NP-difficile en général. Remarques ! Optimiser un critère: • Étant donné D, trouver l’arbre optimal minimisant le critère choisi. ! Techniques similaires pour arbres enracinés. ! Nombre de topologies (O (2n-5)!). ! À 1/(1 million de seconde) par topologie, il nous faut plus de 6.786 années pour reconstruire toutes les topologies d’un arbre de 15 feuilles. Recherche exacte ! ! ! ! Principe: partir de 3 taxons et ajouter les autres feuilles une à une. Sommet: une topologie Arête: ajouter une arête à une topologie. Ajout d’une nouvelle arête entraîne la division d’une arête existante. Z A B A B C Recherche exacte: Arbre de choix Recherche exacte ! Parcourir tout l’arbre de choix et à chaque feuille (topologie complète), calculer son score et la conserver si ce score est meilleur que tous ceux calculés avant. ! Parcours récursif. ! Valable pour n <= 10. ! Utiliser branch and bound, branch and cut. Branch and bound ! Diminue l’espace de solution. ! Utilise un score optimal à jour. • Choix du score de départ important. • Intérêt d’une bonne approximation. Branch and bound ! X= sommet courant de score "># • Il existe un score pour une topologie incomplète. ! Ajouter une feuille ne dégradera pas le score: pas toujours vérifié (LS). ! Il n’est pas nécessaire d’explorer les descendants de X. ! Nous sommes sûr de trouver un arbre de score optimal, mais nous ne contrôlons pas le temps d’exécution. ! Technique générale d’exploration d’un arbre de possibilités. Heuristiques: principe du maximum local ! Espace de possibilités de 11. ! Chacune ayant un score entre 1 et 5. ! Voisins de X: les nœuds accessibles à partir de X avec un saut de 1. ! Idée: partir d’un sommet quelconque et se déplacer vers son meilleur voisin tant que c’est possible ! Phylogénie: • • Sommets = topologies Arêtes = réarrangements de topologies Les 15 arbres possibles pour 5 feuilles Commentaires ! Technique sensible aux choix de la topologie de départ. ! NJ est une bonne approximation. ! Peut nécessiter un recalcul de certaines informations ajoutées à une topologie. ! Réarrangements classiques: NNI, SPR, TBR. Réarrangement NNI ! Le nombre de voisin peut être assez élevé mais la méthode reste polynomiale. ! Peut être utilisé avec une technique de branch and bound. ! Stratégie gloutonne. Réarrangement SPR Réarrangement TBR Addition de taxons pas à pas ! ! ! À partir de 3 taxons, ajouter le taxon suivant optimalement (glouton). O(n2 * calcul du score). Variantes basées sur l’ordre d’insertion des taxons. ! PAUP: insère le taxon qui optimise l’augmentation du score. ! FARRIS: défini un ordre d’insertion des taxons à partir de leur distance à un taxon de référence. Récapitulatif ! 2 stratégies • Recherche exacte (branch and bound) • Heuristique. ! Choix dicté par le nombre de taxons. ! Possibilité de combiner plusieurs techniques • Réarrangements + branch and bound • Addition pas à pas ou décomposition en étoile + réarrangements. ! Possibilité de générer plusieurs phylogénies optimales. ! Multitudes de variantes possibles. Décomposition en étoile ! Partir d’une étoile E et à chaque étape, remplacer E par une plus petite. ! Ajout de branchement itératif. ! Glouton: créer le branchement qui minimise le score du nouvel arbre. ! O(n3 * calcul du score). ! Quel algorithme l’emploie?