Introduction à la Phylogénie moléculaire Annie Chateau Plan Introduction Les données moléculaires Rappel sur les arbres Les méthodes d’inférence phylogénétique • • • • Les méthodes de distances Les méthodes de parcimonie Les méthodes de Maximum de vraisemblance Les méthodes Bayésiennes Plan Introduction Les données moléculaires Rappel sur les arbres Les méthodes d’inférence phylogénétique • • • • Les méthodes de distances Les méthodes de parcimonie Les méthodes de Maximum de vraisemblance Les méthodes Bayésiennes Arbre et relations inter-espèces Arbre et relations inter-espèces Darwin (1859) a initié l’arbre comme support formel de la représentation des relations inter-espèces Au début les modes de classifications des espèces étaient: • Les comparaisons morphologiques • Les comparaisons comportementales • Les répartitions géographiques Aujourd’hui les phylogénies sont obtenues à partir: • • • • • • des séquences moléculaires (phylogénie moléculaire) des caractères discrets des fréquences des gènes des traits quantitatifs des sites de restriction des microsatellites Phylogénie-phylogenèse Définition: • l’histoire de la formation et de l’évolution d’une espèce, d’un phylum (série évolutive des formes animales dérivant d’un ancêtre commun) Du grec • Phûlon = tribus • Genesis = origine Arbre et relations inter-espèces l'histoire du développement paléontologique des organismes par analogie avec l'ontogénie ou histoire du développement individuel Haeckel (1860) Arbre et relations inter-espèces Plus de 3000 articles traitent de l’analyse phylogénétique La phylogénie moléculaire Définition: • La phylogénie moléculaire est la discipline ayant pour objectif la reconstruction de l'histoire évolutive des espèces par comparaison des séquences de leurs gènes ou de leurs protéines. Données: • Un ensemble d’organismes (taxa) et pour chacun un ensemble de données moléculaires (séquences par exemple). La phylogénie moléculaire (Données) Taxons Espèce Espèce Espèce Espèce Espèce A B C D E Caractères ATGGCTATTCTTATAGTACG ATCGCTAGTCTTATATTACA TTCACTAGACCTGTGGTCCA TTGACCAGACCTGTGGTCCG TTGACCAGTTCTCTAGTTCG La phylogénie moléculaire (Résultats) Taxon B Taxon C Taxon A L’espace entre les taxons et leur position (en terme de hauteur) ne signifie rien. Taxon D Taxon E Cette dimension peut avoir des longueurs de branches identiques (cladogramme et ultramétrique) ou non identiques (arbre additif ou phylogramme) La phylogénie moléculaire Applications Projet: Tree of life • Avec plus de 4000 pages web, le projet présente la diversité des organismes sur la terre, leurs histoires évolutionaires et leurs caractéristiques • http://tolweb.org/tree/phylogeny.html Histoire de l’évolution Évolution des caractères La phylogénie moléculaire Applications Bio-écologie • Déplacement d’espèces • Relation hôtes-parasites La phylogénie moléculaire Applications La phylogénie moléculaire Applications Épidémiologie • Tracer l’évolution d’un virus à travers ses différentes souches (dentiste) Utilisation de la phylogénie pour comprendre les phénomènes de duplications et pertes de gènes A. Arbre de gène B. L’arbre de gènes superposé à un arbre d’espèces pour identifier les pertes de gènes. Est ce que le Dr David Acer a contaminé ses patients ? DENTIST Patient C Arbre phylogénétique des séquences de VIH du DENTISTE, ses 7 patients et 35 infectés dans la même région Géographique. Patient A Patient G Patient B Patient E Patient A Oui: Les séquences de VIH de 5 de ses patients sont dans le même clade que les séquences de VIH du Dr Acer. DENTIST Local control 2 Local control 3 Patient F No Local control 9 Local control 35 Local control 3 Patient D Ou et al. (1992), Page et Holmes (1998) No Est ce que le Dr Richard Smith a contaminé sa femme? En 1998, la femme du Dr Richard accuse son mari médecin de lui avoir délibérément injecté du sang contaminé au VIH. Des arbres d’évolutions du virus ont prouvé que le médecin a effectivement contaminé sa femme. Premières preuves d’arbres d’évolutions acceptées par une cour criminelle aux USA. Il a été condamné à 50 ans de prison pour meurtre au second degré. Plan Introduction Les données moléculaires Rappel sur les arbres Les méthodes d’inférence phylogénétique • • • • Les méthodes de distances Les méthodes de parcimonie Les méthodes de Maximum de vraisemblance Les méthodes Bayésiennes La phylogénie moléculaire Caractéristiques Sujet difficile car vérité non connue. • A–C–A • Beaucoup de controverse • Les scénarios doivent être justifiés. Algorithmes vastes et complexes. Ici nous survolons les principales techniques de base. La phylogénie moléculaire Historique de la reconstruction d’arbre Les années 1950: la plupart des publications présentaient des arbres de moins de 50 taxons. Les années 1990: les arbres phylogénétiques avec 500 espèces peuvent être reconstruits en quelques heures. Aujourd’hui: des phylogénies avec 16000 taxons peuvent être reconstruites en moins d’une journée. Futur: reconstruire l’arbre de vie ? Prédiction phylogénétique Woese 1987; Barns et al. 1996; Brown et Doolittle 1997 Données moléculaires: Caractères Un caractère est un trait commun (ou susceptible de l’être plutôt) à tous les taxons et pouvant prendre plusieurs valeurs appelées "états". Données non moléculaires: … Caractères: branchies nageoires dents Baleine Non Oui Non … Requin Oui Oui Oui … … … … … … Données moléculaires Caractères Alignement d’un gène ou d’une protéine. Exemple: 3 taxons de 20 caractères et 5 états (A, C, G, T, -) Espèce A Espèce B Espèce C ATGGCTATTC-TATAGTACG ATCGCT-GTCTTATATTACA TTCACT--ACCTGTGGTCCA Les taxons représentent les lignes de la matrice et les caractères désignent les colonnes. Commentaire sur les alignements Alignement constitue la base de la reconstruction phylogénétique. • Un mauvais alignement ruine une reconstruction. Ainsi il y a un gros effort à fournir à l’alignement. Il faudrait pouvoir comparer ce qui est comparable. Commentaire sur les alignements Choix des séquences • L’évolution des séquences choisies devrait refléter ce que l’on veut calculer. Exemples: • Mixer ARNr et ARNt: non sens. • ARNr stable => espèces divergentes • ADN mitochondrial avec un taux de mutation 17 fois que celui de l’ADN nucléaire => organismes proches Autres types de caractères • Binaire avec sites de restrictions. Résumé Les paramètres importants sont : • la qualité de l'alignement • le choix des séquences (gènes) • le choix des espèces (effet d'attraction des longues branches) Deux grandes classes de méthodes : • les méthodes de distance • les méthodes basées sur les caractères Données moléculaires Distance n taxons Matrice D avec n ligne et n colonnes di,j – estimation de la distance évolutive entre les taxons i et j. Exemples de distances • Distances en termes de réarrangements génomiques (inversions, translocations et substitutions) cf. GRIMM. • Distances entre séquences: Distance de Hamming D’édition (matrices PAM, Dayhoff, Blosum) Remarques • perte d’information par rapport à la reconstruction basée sur un alignement, mais permet d’utiliser des algorithmes rapides Les 4 grandes étapes de l’analyse phylogénétique 1 Sélectionner les données 2 Aligner les séquences Les méthodes de distances Les méthodes basées caractères Calcul de distances (Quel modèle?) Choix de la méthode 3 MB Modèle? ML MP Poids? Modèle? (sites, substitutions)? Optimisation de critères LS ME Arbre Unique NJ Calculer ou estimer l’arbre qui traduit mieux les données 4 Adapté de Hillis et al., (1993) Effectuer des tests statistiques de robustesses PGM Remarque Ce processus de reconstruction n’est valable que si l’on considère que des spéciations. Les spéciations sont obtenus à partir de séquences orthologues (Homologues). Si les séquences sont sujettes à des transferts latéraux (bactéries) alors un modèle en arbre est non pertinent. Il faut utiliser un réseau dans ce dernier cas. Réseaux Homologie 2 nucléotides dans différentes séquences sont homologues si les 2 séquences héritent toutes cet état directement d’un ancêtre commun. Pour déterminer si des nucléotides sont homologues, il faudrait connaître les relations évolutionaires entre les différentes espèces contenant ces nucléotides. Homologie vs Homoplasie Homologie L’homologie dépend de la partie que nous comparons • Les ailes de la chauve souris et de l’oiseau sont homologues comme avant bras et non comme ailes. • Les deux ont hérité leurs avant bras de leur ancêtre commun. i.e. l’avant bras n’a pas évolué indépendamment • Cependant, chez les deux groupes les avant bras sont devenus des outils de vol. Leur ancêtre commun ne peut pas voler. • Donc les ailes découlent d’une homoplasie. Homologie La même chose s’applique au niveau des caractères moléculaires. • 2 protéines dans 2 organismes peuvent être codées par le même gène. (le gène provient d’un ancêtre commun) • 2 gènes peuvent avoir plusieurs acides aminés en commun et avoir une fonction similaire. Cependant si la fonction est acquise indépendamment alors celle-ci n’est pas homologue. Plusieurs gènes peuvent appartenir à une famille de gènes (homologues). Homologie Orthologie-paralogie Distance génétique De façon basique, les séquences d’ADN ne sont pas très informatives sur l’histoire évolutive. Pour chaque site, le nombre maximal de différences est 1. Il existe seulement 4 états. Donc, si il y a plus d’une substitution, nous perdons la substitution passée. Distance génétique Les substitutions multiples cachent l’histoire évolutive entre les séquences. Nous pouvons classifier les substitutions d’une autre manière. Différences observés La mesure simple de la distance est de compter le nombre de nucléotides différents entre 2 séquences. Cette mesure constitue une mauvaise estimation du nombre de changements évolutionnaires. Si les changements sont communs, alors le même site peut répéter la même substitution. Plus le temps est long, plus la différence observée devient plus petite par rapport au nombre réel de substitutions. Comparaison entre le nombre de substitutions réelles et observées Séquence 1 Séquence 2 Nombre de substitutions observées Nombre de substitutions réelles Substitution unique T TA 1 1 Substitutions multiples A A G T 1 2 Substitutions coïncidentes au même site AC AG 1 2 Substitutions parallèles TA TA 0 2 Substitutions convergentes ACT AT 0 3 Substitutions inverses TAT T 0 2 Distances observées vs réelles Modèles d’évolution des séquences Différences observées Étant donné que les différences observées sous-estiment les changements évolutionnaires, il existe peut-être une voie pour convertir cette différence en une mesure qui correspond à la distance actuelle. Cette distance est souvent appelée "distance corrigée". Il existe plusieurs modèles défini chacun autour d’assomption à propos de l’évolution. Méthodes de correction des distances Les méthodes existantes sont interreliées. Elles diffèrent par le nombre de paramètres qu’elles comportent. • Variation de la fréquence des nucléotides. • Types de substitutions • Différences entre les probabilités de substitutions. Un framework général montre leur interrelation. Zharkih (1994) passe en revue une large partie de ces méthodes. Modèles d’évolution Plan Introduction Les données moléculaires Rappel sur les arbres Les méthodes d’inférence phylogénétique • • • • Les méthodes de distances Les méthodes de parcimonie Les méthodes de Maximum de vraisemblance Les méthodes Bayésiennes Rappels sur les arbres Racine Nœuds internes Nœuds externes ou feuilles Branches Rappels sur les arbres racine a c X b racine (a) d a X Y X Y Y b c (b) d a b c (c) d Résolution d’une phylogénie Complètement non résolue Étoile Partiellement résolue Complètement résolu A A A B C E C E C D B B E D D Polytomie or multifurcation bifurcation Rappels: Types d’arbre 3 arbres possibles pour 4 taxons (A, B, C, D) Arbre 1 Arbre 2 Arbre 3 A C A B A B B D C D D C • L’inférence phylogénétique cherche à découvrir lequel des arbres possibles est corrects. • Le vrai arbre (au sens biologique): est celui qui représente le mieux l’histoire évolutionaire des taxons. Adapté de C-B Stewart Lecture (2000) Le nombre d’arbres non enracinés A B C A B C A C B D D E A C D (2n - 5)! B F E Adapté de C-B Stewart Lecture (2000) (2( n-3) )(n - 3)! L’inférence de relation entre les taxons requièrent une racine B C Root D Arbre non enraciné A A B C D Arbre enraciné Root Adapté de C-B Stewart Lecture (2000) Une autre racine B C Root Arbre non enraciné D A A B C D Arbre enraciné Root Adapté de C-B Stewart Lecture (2000) Nombre de racines possibles pour un arbre de 4 taxons? A Arbre non enraciné 1: 4 1 B Arbre enraciné 1a 2 Arbre enraciné 1b C 5 D 3 Arbre enraciné 1c Arbre enraciné 1d Arbre enraciné 1d B A A C D A B B D C C C C A A D D D B B Ces arbres racontent 5 différentes histoires Adapté de C-B Stewart Lecture (2000) Des réarrangements ne modifiant pas la topologie Arbre enraciné 1a B A C D A C A D C B B D C D D C A A B B B B C D D C A A Adapté de C-B Stewart Lecture (2000) Deux façons d’enraciner un arbre phylogénétique Outgroup: Utilisez un taxon qui est en dehors du groupe d’intérêt. Nécessite une connaissance à priori des relations taxonomiques. outgroup Point moyen (Midpoint): Mettre la racine au milieu du plus long chemin entre 2 taxons. Assume que l’évolution respecte l’horloge moléculaire. A d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9 10 C 3 B Adapté de C-B Stewart Lecture (2000) 2 2 5 D Nombre d’arbres enracinés vs non enracinés C A D B A C B A B D E C F D E Adapté de C-B Stewart Lecture (2000) x = Similarité vs. Relation évolutionnaire La Similarité est différente de la relation évolutionnaire bien que cette dernière est obtenue à partir de certaines forme de la première. Similaire: Ressemblance (une observation) Relation: connexion génétique (Fait historique) 6 1 1 3 1 5 Taxon B Taxon C Taxon A Taxon D Adapté de C-B Stewart Lecture (2000) C est plus similaire en séquence de A (d = 3) que de B (d = 7), mais C et B sont mieux reliés. Types de similarités La similarité entre deux entités Relation évolutionnaire: Caractères ancestraux partagés (‘plésiomorphies’) Caractères dérivés partagés (‘’synapomorphie’) C Homoplasie (évolution indépendante du même caractère): Évènements convergents, évènements parallèles, évènement inverse. G C G G C C C G G T G G G C C Adapté de C-B Stewart Lecture (2000) Représentation des partitions C B iv racine i ii A F D x iii E racine F A Taxons i ii iii iv … x y … A 1 1 0 0 … 1 0 … B 1 1 0 0 … ? ? … C 0 0 1 1 … 0 1 … D 0 0 1 1 … ? ? … E 0 0 1 0 … 0 1 … F 0 1 0 0 … 1 0 … C y E Plan Introduction Les données moléculaires Rappel sur les arbres Les méthodes d’inférence phylogénétique • • • • Les méthodes de distances Les méthodes de parcimonie Les méthodes de Maximum de vraisemblance Les méthodes Bayésiennes Les méthodes de distances Les méthodes de distances: principe général Séquences d’ADN Matrice de dissimilarités Arbre Phylogénétique A A B C D E F A: CGTAAT B: CGTACG C: CGTCGA D: ACT…… E: …………. F: …………. A 0 3 3 5 5 4 B 3 0 3 5 5 4 C 3 3 0 4 4 3 D 5 5 4 0 2 3 E 5 5 4 2 0 3 F 4 4 3 3 3 0 B C D E F Les méthodes de distances: principe général di,j = distance évolutionnaire entre les taxons i et j. Distance évolutionnaire représente le nombre d’étapes d’évolution: • Mutations nucléiques ou protéiques. • Réarrangement. Cette distance est souvent estimée et non connue avec précision (mutation silencieuse). Distances: Condition à vérifier Propriété 1: d (a, b) ≥ 0 Non-négativité Propriété 2: d (a, b) = d (b, a) Symétrie propriété 3: d (a, b) = 0 ssi a = b Distinction Propriété 4: d (a, c) ≤ d (a, b) + d (b, c) Inégalité triangulaire a 9 c 6 5 b Adapté de C-B Stewart Lecture (2000) Relation matrice-phylogénie Étant donnée une matrice D, il n’est pas toujours possible de la représenter par une phylogénie T de sorte que les distances de D soient identiques à celles de T. Dans ce cas, il faut s’en approcher le mieux possible en optimisant un critère. Clustering n groupes =n taxons n-1 étapes 1 étape = fusion gloutonne de 2 groupes 1 groupe structuré = la phylogénie Remarques Clustering Principe très général • Données isolées que l’on structure en les regroupant pas à pas Très utilisé en bioinformatique • Analyse des données d’expression de gènes • Assemblage d’EST • phylogénie Questions • Comment choisir des groupes à fusionner? • Comment remplacer 2 groupes par un seul dans la matrice de distance? • Comment valuer les branches? Algorithmes PGM 1. Considérer chacun des taxons comme un groupe de profondeur 0. 2. Pour c de 1 à n-1 faire 1. Trouver deux groupes i et j minimisant Di,j. 3. Fusionner i et j en un groupe (ij) en les connectant à un ancêtre x de profondeur Di,j /2. 4. Supprimer de D les lignes et colonnes i et j. 5. Ajouter à D une ligne et une colonne pour le groupe (i,j) en calculant la distance de (ij) à chaque autre groupe k 6. Lorsqu’il reste deux groupes, placer la racine entre ces 2. Précision sur PGM UPGMA • Si le groupe i respectivement j contient ni (resp. nj) taxons: • D(ij),k = 1/2 (Di,k + Dj,k) WPGMA • D(ij),k = 1/(ni+ nj) (ni Di,k + nj Dj,k) Complexité • • • • O(n3) n-1 itération de la boucle 2 étape 2.1 O(n2) étape 6 O(n2) Neighbor Joining Saitou et Nei, 1987. Autorise un taux d’évolution différent entre les lignées étudiées. Il permet d’inférer des phylogénies sur des centaines d’espèces. Le principe de Neighbor Joining consiste en la recherche séquentielle des voisins en minimisant la longueur totale de l’arbre. Algorithme glouton. Algorithme de NJ Algorithme de NJ Exercice A 0 B 8 0 C 7 9 0 D 12 14 11 Reconstruire l’arbre et les longueurs de branches en utilisant NJ. 0 Méthodes d’ajustement Méthode qui choisit l’arbre le plus proche de la matrice de données étant donné un critère. Critère • Valeur numérique associée à une phylogénie, qui permet entre autres de la comparer (en terme de qualité) avec d’autres phylogénies. Critère des moindres carrés W indique la confiance accordée aux distances Si W = 1 moindres carrés non pondérés (Cavalli-Sforza, 1967) Si W = 1/(dij)2 Fitch et Margoliash (1967) Si W = 1/(dij) Beyer (1974) Précision sur le critère des moindres carrés Plusieurs topologies possibles:choisir celle ayant la valeur de LS optimale. Intuition sur LS(A) • Si A représente parfaitement D (additive et A obtenu par NJ, par exemple) alors LS(A) = 0 • Sinon plus LS(A) augmente moins A correspond à D. Wi,j • Si Di,j est fiable alors Wi,j augmente sinon il diminue (si 0 = oublier cette donnée). • Idée: ne pas discriminer sur une distance pas fiable. Il existe plusieurs autres variantes du poids. Comment utiliser le critère des moindres carrés Données: D, n taxons Étape 3: Calculer LS(Ti) pour toutes les topologies. Étape 4: Choisir l’arbre ayant le score LS le plus bas. Commentaires sur LS Problème algorithmique: • Évaluer la topologie A aux branches valuées ayant le score le plus bas pour LS est NP-difficile. Remarques: NJ est une bonne approximation. Exploration de l’espace des solutions. Valuer optimalement les branches d’une topologie = trouver la valuation qui produira le score LS minimal. • Peut être résolu par Algèbre Linéaire (Felsenstein 2004, p 148-153). Parcimonie Parcimonie Principe • Étant donnés une matrice de caractères et un coût pour chaque transformation de l’état d’un caractère (étape d’évolution), chercher la (ou les) phylogénie(s) la (ou les) moins coûteuse(s). Exemple 5 taxons A, B, C, D, E. 6 caractères [1..6]. 2 états possibles. 1 2 3 4 5 6 A 1 0 0 1 1 0 B 0 0 1 0 0 0 C 1 1 0 0 0 0 Coût de 1 pour une substitution. Coût optimal de 8. D 1 1 0 1 1 1 E 0 0 1 1 1 0 2 Solutions Identiques si non enracinés Remarques Homoplasie • Évolution parallèle (caractère 4 et 5) Nœuds internes (états ancestraux) • Y : 100110 • X : 110110 • Z : 001110 Alignement • Nous considérerons des matrices de caractères. Formule générale du coût total: k caractères k ∑ ∑ Wc Tc (i , j ) b = ( i, j) c = 1 Wc = poids du caractère Tc(i,j) = coût Algorithme de Fitch (1971) Données: n taxons, une topologie T à n feuilles et un caractère c et ses n états pour les n taxons. Principe • Associer à chaque nœud interne de T un ensemble d’états menant à une complétion optimale. • Déduire une complétion optimale du résultat de l’étape 1. Exemple • n = 5 et on a C A C A G et un arbre T. Déduire l’histoire évolutionnaire la plus parcimonieuse. Fitch: Mise en oeuvre Étape 1: calcul des états possibles pour chaque caractère à chaque nœud. Parcours profondeur postfixe. • Si le nœud est une feuille alors son état est gardé. • Sinon si l’intersection entre les 2 descendants du nœud est vide alors l’union de leurs états est pris • sinon nous prenons l’intersection. Exemple Fitch Fitch: Mise en oeuvre Étape 2: déterminer la valeur des états ancestraux. Parcours profondeur préfixe. • Soit x le nœud courant • Si x = racine alors nous choisissons un élément quelconque de la racine. • Sinon si le parent est identique à un élément de l’ensemble des éléments de x alors choisir celui-ci. • Sinon choisir un élément quelconque de l’ensemble x d’éléments. Fitch: récapitulatif Traite un problème de programmation dynamique dans un arbre. Théorème: • L’algorithme de Fitch calcule une complétion optimale de la topologie T. Proposition: • Pour n taxons, c caractères et k nombre d’états possibles • O (n * c* k) en temps • O(n*k+c) en espace. Mais • La recherche d’une topologie optimale maintient le problème comme NP-difficile. Parcimonie et Fitch Pour chaque topologie T à n feuilles • Pour chaque caractère c Compléter T pour c (Algorithme de Fitch) Soit Sc(T), le coût de T pour c • Calculer le coût global de T S (T ) = C ∑ Wc Sc (T ) c= 1 Conserver la topologie complétée T ayant le coût minimal. Remarque: Wc Poids de la colonne, qualité de l’alignement Prise en compte des codons,… Maximum de Vraisemblance Principe Méthode basée sur un critère probabiliste: • La vraisemblance (Likelihood) par rapport à un modèle probabiliste d’évolution. Utilise la notion de critère. Le plus souvent la plus consistente des méthodes existantes. Pas intuitif comme les autres méthodes. Exemple 4 taxons; 1 caractère; 2 états (0 et 1). Modèle d’évolution 0 1 : 0.25; 0 0 : 0.75; 1 0 : 0.25; 1 1 : 0.75; A:0 X C:1 B:0 A:0 T1 y X D:1 B:0 C:1 A:0 T2 X y D:1 D:1 B:0 T3 y C:1 Exemple X Y L(T1) L(T2) 0 0 (3/4)3(1/4)2 (3/4)3(1/4)2 0 1 (3/4)2(1/4)3 (3/4)4(1/4)1 1 0 (3/4)2(1/4)3 (3/4)0(1/4)5 1 1 (3/4)3(1/4)2 (3/4)3(1/4)2 9/128 17/128 Somme = T2 est plus vraisemblable que T1. Quelle est la comparaison par rapport à T3? Commentaires Si la probabilité que 0 1 ou 10 avait été élevée qu’aurions nous? La vraisemblance dépend du modèle. Schéma algorithmique général: • Essayer toutes les topologies. Comme en parcimonie: • Travailler caractère par caractère (indépendance). • Prendre la meilleure phylogénie globale. Problème Qu’est ce qu’un modèle d’évolution? Comment calculer la vraisemblance d’une phylogénie pour un caractère et un modèle donnés? Principe de la vraisemblance D – ensemble de données. H – hypothèse basée sur ces données (phylogénie). Vraisemblance de H par rapport à D • L(H) = Prob(D|H). • Probabilité que les données correspondent à l’hypothèse. Méthodes bayesiennes Les méthodes Bayésiennes Principe • D = données H = hypothèse Pr( H ) Pr( D | H ) Pr( H | D) = Pr( D) • Pr(H) – probabilité à priori de l’hypothèse Avant d’examiner les données • Pr(H|D) – probabilité à posteriori de l’hypothèse À la lumière des données • Pr(D|H) – vraisemblance de l’hypothèse Pr( D) = ∑ Pr( Hi ) Pr( D | Hi ) Hi Somme sur toutes les hypothèses possibles Méthodes Bayésiennes Pr( H 1 | D ) Pr( D | H 1 ) Pr( H 1 ) = Pr( H 2 | D) Pr( D | H 2 ) Pr( H 2 ) H1 vs H2 : 3/2 (prior) Ratio de vraisemblance H1/H2 = 1/2. Posterior H1 vs H2 = 3/4 Méthodes Bayésiennes Examiner l’espace des phylogénies et conserver la plus probable à postériori. (MAP: Maximum aPosteriory Probability). Utiliser la probabilité de chaque hypothèse pour valider le regroupement de certains taxons. Problèmes de l’approche Bayésienne Nécessite d’avoir une distribution à priori sur les hypothèses • Bon: si nous avons une certaine connaissance à priori sur les hypothèses, nous pourrons l’intégrer au calcul. • Problème: si nous n’en avons pas ou elle est controversée. Le calcul de prob(D) • Trop lourd car repose sur toutes les hypothèses. • Nous pouvons approximer la distribution à postériori. Pour et contre les principales méthodes Méthode de distance, approche algorithmique + Rapide + Correction des distances possibles selon les modèles d’évolution - Perte d’information dans les distances - Produit un arbre et ne donne aucune autre mesure pour comparer les hypothèses Parcimonie + Principe plus simple et critère à fondement biologique - Pas de modèles d’évolution - Peut être lent pour trouver l’espace des solutions Maximum de vraisemblance + basé sur les modèles d’évolution - basé sur les modèles d’évolution - Très très lent. (un très supplémentaire aurait exister sans la présence de PHYML).