Phylogénie moléculaire Thomas Gaillard [email protected] École Polytechnique Sommaire 1 Introduction 2 Construction d’arbres 3 Exemples 4 Bibliographie Introduction Sommaire 1 Introduction 2 Construction d’arbres 3 Exemples 4 Bibliographie Introduction Phylogénie Phylogénie Définition : Étude des relations évolutives entre êtres vivants. Étymologie : φυ̃λον = tribu, genre, espèce γένεσις = origine, source, naissance Intérêt : origine de la vie histoire évolutive des gènes et des organismes classification et taxonomie annotation fonctionnelle épidémiologie ... Introduction Historique Historique phylogénie = taxonomie + évolution Molecules as Documents of Evolutionary History Zuckerlandl & Pauling, 1965 Darwin, 1837 Haeckel, 1866 Introduction Données de départ Données de départ Approche morphologique : matrice de caractères Approche moléculaire : alignement multiple de séquences homologues goshawk vulture duck alligator lesser giant moose axolotl GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR GALSKLSDLHAQKLRVDPVNFKLLGQCFLVVVAIHHPSVLTPEVHASLDKFLCAVGNVLTAKYR GALSKLSDLHAQKLRVDPVNFKFLGHCFLVVVAIHHPAALTPEVHASLDKFMCAVGAVLTAKYR GALCRLSELHAHSLRVDPVNFKFLAHCVLVVFAIHHPSALSPEIHASLDKFLCAVSAVLTSKYR GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLACHHPAEFTPAVHASLDKFFSAVSTVLTSKYR GALSALSDLHAHKLRVDPVNFKLLSHCLLVTLASHHPAEFTPAVHASLDKFFSAVSTVLTSKYR GTLSDLSDLHAHKLRVDPVNFKLLSHTLLVTLAAHLPSDFTPAVHASLDKFLANVSTVLTSKYR ATLVKLSDKHAHDLMVDPAEFPRLAEDILVVLGFHLPAKFTYAVQCSIDKFLHVTMRLCISKYR Introduction Données de départ Homologie Deux séquences sont dites homologues lorsqu’elles possèdent un ancêtre commun gène ancestral gène α Les évènements de spéciation donnent des orthologues Les évènements de duplication donnent des paralogues gène α rat gène β gène α souris orthologues gène β souris gène β rat orthologues paralogues homologues Introduction Arbres Arbres vocabulaire définition mathématique : graphe connexe acyclique arbre binaire : chaque nœud possède au plus deux fils arbre raciné arbre non-raciné racine 5 1 9 temps 8 8 7 7 6 2 1 6 3 2 4 feuilles 5 3 4 Introduction Arbres Arbres comptage 1 non-racinés racinés feuilles n n nœuds internes n − 2 n−1 nœuds 2n − 2 2n − 1 branches 2n − 3 2n − 2 arbres (2n − 5)!! (2n − 3)!! Q[n/2]−1 avec n!! = i=0 (n − 2i) 3 2 1 4 3 1 2 3 1 3 2 2 1 1 3 2 1 il y a 2n − 3 arbres racinés pour un arbre non-raciné pour n = 10, ≈ 2 millions d’arbres non-racinés 3 3 2 2 4 1 1 4 3 3 1 2 2 2 3 Introduction Arbres Arbres codage et représentations Codage : correspondance entre arbres et parenthèses imbriquées (Arthur Cayley, 1857) format Newick : ((1,(2,3)),(4,5)); ((1,(2,3)6)7,(4,5)8)9; ((1:3 ,(2:1 ,3:1.3 )6:1 )7:2 ,(4:3 ,5:3.5 )8:1 )9; Représentations : cladogramme 7 1 1 6 1.3 2 1 8 3.5 4 5 3 4 1 3 3 5 2 5 radiale 4 2 3 9 3 1 4 2 circulaire 1 2 3 5 phénogramme 1 Introduction L’arbre de la vie L’arbre de la vie http://itol.embl.de Construction d’arbres Sommaire 1 Introduction 2 Construction d’arbres 3 Exemples 4 Bibliographie Construction d’arbres Construction d’arbres Construction d’arbres phylogénétiques 1 alignement multiple des séquences 2 3 choix des séquences sélection d’une partie de l’alignement construction de l’arbre modèle de distance 4 maximum de parcimonie UPGMA NJ 5 évaluation de l’arbre modèle probabiliste maximum de vraisemblance Construction d’arbres Alignement multiple des séquences Alignement multiple des séquences Toutes les approches phylogénétiques moléculaires commencent par un alignement multiple des séquences beta delta epsilon gamma theta alpha zeta myoglobin beta delta epsilon gamma theta alpha zeta myoglobin 1 MVHLTPEEKSAVTALWGKVN--VDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLA MVHLTPEEKTAVNALWGKVN--VDAVGGEALGRLLVVYPWTQRFFESFGDLSSPDAVMGNPKVKAHGKKVLGAFSDGLA MVHFTAEEKAAVTSLWSKMN--VEEAGGEALGRLLVVYPWTQRFFDSFGNLSSPSAILGNPKVKAHGKKVLTSFGDAIK MGHFTEEDKATITSLWGKVN--VEDAGGETLGRLLVVYPWTQRFFDSFGNLSSASAIMGNPKVKAHGKKVLTSLGDAIK -MALSAEDRALVRALWKKLGSNVGVYTTEALERTFLAFPATKTYFSHL-DLSP-----GSSQVRAHGQKVADALSLAVE -MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF-DLSH-----GSAQVKGHGKKVADALTNAVA -MSLTKTERTIIVSMWAKISTQADTIGTETLERLFLSHPQTKTYFPHF-DLHP-----GSAQLRAHGSKVVAAVGDAVK -MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILK 80 HLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH-----HLDNLKGTFSQLSELHCDKLHVDPENFRLLGNVLVCVLARNFGKEFTPQMQAAYQKVVAGVANALAHKYH-----NMDNLKPAFAKLSELHCDKLHVDPENFKLLGNVMVIILATHFGKEFTPEVQAAWQKLVSAVAIALAHKYH-----HLDDLKGTFAQLSELHCDKLHVDPENFKLLGNVLVTVLAIHFGKEFTPEVQASWQKMVTAVASALSSRYH-----RLDDLPHALSALSHLHACQLRVDPASFQLLGHCLLVTLARHYPGDFSPALQASLDKFLSHVISALVSEYR-----HVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR-----SIDDIGGALSKLSELHAYILRVDPVNFKLLSHCLLVTLAARFPADFTAEAHAAWDKFLSVVSSVLTEKYR-----KKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG Les zones de faible similarité sont ignorées Construction d’arbres Modèles d’évolution Distance évolutive La p-distance est l’estimation la plus simple de la distance entre deux séquences : p = n/l avec n le nombre de substitutions et l le nombre de sites La distance évolutive d est supérieure à la distance observée p substitution(s) simple multiples coïncidentes parallèles convergentes inverse séquence 1 C A C→A T→A A→T C séquence 2 C→A A→C→T C→G T→A A→C→T C→T→C p 1 1 1 0 0 0 d 1 2 2 2 3 2 Avec un modèle d’évolution, on peut estimer d à partir de p Soit λ le taux global de substitutions dans une séquence On a d = λt Construction d’arbres Modèles d’évolution Modèle de Jukes-Cantor modèle à un seul paramètre même taux de substitution α pour les quatre nucléotides Jukes & Cantor, 1969 Matrice de taux de substitution : A C G T A −3α α α α C α −3α α α Q= G α α −3α α T α α α −3α Matrice de probabilité de substitution : P(t) = e Qt donc P 0 (t) = QP(t) A C G T A r (t) s(t) s(t) s(t) C s(t) r (t) s(t) s(t) avec r (t) + 3s(t) = 1 On pose P(t) = G s(t) s(t) r (t) s(t) T s(t) s(t) s(t) r (t) Construction d’arbres Modèles d’évolution Modèle de Jukes-Cantor On obtient le système d’équations différentielles : r 0 = −3αr + 3αs s 0 = αr − αs Qui a pour solutions : r (t) = 14 (1 + 3e −4αt ) s(t) = 14 (1 − e −4αt ) p probabilité 1 0.75 0.5 0.25 0 0 temps r (t) s(t) t lorsque t → ∞, r = s = 14 (fréquences d’équilibre des nucléotides) Construction d’arbres Modèles d’évolution Distance de Jukes-Cantor Par définition, d = λt, et λ = 3α pour Jukes-Cantor La probabilité de substitution est p = 3s(t) 4 On obtient : p = 43 (1 − e − 3 d ) Et la distance de Jukes-Cantor : d = − 43 ln(1 − 43 p) distance observée p 1 aléatoire 0.75 0.5 0.25 0 0 0.5 1 distance évolutive 1.5 lorsque p = 75%, d → ∞ d Construction d’arbres Modèles d’évolution Autres modèles ADN K80 Kimura 1980 2 paramètres, distingue transition et transversion d = − 12 ln(1 − 2p − q) − 14 ln(1 − 2q) HKY85 Hasegawa, Kishino et Yano 1985 Kimura avec fréquences d’équilibre différentes pour les quatre nucléotides ... GTR « Generalised time-reversible », Tavaré 1986 le plus général avec la réversibilité Protéines PAM « Point Accepted Mutation » Dayhoff, Schwartz & Orcutt, 1978 ... Construction d’arbres Utilisation de matrices de distance Matrices de distance Une matrice de distance dij est calculée à partir de l’alignement de séquences et d’un modèle de distance beta delta epsilon gamma theta alpha zeta myoglobin beta 0.00 0.07 0.30 0.34 1.20 0.93 1.18 2.22 delta epsilon gamma 0.07 0.30 0.34 0.00 0.33 0.35 0.33 0.00 0.22 0.35 0.22 0.00 1.17 1.21 1.19 0.95 1.05 0.99 1.13 1.03 1.03 2.14 2.07 2.05 theta 1.20 1.17 1.21 1.19 0.00 0.51 0.77 1.87 alpha 0.93 0.95 1.05 0.99 0.51 0.00 0.56 1.88 (distances calculées avec modèle PAM) zeta myoglobin 1.18 2.22 1.13 2.14 1.03 2.07 1.03 2.05 0.77 1.87 0.56 1.88 0.00 1.64 1.64 0.00 Construction d’arbres Utilisation de matrices de distance Méthode UPGMA UPGMA = « unweighted pair group method with arithmetic averages » Sokal & Michener, 1958 méthode standard de clustering hiérarchique ascendant but : regrouper progressivement les séquences p dans des clusters Ci 1 distance inter-cluster : dij = |Ci ||C p∈Ci ,q∈Cj dpq j| avec |Ci | et |Cj | le nombre de séquences dans les clusters Ci et Cj , et dpq la matrice de distance inter-séquences P variantes : dij = minp∈Ci ,q∈Cj dpq (saut minimum ou « single linkage ») dij = maxp∈Ci ,q∈Cj dpq (saut maximum ou « complete linkage ») Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : algorithme Initialisation : Attribuer à chaque séquence i son propre cluster Ci . Définir une feuille pour chaque séquence, à hauteur zéro. Itération : Déterminer les deux clusters Ci et Cj pour lesquels dij est minimale. Définir un nouveau cluster Ck = Ci ∪ Cj , et calculer dkl pour tout l. Définir un nœud k avec pour descendants i et j, et le placer à hauteur dij /2. Ajouter Ck aux clusters courants et supprimer Ci et Cj . Terminaison : Lorsqu’il reste seulement deux clusters Ci et Cj , placer la racine à hauteur dij /2. Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : exemple 5 séquences, représentées comme des points du plan • 1 • 2 9 8 • 3 • 4 1 d 2 68 7 6 • 5 1 2 4 5 3 Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : exemple 5 séquences, représentées comme des points du plan • 1 • 2 9 8 • 3 • 4 1 d 2 68 6 • 5 1 2 1 d 2 12 4 7 5 3 Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : exemple 5 séquences, représentées comme des points du plan • 1 • 2 9 8 • 3 • 4 1 d 2 68 7 6 • 5 1 2 4 1 d 2 45 5 3 Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : exemple 5 séquences, représentées comme des points du plan • 1 • 2 9 8 • 3 • 4 7 6 • 5 1 1 d 1 2 d68 2 37 2 4 5 3 Construction d’arbres Utilisation de matrices de distance Méthode UPGMA : exemple 5 séquences, représentées comme des points du plan • 1 • 2 9 8 • 3 • 4 1 d 2 68 7 6 • 5 1 2 4 5 3 Construction d’arbres Utilisation de matrices de distance Hypothèse de l’horloge moléculaire UPGMA produit des arbres dont les branches peuvent être vues comme des temps mesurés par une « horloge moléculaire » L’hypothèse de l’horloge moléculaire suppose que les mutations surviennent à une vitesse constante Les distances entre un nœud et ses feuilles sont identiques 2 3 4 1 arbre correct 1 4 2 3 arbre produit par UPGMA Construction d’arbres Utilisation de matrices de distance Méthode Neighbor-joining Ne requiert pas l’hypothèse de l’horloge moléculaire mais seulement l’additivité des distances Additivité des distances : la distance entre une paire de feuilles est la somme des longueurs des branches le long du chemin qui les relie m Pour trois feuilles i, j, et m, il y a un nœud k où les branches vers ces feuilles se rejoignent. Par additivité, on a : dim = dik + dkm , djm = djk + dkm , et dij = dik + djk La distance du nœud k à la feuille m est donc : dkm = 21 (dim + djm − dij ) Produit un arbre non-raciné k i j Construction d’arbres Utilisation de matrices de distance Méthode Neighbor-joining Les feuilles les plus proches ne sont pas forcément voisines 1 0.1 Comment déterminer si des feuilles sont voisines à partir des distances dij ? On peut prouver que Dij est minimale lorsque i et j sont voisines 0.1 0.4 Procédure proposée par Saitou & Nei (1987) et modifiée par Studier & Keppler (1988) On introduit Dij = dij − (ri + rj ) P 1 avec ri = (|L|−2) k∈L dik et |L| le nombre de feuilles 2 0.1 0.4 3 4 d13 > d12 (0.5 > 0.3) mais D13 < D12 (−1.2 < −1.1) Construction d’arbres Utilisation de matrices de distance Méthode Neighbor-joining : algorithme T est l’arbre courant L est la liste courante des feuilles Initialisation : Définir T comme l’ensemble des nœuds feuilles, un pour chaque séquence, et L = T . Itération : Choisir une paire i, j dans L pour laquelle Dij est minimale. Définir un nouveau nœud k avec dkm = 12 (dim + djm − dij ), pour tout m de L. Ajouter k à T avec des branches vers i et j de longueur dik = 12 (dij + ri − rj ) et djk = dij − dik . Retirer i et j de L et ajouter k. Terminaison : Lorsque L contient deux nœuds i et j, ajouter la dernière branche entre i et j, de longueur dij . Construction d’arbres Maximum de parcimonie Maximum de parcimonie Principe de parcimonie : (lex parsimoniae, « principe de simplicité », ou encore « principe d’économie ») « Les hypothèses suffisantes les plus simples sont les plus vraisemblables » rasoir d’Ockham : Pluralitas non est ponenda sine necessitate « Les multiples ne doivent pas être utilisés sans nécessité » En phylogénie : trouver l’arbre qui peut expliquer les observations avec le minimum de substitutions Construction d’arbres Maximum de parcimonie Maximum de parcimonie Deux composantes : 1 2 calcul du coût pour un arbre donné exploration de l’espace des arbres pour identifier l’arbre de coût minimal Exemple : quatre séquences alignées AAG, AAA, GGA, AGA coût = 1 par substitution trois exemples d’arbres possibles : AAA AAA AGA 1 1 AAA 1 AGA AAA 1 AAA AAA 1 AAA 2 GGA AAA AAG AGA GGA AAA AAG coût = 3 AAA 2 1 AGA GGA 1 AAA AAG coût = 4 coût = 4 Construction d’arbres Maximum de parcimonie Maximum de parcimonie Algorithme de parcimonie traditionnelle minimise le coût total de l’arbre pour un site u (Fitch, 1971) n séquences x 1 , . . . , x n xui désigne le résidu de la séquence i au site u Rk est une liste des résidus de coût minimal pour le nœud k C est le coût courant de l’arbre Initialisation : Soit C = 0 et k = 2n − 1. Récursion. Calcul de l’ensemble Rk : Si k est un nœud feuille : Rk = xuk . Si k n’est pas un nœud feuille : calculer Ri et Rj pour les nœuds filles i et j, puis Rk = Ri ∩ Rj si cette intersection n’est pas vide, Rk = Ri ∪ Rj sinon et incrémenter C . Terminaison : Le coût minimal de l’arbre est C . k {Rk } i {Ri } j {Rj } Construction d’arbres Maximum de parcimonie Maximum de parcimonie Algorithme de parcimonie pondérée minimise le coût total de l’arbre pour un site u Sankoff & Cedergren, 1983 S(a, b) est le coût pour une substitution du résidu a vers b Sk (a) est le coût minimal pour l’attribution du résidu a au nœud k Initialisation : Soit k = 2n − 1, le numéro du nœud racine. k {A:Sk (A),...} i {A:Si (A),...} Récursion. Calculer Sk (a) pour tout a comme suit : {A:Sj (A),...} Si k est un nœud feuille : Sk (a) = 0 si a = xuk , sinon Sk (a) = ∞. Si k n’est pas un nœud feuille : calculer Si (a) et Sj (a) pour tout a pour les nœuds filles i et j, et obtenir Sk (a) = minb (Si (b) + S(a, b)) + minc (Sj (c) + S(a, c)). Terminaison : Le coût minimal de l’arbre est mina S2n−1 (a). j Construction d’arbres Maximum de parcimonie Maximum de parcimonie Reconstitution de la séquence des ancêtres Ajouter des pointeurs de chaque résidu a du nœud k vers les résidus correspondants b et c des nœuds filles i et j, qui minimisaient Sk (a) (les pointeurs peuvent avoir plusieurs cibles) : lk (a) = argminb (Si (b) + S(a, b)) rk (a) = argminc (Sj (c) + S(a, c)) À la fin, choisir un résidu a à la racine donnant le coût minimal pour S2n−1 , puis remonter jusqu’aux feuilles en lisant les pointeurs, choisissant arbitrairement lorsque le pointeur a plusieurs cibles. {A:2,B:2} B {A:1,B:2} B {A:1,B:1} x B {A:∞,B:0} {A:∞,B:0} {A:0,B:∞} {A:0,B:∞} x B B A A Construction d’arbres Maximum de vraisemblance Maximum de vraisemblance Terminologie soit un modèle probabiliste de paramètres θ P(x |θ) est la probabilité d’observer les résultats x étant donnés les paramètres θ L(θ|x ) = P(x |θ) est la vraisemblance des paramètres θ étant donnés les résultats x estimer les paramètres d’un modèle probabiliste à partir d’un jeu de données fiable D maximum de vraisemblance : θML = argmax P(D|θ) θ si la quantité de données est limitée, risque de surajustement (« overfitting ») par exemple un tirage [pile,pile,pile] donnerait P(pile) = 1, P(face) = 0 Construction d’arbres Maximum de vraisemblance Maximum de vraisemblance En phylogénie Soit un modèle probabiliste d’évolution, qui permet de calculer les probabilités de substitution P(b|a, t) Soit un ensemble de n séquences x 1 , . . . , x n On cherche l’arbre T de longueurs de branches t1 , . . . , tn qui maximise la vraisemblance P(x 1 , . . . , x n |T , t1 , . . . , tn ) Construction d’arbres Maximum de vraisemblance Maximum de vraisemblance Deux séquences arbre T avec branches de longueur t1 et t2 deux séquences x 1 et x 2 a t1 t2 xu2 xu1 Pour un site u, probabilité d’avoir les résidus xu1 et xu2 aux feuilles : P(xu1 , xu2 |T , t1 , t2 ) = X qa P(xu1 |a, t1 )P(xu2 |a, t2 ) a Pour N sites, probabilité d’avoir les séquences x 1 et x 2 aux feuilles : P(x 1 , x 2 |T , t1 , t2 ) = N Y u=1 P(xu1 , xu2 |T , t1 , t2 ) Construction d’arbres Maximum de vraisemblance Maximum de vraisemblance Nombre arbitraire de séquences n séquences x 1 , . . . , x n arbre T avec branches de longueur t1 , . . . , tn les nœuds non-feuilles sont numérotés de n + 1 à 2n − 1 α(i) est l’ancêtre immédiat du nœud i t6 a6 aα(6) t3 aα(3) xu3 Pour un site u, probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles : P(xu1 , . . . , xun |T , t1 , . . . , tn ) = X qa2n−1 an+1 ,an+2 ,...,a2n−1 2n−2 Y i=n+1 P(ai |aα(i) , ti ) n Y P(xui |aα(i) , ti ) i=1 Pour N sites, probabilité d’avoir les séquences x 1 , . . . , x n aux feuilles : P(x 1 , . . . , x n |T , t1 , . . . , tn ) = N Y u=1 P(xu1 , . . . , xun |T , t1 , . . . , tn ) Construction d’arbres Maximum de vraisemblance Maximum de vraisemblance Algorithme de Felsenstein proposé par Felsenstein en 1981 calcule la probabilité d’avoir les résidus xu1 , . . . , xun aux feuilles pour l’arbre T et les branches t1 , . . . , tn P(Lk |a) est la probabilité de toutes les feuilles sous le nœud k sachant que le résidu en k est a ti i b Initialisation : Soit k = 2n − 1. Récursion. Calculer P(Lk |a) pour tout a comme suit : Si k est un nœud feuille : P(Lk |a) = 1 si a = xuk , P(Lk |a) = 0 si a 6= xuk . Si k n’est pas un nœud feuille : Calculer P(Li |a) et P(Lj |a) pour tout a pour les nœuds P filles i et j, puis P(Lk |a) = b,c P(b|a, ti )P(Li |b)P(c|a, tj )P(Lj |c). Terminaison : La vraisemblance pour le site P u est P(x 1 , . . . , x n |T , t1 , . . . , tn ) = a qa P(L2n−1 |a). k a tj j c Construction d’arbres Enracinement Enraciner un arbre non-raciné Certains algorithmes produisent un arbre non-raciné Utilisation d’un groupe extérieur : séquence/espèce qui est plus distante des séquences/espèces étudiées que celles-ci le sont entre elles → le nœud où part la branche vers le groupe extérieur est défini comme la racine axolotl goshawk vulture duck alligator moose lesser giant Autre méthode : prendre le milieu de la plus longue chaîne de branches consécutives (il s’agit de la racine si l’hypothèse de l’horloge moléculaire est valable) Construction d’arbres Évaluation Bootstrap Le « bootstrap » est une méthode générale en statistiques qui permet d’évaluer l’incertitude d’une estimation due à un échantillonnage incomplet (Efron, 1979). Cette méthode a été appliquée aux arbres phylogénétiques par Felsenstein (1985). L’idée est d’évaluer la robustesse d’un trait phylogénétique (par exemple, le fait qu’un ensemble d’espèces soient dans une même branche) en perturbant les données. Construction d’arbres Évaluation Bootstrap 1 À partir du jeu de données initial (alignement de séquences), on génère des jeux de données artificiels de même taille, en effectuant des tirages aléatoires (typiquement, de 100 à 1000) avec remise (une colonne de l’alignement peut apparaître plusieurs fois). 2 Pour chaque jeu de données artificiel, on construit un arbre phylogénétique avec la même méthode. 3 La fréquence avec laquelle un trait phylogénétique est présent est une mesure de sa robustesse. 90% 75% 1 3 2 ... ... Construction d’arbres Comparaison des méthodes Comparaison des méthodes Méthodes utilisant les matrices de distance + + − − rapide et simple pas besoin d’explorer l’espace des arbres utilisation d’une matrice de distance (perte d’information) hypothèse de l’horloge moléculaire pour UPGMA Maximum de parcimonie + + − − − simple moins coûteux que le maximum de vraisemblance plus coûteux que les matrices de distance attraction des longues branches impossible d’évaluer tous les arbres si beaucoup de séquences Maximum de vraisemblance + + − − − justification théorique meilleurs résultats en général coûteux nécessite un modèle probabiliste d’évolution impossible d’évaluer tous les arbres si beaucoup de séquences Construction d’arbres Limitations Limitations limites des données, modèles, algorithmes, et de l’échantillonnage des arbres différence entre phylogénie de gènes et d’espèces taux variables de mutation recombinaison génétique hybridation transferts horizontaux de gènes et xénologie convergence évolutive et homoplasie conservation de l’ADN ≈ 100000 ans ... Smets & Barkay, Nature Rev. Microbiol. 2005 Construction d’arbres Logiciels Logiciels (libres) PHYLIP bibliothèque logicielle complète, par J. Felsenstein fastDNAml maximum de vraisemblance PAML maximum de vraisemblance et inférence bayésienne TREE-PUZZLE maximum de vraisemblance RAxML maximum de vraisemblance PhyML maximum de vraisemblance FastTree maximum de vraisemblance MrBayes inférence bayésienne SeaView interface graphique pour l’alignement de séquences et la phylogénie FigTree visualisation d’arbres TreeView X visualisation d’arbres ... Exemples Sommaire 1 Introduction 2 Construction d’arbres 3 Exemples 4 Bibliographie Exemples Exemples L’énigme du panda géant Pendant longtemps, on ne savait pas dans quelle famille classer les pandas géants. Les pandas géants ressemblent aux ours mais ont des caractéristiques inhabituelles pour les ours et typiques des ratons laveurs (par exemple, ils n’hibernent pas). En 1985, Steven O’Brien et collègues ont résolu l’énigme de la classification du panda géant en utilisant des séquences d’ADN et des méthodes phylogénétiques. Exemples Exemples L’énigme du panda géant Arbre évolutif du panda géant A molecular solution to the riddle of the giant panda’s phylogeny. S. J. O’Brien et al., Nature 1985, 317, 140. Exemples Exemples Preuve d’une contamination par le VIH À Lafayette (Louisiane) en 1994, une femme prétend que son ex-amant, le Dr Schmidt, lui a injecté du sang contaminé par le VIH. Les archives montrent que le médecin avait prélevé du sang d’un patient séropositif le même jour. Comment prouver que c’est le sang de ce patient qui aurait été injecté à la plaignante ? Exemples Exemples Preuve d’une contamination par le VIH Le VIH a un taux de mutation élevé, qui peut être utilisé pour reconstituer des parcours de transmission. Des prélèvements ont été réalisés sur le patient, la plaignante et d’autres séropositifs contrôles. L’arbre phylogénétique obtenu montre que le virus de la plaignante a pour ancêtre le virus du patient. Première utilisation judiciaire d’analyses phylogénétiques. Molecular evidence of HIV-1 transmission in a criminal case. M. L. Metzker et al., PNAS USA 2002, 99, 14292. Exemples Exemples Combien de fois l’évolution a-t-elle inventé les ailes ? Étude portant sur les phasmes, famille d’insectes ayant ou non des ailes. L’apparition des ailes semble un évènement évolutif compliqué. Exemples Exemples Combien de fois l’évolution a-t-elle inventé les ailes ? L’arbre le plus parcimonieux donne un ancêtre sans ailes pour tous les phasmes. Il y a eu plusieurs apparitions indépendantes des ailes. Loss and recovery of wings in stick insects. M. F. Whiting et al., Nature 2003, 421, 264. Exemples Exemples Origine de l’homme moderne Hypothèse de l’origine africaine récente (« Out of Africa ») formulée dès 1871 par Darwin évolution vers l’homme moderne en Afrique il y a 200000–100000 ans migration hors d’Afrique il y a 80000 ans remplacement des humanoïdes antérieures Hypothèse de l’origine multi-régionale proposée par Wolpoff en 1984 migration hors d’Afrique il y a 2 millions d’années Homo erectus et non Homo sapiens a effectué la migration évolution vers Homo sapiens indépendante dans plusieurs régions Exemples Exemples Origine de l’homme moderne L’étude de l’ADN mitochondrial est en faveur de l’hypothèse « Out of Africa » Mitochondrial DNA and human evolution. R. L. Cann et al., Nature 1987, 325, 31. African Populations and the Evolution of Human Mitochondrial DNA. L. Vigilant et al., Science 1991, 253, 1503. Exemples Exemples Origine de l’homme moderne Carte des premières migrations humaines Bibliographie Sommaire 1 Introduction 2 Construction d’arbres 3 Exemples 4 Bibliographie Bibliographie Bibliographie Bibliographie Livres Biological Sequence Analysis, R. Durbin et al., 1998 An Introduction to Bioinformatics Algorithms, N. Jones & P. Pevzner, 2004 Inferring Phylogenies, J. Felsenstein, 2004 Articles JC Jukes & Cantor, 1969 UPGMA Sokal & Michener, 1958 NJ Saitou & Nei, 1987 ; Studier & Keppler, 1988 parcimonie traditionnelle Fitch, 1971 parcimonie pondérée Sankoff & Cedergren, 1983 algorithme de Felsenstein Felsenstein, 1981