Classification phylogénétique du vivant Classification cladistique vs phénétique phénétique • Quantification des similitudes • Ressemblance générale chiffrée => distance • Particulièrement adapté aux données moléculaires ou chaque position dans la séquence correspond à un caractère Cinq étapes de l’analyse phylogénétique • 1. Choix du jeu de données – Une bonne connaissance des séquences que l’on analyse – S’assurer de la validité du jeu de donnée (qualité des séquences et cohérence du JDD) • 2. Alignement des séquences – Obtenir un bon alignement – Tester différents méthodes et revenir à la main sur les résultats • 3. Détermination du modèle de substitution • 4. Construction des arbres • 5. Evaluation des arbres Les éléments d’une phylogénie • • • • • Les caractères Le jeu de données Les banques Les alignements Les arbres Description et codage des états • Présence absence : +/-; 0/1; a/b • Etats multiples : – Les 20 acides aminés – Les 4 nucléotides A,T,C,G – Nb de répétitions en tandem (microsatellites) – Morphologie (a, b, c, d, ..) Morphologie vs. Données moléculaires • Les vautours du vieux et du nouveau monde semblent être étroitement liés sur la base de leur morphologie • Les données moléculaires indiquent que les vautours du vieux monde sont liées à des oiseaux de proie (faucons, éperviers, etc), tandis que les vautours du Nouveau Monde sont plus étroitement liés à des cigognes • C’est un exemple de convergence évolutive Le jeu de données • Au début les modes de classifications des espèces étaient: – Les comparaisons morphologiques – Les comparaisons comportementales – Les répartitions géographiques • Aujourd’hui les phylogénies sont obtenues à partir: – des séquences moléculaires (phylogénie moléculaire) : ADN, ARN, Protéines, Codons – des caractères discrets (présence, absence, 0, 1) – des fréquences des gènes – des traits quantitatifs – des sites de restriction, RFLP – des microsatellites, SNP Données moléculaires • Les séquences d’ADN présentent beaucoup d’avantages face aux caractères de taxonomie morphologiques: – L’état des caractères peut être déterminé sans ambiguïté – Un grand nombre de caractère peuvent être pris en compte pour chaque individu • Inconvénients: – Peu d’états donc possibilité de mutations silencieuses (homoplasie) – Arbre de gène vs Arbre de génome (cad arbre de espèces) – Alignements de qualité difficile à obtenir Choix du marqueur • • il faut choisir le marqueur moléculaire approprié au groupe taxonomique étudié. Critères du choix d'un marqueur: – – – – – • universalité structure conservée absence de transfert génétique taux d’évolution approprié absence de biais sélectif Quelques exemples: – phylogénie de bactéries (16S rDNA) – phylogénie d’eucaryotes (18S rDNA, actine, EF1, RPB1 (RNA polymerase)) – phylogénie de plantes (rbcL(ribulose carboxylase),18S rDNA) • Phylogénie d’animaux – – – – niveau phylum, classe, ordre : (18S rDNA, génome mt) niveau famille : (RAG2 (recombination activating gene 2), 12S, 16S mt) niveau genre : (ITS, protéines mt) niveau intra-spécifique : (D-Loop, introns) • Eviter les séquences incomplètes • Eviter les xénologues (transfert latéraux) • Eviter les séquences recombinantes (2 ancêtres) • Eviter les grandes familles complexes (répétitions et nombres de domaines importants) • Ajouter un groupe externe (outgroup) • ADN ou protéines ? • Quand cela est possible travailler préférentiellement avec des alignement de protéines en particulier lorsque les séquences d’ADN diffèrent de plus 70%. • Si les séquences protéiques sont trop proches revenir à l’ADN. Banques de données Alignement • L’alignement est une étape cruciale qui permet de choisir les sites qui seront utilisés dans les analyses phylogénétiques. • But : S’assurer que chacun des sites choisis est homologue • Pour s’assurer de l’homologie d’un site: – la structure primaire des séquences (ordre des nucléotides) – la structure secondaire des séquences (gènes ribosomiques) – la séquence en acides aminés (gènes codant pour des protéines) • Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences. • Mutations : – – – – Substitution (mismatch) Insertion Délétion Insertions ou délétions : indels(gap) • Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable • • • • • Exemple: identité = 1 mismatch= 0 gap = -1 Score = 10 - 4 = 6 Transition vs transversion • Transition: A <-> G | T<-> C • Transversions : autres substitutions • p(transition) > p(transversion) • Code génétique – Asp (GAC, GAU)↔Tyr (UAC, UAU) : 1 mutation – Asp(GAC, GAU)↔Cys(UGC, UGU) : 2 mutations – Asp(GAC, GAU)↔Trp(UGG) : 3 mutations • Propriétés physico-chimiques des acidesaminés (acidité, hydrophobicité, encombrement stérique, etc.) Les arbres • Les méthodes cladistiques et phénétique construisent un arbre (dendrogramme) • Cladogramme - un dendrogramme exprimant les relations phylogénétiques entre taxa et construit à partir de l'analyse cladistique; • phénogramme- un dendrogramme obtenu par méthodes de distance où les relations entre taxa expriment des degrés de similitude globale; • phylogramme- un dendrogramme dont la longueur des branches est proportionnelle au nombre de changements évolutifs • Il existe 3 approches : – L'approche cladistique cherche en particulier à déterminer les caractères propres à une branche, qui « signent » un apparentement. – L'approche phénétique, une classification basée uniquement sur des mesures de distance entre taxons (évaluées par exemple en comptant les différences de séquences d'ADN) sans chercher à faire une interprétation phylogénétique. – L’approche probabiliste qui construit des arbres phylogénétiques en utilisant des modèles d’évolution des caractères (le plus souvent moléculaires, mais pas obligatoirement). Phénétique vs cladistique • L'approche phénétique (taxonomie numérique) se veut complètement objective. C'est une approche très quantitative dans laquelle tous les traits (qu'ils soient homologues ou non) sont traités également. • Cette méthode se révèle peu pertinente lorsqu'on l'applique aux caractères morphologiques en raison des analogies : convergence évolutives. • Elle s’applique préférentiellement sur des caractères moléculaires où le nombre de caractères pris en compte est important • La cladistique hiérarchise les caractères comparés. • Ne sont en fait regroupés dans un même taxon que les êtres vivants qui partagent des caractères homologues: partage d’une ascendance commune. • Les homologies sont en fait vues comme des innovations évolutives partagées : synapomorphies Méthodologie Choix de la méthode d’analyse phylogénétique Méthode de maximum de parcimonie • Hypothèses de base – Les séquences en présence ont évolué à partir d'une séquence ancestrale commune grâce à un processus de mutation-sélection. – Les différents sites (site=position occupée par un acide aminé ou une base) de la séquence évoluent indépendamment les uns des autres : la séquence peut être considérée comme une suite de caractères non ordonnés. – Les lignées se différencient les unes des autres d'une façon autonome. – La vitesse d'évolution est lente et constante au cours du temps • Cette méthode : – ne prend en considération que les sites informatifs. – ne fait pas de corrections pour les substitutions multiples. – ne donne aucune information sur la longueur des branches. – est connue pour être très sensible au biais des codons • Méthode – Reconstruire les événements évolutifs pour une phylogénie donnée – Chercher parmi toutes les phylogénies possibles celle qui minimise le nombre d’événements évolutifs homoplasie • Homoplasie = se dit de sites présentant des états moléculaires identiques résultant d’événements évolutifs différents, tel que des évènements de convergence ou de réversion • => La présence d’homoplasie conduit à sousestimer le nombre total de mutations s’étant produites au cours du temps Tester les arbres • Te s t e r l e s a r b r e s => tester la robustesse des nœuds => évaluer le rapport entre homoplasie et homologie • Calcul de l’indice de cohérence • Pb : il faut tester tous les arbres et les évalués un par un • Le nombre d’arbre augmente de manière exponentielle lorsque l’on ajoute des taxons… • 10 taxons => 2 millions d’arbres .. Méthode recherche arbre plus parcimonieux • Exhaustive – on obtient un score pour chaque arbre possible. On est sûr de trouver le meilleur arbre. Pratique seulement pour des petits jeux de données (<10 taxa). • Heuristique – on utilise des algorithmes pour parcourir l’ensemble de l’espace des arbres mais pas chaque arbre • Stochastique – recherche aléatoire dans l’espace des arbres. Algorithmes comme le simulated annealing ou les algorithmes génetiques Approche heuristique • Principe : Partir d’un arbre initial • Petits réarrangements de branches successifs => Exploration des arbres voisins • Si un des voisins est «meilleur» on le conserve • On répète cette opération jusqu’à ce qu’on trouve un arbre pour lequel aucun réarrangement ne donne de meilleur arbre Distances évolutives • La notion de distance découle naturellement de celle de similitude : • Plus la similitude entre deux séquences est forte, plus la distance entre elles δ est faible • Elles reflètent la quantité d’évolution survenue pendant un temps • Elles ne sont pas une simple fonction de temps • ex: deux séquences qui sont issues d’un groupe frère dans une phylogénie sont séparées par le même intervalle de temps t, mais peuvent avoir subit une quantité d’évolution différente • De façon basique, les séquences d’ADN ne sont pas très informatives sur l’histoire évolutive. • Pour chaque site, le nombre maximal de différences est 1. • Il existe seulement 4 états. Donc, si il y a plus d’une substitution, nous perdons la substitution passée. • Les substitutions multiples cachent l’histoire évolutive entre les séquences. Distances évolutives Méthodes de distance • Principe – • Données initiales – – • La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution moléculaire sous-jacente (l'histoire) aux phénotypes observés. Matrice de distances entre séquences prises deux à deux Compression de l'information en une seule valeur (=distance) : tous les sites sont traités de manière équivalente (perte d'information). Hypothèses de base – – Les distances ont été mesurées indépendamment. Les distances s'additionnent. • • Méthode Ces programmes procèdent par regroupement successifs (clusterisation),depuis la paire des séquences les plus proches aux plus éloignées. • Résultat – • Un seul arbre sans racine Avantages-Inconvénients – Ces méthodes sont rapides et donnent de bons résultats pour des séquences proches. Mais les sites sont traités de manière équivalente : ces méthodes ne sont pas applicables aux séquences très divergentes Méthode UPGMA • UPGMA (Unweight Pair Group Method with Arithmetic mean) • C’est un algorithme itératif de clustering, à chaque étape on crée un nouveau cluster regroupant deux clusters proches et on rajoute un nœud à l’arbre. • Les branches évoluent à la même vitesse (taux de mutation identiques sur les différentes branches (lignée)) • => hypothèse d’une horloge moléculaire Ex de matrice =Connecter phoque et otarie dans l’arbre => D phoque-noeud= D • otarie-nœud = D • phoque-otarie/2=24/2 =12 • Calculer la distance entre le nouveau groupe (ij) et tous les autres groupes en utilisant • Dij,k= ni x Dik/ (ni+ nj) + nj x Djk/ (ni+ nj) • Calcul de la distance entre le nouveau groupe phoque-otarie et tous les autres groupes • Pour le chien : • (50x1 + 48x1)/(1+1) = 49 • Étape similiaire pour proposer un nouveau regroupement… BILAN UPGMA • Méthode extrêmement simple de reconstruire des arbres phylogénétiques • Est très critiquée dans la littérature en phylogénie à cause de l’hypothèse de l’égalité des taux d’évolution entre les lignées. • N’est presque plus utilisée • Peut être réaliste si on étudie des espèces très proches • Donne des résultats faux si les distances de la matrice n’obéissent pas au critère d’horloge moléculaire Méthode NJ • NEIGHBOR-JOINING (Saitou et Nei, 1987 ) • Cette méthode tente de corriger la méthode UPGMA afin d'autoriser un taux de mutation différent sur les branches • Pour cela, la matrice de distances est corrigée afin de prendre en compte la divergence moyenne de chacune des séquences avec les autres. Méthode maximum de vraissemblance Méthode maximum de vraissemblance • Idée de base – Introduit par Edwards et Cavalli-Sforza (1964) pour des données de fréquences de gènes • – Application à des données moléculaires par Neyman (1971) – Élargissement par Kashyap et Subas (1974) et Felsenstein (1981) – Étant donné un modèle d’évolution, on peut estimer une phylogénie avec des méthodes statistiques comme le maximum de vraisemblance (ou des méthodes bayesiennes). • La vraisemblance d'un arbre estime la probabilité d’observer des données • (séquences + modèle de l'évolution) selon l'hypothèse qu'il véhicule (topologie + longueurs des branches). • On choisit l’arbre qui maximise la vraisemblance (qui a la plus forte probabilité d’avoir conduit aux données Intérêts des différentes méthodes Distance • •Méthode très rapide • •Correction des distances possibles selon les modèles d’évolution • Avec corrections peut être proche de la performance de MV Parcimonie • Utilisée avec données morphologiques et fossiles • Principe plus simple et critère à fondement biologique • Peut converger avec MV si les données ne sont pas trop • divergentes Maximum de vraisemblance • Méthode flexible, robuste et consistante • Tient compte de la complexité du processus évolutif • Tient compte de la longueur des branches pour estimer la vraisemblance Distance • Sous estime les substitutions et la longueur des branches • Problème d’attraction des branches longues et courtes • Perte d’information dans les distances Parcimonie • Sous estime les substitutions et la longueur des branches • Pas basée sur un modèle d’évolution • Problème d’attraction des branches longues et courtes • Utilise seulement les sites informatifs • Très affectée par les convergences et réversions des caractères Maximum de vraisemblance • Méthode coûteuse (lente) • Dépendant du bon choix de modèle d’évolution • Peut tomber dans des régions de maxima locaux