PHYLOGENESE et EVOLUTION I- Les programmes A- Collège B- Lycée C- CPGE (BCPST) II- Introduction à la théorie de l’évolution A- Qu’est-ce qu’une théorie? B- Histoire de la pensée évolutionnaire 1. La philosophie post-platonicienne 2. La théorie chrétienne 3. Un contexte proto évolutionniste 4. La théorie darwinienne C-La théorie de l’évolution depuis Darwin D- L’évolution: un fait et une théorie E- Les recherche actuelles en évolution F- La théorie de l’évolution: ni sens, ni but, ni direction III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 1. Quelques définitions 2. L’hypothèse d’homologie : l’homologie primaire 2.1 Le caractère: 2.1.1 Les caractères morpho-anatomiques 2.1.2 Les caractères embryologiques (2.1.3 Les caractères moléculaires) 2.2 Homologie détectée par les connexions 2.3 Homologie révélée par le développement embryonnaire 3. La polarisation des caractères 3.1 Le critère ontogénique 3.2 Le critère extra groupe 4. Codage des caractères et matrice taxon de caractères 5. Principe de construction des arbres phylogénétiques 6. Appliquer un critère de cohérence: le principe de parcimonie 7. L’homologie secondaire 8. L’Homoplasie 8.1 Convergence/parallélisme 8.2 Réversion 9. Arbre phylogénétique et clade 10. Le dernier ancêtre commun hypothétique 13. La place des fossiles B- La phylogénie moléculaire 1. Les molécules utilisées 2. Un indicateur l’universel 3. La notion d’horloge 4. Les méthodes 4.1 L’alignement des séquences 4.2 Approche phénétique (Méthode des distances) 4.2.1 UPGMA 4.2.2 Fitch et Margoliash 4.2.3 Neighbor-joining 4.2.4 Distance observée/distance évolutive 4.2.5 Enraciner l’arbre 4.2.6 Avantages et désavantages des méthodes de distances 4.2.7 Le phénogramme: une signification phylogénétique? 4.3 Méthode de parcimonie 4.3.1 Procédure d'analyse par la méthode de parcimonie 4.3.2 Arbre consensus 4.3.3 Mesure de l'homoplasie 4.3.4 Avantages et inconvénients 4.4 Méthodes probabilistes 4.4.1 Maximum de vraisemblance 4.4.2 Inférence bayesienne 4.5 La recherche du meilleur arbre 4.6 LA robustesse de l’arbre IV- Des bouleversement dans la classification du monde vivant Conclusion I- Les programmes A.1 Classe de 6ème I- Les programmes A.2 Classe de 5ème I- Les programmes A.4 Classe de 3ème I- Les programmes B.1 Classe de 2nde I- Les programmes B.2 Classe de 1ère ES I- Les programmes B.3 Classe de 1ère L I- Les programmes (actuels) B.4.1 Classe de TaleS I.2 Parenté entre êtres vivants actuels et fossiles - Phylogenèse – Évolution (3 semaines) A partir d’un réinvestissement de la classe de seconde (les plans d’organisation, l’unité des constituants cellulaires et génétiques, l’origine commune des espèces) on aborde la biodiversité et la recherche de la parenté entre espèces (phylogenèse). L’Homme, avec ses caractéristiques particulières, est situé au sein du règne animal. On montre ensuite que les êtres humains actuels appartiennent à une même espèce. On date l’émergence de cette espèce en la resituant dans l’histoire de la Terre. I- Les programmes (rentrée 2012) B.4.2 Classe de TaleS I- Les programmes C Classe de BCPST 1 et 2 III- La construction d’arbres phylogénétiques: Établissement de parenté Introduction Phylogénie (phylogenèse) est une reconstruction de l’histoire évolutive des êtres vivants. Le terme phylogenèse a été introduit par Haeckel en 1866. Les fondements de la systématique phylogénétique ou cladistique ont été formulés par Willy Hennig, en 1950. L’analyse phylogénétique a pour objectif de reconstruire des liens de parenté entre les organismes et d'estimer leurs temps de divergence Un arbre phylogénétique est une représentation graphique de la phylogenèse d’un groupe de taxons. Les sommets représentent les taxons ou les unités évolutives (OTU – operational taxonomic units). Les nœuds internes représentent des ancêtres hypothétiques. Les branches définissent les relations entre les taxons en terme de descendance. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 1. Quelques définitions . Arbre: dendrogramme, cladogramme, phénogramme . Taxon: Ensemble des organismes reconnus et définis dans chacune des catégories* de la classification biologique hiérarchisée. En d'autres termes : contenu concret d'une catégorie. Exemple : Canis lupus, le Loup, est un taxon de rang spécifique (catégorie : espèce) ; les canidés (Chien, Loup, Renard .) constituent un taxon de rang familial (catégorie : famille). . Nœud: Point de rencontre de trois branches ou segments de branches dans un arbre. Si l'arbre est raciné, le noeud est constitué d'un segment-racine en amont et de deux branches-filles, ou taxons-frères, en aval. Si la classification est phylogénétique, c'est-à-dire si l'arbre est un cladogramme, le noeud représente un taxon (un groupe) comprenant les taxons frères en aval de ce noeud. Le noeud est défini par des apomorphies. Ceux-ci constituent la seule connaissance (fragmentaire) que l'on puisse avoir du dernier ancêtre commun aux deux taxons-frères composant le noeud. Un noeud peut contenir plusieurs branches-filles. C'est dans ce cas une multifurcation qui signifie que les relations phylogénétiques des différentes branches (taxons) n'ont pas été résolues. . Plésiomorphe: Se dit de l'état ancestral d'un caractère. Les adjectifs ancestral ou primitif sont synonymes. . Symplésiomorphie: Caractère plésiomorphe présent chez deux ou plusieurs taxons . Apomorphe: qualifie, dans une séquence de transformations évolutives d'un caractère, l'état dérivé d'un état ancestral. On dit aussi état apomorphe, ou, par extension caractère apomorphe ou encore caractère dérivé. . Synapomorphie: Caractère apomorphe partagé par deux ou plusieurs taxons. . Autapomorphie : lors d'une comparaison de caractères entre groupes-frères, l’adjectif autapomorphe désigne l'état dérivé (ou apomorphe*) d'un caractère propre à l'un de ces deux groupes. Par extension, on parle de caractère autapomorphe ou d'une autapomorphie. Figure 1 : Levels of detail in genetic history, from individuals to a branch on the phylogenetic tree. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 1. L’hypothèse d’homologie : l’homologie primaire 1.1 Le caractère On appelle (en première observable d’un individu. approche) caractère tout attribut Dans le contexte cladistique, un caractère est une collection d’attributs sur laquelle on fait un pari d’homologie. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 1. L’hypothèse d’homologie : l’homologie primaire 1.1 Le caractère 1.2 Homologie détectée par les connexions (homologie de position) « principe de connexions » énoncé par E. Geoffroy Saint-Hilaire dès 1818 dans philosophie anatomique qui contient les fondements de l’homologie de position puisqu’il dit que les mêmes organes, quelle que soit leur taille ou leur forme, occupe la même position car ils sont unis par les mêmes connexions anatomiques. Mais il prolonge son analyse jusqu’au niveau embryologique, et établit une corrélation entre la topologie des structures anatomiques et leur origine embryonnaire. Il conclût alors à une unité de plan d’organisation des Invertébrés aux Vertébrés. En réalité, E. Geoffroy Saint Hilaire parlait d’analogies. Des structures sont homologues lorsqu’elles occupent la même position et qu’elles ont les mêmes connexions avec les structures voisines au sein d’organismes partageant un même plan d’organisation, et ceci quelles que soient leur forme et leur fonction - R. Owen (1843). III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 1. L’hypothèse d’homologie : l’homologie primaire 1.1 Le caractère 1.2 Homologie détectée par les connexions 1.3 Homologie révélée par le développement embryonnaire Il revêt une importance capitale puisqu’il permet de trancher entre analogie et homologie. L’étude de caractères embryonnaires permet de montrer que 2 structures de formes et de fonctions différentes ont la même origine embryonnaire, elles doivent avoir une origine phylogénétique commune ce qui peut aboutir à une hypothèse d’homologie. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 2. La polarisation des caractères L’observation de structures dites homologues permet de définir plusieurs états pour un même caractère (ex: nombre de doigts des membres chez les Tétrapodes). Il est essentiel de déterminer quel est l’état primitif et quel est l’état dérivé de chaque caractère étudié. On dit que l’on polarise les caractères. Il existe un événement évolutif (innovation) permettant le passage d’un état ancestral (plésiomorphe) à un état dérivé (apomorphe). plesio, en grec = voisin apo, en grec = s’éloignant de L’état dérivé a été transmis par un ancêtre commun exclusif à un ensemble d’espèces au sein de l’échantillon. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique de Henning 2. La polarisation des caractères Il est essentiel de déterminer quel est l’état primitif et quel est l’état dérivé de chaque caractère étudié. On dit que l’on polarise les caractères. 2.1 Le critère ontogénique S’appuie sur la loi biogénétique fondamentale de E. Haeckel résumée par « l’ontogenèse récapitule la phylogenèse » : Les caractères généraux du groupe apparaissent au cours du développement embryonnaire avant les caractères propres de l’espèce ; pour un caractère donné, l’état qui apparaît le 1er est considéré comme le plus ancestral, l’état qui apparaît dans un 2nd temps est l’état dérivé. . Dans le temps embryologique, la colonne vertébrale apparaît avant les membres, qui apparaissent eux-mêmes avant la régression de la queue qui caractérise les primates hominoïdes (voir Lecointre et Le Guyader, 2001). Celui des deux états qui donne naissance à l’autre est donc l’état primitif, celui qui en découle est l’état dérivé. . Le bourgeon épidermique préfigure déjà l’écaille mais se transforme en plume. On peut même, expérimentalement, transformer les écailles des tarses des poulets en plumes en ayant injecté de l’acide rétinoïque dans l’embryon à un certain stade de son développement. Tout semble donc indiquer que la plume est une écaille dérivée. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 1. L’hypothèse d’homologie : l’homologie primaire 1.1 Le caractère: 1.1.1 Les caractères morpho-anatomiques 1.1.2 Les caractères embryologiques (1.1.3 Les caractères moléculaires) 1.2 Homologie détectée par les connexions 1.3 Homologie révélée par le développement embryonnaire 1.4 L’homologie secondaire 2. La polarisation des caractères 2.1 Le critère ontogénique 2.2 Le critère extra-groupe Le critère extra-groupe consiste à choisir une espèce extérieure à l’échantillon à classer référence chez qui on postule (hypothèse de travail) que tous les caractères étudiés sont à l’état primitif. choisie de manière à ce que son point de branchement dans l’arbre phylogénétique soit antérieur au dernier ancêtre commun à toutes les espèces de l’échantillon à classer. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 3. Codage des caractères et matrice taxon de caractères > Les caractères sont codés. On réalise une matrice de caractères qui présente pour chaque groupe l’état de chaque caractère utilisé 0 : état trouvé dans l’extra-groupe; 1 : état dérivé. > Seuls les caractères informatifs sont conservés. Les caractères 1 et 6 ne permettent pas de discriminer 2 espèces parmi les 3 espèces de l’échantillon. Le caractère 5 ne semble pas discriminant: il permet de regrouper le Pigeon avec lui-même Ces caractères ne sont pas informatifs. A retenir III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 4. Principe de construction des arbres phylogénétiques Le principe de la méthode cladistique consiste à regrouper les organismes présentant le même état dérivé pour un caractère. Deux organismes ont d’autant plus proches qu’ils partagent un grand nombre de caractères à l’état dérivé. Exemple : L’ancêtre hypothétique commun à ces 3 espèces (connaissance extérieure à l’expérience) est l’ancêtre commun hypothétique de tous les Amniotes (développement embryonnaire dans un sac – amnios – contenant un liquide – liquide amniotique). On choisit une espèce non amniote pour l’extra-groupe : III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 5. Appliquer un critère de cohérence: le principe de parcimonie Comment choisir parmi les 3 arbres possibles une fois que l’on a reporté les hypothèses de transformation dans chacun d’eux ? > Appliquer le principe de parcimonie. Quand plusieurs arbres sont possibles, on retient l’arbre qui est le plus économique, le moins coûteux en hypothèses de transformation. L’arbre a implique (« coûte ») 6 hypothèses de transformation, l’arbre b en nécessite 7 et l’arbre c, 8. C’est donc l’arbre a qui est le plus parcimonieux ⇒ retenu ! Remarque : Cette démarche est utilisée par les chercheurs pour établir des classifications. Mais comme ils analysent un nombre élevé d’espèces et de caractères, ils utilisent des algorithmes et des ordinateurs, indispensables car le nombre d’arbres possibles augmente rapidement avec le nombre d’espèces à classer : - 10 espèces nécessitent la comparaison de 34459425 arbres ; - 20 espèces nécessitent la comparaison de 8.1021 arbres… III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 6. L’homologie secondaire L’homologie secondaire est une homologie par ascendance commune (= une synapomorphie), confirmée par l’arbre phylogénétique le plus parcimonieux. Seul ce dernier, permet de vérifier si deux structures sur lesquelles on a posé une hypothèse d’homologie (homologie primaire) sont bien hérités d’un ancêtre commun hypothétique exclusif, ou si elles sont apparues plusieurs fois de manière indépendante (homoplasie). III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 7. L’homoplasie L’homoplasie est une ressemblance non héritée d’un ancêtre commun: . Convergence : Ressemblance apparue indépendamment dans différents taxons, par conséquent non héritée de l'espèce ancestrale à ces taxons. Une convergence apparue chez des taxons proches parents est appelée parallélisme. . Parallélisme : Ressemblance apparue indépendamment dans différents taxons proches parents : un même état apomorphe est atteint à plusieurs reprises, et par différents taxons, à partir d'un même caractère ancestral. Le parallélisme est un cas particulier de la convergence. . Réversion : Un état dérivé d'un caractère revient à un état semblable à l'état primitif (ou plésiomorphe). Plus généralement, dans une série de transformations d'un caractère (d'un état primitif à des états dérivés), la réversion est un retour à un état morphologique ou moléculaire semblable à celui d'un stade précédent (ou antérieur). III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 7. L’Homoplasie 7.1 Convergence évolutive Les Taupes du genre Talpa et Notorycte ont une morphologie externe commune: membre fouisseur puissant et court, orienté latéralement, mains carrés aux ongles puissants, tête grosse proportionnellement au corps, yeux régressés, corps cylindrique, pas de pavillon auditif… On pourrait donc croire que le dernier ancêtre commun à ces deux taupes avait une morphologie de Taupe donc que cette forte similarité est héritée, donc exprime de homologie. En fait cette morphologie est apparue deux fois, sur deux continent différents et isolés l’un de l’autre. III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 7. L’Homoplasie 7.2 Réversion Presque tous les archosaures actuels et fossiles ont un orifice latéral entre l’orbite et la narine. C’est la fenêtre anté-orbitaire. Le reste des amniotes actuels (Tortues, Lépidosauriens, Mammifères) et fossiles n’ont pas cette fenêtre. L’absence de cette fenêtre est un état primitif au sein des amniotes puisque cet état est présent en dehors des amniotes (chez les amphibiens). On la trouve chez tous les Dinosaures dont les Oiseaux, ainsi que chez les membres des Thécodontes (groupe paraphylétique) du Trias. Cette fenêtre a donc été acquise très tôt. Cette fenêtre disparaît dans la Seule lignée des Crocodiliens: on retrouve l’état primitif (l’état général des autres amniotes) III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 8. Arbre phylogénétique et clade L’arbre permet de définir des groupes ayant une signification phylogénétique, càd des groupes dont tous les membres partagent au moins un attribut exclusif (caractère dérivé propre = une synapomorphie) qui leur a été légué par un ancêtre commun hypothétique. Ces groupes sont monophylétiques ; ce sont des clades (ancêtre commun + tous les descendants). Ex: . Des groupes-frères sont des ensembles de même niveau hiérarchique (rang), càd de même niveau d’emboîtement (Crocodiliens et Oiseaux ont le même rang : Crocodile du Nil et Pigeon sont 2 groupes-frères). . Crocodile et Pigeon sont inclus dans un clade, celui des Archosaures. Pigeon, Crocodile et Tortue appartiennent à un clade plus inclusif, comprenant Tortue et Archosaures, et donc de rang supérieur, celui des Amniotes. Un groupe paraphylétique: les Reptiles Un groupe paraphylétique: les Poissons Paraphylétique: se dit d’un groupe qui comprend une espèce ancestrale, et une partie seulement de ses descendants. Un groupe paraphylétique est défini par au moins une symplésiomorphie ou une absence de caractère. Les grades sont en général des groupes paraphylétiques. Un groupe polyphylétique: les Pachydermes Polyphylétique: Se dit d’un groupe qui contient un certain nombre d'espèces ou de taxons, mais ne contient pas l'ancêtre commun à tous. En d'autres termes, un groupe polyphylétique dérive de deux ou plusieurs espèces ancestrales. Un groupe polyphylétique est défini par au moins une homoplasie. L’arbre obtenu permet de mettre en évidence 3 types de ressemblances au sein d’une collection d’organismes : 1. partage trop général d’un caractère primitif Ex: Cistude d’Europe, Crocodile du Nil et Pigeon biset possèdent une colonne vertébrale. Cela ne nous dit pas « qui est plus proche de qui ? » , puisque l’extra-groupe en possède déjà une. 2. partage de caractères à l’état dérivé / hérités d’un ancêtre commun exclusif : Ces ressemblances permettent de définir des clades et ne peuvent être repérées qu’une fois l’arbre le plus parcimonieux obtenu. Ex: nous faisions le pari que la mandibule fenêtrée avait été acquise d’un ancêtre commun exclusif au Crocodile du Nil et au Pigeon biset (homologie primaire). L’arbre retenu montre que nous avons gagné ce pari (l’homologie est confirmée, c’est une synapomorphie). Elles donnent la réponse aux paris d’homologie. 3. partage de caractères à l’état dérivé non hérités d’un ancêtre commun exclusif : Ex 1: Partage du bec par la Tortue et le Pigeon Ex 2: Ailes acquises au moins 3 fois au cours de l’évolution des Vertébrés : Ptérosaures, Oiseaux et Chauve-souris. Au cours du déroulement de l’évolution, des caractères se ressemblant fortement peuvent apparaître plusieurs fois indépendamment chez des organismes différents Convergences évolutives (résultat d’une sélection de solutions semblables face à des contraintes du milieu identiques pour différentes espèces) ou réversions. Si l’arbre phylogénétique final montre qu’une ressemblance est expliquée par une convergence évolutive, cela veut dire que le pari sur l’homologie est perdu Il s’agit d’homoplasie III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique 9. Le dernier ancêtre commun hypothétique 2 4 7 1 6 8 25 3 24 26 1. - Cladogramme des Crâniates actuels fondé sur les caractères morpho-anatomiques 1 : 2: 3 : 4 : 5 : 6 : Craniata (43173) : animaux pourvus d'un crâne; Myxini (Mixiniformes = Hyperotreti : Myxines, 32); Vertebrata : animaux pourvus de vertèbres ; Petromyzontiformes = Hyperoartii (Lamproies, 41); Gnathostomata : animaux pourvus de mâchoires; Chondrichthyes (793) : animaux dont le squelette est constitué d'un cartilage spécial; 7 : Holocephali (Chimères, 30) ; 8 : Elasmobranchii (Requins, Squales, Guitares de mer, Requins-scies, Torpilles, Raies,763); 9 : Osteichthyes : animaux pourvus d'os ; 10 : Sarcopterygii : animaux à appendices pairs charnus (appendices = nageoires paires ou membres) ; 11 : Actinistia (Coelacanthe, 1); 12 : Choanata : animaux à poumons alvéolés fonctionnels et deux oreillettes au cœur; 13 : Dipnoi (Dipneustes, 6) ; 14 : Tetrapoda (21450) : animaux pourvus de membres marcheurs « pattes », et d'un cou différencié; 15 : Lissamphibia (Grenouilles, Crapauds, Salamandres, Tritons, Cécilies, 3200) ; 22 20 21 18 5 23 19 16 17 14 15 12 13 10 11 28 9 31 30 32 34 36 33 35 37 16 : Amniota : animaux pourvus d'un amnios ; 17 : Synapsida (sans les fossiles : Mammalia : Mammifères, 4206) ; 18 : Sauropsida : animaux dont l'iris de l'oeil implique des muscles striés, et dotés d'une quille ventrale sur les vertèbres cervicales; 19 : Testudines (Tortues, 250) ; 20 : Diapsida : animaux dont le squelette du crâne présente deux fosses temporales ; 21 Lepidosauromorpha (sans les fossiles : Lepidosauria, 6000) : animaux dont le tympan est sous-tendu par l'os carré ; 22 : Squamata (Serpents, Lézards, Amphisbènes) ; 23 : Sphenodontida = Rhynchocephalia (Sphénodon) ; 24 : Archosauromorpha : animaux à gésier, membrane protectrice supplémentaire sur l’œil, et dont le squelette de la mâchoire est pourvu d'une fenêtre; 25 : Aves (Oiseaux : 10228) ; 26 : Crocodylia (Crocodiles, Alligators, 22) ; 27 : Actinopterygii : animaux à nageoires rayonnées; 28 : Cladistia (Polyptères, Poisson-roseau, 11) ; 29 : Actinopteri ; 30 : Chondrostei ; 29 : Actinopteri ; 30 : Chondrostei ; 31 : Acipenseroidei (Esturgeons, 23) ; 32 : Polyodontoidei (Spatules, 2) ; 33 : Neopterygü ; 34 : Ginglymodi (Lépisostées, 7) ; 35 : Halecostomi 36 : Halecomorpha (Amie chauve, 1) ; 37 : Teleostei (20812). III- La construction d’arbres phylogénétiques: Établissement de parenté A- La cladistique (W. Henning) 10. La place des fossiles Dans la mesure ou il est impossible de dé déterminer « de qui » les fossiles sont les ancêtres au sens gé génétique ou généalogique du terme, ils sont classé classés comme les êtres vivants actuels et placé placés au bout des branches en fonction des innovations évolutives qui les caracté caractérisent. Néanmoins: 1. Ils sont le té témoignage d’ d’une époque ré révolue. Ils peuvent donc attester l’l’existence d’ d’un groupe donné donné à une époque donné donnée, voire fournir la plus ancienne date d’ d’existence du groupe. 2. Ils pré présentent des combinaisons de caractè caractères qui ont souvent disparus de la biodiversité biodiversité actuelle. B- La phylogénie moléculaire 1. Les molécules utilisées La comparaison de séquences d'ADN. 1. Dans les régions codantes, et pour des objets proches, les changements synonymes possible facilement peuvent apporter beaucoup d'informations. 2. On peut utiliser soit les régions codantes soit les régions non codantes, suivant la profondeur des arbres recherchés. . Les séquence des gènes des d'ARN ribosomiques (ARNr). . Les séquences IGS (grands espaceurs intergéniques) et ITS (petits espaceurs transcrits) des ARNr. . Les même séquences dans la mitochondries. . Des régions hyper variables du génome mitochondrial. . Les séquences de cytochrome C . Les séquences de la ribulose 1,5-bisphosphate carboxylase . Les séquences du facteur d'élongation alpha (tuf). La comparaison des séquences de protéines. Un code à 20 caractères qui augmente le rapport signal sur bruit (homoplasies). Il existe des ambiguïtés liées à la dégénérescence du code génétique. Marqueurs moléculaires: phylogénie de bactéries (16S rDNA) phylogénie d’eucaryotes (18S rDNA, actine, EF1, RPB1) phylogénie de plantes (rbcL, 18S rDNA) phylogénie d’animaux o niveau phylum, classe, ordre (18S rDNA, génome mt) o niveau famille (RAG2, 12S, 16S mt) o niveau genre (ITS, protéines mt) o niveau intra-spécifique (D-Loop, introns) Critères du choix d'un marqueur: universalité structure conservée absence de transfert génétique entre les espèces taux d’évolution approprié B- La phylogénie moléculaire 2. L’indicateur universel Les ARN ribosomiques sont devenus les index phylogénétiques retenus par une majorité de laboratoire: . Présence universelle . Fonction conservée chez tous les organismes . Alternances de domaines dont les vitesses d’évolution sont divers . Abondance permettant un séquençage direct sans clonage . Dans la petite sous-unité du ribosome: . Bactéries: 16S, 1550 nucléotides environ . Eucaryotes: 18S, sensiblement plus long . Dans la grande sous-unité du ribosome: . Bactéries: 23S, 2900 nucléotides environ . Eucaryotes: 28S, sensiblement plus long Le choix universel a permis la construction d’une banque de séquences. Des représentants de tous les grands phylum animaux ont été séquencés; plantes, protistes et champignons sont très représentés; plus de 400 séquences bactériennes d’ARNr 16S quasi complètes sont disponibles. B- La phylogénie moléculaire 3. La notion d’horloge En résumé, on constate que le taux d'accumulation des mutations dans le génome d'organismes différents est du même ordre de grandeur dans des régions homologues (régions soumises à la même pression de sélection). L'accumulation sera maximale pour des régions qui ne sont pas soumises à la pression de sélection naturelle (ne codant pas pour des gènes) et minimale dans les parties du génome soumises à une forte pression (c'est à dire les régions codant pour des fonctions essentielles à la survie de l'organisme). Chaque séquence accumule les mutations à un rythme qui lui est propre et qui est dicté par l'intensité de la pression de sélection à laquelle elle est soumise. Pour reconstituer des phylogénies (dater la divergence entre deux espèces), on peut utiliser différentes molécules comme on utilise les aiguilles d'une montre pour calibrer l'horloge : - - la trotteuse des secondes (taux de mutation important, par exemple un pseudogène) pour des évènements récents (études des sous populations au sein d'une espèce). - l'aiguille des minutes (taux de mutation moyen, par exemple le cytochrome C) pour l'analyse d'un passé proche. - l'aiguille des heures (taux de mutations faible : les histones) pour l'étude d'un passé lointain. La vitesse d'évolution de la séquence est du même ordre de grandeur au sein d'une même classe fonctionnelle de protéines et elle est différente pour des protéines qui ont des fonctions différentes : la vitesse d'évolution de la sérum albumine est toujours plus importante que celle du cytochrome C. Ces différences de vitesse dépendent à la fois de la probabilité qu'une substitution apparaisse et de sa compatibilité avec la survie de l'organisme. Si l'on admet cette théorie, et que l'on connaît le taux d'accumulation des mutations, il est possible d'estimer le temps de divergences d'espèces en comparant leur diversité moléculaire. La théorie de l'horloge moléculaire est remise en cause et plusieurs arguments ont été développés : -L'horloge moléculaire ne serait pas constante (Goodman): les mutations avantageuses se fixeraient plus rapidement lors de la formation de nouvelles espèces. - L'horloge moléculaire serait épisodique (Gillepsie) et les mutations ne se produiraient pas de façon indépendante au cours de l'évolution: il y aurait des épisodes d'accumulation suivis d'arrêts évolutifs. Dans la réalité les taux d'accumulation des mutations : 1. Peuvent être différents d'un organisme à un autre. 2. Peuvent varier au cours du temps dans une lignée 3. Ne sont pas identiques d'un résidu à un autre B- La phylogénie moléculaire 4. Les méthodes Deux caté catégories de mé méthodes: -Méthodes fondé fondées sur les distances: Une matrice des distances est élaboré laborée en comparant les sé séquences deux à deux et en calculant le nombre total de diffé différences (de substitutions), pour tous les couples possibles d’ d’espè espèces. On construit ensuite un arbre phylogé phylogénétique dont les longueurs de branches sont aussi proches possibles des nombres contenus dans la matrice. -Méthodes fondé fondées sur les caractè caractères: -On s’ s’inté intéressent au nombre de mutations (substitutions / insertions /dé /délétions) qui affectent chacun des sites (positions) de la sé séquence on cherche les relations phylogé phylogénétiques qui minimisent les mutations né nécessaires pour expliquer les diffé différences observé observées entre toutes les sé séquences. Méthodes dé dérivé rivées des mé méthodes pré précédemment utilisé utilisées pour analyser les caractè caractères morphologiques. Enfin toutes les méthodes reposent sur les hypothèses suivantes : · Pas de transfert latéral ou de recombinaison · Les séquences sont homologues · Chaque position de l'alignement comporte des résidus homologues · L'échantillonnage est correctement effectué · Les positions évoluent indépendamment les unes des autres B- La phylogénie moléculaire 4. Les méthodes 4.1 L’alignement des séquences C’est une opération qui consiste à disposer les unes en dessous des autres des portions de séquences similaires en minimisant leurs différences. Les séquences d’ADN se composent des caractères discontinus qui peuvent avoir 5 états différents: . soit une adénine, . soit une guanine, . soit une cytosine, . soit une thymine . soit une insertion ou une délétion (indel). Les sites qui ont les mêmes états dans chaque séquence s’appellent des sites conservés. Un changement d’état dans un site s’appelle une substitution. Taxon 1 ACCAG-TCGTACTGCCAGTAC-CTGACATGCCAGTCAGA Taxon 2 ACCAG-TCGTGCTGCC-CAT--CTGACATGACA-TCAGA Taxon 3 ACCTG-TCGTGCAGCCGCGT--CTGTCCTGCCAGTCGGA Taxon 4 ACCTGGTCGTACTGCC-CATA-CTGGCCTGTCAGTCAGA Taxon 5 ACTTG-TCGTACTGCCGTCGAACTGGCCTGTCAGTCAG B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) Les méthodes des distances se proposent de reconstruire des arbres en partant des ressemblances observées entre chaque paire d'unités évolutives. On parle de la ressemblance globale établie à partir du maximum d'observations disponibles. Deux étapes d'analyse des séquences par méthodes • Calcul des distances • Construction d'arbre phylogénétique Ce sont des méthodes de reconstruction d'arbre phylogénétique sans racine basée sur la recherche d'OTU (operationnal taxonomic units, le plus souvent équivalent à une séquence) les plus proches et ceci à chaque étape de regroupement. Ces méthodes sont rapides et donnent de bons résultats pour des séquences ayant une forte similarité. Programmes DNADIST et PROTDIST de Phylip 4.2.1 UPGMA (Unweight Pair Group Method with Arithmetic mean) Cette méthode est utilisée pour reconstruire des arbres phylogénétiques si les séquences ne sont pas trop divergentes. UPGMA utilise un algorithme de clusterisation séquentiel dans lequel les relations sont identifiées dans l'ordre de leur similarité et la reconstruction de l'arbre se fait pas à pas grâce à cet ordre. Il y a d'abord identification des deux séquences les plus proches et ce groupe est ensuite traité comme un tout, puis on recherche la séquence la plus proche et ainsi de suite jusqu'à ce qu'il n'y ait plus que deux groupes. Exemple: Si on considère la matrice de distances associé à un groupe de 6 OTUs et que l'on veuille obtenir l'arbre associé: A B C D B 2 C 4 4 D 6 6 6 E 6 6 6 4 F 8 8 8 8 E 8 On clusterise tout d'abord les deux OTUs avec la distance la plus faible (A et B). Le point de branchement est positionné à la distance 2/2=1. On peut alors construire le sous arbre suivant : Dans la suite, le cluster (A,B) est considéré comme un tout et on peut calculer une nouvelle matrice de distance: dist(A,B),C = (distAC + distBC) / 2 = 4 dist(A,B),D = (distAD + distBD) / 2 = 6 dist(A,B),E = (distAE + distBE) / 2 = 6 dist(A,B),F = (distAF + distBF) / 2 = 8 C'est une méthode agglomérative (cluster analysis) qui regroupe ensemble les séquences les plus proches. C'est une méthode très simple, développée originalement pour construire des phénogrammes taxonomiques. Elle impose que les distances soient ultra-métriques, donc que les séquences évoluent à une vitesse constante (hypothèse d'horloge moléculaire). Etant donnée que cette hypothèse est rarement confirmée, la méthode UPGMA n'est pratiquement plus utilisée. B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.2 Fitch et Margoliash Elle ne nécessite pas d'hypothèse particulière quant à la vitesse d'évolution des molécules. Compte tenu de l'homoplasie présente dans tous les jeux de données biologiques, il n'est pas possible de construire un arbre dont chaque distance entre deux espèces, obtenue par addition des longueurs de branches joignant les deux espèces dans l'arbre, soit strictement égale à la distance figurant dans la matrice de départ. Par conséquent, les distances dans l'arbre sont toujours plus ou moins déviées (plus grandes ou plus petites) par rapport aux distances de la matrice initiale. Le critère de choix de l'arbre est la minimisation de cette déviation : on choisit l'arbre dont les distances entre espèces sont les plus proches possibles des distances de la matrice initiale. B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.3 Neighbor-joining: Cette méthode introduit un critère de minimisation de la longueur total de l’arbre. Elle conduit à un seul arbre, mais ne choisit pas d’agglomérer nécessairement au départ les espèces les plus proches. C'est la méthode de distances la plus souvent utilisée. Elle assume que les distances sont proches de l’additivité, mais pas ultramétrique, donc elle n’implique pas l’hypothèse d’horloge moléculaire. La méthode NJ consiste à calculer les longueurs des branches, telles que les distances déduites de l’arbre soient les plus proches de distances mesurées entre les séquences; et ensuite à calculer la longueur de l’arbre, égale à la somme des longueurs de ses branches. Cette méthode développée par Saitou et Nei (1987) tente de corriger la méthode UPGMA afin d'autoriser un taux de mutation différent sur les branches. . Les données initiales permettent de construire une matrice qui donne un arbre en étoile. . Cette matrice de distances est ensuite corrigée afin de prendre en compte la divergence moyenne de chacune des séquences avec les autres. . L'arbre est alors reconstruit en reliant les séquences les plus proches dans cette nouvelle matrice. . Lorsque deux séquences sont liées, le nœud représentant leur ancêtre commun est ajouté à l'arbre tandis que les deux feuilles sont enlevées. Ce processus convertit l'ancêtre commun en un nœud terminal dans un arbre de taille réduite. Programme NEIGHBOR de Phylip La matrice de distance associée à cet arbre est la suivante : A B C D B 5 C 4 7 D 7 10 7 E 6 9 6 5 F 8 11 8 9 E 8 Etape 1 : calcul de la divergence de chacun des N OTUs par rapport aux autres (N= 6) r (A) = 5+4+7+6+8 = 30 r(B) = 42 r(C) = 32 r(D) = 38 r (E) =34 r(F) = 44 Etape 2 : calcul de la nouvelle matrice en utilisant la formule M(i,j) = d(ij) -[r(i) + r(j)] / (N-2) ce qui donne pour la paire AB : M(AB) = 5 - [30 + 42] / 4 = -13 A B C B -13 C -11.5 -11.5 D -10 -10 -10.5 E -10 -10 -10.5 F -10.5 -10.5 -11 D E -13 -11.5 -11.5 Ceci permet de construire l'arbre en étoile suivant : A F | B \ | / \ | / \ |/ /|\ / | \ / | \ E | C D Etape 3 : Choix des plus proches voisins, c'est à dire des deux OTUs ayant le M(i,j) le plus petit, donc soit A et B soit D et E. On prend A et B et on forme un nouveau nœud U et on calcule la longueur de la branche entre U et A ainsi qu'entre U et B : S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2) = 5/2 + [30-42] /2(6-4) = 1 S(BU) = d (AB) - S(AU) = 5 - 1 = 4 Etape 4 : on définit les nouvelles distances entre U et les autres OTUs d (CU) = d(AC) + d (BC) - d(AB) / 2 = 3 d (DU) = d(AD) + d(BD) -d(AB) /2 = 6 d (EU) = d(AE) + d (BE) - d(AB) / 2 = 5 d (DU) = d(AF) + d(BF) -d(AB) /2 = 7 création d'une nouvelle matrice : U C D C 3 D 6 7 E 5 6 5 F 7 8 9 E Et d'un arbre en étoile : C D | \ | A \__| ____1/ / | \ / | \4 E F \ B La procédure complète repart de l'étape 1 avec N = N-1 = 5. 8 B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.4 Distance observé/distance évolutive: La distance évolutive entre 2 séquences est égal au nombre de substitutions qui se sont produites sur les 2 lignées évolutives depuis l’ancêtre commun / nombre de sites. La distance évolutive est égale à la distance observée uniquement si les séquences sont très proches et le nombre de substitutions observées correspond au nombre de substitutions qui se sont réellement produites. En effet, la distance observée est presque toujours une sous-estimation de la distance évolutive. Plusieurs événements, qui ont pu éventuellement se produire, ne sont pas pris en considération dans son calcul. Pour en tenir compte, plusieurs modèles ont été développés afin de corriger les distances observées. Si le temps de divergence entre deux séquences augmente, la probabilité d'avoir une seconde mutation a un site augmente également. Ceci fait que le simple comptage des différences entre deux séquences n'est pas le reflet exact de la réalité mais sous-estime le nombre d'évènements mutationnels. On tente de corriger ce biais en faisant des hypothèses sur la façon dont les bases ou acides aminés se sont substitués à un locus donné. Les premiers à avoir proposés une solution à ce problème sont Jukes et Cantor en 1969. Types de substitutions On distingue différents types de substitution suivant les bases impliquées. Transitions : A <-> G, C <-> T Transversions : A <-> C, A <-> T, G <-> C, G <-> T Lorsque l'on compare deux séquences, on différencie aussi les substitutions selon leur ordre et leurs conséquences. Séquence 1 Séquence 2 Nb de substitutions observées Nb réel de substitutions Substitution unique C C -> A 1 1 Substitutions multiples A A -> C > T 1 2 Substitutions coïncidentes au même site C -> A C-> G 1 2 Substitutions parallèles T -> A T -> A 0 1 Substitutions convergentes C -> T > A C -> A 0 3 Substitutions reverses C -> T > C C 0 1 Modèles d’évolution Modèle de Jukes-Cantor (JC) : 1 paramètre • les 4 bases ont les mêmes fréquences (πA = πT = πG = πC) • les transitions (α) et les transversions sont équiprobables (α = β) Formule: d xy = -3/4 ln (1-4/3 D) où D est la distance observée, les termes 3/4 et 4/3 correspondent aux quatre types de nucléotides et aux trois possibilités que le deuxième nucléotide peut être différent du premier. Modèle de Kimura (K2P) : 2 paramètres • les 4 bases ont les mêmes fréquences (πA = πT = πG = πC) • les transitions (α) et les transversions (β) ne sont pas équiprobables (α ≠ β) Modèle de Tajima-Nei (TN) = Felsenstein (F81) : 6 paramètres • les 4 bases ont les fréquences différentes (πA ≠ πT ≠ πG ≠ πC) • les transitions et les transversions sont équiprobables (α = β) Modèle de Hasegawa, Kishino et Yano (HKY 85) : 6 paramètres • les 4 bases n’ont pas les mêmes fréquences (πA ≠ πT ≠ πG ≠ πC) • les transitions (α) et les transversions (β) ne sont pas équiprobables (α ≠ β) Modèle GTR (General Time Reversible) : 10 paramètres • les 4 bases ont des fréquences différentes (πA ≠ πT ≠ πG ≠ πC) • il existe 6 types de substitutions (AC, AT, AG, CT, CG, TG) Paramètres additionnels : distribution gamma (Γ) et proportion de sites invariables (I) La distribution gamma est utilisée pour corriger les variations de substitutions entre les différents sites. Le paramètre α est évalué à partir des données et correspond à l'intervalle de variations. Plus α est petite, plus l'intervalle des variations est grand. On peut décider qu’une certaine fraction de sites est invariable (ce qui correspond à un paramètre supplémentaire I), auquel cas la distribution gamma ne s’appliquera qu’aux sites libres de varier. On peut inclure les paramètres α et I dans différents modèles de changements évolutifs, p. ex. : GTR + Γ + I (12 paramètres) B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.5 Enraciner l’arbre: B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.5 Enraciner l’arbre: On peut positionner la racine grâce à un groupe externe : sachant (par d'autres données) que les mammifères sont apparus après les oiseaux, l'inclusion d'un oiseau dans la phylogénie permet de mettre en évidence un clade Ane-Lion, avec le Lapin comme taxon externe à ce clade Quand on n'a aucune possibilité de décider quel taxon peut servir de groupe externe, on place souvent la racine au milieu de l'arbre ; ceci fait implicitement usage de la notion d'horloge moléculaire. B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.6 Avantages et désavantages des méthodes de distances: Avantages: . Les méthodes de distance sont les seules disponibles pour analyser certain type de données: distances immunologiques, distances d’hybridation d’acides nucléiques. . Elles sont rapides et permettent d’analyser de grandes bases de données et de tester un grand nombre d’hypothèses alternatives. . Elles permettent aussi d’intégrer des modèles de changements évolutifs, pour corriger les estimations de distances, qui ne sont pas intégrables dans d’autres méthodes. Désavantages: . Le fait de réduire la matrice de caractères à une matrice de distance (traitement global) induit la perte d’une certaine quantité d’information. Elles confondent homologie et homoplasie . En plus, les méthodes de distance ne permettent pas de combiner dans une même matrice des caractères de nature différente (par exemple caractères morphologiques et séquences d’ADN). B- La phylogénie moléculaire 4. Les méthodes 4.2 Approche phénétique (Méthode des distances) 4.2.7 Le phénogramme: une signification phylogénétique? Ces arbres expriment un degré relatif de similitude. Si le degré d’apparentement est proportionnel au degré de ressemblance, l’arbre construit par une méthode phénétique peut-être identique à celui construit par la méthode de Henning. Mais la ressemblance n’est pas toujours proportionnelle à la parenté. B- La phylogénie moléculaire 4. Les méthodes 4.3 Méthode de parcimonie Les méthodes de parcimonie reposent directement sur les principes de la cladistique qui ont été créées pour analyser des données morphologiques. Le postulat de base est que l’évolution est parcimonieuse; c’est à dire que, pour un groupe d'espèces, la phylogénie la plus vraisemblable est celle qui nécessite le plus petit nombre de changements évolutifs. L'arbre phylogénétique est conçu de manière à impliquer le minimum d'événements évolutifs. La longueur de l'arbre L est égale à la somme du nombre de changements l pour chacun des k sites informatifs. La parcimonie consiste à minimiser le nombre de "pas" (mutations / substitutions) nécessaires pour passer d'une séquence à une autre dans une topologie de l'arbre. Pour cela, cette méthode s'appuie sur les hypothèses suivantes : - les sites évoluent indépendamment les uns des autres (la séquence peut être considérée comme une suite de caractères non ordonnés) - la vitesse d'évolution est lente et constante au cours du temps. Cette méthode, quand elle est appliquée à des séquences protéiques, utilise le code génétique pour comptabiliser le nombre de substitutions nécessaires (changements de bases) pour passer d'un site à l'autre d'une séquence à l'autre. La méthode de maximum de parcimonie recherche toutes les topologies possibles afin de trouver l'arbre optimal (minimum) et le temps nécessaire pour cette exploration croit rapidement avec le nombre de séquences: . le nombre d'arbres enracinés possibles pour n OTUs : Nr = (2n - 3)! / (2exp(n-2))(n-2)! . le nombre d'arbres non enracinés possibles pour n OTUs : Nu = (2n -5)! / (2exp(n-3))(n-3)! Programme DNAPARS et PROTPARS de Phylip 4.3.1 Procédure d'analyse par la méthode de parcimonie Identifier les sites informatifs Un site est informatif uniquement s’il y a au moins deux types de nucléotides présents dans ce site et si chacun d’eux est représenté dans au moins deux séquences comparées. Les sites parcimonieusement informatifs sont les seuls qui influencent le choix de l’arbre. Inférer toutes les topologies d'arbres possibles pour les séquences données. Calculer le nombre minimum de substitutions pour chaque site informatif. Calculer la somme de changements pour chaque arbre. Choisir la topologie de l'arbre qui nécessite le moins de changements – l’arbre le plus court. Prenons le jeu de départ : Séquence 1 A A A A A Séquence 2 A A A A G Séquence 3 A A C G C Séquence 4 A T G G T L'objectif va maintenant être parmi tous les arbres possibles de sélectionner celui qui explique le plus simplement, le plus parcimonieux, les séquences observées. On va donc chercher à passer d'une séquence à une autres avec le moins possible de mutations. Les arbres possibles sont les suivants : La première colonne ne fournit aucune information phylogénétique : La seconde non plus car une seule mutation explique chacun des trois arbres : La troisième position n'est plus plus informative : tous les arbres s'expliquent avec deux mutations: Par contre la 4ème position permet de trancher : Seul le premier arbre s'explique avec une seule mutation, alors qu'il en faut deux pour les autres. Si la position ancestrale était un A, alors une mutation de A vers G dans la branche centrale permet d'expliquer les observations expérimentales Pour les espèces 1 & 2 le nucléotide est une plésiomorphie (caractère identique à celui présent chez l'ancêtre). Pour les espèces 3 & 4 le nucléotide observé est une apomorphie (un nouveau caractère dérivé, spécifique au clade).La parcimonie donne la même topologie que la méthode de distance, mais en utilisant vraiment unmodèle basé sur la théorie de l'évolution ! Les colonnes non informatives, peuvent être utilisée pour affiner le calcul de la longueur des branches. Quand de nombreux sites sont informatifs on cherche l'arbre qui en moyenne contient le moins d'étapes. Si beaucoup de caractères informatifs sont présents on obtient généralement de nombreux (parfois de très nombreux) arbres. Le spécialiste les étudiera soigneusement, les autres se contentent généralement de calculer un consensus. Pour 4 séquences, il y a 3 arbres non enracinés possibles. Ces trois arbres sont analysés (recherche de la séquence ancestrale et comptage du nombre de mutations) (1) AAGAGTGCA AGATATCCA (3) \ 4 / 2 \ 4 / AGCCGTGCG --- AGAGATCCG Nombre de mutations : 10 / \ / 0 \ 0 (2) AGCCGTGCG AGAGATCCG (4) Séquence 1 2 3 4 5 6 7 8 9 1 A A G A G T G C A 2 A G C C G T G C G 3 A G A T A T C C A 4 A G A G A T C C G (1) AAGAGTGCA AGCCGTGCG (2) \ 1 /3 \ 5 / AGGAGTGCA --- AGAGGTCCG Nombre de mutations : 14 / \ / 4 \1 (3) AGATATCCA AGAGATCCG (4) (1) AAGAGTGCA AGCCGTGCG (2) \ 1 /3 \ 5 / AGGAGTGCA --- AGATGTCCG Nombre de mutations : 16 / \ / 5 \2 (4) AGAGATCCG AGATATCCA (3) L'arbre I est celui nécessitant le moins de mutations, c'est donc le plus parcimonieux. L'analyse peut également se faire uniquement sur les sites informatifs, c'est à dire quant à cette position il y a au moins 2 nucléotides différents, représentés chacun dans au moins deux séquences. (1) GGA ACA (3) /1 / \1 \ 2 GGG - - - ACG /0 \0 / \ (2) GGG ACG (4) (1) GGA ACA (2) \2 /1 \ 0 / GGG - - - ACG /1 \2 / \ (4) ACG ACA (3) G G A 2 G G G 3 A C A 4 A C G * * * Nombre de mutations : 4 GGG (2) /1 / \1 \ 1 GGG - - - ACG /1 \1 / \ (3) ACA ACG (4) 1 Nombre de mutations : 5 (1) GGA Nombre de mutations : 6 Dans le cas de 4 séquences, un site informatif favorise seulement un arbre : le site 5 favorise l'arbre I plus que les arbres II et III (il supporte l'arbre I). L'arbre le plus parcimonieux est celui qui est supporté par le plus grand nombre de sites informatifs. Le maximum de parcimonie recherche l'arbre optimal et dans ce processus, il est possible de trouver plusieurs arbres optimaux (= arbres ex aequo = configuration comptabilisant le même nombre minimal de substitutions nécessaires pour passer d'une séquence à l'autre dans l'ensemble de l'arbre). Afin de garantir de trouver l'arbre le meilleur possible, il faut faire une évaluation de toutes les topologies possibles mais cela devient impossible lorsque l'on a plus de 12 séquences. 4.3.2 Arbre consensus comme la méthode du maximum de parcimonie peut conduire à trouver plusieurs arbres équivalents, on peut créer un arbre consensus (avec utilisation du bootstraping). Cet arbre consensus est construit à partir des nœuds les plus fréquemment rencontrés sur l'ensemble des arbres possibles. 4.3.3 Mesure de l'homoplasie Plusieurs indices ont été développés afin de mesurer le taux d'homoplasie et ainsi d'évaluer la confiance que l'on peut avoir dans un arbre. • consistency index (CI) - indice de cohérence CI = M / S où M est égal au nombre de changements possibles et S est égal au nombre de changements observés pour tous les caractères. • homoplasy index (HI) - indice des homoplasies HI = 1 -CI 4.3.4 Avantages et inconvénients La parcimonie est une méthode de caractères qui fournit l'information sur les séquences ancestrales et qui permet l'évaluation des différents arbres. Cependant, seulement une partie d'information (sites informatifs) est utilisée. En plus, la méthode ne corrige pas les substitutions multiples et ne calcule pas les longueurs de branches. B- La phylogénie moléculaire 4. Les méthodes 4.4 Méthode probabilistes 4.4.1 Méthode de Maximum de vraisemblance (Maximum Likelihood) Les méthodes de maximum de vraisemblance évaluent les arbres possibles en terme de probabilité qu'un modèle d'évolution des résidus permette d'expliquer avec une meilleure probabilité une topologie plutôt que les autres. L'arbre trouvé est renvoyé avec une probabilité que sa topologie explique les données observées. Pour les nucléotides, on aura par exemple une probabilité différente entre l'obtention d'une transition et d'une transversion ; pour les acides aminés les probabilités peuvent soit être plus fréquentes dans le 3ème codon, soit résultant d'une transition, soit à des remplacements d'acides aminés équivalents. La démarche consiste donc à rechercher la vraisemblance des données D sous différentes hypothèses évolutives H d'un modèle M et à retenir les hypothèses qui rendent cette vraisemblance maximale. Dans le cas d'analyse des séquences, les données D sont des séquences comparées et l'hypothèse H est l'arbre phylogénétique. Nous cherchons à trouver l'arbre dont la vraisemblance, étant donné les séquences observées et le modèle d'évolution choisi, est maximale. Les méthodes probabilistes assument explicitement la connaissance des modalités d’évolution des caractères. En effet, en plus de la matrice et de l’arbre, elles utilisent un modèle constitué d'un ensemble de paramètres dont le réglage formule différentes hypothèses d’évolution connues a priori. Ces hypothèses concernent surtout l'évolution des états de caractères et sont exprimées en termes de probabilités. Par exemple, le modèle va stipuler que la probabilité de passer d'une adénine à une cytosine sera de 0,3 tandis que la probabilité de passer d'une adénine à une guanine sera de 0,5. Comme tout arbre implique des changements d'états de caractères le long de ses branches, toutes les probabilités associées aux transformations impliquées par un arbre donné vont se multiplier et fournir une valeur globale de vraisemblance des données associées à cet arbre. Parmi les arbres possibles, l'arbre choisi est celui dont la vraisemblance des données au vu du modèle est maximale. Cette méthode fonctionne sur les caractères moléculaires, pour lesquels on peut établir des modèles d'évolution des protéines ou des acides nucléiques. Pour les caractères morphologiques, cette méthode est très difficile à appliquer, car, compte tenu de leur nature hautement intégrée, on n'a aucune idée des probabilités de transformation d'un état à un autre, ou plus généralement des modèles à construire. 4.4.2 Inférence bayesienne C'est une méthode qui fait appel au concept des probabilités postérieures (le théorème de Bayes), où la probabilité est estimée sur la base d'un modèle et d'une certaine connaissance des données. En pratique, la probabilité postérieure d’une topologie est impossible à calculer, mais elle peut être approximée en utilisant la méthode de Monte Carlo par chaînes de Markov (MCMC), qui échantillonne des arbres en proportion de leur PP. Avantages : La méthode bayesienne est beaucoup plus rapide que le maximum de vraisemblance. Défauts : Les probabilités postérieures ont tendance à surestimer la fiabilité des noeuds internes des phylogénies ; cette méthode n’a pas encore été suffisamment testée sur des jeux de données réels et complexes. 4.5 La recherche du meilleur arbre: méthodes agglomératives (UPGMA, Neighbor Joining) méthodes d’optimisation (Minimum Evolution, Maximum Parsimony, Maximum Likelihood) Les méthodes d’optimisation explorent toutes les différentes topologies d’arbres possibles et choisissent la meilleure en fonction d’un critère donné. Recherche exhaustive L'analyse exhaustive consiste à évaluer tous les arbres possibles, c'est-à-dire à calculer la longueur de tous les arbres de topologie différente et choisir l'arbre dont la longueur est minimale. C'est une méthode qui garantit de trouver un ou plusieurs arbres optimaux. Cependant, une telle recherche n'est possible qu'au-dessous d'une dizaine de taxons. Technique du branch and bound Cette technique emploie un algorithme exact qui garantit la solution optimale sans nécessiter une recherche exhaustive. La recherche de l'arbre optimal se fait par rapport à un arbre de référence obtenu par une méthode heuristique; la longueur L de cet arbre est comparée avec celle des autres arbres au fur et mesure de leur construction. Si l'on rencontre un arbre plus court que L, cet arbre est le meilleur obtenu et devient la nouvelle référence. Quand l'ensemble des chemins a été exploré, tous les arbres de longueur minimale ont été identifiés. Méthodes heuristiques Les méthodes heuristiques sont utilisées lorsque la matrice des données est trop importante pour l'usage d'algorithmes exacts (nombre élevé de taxa et de caractères). Ces méthodes ne garantissent pas la découverte de l'arbre optimal. La méthode générale consiste à construire un arbre initial qui est ensuite réarrangé de manière à diminuer sa longueur. Attractions artéfactuelles de branches Toutes les méthodes sont sujettes à l'artéfact dit d’attraction des branches longues. Cet artéfact provient des inégalités du taux d'évolution des caractères entre les lignées analysées. Les espèces qui évoluent plus vite que les autres pour les caractères utilisés se traduisent dans un arbre par une branche propre plus longue. On a pu montrer théoriquement et expérimentalement qu'au-delà d'un certain écart de vitesse d'évolution entre les espèces, les espèces qui évoluent plus vite ont plus de chance d'avoir des états de caractères communs par hasard que par ascendance commune, et que le nombre de caractères communs ainsi acquis devenait supérieur aux caractères qui auraient dû les séparer. Par conséquent, elles sont regroupées ensemble dans l'arbre indépendamment des parentés. En somme, cet artéfact regroupe les espèces aux taux d’évolution les plus proches. Moins l’arbre contient de branches, et plus il est propice à cet artéfact. Lorsque certaines espèces présentent des branches très longues, elles sont attirées par la branche "naturellement longue" qu’est la branche de l’extra-groupe (l’extra-groupe est l’espèce la plus éloignée de toutes les autres, sorte de référent extérieur nécessaire pour enraciner l’arbre). Certains auteurs ont étudié ce phénomène et l’ont généralisé, concluant que tout empilement successif de branches à la base de l’arbre n’était pas fiable, car probablement dû à un extra-groupe attirant toutes les branches longues du jeu de données. B- La phylogénie moléculaire 4. Les méthodes 4.6 La robustesse de l’arbre Le bootstrap est une procédure permettant d'estimer la robustesse d'une phylogénie. En fait on va tester comment la phylogénie retrouvée est sensible à des augmentations de bruit de fond dans les séquences. Dans la pratique, considérons que nous avons un jeu de séquences avec 1 000 résidus. Dire qu'on va faire n réplications de boostrap implique qu'on va générer n jeu aléatoires de séquences. Pour chaque jeu, on va tirer 1 000 une colonne au hasard afin de générer un jeu de séquences alignées contenant bien 1000 résidus. Dans chaque jeu, certaines colonnes sont donc représentées plusieurs fois, tandis que d'autres ne sont pas présentes. On utilise ces 1 000 jeux de données pour générer 1 000 matrices de distances puis 1000 arbres. On calcule ensuite un arbre consensus de ces 1 000 arbres et on reporte sur chaque branche combien de fois elle a été retrouvée au sein des 1 000 arbres. Seules les branches avec un fort % sont considérées robustes. 5. CONCLUSION L'étude de la phylogénie est un vaste domaine et quelque soit la méthode utilisée, des hypothèses très simplificatrices sont faites sur l'évolution biologique des séquences. Actuellement, pour reconstruire une bonne phylogénie, la qualité et le nombre des données provoquent plus de variations au sein d'un arbre qu'un changement de méthode. Pour construire de bons arbres, il faut : - Avoir le plus grand nombre de gènes homologues possibles - Aligner les séquences très soigneusement -Eliminer les régions ambiguës, les régions hypervariables, les gaps des alignements - Utiliser si possibles plusieurs méthodes de reconstruction, prendre NJ plutôt que UPGMA (le neighborjoining autorise des taux de mutations différents sur les branches) et incorporer des biais dans les taux de mutations / substitutions. - Evaluer l'arbre statistiquement : bootstrapping. Souvent les arbres obtenus sont différents selon le gène considéré. Cela est du à plusieurs causes : - Tous les gènes n'ont pas la même vitesse d'évolution - L'évolution convergente - Les phénomènes de recombinaison - Les transferts de gènes - La confusion gènes paralogues (duplication au sein d'une espèce) / gènes orthologues (même gène dans des espèces différentes): IV- Des bouleversement dans la classification du monde vivant Avant les phylogé phylogénies molé moléculaires On enseignait encore il y a peu que les vertébrés sont constitués de cinq classes : poissons, amphibiens, reptiles, oiseaux, mammifères. . Les oiseaux et les mammifères sont monophylétiques; . Les poissons sont paraphylétiques: 1. parce que les actinoptérygiens (truite) sont plus proches de non-poissons que sont les tétrapodes qu’ils ne le sont des chondrichthyens (actinoptérygiens et tétrapodes sont tous des ostéichthyens) ; 2. parce que les dipneustes sont plus proches des tétrapodes (vache) qu’ils ne le sont des actinoptérygiens . 3. Parce que le coelacanthe est plus proche des tétrapodes qu’il ne l’est de tout autre poisson excepté les dipneustes. . Les amphibiens sont paraphylétiques parce que les fossiles des groupes des anthracosaures et des seymouriamorphes sont plus proches des amniotes qu’ils ne le sont de tout autre amphibien actuel ou fossile. Si l’on exclut les fossiles, les trois groupes d’amphibiens actuels (anoures, urodèles, gymnophiones) constituent bien un groupe monophylétique, les lissamphibiens. . Les reptiles sont paraphylétiques: 1. parce que de nombreuses lignées thérapsides du Permien et du Trias sont plus apparentées aux non-reptiles que sont les mammifères (ce que l’on reconnaissait auparavant sous le terme de “reptiles mammaliens”) ; 2. parce que les crocodiles et de nombreuses lignées de dinosaures sont plus apparentés à des non-reptiles que sont les oiseaux qu’ils ne le sont à des lézards et à des tortues. Avant même l’arrivée des phylogénies moléculaires, on savait que les échinodermes étaient plus apparentés aux chordés qu’aux autres invertébrés (tout en conservant l’usage du nom "invertébrés"). IV- Des bouleversement dans la classification du monde vivant Des changements lié liés aux phylogé phylogénies molé moléculaires . Le monde vivant ne se divise pas en procaryotes et eucaryotes mais en trois super-règnes: - archaebactéries, - eubactéries, - eucaryotes. Le gouffre génétique entre eucaryotes et archaebactéries est aussi large que celui qui sépare eubactéries et eucaryotes. . A la fin des années 1980 eut lieu une polémique sur la paraphylie des archaebactéries, l’arbre du vivant s’enracinant sur les eubactéries. Actuellement, la discussion sur la position de la racine du vivant est encore parfois vive et brasse même des arguments en faveur d’un enracinement eucaryote. Enfin, des amplifications géniques effectuées sur des micro-organismes non identifiés de divers milieux suggèrent des divergences génétiques affolantes. Le monde bactérien ne nous montrerait que la partie émergée de son iceberg génétique : il existerait de nombreuses espèces dont la divergence avec les espèces actuellement connues est comparable aux divergences maximales des espèces connues entre elles. . les séquences homologues 16S mitochondriales et chloroplastiques ne viennent pas se placer dans l’arbre à proximité de la séquence homologue nucléaire de leur hôte eucaryote, mais bien à l’intérieur des eubactéries. Beaucoup voient dans cet arbre la preuve définitive de l’origine endosymbiotique des mitochondries et des chloroplastes. . Les lignées eucaryotes dépourvues de mitochondries comme les microsporidies ne sont plus considérées comme basales (n’ayant pas encore connu l’événement d’endosymbiose), mais au contraire comme des lignées très tardives ayant perdu secondairement leurs mitochondries. . Ces dernières années, plusieurs phylogénies moléculaires indépendantes attestent une parenté champignons-métazoaires à l’exclusion des “végétaux”. Plus exactement, les champignons sont groupe-frère des microsporidies, et le tout est groupe-frère d’un clade composé des choanoflagellés et des métazoaires. Les quatre groupes forment le clade des opisthokontes. Champignons Microsporidies Choanoflagé Choanoflagélés Métazoaï tazoaïres opisthokontes. Le terme d'algues ne recouvre aucune unité historique particulière: algues brunes, rouges et vertes ne sont pas nécessairement apparentées, sans qu’on sache toutefois comment les relier au reste des lignées d’eucaryotes sur la base de caractères dérivés partagés. Il devint vite clair que les algues vertes sont paraphylétiques : de nombreux groupes de petites algues vertes ainsi que les charales étant plus proches des embryophytes que des ulvobiontes. . Au sein du clade des chlorobiontes, les bryophytes, les gymnospermes et les dicotylédones perdront leur unité dès le milieu des années1980. . Les gymnospermes sont paraphylétiques.