Classification phylogénétique du vivant

publicité
Classification phylogénétique du
vivant
Classification cladistique vs
phénétique
phénétique
• Quantification des similitudes
• Ressemblance générale chiffrée => distance
• Particulièrement adapté aux données
moléculaires ou chaque position dans la
séquence correspond à un caractère
Cinq étapes de l’analyse
phylogénétique
• 1. Choix du jeu de données
– Une bonne connaissance des séquences que l’on analyse
– S’assurer de la validité du jeu de donnée (qualité des
séquences et cohérence du JDD)
• 2. Alignement des séquences
– Obtenir un bon alignement
– Tester différents méthodes et revenir à la main sur les
résultats
• 3. Détermination du modèle de substitution
• 4. Construction des arbres
• 5. Evaluation des arbres
Les éléments d’une phylogénie
•
•
•
•
•
Les caractères
Le jeu de données
Les banques
Les alignements
Les arbres
Description et codage des états
• Présence absence : +/-; 0/1; a/b
• Etats multiples :
– Les 20 acides aminés
– Les 4 nucléotides A,T,C,G
– Nb de répétitions en tandem (microsatellites)
– Morphologie (a, b, c, d, ..)
Morphologie vs. Données moléculaires
• Les vautours du vieux et du
nouveau monde semblent être
étroitement liés sur la base de
leur morphologie
• Les données moléculaires
indiquent que les vautours du
vieux monde sont liées à des
oiseaux de proie (faucons,
éperviers, etc), tandis que les
vautours du Nouveau Monde
sont plus étroitement liés à
des cigognes
• C’est un exemple de
convergence évolutive
Le jeu de données
• Au début les modes de classifications des espèces étaient:
– Les comparaisons morphologiques
– Les comparaisons comportementales
– Les répartitions géographiques
• Aujourd’hui les phylogénies sont obtenues à partir:
– des séquences moléculaires (phylogénie moléculaire) : ADN,
ARN, Protéines, Codons
– des caractères discrets (présence, absence, 0, 1)
– des fréquences des gènes
– des traits quantitatifs
– des sites de restriction, RFLP
– des microsatellites, SNP
Données moléculaires
• Les séquences d’ADN présentent beaucoup d’avantages
face aux caractères de taxonomie morphologiques:
– L’état des caractères peut être déterminé sans ambiguïté
– Un grand nombre de caractère peuvent être pris en
compte pour chaque individu
• Inconvénients:
– Peu d’états donc possibilité de mutations silencieuses
(homoplasie)
– Arbre de gène vs Arbre de génome (cad arbre de espèces)
– Alignements de qualité difficile à obtenir
Choix du marqueur
•
•
il faut choisir le marqueur moléculaire approprié au groupe taxonomique étudié.
Critères du choix d'un marqueur:
–
–
–
–
–
•
universalité
structure conservée
absence de transfert génétique
taux d’évolution approprié
absence de biais sélectif
Quelques exemples:
– phylogénie de bactéries (16S rDNA)
– phylogénie d’eucaryotes (18S rDNA, actine, EF1, RPB1 (RNA polymerase))
– phylogénie de plantes (rbcL(ribulose carboxylase),18S rDNA)
•
Phylogénie d’animaux
–
–
–
–
niveau phylum, classe, ordre : (18S rDNA, génome mt)
niveau famille : (RAG2 (recombination activating gene 2), 12S, 16S mt)
niveau genre : (ITS, protéines mt)
niveau intra-spécifique : (D-Loop, introns)
• Eviter les séquences
incomplètes
• Eviter les xénologues
(transfert latéraux)
• Eviter les séquences
recombinantes (2 ancêtres)
• Eviter les grandes familles
complexes (répétitions et
nombres de domaines
importants)
• Ajouter un groupe externe
(outgroup)
• ADN ou protéines ?
• Quand cela est possible
travailler préférentiellement
avec des alignement de
protéines en particulier
lorsque les séquences
d’ADN diffèrent de plus
70%.
• Si les séquences protéiques
sont trop proches revenir à
l’ADN.
Banques de données
Alignement
• L’alignement est une étape cruciale qui permet de
choisir les sites qui seront utilisés dans les analyses
phylogénétiques.
• But : S’assurer que chacun des sites choisis est
homologue
• Pour s’assurer de l’homologie d’un site:
– la structure primaire des séquences (ordre des
nucléotides)
– la structure secondaire des séquences (gènes
ribosomiques)
– la séquence en acides aminés (gènes codant pour des
protéines)
• Les résidus (nucléotides, acides-aminés) sont
superposés de façon à maximiser la similarité entre les
séquences.
• Mutations :
–
–
–
–
Substitution (mismatch)
Insertion
Délétion
Insertions ou délétions : indels(gap)
• Pour le biologiste,
généralement, le bon
alignement est celui qui
représente le scénario
évolutif le plus probable
•
•
•
•
•
Exemple:
identité = 1
mismatch= 0
gap = -1
Score = 10 - 4 = 6
Transition vs transversion
• Transition: A <-> G |
T<-> C
• Transversions : autres
substitutions
• p(transition) >
p(transversion)
• Code génétique
– Asp (GAC, GAU)↔Tyr (UAC, UAU) : 1 mutation
– Asp(GAC, GAU)↔Cys(UGC, UGU) : 2 mutations
– Asp(GAC, GAU)↔Trp(UGG) : 3 mutations
• Propriétés physico-chimiques des acidesaminés (acidité, hydrophobicité,
encombrement stérique, etc.)
Les arbres
• Les méthodes cladistiques et phénétique construisent un arbre
(dendrogramme)
• Cladogramme - un dendrogramme exprimant les relations phylogénétiques
entre taxa et construit à partir de l'analyse cladistique;
• phénogramme- un dendrogramme obtenu par méthodes de distance où
les relations entre taxa expriment des degrés de similitude globale;
• phylogramme- un dendrogramme dont la longueur des branches est
proportionnelle au nombre de changements évolutifs
• Il existe 3 approches :
– L'approche cladistique cherche en particulier à déterminer
les caractères propres à une branche, qui « signent » un
apparentement.
– L'approche phénétique, une classification basée
uniquement sur des mesures de distance entre taxons
(évaluées par exemple en comptant les différences de
séquences d'ADN) sans chercher à faire une interprétation
phylogénétique.
– L’approche probabiliste qui construit des arbres
phylogénétiques en utilisant des modèles d’évolution des
caractères (le plus souvent moléculaires, mais pas
obligatoirement).
Phénétique vs cladistique
• L'approche phénétique
(taxonomie numérique) se veut
complètement objective. C'est
une approche très quantitative
dans laquelle tous les traits (qu'ils
soient homologues ou non) sont
traités également.
• Cette méthode se révèle peu
pertinente lorsqu'on l'applique
aux caractères morphologiques
en raison des analogies :
convergence évolutives.
• Elle s’applique préférentiellement
sur des caractères moléculaires
où le nombre de caractères pris
en compte est important
• La cladistique hiérarchise les
caractères comparés.
• Ne sont en fait regroupés dans un
même taxon que les êtres vivants
qui partagent des caractères
homologues: partage d’une
ascendance commune.
• Les homologies sont en fait vues
comme des innovations
évolutives partagées :
synapomorphies
Méthodologie
Choix de la méthode d’analyse
phylogénétique
Méthode de maximum de parcimonie
• Hypothèses de base
– Les séquences en présence ont évolué à partir d'une
séquence ancestrale commune grâce à un processus de
mutation-sélection.
– Les différents sites (site=position occupée par un acide
aminé ou une base) de la séquence évoluent
indépendamment les uns des autres : la séquence peut
être considérée comme une suite de caractères non
ordonnés.
– Les lignées se différencient les unes des autres d'une façon
autonome.
– La vitesse d'évolution est lente et constante au cours du
temps
• Cette méthode :
– ne prend en considération
que les sites informatifs.
– ne fait pas de corrections
pour les substitutions
multiples.
– ne donne aucune
information sur la longueur
des branches.
– est connue pour être très
sensible au biais des
codons
• Méthode
– Reconstruire les
événements évolutifs pour
une phylogénie donnée
– Chercher parmi toutes les
phylogénies possibles celle
qui minimise le nombre
d’événements évolutifs
homoplasie
• Homoplasie = se dit de sites présentant des
états moléculaires identiques résultant
d’événements évolutifs différents, tel que des
évènements de convergence ou de réversion
• => La présence d’homoplasie conduit à sousestimer le nombre total de mutations s’étant
produites au cours du temps
Tester les arbres
• Te s t e r l e s a r b r e s => tester la robustesse
des nœuds => évaluer le rapport entre
homoplasie et homologie
• Calcul de l’indice de cohérence
• Pb : il faut tester tous
les arbres et les évalués
un par un
• Le nombre d’arbre
augmente de manière
exponentielle lorsque
l’on ajoute des taxons…
• 10 taxons => 2 millions
d’arbres ..
Méthode recherche arbre plus
parcimonieux
• Exhaustive
– on obtient un score pour chaque arbre possible. On
est sûr de trouver le meilleur arbre. Pratique
seulement pour des petits jeux de données (<10 taxa).
• Heuristique
– on utilise des algorithmes pour parcourir l’ensemble
de l’espace des arbres mais pas chaque arbre
• Stochastique
– recherche aléatoire dans l’espace des arbres.
Algorithmes comme le simulated annealing ou les
algorithmes génetiques
Approche heuristique
• Principe : Partir d’un arbre initial
• Petits réarrangements de branches successifs
=> Exploration des arbres voisins
• Si un des voisins est «meilleur» on le conserve
• On répète cette opération jusqu’à ce qu’on
trouve un arbre pour lequel aucun
réarrangement ne donne de meilleur arbre
Distances évolutives
• La notion de distance découle naturellement de
celle de similitude :
• Plus la similitude entre deux séquences est forte,
plus la distance entre elles δ est faible
• Elles reflètent la quantité d’évolution survenue
pendant un temps
• Elles ne sont pas une simple fonction de temps
• ex: deux séquences qui sont issues d’un groupe
frère dans une phylogénie sont séparées par le
même intervalle de temps t, mais peuvent avoir
subit une quantité d’évolution différente
• De façon basique, les séquences d’ADN ne sont
pas très informatives sur l’histoire évolutive.
• Pour chaque site, le nombre maximal de
différences est 1.
• Il existe seulement 4 états. Donc, si il y a plus
d’une substitution, nous perdons la substitution
passée.
• Les substitutions multiples cachent l’histoire
évolutive entre les séquences.
Distances évolutives
Méthodes de distance
•
Principe
–
•
Données initiales
–
–
•
La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution
moléculaire sous-jacente (l'histoire) aux phénotypes observés.
Matrice de distances entre séquences prises deux à deux
Compression de l'information en une seule valeur (=distance) : tous les sites sont traités de manière équivalente (perte
d'information).
Hypothèses de base
–
–
Les distances ont été mesurées indépendamment.
Les distances s'additionnent.
•
•
Méthode
Ces programmes procèdent par regroupement successifs (clusterisation),depuis la paire des séquences les plus
proches aux plus éloignées.
•
Résultat
–
•
Un seul arbre sans racine
Avantages-Inconvénients
–
Ces méthodes sont rapides et donnent de bons résultats pour des séquences proches. Mais les sites sont traités de manière
équivalente : ces méthodes ne sont pas applicables aux séquences très divergentes
Méthode UPGMA
• UPGMA (Unweight Pair Group Method with
Arithmetic mean)
• C’est un algorithme itératif de clustering, à
chaque étape on crée un nouveau cluster
regroupant deux clusters proches et on rajoute
un nœud à l’arbre.
• Les branches évoluent à la même vitesse (taux de
mutation identiques sur les différentes branches
(lignée))
• => hypothèse d’une horloge moléculaire
Ex de matrice
=Connecter phoque et
otarie dans l’arbre
=> D phoque-noeud= D
• otarie-nœud = D
• phoque-otarie/2=24/2
=12
• Calculer la distance entre
le nouveau groupe (ij) et
tous les autres groupes
en utilisant
• Dij,k= ni x Dik/ (ni+ nj) +
nj x Djk/ (ni+ nj)
• Calcul de la distance entre
le nouveau groupe
phoque-otarie et tous les
autres groupes
• Pour le chien :
• (50x1 + 48x1)/(1+1) = 49
• Étape similiaire pour
proposer un nouveau
regroupement…
BILAN UPGMA
• Méthode extrêmement simple de reconstruire
des arbres phylogénétiques
• Est très critiquée dans la littérature en phylogénie
à cause de l’hypothèse de l’égalité des taux
d’évolution entre les lignées.
• N’est presque plus utilisée
• Peut être réaliste si on étudie des espèces très
proches
• Donne des résultats faux si les distances de la
matrice n’obéissent pas au critère d’horloge
moléculaire
Méthode NJ
• NEIGHBOR-JOINING (Saitou et Nei, 1987 )
• Cette méthode tente de corriger la méthode
UPGMA afin d'autoriser un taux de mutation
différent sur les branches
• Pour cela, la matrice de distances est corrigée
afin de prendre en compte la divergence
moyenne de chacune des séquences avec les
autres.
Méthode maximum de vraissemblance
Méthode maximum de vraissemblance
• Idée de base
– Introduit par Edwards et Cavalli-Sforza (1964) pour des données de
fréquences de gènes •
– Application à des données moléculaires par Neyman (1971)
– Élargissement par Kashyap et Subas (1974) et Felsenstein (1981)
– Étant donné un modèle d’évolution, on peut estimer une phylogénie
avec des méthodes statistiques comme le maximum de vraisemblance
(ou des méthodes bayesiennes).
• La vraisemblance d'un arbre estime la probabilité d’observer des
données
• (séquences + modèle de l'évolution) selon l'hypothèse qu'il véhicule
(topologie + longueurs des branches).
• On choisit l’arbre qui maximise la vraisemblance (qui a la plus forte
probabilité d’avoir conduit aux données
Intérêts des différentes méthodes
Distance
• •Méthode très rapide
• •Correction des distances possibles selon les modèles d’évolution
• Avec corrections peut être proche de la performance de MV
Parcimonie
• Utilisée avec données morphologiques et fossiles
• Principe plus simple et critère à fondement biologique
• Peut converger avec MV si les données ne sont pas trop
• divergentes
Maximum de vraisemblance
• Méthode flexible, robuste et consistante
• Tient compte de la complexité du processus évolutif
• Tient compte de la longueur des branches pour estimer la vraisemblance
Distance
• Sous estime les substitutions et la longueur des branches
• Problème d’attraction des branches longues et courtes
• Perte d’information dans les distances
Parcimonie
• Sous estime les substitutions et la longueur des branches
• Pas basée sur un modèle d’évolution
• Problème d’attraction des branches longues et courtes
• Utilise seulement les sites informatifs
• Très affectée par les convergences et réversions des caractères
Maximum de vraisemblance
• Méthode coûteuse (lente)
• Dépendant du bon choix de modèle d’évolution
• Peut tomber dans des régions de maxima locaux
Téléchargement