TP8_Phylogénie_moléculaire

publicité
PHYLOGÉNIE MOLÉCULAIRE
Dr Lilia Romdhane
[email protected]
Faculté des Sciences de Bizerte
OBJECTIFS
Concepts et notions de bases de phylogénie
moléculaire
 Les méthodes de reconstruction des arbres
phylogénétiques
 Initiation à l’utilisation de logiciels bioinformatiques
en phylogénie

PHYLOGÉNIE - PHYLOGENÈSE

Définition:


L’histoire de la formation et de l’évolution d’une
espèce, d’un phylum (série évolutive des formes
animales dérivant d’un ancêtre commun)
Du grec:


Phûlon = tribus
Genesis = origine
LA CLASSIFICATION SUR RECHERCHE DE
PARENTÉ: HAECKEL (1834 – 1919)
PHYLOGÉNIE –GÉNÉALOGIE
Est-ce que l’arbre généalogique de la famille Black est
un arbre phylogénétique ?
PHYLOGÉNIE –GÉNÉALOGIE
LA CLASSIFICATION DU VIVANT

La classification des espèces se fait par différents
systèmes:
pratique (plantes médicinales, comestibles, …)
 alphabétique (peu utile )
 niveaux hiérarchiques (Linné, fixisme)
 Phylogénétique (Darwin, Hennig, recherche de parenté
suivant l’histoire évolutive des organismes sur Terre)


Pas d’accès au « registre d’état civil » pour identifier les
ancêtres individuellement. La phylogénie utilise des
données actuelles sur les organismes vivants pour
retracer l’histoire évolutive des organismes.
LA PARENTÉ
LA PARENTÉ
GROUPE MONOPHYLÉTIQUE =CLADE
UN PEU DE VOCABULAIRE…
Nœud
Branche
terminale
Groupe
monophylétique
Branche
interne
Racine
Feuille
UN PEU DE VOCABULAIRE…
Taxon: élément de taxonomie
 C’est un groupe d’organismes traité comme une seule
unité

UN PEU DE VOCABULAIRE…

Un arbre phylogénétique est caractérisé par:
sa topologie
 la longueur de ses branches (éventuellement)





Nœud: estimation de l’ancêtre commun des éléments
appartenant à ce nœud
Racine (root): ancêtre commun de tous les éléments de l’arbre
Un arbre peut avoir ou non une racine
COMMENT LIRE UN ARBRE ?

La lecture de l’arbre se fait depuis sa racine vers
les branches terminales
COMMENT LIRE UN ARBRE ?
TYPES D’ARBRES
NOTIONS DE BASE: RACINE
NOTION DE BASE: ORDRE DES BRANCHES
SUR QUELLE BASE ÉTABLIR LES RELATIONS DE
PARENTÉ ?
Intuitivement: les organismes apparentés se
ressemblent
 Ressemblances fondamentales: homologues
 On codifie la ressemblance sous la forme de caractères

CARACTÈRE
LA PHYLOGÉNIE MOLÉCULAIRE

Définition:


La phylogénie moléculaire est la discipline ayant pour
objectif la reconstruction de l’histoire évolutive des espèces
par comparaison des séquences de leurs gènes ou leurs
protéines
Données:

Un ensemble d’organismes (taxa) et pour chacun un
ensemble de données moléculaires (séquences par
exemple)
LA PHYLOGÉNIE MOLÉCULAIRE
(DONNÉES)
EVOLUTION DES CARACTÈRES MOLÉCULAIRES
EVOLUTION DES CARACTÈRES
MOLÉCULAIRES : ORTHOLOGIE
Définition: gènes présents dans
des organismes différents ayant
évolués à partir d’un même
gène ancestral suite à des
événements de spéciation
Etude des relations de parentés
entre les taxons
24
EVOLUTION DES CARACTÈRES
MOLÉCULAIRES : PARALOGIE
Définition:
gènes
issus d’événements de
duplication au sein
d’un génome.
25
EVOLUTION DES CARACTÈRES MOLÉCULAIRES :
ORTHOLOGIE ET PARALOGUES
26
EVOLUTION DES CARACTÈRES
MOLÉCULAIRES: XÉNOLOGIE
Définition: gènes ayant été
acquis par transfert horizontal
Transfert du gène A d’un
ancêtre de 2 vers un ancêtre
de A
27
LA PHYLOGÉNIE MOLÉCULAIRE, POURQUOI
FAIRE ?
Retracer l’histoire de famille de gènes
 Reconstruire les relations évolutives entre espèces



Exemple: l’arbre du vivant
Classer une nouvelle espèce:

Exemple: souche virale
LA PHYLOGÉNIE MOLÉCULAIRE
(COMMENT FAIRE ?)
• 1. Récupération des séquences homologues (nucléique
ou protéique) dans les banques de données (Swiss-Prot,
GenBank, HomoloGene….)
• 2. Alignement correcte des séquences (ClustalW)
• 3. Vérification manuelle de l’alignement et élimination
des régions où l’homologie des positions n’est pas sure
• 4. Appliquer une méthode de génération de l’arbre:
Construction de la phylogénie
• 5. Evaluer statistiquement la robustesse des arbres
• 6. Interprétation
identification des orthologues,
29
homologues, xénologues, pour faire des hypothèses sur
l’évolution des gènes
MÉTHODES DE CONSTRUCTION D’ARBRES

Méthodes basées sur les distances






Calcul des distances entre paires de séquences
 matrice de distances
Regroupement des séquences
Exemples: UPGMA, Neighbor-Joining
Facile, rapide
Méthodes basées sur les séquences:
Chacune des positions des séquences est considérée comme un
caractère.
 Exemples: Parcimonie (maximum parsimony), maximum de
vraissemblance (maximum likelihood)
  temps de calcul très long

CALCUL DES DISTANCES

Distance observée: nombre moyen de substitutions par
site
CALCUL DES DISTANCES
● L’ensemble des différences observées entre 2 séquences:
● - Substitution d’un nucléotide par un autre dans des
séquences d’ADN ou d’ARN
● - Remplacement d’un acide aminé par un autre dans une
séquence protéique
● La distance sera d’autant plus faible si les séquences
sont proches (se ressemblent)
● La distance sera d’autant plus grande que les séquences
sont éloignées (différentes)
CORRECTION DES DISTANCES
CORRECTION DES DISTANCES

Modèle de Jukes-Cantor (JC)
Les 4 bases ont la même fréquence
 Transversions et transitions sont équiprobables


Modèle de Kimura à 2 paramètres (K2P)
Les 4 bases ont la même fréquence
 Transversions et transitions ont un taux différent


Modèle de Tamura-Nei
Prise en compte de la fréquence des 4 bases
 α1 taux de transition entre purines, α2 taux de transition entre
pyrimidine, ß taux de transversion

UPGMA: UNWEIGHT PAIR GROUP METHOD
WITH ARITHMETIC MEAN
• UPGMA: est le plus simple des algorithmes de clustering
•Méthode pour reconstruction des arbres avec des séquences pas trop
divergents
• Algorithme de clusterisation séquentiel: les relations sont identifiées
dans l’ordre de similarité et la reconstruction de l’arbre se fait pas à pas
grâce à cet ordre
• Hypothèse: le taux de mutation est le même dans toutes les lignées:
horloge moléculaire:
• L’horloge moléculaire: est une hypothèse selon laquelle les mutations
génétiques s'accumulent dans un génome à une vitesse constante. Elle
permet ainsi théoriquement, en reliant le taux de mutation des gènes
au rythme de diversification de leur espèce, d'établir une échelle
d'ordonnancement, voire chronologique, d'évolution et de lien des 35
espèces entre elles.
UPGMA: UNWEIGHT PAIR GROUP METHOD WITH
ARITHMETIC MEAN
Arbre raciné avec les longueurs des branches allant de la
racine à n’importe quelle feuille sont égales
 Méthode:

Regroupement des 2 séquences les plus proches
 Le nœud est positionné à la distance d de chacune des
séquences



Calcul de la distance entre le nouveau groupe et les autres
séquences:
etc….
UPGMA
Considérons la matrice de distance:
A
• Regroupement des séquences les
plus proches (ici AB = 2)
• Recalcul de la matrice avec
nouvelle entité remplaçant les 2
séquences
regroupées.
Les
nouvelles distance se calculent par
la moyenne (ici moy(Ax, Bx))
B
C
D
B
2
C
4
4
D
6
6
6
E
6
6
6
4
F
8
8
8
8
E
8
Calcul d’une nouvelle matrice de distance et construction d’un sous
arbre:
1
A
B
1
37
UPGMA
Nouvelle matrice de distance:
A
B
C
D
dist(A,B),C = (distAC + distBC)/2 = (4+4)/2 =4
B
2
dist(A,B),D = (distAD + distBD)/2 =(6+6)/2= 6
C
4
4
dist(A,B),E = (distAE + distBE)/2 =(6+6)/2= 6
D
6
6
6
dist(A,B),F = (distAF + distBF)/2 =(8+8)/2= 8
E
6
6
6
4
F
8
8
8
8
AB C
D
C
4
D
6
6
E
6
6
4
F
8
8
8
E
8
E
2
E
D
8
2
38
AB
C
DE
1
1
A
B
1
C
4
DE
6
6
F
8
8
2
8
1
1
A
B
1
ABC
C
1
DE
C
2
DE
F
6
8
2
8
E
1
D
2
39
1
1
ABCDE
B
1
F
A
1
8
1
C
2
2
E
1
D
2
F
4
40
EVALUER LA FIABILITÉ D’UN ARBRE

But:


Estimer par une méthode statistique la fiabilité de la topologie
de l’arbre
Exemple: Méthode du boostrap

On construit n pseudo-alignements par échantillonnage
aléatoire des colonnes de l’alignement initial:
chaque colonne de l’alignement initial peut être utilisée 0, 1, ou
plusieurs fois
 les pseudo-alignements ont la même longueur que l’alignement initial
 le nombre de pseudo-alignements doit être suffisamment élevé pour que
le test soit significatif (n>= nombre de colonnes)
 Pour chaque pseudo-alignement, on construit un arbre
 Pour chaque branche de l’arbre initial, on indique le nombre de fois où
cette banche a été retrouvé dans les n arbres.

EVALUER LA FIABILITÉ D’UN ARBRE
LES LIMITES DE LA PHYLOGÉNIE

Une phylogénie est une hypothèse sur:
les relations de parenté entre espèces
 les divergences et les duplications


et éventuellement sur:
la direction des changements entre espèces (arbre
enraciné)
 les états ancestraux
 le taux d’évolution

LES LIMITES DE LA PHYLOGÉNIE
MOLÉCULAIRE

Aucun algorithme n’est parfait
Il n’est jamais certain que l’arbre obtenu soit l’arbre
réel !
 Les mêmes données peuvent aboutir à des arbres
différents suivant l’algorithme utilisé


L’histoire évolutive des gènes n’est pas toujours
transposable aux espèces
Tous les gènes n’évoluent pas à la même vitesse
(pressions de sélection différentes)
 Transferts horizontaux
 Paralogie

QUELQUES LOGICIELS
Téléchargement