Reconstruction phylogénét. - Fondation Sciences Mathématiques de

publicité
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Prédire le Passé :
Évolution, Hasard et Mathématiques
Amaury Lambert
Journée “Mathématiques en Mouvement”, 5 juin 2013
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Plan
1 La modélisation probabiliste de l’Évolution
2 Le paradigme neutraliste
3 Génétique des populations
4 La reconstruction phylogénétique
5 Les processus de diversification des espèces
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
SMILE : un groupe interdisciplinaire au CIRB
• CIRB = Centre Interdisciplinaire de
Recherche en Biologie (Collège de
France)
• SMILE = Stochastic Models for the
Inference of Life Evolution
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Comprendre les grands patrons de la biodiversité
• Pourquoi y a-t-il tant d’espèces sous les
tropiques ?
• Pourquoi y a-t-il si peu d’espèces dans les
océans ?
• Pourquoi y a-t-il des groupes taxonomiques
tellement plus riches que d’autres ?
• Mais surtout : retrouver les processus qui
ont généré ces patrons
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Modélisation probabiliste de l’Évolution (1)
Pour quoi faire ?
• Les processus évolutifs ne peuvent pas être
répliqués
• Seul leur résultat est connu
• La modélisation probabiliste aide à
• identifier quelles caractéristiques des données
observées auraient pu survenir par chance et
lesquelles requièrent une explication biologique
• décider si un processus donné en comparaison
avec un autre est responsable des données
observées (sélection de modèle, estimation de
paramètres).
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
L’expression « taux » en probabilités
Dire que des événements arrivent à taux θ , c’est dire que...
t 6 A3
?
6
A2
?
6
A1
0 ?
• En tout temps s,
P(Un événement dans l’intervalle [s, s + h]) = θ h + o(h)
• Les temps inter-événements A1 , A2 , A3 , . . . sont
indépendants, de loi exponentielle de paramètre θ
• Nb d’événements durant [0, t] ∼ Poisson de paramètre θ t
• En particulier E(Nb d’événements durant [0, t]) = θ t.
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Plan
1 La modélisation probabiliste de l’Évolution
2 Le paradigme neutraliste
3 Génétique des populations
4 La reconstruction phylogénétique
5 Les processus de diversification des espèces
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Le paradigme neutraliste
Un cadre de référence à falsifier
• Théorie neutraliste de l’évolution moléculaire (Kimura 1983) : à
l’échelle moléculaire, la cause principale de variabilité est la
fixation de mutants sélectivement neutres
• mutants avantageux fixés rapidement et mutants délétères purgés
rapidement
• action lente de la dérive génétique
• Avatar en écologie : théorie neutraliste de la biodiversité
(Hubbell 2001)
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
La redondance du code génétique
Un exemple d’évolution neutre
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Hypothèses classiques typiques
• Échelle moléculaire : les séquences évoluent de manière neutre
• Échelle populationnelle : les individus sont échangeables (et les
populations sont de taille constante)
• Échelle spécifique : les espèces sont échangeables (et diversifient
indépendamment)
• Compromis réalisme vs simplicité/parcimonie ? Mais existence
d’objets limites universels...
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Plan
1 La modélisation probabiliste de l’Évolution
2 Le paradigme neutraliste
3 Génétique des populations
4 La reconstruction phylogénétique
5 Les processus de diversification des espèces
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Le modèle de Cannings
• Population asexuée de taille fixe N
• Les nombres de descendants (X1 , . . . , XN ) à chaque génération
sont échangeables
• Exemple du processus de Wright–Fisher : “Chaque individu de la
génération t + 1 choisit indépendamment sa mère et uniformément
dans la génération t (avec remise)”.
6
5
4
3
2
1
r
r
r
ra
r
!r
aar
!! r
!
!
r ! r ##
r
r
!!aaar
#
r
r!
r
r
aa r
!!r
a
!
r
r
r
r
r
!a
!! r
!
r ! rca
r
r
!
a
!r
aa
c
cr
r
r
r
ar!! r
r
r
r
r
r
r
r
!r !!r
r !!ra
r
!
!
r !!r aar
!
!
r ! r
r
ra
r
!r
r aa!
r ! r
0
6
7
1
2
3
4
5
8
9
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Objet limite : généalogie d’un échantillon
Random genealogy :
total population and sample
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Objet limite : généalogie d’un échantillon
• Population asexuée de taille constante N
• Échantillon de n individus dans cette population
• Généalogie de cet échantillon il y a Nt unités de temps
• Objet limite N → ∞ : coalescent de Kingman (Kingman 1982)
où le temps d’attente T(k) de k à k − 1 lignées est exponentiel de
paramètre k(k − 1)/2.
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Objet limite : généalogie avec mutations
• Population de taille constante N
• Mutations à la naissance avec probabilité ∼ θ /N
• Objet limite N → ∞ : coalescent de Kingman avec mutations à
taux θ
• Nombre d’haplotypes An , de sites polymorphes Sn dans un
n-échantillon ? (Ewens 1972)
• Si les données s’écartent trop des prédictions : présence de
sélection ?
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Un arbre avec mutations poissoniennes
Les sites a and g ne sont pas polymorphiques.
Sites polymorphiques : Sn = ? Haplotypes distincts : An = ?
7
0
3
5
6
8
1
2
4
gc
gc gch gche gch gch gbf gbfd gbfd
se
sd
sf
sh
sc
sg
Haplotype of individual 3
Haplotype of individual 6
sb
a b c d e f g h
a b c d e f g h
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Ewens’ Sampling Formula
Pour le coalescent de Kingman d’un échantillon de taille n, avec taux
de mutation θ , lorsque n → ∞,
Sn ∼ θ ln(n) et An ∼ θ ln(n),
p
avec taux de convergence ln(n). De plus,
P
lim Sn (k) =
n→∞
θ
k
et
L
lim An (k) = Yk ,
n→∞
où Yk désigne une variable de Poisson de paramètre θ /k.
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Plan
1 La modélisation probabiliste de l’Évolution
2 Le paradigme neutraliste
3 Génétique des populations
4 La reconstruction phylogénétique
5 Les processus de diversification des espèces
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Séquences homologues
Retrouver l’arbre à partir de l’alignement
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Horloge moléculaire : modèles
• Modèle de Jukes–Cantor :
α = taux de substitution par nucléotide, par exemple
P(A → G entre t et t + dt ) = α dt
• taux de substitution par site θ = 3α
• Modèle de Kimura :
α = taux de subst d’une purine par une purine (A,G) ou d’une
pyrimidine par une pyrimidine (C,T) = transition,
β = taux de subst d’une purine par une pyrimidine ou vice versa
= transversion, par exemple
P(A → G entre t et t + dt ) = α dt
P(A → T entre t et t + dt ) = β dt
• taux de substitution θ = α + 2β
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Distance entre deux séquences
• T = temps de divergence entre 2 séq
• distance entre 2 séquences k = 2θ T
• p(t) = probabilité d’observer une
substitution en t unités de temps
ṗ(t) = −4αp(t)+3α =⇒ p(t) =
3
1 − e−4αt
4
• Datation des divergences à partir de
p̂ = proportion de différences observées
k = −(3/4) ln (1 − 4p̂/3) .
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Plan
1 La modélisation probabiliste de l’Évolution
2 Le paradigme neutraliste
3 Génétique des populations
4 La reconstruction phylogénétique
5 Les processus de diversification des espèces
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Inférence par les phylogénies
• Une fois l’arbre phylogénétique reconstruit d’après alignement
• Nous cherchons à inférer les processus de diversification qui
l’ont généré
• En calculant la probabilité de la phylogénie sous certains
modèles
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Modèle général d’arbre phylogénétique
Ici t = temps, a = âge, i = type
• les espèces se comportent
t6
indépendamment
• les espèces ont des types
• taux d’extinction d = d(t, a, i)
• taux de spéciation b = b(t)
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Résultat mathématique
T
0
c
1
c
2
3
H3
H1
?
c
c
H4
?
c4
0c
1c
H4
?
H2
?
?
3c
H3
H1
?
H2
2c
?
?
L’arbre reconstruit vu de T est un processus de coalescence ponctuel
= les temps de coalescence H1 , H2 , . . . forment une suite de variables
aléatoires indépendantes et de même loi, arrêtée à sa première valeur
supérieure à T.
4c
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Processus ponctuel de coalescence
6
1
T
3
2
5
4
6
H4
H1
H3
H6
?
H2
?
?
?
H5
?
?
⇒ Probabilité de l’arbre recontruit avec temps de coalescences (ti )
n−1
L(t1 , . . . , tn−1 ; T) = F(T) ∏ fT (ti ),
i=1
où fT (·) = densité de probabilité commune de ces temps.
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Morlon et al, PNAS 2012 (1)
• Taux paramétrés par des exponentielles en fonction du temps
• Les 4 familles de cétacés les + riches (Balaenopteridae,
Phoconidae, Ziphiidae, Delphinidae) = 61/87 espèces, sont
toutes en expansion
• Ces familles masquent le signal des extinctions de cétacés
(fossiles)
• En permettant aux taux d’être taxon-spécifiques, Morlon et al ont
inféré
• hausse de la diversité des autres cétacés −10-25 Ma
• pic à plus de 140 espèces −10 Ma
• chute brutale aux 16 espèces existantes
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Morlon et al, PNAS 2012 (2)
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Div. des espèces
Stadler, PNAS 2012 (1)
• Taux constants par morceaux
• Pas plus de diversif pendant les périodes plus chaudes : −53-51
Ma (début Éocène) et −17-14 Ma (milieu Miocène)
• Pic de diversif −30-33 Ma, après refroidissement de la Terre
(glaciation Antarctique, expansion des prairies)
• Changement de taux le plus significatif −3.3 Ma, haute activité
tectonique = moins de diversification
• Comparer avec Morlon et al : pic div pour les cétacés −8 Ma
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Stadler, PNAS 2012 (2)
Div. des espèces
Introduction
Hypothèses
Génétique des pops
Reconstruction phylogénét.
Remerciements
• Stochastic Models for the Inference of Life Evolution (SMILE)
⊂ Center for Interdisciplinary Research in Biology
⊂ Collège de France
• Stochastics & Biology group
⊂ Laboratoire de Probabilités et Modèles Aléatoires
⊂ UPMC University Paris 06
• ANR Modèles Aléatoires eN Écologie, Génétique, Évolution (MANEGE)
Div. des espèces
Téléchargement