Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Prédire le Passé : Évolution, Hasard et Mathématiques Amaury Lambert Journée “Mathématiques en Mouvement”, 5 juin 2013 Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Plan 1 La modélisation probabiliste de l’Évolution 2 Le paradigme neutraliste 3 Génétique des populations 4 La reconstruction phylogénétique 5 Les processus de diversification des espèces Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces SMILE : un groupe interdisciplinaire au CIRB • CIRB = Centre Interdisciplinaire de Recherche en Biologie (Collège de France) • SMILE = Stochastic Models for the Inference of Life Evolution Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Comprendre les grands patrons de la biodiversité • Pourquoi y a-t-il tant d’espèces sous les tropiques ? • Pourquoi y a-t-il si peu d’espèces dans les océans ? • Pourquoi y a-t-il des groupes taxonomiques tellement plus riches que d’autres ? • Mais surtout : retrouver les processus qui ont généré ces patrons Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Modélisation probabiliste de l’Évolution (1) Pour quoi faire ? • Les processus évolutifs ne peuvent pas être répliqués • Seul leur résultat est connu • La modélisation probabiliste aide à • identifier quelles caractéristiques des données observées auraient pu survenir par chance et lesquelles requièrent une explication biologique • décider si un processus donné en comparaison avec un autre est responsable des données observées (sélection de modèle, estimation de paramètres). Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces L’expression « taux » en probabilités Dire que des événements arrivent à taux θ , c’est dire que... t 6 A3 ? 6 A2 ? 6 A1 0 ? • En tout temps s, P(Un événement dans l’intervalle [s, s + h]) = θ h + o(h) • Les temps inter-événements A1 , A2 , A3 , . . . sont indépendants, de loi exponentielle de paramètre θ • Nb d’événements durant [0, t] ∼ Poisson de paramètre θ t • En particulier E(Nb d’événements durant [0, t]) = θ t. Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Plan 1 La modélisation probabiliste de l’Évolution 2 Le paradigme neutraliste 3 Génétique des populations 4 La reconstruction phylogénétique 5 Les processus de diversification des espèces Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Le paradigme neutraliste Un cadre de référence à falsifier • Théorie neutraliste de l’évolution moléculaire (Kimura 1983) : à l’échelle moléculaire, la cause principale de variabilité est la fixation de mutants sélectivement neutres • mutants avantageux fixés rapidement et mutants délétères purgés rapidement • action lente de la dérive génétique • Avatar en écologie : théorie neutraliste de la biodiversité (Hubbell 2001) Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces La redondance du code génétique Un exemple d’évolution neutre Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Hypothèses classiques typiques • Échelle moléculaire : les séquences évoluent de manière neutre • Échelle populationnelle : les individus sont échangeables (et les populations sont de taille constante) • Échelle spécifique : les espèces sont échangeables (et diversifient indépendamment) • Compromis réalisme vs simplicité/parcimonie ? Mais existence d’objets limites universels... Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Plan 1 La modélisation probabiliste de l’Évolution 2 Le paradigme neutraliste 3 Génétique des populations 4 La reconstruction phylogénétique 5 Les processus de diversification des espèces Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Le modèle de Cannings • Population asexuée de taille fixe N • Les nombres de descendants (X1 , . . . , XN ) à chaque génération sont échangeables • Exemple du processus de Wright–Fisher : “Chaque individu de la génération t + 1 choisit indépendamment sa mère et uniformément dans la génération t (avec remise)”. 6 5 4 3 2 1 r r r ra r !r aar !! r ! ! r ! r ## r r !!aaar # r r! r r aa r !!r a ! r r r r r !a !! r ! r ! rca r r ! a !r aa c cr r r r ar!! r r r r r r r r !r !!r r !!ra r ! ! r !!r aar ! ! r ! r r ra r !r r aa! r ! r 0 6 7 1 2 3 4 5 8 9 Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Objet limite : généalogie d’un échantillon Random genealogy : total population and sample Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Objet limite : généalogie d’un échantillon • Population asexuée de taille constante N • Échantillon de n individus dans cette population • Généalogie de cet échantillon il y a Nt unités de temps • Objet limite N → ∞ : coalescent de Kingman (Kingman 1982) où le temps d’attente T(k) de k à k − 1 lignées est exponentiel de paramètre k(k − 1)/2. Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Objet limite : généalogie avec mutations • Population de taille constante N • Mutations à la naissance avec probabilité ∼ θ /N • Objet limite N → ∞ : coalescent de Kingman avec mutations à taux θ • Nombre d’haplotypes An , de sites polymorphes Sn dans un n-échantillon ? (Ewens 1972) • Si les données s’écartent trop des prédictions : présence de sélection ? Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Un arbre avec mutations poissoniennes Les sites a and g ne sont pas polymorphiques. Sites polymorphiques : Sn = ? Haplotypes distincts : An = ? 7 0 3 5 6 8 1 2 4 gc gc gch gche gch gch gbf gbfd gbfd se sd sf sh sc sg Haplotype of individual 3 Haplotype of individual 6 sb a b c d e f g h a b c d e f g h Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Ewens’ Sampling Formula Pour le coalescent de Kingman d’un échantillon de taille n, avec taux de mutation θ , lorsque n → ∞, Sn ∼ θ ln(n) et An ∼ θ ln(n), p avec taux de convergence ln(n). De plus, P lim Sn (k) = n→∞ θ k et L lim An (k) = Yk , n→∞ où Yk désigne une variable de Poisson de paramètre θ /k. Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Plan 1 La modélisation probabiliste de l’Évolution 2 Le paradigme neutraliste 3 Génétique des populations 4 La reconstruction phylogénétique 5 Les processus de diversification des espèces Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Séquences homologues Retrouver l’arbre à partir de l’alignement Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Horloge moléculaire : modèles • Modèle de Jukes–Cantor : α = taux de substitution par nucléotide, par exemple P(A → G entre t et t + dt ) = α dt • taux de substitution par site θ = 3α • Modèle de Kimura : α = taux de subst d’une purine par une purine (A,G) ou d’une pyrimidine par une pyrimidine (C,T) = transition, β = taux de subst d’une purine par une pyrimidine ou vice versa = transversion, par exemple P(A → G entre t et t + dt ) = α dt P(A → T entre t et t + dt ) = β dt • taux de substitution θ = α + 2β Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Distance entre deux séquences • T = temps de divergence entre 2 séq • distance entre 2 séquences k = 2θ T • p(t) = probabilité d’observer une substitution en t unités de temps ṗ(t) = −4αp(t)+3α =⇒ p(t) = 3 1 − e−4αt 4 • Datation des divergences à partir de p̂ = proportion de différences observées k = −(3/4) ln (1 − 4p̂/3) . Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Plan 1 La modélisation probabiliste de l’Évolution 2 Le paradigme neutraliste 3 Génétique des populations 4 La reconstruction phylogénétique 5 Les processus de diversification des espèces Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Inférence par les phylogénies • Une fois l’arbre phylogénétique reconstruit d’après alignement • Nous cherchons à inférer les processus de diversification qui l’ont généré • En calculant la probabilité de la phylogénie sous certains modèles Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Modèle général d’arbre phylogénétique Ici t = temps, a = âge, i = type • les espèces se comportent t6 indépendamment • les espèces ont des types • taux d’extinction d = d(t, a, i) • taux de spéciation b = b(t) Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Résultat mathématique T 0 c 1 c 2 3 H3 H1 ? c c H4 ? c4 0c 1c H4 ? H2 ? ? 3c H3 H1 ? H2 2c ? ? L’arbre reconstruit vu de T est un processus de coalescence ponctuel = les temps de coalescence H1 , H2 , . . . forment une suite de variables aléatoires indépendantes et de même loi, arrêtée à sa première valeur supérieure à T. 4c Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Processus ponctuel de coalescence 6 1 T 3 2 5 4 6 H4 H1 H3 H6 ? H2 ? ? ? H5 ? ? ⇒ Probabilité de l’arbre recontruit avec temps de coalescences (ti ) n−1 L(t1 , . . . , tn−1 ; T) = F(T) ∏ fT (ti ), i=1 où fT (·) = densité de probabilité commune de ces temps. Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Morlon et al, PNAS 2012 (1) • Taux paramétrés par des exponentielles en fonction du temps • Les 4 familles de cétacés les + riches (Balaenopteridae, Phoconidae, Ziphiidae, Delphinidae) = 61/87 espèces, sont toutes en expansion • Ces familles masquent le signal des extinctions de cétacés (fossiles) • En permettant aux taux d’être taxon-spécifiques, Morlon et al ont inféré • hausse de la diversité des autres cétacés −10-25 Ma • pic à plus de 140 espèces −10 Ma • chute brutale aux 16 espèces existantes Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Morlon et al, PNAS 2012 (2) Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Div. des espèces Stadler, PNAS 2012 (1) • Taux constants par morceaux • Pas plus de diversif pendant les périodes plus chaudes : −53-51 Ma (début Éocène) et −17-14 Ma (milieu Miocène) • Pic de diversif −30-33 Ma, après refroidissement de la Terre (glaciation Antarctique, expansion des prairies) • Changement de taux le plus significatif −3.3 Ma, haute activité tectonique = moins de diversification • Comparer avec Morlon et al : pic div pour les cétacés −8 Ma Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Stadler, PNAS 2012 (2) Div. des espèces Introduction Hypothèses Génétique des pops Reconstruction phylogénét. Remerciements • Stochastic Models for the Inference of Life Evolution (SMILE) ⊂ Center for Interdisciplinary Research in Biology ⊂ Collège de France • Stochastics & Biology group ⊂ Laboratoire de Probabilités et Modèles Aléatoires ⊂ UPMC University Paris 06 • ANR Modèles Aléatoires eN Écologie, Génétique, Évolution (MANEGE) Div. des espèces