La modélisation en épidémiologie. Alain-jacques Valleron UMR-S 707 Epidémiologie, Systèmes d’Information et Modélisation Université Pierre et Marie Curie (Paris) et INSERM Assistance Publique – Hôpitaux de Paris http://www.u707.jussieu.fr/valleron Paris, 5 Mai 2006 Détection et analyse d’épidémies Découverte -Identification -Diagnostic - Mode de contamination Surveillance Histoire naturelle de la maladie Caractérisation de l’épidémie Protocolisation de la prise en charge Stratégies de controle Nouveaux traitements Evaluation et prévision de l’épidémie Paris, 5 Mai 2006 Histoire naturelle d’une maladie infectieuse diagnostic décès / guérison survie clinique symptômes incubation exposition latence infection biologique infectieuse temps infectieux (contaminant) • Observables Non observable – Symptômes Infection – Décès Infectiosité – Guérison Paris, 5 Mai 2006 - + + asymtomatique] - -diagnostique, [certitude tests [description, déclaration, délai] Etude des maladies transmissibles Le modèle Susceptible-Infectieux-Immun (SIR) Durée d’infectivité Susceptible Infectieux Immun Taux de transmission b Susceptible Susceptible Infectieux Susceptible Infectieux Paramètre de reproduction R nombre moyen de personnes infectées par 1 cas Paris, 5 Mai 2006 B S(t) l(t) dS / dt B b SI / N S dI / dt b SI / N I I dR / dt I R Paris, 5 Mai 2006 I(t) R(t) R0 b Le paramètre de reproduction de base R0 d’une épidémie R0 est le paramètre clé en épidémiologie. Definition: Nombre de cas secondaires provenant d’un cas index infectieux dans une population infinie R0 = p c D : p : probabilité de transmission IS c : nombre de contacts/ unité de temps D : durée moyenne de la période infectieuse. Paris, 5 Mai 2006 R0 Rougeole Ro = 15 to 20 Grippe Ro = 1.8 to 2.5 Variole Ro = 3 SARS Ro = 2 Hepatite B -groupes à haut risque Ro = 4 to 8.8 -population générale Ro = 1.1 Ro for SARS in Singapore (Lloyd-Smith, 2005) Paris, 5 Mai 2006 Théorème du seuil – Proportion d’individus à immuniser à la naissance pour contrôler l’épidémie p (1 1 R0) Variole Rougeole Paris, 5 Mai 2006 (R0 = 3) (R0 = 15-20) p=67 % p = 93-95% Paris, 5 Mai 2006 D. Butler, Nature, News, 2 March 2006 Surveillance surveillance: an ongoing systematic collection, analysis and interpretation of data and the dissemination of the information to those who need to know. – 1592, Londres: 1ère collecte systématique des certificats de décès – 1603, London : 1er bulletin hebdomadaire de mortalité – 1838, Paris : La ‘Médecine numérique’ de P.C. Louis La statistique médicale de J. Gavarret – 1839, London: 1ère surveillance épidémiologique par W. Farr – 2006 : l’âge de l’information … Solution??? Paris, 5 Mai 2006 In Nature,16 March 2006 Paris, 5 Mai 2006 In Nature,16 March 2006 Surveillance : l’espace Krigeage de l’incidence • Semi variogramme paramétrique 1 N ( h) 2 h Z x , y h Z x , y 2 N (h) i 1 • Interpolation par: n Z * x0, y 0 li Z xi , yi i 1 • Où les li résolvent n l d i, j d j,0 i 1 i Carrat,5 1992, Am J Epid Paris, Mai 2006 j 1,..., n Surveillance: temps serfling + algorithmes de décision Paris, 5 Mai 2006 Paris, 5 Mai 2006 Pandémies de grippe Paris, 5 Mai 2006 Les pandémies de grippe durant le 20ème siècle Paris, 5 Mai 2006 Données Epigrippe [Carrat et al, Arch Intern Med, 2002] • Schéma de l’étude: si un cas est détecté, suivi des symptômes grippaux dans son ménage pendant les 15 prochains jours: Temps (jours) 0 • Les données: 334 foyers – Les cas index ont la grippe (test virologique).; – 790 contacts (350 avec une grippe clinique). Paris, 5 Mai 2006 15 Modèle SIR (Susceptible-Infectieux-Immun) de transmission dans les ménages I) Risque instantané d’infection du sujet s: ls(t) = as + es S bi/n i є I(t) • Risque communautaire (acquisition hors-ménage): Enfant aE / Adulte aA; • Force d’infection intra-ménage: - Somme des contributions des infectieux I(t); - Contribution Enfant bE / contribution Adulte bA; - Taux de contact décroît avec la taille n du ménage. • Susceptibilité: Enfant eE / Adulte eA (population de référence: eA=1) II) Durée infectieuse du sujet s: • Distribution Gamma (moyenne s, écart type s); • Moyenne: Enfant E / Adulte A. Paris, 5 Mai 2006 Cauchemez S, Carrat F, Viboud C, Valleron AJ, Boëlle PY. Statistics in Medicine 2004; 23: 3469-87. Données incomplètes-Augmentation de données: Exemple dans un ménage de taille 3 Période de symptômes (observée) Période infectieuse (non observée) Enfant 1 3 jours Enfant 2 Adulte La période infectieuse commence durant les 3 jours précédents la période de symptômes Paris, 5 Mai 2006 3 jours 15 jours de suivi Temps Modèle bayésien à structure hiérarchique • Notations : – Y : données observées de symptômes ; – υ,ψ : début et fin de la période infectieuse ; – α, β, e, μ, s : paramètres du modèle. • Modèle à structure hiérarchique : P(Y,υ,ψ, α, β, μ ) = P(Y/υ,ψ) P(υ,ψ/ α, β, e, μ, s ) P(α, β, e, μ, s ) Observation : La période infectieuse commence durant les 3 jours précédents la période de symptômes Transmission : • Risque d’infection du sujet s: αs+ es Σ βi/n αs : risque d’infection hors-ménage es : susceptibilité βi : contribution de l’infectieux i Durée d’infectivité : Gamma(μs,s). Paris, 5 Mai 2006 A priori Modèle bayésien à structure hiérarchique • Notations : – Y : données observées de symptômes ; – υ,ψ : début et fin de la période infectieuse ; – α, β, e, μ, s : paramètres du modèle. • Modèle à structure hiérarchique : P(Y,υ,ψ, α, β, μ ) = P(Y/υ,ψ) P(υ,ψ/ α, β, e, μ, s ) P(α, β, e, μ, s ) Observation : La période infectieuse commence durant les 3 jours précédents la période de symptômes Transmission : • Risque d’infection du sujet s: αs+ es Σ βi/n αs : risque d’infection hors du foyer es : susceptibilité βi : risque d’infection dû à l’infectieux i Durée d’infectivité : Gamma(μs,s). Paris, 5 Mai 2006 A priori Utilisation de méthodes statistiques “intensives” • MCMC : Monte Carlo Markov Chains • Principe : – Algorithme d’optimisation stochastique – Simulation d’une chaîne de Markov dont la distribution stationnaire est la distribution d’intérêt pour les paramètres – plusieurs techniques de mise à jour : • échantillonneur de Gibbs, Metropolis Hastings • A chaque itération : – Rééchantillonnage d’une valeur de paramètre – Rééchantillonnage d’une date imputée par foyer – Rééchantillonnage d’une durée infectieuse par foyer Paris, 5 Mai 2006 Résultats (1): Estimation des paramètres de transmission Moyenne a posteriori et intervalle de crédibilité à 95% des paramètres Durée infectieuse, moyenne (jours) Durée infectieuse, ET s (jours) Risque communautaire, a (jour-1) Contribution individuelle à la force d'infection dans un foyer de taille 3, b/ 3 (jour-1) Susceptibilité, e Paris, 5 Mai 2006 Ensemble 3.7 [3.0,4.5] Enfants 3.4 [1.8,5.2] Adultes 3.8 [2.9,4.7] 1.9 [1.1,2.9] 1.8 [0.9,2.8] 1.8 [0.9,2.8] 0.0066 0.0094 0.0064 [0.0037,0.0100] [0.0034,0.0176] [0.0032,0.0102] 0.11 [0.26,0.40] 0.18 [0.09,0.31] 0.09 [0.06,0.11] - 1.14 [0.78,1.57] 1 Résultats (2): Rôle des enfants dans la transmission Probabilités a priori et a posteriori , facteurs de Bayes (BF) et niveaux d'évidence (échelle de Jeffrey) Prior Posterior BF Evidence H1: Susceptibilité eE>eA 0.50 0.75 3.0 Faible H2: Risque communautaire aE>aA 0.50 0.77 3.4 Substantiel H3: Durée infectieuse > H4: Infectivité bE>bA 0.50 0.50 0.68 0.97 2.1 Faible 29.5 Fort Paris, 5 Mai 2006 Estimation temps-réel du nombre de reproduction R d’une épidémie R<1 annonce que l’épidémie est sous controle Paris, 5 Mai 2006 Analyse temps-réel • Recueil des données sur le terrain: – Difficulté d’obtenir des données détaillées en temps-réel; – Peu d’a priori sur l’histoire naturelle de la maladie, surtout lorsqu’il s’agit d’une maladie émergente; • Problèmes statistiques: – Les cas secondaires avec de longues périodes d’incubation sont censurés; • Problèmes méthodologiques: – Difficulté à analyser rapidement les données; Paris, 5 Mai 2006 L’estimation du nombre de reproduction par la méthode de Wallinga et Teunis, AJE, 2004 • Intervalle de génération: – Temps entre le début des symptômes d’un cas et le début des symptômes des personnes qu’il infecte; – Distribution de probabilité connue. • • Données: dates de début des symptômes t1 t2 t3 Cas 1 Cas 2 Cas 3 Exemple: R1, nombre de cas générés par le cas 1 – Calculer les probabilités 1->2 et 1->3; – Espérance de R1 = P(1->2) + P(1->3); • Mais le calcul se fait APRES l’épidémie. Paris, 5 Mai 2006 Temps Lorsque l’épidémie n’est pas finie… W: probabilité qu’un cas secondaire soit détecté avant T W t1 t2 t3 t4(?) t5(?) Temps T (présent) Méthode de Wallinga et Teunis : R1- (nombre de personnes infectées par le cas 1, détectées avant T) Correction pour la censure: E(R1)= E(R1-)/W Paris, 5 Mai 2006 [Cauchemez et al., Emerging Infectious Diseases, 2006] • Estimation de R : – Wallinga & Teunis 2004 Paris, 5 Mai 2006 Maladies émergentes • Données collectées durant l’épidémie: – Début des symptômes: t1 t2 t3 t4 T (présent) t5 t6 t7 Temps – Traçage de cas: 1 2 4 4 6 7 • Inférence sur des données de traçage complètes: – Pour les cas observés mais non tracés: 1 3 2 4 3 5 – Pour les cas non observés (censure): 5 [Cauchemez et al., AJE, 2006 à paraître] Paris, 5 Mai 2006 8 Modèle statistique Traçage Courbe épidémique Algorithme MCMC Inférence sur l’intervalle de génération Algorithme Monte Carlo Inférence sur le traçage complet jusqu’en T Correction pour la censure au temps T Inférence sur le nombre de reproduction Paris, 5 Mai 2006 Real-time distribution of generation interval 10 15 0 5 GI SD (day) 10 15 5 0 GI mean (day) 20 (b) 20 (a) 0 40 80 Time (day) 120 0 40 80 120 Time (day) Cauchemez et al., 2006 Posterior mean and 95% credible interval of the mean (a) and the standard deviation (b) of the generation interval (GI). Paris, 5 Mai 2006 4 5 6 Reproduction number for the last 10 days of follow-up 3 for time period [t-10, t] 2 with data available up to time t 1 R At time t: estimate of R 0 Cauchemez et al., 2006 0 20 40 60 80 100 120 Time (day) Posterior mean and 95% credible interval of the reproduction number for the last 10 days of follow-up. Paris, 5 Mai 2006 40 60 80 20 15 10 20 40 60 80 (d) 5 days estim ates 60 80 15 10 5 0 20 15 40 100 0 20 40 60 80 (e) 10 days estim ates (f) 20 days estim ates 60 Time (days) 80 100 15 5 10 Cauchemez et al., 2005, 0 20 15 10 5 40 100 20 Time (days) Reproduction number Time (days) 20 100 20 (c) 2 days estim ates Reproduction number Time (days) 0 0 Paris, 5 Mai 2006 0 Time (days) 10 20 5 100 5 0 0 40 60 80 100 20 20 0 Reproduction number 0 Reproduction number (b) Retrospective estim ates Reproduction number (a) Data 0 Number of symptom onsets Result (2): Real-time monitoring of SARS outbreak in Hong-Kong 0 20 40 60 Time (days) 80 100 Prévisions • Buts – « gestion du risque » – « perception du risque » • Méthodes – Consensus – Empiriques – Intégrant les connaissances • Sur l’agent infectieux • Sur l’histoire naturelle de la maladie • Sur la population (démographie, traansports, comportements) Paris, 5 Mai 2006 Prédiction de la diffusion d’une épidémie grippale par la méthode des « analogues » Search “similar” past temporal patterns Ft 1 w i I t i 1 w j I t j 1 Viboud C, Am J Epidemiol 2004 Paris, 5 Mai 2006 w i wj Prédiction de la diffusion d’une épidémie grippale par la méthode des « analogues » Viboud C, Am J Epidemiol 2004 Paris, 5 Mai 2006 Prévision par intégration d’hypothèses épidémiologiques et cliniques Paris, 5 Mai 2006 Environ 500 000 bovins infectés sont entrés dans la chaîne alimentaire entre 1980 et 1989 (d’après Ferguson et coll., Phil. Trans. Roy. Soc London, 1997) Paris, 5 Mai 2006 Premières prévisions publiées • Cousens, N. et coll., Nature, 1997; 385:197 – Données analysées : 13 cas (-> 1995) – Simulations de scénarios avec durée moyenne d’incubation entre 10 et 25 ans, distributions lognormales et Gamma – Entre 75 et 80 000 cas • Ghani, A et coll., Nature, 2000;406:583 – Données analysées : 53 cas (-> 1999) – Modélisation de scénarios avec durée moyenne d’incubation entre 10 et > 60 ans – Entre 63 et 136 000 cas Paris, 5 Mai 2006 Susceptibilité (f(a)) et âge 2004 Observation : Les cas sont jeunes Date of Onset 2002 2000 1998 1996 (0,5] (5,10] (10,15] (15,20] (20,25] (25,30] (30,35] (35,40] (40,45] (45,50] (50,55] (55,60] (60,65] (65,70] (70,75] (75,80] (80,85] 1994 Age class Hypothèse modélisée: Susceptibilité dépendant de l’age. A A e-a a 0.5 Paris, 5 Mai 2006 15 g(t) : exposition et date • Chez les bovins, l’incidence de l’ESB a été reconstruite [par modèle*] • Croissance exponentielle, temps de doublement de 14 mois – 1989 : SRM ban – 1996 : interdiction totale Impact du SRM ban 1982 * Anderson 1996, Nature Paris, 5 Mai 2006 1989 1996 D durée d’incubation • Distribution usuelles pour l’incubation d’une maladie infectieuse* – Lois asymétriques à droite • Permet une grande variabilité vers les durées longues • Lognormal, gamma, weibull, F, … – 2 à 4 paramètres Sartwell PE, 1950. Am J. Hyg. Paris, 5 Mai 2006 Formulation du modèle D I, A-D 1980 O,A 1989 1996 • Valeur possible pour i : – Toute valeur entre 1980 et 1996 – Probabilité proportionnelle à f(a-d) g(i) • Mortalité « autre cause » • 5 à 10 paramètres – (A)i, a, , s, b Paris, 5 Mai 2006 Formulation statistique • D’après Brillinger* : – Un processus de Poisson ponctuel (les naissances) filtré par une fonction de mortalité dépendante de l’âge et de la date est un processus de Poisson planaire dans le diagramme de Lexis a, t b t a S a, t a 0 exp v l u, t a u du l v, t a v ha v dv 0 a Vraisemblance n log a , t a, t dadt i 1 Paris, 5 Mai 2006 t *Brillinger, i i D 1986, Biometrics Numériquement • Intégration à 10-4 d’une intégrale bidimensionnelle – La fonction à intégrer comporte 2 intégrations – ~ 7 106 points par intégration [30/40 minutes sur un P4] • Optimisation numérique : BFGS, dérivée numérique (10 points) • Cluster de 4 biproc + PVM : ~ 5 jours par optimisation • Intervalles de confiance / prédiction par bootstrap Paris, 5 Mai 2006 500 505 300 286 • Pic de l’épidémie 2002 • Peu de cas après 2010 0 100 # of cases Résultats (2001) : taille de l’épidémie ~ 200 1995 2005 Year Paris, 5 Mai 2006 2015 Valleron et al, Science, 2001 Boelle et al., Stat. Mthods in Medical Resaerch, 2004 RAZ Lattice) Homogeneous Panmixing Incidence cumulée Les alternatives aux « modèles homogènes » Scale free (social) Susceptible Infectious Recovered Paris, 5 Mai 2006 Temps Modélisation de réseaux sociaux Paris, 5 Mai 2006 Eubank, 2004 Prévision par intégration de données d’observation épidémiologique, de modélisation de dynamique d’épidémies, et de données populationnelles Corsica (n=20) Paris, 5 Mai 2006 Corsica (n=20) Population estimates from : LandScanTM Global Population Database. Oak Ridge, TN: Oak Ridge National Laboratory. Available at http://www.ornl.gov/landscan/ Paris, 5 Mai 2006 Individual-centered models In Ferguson, Dedrek, Cummings, Cauchemez, Fraser et al., Nature, 2005 Simulation des 85 millions habitants de Thailande Paris, 105calculateurs Mai 2006 en parallèle, > 1 mois de temps calcul. Ferguson et col., Nature 2006 Paris, 5 Mai 2006 d’après : Global spread of pandemic influenza: coordinating the use of antiviral stockpiles V. Colizza, A. Barrat, M. Barthelemy, AJ. Valleron,A. Vespignani , 2006 (en préparation) Paris, 5 Mai 2006 Conclusions • Nécessité d’intégrer médecine clinique et biologie dans la modélisation des épidémies • Nouvelles données changeant l’échelle des moyens nécessaires à la recherche. • Besoin de triple compétence : mathématique, statistique, informatique. • Beaucoup de sujets de travail possibles. Paris, 5 Mai 2006 Remerciements PY Boelle, F. Carrat, S. Cauchemez, A. Flahault, S. Ansart, A. Lacombe, C. Pelat “ Epidemiology, Information systems and modelling”, Université Pierre et Marie Curie et Inserm (Paris) Alain Barrat CNRS, Orsay V. Colizza, M. Barthelemy, A. Vespignani School of Informatics and Center for Biocomplexity, Indiana University Jacques Vidal UCLA, Los Angeles Soutiens financiers : 6ème PCRDT Union Européenne (SARSTRANS, INFTRANS) Paris, 5 Mai 2006