Paris, 5 Mai 2006 - GDR Statistique et Santé

publicité
La modélisation en épidémiologie.
Alain-jacques Valleron
UMR-S 707
Epidémiologie, Systèmes d’Information et Modélisation
Université Pierre et Marie Curie (Paris) et INSERM
Assistance Publique – Hôpitaux de Paris
http://www.u707.jussieu.fr/valleron
Paris, 5 Mai 2006
Détection et analyse d’épidémies
Découverte
-Identification
-Diagnostic
- Mode de contamination
Surveillance
Histoire naturelle
de la maladie
Caractérisation de
l’épidémie
Protocolisation
de la prise en charge
Stratégies de
controle
Nouveaux traitements
Evaluation et
prévision de l’épidémie
Paris, 5 Mai 2006
Histoire naturelle d’une maladie infectieuse
diagnostic
décès /
guérison
survie
clinique
symptômes
incubation
exposition
latence
infection
biologique
infectieuse
temps
infectieux
(contaminant)
• Observables
Non observable
– Symptômes
Infection
– Décès
Infectiosité
– Guérison
Paris, 5 Mai 2006
- + + asymtomatique]
- -diagnostique,
[certitude
tests
[description, déclaration, délai]
Etude des maladies transmissibles
Le modèle Susceptible-Infectieux-Immun (SIR)
Durée
d’infectivité
Susceptible
Infectieux
Immun
Taux de
transmission b
Susceptible
Susceptible
Infectieux
Susceptible
Infectieux
Paramètre de reproduction
R nombre moyen de
personnes infectées par 1 cas
Paris, 5 Mai 2006
B
S(t)
l(t)
dS / dt  B  b SI / N   S
dI / dt   b SI / N  I   I
dR / dt   I   R
Paris, 5 Mai 2006
I(t)

R(t)
R0 
b
 
Le paramètre de reproduction
de base R0 d’une épidémie
R0 est le paramètre clé en épidémiologie.
Definition: Nombre de cas secondaires provenant d’un
cas index infectieux dans une population infinie
R0 = p c D :
p : probabilité de transmission IS
c : nombre de contacts/ unité de temps
D : durée moyenne de la période infectieuse.
Paris, 5 Mai 2006
R0
Rougeole
Ro = 15 to 20
Grippe
Ro = 1.8 to 2.5
Variole
Ro = 3
SARS
Ro = 2
Hepatite B
-groupes à haut risque
Ro = 4 to 8.8
-population générale
Ro = 1.1
Ro for SARS in Singapore
(Lloyd-Smith, 2005)
Paris, 5 Mai 2006
Théorème du seuil
– Proportion d’individus à immuniser à la naissance pour contrôler
l’épidémie
p  (1  1 R0)
Variole
Rougeole
Paris, 5 Mai 2006
(R0 = 3)
(R0 = 15-20)
p=67 %
p = 93-95%
Paris, 5 Mai 2006
D. Butler, Nature, News, 2 March 2006
Surveillance
surveillance: an ongoing systematic collection,
analysis and interpretation of data and the
dissemination of the information to those who need
to know.
– 1592, Londres: 1ère collecte systématique des certificats de décès
– 1603, London : 1er bulletin hebdomadaire de mortalité
– 1838, Paris : La ‘Médecine numérique’ de P.C. Louis
La statistique médicale de J. Gavarret
– 1839, London: 1ère surveillance épidémiologique par W. Farr
– 2006 : l’âge de l’information … Solution???
Paris, 5 Mai 2006
In Nature,16 March 2006
Paris, 5 Mai 2006
In Nature,16 March 2006
Surveillance : l’espace
Krigeage de l’incidence
• Semi variogramme
paramétrique
1 N ( h)
2








 h 
Z
x
,
y

h

Z
x
,
y

2 N (h) i 1
• Interpolation par:
n
Z *  x0, y 0   li Z  xi , yi 
i 1
• Où les li résolvent
n
 l  d i, j      d  j,0
i 1
i
Carrat,5 1992,
Am J Epid
Paris,
Mai 2006
j  1,..., n
Surveillance: temps
serfling + algorithmes de décision
Paris, 5 Mai 2006
Paris, 5 Mai 2006
Pandémies de grippe
Paris, 5 Mai 2006
Les pandémies de grippe durant le
20ème siècle
Paris, 5 Mai 2006
Données Epigrippe [Carrat et al, Arch Intern Med, 2002]
• Schéma de l’étude: si un cas est détecté, suivi des symptômes
grippaux dans son ménage pendant les 15 prochains jours:
Temps (jours)
0
• Les données: 334 foyers
– Les cas index ont la grippe (test virologique).;
– 790 contacts (350 avec une grippe clinique).
Paris, 5 Mai 2006
15
Modèle SIR (Susceptible-Infectieux-Immun)
de transmission dans les ménages
I) Risque instantané d’infection du sujet s:
ls(t) = as + es S bi/n
i є I(t)
• Risque communautaire (acquisition hors-ménage): Enfant aE / Adulte aA;
• Force d’infection intra-ménage:
- Somme des contributions des infectieux I(t);
- Contribution Enfant bE / contribution Adulte bA;
- Taux de contact décroît avec la taille n du ménage.
• Susceptibilité: Enfant eE / Adulte eA (population de référence: eA=1)
II) Durée infectieuse du sujet s:
• Distribution Gamma (moyenne s, écart type s);
• Moyenne: Enfant E / Adulte A.
Paris, 5 Mai 2006
Cauchemez S, Carrat F, Viboud C, Valleron AJ, Boëlle PY.
Statistics in Medicine 2004; 23: 3469-87.
Données incomplètes-Augmentation de données:
Exemple dans un ménage de taille 3
Période de symptômes
(observée)
Période infectieuse
(non observée)
Enfant 1
3 jours
Enfant 2
Adulte
La période infectieuse
commence durant les 3
jours précédents la
période de symptômes
Paris, 5 Mai 2006
3 jours
15 jours de suivi
Temps
Modèle bayésien à structure hiérarchique
• Notations :
– Y : données observées de symptômes ;
– υ,ψ : début et fin de la période infectieuse ;
– α, β, e, μ, s : paramètres du modèle.
• Modèle à structure hiérarchique :
P(Y,υ,ψ, α, β, μ ) = P(Y/υ,ψ) P(υ,ψ/ α, β, e, μ, s ) P(α, β, e, μ, s )
Observation :
La période infectieuse
commence durant les 3
jours précédents la
période de symptômes
Transmission :
• Risque d’infection du sujet s: αs+ es Σ βi/n
αs : risque d’infection hors-ménage
es : susceptibilité
βi : contribution de l’infectieux i
Durée d’infectivité : Gamma(μs,s).
Paris, 5 Mai 2006
A priori
Modèle bayésien à structure hiérarchique
• Notations :
– Y : données observées de symptômes ;
– υ,ψ : début et fin de la période infectieuse ;
– α, β, e, μ, s : paramètres du modèle.
• Modèle à structure hiérarchique :
P(Y,υ,ψ, α, β, μ ) = P(Y/υ,ψ) P(υ,ψ/ α, β, e, μ, s ) P(α, β, e, μ, s )
Observation :
La période infectieuse
commence durant les 3
jours précédents la
période de symptômes
Transmission :
• Risque d’infection du sujet s: αs+ es Σ βi/n
αs : risque d’infection hors du foyer
es : susceptibilité
βi : risque d’infection dû à l’infectieux i
Durée d’infectivité : Gamma(μs,s).
Paris, 5 Mai 2006
A priori
Utilisation de méthodes statistiques
“intensives”
• MCMC : Monte Carlo Markov Chains
• Principe :
– Algorithme d’optimisation stochastique
– Simulation d’une chaîne de Markov dont la distribution
stationnaire est la distribution d’intérêt pour les
paramètres
– plusieurs techniques de mise à jour :
• échantillonneur de Gibbs, Metropolis Hastings
• A chaque itération :
– Rééchantillonnage d’une valeur de paramètre
– Rééchantillonnage d’une date imputée par foyer
– Rééchantillonnage d’une durée infectieuse par foyer
Paris, 5 Mai 2006
Résultats (1): Estimation des paramètres de transmission
Moyenne a posteriori et intervalle de crédibilité à 95% des paramètres
Durée infectieuse, moyenne  (jours)
Durée infectieuse, ET s (jours)
Risque communautaire, a (jour-1)
Contribution individuelle à la force d'infection
dans un foyer de taille 3, b/ 3 (jour-1)
Susceptibilité, e
Paris, 5 Mai 2006
Ensemble
3.7
[3.0,4.5]
Enfants
3.4
[1.8,5.2]
Adultes
3.8
[2.9,4.7]
1.9
[1.1,2.9]
1.8
[0.9,2.8]
1.8
[0.9,2.8]
0.0066
0.0094
0.0064
[0.0037,0.0100] [0.0034,0.0176] [0.0032,0.0102]
0.11
[0.26,0.40]
0.18
[0.09,0.31]
0.09
[0.06,0.11]
-
1.14
[0.78,1.57]
1
Résultats (2): Rôle des enfants dans la transmission
Probabilités a priori et a posteriori , facteurs de Bayes (BF)
et niveaux d'évidence (échelle de Jeffrey)
Prior Posterior
BF
Evidence
H1: Susceptibilité eE>eA
0.50
0.75
3.0
Faible
H2: Risque communautaire aE>aA
0.50
0.77
3.4
Substantiel
H3: Durée infectieuse >
H4: Infectivité bE>bA
0.50
0.50
0.68
0.97
2.1 Faible
29.5 Fort
Paris, 5 Mai 2006
Estimation temps-réel du nombre de
reproduction R d’une épidémie
R<1 annonce que l’épidémie est sous controle
Paris, 5 Mai 2006
Analyse temps-réel
• Recueil des données sur le terrain:
– Difficulté d’obtenir des données détaillées en temps-réel;
– Peu d’a priori sur l’histoire naturelle de la maladie, surtout
lorsqu’il s’agit d’une maladie émergente;
• Problèmes statistiques:
– Les cas secondaires avec de longues périodes d’incubation sont
censurés;
• Problèmes méthodologiques:
– Difficulté à analyser rapidement les données;
Paris, 5 Mai 2006
L’estimation du nombre de reproduction
par la méthode de Wallinga et Teunis, AJE, 2004
•
Intervalle de génération:
– Temps entre le début des symptômes d’un cas et le début des symptômes des personnes qu’il
infecte;
– Distribution de probabilité connue.
•
•
Données: dates de début des symptômes
t1
t2
t3
Cas 1
Cas 2
Cas 3
Exemple: R1, nombre de cas générés par le cas 1
– Calculer les probabilités 1->2 et 1->3;
– Espérance de R1 = P(1->2) + P(1->3);
•
Mais le calcul se fait APRES l’épidémie.
Paris, 5 Mai 2006
Temps
Lorsque l’épidémie n’est pas finie…
W: probabilité qu’un cas
secondaire soit détecté avant T
W
t1
t2
t3
t4(?)
t5(?)
Temps
T (présent)
Méthode de Wallinga et Teunis :
R1- (nombre de personnes infectées
par le cas 1, détectées avant T)
Correction pour la censure:
E(R1)= E(R1-)/W
Paris, 5 Mai 2006
[Cauchemez et al., Emerging Infectious Diseases, 2006]
• Estimation de R :
– Wallinga & Teunis 2004
Paris, 5 Mai 2006
Maladies émergentes
• Données collectées durant l’épidémie:
– Début des symptômes:
t1
t2 t3
t4
T (présent)
t5
t6
t7
Temps
– Traçage de cas:
1
2
4
4
6
7
• Inférence sur des données de traçage complètes:
– Pour les cas observés mais non tracés:
1
3
2
4
3
5
– Pour les cas non observés (censure):
5
[Cauchemez et al., AJE, 2006 à paraître]
Paris, 5 Mai 2006
8
Modèle statistique
Traçage
Courbe épidémique
Algorithme MCMC
Inférence sur l’intervalle de
génération
Algorithme Monte Carlo
Inférence sur le traçage
complet jusqu’en T
Correction pour la censure au temps T
Inférence sur le nombre
de reproduction
Paris, 5 Mai 2006
Real-time distribution of generation interval
10 15
0
5
GI SD (day)
10 15
5
0
GI mean (day)
20
(b)
20
(a)
0
40
80
Time (day)
120
0
40
80
120
Time (day)
Cauchemez et al., 2006
Posterior mean and 95% credible interval of the mean (a) and the
standard deviation (b) of the generation interval (GI).
Paris, 5 Mai 2006
4
5
6
Reproduction number for the last 10 days of follow-up
3
for time period [t-10, t]
2
with data available up to time t
1
R
At time t: estimate of R
0
Cauchemez et al., 2006
0
20
40
60
80
100
120
Time (day)
Posterior mean and 95% credible interval of the reproduction
number for the last 10 days of follow-up.
Paris, 5 Mai 2006
40
60
80
20
15
10
20
40
60
80
(d) 5 days estim ates
60
80
15
10
5
0
20
15
40
100
0
20
40
60
80
(e) 10 days estim ates
(f) 20 days estim ates
60
Time (days)
80
100
15
5
10
Cauchemez et al., 2005,
0
20
15
10
5
40
100
20
Time (days)
Reproduction number
Time (days)
20
100
20
(c) 2 days estim ates
Reproduction number
Time (days)
0
0
Paris, 5 Mai 2006
0
Time (days)
10
20
5
100
5
0
0
40 60 80 100
20
20
0
Reproduction number
0
Reproduction number
(b) Retrospective estim ates
Reproduction number
(a) Data
0
Number of symptom onsets
Result (2): Real-time monitoring of SARS outbreak in Hong-Kong
0
20
40
60
Time (days)
80
100
Prévisions
• Buts
– « gestion du risque »
– « perception du risque »
• Méthodes
– Consensus
– Empiriques
– Intégrant les connaissances
• Sur l’agent infectieux
• Sur l’histoire naturelle de la maladie
• Sur la population (démographie, traansports, comportements)
Paris, 5 Mai 2006
Prédiction de la diffusion d’une épidémie
grippale par la méthode des « analogues »
Search “similar”
past temporal patterns
Ft 1 
w i I t i 1  w j I t j 1
Viboud C, Am J Epidemiol 2004
Paris, 5 Mai 2006
w i  wj
Prédiction de la diffusion d’une épidémie
grippale par la méthode des « analogues »
Viboud C, Am J Epidemiol 2004
Paris, 5 Mai 2006
Prévision par intégration d’hypothèses
épidémiologiques et cliniques
Paris, 5 Mai 2006
Environ 500 000 bovins infectés sont entrés
dans la chaîne alimentaire entre 1980 et 1989
(d’après Ferguson et coll., Phil. Trans. Roy. Soc London, 1997)
Paris, 5 Mai 2006
Premières prévisions publiées
• Cousens, N. et coll., Nature, 1997; 385:197
– Données analysées : 13 cas (-> 1995)
– Simulations de scénarios avec durée moyenne
d’incubation entre 10 et 25 ans, distributions lognormales
et Gamma
– Entre 75 et 80 000 cas
• Ghani, A et coll., Nature, 2000;406:583
– Données analysées : 53 cas (-> 1999)
– Modélisation de scénarios avec durée moyenne
d’incubation entre 10 et > 60 ans
– Entre 63 et 136 000 cas
Paris, 5 Mai 2006
Susceptibilité (f(a)) et âge
2004
Observation :
Les cas sont jeunes
Date of Onset
2002
2000
1998
1996
(0,5]
(5,10]
(10,15]
(15,20]
(20,25]
(25,30]
(30,35]
(35,40]
(40,45]
(45,50]
(50,55]
(55,60]
(60,65]
(65,70]
(70,75]
(75,80]
(80,85]
1994
Age class
Hypothèse modélisée:
Susceptibilité dépendant
de l’age.
A
A e-a a
0.5
Paris, 5 Mai 2006
15
g(t) : exposition et date
• Chez les bovins, l’incidence de l’ESB a été
reconstruite [par modèle*]
• Croissance exponentielle, temps de
doublement de 14 mois
– 1989 : SRM ban
– 1996 : interdiction totale
Impact
du SRM
ban
1982
*
Anderson 1996, Nature
Paris, 5 Mai 2006
1989
1996
D durée d’incubation
• Distribution usuelles pour l’incubation d’une
maladie infectieuse*
– Lois asymétriques à droite
• Permet une grande variabilité vers les durées longues
• Lognormal, gamma, weibull, F, …
– 2 à 4 paramètres
Sartwell PE, 1950. Am J. Hyg.
Paris, 5 Mai 2006
Formulation du modèle
D
I, A-D
1980
O,A
1989
1996
• Valeur possible pour i :
– Toute valeur entre 1980 et 1996
– Probabilité proportionnelle à f(a-d) g(i)
• Mortalité « autre cause »
• 5 à 10 paramètres
– (A)i, a, , s, b
Paris, 5 Mai 2006
Formulation statistique
• D’après Brillinger* :
– Un processus de Poisson ponctuel (les
naissances) filtré par une fonction de mortalité
dépendante de l’âge et de la date est un
processus de Poisson planaire dans le
diagramme de Lexis
 a, t   b t  a  S a, t 
a
0
exp  v l u, t  a  u du l v, t  a  v ha  v dv
  0


 

a
Vraisemblance
n
 log  a , t     a, t dadt
i 1
Paris, 5 Mai 2006
t
*Brillinger,
i
i
D
1986, Biometrics
Numériquement
• Intégration à 10-4 d’une intégrale bidimensionnelle
– La fonction à intégrer comporte 2 intégrations
– ~ 7 106 points par intégration [30/40 minutes sur un P4]
• Optimisation numérique : BFGS, dérivée
numérique (10 points)
• Cluster de 4 biproc + PVM : ~ 5 jours par
optimisation
• Intervalles de confiance / prédiction par bootstrap
Paris, 5 Mai 2006
500
505
300
286
• Pic de l’épidémie 2002
• Peu de cas après 2010
0
100
# of cases
Résultats (2001) :
taille de l’épidémie ~ 200
1995
2005
Year
Paris, 5 Mai 2006
2015
Valleron et al, Science, 2001
Boelle et al., Stat. Mthods in Medical Resaerch, 2004
RAZ
Lattice)
Homogeneous Panmixing
Incidence cumulée
Les alternatives aux « modèles homogènes »
Scale free (social)
Susceptible
Infectious
Recovered
Paris, 5 Mai 2006
Temps
Modélisation de réseaux sociaux
Paris, 5 Mai 2006
Eubank, 2004
Prévision par intégration de données d’observation
épidémiologique, de modélisation de dynamique d’épidémies,
et de données populationnelles
Corsica
(n=20)
Paris, 5 Mai 2006
Corsica
(n=20)
Population estimates from :
LandScanTM Global Population Database.
Oak Ridge, TN: Oak Ridge National Laboratory.
Available at http://www.ornl.gov/landscan/
Paris, 5 Mai 2006
Individual-centered models
In Ferguson, Dedrek, Cummings, Cauchemez, Fraser et al., Nature, 2005
Simulation des 85 millions habitants de Thailande
Paris,
105calculateurs
Mai 2006
en parallèle, > 1 mois de temps calcul.
Ferguson et col., Nature 2006
Paris, 5 Mai 2006
d’après : Global spread of pandemic influenza: coordinating the use of antiviral stockpiles
V. Colizza, A. Barrat, M. Barthelemy, AJ. Valleron,A. Vespignani , 2006 (en préparation)
Paris, 5 Mai 2006
Conclusions
• Nécessité d’intégrer médecine clinique et
biologie dans la modélisation des épidémies
• Nouvelles données changeant l’échelle des
moyens nécessaires à la recherche.
• Besoin de triple compétence : mathématique,
statistique, informatique.
• Beaucoup de sujets de travail possibles.
Paris, 5 Mai 2006
Remerciements
PY Boelle, F. Carrat, S. Cauchemez, A. Flahault,
S. Ansart, A. Lacombe, C. Pelat
“ Epidemiology, Information systems and modelling”,
Université Pierre et Marie Curie et Inserm (Paris)
Alain Barrat
CNRS, Orsay
V. Colizza, M. Barthelemy, A. Vespignani
School of Informatics and Center for Biocomplexity, Indiana University
Jacques Vidal
UCLA, Los Angeles
Soutiens financiers : 6ème PCRDT Union Européenne (SARSTRANS, INFTRANS)
Paris, 5 Mai 2006
Téléchargement