Prise en compte des données avec excès de zéros Episode 2 Comment prendre en compte ? Objectif • Données de comptage • Modèle « simple » • Distribution de Poisson a priori Comment prendre en compte un excès de zéros ? Les lois de probabilités discrètes • • • • • • Loi de Bernouilli Loi binomiale Loi géométrique … Loi de Poisson Loi Binomiale Négative Loi de Poisson • Loi des évènements rares • Soit N le nombre d’évènements rares survenus dans un intervalle de temps N est une variable aléatoire dont la distribution est une loi de Poisson E(N) = λ Var(N) = λ Loi Binomiale Négative • « Pile-ou-face » tant que Pile n'est pas apparu k fois Nombre de Pile = k Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de lancers = L • Le nombre L de lancers nécessaires pour gagner une partie est une variable aléatoire, dont la distribution est une distribution binomiale négative. somme de variables géométriques indépendantes (nb L de lancers jusqu’à 1ere apparition de Pile) Loi Binomiale Négative (2) • « Pile-ou-face » tant que Pile n'est pas apparu k fois Probabilité de Pile = p ; probabilité de Face = 1-p = q Nombre de Face précédant le k-ième succès = F Le nombre F de Face est une variable aléatoire dont la distribution est une distribution binomiale négative. • Var(F) > E(F) d’un coefficient (1/p) • Généralisation de la loi de Poisson ? Poisson -> Bin. Nég. • Loi de Poisson P(λ) Excès de zéros = surdispertion Var(λ) > E(λ) • Remplacer par une Loi Bin. Nég. BN(k,p) Adaptations des modèles • Adaptations basés sur l’exemple d’une distribution de Poisson • Applicable à d’autres distributions (BN) • 2 principes : – Probabilité de zéros plus élevées pour tous – Sous groupe de zéros, distinct des autres Modèle mixte • ~ P(λV) • V est une variable aléatoire ~ N(1,α) E(Y) = λ Var(Y) = λ + α2 Modèles ZIP (zero-inflated poisson) • Pr(Y=y) = ω + (1-ω).e-µ (1-ω).e-µ.µy / y! y=0 y>0 0≤ω<1 • E(Y) = (1-ω).µ = λ • Var(Y) = λ + (ω/(1-ω)).µ2 • Similitude avec le premier modèle ? « The second of these equations has the same form » Modèles « hurdle » • Analyse séparée – Proportion de zéros – Probabilité de valeurs > 0 Pr(Y=y) = π0 y=0 (1- π0).e-µ.µy / ((1-e-µ)y!) y>0 • Hypothèse sous jacente : π0 et µ sont-ils indépendants ? – l’un dépend de variables explicatives indépendantes de l’autre – hypothèse forte Modèle « birth process » • Analyse séparée • Période de « naissance » (zéros) • Période de « croissance » (> 0) • Différence d’évolution entre les 2 périodes En résumé • Loi binomiale négative • Modèles, basés sur loi P ou autres (BN) : – Modèles mixtes – Modèles ZIP – Modèles « hurdle » – Modèles « birth process » • En pratique,essentiellement BN, modèles ZIP ou ZINB Référence Models for count data with many zeros M. Ridout International biometric conference, Cap Town . 1998 Présentation d’une étude Evaluating risk factors associated with severe hypoglycaemia in epidemiology studies – What method should we use ? M.K. Bulsara. Diabetic Medicine. 2004 Etude FR d’hypoglycémie sévère • Prospective • 1243 enfants, de 1996 à 2000 • 73% sans épisode sévère d’hypoglycémie • Surdispersion m = 0,68 var = 2,95 • Modèle poissonien inadapté Etude FR d’hypoglycémie sévère • Test statistique de surdispersion • Test statistique pour le choix du modèle ZIP/P et ZINB/NB (statistique de Vuong) • Test MV pour comparer ZIP/ZINB > Modèle ZINB le plus approprié Etude FR d’hypoglycémie sévère • Comparaison des estimations – Age • P,NB : RR diminue avec l’âge • ZIP : OR augmente avec l’âge / groupe « zéros » – Sexe • RR augmenté chez le garçon. NS pour modèles ZI • ! OR / groupes « zéros » dans modèles ZI ? – Durée du diabète • RR augmenté – HbA1C • RR diminué pour tous les modèles Etude FR d’hypoglycémie sévère • Conclusions – Modèle Poisson inadapté – Différences non négligeables dans les estimations des paramètres – Difficultés d’interprétations des résultats Aux prochains épisodes … • Episode 1 – Quand prendre en compte ? Tests pour choisir le modèle • Episode 3 – Avec quoi prendre en compte ? Outils et applications pratiques