Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Consistance sous un modèle de réponse de la fonction de répartition estimée en présence de données manquantes Hélène Boistard (Université Toulouse I) Guillaume Chauvet (Ensai, Crest) David Haziza (Université de Montréal) Colloque francophone sur les sondages Rennes, 07/11/2012 HB - GC - DH Consistance de la fonction de répartition imputée 1/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Plan de l’exposé Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations HB - GC - DH Consistance de la fonction de répartition imputée 2/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Notations HB - GC - DH Consistance de la fonction de répartition imputée 3/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Notation On considère une population finie d’individus U = {1, . . . , k, . . . , N }, où chaque individu est supposé identifiable par son label. Pour chaque individu k, soit : yk la valeur prise par une variable d’intérêt y, πk sa probabilité de sélection (> 0), dk = 1/πk le poids de sondage. HB - GC - DH Consistance de la fonction de répartition imputée 4/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Notation On considère une population finie d’individus U = {1, . . . , k, . . . , N }, où chaque individu est supposé identifiable par son label. Pour chaque individu k, soit : yk la valeur prise par une variable d’intérêt y, πk sa probabilité de sélection (> 0), dk = 1/πk le poids de sondage. En situation de réponse complète, on estime sans biais X X ty = yk par t̂yπ = d k yk , k∈U FN (t) = N −1 X 1(yk ≤ t) k∈S par k∈U F̂N (t) = N̂ −1 X dk 1(yk ≤ t). k∈S HB - GC - DH Consistance de la fonction de répartition imputée 4/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Estimateur imputé En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) : t̂yI = X d k yk + k∈Sr F̂I (t) = N̂ −1 X dk yk∗ , k∈Sm [ X dk 1(yk ≤ t) + k∈Sr HB - GC - DH X dk 1(yk∗ ≤ t)]. k∈Sm Consistance de la fonction de répartition imputée 5/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Estimateur imputé En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) : t̂yI = X d k yk + k∈Sr F̂I (t) = N̂ −1 X dk yk∗ , k∈Sm [ X dk 1(yk ≤ t) + k∈Sr X dk 1(yk∗ ≤ t)]. k∈Sm Deux mécanismes aléatoires supplémentaires interviennent : le méca. de non-réponse (S ⇒ Sr ), et le méca. d’imputation (yk ⇒ yk∗ ). HB - GC - DH Consistance de la fonction de répartition imputée 5/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Estimateur imputé En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) : t̂yI = X d k yk + k∈Sr F̂I (t) = N̂ −1 X dk yk∗ , k∈Sm [ X dk 1(yk ≤ t) + k∈Sr X dk 1(yk∗ ≤ t)]. k∈Sm Deux mécanismes aléatoires supplémentaires interviennent : le méca. de non-réponse (S ⇒ Sr ), et le méca. d’imputation (yk ⇒ yk∗ ). HB - GC - DH Consistance de la fonction de répartition imputée 5/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Estimateur imputé En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) : t̂yI = X d k yk + k∈Sr F̂I (t) = N̂ −1 X dk yk∗ , k∈Sm [ X dk 1(yk ≤ t) + k∈Sr X dk 1(yk∗ ≤ t)]. k∈Sm Deux mécanismes aléatoires supplémentaires interviennent : le méca. de non-réponse (S ⇒ Sr ), et le méca. d’imputation (yk ⇒ yk∗ ). HB - GC - DH Consistance de la fonction de répartition imputée 6/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Estimateur imputé du total HB - GC - DH Consistance de la fonction de répartition imputée 7/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Modèle d’imputation Le mécanisme d’imputation est motivé par un modèle d’imputation ⇒ prédiction de yk à l’aide d’une information auxiliaire xk : √ m : yk = x> k β + σ vk k . Dans ce modèle : β et σ 2 sont des paramètres inconnus, vk est une constante connue, les résidus k sont des variables aléatoires iid, centrées réduites. HB - GC - DH Consistance de la fonction de répartition imputée 8/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Modèle d’imputation Le mécanisme d’imputation est motivé par un modèle d’imputation ⇒ prédiction de yk à l’aide d’une information auxiliaire xk : √ m : yk = x> k β + σ vk k . Dans ce modèle : β et σ 2 sont des paramètres inconnus, vk est une constante connue, les résidus k sont des variables aléatoires iid, centrées réduites. HB - GC - DH Consistance de la fonction de répartition imputée 8/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation déterministe L’imputation par la régression déterministe est obtenue en prenant yk∗ = x> k β̂ r , avec −1 β̂ r = X ωk vk−1 xk x> k k∈Sr X ωk vk−1 xk yk k∈Sr un estimateur du paramètre β inconnu, et ωk un poids d’imputation (> 0) associé à l’unité k (Haziza, 2009). HB - GC - DH Consistance de la fonction de répartition imputée 9/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation déterministe L’imputation par la régression déterministe est obtenue en prenant yk∗ = x> k β̂ r , avec −1 β̂ r = X ωk vk−1 xk x> k k∈Sr X ωk vk−1 xk yk k∈Sr un estimateur du paramètre β inconnu, et ωk un poids d’imputation (> 0) associé à l’unité k (Haziza, 2009). Dans ce cas, l’estimateur imputé du total est égal à h i X X t̂yI = d k yk + dk x> β̂ r . k k∈Sr HB - GC - DH k∈Sm Consistance de la fonction de répartition imputée 9/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle d’Imputation (IM) L’inférence se fait sous le modèle (postulé) d’imputation. Le mécanisme de non-réponse n’est pas explicitement modélisé. HB - GC - DH Consistance de la fonction de répartition imputée 10/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle d’Imputation (IM) L’inférence se fait sous le modèle (postulé) d’imputation. Le mécanisme de non-réponse n’est pas explicitement modélisé. Un choix quelconque des poids d’imputation ωk conduit à un estimateur du total approximativement mpq non biaisé : Em Ep Eq (t̂yI − ty ) ' 0. HB - GC - DH Consistance de la fonction de répartition imputée 10/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle de Non-Réponse (NM) Pour se prémunir contre une mauvaise spécification du modèle m, il est intéressant de disposer d’un méca. d’imputation donnant une estimation non biaisée sous un modèle de non-réponse. HB - GC - DH Consistance de la fonction de répartition imputée 11/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle de Non-Réponse (NM) Pour se prémunir contre une mauvaise spécification du modèle m, il est intéressant de disposer d’un méca. d’imputation donnant une estimation non biaisée sous un modèle de non-réponse. Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (inconnu) de non-réponse. On suppose ici que la probabilité de réponse à la variable yk suit le modèle logistique exp φ> 0 xk . pk ≡ Pr (rk = 1) = 1 + exp φ> 0 xk HB - GC - DH Consistance de la fonction de répartition imputée 11/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle de Non-Réponse (NM) Pour se prémunir contre une mauvaise spécification du modèle m, il est intéressant de disposer d’un méca. d’imputation donnant une estimation non biaisée sous un modèle de non-réponse. Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (inconnu) de non-réponse. On suppose ici que la probabilité de réponse à la variable yk suit le modèle logistique exp φ> 0 xk . pk ≡ Pr (rk = 1) = 1 + exp φ> 0 xk HB - GC - DH Consistance de la fonction de répartition imputée 11/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle de Non-Réponse (NM) L’utilisation du mécanisme d’imputation par la régression détermik niste, avec les poids d’imputation ωk = dk 1−p pk , conduit à un estimateur imputé du total pq non biaisé (Haziza et Rao, 2006) : Ep Eq (t̂yI − ty ) ' 0. HB - GC - DH Consistance de la fonction de répartition imputée 12/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Approche sous le Modèle de Non-Réponse (NM) L’utilisation du mécanisme d’imputation par la régression détermik niste, avec les poids d’imputation ωk = dk 1−p pk , conduit à un estimateur imputé du total pq non biaisé (Haziza et Rao, 2006) : Ep Eq (t̂yI − ty ) ' 0. On parle d’estimation doublement robuste du total, voir également Kott (1994), Kim et Park (2006). HB - GC - DH Consistance de la fonction de répartition imputée 12/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Estimateur imputé de la fonction de répartition HB - GC - DH Consistance de la fonction de répartition imputée 13/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation déterministe L’utilisation d’une imputation par la régression déterministe conduit à l’estimateur X 1 X F̂I (t) = dk 1(yk ≤ t) + dk 1(x> k β̂ r ≤ t) . N̂ k∈Sr k∈Sm Cependant, cet estimateur est mpq biaisé. Pour résoudre ce problème, Chambers et Dunstan (1986) ont proposé un estimateur corrigé du biais a posteriori. Autre solution : méthode d’imputation aléatoire. HB - GC - DH Consistance de la fonction de répartition imputée 14/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation aléatoire : approche IM L’imputation par la régression aléatoire est obtenue en prenant √ ∗ yk∗ = x> k β̂r + σ̂ vk k , i.e. en rajoutant à la prédiction de yk un terme aléatoire. Les résidus ∗k sont tirés au hasard et avec remise, avec des probabilités proportionnelles aux poids d’imputation ωk , parmi les résidus observés sur les répondants. L’estimateur imputé t̂yI est approximativement mpqI non biaisé : Em Ep Eq EI (t̂yI − ty ) ' 0. HB - GC - DH Consistance de la fonction de répartition imputée 15/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation aléatoire : approche IM Sous des hypothèses standard, Chauvet, Deville et Haziza (2011) montrent que la fonction de répartition imputée par la régression aléatoire est consistante sous l’approche IM : F̂I (t) − FN (t) →P 0. Ce résultat s’étend au cas où les résidus aléatoires sont sélectionnés de façon équilibrée : X √ (1 − rk ) vk ∗k = 0 ⇒ t̂yI = EI (t̂yI |yU , S, Sr ) k∈S ⇒ HB - GC - DH variance d’imputation annulée. Consistance de la fonction de répartition imputée 16/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation aléatoire : approche NM Pour se prémunir contre une mauvaise spécification du modèle d’imputation, on cherche un mécanisme d’imputation donnant une estimation non biaisée sous l’approche NM. Nous nous restreignons ici au cas du hot-deck aléatoire : une valeur manquante yk est remplacée en sélectionnant au hasard et avec remise un donneur yj ∈ Sr , avec des probabilités proportionnelles aux poids d’imputation ωj . Théorème (BCH, 2012) k Le choix ωk = dk 1−p pk dans le hot-deck aléatoire donne une estimation consistante de FN (·) sous l’approche NM : F̂I (t) − FN (t) →P 0. HB - GC - DH Consistance de la fonction de répartition imputée 17/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Etude par simulations HB - GC - DH Consistance de la fonction de répartition imputée 18/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Cadre Population de taille N = 10 000, générée selon le modèle yk = 10 + x1i + x2i + ηi , où les x1i , x2i sont générés selon une loi gamma et les ηi selon une loi normale centrée. On utilise R2 = 0.70. Echantillon S de taille n = 500 sélectionné par sondage aléatoire simple. La non-réponse est générée selon un mécanisme poissonien, avec P r(ri = 1|x1i , x2i ) = exp (−1 + 1.6 x1i + 1.6 x2i ) . 1 + exp (−1 + 1.6 x1i + 1.6 x2i ) Probabilité de réponse moyenne de 0.60. HB - GC - DH Consistance de la fonction de répartition imputée 19/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation par la régression aléatoire On réalise B = 1000 simulations. On s’intéresse à l’estimation de FN (tα ), avec α = 0.05, 0.25, 0.50, 0.75, 0.95. Pour illustrer les risques d’une mauvaise spécification du modèle d’imputation, on examine les performances de l’imputation par la régression aléatoire non pondérée : avec le modèle correct : x = (1, x1 , x2 ), avec un modèle incomplet : x = (1, x1 ). On calcule le biais relatif (RB), et le MSE relatif q MSE{F̂I (t)} RMSE{F̂I (t)} = × 100. FN (t) HB - GC - DH Consistance de la fonction de répartition imputée 20/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Résultats obtenus x = (1, x1, x2) REGI x = (1, x1) REGI RB RMSE RB RMSE 0.05 0.9 23.9 -18.8 29.4 0.25 0.8 9.3 -12.9 16.0 α 0.50 0.1 5.0 -8.5 10.2 0.75 -0.1 2.7 -4.6 5.6 0.95 0.0 1.1 -1.0 1.7 Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour la fonction de répartition imputée par la régression aléatoire HB - GC - DH Consistance de la fonction de répartition imputée 21/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Résultats obtenus x = (1, x1, x2) REGI x = (1, x1) REGI RB RMSE RB RMSE 0.05 0.9 23.9 -18.8 29.4 0.25 0.8 9.3 -12.9 16.0 α 0.50 0.1 5.0 -8.5 10.2 0.75 -0.1 2.7 -4.6 5.6 0.95 0.0 1.1 -1.0 1.7 Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour la fonction de répartition imputée par la régression aléatoire HB - GC - DH Consistance de la fonction de répartition imputée 21/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Imputation par hot-deck On s’intéresse également à l’estimation de FN (tα ), avec α = 0.05, 0.25, 0.50, 0.75, 0.95. On modélise le mécanisme de non-réponse de façon : correcte : x = (1, x1 , x2 ) ⇒ p̂1 , incomplète : x = (1, x1 ) ⇒ p̂2 . On examine les performances de l’imputation par hot-deck : non-pondéré : ωk = 1, pondéré avec les bonnes probas de réponse : ωk = dk pondéré avec les mauvaises probas de réponse : ωk = HB - GC - DH 1−p̂1 p̂1 , 2 dk 1−p̂ p̂2 . Consistance de la fonction de répartition imputée 22/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Résultats obtenus RHDI RHDI-P1 RHDI-P2 RB RMSE RB RMSE RB RMSE 0.05 -29.3 37.7 0.6 34.2 -17.4 33.0 0.25 -22.7 24.7 0.2 11.7 -13.1 16.7 α 0.50 -16.2 17.4 0.1 6.0 -9.0 11.0 0.75 -9.6 10.4 -0.2 3.1 -5.0 6.1 0.95 -2.4 3.0 0.0 1.2 -1.1 1.8 Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour trois méthodes de hot-deck aléatoire HB - GC - DH Consistance de la fonction de répartition imputée 23/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Résultats obtenus RHDI RHDI-P1 RHDI-P2 RB RMSE RB RMSE RB RMSE 0.05 -29.3 37.7 0.6 34.2 -17.4 33.0 0.25 -22.7 24.7 0.2 11.7 -13.1 16.7 α 0.50 -16.2 17.4 0.1 6.0 -9.0 11.0 0.75 -9.6 10.4 -0.2 3.1 -5.0 6.1 0.95 -2.4 3.0 0.0 1.2 -1.1 1.8 Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour trois méthodes de hot-deck aléatoire HB - GC - DH Consistance de la fonction de répartition imputée 23/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Résultats obtenus RHDI RHDI-P1 RHDI-P2 RB RMSE RB RMSE RB RMSE 0.05 -29.3 37.7 0.6 34.2 -17.4 33.0 0.25 -22.7 24.7 0.2 11.7 -13.1 16.7 α 0.50 -16.2 17.4 0.1 6.0 -9.0 11.0 0.75 -9.6 10.4 -0.2 3.1 -5.0 6.1 0.95 -2.4 3.0 0.0 1.2 -1.1 1.8 Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en pourcentage) pour trois méthodes de hot-deck aléatoire HB - GC - DH Consistance de la fonction de répartition imputée 23/24 Notations Estimateur imputé du total Estimateur imputé de la fonction de répartition Etude par simulations Bibliographie Chambers, R.L., Dunstan, R. (1986). Estimating distribution functions from survey data, Biometrika, vol 73, pp. 597–604. Chauvet, G., Deville, J.-C., and Haziza, D. (2011). On balanced random imputation in surveys, Biometrika, vol 98, 459-471. Deville, J.-C., and Tillé, Y. (2004). Efficient balanced sampling : the cube method, Biometrika, 91, pages 893-912. Haziza, D. (2009). Imputation and inference in the presence of missing data, Handbook of Statistics, vol.29, chap. 10. Kim, J.K. and Park, H.A. (2006). Imputation using response probability. Canadian Journal Statistics 34, 171-182. Kott, P.S. (1994). A note on handling nonresponse in sample surveys. Journal of the American Statistical Association 89, 693-696. HB - GC - DH Consistance de la fonction de répartition imputée 24/24