Diaporama - Septième colloque francophone

publicité
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Consistance sous un modèle de réponse de la
fonction de répartition estimée en présence de
données manquantes
Hélène Boistard (Université Toulouse I)
Guillaume Chauvet (Ensai, Crest)
David Haziza (Université de Montréal)
Colloque francophone sur les sondages
Rennes, 07/11/2012
HB - GC - DH
Consistance de la fonction de répartition imputée
1/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Plan de l’exposé
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
HB - GC - DH
Consistance de la fonction de répartition imputée
2/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Notations
HB - GC - DH
Consistance de la fonction de répartition imputée
3/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Notation
On considère une population finie d’individus U = {1, . . . , k, . . . , N },
où chaque individu est supposé identifiable par son label. Pour chaque
individu k, soit :
yk la valeur prise par une variable d’intérêt y,
πk sa probabilité de sélection (> 0),
dk = 1/πk le poids de sondage.
HB - GC - DH
Consistance de la fonction de répartition imputée
4/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Notation
On considère une population finie d’individus U = {1, . . . , k, . . . , N },
où chaque individu est supposé identifiable par son label. Pour chaque
individu k, soit :
yk la valeur prise par une variable d’intérêt y,
πk sa probabilité de sélection (> 0),
dk = 1/πk le poids de sondage.
En situation de réponse complète, on estime sans biais
X
X
ty =
yk par t̂yπ =
d k yk ,
k∈U
FN (t) = N
−1
X
1(yk ≤ t)
k∈S
par
k∈U
F̂N (t) = N̂ −1
X
dk 1(yk ≤ t).
k∈S
HB - GC - DH
Consistance de la fonction de répartition imputée
4/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Estimateur imputé
En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) :
t̂yI
=
X
d k yk +
k∈Sr
F̂I (t) = N̂
−1
X
dk yk∗ ,
k∈Sm
[
X
dk 1(yk ≤ t) +
k∈Sr
HB - GC - DH
X
dk 1(yk∗ ≤ t)].
k∈Sm
Consistance de la fonction de répartition imputée
5/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Estimateur imputé
En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) :
t̂yI
=
X
d k yk +
k∈Sr
F̂I (t) = N̂
−1
X
dk yk∗ ,
k∈Sm
[
X
dk 1(yk ≤ t) +
k∈Sr
X
dk 1(yk∗ ≤ t)].
k∈Sm
Deux mécanismes aléatoires supplémentaires interviennent : le méca.
de non-réponse (S ⇒ Sr ), et le méca. d’imputation (yk ⇒ yk∗ ).
HB - GC - DH
Consistance de la fonction de répartition imputée
5/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Estimateur imputé
En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) :
t̂yI
=
X
d k yk +
k∈Sr
F̂I (t) = N̂
−1
X
dk yk∗ ,
k∈Sm
[
X
dk 1(yk ≤ t) +
k∈Sr
X
dk 1(yk∗ ≤ t)].
k∈Sm
Deux mécanismes aléatoires supplémentaires interviennent : le méca.
de non-réponse (S ⇒ Sr ), et le méca. d’imputation (yk ⇒ yk∗ ).
HB - GC - DH
Consistance de la fonction de répartition imputée
5/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Estimateur imputé
En cas de non-réponse pour y, une valeur manquante yk est généralement remplacée par une valeur imputée yk∗ (e.g. Haziza, 2009) :
t̂yI
=
X
d k yk +
k∈Sr
F̂I (t) = N̂
−1
X
dk yk∗ ,
k∈Sm
[
X
dk 1(yk ≤ t) +
k∈Sr
X
dk 1(yk∗ ≤ t)].
k∈Sm
Deux mécanismes aléatoires supplémentaires interviennent : le méca.
de non-réponse (S ⇒ Sr ), et le méca. d’imputation (yk ⇒ yk∗ ).
HB - GC - DH
Consistance de la fonction de répartition imputée
6/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Estimateur imputé du total
HB - GC - DH
Consistance de la fonction de répartition imputée
7/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Modèle d’imputation
Le mécanisme d’imputation est motivé par un modèle d’imputation
⇒ prédiction de yk à l’aide d’une information auxiliaire xk :
√
m : yk = x>
k β + σ vk k .
Dans ce modèle :
β et σ 2 sont des paramètres inconnus,
vk est une constante connue,
les résidus k sont des variables aléatoires iid, centrées réduites.
HB - GC - DH
Consistance de la fonction de répartition imputée
8/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Modèle d’imputation
Le mécanisme d’imputation est motivé par un modèle d’imputation
⇒ prédiction de yk à l’aide d’une information auxiliaire xk :
√
m : yk = x>
k β + σ vk k .
Dans ce modèle :
β et σ 2 sont des paramètres inconnus,
vk est une constante connue,
les résidus k sont des variables aléatoires iid, centrées réduites.
HB - GC - DH
Consistance de la fonction de répartition imputée
8/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation déterministe
L’imputation par la régression déterministe est obtenue en prenant
yk∗ = x>
k β̂ r , avec
−1

β̂ r = 
X

ωk vk−1 xk x>
k
k∈Sr
X
ωk vk−1 xk yk
k∈Sr
un estimateur du paramètre β inconnu, et ωk un poids d’imputation
(> 0) associé à l’unité k (Haziza, 2009).
HB - GC - DH
Consistance de la fonction de répartition imputée
9/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation déterministe
L’imputation par la régression déterministe est obtenue en prenant
yk∗ = x>
k β̂ r , avec
−1

β̂ r = 
X

ωk vk−1 xk x>
k
k∈Sr
X
ωk vk−1 xk yk
k∈Sr
un estimateur du paramètre β inconnu, et ωk un poids d’imputation
(> 0) associé à l’unité k (Haziza, 2009).
Dans ce cas, l’estimateur imputé du total est égal à
h
i
X
X
t̂yI =
d k yk +
dk x>
β̂
r .
k
k∈Sr
HB - GC - DH
k∈Sm
Consistance de la fonction de répartition imputée
9/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle d’Imputation (IM)
L’inférence se fait sous le modèle (postulé) d’imputation. Le mécanisme de non-réponse n’est pas explicitement modélisé.
HB - GC - DH
Consistance de la fonction de répartition imputée
10/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle d’Imputation (IM)
L’inférence se fait sous le modèle (postulé) d’imputation. Le mécanisme de non-réponse n’est pas explicitement modélisé.
Un choix quelconque des poids d’imputation ωk conduit à un estimateur du total approximativement mpq non biaisé :
Em Ep Eq (t̂yI − ty ) ' 0.
HB - GC - DH
Consistance de la fonction de répartition imputée
10/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle de Non-Réponse (NM)
Pour se prémunir contre une mauvaise spécification du modèle m,
il est intéressant de disposer d’un méca. d’imputation donnant une
estimation non biaisée sous un modèle de non-réponse.
HB - GC - DH
Consistance de la fonction de répartition imputée
11/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle de Non-Réponse (NM)
Pour se prémunir contre une mauvaise spécification du modèle m,
il est intéressant de disposer d’un méca. d’imputation donnant une
estimation non biaisée sous un modèle de non-réponse.
Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (inconnu) de non-réponse. On suppose ici que la probabilité de réponse
à la variable yk suit le modèle logistique
exp φ>
0 xk
.
pk ≡ Pr (rk = 1) =
1 + exp φ>
0 xk
HB - GC - DH
Consistance de la fonction de répartition imputée
11/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle de Non-Réponse (NM)
Pour se prémunir contre une mauvaise spécification du modèle m,
il est intéressant de disposer d’un méca. d’imputation donnant une
estimation non biaisée sous un modèle de non-réponse.
Modèle de non-réponse : jeu d’hypothèses sur le mécanisme (inconnu) de non-réponse. On suppose ici que la probabilité de réponse
à la variable yk suit le modèle logistique
exp φ>
0 xk
.
pk ≡ Pr (rk = 1) =
1 + exp φ>
0 xk
HB - GC - DH
Consistance de la fonction de répartition imputée
11/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle de Non-Réponse (NM)
L’utilisation du mécanisme d’imputation par la régression détermik
niste, avec les poids d’imputation ωk = dk 1−p
pk , conduit à un
estimateur imputé du total pq non biaisé (Haziza et Rao, 2006) :
Ep Eq (t̂yI − ty ) ' 0.
HB - GC - DH
Consistance de la fonction de répartition imputée
12/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Approche sous le Modèle de Non-Réponse (NM)
L’utilisation du mécanisme d’imputation par la régression détermik
niste, avec les poids d’imputation ωk = dk 1−p
pk , conduit à un
estimateur imputé du total pq non biaisé (Haziza et Rao, 2006) :
Ep Eq (t̂yI − ty ) ' 0.
On parle d’estimation doublement robuste du total, voir également Kott (1994), Kim et Park (2006).
HB - GC - DH
Consistance de la fonction de répartition imputée
12/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Estimateur imputé de la
fonction de répartition
HB - GC - DH
Consistance de la fonction de répartition imputée
13/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation déterministe
L’utilisation d’une imputation par la régression déterministe conduit
à l’estimateur


X
1 X

F̂I (t) =
dk 1(yk ≤ t) +
dk 1(x>
k β̂ r ≤ t) .
N̂ k∈Sr
k∈Sm
Cependant, cet estimateur est mpq biaisé. Pour résoudre ce problème, Chambers et Dunstan (1986) ont proposé un estimateur corrigé du biais a posteriori.
Autre solution : méthode d’imputation aléatoire.
HB - GC - DH
Consistance de la fonction de répartition imputée
14/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation aléatoire : approche IM
L’imputation par la régression aléatoire est obtenue en prenant
√ ∗
yk∗ = x>
k β̂r + σ̂ vk k ,
i.e. en rajoutant à la prédiction de yk un terme aléatoire.
Les résidus ∗k sont tirés au hasard et avec remise, avec des probabilités proportionnelles aux poids d’imputation ωk , parmi les
résidus observés sur les répondants.
L’estimateur imputé t̂yI est approximativement mpqI non biaisé :
Em Ep Eq EI (t̂yI − ty ) ' 0.
HB - GC - DH
Consistance de la fonction de répartition imputée
15/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation aléatoire : approche IM
Sous des hypothèses standard, Chauvet, Deville et Haziza (2011)
montrent que la fonction de répartition imputée par la régression
aléatoire est consistante sous l’approche IM :
F̂I (t) − FN (t) →P 0.
Ce résultat s’étend au cas où les résidus aléatoires sont sélectionnés
de façon équilibrée :
X
√
(1 − rk ) vk ∗k = 0 ⇒ t̂yI = EI (t̂yI |yU , S, Sr )
k∈S
⇒
HB - GC - DH
variance d’imputation annulée.
Consistance de la fonction de répartition imputée
16/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation aléatoire : approche NM
Pour se prémunir contre une mauvaise spécification du modèle d’imputation, on cherche un mécanisme d’imputation donnant une estimation non biaisée sous l’approche NM.
Nous nous restreignons ici au cas du hot-deck aléatoire : une valeur
manquante yk est remplacée en sélectionnant au hasard et avec remise un donneur yj ∈ Sr , avec des probabilités proportionnelles aux
poids d’imputation ωj .
Théorème (BCH, 2012)
k
Le choix ωk = dk 1−p
pk dans le hot-deck aléatoire donne une
estimation consistante de FN (·) sous l’approche NM :
F̂I (t) − FN (t) →P 0.
HB - GC - DH
Consistance de la fonction de répartition imputée
17/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Etude par simulations
HB - GC - DH
Consistance de la fonction de répartition imputée
18/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Cadre
Population de taille N = 10 000, générée selon le modèle
yk = 10 + x1i + x2i + ηi ,
où les x1i , x2i sont générés selon une loi gamma et les ηi selon une
loi normale centrée. On utilise R2 = 0.70.
Echantillon S de taille n = 500 sélectionné par sondage aléatoire
simple. La non-réponse est générée selon un mécanisme poissonien,
avec
P r(ri = 1|x1i , x2i ) =
exp (−1 + 1.6 x1i + 1.6 x2i )
.
1 + exp (−1 + 1.6 x1i + 1.6 x2i )
Probabilité de réponse moyenne de 0.60.
HB - GC - DH
Consistance de la fonction de répartition imputée
19/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation par la régression aléatoire
On réalise B = 1000 simulations. On s’intéresse à l’estimation de
FN (tα ), avec α = 0.05, 0.25, 0.50, 0.75, 0.95.
Pour illustrer les risques d’une mauvaise spécification du modèle d’imputation, on examine les performances de l’imputation par la régression aléatoire non pondérée :
avec le modèle correct : x = (1, x1 , x2 ),
avec un modèle incomplet : x = (1, x1 ).
On calcule le biais relatif (RB), et le MSE relatif
q
MSE{F̂I (t)}
RMSE{F̂I (t)} =
× 100.
FN (t)
HB - GC - DH
Consistance de la fonction de répartition imputée
20/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Résultats obtenus
x = (1, x1, x2)
REGI
x = (1, x1)
REGI
RB
RMSE
RB
RMSE
0.05
0.9
23.9
-18.8
29.4
0.25
0.8
9.3
-12.9
16.0
α
0.50
0.1
5.0
-8.5
10.2
0.75
-0.1
2.7
-4.6
5.6
0.95
0.0
1.1
-1.0
1.7
Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en
pourcentage) pour la fonction de répartition imputée par la régression
aléatoire
HB - GC - DH
Consistance de la fonction de répartition imputée
21/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Résultats obtenus
x = (1, x1, x2)
REGI
x = (1, x1)
REGI
RB
RMSE
RB
RMSE
0.05
0.9
23.9
-18.8
29.4
0.25
0.8
9.3
-12.9
16.0
α
0.50
0.1
5.0
-8.5
10.2
0.75
-0.1
2.7
-4.6
5.6
0.95
0.0
1.1
-1.0
1.7
Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en
pourcentage) pour la fonction de répartition imputée par la régression
aléatoire
HB - GC - DH
Consistance de la fonction de répartition imputée
21/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Imputation par hot-deck
On s’intéresse également à l’estimation de FN (tα ), avec
α = 0.05, 0.25, 0.50, 0.75, 0.95. On modélise le mécanisme de
non-réponse de façon :
correcte : x = (1, x1 , x2 ) ⇒ p̂1 ,
incomplète : x = (1, x1 ) ⇒ p̂2 .
On examine les performances de l’imputation par hot-deck :
non-pondéré : ωk = 1,
pondéré avec les bonnes probas de réponse : ωk = dk
pondéré avec les mauvaises probas de réponse : ωk =
HB - GC - DH
1−p̂1
p̂1 ,
2
dk 1−p̂
p̂2 .
Consistance de la fonction de répartition imputée
22/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Résultats obtenus
RHDI
RHDI-P1
RHDI-P2
RB
RMSE
RB
RMSE
RB
RMSE
0.05
-29.3
37.7
0.6
34.2
-17.4
33.0
0.25
-22.7
24.7
0.2
11.7
-13.1
16.7
α
0.50
-16.2
17.4
0.1
6.0
-9.0
11.0
0.75
-9.6
10.4
-0.2
3.1
-5.0
6.1
0.95
-2.4
3.0
0.0
1.2
-1.1
1.8
Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en
pourcentage) pour trois méthodes de hot-deck aléatoire
HB - GC - DH
Consistance de la fonction de répartition imputée
23/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Résultats obtenus
RHDI
RHDI-P1
RHDI-P2
RB
RMSE
RB
RMSE
RB
RMSE
0.05
-29.3
37.7
0.6
34.2
-17.4
33.0
0.25
-22.7
24.7
0.2
11.7
-13.1
16.7
α
0.50
-16.2
17.4
0.1
6.0
-9.0
11.0
0.75
-9.6
10.4
-0.2
3.1
-5.0
6.1
0.95
-2.4
3.0
0.0
1.2
-1.1
1.8
Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en
pourcentage) pour trois méthodes de hot-deck aléatoire
HB - GC - DH
Consistance de la fonction de répartition imputée
23/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Résultats obtenus
RHDI
RHDI-P1
RHDI-P2
RB
RMSE
RB
RMSE
RB
RMSE
0.05
-29.3
37.7
0.6
34.2
-17.4
33.0
0.25
-22.7
24.7
0.2
11.7
-13.1
16.7
α
0.50
-16.2
17.4
0.1
6.0
-9.0
11.0
0.75
-9.6
10.4
-0.2
3.1
-5.0
6.1
0.95
-2.4
3.0
0.0
1.2
-1.1
1.8
Tab.: Biais relatif et erreur quadratique moyenne de Monte Carlo (en
pourcentage) pour trois méthodes de hot-deck aléatoire
HB - GC - DH
Consistance de la fonction de répartition imputée
23/24
Notations
Estimateur imputé du total
Estimateur imputé de la fonction de répartition
Etude par simulations
Bibliographie
Chambers, R.L., Dunstan, R. (1986). Estimating distribution functions from survey data, Biometrika, vol 73, pp. 597–604.
Chauvet, G., Deville, J.-C., and Haziza, D. (2011). On balanced random imputation in surveys, Biometrika, vol 98, 459-471.
Deville, J.-C., and Tillé, Y. (2004). Efficient balanced sampling : the cube method, Biometrika, 91, pages 893-912.
Haziza, D. (2009). Imputation and inference in the presence of missing data,
Handbook of Statistics, vol.29, chap. 10.
Kim, J.K. and Park, H.A. (2006). Imputation using response probability. Canadian Journal Statistics 34, 171-182.
Kott, P.S. (1994). A note on handling nonresponse in sample surveys. Journal
of the American Statistical Association 89, 693-696.
HB - GC - DH
Consistance de la fonction de répartition imputée
24/24
Téléchargement