ESTIMATION D’UN RAPPORT DE MOYENNES ET UTILISATION DE L’INFORMATION AUXILIAIRE Dans plusieurs enquêtes les quantités à estimer s’expriment comme des rapports de totaux, par exemple Nb total de personnes qui occupent un emploi taux de chômage = 1 Nb total de personnes disponibles à l'emploi On va maintenant étudier les propriétés échantillonnales de ce type de statistique. On va d’abord travailler sur le rapport de deux moyennes échantillonnales, rs ys / xs , calculé à l’aide d’un échantillon aléatoire simple. La statistique rs n’est pas une fonction linéaire des variables indicatrices Z1,…,ZN ; il n’est donc pas possible de calculer une expression simple pour son espérance et sa variance. Il faut procéder par approximation. La caractéristique de la population estimée par rs est rU yU / xU ; rs n’est pas une estimation non biaisé de rU . Cependant sous certaines conditions | rU rs | tend vers 0 en probabilité dans un contexte semblable à celui du théorème de la limite centrale de Hajek, dans la mesure où xU est non nul. On dit que rs est une estimation convergente de rU ou bien qu’elle est asymptotiquement non biasée. Pour évaluer sa variance on va approximer rs par une fonction linéaire de Z1,…,ZN . On procède comme suit, 1 rs ys yU ys rU xs y s yU xs 1 xs xU xU xU xs xU petit petit yU ys rU xs xU xU Ainsi y y r x 1 Var( rs ) Var U s U s 2 Var zs avec zi yi rU xi . xU xU xU En fait rs rU g ( xs , ys ) g ( xU , yU ) où g(x,y)=y/x et on a approximé la différence à l’aide d’une expansion en série de Taylor d’ordre 1 de la fonction bivariée g(x,y). Ce résultat approximatif est valable quel que soit le plan de sondage. S’il est aléatoire simple sans remise un estimateur de variance « approximativement » non biaisé est ( yi rs xi )2 1 1 f 1 1 f 2 2 2 v( rs ) 2 s 2 r s r sx y s xy s 2 xs n iS n 1 xs n où sxy est la covariance échantillonnale entre les deux variables. Dans un plan stratifié, 2 1 1 H N h2 1 f h Nh { yhi yhU rU ( xhi xhU )}2 Var( rs ) 2 Var zstr 2 xU xU h 1 N nh i 1 Nh 1 et l’estimateur de variance s’obtient en estimant la variance de z dans la strate h par la variance échantillonnale et en prenant rˆU rs . Exemple : Étude des propriétés de l’estimateur ys / xs dans une petite population pour un plan d’échantillonnage aléatoire simple sans remise. Tableau 1 : Valeurs de y et de x pour les 6 unités d’une population artificielle i 1 2 3 4 5 6 y 3 4 18 4 5 15 x 2 3 6 4 4 5 Dans la population à l’étude, yU 8.17, xU 4.0 et rU yU / xU 2.042 et Sx2=2, Sy2=42.97 et la covariance est Sxy=8.2 et la corrélation est R= Sxy/ Sx Sy=0.88. Un échantillon aléatoire simple de taille n=3 est tiré de cette population. Ainsi le rapport des deux moyennes rs ys / xs est une variable aléatoire discrète prenant 20 valeurs, chacune avec une probabilité de 1/20. Le tableau 2 donne les 20 valeurs possibles de l’estimateur ys / xs et étudie ses propriétés échantillonnales. On observe les résultats suivants : 3 E ( ys / xs ) 2.0 2.042 ainsi ys / xs sous-estime yU / xU d’environ 2% L’approximation de Var ys / xs obtenue par linéarisation est 1 1 f Var( rs ) 2 xU n { yi yU rU ( xi xU )}2 1 1 f 2 2 2 S 2 r S r Sx y U xy U 2 N 1 xU n i 1 N 1 1 2 42.97 2 2.042 8.2 2.042 2 0.186 2 4 6 L’erreur quadratique moyenne de ys / xs , 2 2 ys ys yU 1 EQM ( ys / xs ) E 2.042 =0.205, x x 20 S U xs U s la variance approximative sous-estime l’erreur quadratique moyenne par environ 10%; L’espérance de l’estimateur de variance par linéarisation, v( ys / xs ) , est 1 E v ( rs ) v ( rs ) = 0.156. 20 S U L’estimateur de variance v( ys / xs ) sous-estime EQM ( ys / xs ) par 24%. Le taux de couverture réel de l’intervalle de confiance avec un taux nominal de 95% calculé avec t0.975,2 4.3 est de 80%. 4 Tableau 2 : Distribution de ys / xs et v( ys / xs ) pour la population du Tableau 1. y1=3 y2=4 Echant. x1=2 x2=3 1 1 1 2 1 1 3 1 1 4 1 1 5 1 0 6 1 0 7 1 0 8 1 0 9 1 0 10 1 0 11 0 1 12 0 1 13 0 1 14 0 1 15 0 1 16 0 1 17 0 0 18 0 0 19 0 0 20 0 0 Valeur moyenne y3=18 x3=6 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 y4=4 x4=4 0 1 0 0 1 0 0 1 1 0 1 0 0 1 1 0 1 1 0 1 y5=5 x5=4 0 0 1 0 0 1 0 1 0 1 0 1 0 1 0 1 1 0 1 1 y6=15 x6=5 0 0 0 1 0 0 1 0 1 1 0 0 1 0 1 1 0 1 1 1 ys / xs v( ys / xs ) IC- IC+ Co. 2.27 1.22 1.33 2.2 2.08 2.17 2.77 1.2 2 2.09 2 2.08 2.64 1.18 1.92 2 1.93 2.47 2.53 1.85 2.00 4.11 1.68 1.53 4.05 4.29 4.13 3.66 1.58 4.19 4.05 4.14 4.03 3.92 1.49 4.02 3.91 4.03 4.25 4.10 3.88 1 0 0 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 0.8 0.182 0.011 0.002 0.185 0.262 0.209 0.043 0.008 0.260 0.207 0.249 0.207 0.089 0.005 0.239 0.198 0.239 0.173 0.132 0.224 0.16 0.44 0.77 1.14 0.35 -0.12 0.20 1.88 0.82 -0.19 0.14 -0.14 0.12 1.36 0.88 -0.18 0.09 -0.17 0.68 0.97 -0.19 5 ESTIMATEUR DU RAPPORT DE 2 MOYENNES DANS UN PLAN STRATIFIÉ L’estimateur est donné par rˆs ystr / xstr . Il est approximativement sans biais et on a vu que sa variance peut être estimée par N h2 1 f h 1 v( rˆs ) 2 2 ( yhj yh ystr ( xhj xh ) / xstr ) 2 xstr h N nh (nh 1) j 2 N 1 fh 2 yst yst 1 2 s yh 2 sxyh s xh v ( rˆs ) 2 xstr h N nh xst xst Estimation du coût de production par tête de bétail de producteurs bovins (y=coût du producteur, x= production). Suite de l’exemple 2 du ch. IV 2 s 2yh s xyh xh yh s xh strate Taille Nh/N nh 1 625 0.429 107 7.5 13.45 2.3 1.5 3.5 2 418 0.287 72 15.6 75.32 5.1 10.4 8.4 3 255 0.175 44 29.33 230.45 9.4 33.8 40.5 4 158 0.109 27 55.9 898.45 17.8 100.9 122.4 tot 1456 250 18.90 6.03 Estimation de variance du coût Estimation de la production moyenne 18.9 unitaire 0.0002 Estimation du coût moyen 6.03 Erreur-type 0.014 Coût de production par animal 0.32 Intervalle de Confiance 0.291 0.347 2 h 2 6 DISCUSSION L’estimation de la variance de statistiques non-linéaires est un problème important en statistique, tout domaine confondu. La linéarisation d’une statistique est toujours la même peu importe le domaine d’application (ou le plan de sondage sous jacent) ; cette méthode d’estimation de la variance est aussi appelée « méthode delta » et « théorême de Slutzky ». En échantillonnage il est bien connu que pour un quotient de moyennes la variance estimée par linéarisation sousestime la vraie erreur quadratique moyenne. Les résultats obtenus pour la petite population de 6 unités où l’estimateur de variance par linéarisation a un biais négatif de 24% sont donc représentatifs de la littérature sur ce sujet. Evidemment l’ampleur du biais diminue lorsque n augmente car on se rapproche des conditions « asymptotiques » à la base de l’approximation de la statistique à l’étude par une variable aléatoire linéaire. Il existe d’autres méthodes d’estimation de la variance de statistiques non linéaires qui s’appuient sur le ré-échantillonnage. On peut mentionner le jackknife et le bootstrap. Ces méthodes corrigent partiellement le biais négatif de l’estimateur par linéarisation. Elles ont été adaptées à l’échantillonnage et implantées au Canada. En effet les données de plusieurs enquêtes de Statistique Canada sont maintenant fournies avec des ensembles de poids bootstrap qui permettent de faire du ré-échantillonnage pour estimer les variances de statistiques estimées avec des données d’enquête. A l’université Laval ces estimateurs sont abordés dans le deuxième d’échantillonnage, STT-7340 Sondages modèles et techniques. 7 ESTIMATION DANS UN DOMAINE DE LA POPULATION Un domaine est un sous-ensemble de la population qui présente un intérêt particulier. On veut produire des estimations des moyennes et des totaux des variables d’intérêt dans ces domaines. Dans un sondage l’ensemble des femmes, les jeunes de 15 à 24, ou les résidents d’une ville ou d’un comté particulier forment des domaines. Pour estimer le total et la moyenne de y dans le domaine D on utilise les formules suivantes wi yi TˆyD wi yi et y Ds iS D iS D wi iS D Ces formules sont générales et s’appliquent pour un plan d’échantillonnage quelconque. L’estimation de la variance dépend du plan. Si, comme dans la section 3.3, le plan est aléatoire simple alors TˆyD v (TˆyD ) ND connue N D yDs ND inconnue Nnd y Ds n N D2 (1 f ) s 2yD / nD 2 2 (1 f ) 2 N yi yi / n n(n 1) iS D iS D 8 Exemple : On tire un échantillon aléatoire simple de 200 personnes auprès d’une population de 1500 bénéficiaires de l’aide sociale, pour estimer les prestations d’un certain type qui ont été versées. Trente des personnes échantillonnées ne sont plus sur l’aide sociale et n’ont reçu aucune prestation et pour les 170 autres la moyenne et la variance des prestations reçus (en milliers de dollars) sont de yDs 3.2 et de sD2=1.5. On veut : a) Estimer le total des prestations versées, avec un intervalle de confiance à 95% Nnd 1500 170 TˆD yDs 3.2 4080 et n 200 2 2 2 2 15002 (13 / 15) N (1 f ) 1 170 3.2 2 2 v (TˆD ) y y 169 1.5 170 3.2 i i n(n 1) iS D n iS D 200 199 200 25214 L’IC est donc 4080 1.96 25214 (3769,4391) b) Refaire a) sachant que la liste de départ contient 195 personnes qui n’étaient plus admissible et qui n’ont rient reçu. On sait que ND=1305 2 1305 (1 170 / 1305) On a TˆD 1305 yDs 4176 et v(TˆD ) 1.5 13069 170 L’IC est donc 2915 1.96 4899 (3952,4400) . Connaître la taille du domaine permet de réduire la variance d’environ 50%. 9 INFORMATION AUXILIAIRE Pour estimer le total ou la moyenne d’une variable d’intérêt y on dispose parfois d’une variable auxiliaire x connue pour toutes les unités de la population. On peut utiliser cette variable pour former des strates et construire ainsi un plan d’échantillonnage qui permettra de bien estimer la moyenne de y. Même si x n’est pas utiliser pour construire le plan de sondage, on peut l’utiliser a posteriori, par le biais d’un modèle de régression de y sur x. Pour simplifier la présentation, on suppose que les données sont recueillies selon un plan aléatoire simple. On connaît {xi : i dans U} et {(xi, yi) : i dans S}. Pour estimer le total de y on veut procéder de la façon suivante : 1. On détermine un modèle pour prédire y sachant x 2. On calcule des prévisions de y pour les unités non-échantillonnées et on prend Tˆy yi yˆ i iS iU S On va étudier cette façon de faire dans deux cas : un modèle de régression par l’origine avec variance hétérogène et un modèle de régression linéaire simple standard. On s’intéresse ici aux propriétés de ces estimateurs par rapport au plan 10 Exemple. Estimation du nombre d’eiders à duvet mâles dans le golf St-Laurent. Pour estimer le nombre d’eiders dans le golf du St- Laurent, des biologistes survolent et photographies les bandes d’oiseaux présentes sur le fleuve. Lors d’un inventaire N=37 bandes ont été vues mais seulement un échantillon aléatoire de n=16 bandes ont été photographiées et dénombrées. Pour ces dernières on connaît x, l’estimation de la taille faite par le biologiste et y, le décompte exact. Pour les 21 autres bandes on ne dispose que du décompte approximatif x. Tableau 1. Données échantillonnales x y x y 1400 1385 1000 1419 750 1153 1100 956 325 817 3500 1867 4500 6578 300 338 350 521 400 327 300 495 225 75 2000 1532 350 532 1300 1358 330 583 Graphique de dispersion échantillonnale et droite de régression qui passe par l’origine pour les n=16 données. i) Estimation par la moyenne : Tˆ1 37 ys 46 102 2 ( y y ) 1 1 i s iS v (Tˆ1 ) 37 86722 15 16 37 2 7000 6000 5000 Décompte 4000 prédite 3000 2000 1000 0 0 1000 2000 3000 4000 5000 Estimation 11 (CV=19%). Peut-on utiliser les 21 valeurs de x pour les 21 bandes non dénombrées pour estimer T? Pour quantifier la relation entre x et y, deux variables mesurées sur les individus d’une population, on peut utiliser le coefficient de corrélation, N R (x x i 1 i U )( yi yU ) ( N 1) S x S y Pour les eiders la corrélation échantillonnale est de Rˆ 0.88 ce qui souligne la relation entre ces deux variables. ii) Estimation basée sur les estimations du biologiste est Tˆ2 N x i 1 i 52407 , v(Tˆ2 ) ? iii) Quel modèle statistique peut-on utiliser pour incorporer les valeurs de x dans l’estimation du total de y? Un modèle de régression par l’origine y=x + avec Var()=2x est souvent approprié. L’estimateur des moindres carrés de sous ce modèle est ˆ rs ys / xs . Pour les eiders ˆ 1.10 . La somme des résidus pour ce modèle de régression 12 étant nulle l’estimateur Tˆy yi iS iU S yˆ i yˆ i . Le troisième estimateur pour le nombre iU d’eiders est Tˆ3 NxU ys / xs 57 627. Pour estimer la variance on sait que (livre page 68) 1 1 f v( rs ) 2 xs n 2 ( yi rs xi )2 1 f N (1 f ) 2 ˆ et e v ( T ) ei2 , i 3 2 n 1 xs n(n 1) iS n(n 1) iS iS où ei yi ( ys / xs ) xi est le résidu de la régression échantillonnale qui prédit y par ( ys / xs ) x . Pour les données sur les eiders on trouve xs 1133 , ys 1246 , ys / xs 1.1, sx2 1548606, s y2 2287700, sxy 1658221 et e 2 i 7700902. 1 16 / 37 2 2 Donc, v(tˆ3 ) 37 2 2287700 2 1.1 1658221 1.1 1548606 4993 16 1 16 / 37 7700902 A l’aide des résidus v(tˆ3 ) 372 49932 (CV=8.6%) . 16 15 13 CALCUL DE LA VARIANCE POUR LES EIDERS i 1 2 3 4 5 6 7 8 9 10 1 12 13 14 14 16 somme 1400 750 325 4500 350 300 2000 1300 1000 1100 3500 300 400 225 350 330 1385 1153 817 6578 521 495 1532 1358 1419 956 1867 338 327 75 532 583 x2 1960000 562500 105625 20250000 122500 90000 4000000 1690000 1000000 1210000 12250000 90000 160000 50625 122500 108900 18130 19936 43772650 x y y2 xy résidu ei 1918225 1939000 -154.459 1329409 864750 328.29 667489 265525 459.625 43270084 29601000 1629.737 271441 182350 136.135 245025 148500 165.116 2347024 3064000 -667.228 1844164 1765400 -71.498 2013561 1419000 319.386 913936 1051600 -253.575 3485689 6534500 -1981.649 114244 101400 8.116 106929 130800 -112.846 5625 16875 -172.413 283024 186200 147.135 339889 192390 220.127 59155758 47463290 -0.001 14 Calcul de la variance de T̂3 par rapport au modèle : Le modèle utilisé est yi=βxi +εi avec Var(εi)=σ2xi voir le livre p.82. Pour ce calcul, on ignore le plan de sondage ; il se base sur le modèle pour les décomptes y qui sont maintenant considérées comme étant des variables aléatoires. On trouve ( yi ˆ xi )2 1 ˆ 244.76 iS n 1 xi 2 Un peu comme dans un cours de régression on s’intéresse ensuite à l’erreur de prédiciton de T3 par T̂3 , T3 Tˆ3 iU S yi yˆ i iU S xi i ˆ xi . L’estimation de la variance de cette erreur de prédiction est donnée par 37 37 ys 2 2 ˆ vM (T3 ) ( xi ) vM ˆ xi 47572 i 17 i 17 xs En échantillonnage on préfère calculer la variance par rapport au plan de sondage car ce dernier est contrôlé par le statisticien. Discussion : Lorsque le modèle de régression par l’origine avec variance hétérogène est utilisé pour traiter l’information auxiliaire, l’estimateur de yU a une forme particulièrement simple 15 yˆ r xU ys / xs . On n’a pas besoin de connaître le xi de chaque unité de la population pour l’utiliser. Il suffit de connaître xU . RETOUR A L’EXEMPLE CONCERNANT LA POPULATION DE TAILLE N=6. Si xU 4 est connu. L’estimateur par le quotient de yU est-il plus précis que l’estimateur par la moyenne Y i 1 2 3 4 5 6 y 3 4 18 4 5 15 x 2 3 6 4 4 5 La corrélation entre les deux variables est R=0.88 ; ainsi utiliser x devrait améliorer la précision de l’estimateur de yU . La moyenne échantillonale est non biaisée pour yU ; on calcule facilement Var( ys ) 7.2 . x y L’estimateur qui utilise l’information auxiliaire x est yˆ r U s . Il a un léger biais négatif car du xs tableau 2 on déduit E ( yˆ r ) 8 8.17 yU . L’erreur quadratique moyenne de cet estimateur pour la population du tableau 2 est facilement déduit de l’EQM de ys / xs , EQM( xU ys / xs ) xU2 EQM( ys / xs ) )=42×0.21=3.36. Même s’il est un peu biaisé cet estimateur est beaucoup plus précis que y s . 16 ESTIMATEUR PAR LA RÉGRESSION (3.2) Lorsqu’une régression par l’origine ne décrit pas bien la relation entre x et y on peut utiliser une régression linéaire simple standard correspondant au modèle, y=B0 B1x + avec Var()=2 Les paramètres inconnus sont estimés à l’aide des estimateurs des moindres carrés standards, ( xi xs )( yi ys ) sxy iS ˆ B1 = 2 et Bˆ 0 ys Bˆ1 xs . 2 sx ( xi xs ) iS L’estimateur de yU par le modèle de régression est la moyenne des valeurs prédites pour toute la population, c’est-à-dire la valeur prédite pour y à x xU , yˆ reg ys Bˆ1 ( xU xs ) . Le paramètre de la population finie estimé par B̂1 est N N i 1 i 1 B1 ( xi xU )( yi yU )/ ( xi xU )2 Pour estimer la variance on approxime yˆ reg par une statistique linéaire ys B1 ( xU xs ) , ainsi N 2 ( y y B ( x x )) i U 1 i U 1 f i 1 n N 1 et un estimateur de variance est donné par v( yˆ reg ) (1/ n 1/ N ) ei2 /(n 1) où ei est le résidu de la régression linéaire simple de y sur x pour les n unités de l’échantillon. Var(yˆ reg ) 17 Tableau 4 : Valeurs possibles des estimateurs yˆ reg et v( yˆ reg ) pour la population du Tableau 2. y1=3 y2=4 y3=18 y4=4 y5=5 y6=15 x1=2 x2=3 x3=6 x4=4 x5=4 x6=5 1 1 1 0 0 0 1 1 0 1 0 0 1 1 0 0 1 0 1 1 0 0 0 1 1 0 1 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 0 1 0 0 1 0 1 1 0 0 0 1 1 0 1 1 1 0 0 0 1 1 0 1 0 0 1 1 0 0 1 0 1 0 1 1 0 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 1 0 0 0 1 1 0 1 0 0 1 0 1 1 0 0 0 1 1 1 moyenne EQM( yˆ reg ) B̂1 3.96 0.5 1 4.21 3.75 3.75 3.81 0.75 3.5 3.57 5 4.93 4.79 0.5 5.5 5.5 6.75 7 6.5 10.5 yˆ reg v( yˆ reg ) 9.65 4.17 5 10.14 8.33 8.67 10.73 4.5 8.5 8.86 7 7.36 9.14 4.5 7.67 8 4.5 5.33 6.17 4.5 7.136 5.432 ICIC+ Couv 0.78 -1.58 20.88 1 0.03 1.97 6.37 0 0 5.00 5.00 0 0.96 -2.31 22.59 1 4.69 -19.20 35.86 1 3.36 -14.63 31.97 1 0.06 7.62 13.84 1 0.08 0.91 8.09 0 5.25 -20.62 37.62 1 3.86 -16.11 33.83 1 2.33 -12.40 26.40 1 1.44 -7.89 22.61 1 0.3 2.18 16.10 1 0.08 0.91 8.09 0 3.36 -15.63 30.97 1 2.25 -11.07 27.07 1 0.08 0.91 8.09 0 1.78 -11.63 22.29 1 1.36 -8.65 20.99 1 0.08 0.91 8.09 0 1.61 Couverture 0.70 Notons que ( yU 8.167 ). L’EQM de l’estimateur par la régression est 5.43. Il est moins précis que l’estimateur par le quotient qui a un EQM de 3.36. L’estimateur de variance sous-estime l’EQM par environ 70%. L’intervalle de confiance à 95% est calculé avec une valeur critique d’un t à un degré de liberté, 12.71. Le taux de couverture réel est quand même loin du taux de couverture nominal. La variance de l’approximation linéaire de yˆ reg est de 1.56 Elle sous-estime la vraie EQM de façon importante. 18 Discussion : Ce petit exemple illustre bien les difficultés associées à l’estimateur par la régression dans de petits échantillons. L’approximation linéaire de l’estimateur a une variance de beaucoup inférieure à l’EQM de yˆ reg ; ainsi cette approximation est carrément mauvaise dans de petits échantillons. La stratégie qui consiste à choisir le modèle de régression, avec ou sans ordonnée à l’origine, sur la base de l’estimation de la variance est mauvaise. Cette approche risque de privilégier l’estimateur par la régression car la variance de ce dernier est parfois très sous-estimée. En échantillonnage l’estimateur par le quotient est beaucoup plus utilisé que l’estimateur par la régression. Ce dernier est plus instable car il repose sur l’estimation de deux paramètres. Ainsi l’estimateur par la régression est très sensible à la présence de valeurs aberrantes. L’ajout de l’information auxiliaire a été abordé dans le cadre d’un plan aléatoire simple. La problématique reste la même pour un plan stratifié. L’estimateur par le quotient fait alors intervenir le rapport des moyennes ystr / xstr et l’estimateur par la régression s’appuie sur un estimateur convergent de la pente B1. Dans la littérature statistique le cas général à p variables explicatives est traité sous l’appellation estimateur GREG pour « generalized regression estimator ». 19