Chapitre 3 Estimateur par le ratio et par la régression

publicité
ESTIMATION D’UN RAPPORT DE MOYENNES ET UTILISATION DE L’INFORMATION
AUXILIAIRE
Dans plusieurs enquêtes les quantités à estimer s’expriment comme des rapports de totaux, par
exemple
Nb total de personnes qui occupent un emploi
taux de chômage = 1 Nb total de personnes disponibles à l'emploi
On va maintenant étudier les propriétés échantillonnales de ce type de statistique. On va d’abord
travailler sur le rapport de deux moyennes échantillonnales, rs  ys / xs , calculé à l’aide d’un
échantillon aléatoire simple. La statistique rs n’est pas une fonction linéaire des variables
indicatrices Z1,…,ZN ; il n’est donc pas possible de calculer une expression simple pour son
espérance et sa variance. Il faut procéder par approximation.
La caractéristique de la population estimée par rs est rU  yU / xU ; rs n’est pas une estimation
non biaisé de rU . Cependant sous certaines conditions | rU  rs | tend vers 0 en probabilité dans un
contexte semblable à celui du théorème de la limite centrale de Hajek, dans la mesure où xU est
non nul. On dit que rs est une estimation convergente de rU ou bien qu’elle est asymptotiquement
non biasée.
Pour évaluer sa variance on va approximer rs par une fonction linéaire de Z1,…,ZN . On procède
comme suit,
1
rs 
ys yU ys  rU xs  y s yU  
xs 


 

1

 

xs xU
xU
xU 
 xs xU  
petit

petit
yU ys  rU xs

xU
xU
Ainsi
y
y r x  1
Var( rs )  Var  U  s U s   2 Var  zs  avec zi  yi  rU xi .
xU
 xU
 xU
En fait rs  rU  g ( xs , ys )  g ( xU , yU ) où g(x,y)=y/x et on a approximé la différence à l’aide d’une
expansion en série de Taylor d’ordre 1 de la fonction bivariée g(x,y).
Ce résultat approximatif est valable quel que soit le plan de sondage. S’il est aléatoire simple
sans remise un estimateur de variance « approximativement » non biaisé est
( yi  rs xi )2
1 1 f
1 1 f 2
2 2
v( rs )  2

s

2

r

s

r
sx 


y
s
xy
s
2
xs n iS
n 1
xs n
où sxy est la covariance échantillonnale entre les deux variables.
Dans un plan stratifié,
2
1
1 H N h2 1  f h Nh { yhi  yhU  rU ( xhi  xhU )}2
Var( rs )  2 Var  zstr   2 

xU
xU h 1 N nh i 1
Nh  1
et l’estimateur de variance s’obtient en estimant la variance de z dans la strate h par la variance
échantillonnale et en prenant rˆU  rs .
Exemple : Étude des propriétés de l’estimateur ys / xs dans une petite population pour un plan
d’échantillonnage aléatoire simple sans remise.
Tableau 1 : Valeurs de y et de x pour les 6 unités d’une population artificielle
i
1
2
3
4
5
6
y
3
4
18
4
5
15
x
2
3
6
4
4
5
Dans la population à l’étude, yU  8.17, xU  4.0 et rU  yU / xU  2.042 et Sx2=2, Sy2=42.97 et la
covariance est Sxy=8.2 et la corrélation est R= Sxy/ Sx Sy=0.88. Un échantillon aléatoire simple de
taille n=3 est tiré de cette population. Ainsi le rapport des deux moyennes rs  ys / xs est une
variable aléatoire discrète prenant 20 valeurs, chacune avec une probabilité de 1/20. Le tableau
2 donne les 20 valeurs possibles de l’estimateur ys / xs et étudie ses propriétés échantillonnales.
On observe les résultats suivants :
3
 E ( ys / xs )  2.0  2.042 ainsi ys / xs sous-estime yU / xU d’environ 2%
 L’approximation de Var  ys / xs  obtenue par linéarisation est
1 1 f
Var( rs )  2
xU n
{ yi  yU  rU ( xi  xU )}2
1 1 f 2
2 2

S

2
r
S

r
Sx 


y
U
xy
U
2
N 1
xU n
i 1
N
1 1
2

42.97

2

2.042

8.2

2.042
 2  0.186

2
4 6
L’erreur quadratique moyenne de ys / xs ,
2
2

 ys

 ys yU  
 1
EQM ( ys / xs )  E  

 
  2.042  =0.205,
x
x
20
S U  xs
U  


 s

la variance approximative sous-estime l’erreur quadratique moyenne par environ 10%;
 L’espérance de l’estimateur de variance par linéarisation, v( ys / xs ) , est
1
E v ( rs ) 
v ( rs ) = 0.156.

20 S U
L’estimateur de variance v( ys / xs ) sous-estime EQM ( ys / xs ) par 24%.

 Le taux de couverture réel de l’intervalle de confiance avec un taux nominal de 95% calculé
avec t0.975,2  4.3 est de 80%.
4
Tableau 2 : Distribution de ys / xs et v( ys / xs ) pour la population du Tableau 1.
y1=3 y2=4
Echant. x1=2 x2=3
1
1
1
2
1
1
3
1
1
4
1
1
5
1
0
6
1
0
7
1
0
8
1
0
9
1
0
10
1
0
11
0
1
12
0
1
13
0
1
14
0
1
15
0
1
16
0
1
17
0
0
18
0
0
19
0
0
20
0
0
Valeur moyenne
y3=18
x3=6
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
y4=4
x4=4
0
1
0
0
1
0
0
1
1
0
1
0
0
1
1
0
1
1
0
1
y5=5
x5=4
0
0
1
0
0
1
0
1
0
1
0
1
0
1
0
1
1
0
1
1
y6=15
x6=5
0
0
0
1
0
0
1
0
1
1
0
0
1
0
1
1
0
1
1
1
ys / xs v( ys / xs ) IC-
IC+
Co.
2.27
1.22
1.33
2.2
2.08
2.17
2.77
1.2
2
2.09
2
2.08
2.64
1.18
1.92
2
1.93
2.47
2.53
1.85
2.00
4.11
1.68
1.53
4.05
4.29
4.13
3.66
1.58
4.19
4.05
4.14
4.03
3.92
1.49
4.02
3.91
4.03
4.25
4.10
3.88
1
0
0
1
1
1
1
0
1
1
1
1
1
0
1
1
1
1
1
1
0.8
0.182
0.011
0.002
0.185
0.262
0.209
0.043
0.008
0.260
0.207
0.249
0.207
0.089
0.005
0.239
0.198
0.239
0.173
0.132
0.224
0.16
0.44
0.77
1.14
0.35
-0.12
0.20
1.88
0.82
-0.19
0.14
-0.14
0.12
1.36
0.88
-0.18
0.09
-0.17
0.68
0.97
-0.19
5
ESTIMATEUR DU RAPPORT DE 2 MOYENNES DANS UN PLAN STRATIFIÉ
L’estimateur est donné par rˆs  ystr / xstr . Il est approximativement sans biais et on a vu que sa
variance peut être estimée par
N h2 1  f h
1
v( rˆs )  2  2
( yhj  yh  ystr ( xhj  xh ) / xstr ) 2

xstr h N nh (nh  1) j
2






N 1  fh 2
yst
yst
1
2
 s yh  2   sxyh    s xh 
v ( rˆs )  2 

xstr h N nh 
 xst 
 xst 


Estimation du coût de production par tête de bétail de producteurs bovins (y=coût du producteur,
x= production). Suite de l’exemple 2 du ch. IV
2
s 2yh
s xyh
xh
yh
s xh
strate Taille Nh/N
nh
1
625
0.429
107 7.5
13.45
2.3
1.5
3.5
2
418
0.287
72 15.6
75.32
5.1
10.4 8.4
3
255
0.175
44 29.33
230.45
9.4
33.8 40.5
4
158
0.109
27 55.9
898.45
17.8 100.9 122.4
tot
1456
250 18.90
6.03
Estimation de variance du coût
Estimation de la production moyenne 18.9 unitaire
0.0002
Estimation du coût moyen
6.03 Erreur-type
0.014
Coût de production par animal
0.32 Intervalle de Confiance 0.291 0.347
2
h
2
6
DISCUSSION
L’estimation de la variance de statistiques non-linéaires est un problème important en statistique,
tout domaine confondu. La linéarisation d’une statistique est toujours la même peu importe le
domaine d’application (ou le plan de sondage sous jacent) ; cette méthode d’estimation de la
variance est aussi appelée « méthode delta » et « théorême de Slutzky ». En échantillonnage il
est bien connu que pour un quotient de moyennes la variance estimée par linéarisation sousestime la vraie erreur quadratique moyenne. Les résultats obtenus pour la petite population de 6
unités où l’estimateur de variance par linéarisation a un biais négatif de 24% sont donc
représentatifs de la littérature sur ce sujet. Evidemment l’ampleur du biais diminue lorsque n
augmente car on se rapproche des conditions « asymptotiques » à la base de l’approximation de
la statistique à l’étude par une variable aléatoire linéaire.
Il existe d’autres méthodes d’estimation de la variance de statistiques non linéaires qui
s’appuient sur le ré-échantillonnage. On peut mentionner le jackknife et le bootstrap. Ces
méthodes corrigent partiellement le biais négatif de l’estimateur par linéarisation. Elles ont été
adaptées à l’échantillonnage et implantées au Canada. En effet les données de plusieurs
enquêtes de Statistique Canada sont maintenant fournies avec des ensembles de poids bootstrap
qui permettent de faire du ré-échantillonnage pour estimer les variances de statistiques estimées
avec des données d’enquête. A l’université Laval ces estimateurs sont abordés dans le deuxième
d’échantillonnage, STT-7340 Sondages modèles et techniques.
7
ESTIMATION DANS UN DOMAINE DE LA POPULATION
Un domaine est un sous-ensemble de la population qui présente un intérêt particulier. On veut
produire des estimations des moyennes et des totaux des variables d’intérêt dans ces domaines.
Dans un sondage l’ensemble des femmes, les jeunes de 15 à 24, ou les résidents d’une ville ou
d’un comté particulier forment des domaines. Pour estimer le total et la moyenne de y dans le
domaine D on utilise les formules suivantes
wi yi

TˆyD   wi yi et y Ds  iS  D
iS  D
 wi
iS  D
Ces formules sont générales et s’appliquent pour un plan d’échantillonnage quelconque.
L’estimation de la variance dépend du plan. Si, comme dans la section 3.3, le plan est aléatoire
simple alors
TˆyD
v (TˆyD )
ND connue
N D yDs
ND inconnue
Nnd
y Ds
n
N D2 (1  f ) s 2yD / nD
2





2 (1  f ) 
2
N
  yi    yi  / n 
n(n  1) 
 iS D 

iS D

8
Exemple : On tire un échantillon aléatoire simple de 200 personnes auprès d’une population de
1500 bénéficiaires de l’aide sociale, pour estimer les prestations d’un certain type qui ont été
versées. Trente des personnes échantillonnées ne sont plus sur l’aide sociale et n’ont reçu
aucune prestation et pour les 170 autres la moyenne et la variance des prestations reçus (en
milliers de dollars) sont de yDs  3.2 et de sD2=1.5. On veut :
a) Estimer le total des prestations versées, avec un intervalle de confiance à 95%
Nnd
1500  170
TˆD 
yDs 
3.2  4080 et
n
200
2
2
2
2

 15002  (13 / 15) 

N
(1

f
)
1
170

3.2


2
2
v (TˆD ) 
y

y

169

1.5

170

3.2

  i


 i 
n(n  1) iS D
n  iS D  
200  199 
200

 25214
L’IC est donc 4080  1.96  25214  (3769,4391)
b) Refaire a) sachant que la liste de départ contient 195 personnes qui n’étaient plus
admissible et qui n’ont rient reçu. On sait que ND=1305
2
1305
(1  170 / 1305)
On a TˆD  1305  yDs  4176 et v(TˆD ) 
 1.5  13069
170
L’IC est donc 2915  1.96  4899  (3952,4400) . Connaître la taille du domaine permet
de réduire la variance d’environ 50%.
9
INFORMATION AUXILIAIRE
Pour estimer le total ou la moyenne d’une variable d’intérêt y on dispose parfois d’une variable
auxiliaire x connue pour toutes les unités de la population. On peut utiliser cette variable pour
former des strates et construire ainsi un plan d’échantillonnage qui permettra de bien estimer la
moyenne de y. Même si x n’est pas utiliser pour construire le plan de sondage, on peut l’utiliser
a posteriori, par le biais d’un modèle de régression de y sur x. Pour simplifier la présentation, on
suppose que les données sont recueillies selon un plan aléatoire simple.
On connaît {xi : i dans U} et {(xi, yi) : i dans S}. Pour estimer le total de y on veut procéder de la
façon suivante :
1. On détermine un modèle pour prédire y sachant x
2. On calcule des prévisions de y pour les unités non-échantillonnées et on prend
Tˆy   yi   yˆ i
iS
iU  S
On va étudier cette façon de faire dans deux cas : un modèle de régression par l’origine avec
variance hétérogène et un modèle de régression linéaire simple standard. On s’intéresse ici aux
propriétés de ces estimateurs par rapport au plan
10
Exemple. Estimation du nombre d’eiders à duvet mâles dans le golf St-Laurent.
Pour estimer le nombre d’eiders dans le golf du St- Laurent, des
biologistes survolent et photographies les bandes d’oiseaux
présentes sur le fleuve. Lors d’un inventaire N=37 bandes ont
été vues mais seulement un échantillon aléatoire de n=16
bandes ont été photographiées et dénombrées. Pour ces
dernières on connaît x, l’estimation de la taille faite par le
biologiste et y, le décompte exact. Pour les 21 autres bandes on
ne dispose que du décompte approximatif x.
Tableau 1. Données échantillonnales
x
y
x
y
1400 1385
1000
1419
750
1153
1100
956
325
817
3500
1867
4500 6578
300
338
350
521
400
327
300
495
225
75
2000 1532
350
532
1300 1358
330
583
Graphique de dispersion échantillonnale et droite de
régression qui passe par l’origine pour les n=16 données.
i) Estimation par la moyenne : Tˆ1  37 ys  46 102
2
(
y

y
)
1
1

i
s


iS
v (Tˆ1 )  37  
 86722

15
 16 37 
2
7000
6000
5000
Décompte
4000
prédite 3000
2000
1000
0
0
1000
2000
3000
4000
5000
Estimation
11
(CV=19%).
Peut-on utiliser les 21 valeurs de x pour les 21 bandes non dénombrées pour estimer T?
Pour quantifier la relation entre x et y, deux variables mesurées sur les individus d’une
population, on peut utiliser le coefficient de corrélation,
N
R
(x  x
i 1
i
U
)( yi  yU )
( N  1) S x S y
Pour les eiders la corrélation échantillonnale est de Rˆ  0.88 ce qui souligne la relation entre ces
deux variables.
ii) Estimation basée sur les estimations du biologiste est Tˆ2 
N
x
i 1
i
 52407 , v(Tˆ2 )  ?
iii) Quel modèle statistique peut-on utiliser pour incorporer les valeurs de x dans l’estimation du
total de y? Un modèle de régression par l’origine
y=x +  avec Var()=2x
est souvent approprié. L’estimateur des moindres carrés de  sous ce modèle est
ˆ  rs  ys / xs . Pour les eiders ˆ  1.10 . La somme des résidus pour ce modèle de régression
12
étant nulle l’estimateur Tˆy   yi 
iS

iU  S
yˆ i   yˆ i . Le troisième estimateur pour le nombre
iU
d’eiders est Tˆ3  NxU ys / xs  57 627. Pour estimer la variance on sait que (livre page 68)
1 1 f
v( rs )  2
xs n
2
( yi  rs xi )2
1 f
N
(1  f )
2
ˆ
et

e
v
(
T
)

ei2 ,



i
3
2
n 1
xs n(n  1) iS
n(n  1) iS
iS
où ei  yi  ( ys / xs ) xi est le résidu de la régression échantillonnale qui prédit y par ( ys / xs ) x .
Pour les données sur les eiders on trouve xs  1133 , ys  1246 , ys / xs  1.1,
sx2  1548606, s y2  2287700, sxy  1658221 et
e
2
i
 7700902.
 1  16 / 37 
2
2
Donc, v(tˆ3 )  37 2 
  2287700  2 1.1 1658221 1.1 1548606   4993
16


 1  16 / 37  7700902
A l’aide des résidus v(tˆ3 )  372 
 49932 (CV=8.6%) .

16

 15
13
CALCUL DE LA VARIANCE POUR LES EIDERS
i
1
2
3
4
5
6
7
8
9
10
1
12
13
14
14
16
somme
1400
750
325
4500
350
300
2000
1300
1000
1100
3500
300
400
225
350
330
1385
1153
817
6578
521
495
1532
1358
1419
956
1867
338
327
75
532
583
x2
1960000
562500
105625
20250000
122500
90000
4000000
1690000
1000000
1210000
12250000
90000
160000
50625
122500
108900
18130
19936
43772650
x
y
y2
xy
résidu ei
1918225 1939000 -154.459
1329409
864750
328.29
667489
265525
459.625
43270084 29601000 1629.737
271441
182350
136.135
245025
148500
165.116
2347024 3064000 -667.228
1844164 1765400
-71.498
2013561 1419000
319.386
913936 1051600 -253.575
3485689 6534500 -1981.649
114244
101400
8.116
106929
130800 -112.846
5625
16875 -172.413
283024
186200
147.135
339889
192390
220.127
59155758 47463290
-0.001
14
Calcul de la variance de T̂3 par rapport au modèle : Le modèle utilisé est
yi=βxi +εi avec Var(εi)=σ2xi
voir le livre p.82. Pour ce calcul, on ignore le plan de sondage ; il se base sur le modèle pour les
décomptes y qui sont maintenant considérées comme étant des variables aléatoires. On trouve
( yi  ˆ xi )2
1
ˆ 
 244.76

iS
n 1
xi
2
Un peu comme dans un cours de régression on s’intéresse ensuite à l’erreur de prédiciton de T3
par T̂3 , T3  Tˆ3  iU S yi  yˆ i iU S  xi   i  ˆ xi . L’estimation de la variance de cette
erreur de prédiction est donnée par
37
37
 ys 
2
2
ˆ
vM (T3 )  (  xi ) vM    ˆ  xi  47572
i 17
i 17
 xs 
En échantillonnage on préfère calculer la variance par rapport au plan de sondage car ce dernier
est contrôlé par le statisticien.
Discussion : Lorsque le modèle de régression par l’origine avec variance hétérogène est utilisé
pour traiter l’information auxiliaire, l’estimateur de yU a une forme particulièrement simple
15
yˆ r  xU ys / xs . On n’a pas besoin de connaître le xi de chaque unité de la population pour
l’utiliser. Il suffit de connaître xU .
RETOUR A L’EXEMPLE CONCERNANT LA POPULATION DE TAILLE N=6.
Si xU  4 est connu. L’estimateur par le quotient de yU est-il plus précis que l’estimateur par la
moyenne Y
i
1
2
3
4
5
6
y
3
4
18
4
5
15
x
2
3
6
4
4
5
La corrélation entre les deux variables est R=0.88 ; ainsi utiliser x devrait améliorer la précision
de l’estimateur de yU . La moyenne échantillonale est non biaisée pour yU ; on calcule
facilement Var( ys )  7.2 .
x y
L’estimateur qui utilise l’information auxiliaire x est yˆ r  U s . Il a un léger biais négatif car du
xs
tableau 2 on déduit E ( yˆ r )  8  8.17  yU . L’erreur quadratique moyenne de cet estimateur pour
la population du tableau 2 est facilement déduit de l’EQM de ys / xs ,
EQM( xU ys / xs )  xU2 EQM( ys / xs ) )=42×0.21=3.36.
Même s’il est un peu biaisé cet estimateur est beaucoup plus précis que y s .
16
ESTIMATEUR PAR LA RÉGRESSION (3.2)
Lorsqu’une régression par l’origine ne décrit pas bien la relation entre x et y on peut utiliser une
régression linéaire simple standard correspondant au modèle,
y=B0 B1x +  avec Var()=2
Les paramètres inconnus sont estimés à l’aide des estimateurs des moindres carrés standards,
( xi  xs )( yi  ys )

sxy
iS
ˆ
B1 
= 2 et Bˆ 0  ys  Bˆ1 xs .
2
sx
 ( xi  xs )
iS
L’estimateur de yU par le modèle de régression est la moyenne des valeurs prédites pour toute la
population, c’est-à-dire la valeur prédite pour y à x  xU , yˆ reg  ys  Bˆ1 ( xU  xs ) .
Le paramètre de la population finie estimé par B̂1 est
N
N
i 1
i 1
B1   ( xi  xU )( yi  yU )/  ( xi  xU )2
Pour estimer la variance on approxime yˆ reg par une statistique linéaire ys  B1 ( xU  xs ) , ainsi
N
2
(
y

y

B
(
x

x
))
 i U 1 i U
1  f i 1
n
N 1
et un estimateur de variance est donné par v( yˆ reg )  (1/ n  1/ N ) ei2 /(n  1) où ei est le résidu de
la régression linéaire simple de y sur x pour les n unités de l’échantillon.
Var(yˆ reg )
17
Tableau 4 : Valeurs possibles des estimateurs yˆ reg et v( yˆ reg ) pour la population du Tableau 2.
y1=3 y2=4 y3=18 y4=4 y5=5 y6=15
x1=2 x2=3 x3=6 x4=4 x5=4 x6=5
1
1
1
0
0
0
1
1
0
1
0
0
1
1
0
0
1
0
1
1
0
0
0
1
1
0
1
1
0
0
1
0
1
0
1
0
1
0
1
0
0
1
1
0
0
1
1
0
1
0
0
1
0
1
1
0
0
0
1
1
0
1
1
1
0
0
0
1
1
0
1
0
0
1
1
0
0
1
0
1
0
1
1
0
0
1
0
1
0
1
0
1
0
0
1
1
0
0
1
1
1
0
0
0
1
1
0
1
0
0
1
0
1
1
0
0
0
1
1
1
moyenne
EQM( yˆ reg )
B̂1
3.96
0.5
1
4.21
3.75
3.75
3.81
0.75
3.5
3.57
5
4.93
4.79
0.5
5.5
5.5
6.75
7
6.5
10.5
yˆ reg v( yˆ reg )
9.65
4.17
5
10.14
8.33
8.67
10.73
4.5
8.5
8.86
7
7.36
9.14
4.5
7.67
8
4.5
5.33
6.17
4.5
7.136
5.432
ICIC+ Couv
0.78 -1.58 20.88
1
0.03 1.97 6.37
0
0 5.00 5.00
0
0.96 -2.31 22.59
1
4.69 -19.20 35.86
1
3.36 -14.63 31.97
1
0.06 7.62 13.84
1
0.08 0.91 8.09
0
5.25 -20.62 37.62
1
3.86 -16.11 33.83
1
2.33 -12.40 26.40
1
1.44 -7.89 22.61
1
0.3 2.18 16.10
1
0.08 0.91 8.09
0
3.36 -15.63 30.97
1
2.25 -11.07 27.07
1
0.08 0.91 8.09
0
1.78 -11.63 22.29
1
1.36 -8.65 20.99
1
0.08 0.91 8.09
0
1.61 Couverture 0.70
Notons que ( yU  8.167 ). L’EQM
de l’estimateur par la régression
est 5.43. Il est moins précis que
l’estimateur par le quotient qui a
un EQM de 3.36. L’estimateur de
variance sous-estime l’EQM par
environ 70%.
L’intervalle de confiance à 95%
est calculé avec une valeur
critique d’un t à un degré de
liberté, 12.71. Le taux de
couverture réel est quand même
loin du taux de couverture
nominal.
La variance de l’approximation
linéaire de yˆ reg est de 1.56 Elle
sous-estime la vraie EQM de
façon importante.
18
Discussion : Ce petit exemple illustre bien les difficultés associées à l’estimateur par la
régression dans de petits échantillons. L’approximation linéaire de l’estimateur a une variance
de beaucoup inférieure à l’EQM de yˆ reg ; ainsi cette approximation est carrément mauvaise dans
de petits échantillons. La stratégie qui consiste à choisir le modèle de régression, avec ou sans
ordonnée à l’origine, sur la base de l’estimation de la variance est mauvaise. Cette approche
risque de privilégier l’estimateur par la régression car la variance de ce dernier est parfois très
sous-estimée.
En échantillonnage l’estimateur par le quotient est beaucoup plus utilisé que l’estimateur par la
régression. Ce dernier est plus instable car il repose sur l’estimation de deux paramètres.
Ainsi l’estimateur par la régression est très sensible à la présence de valeurs aberrantes.
L’ajout de l’information auxiliaire a été abordé dans le cadre d’un plan aléatoire simple. La
problématique reste la même pour un plan stratifié. L’estimateur par le quotient fait alors
intervenir le rapport des moyennes ystr / xstr et l’estimateur par la régression s’appuie sur un
estimateur convergent de la pente B1. Dans la littérature statistique le cas général à p variables
explicatives est traité sous l’appellation estimateur GREG pour « generalized regression
estimator ».
19
Téléchargement