Telechargé par lobna Merghni

Abd-Basid ADAN Sondage2 .pdf (1)

publicité
Sondage : méthodes probabilistes
Université de Cheik Anta Diop de Dakar
Faculté des sciences économiques et de gestion (FASEG)
Centre de recherche et de formation pour le développement
Economique et social (CREFDES)
Projet de sondage
Professeur cissé
Master II en Méthodes Statistiques et Econométriques (MSE)
2016-2017
Réalisés par :
Abdi-Basid ADAN
Abdi-Basid IBRAHIM ADAN [date of birth : 23/07/1993]
Hawa DIENG
[date of birth : 13/12/1990]
Johana marie NDIONE
[date of birth : 23/07/1990]
Adresse : 45753 Dakar-Fann, Km1 Avenue Cheikh Anta Diop,
Dakar 45753 Téléphone : 33 864 55 28
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes
Tables Des Matières
Liste de tableau………………………………………………………....……..…………….………….2
Liste des graphiques………………………………........................................................................2
Liste des sigles et abréviations ……………..………………………………………………………...2
Introduction…………………..……………………………………………………………...………......3
I-
Estimation de la superficie totale des fermes aux Etats-Unis………..……….…………5
1-
Préambule……………………..………………………………..………………...……..…5
2-
Estimation avec un seul échantillon……………………..…………… ……….………..9
II-
Simulations..………………………………..………………………………..…….……..…14
1- Comparaison de quatre plans de sondage……………………..…………… ….….…..15
2- Comparaison de deux méthodes d’estimations pour un plan SI………………….……17
Annexe………………………………………………………..…………………..………………...… 18
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes
Listes des tabLeaux et sigLes d’abréviations
⟹ Liste de tableau
Tableau 1 : Répartition des communes par région géographique.
⟹ Liste des figures
Figure 1 : Diagramme de dispersion de communes par région géographique
Figure 2 : Diagramme de dispersion de la superficie des fermes en 1992 en fonction
de celle de 1982
Figure 3 : Ajustement par moindres carrées de la superficie en 1992 en fonction de
1982.
Figure 4 : Boîtes à moustaches de la superficie en 1992 en fonction des quatre
modalités de la variable REGION
Figure 5 : variable ACRES92 selon la probabilité de sélection et d’inclusion (PÏAR)
Figure 6: variable ACRES92 selon la probabilité de sélection et d’inclusion (PEAR)
⟹ Liste des sigles et abréviations
Xlab
: Label of axis x
Sd
: Standart Déviation
Rep
: repeat
mstage
: Multistage
srswor/ srswor
: simple random sampling without/ with replacement
col
: color
CV
: coefficient de variation
SI
svydesign
: plan aléatoire simple sans remise
: Défini le plan d’échantillonnage d’un tableau de
données
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes
INTRODUCTION
Aux États-Unis, les recensements de l’agriculture ont lieu tous les 5 ans, ils
comptaient 2,1 millions d'exploitations agricoles en 2012, en baisse de 4,3 % par rapport
à 2007 (2,2 millions d'exploitations). Mais la surface totale de terre cultivée est restée
relativement stable sur la même période : elle n'a diminué que de moins d’1 %, passant
de 922 à 915 millions d'acres (370 millions d'ha). On observe donc un accroissement
de la surface cultivée par exploitation, plaçant la moyenne à 176 ha contre 169 en 2007.
C’est le Texas qui possède le plus grand nombre d’exploitations agricoles et la Californie
En effet, l'agriculture des États-Unis a commencé très tôt, dès l'époque des
indiens. Ils cultivaient notamment du blé et de l'orge mais aussi du cacao, des
tomates...etc. Elle s'est réellement intensifiée avec l'arrivée des esclaves africains au
premier siècle. Il est un secteur clé de l'économie américaine, le pays étant
le 1er exportateur et le 2e importateur mondial. C'est la première agriculture au monde..
Depuis le XIXe siècle, la Corn Belt (« ceinture de maïs ») est la principale zone agricole
de ce pays - la Sun Belt étant connue pour ses fruits. En 2012 : 2,2 millions
d'exploitations, 371 millions d'hectares de surface agricole utile (169 hectares par ferme
en moyenne). La majorité de la production agricole se trouve dans les Grandes Plaines,
ainsi que la vallée de San Joaquin (Californie).
Dans le projet ci-contre, son intérêt porte sur l’échantillonnage par des
méthodes probabilistes afin de mettre au point un estimateur précis à variance
minimale. La variable auxiliaire en corrélation avec cette dernière est la superficie des
fermes en 1982 (ACRES82).
Master 2 En Méthodes Statistiques Et Econométriques
1 : Page
le plus gros revenu agricole.
Sondage : méthodes probabilistes
I-
Estimation de la superficie totale des fermes aux Etats-Unis
1. Préambule
Elément de Réponse
# Spécification du répertoire du dossier de travail
getwd()
setwd("D:/Abdi-Basid ADAN/Projets Générales/Sondage Cissé 2")
# L’importation de la base de données
samp <- read.csv("AGPOP.csv",header=T,sep=";") ; View(samp
# Vérifications des observations et des variables.
dim(samp)
ls.str(samp)
tail(samp) ; head(samp)
Remarque :
a) Il s’agit d’étudier les caractéristiques de la population statistique (l’univers Ω :
l’ensemble des communes) :

Pour ce faire, on utilise les commandes sous le logiciel statistique R :
attach(samp)
# extraction des variables de la base
ty=sum(ACRES92) # total de ty
tx=sum(ACRES82) #superficie de fermes
rbind (ty,tx)
# Sortie de resultats
tapply(COUNTY, REGION, FUN=length)# Commune par region
install.packages(« Hmisc ») # installer puis Charger l’outils Hmisc
library(Hmisc)
# Deuxieme méthode commune par region
c=summarize(COUNTY, by=REGION,FUN = length)
barplot(c$COUNTY, col=rainbow(10),legend.text=TRUE)# Par graphique
On observe une superficie totale (ty) de 923 355 862 d’acres en 1992; alors que 10 ans
auparavant (1982), cette superficie était de 963 376 742 sur le 2992 communes.
En ce qui concerne, le nombre de communes par région géographique, il est possible
pour une meilleur illustration de visualiser par un graphique adapté :
* En cas de copie des commandes, veuillez rectifier les guillemets lors de l’exécution
Master 2 En Méthodes Statistiques Et Econométriques
2 : Page
Les espaces entre les modalités de la variable COUNTY n’influence pas les calculs réalisés. En effet, en
remplaçants par des underscores les 2992 observations, les résultats observés sont identiques.
Sondage : méthodes probabilistes
Figure 1 : Diagramme de dispersion de communes par région géographique
3 : Page
Tableau 1 : Répartition des communes par région géographique.
REGION
North Center
North East
South
West
Total
Source R, 2017
COUNTY
1029
211
1348
404
2992
FREQUENCY (%)
34.40
7.05
45.05
13.50
100
On y voit à travers le graphique de distribution et le tableau associés, deux principaux
régions le nord-centre et le sud : la sun belt et les plaines, qui constituent 79.45% de la
production agricoles américaine.
b) Pour représenter graphiquement la variable d’intérêt en fonction de la variable
auxiliaire, on peut faire appel à plusieurs fonctions sous R :
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes

Pour ce faire, on utilise les instructions ci-dessous :
Install.packagrs(« lattice ») # Intsaller lattice
library(lattice)
# Charger l’outils lattice
barchart(ACRES92~ACRES82,data = samp, origin = 0, horizontal =F)
reg=lm(ACRES92~ACRES82,samp)
#regression de y sur x
plot(ACRES92~ACRES82,pch=3,samp,col=3,fg=2)
abline(reg, col=2,lwd=2)
# droite de moindre carrés
boxplot(ACRES92 ~
REGION,horizontal=F,col=c("red","purple","brown","blue"))
On obtient :
A travers la représentation bidimensionnelle d’ACRES 92 selon ACRES82, on peut
noter qu’il existe un lien de similitude de croissance positive en termes de superficie
sur les 2992 communes.
Master 2 En Méthodes Statistiques Et Econométriques
4 : Page
Figure 2 : Diagramme de dispersion de la superficie des fermes en 1992 en
fonction de celle de 1982 :
Sondage : méthodes probabilistes
Figure 3 : Ajustement par moindres carrées de la superficie en 1992 en fonction
de 1982.
5 : Page
Cet ajustement témoigne, l’idée d’une corrélation très significative entre la variable
d’intérêt (Y ou ACRES92) et celle auxiliaire (x ou ACRES82). La variable ACRES82 est
fortement corrélée avec ACRES92, car l’erreur commise par l’ajustement est faible.
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes
Figure 4 : Boîtes à moustaches de la superficie en 1992 en fonction des quatre
modalités de la variable REGION :
6 : Page
La répartition de nombre d’acres dédiés aux fermes en 1992 selon les quatre régions
montre une hétérogénéité relative. On y voit deux principaux régions de la production
agricole, le Nord centre (NC) et l’Ouest (W).
2. Estimation avec un seul échantillon
Elément de Réponse
a) Il s’agit d’abord d’échantillonner la population selon un plan aléatoire simple et sans
remise de taille 200 individus statistiques, puis d’estimer le total d’Horvitz-Thompson
d’acres dédiés aux fermes en 1992 et d’évaluer ses propriétés :
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes

Pour ce faire, on utilise les commandes du logiciel statistique R ci-dessous :
set.seed(2992)
# definition de la graine aléatoire
library(sampling)# charger les packages du sondage aléatoire simple sas
sampwor<-srswor(200,2992) # sondage aléatoire simple 200 parmi 2992
# Estimation d’ACRES 92 dans l’echantillon
ACRES92.chap<-samp$ACRES92[sampwor==1] ; pi=rep.int(200/2992,200)
# Total deHorvitz-Thompson
TACRES92.ht=HTestimator(ACRES92.chap,pi);print(TACRES92.ht)
# Estimation de la varianec
varHT=2992^2*(1-200/2992)*var(samp$ACRES92[which(sampwor==1)])/200
CV = sd(ACRES92.chap)/mean(ACRES92.chap); CV
 On obtient ainsi l’estimateur du total « tau de Horvitz-Thompson », la valeur :
 L’estimation de la variance de Horvitz-Thompson vaut :
̂
var(
τ̂HT ) = 4.50882e + 15
 Le coefficient de variation (ou CV) est le rapport de l'écart-type à la moyenne, lorsque
l'on dispose de valeurs estimées, le CV rapporte l'écart-type de l'estimation à la
valeur de cette estimation :
𝑠(𝑎𝑐𝑟𝑒𝑠92)
= 1.134474
𝑥̅ (𝑎𝑐𝑟𝑒𝑠92)
Avec acres92 l’estimation de la variable y (ACRES92) dans l’échantillon de taille 200,
s et ̅𝑥, l’écart type et la moyenne de l’échantillon.
b) On considère les mêmes procédés de tirage sans remise, mais cette fois-ci, il
s’agit de sonder avec une population stratifié en zone de dénombrement (ici les
régions).
Master 2 En Méthodes Statistiques Et Econométriques
7 : Page
τ̂HT = 866 512 836
Sondage : méthodes probabilistes

Pour ce faire, on utilise les commandes du logiciel statistique R :
 CAS 1 : Sondage Stratifie Proportionnel (STP)
Après avoir sondé par stratification proportionel les 200 communes dans la base de
sondage :
 On obtient comme estimateur du total ty (ACRES92) d’Horvitz-Thompson, la
valeur :
τ̂HT = 1 042 328 412
 L’estimation de la variance du total de Horvitz-Thompson vaut :
̂
var(
τ̂HT ) = 192 720 792.
Master 2 En Méthodes Statistiques Et Econométriques
8 : Page
library(Hmisc) # charger l’outils de Hmisc
summarize(COUNTY, by=REGION,FUN = length) # Communes par Region
N=2992;N1=1029;N2=211;N3=1348;N4=404
# Taille de chaque strates
n=200;n1<-round(N1*n/N);n2<-round(N2*n/N) # stratification proportionel
n3<-round(N3*n/N);n4<-round(N4*n/N)
n1;n2;n3;n4;sum(n1,n2,n3,n4)
library(sampling)
set.seed(2992)
sampstr=strata(samp,stratanames=c("REGION"),size=c(n1,n2,n3,n4),method="s
rswor")
# stratification par region
sampstra=getdata(samp,sampstr) # base de données de l’echantillon
pond=c(rep(N1/n1,n1),rep(N2/n2,n2),rep(N3/n3,n3),rep(N4/n4,n4))
library(survey)
samp.s=svydesign(id=~1,strata=~REGION,weights=pond,fpc=c(rep(n1/N1,n1),re
p(n2/N2,n2),rep(n3/N3,n3),rep(n4/N4,n4)),
data=sampstra)
# Estimation ACRES92
tau.ht.st1=svytotal(~ACRES92,samp.s); tau.ht.st1 [1]#Total HT ACRES92
# Estimation de la variance
var.ht.stp=(1200/2992)*var(samp$ACRES92[which(sampstr==1)])/200;var.ht.stp
moy.stp=mean(samp$ACRES92[which(sampstr==1)])
sd.stp=sd(samp$ACRES92[which(sampstr==1)])# l’ecart type echant.
d’ACRES92
cv.stp=sd.stp/moy.stp; cv.stp
# le coefficient de variation
Sondage : méthodes probabilistes
 Le coefficient de variation (ou CV) est le rapport de l'écart-type à la moyenne, lorsque
l'on dispose de valeurs estimées, le CV rapporte l'écart-type de l'estimation à la
valeur de cette estimation :
𝑠 (𝑎𝑐𝑟𝑒𝑠92)
𝑥̅ (𝑎𝑐𝑟𝑒𝑠92)
= 0.7145118
Avec acres92 l’estimation de la variable y (ACRES92) dans l’échantillon de taille 200,
s et ̅𝑥, l’écart type et la moyenne de l’échantillon.
 CAS 2 : Sondage Stratifie Optimal (STO)

Pour ce faire, on utilise les commandes du logiciel statistique R :
Après avoir sondé par stratification optimal les 200 communes dans la base de
sondage :
 On obtient comme estimateur du total ty (ACRES92) d’Horvitz-Thompson, la
valeur :
τ̂HT = 1 092 898 813
Master 2 En Méthodes Statistiques Et Econométriques
9 : Page
n=200; N.op=c(N1,N2, N3,N4) # definition de la taille des 4 strates
ACRES92sd=tapply(ACRES92,REGION,sd)# calcul des ecart types par strates
n.op=round(n*N.op*ACRES92sd/sum(N.op*ACRES92sd)); n.op
n1opt=n.op[1];n2opt=n.op[2];n3opt=n.op[3];n4opt=n.op[4]
pond2=c(rep(N1/n1opt,n1opt),rep(N2/n2opt,n2opt),rep(N3/n3opt,n3opt),rep(N
4/n4opt,n4opt)) # Allocation de Neyman pour les tailles de l’échantillon
set.seed(2992)
# Défintition de la graine aléatoire
stra.samp=strata(samp,"REGION",size=c(n1opt,n2opt,n3opt,n4opt),method="sr
swor")
samp.strat2=getdata(samp,stra.samp) # Base de données de l’échantillon
samp.tau2=svydesign(id=~1,strata=~REGION,weights=pond2,
fpc=c(rep(n1opt/N1,n1opt),rep(n2opt/N2,n2opt),rep(n3opt/N3,n3opt),rep(n4o
pt/N4,n4opt)),data=samp.strat2)
tau.opt=svytotal(~ACRES92,samp.tau2) ; tau.opt[1] # estimation de total y
var.ht.sto=var(samp$ACRES92[which(stra.samp==1)])/200var(samp$ACRES92[which(stra.samp==1)])/2992 ;var.ht.sto #variance HT
moy.sto=mean(samp$ACRES92[which(stra.samp==1)])
sd.sto=sd(samp$ACRES92[which(stra.samp==1)])# ecrat type de l’échantillon
cv.sto=sd.sto/moy.sto; cv.sto # coefficient de variation
Sondage : méthodes probabilistes
 L’estimation de la variance du total de Horvitz-Thompson vaut :
̂
var(
τ̂HT ) = 213 492 712.
 Le coefficient de variation (ou CV) est le rapport de l'écart-type à la moyenne, lorsque
l'on dispose de valeurs estimées, le CV rapporte l'écart-type de l'estimation à la
valeur de cette estimation :
𝑠 (𝑎𝑐𝑟𝑒𝑠92)
𝑥̅ (𝑎𝑐𝑟𝑒𝑠92)
= 0.7362664
Avec acres92 l’estimation de la variable y (ACRES92) dans l’échantillon de taille 200,
s et ̅𝑥, l’écart type et la moyenne de l’échantillon.
inégale et avec remise (PIAR) :

Pour ce faire, on utilise les commandes du logiciel statistique R :
set.seed(2992)
# Fixation de la graine aléatoire
# Installation de l’outils TeachingSampling
install.package(« TeachingSampling » )
library(TeachingSampling) # Chargement de l’outils TeachingSampling
sampps <- S.PPS(200,samp$ACRES82) # ecahntillonage de taille 200
sam <- sampps[,1]
# sondage a prob. proportionnel à ACRES82
PPS <- samp[sam,]; PPS
varHT=2992^2*var(PPS$ACRES92)/200
# Estimation de la Variance
CV = sd(PPS$ACRES92)/mean(PPS$ACRES92); CV # Coeficient de variation
M0=length(ACRES82)^200 # ensemble des echantillons possibles
prob.selc = 1/M0
# probabilité de selection
ps=rep(prob.selc, 2992)
prob.incl = 1-((2991/2992)^200) # probabilité d’inclusion
pi=rep(prob.incl, 2992)
par(mfrow=c(1,2))# departage graphique eb deux colonnes
plot(ACRES92~ps,data = samp,pch=3)
# graphique bidimensionel
title("probabilité de selection",sub="source R, 2017", font.sub=11)
plot(ACRES92~pi,data = samp,pch=3)
title("probabilité d'inclusion",sub="source R, 2017", font.sub=11)
Master 2 En Méthodes Statistiques Et Econométriques
10 : Page
c) Ici, il s’agit de sonder un échantillon de taille 200 selon le plan aléatoire à probabilité
Sondage : méthodes probabilistes
Avec une taille de la population considérable (N=2992), l’étude de la probabilité de
sélection n’est plus significative, car celle-ci tend vers zéro, contrairement à la
probabilité d’inclusion. On peut voir, cette information sous forme graphique, en
représentant la variable d’intérêt en fonction de la probabilité d’inclusion, on obtient :
Figure 5 : ACRES92 selon la probabilité de sélection et d’inclusion (PIAR)
11: Page
Ici, la probabilité d’inclusion est proportionnelle à la variable auxiliaire (ACRES82),
elle est dite aussi probabilité inégale. En effet, Tous les membres de la population
possèdent une probabilité distincte d’appartenir à l’échantillon et interpréter comme
nombre de chance d’être considéré dans l’échantillon. Connaissant la corrélation
existant entre la variable d’intérêt et la variable auxiliaire, on voit également la même
liaison entre la variable d’intérêt (ACRES92) et la probabilité d’inclusion.
 L’estimation de la variance du total ty (ACRES92) est égale:
̂
var(
τ̂HT ) = 3.807003𝑒 + 16
 Le coefficient de variation (le rapport entre l’écart type à la moyenne) vaut :
𝐶𝑉 = 1.050281
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes
Bonus : Probabilité égale et AVEC remise (PEAR)

Pour ce faire, on utilise les commandes du logiciel statistique R :
set.seed(2992)
library(sampling)
sampwr<-srswr(200,2992)
sampwrcom<-samp$COUNTY[sampwr==1]
# Estimation de la variance de Horvitz Thompson
varHT=2992^2*var(samp$ACRES92[which(sampwr==1)])/200
CV =
sd(samp$ACRES92[which(sampwr==1)])/mean(samp$ACRES92[which(sampwr==1)]);
CV # Coefficient de variation saisonniere
Figure 6: ACRES92 selon la probabilité de sélection et d’inclusion (PEAR)
12 : Page
La probabilité d’inclusion vaut 0.06467021 : il y’a presque 6 chance sur 100 pour chaque
individu de la population (U) d’appartenir à l’échantillon (S) (c’est à même probabilité).
La somme de cette probabilité tend vers la taille de l’échantillon n=200. Néanmoins
l’ensemble des échantillons possible n’est pas connu elle tend vers l’infini, la probabilité
de sélection est donc nulle.
Master 2 En Méthodes Statistiques Et Econométriques
Sondage : méthodes probabilistes
 L’estimation de la variance du total ty (ACRES92) est égale:
̂
var(
τ̂HT ) = 1.704307𝑒 + 16
 Le coefficient de variation (le rapport entre l’écart type à la moyenne) vaut :
𝐶𝑉 = 1.856339
d) Ici, on veut sonder un échantillon par un plan de sondage à deux degrés dont les
unités primaires sont les Etats et les unités secondaires la variable ARCRES92 :

Pour ce faire, on utilise les commandes du logiciel statistique R :
dd=getdata(samp,mst)[[1]];dim(dd)
Dans notre sondage à deux degré avec comme unité primaire les 50 états des EtatsUnis, nous avions sélectionné avec un tirage sans remise les unités primaires en
constituant en deux grappes la population puis nous avions tiré les unités secondaire
par sondage aléatoire sans remise. On obtient enfin un échantillon final de taille de 275.
 On a comme estimateur du total ty (ACRES92) de Horvitz-Thompson, la valeur :
τ̂HT = 938 896.7
Pour les calculs de l’estimation de la variance et de coefficient de variation, nous allons
départage la fonction multi stage « mstage » de R en deux cas : d’abord par grappe
puis continuer ce dernier par sondage aléatoire simple sans remise :
Master 2 En Méthodes Statistiques Et Econométriques
13 : Page
# le nombre moyen de fermes par état
library(Hmisc)
c=summarize(samp$ACRES92, by=samp$STATE,FUN = mean) ;c
cbind(tapply(ACRES92,STATE, mean))
# Echantillonage à deux dégré : multistage
set.seed(2992) # fixation de la graine aléatoire
library(survey) #chargement du package
# Ranger par ordre acres92 et etat
samp=samp[order(samp$ACRES92,samp$STATE),]
mst=mstage(samp,stage=list("cluster",""),
varnames=list("STATE","ACRES92"),
size=list(2,c(1,1,1,1)),method=c("srswor","srswor"))
tau.dd2=svytotal(~ACRES92,dd.clus2)
tau.dd2[1]
Sondage : méthodes probabilistes
Les unités primaires sont les Etats et les unités secondaires la variable
ARCRES92 :
Pour une meilleure représentativité de l’estimateur, on va constituer un échantillon
de 30 grappes de taille inégales, puis de tirer aléatoirement et sans remise la
superficie de fermes 1992 (ACRES92) dans ses grappes.

Pour ce faire, on utilise les commandes du logiciel statistique R :
 On obtient comme estimateur du total ty (ACRES92) d’Horvitz-Thompson, la
valeur :
τ̂HT = 570 586 148
 L’estimation de la variance du total ty (ACRES92) est égale:
̂
var(
τ̂HT ) = 5.46525𝑒 + 15
 Le coefficient de variation (le rapport entre l’écart type à la moyenne) vaut :
𝐶𝑉 = 1.227929
Master 2 En Méthodes Statistiques Et Econométriques
14 : Page
attach(samp)
set.seed(2992)
library(sampling)
#Tirage de 30 grappes de taille inégal avec PESR
cl=cluster(samp,clustername="STATE",size=30,method="srswor")
sampgrap=getdata(samp, cl)
dim(sampgrap) ; table(sampgrap$STATE)
# Deuxiéme tirage ACRES92 dans les etats (STATE) sans remise
set.seed(2992)
sampr<-srswor(200,2992)
# Tirage sans remise dans le grappe de taille inégal
ACRES92.chap<-sampgrap$ACRES92[sampwr==1]
ACRES92.chap=na.omit(ACRES92.chap)
length(ACRES92.chap)
pi=rep(190/2992,length(ACRES92.chap))# Probablité d’inclusion
TACRES92.ht=HTestimator(ACRES92.chap,pi)# estimateur horvitz-Thompson
#Estimation de la variance et coefficient de variation
varHT=2992^2*(1-200/2992)*var(ACRES92.chap)/200
CV = sd(ACRES92.chap)/mean(ACRES92.chap); CV
Sondage : méthodes probabilistes
II-
Simulation
1. Comparaison de quatre plans de sondages
a) La comparaison des plans de sondages se fait généralement sur la précision de
l’estimateur et non sur sa représentativité, plus le plan est complexe (comme
stratification, en grappe, à plusieurs degrés, à plusieurs phases) et plus la notion
d’homogénéité et d’hétérogénéité sont prises en compte. La considération de ces
derniers permet d’aboutir un estimateur dont sa variance (dispersion) autour de la
moyenne devient plus faible.
1.1
Pour ce faire, on utilise les commandes du logiciel statistique R :
set.seed(2992)
library(sampling)
S500<-matrix(1:500,500,1); t500.chap<-matrix(1,500,1)
for (i in 1:500)
{ sampwor<-srswor(200,2992)
t500.chap[i]<-2992*mean(samp$ACRES92[which(sampwor==1)]) }
SI.mean=mean(t500.chap);SI.mean
SI.sd=sd(t500.chap);Ecarttype_si
SI.var=SI.sd^2;SI.var
SI.cv=SI.sd/SI.mean;SI.cv
On obtient :
 La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂SI ) = 7.545711e + 15.
 Le coefficient de variation de y (ACRES92) vaut : 𝐶𝑉(τ̂SI ) = 0.09455778
Master 2 En Méthodes Statistiques Et Econométriques
15 : Page

Plan de sondage aléatoire simple sans remise (SI)
Sondage : méthodes probabilistes
1.2

Plan de sondage stratifié proportionel (STP)
En utilise les commandes du logiciel statistique R :
library(survey)
set.seed(2992)
nb.simul<-matrix(1:500,500,1); t.estiSP<-matrix(1,500,1)
for (i in 1:500) {
samp=samp[order(samp$REGION),]
sampstr=strata(samp,stratanames=c("REGION"),size=c(n1,n2,n3,n4),method
="srswor") ;
sampstra=getdata(samp,sampstr)
pistr=c(rep(N1/n1,n1),rep(N2/n2,n2),rep(N3/n3,n3),rep(N4/n4,n4))
On obtient :
 La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂STP ) = 1.430152e + 15.
 La coefficient de variation de y (ACRES92) vaut : 𝐶𝑉(τ̂STP ) = 22.36067.
1.3

Plan de sondage aléatoire simple avec remise (PPS)
En utilisant les commandes du logiciel statistique R :
set.seed(2992)
S500<-matrix(1:500,500,1);es500<-matrix(1,500,1)
for (i in 1:500) { library(TeachingSampling)
sampps <- S.PPS(200,samp$ACRES82)
sam <- sampps[,1]
PPS <- samp[sam,]; PPS
es500[i]<-2992*mean(PPS$ACRES92) }
PPS.mean=mean(es500);PPS.mean
PPS.var=var(es500);PPS.var
PPS.cv=sd(es500)/PPS.mean; PPS.cv
On obtient :
 La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂PPS ) = 1.755186e + 18
 La variance du total de y (ACRES92) vaut : 𝐶𝑉(τ̂PPS ) = 1.005669
Master 2 En Méthodes Statistiques Et Econométriques
16 : Page
samp.s=svydesign(id=~1,strata=~REGION,weights=pistr,fpc=c(rep(n1/N1,n1
),rep(n2/N2,n2),rep(n3/N3,n3),rep(n4/N4,n4)),data=sampstra)
res_pr=svytotal(~ACRES92,samp.s)
}
t.estiSP[i]= res_pr[1]
STP.mean=mean(t.estiSP) ; STP.sd=sd(t.estiSP); STP.sd
STP.var=STP.sd^2;STP.var ; STP.cv=STP.sd/STP.mean; STP.cv
Sondage : méthodes probabilistes
1.4

Plan de sondage aléatoire à deux degrés (SI,SI)
En utilisant les commandes du logiciel statistique R :
dd.mean=mean(t.esti_dd);dd.mean
dd.sd=sd(t.esti_dd); dd.sd ; dd.var=STP.sd^2;dd.var
dd.cv=dd.sd/mean(t.esti_dd); dd.cv
On obtient :
 La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂dd ) = 1 763 050 346.
 La variance du total de y (ACRES92) vaut : 𝐶𝑉(τ̂PPS ) = 22.34878.

1.5

Effet de sondage (SI,PPS, STP, (SI,SI))
En utilisant les commandes du logiciel statistique R :
EDS1= STP.cv/SI.var ; EDS1
EDS2 dd.cv/SI.var; EDS2
On obtient :
Effet de sondage entre Plan stratifié et plan aléatoire sans remise
 D( STP | SI ) = 2.963361e-15
<1

var(Tstp) < var(Tsi)
Effet de sondage entre Plan à deux degré et plan aléatoire sans remise
 D( (SI,SI) | SI ) = 1.232771e-06 <1

Master 2 En Méthodes Statistiques Et Econométriques
var(Tstp) < var(Tsi)
17 : Page
nb.simul<-matrix(1:500,500,1); t.esti_dd<-matrix(1,500,1)
for (i in 1:500){
set.seed(2992)
samp=samp[order(samp$ACRES92,samp$STATE),]
mst=mstage(samp,stage=list("cluster",""),
varnames=list("STATE","ACRES92"),
size=list(2,c(1,1,1,1)),method=c("srswor","srswor"))
dd=getdata(samp,mst)[[1]];dim(dd)
dd.clus<-svydesign(id=~STATE+ACRES92, weights=2/50, data=dd)
}
table(dd$STATE)
tau.dd=svytotal(~ACRES92,dd.clus)
t.esti_dd[i]=tau.dd[1]
Sondage : méthodes probabilistes
Les différents plans de sondage effectués, nous en permis de mettre en place une
variété des estimateurs du total de nombre d’acres dédiés aux fermes en 1992. On peut
parvenir à observer leurs effets de sondages :
o le plan de sondage avec remise est préférable à celui sans remise (car le plan
sans remise conserve les unités statistiques distinctes)
o Le plan stratifié est préférable à celui sans remise (car la stratification prend
mieux en compte homogénéités de la population)
o Le plan à deux degré est préférable à celui sans remise (car il étudie
Autres par ailleurs, en termes de précision sur la qualité de l’estimateur, le sondage à
deux degré se classe en premier, suivi du sondage stratifié. Le sondage à probabilité
simple sans remise. En effet, il est évident que les résultats obtenus sont conformes
aux hypothèses de départs sur le classement des plans de sondages en termes de
précision des estimateurs.

2. Comparaison de trois méthodes d’estimation pour un plan SI
En utilisant les commandes du logiciel statistique R :
simil<-matrix(1:500,500,1); ACRES92.ht<-matrix(1,500,1) ; tpost<matrix(1,500,1)
for (i in 1:500) { pi=rep(200/2992,200)
set.seed(2992) ; spe<-srswor(200,2992)
ACRES92.s<-samp$ACRES92[spe==1]
ACRES92.ht[i]=HTestimator(ACRES92.s,pi)}
ACRES92.ht; var.HT=(1-200/2992)*var(ACRES92.s)/200
# 500 ESTIMATIONS SI
# Estimation post stratifié
for (i in 1:500){set.seed(2992) ;N=2992;N1=1029;N2=211;N3=1348;N4=404;
n=200
n1<-round(N1*n/N);n2<-round(N2*n/N);n3<-round(N3*n/N);n4<-round(N4*n/N) ;
samp=samp[order(samp$REGION),]
sampstr=strata(samp,stratanames=c("REGION"),size=c(n1,n2,n3,n4),method="srs
wor") ; sampstra=getdata(samp,sampstr)
pistr=c(rep(N1/n1,n1),rep(N2/n2,n2),rep(N3/n3,n3),rep(N4/n4,n4))
samp.s=svydesign(id=~1,strata=~REGION,weights=pistr,fpc=c(rep(n1/N1,n1),rep
(n2/N2,n2),rep(n3/N3,n3),rep(n4/N4,n4)),data=sampstra)
es.post=svytotal(~ACRES92,samp.s)
tpost[i]=es.post[1] }
tpost; var(tpost)
# 500 ESTIMATIONS POST STRATIFIE
eds= var(tpost) /var.HT
;eds # EFFET DE SONDAGE SI / STP
Master 2 En Méthodes Statistiques Et Econométriques
18 : Page
inégale avec remise vient en troisième position et enfin celui de sondage aléatoire
Sondage : méthodes probabilistes
Les 500 estimateurs de Horvitz-Thompson et post stratifiées du total de nombre d’acres
dédiés aux fermes en 1992 sont données les commandes ci-dessus par :
« ACRES92.ht » et « tpost ».
Les variances empiriques pour chacune des deux méthodes d’estimation sont :
 Horvitz-Thompson : 479 983 455
 Post stratifié
:0
On trouve, par ailleurs, le même estimateur pour les 500 échantillons aléatoires et sans
contrairement à l’estimateur d’Horvitz-Thompson qui vaut 479 983 455. Il est comme
d’usage de solliciter l’estimation de post stratification que celui de sans remise de
Horvitz-Thompson.
En effet, on ne s’attendait absolument pas aux résultats obtenus pour les 500
estimateurs de Horvitz-Thompson et les estimateurs de post stratifiés. En effet, cela est
dû à la désignation de la graine aléatoire fixée au préalable. Ce dernier rend identique
tous les estimateurs pour les 500 échantillons, ce qui donnent une variance nulle :
il s’agit de l’inconvénient de la graine aléatoire.
Master 2 En Méthodes Statistiques Et Econométriques
19 : Page
remise. D’autre part, l’étude de la variance est nulle pour l’estimation post stratifié
Téléchargement
Explore flashcards