Sondage : méthodes probabilistes Université de Cheik Anta Diop de Dakar Faculté des sciences économiques et de gestion (FASEG) Centre de recherche et de formation pour le développement Economique et social (CREFDES) Projet de sondage Professeur cissé Master II en Méthodes Statistiques et Econométriques (MSE) 2016-2017 Réalisés par : Abdi-Basid ADAN Abdi-Basid IBRAHIM ADAN [date of birth : 23/07/1993] Hawa DIENG [date of birth : 13/12/1990] Johana marie NDIONE [date of birth : 23/07/1990] Adresse : 45753 Dakar-Fann, Km1 Avenue Cheikh Anta Diop, Dakar 45753 Téléphone : 33 864 55 28 Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes Tables Des Matières Liste de tableau………………………………………………………....……..…………….………….2 Liste des graphiques………………………………........................................................................2 Liste des sigles et abréviations ……………..………………………………………………………...2 Introduction…………………..……………………………………………………………...………......3 I- Estimation de la superficie totale des fermes aux Etats-Unis………..……….…………5 1- Préambule……………………..………………………………..………………...……..…5 2- Estimation avec un seul échantillon……………………..…………… ……….………..9 II- Simulations..………………………………..………………………………..…….……..…14 1- Comparaison de quatre plans de sondage……………………..…………… ….….…..15 2- Comparaison de deux méthodes d’estimations pour un plan SI………………….……17 Annexe………………………………………………………..…………………..………………...… 18 Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes Listes des tabLeaux et sigLes d’abréviations ⟹ Liste de tableau Tableau 1 : Répartition des communes par région géographique. ⟹ Liste des figures Figure 1 : Diagramme de dispersion de communes par région géographique Figure 2 : Diagramme de dispersion de la superficie des fermes en 1992 en fonction de celle de 1982 Figure 3 : Ajustement par moindres carrées de la superficie en 1992 en fonction de 1982. Figure 4 : Boîtes à moustaches de la superficie en 1992 en fonction des quatre modalités de la variable REGION Figure 5 : variable ACRES92 selon la probabilité de sélection et d’inclusion (PÏAR) Figure 6: variable ACRES92 selon la probabilité de sélection et d’inclusion (PEAR) ⟹ Liste des sigles et abréviations Xlab : Label of axis x Sd : Standart Déviation Rep : repeat mstage : Multistage srswor/ srswor : simple random sampling without/ with replacement col : color CV : coefficient de variation SI svydesign : plan aléatoire simple sans remise : Défini le plan d’échantillonnage d’un tableau de données Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes INTRODUCTION Aux États-Unis, les recensements de l’agriculture ont lieu tous les 5 ans, ils comptaient 2,1 millions d'exploitations agricoles en 2012, en baisse de 4,3 % par rapport à 2007 (2,2 millions d'exploitations). Mais la surface totale de terre cultivée est restée relativement stable sur la même période : elle n'a diminué que de moins d’1 %, passant de 922 à 915 millions d'acres (370 millions d'ha). On observe donc un accroissement de la surface cultivée par exploitation, plaçant la moyenne à 176 ha contre 169 en 2007. C’est le Texas qui possède le plus grand nombre d’exploitations agricoles et la Californie En effet, l'agriculture des États-Unis a commencé très tôt, dès l'époque des indiens. Ils cultivaient notamment du blé et de l'orge mais aussi du cacao, des tomates...etc. Elle s'est réellement intensifiée avec l'arrivée des esclaves africains au premier siècle. Il est un secteur clé de l'économie américaine, le pays étant le 1er exportateur et le 2e importateur mondial. C'est la première agriculture au monde.. Depuis le XIXe siècle, la Corn Belt (« ceinture de maïs ») est la principale zone agricole de ce pays - la Sun Belt étant connue pour ses fruits. En 2012 : 2,2 millions d'exploitations, 371 millions d'hectares de surface agricole utile (169 hectares par ferme en moyenne). La majorité de la production agricole se trouve dans les Grandes Plaines, ainsi que la vallée de San Joaquin (Californie). Dans le projet ci-contre, son intérêt porte sur l’échantillonnage par des méthodes probabilistes afin de mettre au point un estimateur précis à variance minimale. La variable auxiliaire en corrélation avec cette dernière est la superficie des fermes en 1982 (ACRES82). Master 2 En Méthodes Statistiques Et Econométriques 1 : Page le plus gros revenu agricole. Sondage : méthodes probabilistes I- Estimation de la superficie totale des fermes aux Etats-Unis 1. Préambule Elément de Réponse # Spécification du répertoire du dossier de travail getwd() setwd("D:/Abdi-Basid ADAN/Projets Générales/Sondage Cissé 2") # L’importation de la base de données samp <- read.csv("AGPOP.csv",header=T,sep=";") ; View(samp # Vérifications des observations et des variables. dim(samp) ls.str(samp) tail(samp) ; head(samp) Remarque : a) Il s’agit d’étudier les caractéristiques de la population statistique (l’univers Ω : l’ensemble des communes) : Pour ce faire, on utilise les commandes sous le logiciel statistique R : attach(samp) # extraction des variables de la base ty=sum(ACRES92) # total de ty tx=sum(ACRES82) #superficie de fermes rbind (ty,tx) # Sortie de resultats tapply(COUNTY, REGION, FUN=length)# Commune par region install.packages(« Hmisc ») # installer puis Charger l’outils Hmisc library(Hmisc) # Deuxieme méthode commune par region c=summarize(COUNTY, by=REGION,FUN = length) barplot(c$COUNTY, col=rainbow(10),legend.text=TRUE)# Par graphique On observe une superficie totale (ty) de 923 355 862 d’acres en 1992; alors que 10 ans auparavant (1982), cette superficie était de 963 376 742 sur le 2992 communes. En ce qui concerne, le nombre de communes par région géographique, il est possible pour une meilleur illustration de visualiser par un graphique adapté : * En cas de copie des commandes, veuillez rectifier les guillemets lors de l’exécution Master 2 En Méthodes Statistiques Et Econométriques 2 : Page Les espaces entre les modalités de la variable COUNTY n’influence pas les calculs réalisés. En effet, en remplaçants par des underscores les 2992 observations, les résultats observés sont identiques. Sondage : méthodes probabilistes Figure 1 : Diagramme de dispersion de communes par région géographique 3 : Page Tableau 1 : Répartition des communes par région géographique. REGION North Center North East South West Total Source R, 2017 COUNTY 1029 211 1348 404 2992 FREQUENCY (%) 34.40 7.05 45.05 13.50 100 On y voit à travers le graphique de distribution et le tableau associés, deux principaux régions le nord-centre et le sud : la sun belt et les plaines, qui constituent 79.45% de la production agricoles américaine. b) Pour représenter graphiquement la variable d’intérêt en fonction de la variable auxiliaire, on peut faire appel à plusieurs fonctions sous R : Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes Pour ce faire, on utilise les instructions ci-dessous : Install.packagrs(« lattice ») # Intsaller lattice library(lattice) # Charger l’outils lattice barchart(ACRES92~ACRES82,data = samp, origin = 0, horizontal =F) reg=lm(ACRES92~ACRES82,samp) #regression de y sur x plot(ACRES92~ACRES82,pch=3,samp,col=3,fg=2) abline(reg, col=2,lwd=2) # droite de moindre carrés boxplot(ACRES92 ~ REGION,horizontal=F,col=c("red","purple","brown","blue")) On obtient : A travers la représentation bidimensionnelle d’ACRES 92 selon ACRES82, on peut noter qu’il existe un lien de similitude de croissance positive en termes de superficie sur les 2992 communes. Master 2 En Méthodes Statistiques Et Econométriques 4 : Page Figure 2 : Diagramme de dispersion de la superficie des fermes en 1992 en fonction de celle de 1982 : Sondage : méthodes probabilistes Figure 3 : Ajustement par moindres carrées de la superficie en 1992 en fonction de 1982. 5 : Page Cet ajustement témoigne, l’idée d’une corrélation très significative entre la variable d’intérêt (Y ou ACRES92) et celle auxiliaire (x ou ACRES82). La variable ACRES82 est fortement corrélée avec ACRES92, car l’erreur commise par l’ajustement est faible. Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes Figure 4 : Boîtes à moustaches de la superficie en 1992 en fonction des quatre modalités de la variable REGION : 6 : Page La répartition de nombre d’acres dédiés aux fermes en 1992 selon les quatre régions montre une hétérogénéité relative. On y voit deux principaux régions de la production agricole, le Nord centre (NC) et l’Ouest (W). 2. Estimation avec un seul échantillon Elément de Réponse a) Il s’agit d’abord d’échantillonner la population selon un plan aléatoire simple et sans remise de taille 200 individus statistiques, puis d’estimer le total d’Horvitz-Thompson d’acres dédiés aux fermes en 1992 et d’évaluer ses propriétés : Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes Pour ce faire, on utilise les commandes du logiciel statistique R ci-dessous : set.seed(2992) # definition de la graine aléatoire library(sampling)# charger les packages du sondage aléatoire simple sas sampwor<-srswor(200,2992) # sondage aléatoire simple 200 parmi 2992 # Estimation d’ACRES 92 dans l’echantillon ACRES92.chap<-samp$ACRES92[sampwor==1] ; pi=rep.int(200/2992,200) # Total deHorvitz-Thompson TACRES92.ht=HTestimator(ACRES92.chap,pi);print(TACRES92.ht) # Estimation de la varianec varHT=2992^2*(1-200/2992)*var(samp$ACRES92[which(sampwor==1)])/200 CV = sd(ACRES92.chap)/mean(ACRES92.chap); CV On obtient ainsi l’estimateur du total « tau de Horvitz-Thompson », la valeur : L’estimation de la variance de Horvitz-Thompson vaut : ̂ var( τ̂HT ) = 4.50882e + 15 Le coefficient de variation (ou CV) est le rapport de l'écart-type à la moyenne, lorsque l'on dispose de valeurs estimées, le CV rapporte l'écart-type de l'estimation à la valeur de cette estimation : 𝑠(𝑎𝑐𝑟𝑒𝑠92) = 1.134474 𝑥̅ (𝑎𝑐𝑟𝑒𝑠92) Avec acres92 l’estimation de la variable y (ACRES92) dans l’échantillon de taille 200, s et ̅𝑥, l’écart type et la moyenne de l’échantillon. b) On considère les mêmes procédés de tirage sans remise, mais cette fois-ci, il s’agit de sonder avec une population stratifié en zone de dénombrement (ici les régions). Master 2 En Méthodes Statistiques Et Econométriques 7 : Page τ̂HT = 866 512 836 Sondage : méthodes probabilistes Pour ce faire, on utilise les commandes du logiciel statistique R : CAS 1 : Sondage Stratifie Proportionnel (STP) Après avoir sondé par stratification proportionel les 200 communes dans la base de sondage : On obtient comme estimateur du total ty (ACRES92) d’Horvitz-Thompson, la valeur : τ̂HT = 1 042 328 412 L’estimation de la variance du total de Horvitz-Thompson vaut : ̂ var( τ̂HT ) = 192 720 792. Master 2 En Méthodes Statistiques Et Econométriques 8 : Page library(Hmisc) # charger l’outils de Hmisc summarize(COUNTY, by=REGION,FUN = length) # Communes par Region N=2992;N1=1029;N2=211;N3=1348;N4=404 # Taille de chaque strates n=200;n1<-round(N1*n/N);n2<-round(N2*n/N) # stratification proportionel n3<-round(N3*n/N);n4<-round(N4*n/N) n1;n2;n3;n4;sum(n1,n2,n3,n4) library(sampling) set.seed(2992) sampstr=strata(samp,stratanames=c("REGION"),size=c(n1,n2,n3,n4),method="s rswor") # stratification par region sampstra=getdata(samp,sampstr) # base de données de l’echantillon pond=c(rep(N1/n1,n1),rep(N2/n2,n2),rep(N3/n3,n3),rep(N4/n4,n4)) library(survey) samp.s=svydesign(id=~1,strata=~REGION,weights=pond,fpc=c(rep(n1/N1,n1),re p(n2/N2,n2),rep(n3/N3,n3),rep(n4/N4,n4)), data=sampstra) # Estimation ACRES92 tau.ht.st1=svytotal(~ACRES92,samp.s); tau.ht.st1 [1]#Total HT ACRES92 # Estimation de la variance var.ht.stp=(1200/2992)*var(samp$ACRES92[which(sampstr==1)])/200;var.ht.stp moy.stp=mean(samp$ACRES92[which(sampstr==1)]) sd.stp=sd(samp$ACRES92[which(sampstr==1)])# l’ecart type echant. d’ACRES92 cv.stp=sd.stp/moy.stp; cv.stp # le coefficient de variation Sondage : méthodes probabilistes Le coefficient de variation (ou CV) est le rapport de l'écart-type à la moyenne, lorsque l'on dispose de valeurs estimées, le CV rapporte l'écart-type de l'estimation à la valeur de cette estimation : 𝑠 (𝑎𝑐𝑟𝑒𝑠92) 𝑥̅ (𝑎𝑐𝑟𝑒𝑠92) = 0.7145118 Avec acres92 l’estimation de la variable y (ACRES92) dans l’échantillon de taille 200, s et ̅𝑥, l’écart type et la moyenne de l’échantillon. CAS 2 : Sondage Stratifie Optimal (STO) Pour ce faire, on utilise les commandes du logiciel statistique R : Après avoir sondé par stratification optimal les 200 communes dans la base de sondage : On obtient comme estimateur du total ty (ACRES92) d’Horvitz-Thompson, la valeur : τ̂HT = 1 092 898 813 Master 2 En Méthodes Statistiques Et Econométriques 9 : Page n=200; N.op=c(N1,N2, N3,N4) # definition de la taille des 4 strates ACRES92sd=tapply(ACRES92,REGION,sd)# calcul des ecart types par strates n.op=round(n*N.op*ACRES92sd/sum(N.op*ACRES92sd)); n.op n1opt=n.op[1];n2opt=n.op[2];n3opt=n.op[3];n4opt=n.op[4] pond2=c(rep(N1/n1opt,n1opt),rep(N2/n2opt,n2opt),rep(N3/n3opt,n3opt),rep(N 4/n4opt,n4opt)) # Allocation de Neyman pour les tailles de l’échantillon set.seed(2992) # Défintition de la graine aléatoire stra.samp=strata(samp,"REGION",size=c(n1opt,n2opt,n3opt,n4opt),method="sr swor") samp.strat2=getdata(samp,stra.samp) # Base de données de l’échantillon samp.tau2=svydesign(id=~1,strata=~REGION,weights=pond2, fpc=c(rep(n1opt/N1,n1opt),rep(n2opt/N2,n2opt),rep(n3opt/N3,n3opt),rep(n4o pt/N4,n4opt)),data=samp.strat2) tau.opt=svytotal(~ACRES92,samp.tau2) ; tau.opt[1] # estimation de total y var.ht.sto=var(samp$ACRES92[which(stra.samp==1)])/200var(samp$ACRES92[which(stra.samp==1)])/2992 ;var.ht.sto #variance HT moy.sto=mean(samp$ACRES92[which(stra.samp==1)]) sd.sto=sd(samp$ACRES92[which(stra.samp==1)])# ecrat type de l’échantillon cv.sto=sd.sto/moy.sto; cv.sto # coefficient de variation Sondage : méthodes probabilistes L’estimation de la variance du total de Horvitz-Thompson vaut : ̂ var( τ̂HT ) = 213 492 712. Le coefficient de variation (ou CV) est le rapport de l'écart-type à la moyenne, lorsque l'on dispose de valeurs estimées, le CV rapporte l'écart-type de l'estimation à la valeur de cette estimation : 𝑠 (𝑎𝑐𝑟𝑒𝑠92) 𝑥̅ (𝑎𝑐𝑟𝑒𝑠92) = 0.7362664 Avec acres92 l’estimation de la variable y (ACRES92) dans l’échantillon de taille 200, s et ̅𝑥, l’écart type et la moyenne de l’échantillon. inégale et avec remise (PIAR) : Pour ce faire, on utilise les commandes du logiciel statistique R : set.seed(2992) # Fixation de la graine aléatoire # Installation de l’outils TeachingSampling install.package(« TeachingSampling » ) library(TeachingSampling) # Chargement de l’outils TeachingSampling sampps <- S.PPS(200,samp$ACRES82) # ecahntillonage de taille 200 sam <- sampps[,1] # sondage a prob. proportionnel à ACRES82 PPS <- samp[sam,]; PPS varHT=2992^2*var(PPS$ACRES92)/200 # Estimation de la Variance CV = sd(PPS$ACRES92)/mean(PPS$ACRES92); CV # Coeficient de variation M0=length(ACRES82)^200 # ensemble des echantillons possibles prob.selc = 1/M0 # probabilité de selection ps=rep(prob.selc, 2992) prob.incl = 1-((2991/2992)^200) # probabilité d’inclusion pi=rep(prob.incl, 2992) par(mfrow=c(1,2))# departage graphique eb deux colonnes plot(ACRES92~ps,data = samp,pch=3) # graphique bidimensionel title("probabilité de selection",sub="source R, 2017", font.sub=11) plot(ACRES92~pi,data = samp,pch=3) title("probabilité d'inclusion",sub="source R, 2017", font.sub=11) Master 2 En Méthodes Statistiques Et Econométriques 10 : Page c) Ici, il s’agit de sonder un échantillon de taille 200 selon le plan aléatoire à probabilité Sondage : méthodes probabilistes Avec une taille de la population considérable (N=2992), l’étude de la probabilité de sélection n’est plus significative, car celle-ci tend vers zéro, contrairement à la probabilité d’inclusion. On peut voir, cette information sous forme graphique, en représentant la variable d’intérêt en fonction de la probabilité d’inclusion, on obtient : Figure 5 : ACRES92 selon la probabilité de sélection et d’inclusion (PIAR) 11: Page Ici, la probabilité d’inclusion est proportionnelle à la variable auxiliaire (ACRES82), elle est dite aussi probabilité inégale. En effet, Tous les membres de la population possèdent une probabilité distincte d’appartenir à l’échantillon et interpréter comme nombre de chance d’être considéré dans l’échantillon. Connaissant la corrélation existant entre la variable d’intérêt et la variable auxiliaire, on voit également la même liaison entre la variable d’intérêt (ACRES92) et la probabilité d’inclusion. L’estimation de la variance du total ty (ACRES92) est égale: ̂ var( τ̂HT ) = 3.807003𝑒 + 16 Le coefficient de variation (le rapport entre l’écart type à la moyenne) vaut : 𝐶𝑉 = 1.050281 Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes Bonus : Probabilité égale et AVEC remise (PEAR) Pour ce faire, on utilise les commandes du logiciel statistique R : set.seed(2992) library(sampling) sampwr<-srswr(200,2992) sampwrcom<-samp$COUNTY[sampwr==1] # Estimation de la variance de Horvitz Thompson varHT=2992^2*var(samp$ACRES92[which(sampwr==1)])/200 CV = sd(samp$ACRES92[which(sampwr==1)])/mean(samp$ACRES92[which(sampwr==1)]); CV # Coefficient de variation saisonniere Figure 6: ACRES92 selon la probabilité de sélection et d’inclusion (PEAR) 12 : Page La probabilité d’inclusion vaut 0.06467021 : il y’a presque 6 chance sur 100 pour chaque individu de la population (U) d’appartenir à l’échantillon (S) (c’est à même probabilité). La somme de cette probabilité tend vers la taille de l’échantillon n=200. Néanmoins l’ensemble des échantillons possible n’est pas connu elle tend vers l’infini, la probabilité de sélection est donc nulle. Master 2 En Méthodes Statistiques Et Econométriques Sondage : méthodes probabilistes L’estimation de la variance du total ty (ACRES92) est égale: ̂ var( τ̂HT ) = 1.704307𝑒 + 16 Le coefficient de variation (le rapport entre l’écart type à la moyenne) vaut : 𝐶𝑉 = 1.856339 d) Ici, on veut sonder un échantillon par un plan de sondage à deux degrés dont les unités primaires sont les Etats et les unités secondaires la variable ARCRES92 : Pour ce faire, on utilise les commandes du logiciel statistique R : dd=getdata(samp,mst)[[1]];dim(dd) Dans notre sondage à deux degré avec comme unité primaire les 50 états des EtatsUnis, nous avions sélectionné avec un tirage sans remise les unités primaires en constituant en deux grappes la population puis nous avions tiré les unités secondaire par sondage aléatoire sans remise. On obtient enfin un échantillon final de taille de 275. On a comme estimateur du total ty (ACRES92) de Horvitz-Thompson, la valeur : τ̂HT = 938 896.7 Pour les calculs de l’estimation de la variance et de coefficient de variation, nous allons départage la fonction multi stage « mstage » de R en deux cas : d’abord par grappe puis continuer ce dernier par sondage aléatoire simple sans remise : Master 2 En Méthodes Statistiques Et Econométriques 13 : Page # le nombre moyen de fermes par état library(Hmisc) c=summarize(samp$ACRES92, by=samp$STATE,FUN = mean) ;c cbind(tapply(ACRES92,STATE, mean)) # Echantillonage à deux dégré : multistage set.seed(2992) # fixation de la graine aléatoire library(survey) #chargement du package # Ranger par ordre acres92 et etat samp=samp[order(samp$ACRES92,samp$STATE),] mst=mstage(samp,stage=list("cluster",""), varnames=list("STATE","ACRES92"), size=list(2,c(1,1,1,1)),method=c("srswor","srswor")) tau.dd2=svytotal(~ACRES92,dd.clus2) tau.dd2[1] Sondage : méthodes probabilistes Les unités primaires sont les Etats et les unités secondaires la variable ARCRES92 : Pour une meilleure représentativité de l’estimateur, on va constituer un échantillon de 30 grappes de taille inégales, puis de tirer aléatoirement et sans remise la superficie de fermes 1992 (ACRES92) dans ses grappes. Pour ce faire, on utilise les commandes du logiciel statistique R : On obtient comme estimateur du total ty (ACRES92) d’Horvitz-Thompson, la valeur : τ̂HT = 570 586 148 L’estimation de la variance du total ty (ACRES92) est égale: ̂ var( τ̂HT ) = 5.46525𝑒 + 15 Le coefficient de variation (le rapport entre l’écart type à la moyenne) vaut : 𝐶𝑉 = 1.227929 Master 2 En Méthodes Statistiques Et Econométriques 14 : Page attach(samp) set.seed(2992) library(sampling) #Tirage de 30 grappes de taille inégal avec PESR cl=cluster(samp,clustername="STATE",size=30,method="srswor") sampgrap=getdata(samp, cl) dim(sampgrap) ; table(sampgrap$STATE) # Deuxiéme tirage ACRES92 dans les etats (STATE) sans remise set.seed(2992) sampr<-srswor(200,2992) # Tirage sans remise dans le grappe de taille inégal ACRES92.chap<-sampgrap$ACRES92[sampwr==1] ACRES92.chap=na.omit(ACRES92.chap) length(ACRES92.chap) pi=rep(190/2992,length(ACRES92.chap))# Probablité d’inclusion TACRES92.ht=HTestimator(ACRES92.chap,pi)# estimateur horvitz-Thompson #Estimation de la variance et coefficient de variation varHT=2992^2*(1-200/2992)*var(ACRES92.chap)/200 CV = sd(ACRES92.chap)/mean(ACRES92.chap); CV Sondage : méthodes probabilistes II- Simulation 1. Comparaison de quatre plans de sondages a) La comparaison des plans de sondages se fait généralement sur la précision de l’estimateur et non sur sa représentativité, plus le plan est complexe (comme stratification, en grappe, à plusieurs degrés, à plusieurs phases) et plus la notion d’homogénéité et d’hétérogénéité sont prises en compte. La considération de ces derniers permet d’aboutir un estimateur dont sa variance (dispersion) autour de la moyenne devient plus faible. 1.1 Pour ce faire, on utilise les commandes du logiciel statistique R : set.seed(2992) library(sampling) S500<-matrix(1:500,500,1); t500.chap<-matrix(1,500,1) for (i in 1:500) { sampwor<-srswor(200,2992) t500.chap[i]<-2992*mean(samp$ACRES92[which(sampwor==1)]) } SI.mean=mean(t500.chap);SI.mean SI.sd=sd(t500.chap);Ecarttype_si SI.var=SI.sd^2;SI.var SI.cv=SI.sd/SI.mean;SI.cv On obtient : La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂SI ) = 7.545711e + 15. Le coefficient de variation de y (ACRES92) vaut : 𝐶𝑉(τ̂SI ) = 0.09455778 Master 2 En Méthodes Statistiques Et Econométriques 15 : Page Plan de sondage aléatoire simple sans remise (SI) Sondage : méthodes probabilistes 1.2 Plan de sondage stratifié proportionel (STP) En utilise les commandes du logiciel statistique R : library(survey) set.seed(2992) nb.simul<-matrix(1:500,500,1); t.estiSP<-matrix(1,500,1) for (i in 1:500) { samp=samp[order(samp$REGION),] sampstr=strata(samp,stratanames=c("REGION"),size=c(n1,n2,n3,n4),method ="srswor") ; sampstra=getdata(samp,sampstr) pistr=c(rep(N1/n1,n1),rep(N2/n2,n2),rep(N3/n3,n3),rep(N4/n4,n4)) On obtient : La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂STP ) = 1.430152e + 15. La coefficient de variation de y (ACRES92) vaut : 𝐶𝑉(τ̂STP ) = 22.36067. 1.3 Plan de sondage aléatoire simple avec remise (PPS) En utilisant les commandes du logiciel statistique R : set.seed(2992) S500<-matrix(1:500,500,1);es500<-matrix(1,500,1) for (i in 1:500) { library(TeachingSampling) sampps <- S.PPS(200,samp$ACRES82) sam <- sampps[,1] PPS <- samp[sam,]; PPS es500[i]<-2992*mean(PPS$ACRES92) } PPS.mean=mean(es500);PPS.mean PPS.var=var(es500);PPS.var PPS.cv=sd(es500)/PPS.mean; PPS.cv On obtient : La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂PPS ) = 1.755186e + 18 La variance du total de y (ACRES92) vaut : 𝐶𝑉(τ̂PPS ) = 1.005669 Master 2 En Méthodes Statistiques Et Econométriques 16 : Page samp.s=svydesign(id=~1,strata=~REGION,weights=pistr,fpc=c(rep(n1/N1,n1 ),rep(n2/N2,n2),rep(n3/N3,n3),rep(n4/N4,n4)),data=sampstra) res_pr=svytotal(~ACRES92,samp.s) } t.estiSP[i]= res_pr[1] STP.mean=mean(t.estiSP) ; STP.sd=sd(t.estiSP); STP.sd STP.var=STP.sd^2;STP.var ; STP.cv=STP.sd/STP.mean; STP.cv Sondage : méthodes probabilistes 1.4 Plan de sondage aléatoire à deux degrés (SI,SI) En utilisant les commandes du logiciel statistique R : dd.mean=mean(t.esti_dd);dd.mean dd.sd=sd(t.esti_dd); dd.sd ; dd.var=STP.sd^2;dd.var dd.cv=dd.sd/mean(t.esti_dd); dd.cv On obtient : La variance du total de y (ACRES92) vaut : 𝑣𝑎𝑟(τ̂dd ) = 1 763 050 346. La variance du total de y (ACRES92) vaut : 𝐶𝑉(τ̂PPS ) = 22.34878. 1.5 Effet de sondage (SI,PPS, STP, (SI,SI)) En utilisant les commandes du logiciel statistique R : EDS1= STP.cv/SI.var ; EDS1 EDS2 dd.cv/SI.var; EDS2 On obtient : Effet de sondage entre Plan stratifié et plan aléatoire sans remise D( STP | SI ) = 2.963361e-15 <1 var(Tstp) < var(Tsi) Effet de sondage entre Plan à deux degré et plan aléatoire sans remise D( (SI,SI) | SI ) = 1.232771e-06 <1 Master 2 En Méthodes Statistiques Et Econométriques var(Tstp) < var(Tsi) 17 : Page nb.simul<-matrix(1:500,500,1); t.esti_dd<-matrix(1,500,1) for (i in 1:500){ set.seed(2992) samp=samp[order(samp$ACRES92,samp$STATE),] mst=mstage(samp,stage=list("cluster",""), varnames=list("STATE","ACRES92"), size=list(2,c(1,1,1,1)),method=c("srswor","srswor")) dd=getdata(samp,mst)[[1]];dim(dd) dd.clus<-svydesign(id=~STATE+ACRES92, weights=2/50, data=dd) } table(dd$STATE) tau.dd=svytotal(~ACRES92,dd.clus) t.esti_dd[i]=tau.dd[1] Sondage : méthodes probabilistes Les différents plans de sondage effectués, nous en permis de mettre en place une variété des estimateurs du total de nombre d’acres dédiés aux fermes en 1992. On peut parvenir à observer leurs effets de sondages : o le plan de sondage avec remise est préférable à celui sans remise (car le plan sans remise conserve les unités statistiques distinctes) o Le plan stratifié est préférable à celui sans remise (car la stratification prend mieux en compte homogénéités de la population) o Le plan à deux degré est préférable à celui sans remise (car il étudie Autres par ailleurs, en termes de précision sur la qualité de l’estimateur, le sondage à deux degré se classe en premier, suivi du sondage stratifié. Le sondage à probabilité simple sans remise. En effet, il est évident que les résultats obtenus sont conformes aux hypothèses de départs sur le classement des plans de sondages en termes de précision des estimateurs. 2. Comparaison de trois méthodes d’estimation pour un plan SI En utilisant les commandes du logiciel statistique R : simil<-matrix(1:500,500,1); ACRES92.ht<-matrix(1,500,1) ; tpost<matrix(1,500,1) for (i in 1:500) { pi=rep(200/2992,200) set.seed(2992) ; spe<-srswor(200,2992) ACRES92.s<-samp$ACRES92[spe==1] ACRES92.ht[i]=HTestimator(ACRES92.s,pi)} ACRES92.ht; var.HT=(1-200/2992)*var(ACRES92.s)/200 # 500 ESTIMATIONS SI # Estimation post stratifié for (i in 1:500){set.seed(2992) ;N=2992;N1=1029;N2=211;N3=1348;N4=404; n=200 n1<-round(N1*n/N);n2<-round(N2*n/N);n3<-round(N3*n/N);n4<-round(N4*n/N) ; samp=samp[order(samp$REGION),] sampstr=strata(samp,stratanames=c("REGION"),size=c(n1,n2,n3,n4),method="srs wor") ; sampstra=getdata(samp,sampstr) pistr=c(rep(N1/n1,n1),rep(N2/n2,n2),rep(N3/n3,n3),rep(N4/n4,n4)) samp.s=svydesign(id=~1,strata=~REGION,weights=pistr,fpc=c(rep(n1/N1,n1),rep (n2/N2,n2),rep(n3/N3,n3),rep(n4/N4,n4)),data=sampstra) es.post=svytotal(~ACRES92,samp.s) tpost[i]=es.post[1] } tpost; var(tpost) # 500 ESTIMATIONS POST STRATIFIE eds= var(tpost) /var.HT ;eds # EFFET DE SONDAGE SI / STP Master 2 En Méthodes Statistiques Et Econométriques 18 : Page inégale avec remise vient en troisième position et enfin celui de sondage aléatoire Sondage : méthodes probabilistes Les 500 estimateurs de Horvitz-Thompson et post stratifiées du total de nombre d’acres dédiés aux fermes en 1992 sont données les commandes ci-dessus par : « ACRES92.ht » et « tpost ». Les variances empiriques pour chacune des deux méthodes d’estimation sont : Horvitz-Thompson : 479 983 455 Post stratifié :0 On trouve, par ailleurs, le même estimateur pour les 500 échantillons aléatoires et sans contrairement à l’estimateur d’Horvitz-Thompson qui vaut 479 983 455. Il est comme d’usage de solliciter l’estimation de post stratification que celui de sans remise de Horvitz-Thompson. En effet, on ne s’attendait absolument pas aux résultats obtenus pour les 500 estimateurs de Horvitz-Thompson et les estimateurs de post stratifiés. En effet, cela est dû à la désignation de la graine aléatoire fixée au préalable. Ce dernier rend identique tous les estimateurs pour les 500 échantillons, ce qui donnent une variance nulle : il s’agit de l’inconvénient de la graine aléatoire. Master 2 En Méthodes Statistiques Et Econométriques 19 : Page remise. D’autre part, l’étude de la variance est nulle pour l’estimation post stratifié