抽样技术作业一(2.5——2.10)袁闪闪2120502119 2.5解:这里N=200,n=20,由表中的数据可得:201122111144.5201(826.052616.097ni ii iniiy y yns y yn=======-=-==∑∑∑因而该小区平均的文化支出Y的95%的近似置信区间为:[[144.5 1.96 6.097][132.5503,156.4497]y z y zαα-+=±⨯=所以该小区平均的文化支出Y的估计为144.5元,其95%的置信区间为(132.55元,156.45元)。
2.6解:有题意可得:N=350,n=50,y=1120,2s=25600,所以粮食总产量为:3501120392000()Y N y∧==⨯=元代入数据得:/2/2[[392000 1.967332.12][377629,406371]y z N y z Nαα-+=±⨯=所以总产值的95%的置信区间为:(377629吨,406371吨)。
2.7解:由题意可得:N=1000,d=2,α=0.05,2S=68,r=70%,带入公式,可得初始样本量:222/2022222/2/21161.362Nz SdnN z S Nd z Sααα⎛⎫=+==≈⎪+⎝⎭由于有效回答率为r=70%,,对样本容量进行再调整:70%87.5788nn nr===≈所以样本最终确定为88。
2.8解:由题意已知:N =100,n =10,X =2135,y =25,x =22,方法一:简单随机估计:100252500()Y N y ∧==⨯=吨方法二:比估计:由经验可知去年的化肥总产量和今年的总产量之间存在较强的相关性,引入去年的化肥总产量作为辅助变量。
于是我们采用比率估计量的形式来估计今年的化肥总产量。
总产量的估计值为:_^^_2426.14R yY R X X x ===(吨)2.9解:这里N =200,n =20。
由2.5可得简单估计量的均值和标准差估计:201122111144.5201(826.05261 6.097n i i i i n i i y y y n s y y n =======-=-==∑∑∑引入了家庭的总支出(X )作为辅助变量,进行比率估计。
由于文化支出属于总支出的一部分,主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的。
由题意可得:全部家庭的总支出的平均:=1600X 样本家庭总支出的平均为:201111158020n i i i i x x x n =====∑∑文化支出的比率估计量为:_____^_146.33R yy R X X x ===在样本量较大的条件:()()()22212R R x x f V y MSE y S R S S R S n ρ-≈≈-⋅+,由计算可得两个变量的样本方差为:2212211(826.052611(99378.951n i i n x i i s y y n s x x n ===-=-=-=-∑∑Y X和之间的相关系数的估计值:^0.974ρ=,代入比率估计量的方差的估计公式,可得:1.40≈≈这个数值比简单估计量的标准差估计值要小很多。
所以全部家庭的平均文化支出的195%α-=的置信区间为__[[146.33 1.96 1.40][143.59,149.07] R Ry z y zαα-+=±⨯=。
0.229≈=,可以看出比估计量比简单估计量的效率更高。
2.10解:这里N=120,n=10。
由表中数据可得简单估计量的均值和标准差估计:1011221211163101(212.2211(-19.4537ni ii iniiy y yns y ynnv y sn N=======-=-=⨯=∑∑∑(1因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相关性,而且这种相关关系是稳定的,所以利用回归估计的方法,对牛肉现在的重量进行估计。
由题意可得:肉牛的原重量的平均数值为:=100X样本肉牛的原质量平均估计为:101111102.610ni ii ix x xn=====∑∑两个随机变量相关系数的估计值为:^0.971ρ=,样本肉牛的原质量方差估计为:2211()106.9331nx iis x xn==-=-∑回归估计量精度最高的回归系数β的估计值为:^^14.5680.971 1.36810.341xssβρ==⨯=到肉牛现重量的回归估计量为:___^159.44lry y X xβ⎛⎫=+-=⎪⎝⎭。
回归估计量_lr y 的方差估计为:2_^211 1.097lr f v y s n ρ⎛⎫-⎛⎫=-= ⎪ ⎪⎝⎭⎝⎭。
比较回归估计和简单估计的效率,()()__0.056R R V y v y V y v y ⎛⎫⎛⎫ ⎪ ⎪⎝⎭⎝⎭≈=。
因为在本题中,存在肉牛原重量这个较好的辅助变量,所以不难理解回归估计量的精度要好于简单估计量,即回归估计量比简单估计量的效率更高。
Code:#######抽样技术作业第二章2.5library(survey)income<-read.delim("income2.5.txt")#读入数据N<-200n<-20mean<-mean(income[,1]);mean #求均值s<-var(income);s #求样本方差c<-sqrt(s*(1-n/N)/n);c #求估计量的方差估计d<-qnorm(1-0.025);d1<-mean-c*d;d1d2<-mean+c*d;d2#做置信区间#######抽样技术作业第二章2.6N<-350n<-50s<-25600c<-N*sqrt(s*(1-n/N)/n);c d<-qnorm(1-0.025);d1<-392000-c*d;d1d2<-392000+c*d;d2#######抽样技术作业第二章2.7N<-1000d<-2s<-68r<-0.7z<-qnorm(1-0.025);n1<-(N*z^2*s)/(N*d^2+z^2*s);n1#求样本量n<-n1/r;n #######抽样技术作业第二章2.8y<-25x<-22X<-2135Y<-X*y/x;Y #######抽样技术作业第二章2.9income<-read.delim("income2.5.txt");incomeincome1<-read.delim("income2.9.txt");income1N<-200n<-20mean_X<-1600mean_y<-mean(income[,1]);mean_ymean_x<-mean(income1[,1]);mean_xR<-mean_y/mean_x;R#求比率估计mean_yr<-R*mean_X;mean_yr#利用比估计估计均值s_y<-var(income);s_ys_x<-var(income1);s_xp<-cor(income,income1);p#求相关系数f<-(1-n/N)/n;c_yr<-sqrt(f*(s_y-2*R*p*sqrt(s_y)*sqrt(s_x)+R^2*s_x));c_yr#求比估计的方差估计c_y<-sqrt(s_y*(1-n/N)/n);ct<-c_yr/c_y;td<-qnorm(1-0.025);d1<-mean_yr-c*d;d1d2<-mean_yr+c*d;d2#做置信区间#######抽样技术作业第二章2.10回归估计weight1<-read.delim("weight2.10.txt");weight1weight2<-read.delim("weight2.11.txt");weight2N<-120n<-10X<-100mean_y<-mean(weight2);mean_ymean_x<-mean(weight1);mean_xs_y<-var(weight2);s_ys_x<-var(weight1);s_xp<-cor(weight1,weight2);pb<-p*sqrt(s_y/s_x);b#求回归系数估计mean_ylr<-mean_y+b*(X-mean_x);mean_ylr#求回归估计量fn<-(1-n/N)/n;v_y<-s_y*fn;v_yv_ylr<-fn*s_y*(1-p^2);v_ylrt<-v_ylr/v_y;t#比较回归估计和简单估计的效率。