《抽样技术》期末复习1、设计效应(Deff)答:设计效应(deff )是由基什提出的,用来对不同抽样方法进行比较,其定义为:deff = -,其中v srs(y)为不放回简单随机抽样简单估计量的方差;V(y)为某个抽J(y)样设计在同样样本量条件下估计量的方差。
设计效应的定义就是将某个抽样设计的估计量的方差与同样样本量条件下的不放回简单随机抽样简单估计量的方差进行比较。
如果deff < 1, 则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff > 1,则所考虑的抽样设计比比简单随机抽样的效率低。
deff对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量H 比较容易得到,如果可以估计复杂抽样的deff,那么复杂抽样所需的样本量为:n = n r x deff。
2、概率抽样答:概率抽样也称随机抽样。
概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。
具体说来,概率抽样具有以下几个特点:(1 )按一定的概率以随机原则抽取样本。
(2)每个单元被抽中的概率是已知的,或是可以计算出来的。
(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。
也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。
概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。
从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。
因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。
3、非抽样误差答:非抽样误差是指除了抽样误差以外的,由于各种原因引起的误差。
同抽样误差相比, 非抽样误差有如下特点:(1)非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大而减小。
(2)在抽样调查中,由于非抽样误差的影响,往往造成估计量的有偏。
(3)有些非抽样误差难以识别和测定。
(4)产生非抽样误差的渠道众多,成因复杂,对调查数据质量和估计结果的负面影响非常大。
非抽样误差按其来源、性质的不同,可以分为抽样框误差、无回答误差和计量误差等三类。
4、不等概率抽样答:不等概率抽样在抽样前赋予总体每个单元一个入样概率,当然这个入样概率是不相同的,否则抽样就成为等概率的抽样。
不等概抽样的优点是丸丸提高估计精度,减少抽样误差,但使用它也有条件,就是必须要有说明每个单元规模大小的辅助变量来确定每个单元人样的概率,这在抽样及推算时都是必须的。
不等概率抽样可以按样本单元是否放回分为放回不等概抽样和不放回不等概抽样。
5、最优分配答:在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下估计量的方差达到最小,或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。
6、比率估计答:比率估计(radio estimator )又称比估计,在进行抽样调查时,目标量本身就是总体比率,这样对目标量的估计就叫做比率估计,也可用来提高估计量的精度,它是有偏的。
2v =1252,有40户用水超过了规定7、试述分别比估计和联合比估计的比较答:如果每一层都满足比率估计量有效的条件,则除非Rh=R ,都有分别比率估计量的 方差小于联合比率估计量的方差。
但当每层的样本量不太丸时,还是采用联合比率估计量更 可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
实际使用时,如果各层的样本量都较大,且有理由认为各层的比率心差异较丸,则分别比率佑计优于联合比率估计。
当各层的样本量不大,或各层比率心差异很小,则联合比率估 计更好些。
8、 试述设计效应在抽样设计中的应用。
答:设计效应(design effect,简称deff )是指在相同样本量的条件下,采用特定的 抽样设计(一般为较复杂的抽样设计)与不放回简单随机抽样简单估计量的方差之比,如果 deff<l,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff>l,则所考虑的抽 样设计比简单随机抽样的效率低。
设计效应是抽样调查中的一个重要参数,它可以表明特定 抽样设计的估计效率;如果有设计效应的经验数据,也可以用于确定不同调查方式所需要的 样本量,从而大大节约计算样本量的时间,因此倍受抽样调查设计人员的关注。
9、 有人认为“总体愈大,应抽的样本量也愈大”,请对此加以评价。
答:这种说法是不正确的。
因为,虽然在其他条件相同的条件下,样本量越大,抽样误 差越小,但是从抽样误差与样本量的关系图可以看出,抽样误差在开始时随着样本量的增丸 而显著减小,但经过一定阶段后便趋于稳定。
也就是说,经过一定阶段后,用增大样本量的 方式减少抽样误差一般是不合算的。
当样本增大到一定能够程度,无论总体再大,抽样的精 度都差不多。
所以,这种说法是不正确的。
10、(简单随机抽样的均值、比例估计和样本量的确定)某住宅区调查居民的用水情况,该区共有N =1000户,调査了 "=100户,得歹二12・5吨, 的标准。
要求计算:(D 该住宅区总的用水量及95%的置信区间;(2)若要求估计的相对误差不超过10%,应抽多少户作为样本? ③以95%的可靠性估计超过用水标准的户数;解:已= 1000, n = 100,心&誥戶2.5, —252 d )估计该住宅区总的用水量Y 为:Y=Ny= 1000x12.5= 12500 估计该住宅区总的用水量Y 的方差和标准差为:v (Y )=N 2v (y )=N 2 一 s 2 = 1OOO 2 x xl 252= 11268000n 100 s (Y )=7vCb = Jl 1268000 « 3356.7842 因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:Y ± ts&)二 12500 ±1.96x 3356.7842 « 12500 ± 6579 即,我们可以以95%的扌巴握认为该住宅总的用水量在5921吨~ 19079吨之间。
0根据题意,要求估计的相对误差不超过10%,即r<0. 1,假定置信度为95% 丄日斥 \ 上t 2s 21.962 xl252根据公式:%二==亍"078r o.r xi2.5^由于=3.078 > 0.05 ,所以需要对进行修正:卸n()3078 ___I + 1 +3.078N-若要求估计的相对误差不超过10%,应抽不少于755户作为样本。
3以95%的可靠性估计超过用水标准的户数;令超过用水标准的户数为A,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例P为:a 40 zp = — = ------ = 40%n 100估计超过用水标准的比例P的方差和标准差为:|-f 1-0 Iv(p)=——pq =——-x 40% x 60% = 0.002182n-1 100-1s(p) = Jv(p) = V0.002182 u 4.67%在95%的可靠性下,超过用水标准的比例P的估计区间为:p ± ts(p) = 40% ±1.96x 4.67%因此,我们有95%的把握认为,超过用水标准的比例P在30. 85%49. 15%之间,超过用水标准的户数的点估计为:1000 x 40% = 400户,超过用水标准的户数在1000x30.85%户~ 1000x49.15%户之间,即309户〜492户之间。
12、(内曼分配和按比例分配的均值和比例估计)有下列数据设〃 =1000①采用按比例分层抽样的方适估计卩和P并计算其标准误;⑵采用奈曼分配的方法估计卩和P并计算标准误;_解:①根据题中已知条件,采用按比例分层抽样的方法估计卩为:Ly st二工WJh =0.35x3.1+0.55x3.9 + 0.1x7.8 = 4.01h=l估计Y的方差和标准误差为:v(yj = —q丄(0.35x22 +0.55x3.32+O.lxl 1.32)«0.0201585n h=i 1000s(yj = Jv(%) = 700201585 « 0.141981 估计P及其方差和标准误差为:L% =工WPh =0.35x0.54+0.55x0.39+0.1 x0.24=0.4275h=l]—f ' ]V(p priv)Q——工WPhClh Q — (0.35x0.54x0.46+0.55x0.39x0.61+0.1 xO.24xQ76)«0.0002I8 n h=]1000略茁用爲=V0.00()218-0.0147651 L1 Lv (y.)=-(Zxs h )2--£^ n h=iN h=iv%戸丄(工n h=iu 藕03x 丽両+叱丽而+01x7^X000236520x328+1()8x400+1400x310+1200x370+9000x420«398520+108+1400+12(X )+9000Q )采用Neyman 分配的方法估计丫和P 的方法和与①是一样的,即Ly sl =工 W h y b = 0.35 x 3」+ 0.55 x 3.9 + 0」x 7.8 = 4.01 h=lL Pp.o P =E WhPh =0.35x0.54 + 0.55x0.39 + 0.1x0.24 = 0.4275 h=l但是采用Neyman 分配估计丫和P 的方差的方法不同,分别为:阪(0.35 x 2 +0.55x33+0.Eg 仙286s (yj== 70.013286 "115265s (R“)=尺» =J°・°°°236 - 0.01536213、(两阶段抽样)某市为了了解职工收入情况,从该市的630个企业中随机抽取了 5 个企业,在中选的企业中对职工在进行随机抽样,有关数据如下:其中,必‘为企业职工数,f 为样本量;%为样本均值,时为样本方差。
试估计该市职工平均收入及标准差。
解:已知:N = 630, n = 5, 估计该市职工的平均收入为:EMYii=l估计该市职工平均收入的方差及标准差为:n n-1 i=In 1=I 叫= _O_L l (328_398)2 +(400—398)2 +(310—398)2 +(370_398)2 +(420-398)2J + 5 5 — 1.10 . 10 . 20 . 20 . 100斗[屮的。
56+十 X3E34+普 x 屈 58+埠S205.786+卅 WOO] « 667.460317+45.321254 = 713.781571 s (y )=7v (y )=7713.781571 « 26.71669因此,估计该市职工平均收入为398元,标准差为26.71669元14、(比率估计)(14)某养兔场共有100只兔子,上月末称重一次对每只兔的重量作了纪录,并计算平均重量为 3. 1磅,一个月后随机抽取10只兔子标重如下:序 号 f y1 rl 7 1 2 3 4 5 6 7 8 910 上 3・ 3 2. 2. 2. 3. 33・ 2. 2.次 2 9 8 8 1 2 9 8本 4・ A4・ 3・ 3・ 4・ 4・ 4・3・ 3. 次 11 9 7 12 1 9 9 ①估计这批兔子较上月末增重的比率及其标准误差;0估计现有兔子的平均重量及其标准误差;③将比估计方法与均值估计法进行比较,哪一种方法效率高?分析其原因。