第十一章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。
如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。
因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。
如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。
理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:(1)丢失目标总体单元。
在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。
由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。
丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。
有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。
但这种类型的抽样框误差一般要比丢失单元的威胁性小。
因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。
实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。
在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。
但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。
一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。
复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样,以及使用比估计和回归估计等。
如果辅助资料不完全或不正确,则不但不能提高抽样估计的效率,反而会降低估计的准确性。
(5)抽样框陈旧。
有时由于构成抽样框的抽样单元资料“老化”,抽样框所提供的信息与现实情况差距较大,也会导致抽样框误差。
并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。
二、抽样框误差的确定(一)丢失目标总体单元时的影响前已指出,丢失目标总体单元是抽样框误差中威胁最为严重的一种。
现设目标总体是由N A 个抽样总体单元及另外N 0个没有包含在抽样框中的单元(即丢失单元)组成,即N=N A +N 0,则总体总和应为0A A N N i i iiY Y Y Y Y =++∑∑其中A Y 为抽样总体总和,0Y 为丢失单元总和,i Y 为第i 单元的观测值。
现从抽样框的N A 个单元中随机抽取n A 个单元组成样本,则A Y 的无偏估计。
当用N AYA 来估计Y 时,结果就会出现大小为0Y 的偏差,即0()AyA A E N Y Y Y Y -=-=-这表明Y 被低估了。
如果以r 表示丢失单元与抽样框中单元的均值之比,即/O A r Y Y =又以W 0表示丢失单元占全部目标总体单元的比重,即00/W N N =,则总和估计量AyA N 的相对偏差可表示为0000(1)rY W Y rW W -=-+- 当估计总体均值Y 时,用A y 估计Y 的偏差为0()A A O Y Y W Y Y -=-;此时的相对偏差为0000()(1)(1)A O Y Y W W r rW W Y--=+- 表10.1与表10.2分别给出了不同的丢失单元比重W 0对总体总和与均值估计的相对偏差。
其中关于Y 0与N 0的值可依有关资料进行估计,对此,后面将专门讨论。
(二)包含非目标总单元时的影响如果以M 0表示抽样框中所含非目标总体单元数,M T 表示抽样框中所含目标总体单元数,则抽样框所含全部单元数0T M M M =+,在抽样框中不存在丢失单元,也没有复合联接时,0T M N =则抽样总体总和F Y 可表示为00TM M M F i i i iiiY Y Y Y Y Y ==+=+∑∑∑其中,0Y 是非目标总体单元观测值之和,Y 是目标总体总量,i Y 为第i 单元的观测值。
现从抽样框的M 个单元中随机抽取m 个单元组成样本,则mF i iMM y Y m=∑为F Y 的无偏估计。
当用F M y 来估计Y 时,就会产生()F F E M y Y Y Y Y -=-=的偏差,这表明Y 被高估了。
如果以u 表示非目标总体单元与目标总体单元均值之比,0Q 表示非目标总体单元占抽样总体单元的比重,即0M Q m =,0Y u Y= 则总和估计量F M y 的相对偏差可表示为0001u Y Q Y Q =- 当估计总体均值Y 时,以F y 估计Y 的偏差为00()F Y Y Q Y Y -=-此时的相对偏差为000()(1)Q Y Y Q u Y-=-表10.3和表10.4分别给出了不同的0Q 与u 时总体总和与均值估计的相对偏差。
表10.3 总和估计中的相对偏差在实际调查中,如果将那些被选入样本的非目标总体单元剔除,而以样本中剩余的属目标总 体单元的资料进行估计,由于减少了样本容量则会使估计的误差增大。
令: i Y 若i 是目标总体单元 i Y '= 0 否则则总体总和估计为ˆmi iM YY m'=∑此时有222000ˆ()[(1)(1)]y M V Y Q S Q Q Y m=-+- 其中221()1TM y i T iS Y Y M =--∑ 同完善的抽样框(即00Q =)相比,包含非目标总体单元抽样框使得估计误差增大222000[(1)]y M Q Q Y Q S m-- (三)复合联接的影响对于复合联接的影响问题,Kiranandana 曾于1976年进行过研究。
如果抽样框中没有丢失单元也不包括非目标总体单元,同时也没有将抽样框作分层处理,即假定:00N =, 00M =,1i N =, 目标总体单元与抽样总体单元正确联接,*0i N = 没有目标总体单元与抽样总体单元的错误联接,以及j M ≥1, 有一个以上的抽样总体单元同一个目标总体单元联接(复合联接),*0j M = 不存在错误的复合联接,则抽样框中的单元数目j jM M =∑大于目标总体中的单元数目。
假定j M 的最大值是Γ,则j M 的范围是从1到Γ。
令r T 表示当j M =r(r=1,2,…Γ)时目标总体单元的数量,则目标总体单元的总数为1rr r N T ==∑,抽样总体单元总数为rr rM rT =∑于是有221()1rT yri r i S Y Y Tr =--∑, 21()rT i r r iY Y T ≈-∑ 令/r r a T N =,则222[()]y r yr r rrS a S Y Y ≈+-∑又设Y r 为具有复合联接r 次的那些单元观测值之和,即rT r i iY Y =∑,则存在复合联接的抽样总体观测值总和为F r rrY rY =∑.而目标总体的观测值总和为r rrY Y =∑.现从M 个抽样总体单元随机抽取m 个单元组成样本,如果对复合联接不作调整,则总和估计的偏差为(1)F r rrY Y r Y -=-∑,相对偏差为(1)r rrr rrrr a Yra Y-∑∑,在均值r Y 均相等时,相对偏差则简化为:M NN-. 在估计总体均值时,由于1mF i iy Y m =∑,估计量的偏差为1()F r rrr Y Y Y M N-=-∑ 当所有的r Y 都相等时,偏差则为0。
估计量的相对偏差是相对偏差()1rrF r rrrrTrYy rM a Y =-∑∑.(四)不正确的辅助信息的影响抽样框中不正确的辅助信息会降低调查估计的精确度。
Szameitat 和Schaffer 曾于1963年对分层抽样中使用不正确的辅助信息所造成的影响进行过专门的研究。
设依据辅助变量的信息,将总体分成L 层,用简单随机不放回方式抽选出一个样本,对目标总体第q 个部分的总和q Y 进行估计。
令 ,qh N +为q 部分中目标单元的数量, qh N 为q 中被正确归入h 的单元数,*qh N 为q 中被不正确归入h 的单元数,h N +为h 层中单元总数,则*,qh qh qh N N N +=+.又设目标单元与抽样单元是一对一联接,且令hi Y 若抽样单元是q 中的目标单元,hi Y '= 0,否则. 则hn h hi iY Y ''=∑于是q 部分的总和q Y 的估计量为,ˆh Lh h hN YY n +'=∑, 其方差为2,22,,,,1ˆ()(1)()h Lh h gh gh gh qyh gh h h h h hn N N N N V Y S Y N n N N N +++++-=-+⋅∑.三、抽样框误差的补救根据前面的分析可以看出,当抽样框不完善时常会给抽样估计产生程度不同的影响,但在实际中取得一个好的抽样框又可能十分困难,我们常常不得不面对各种有缺陷的抽样框。
但这并不等于说我们就只能使用这种不完善的抽样框,事实上可以有多种办法用来对抽样框误差进行调整和补救。
(一)丢失单元抽样框的补救基本思路有两条:一是想办法将丢失的目标总体单元纳入到不完善的抽样框中,二是对产生于不完善抽样框的数据进行调整。
具体方法有: (1)对丢失单元实行联接。
当在调查过程中能够查明丢失单元时,在调查前可以确定某种规则,将丢失单元同抽样总体中的单元联接起来,以便将查明的丢失单元纳入到不完善的抽样框中,并赋于其与抽样总体相同的抽选概率。
(2)采用辅助抽样框。
即将查明的丢失单元单独编制成一个辅助抽样框,并同原抽样框一起使用。
(3)利用有关资料进行推算。
通过分析丢失单元的特征,尤其将丢失单元同抽样总体单元进行比较,结合其它一些资料,则可以大致对丢失单元的统计特征性作出一个估计或判断,并以其对实际调查的结果进行调整的基础上作出估计,这样也可以减弱丢失单元造成影响。
(4)用复查结果调整。
也就是采用核查和质量检查的方式,查明丢失单元的影响程度,并做为对原调查结果调整的依据。
这种方法在我国的农产量调查中得到应用,在那里,抽样是依据上报面积进行,而在推算过程中是以核实面积调整上报面积(具体是用核实系数),又以丈量面积调整核实面积。
(二)其它类型不完善抽样框的补救对于包含非目标总体单元的抽样框的补救,可以利用有关信息来进行调整,也可以通过对抽样框进行质量检查的方法以查明和剔除非目标总体单元。