当前位置:文档之家› 第十一章 调查中的非抽样误差讲解

第十一章 调查中的非抽样误差讲解


Y0 N0 r ,W0 Y1 N
(一)丢失目标总体单元时的影响

则估计Y的相对偏倚为:
Y0 rW0 Y rW0 (1 W0 )

则均值的相对偏倚为:
W0 (Y1 Y0 ) W0 (1 r ) Y rW0 1 W0


由此可见,相对便宜取决于r和W0两个因素。 当r=1是,均值估计量是无偏的。
第十一章 调查中的非抽 样误差
1、误差的来源及特点 2、抽样框误差 3、无回答误差 4、计量误差
为什么要研究误差?




数据的准确性与可靠性是抽样调查的生命 力之所在。 换言之,一次抽样调查是够成功的关键是 选取的样本能否很好地代表总体,样本和 总体之间的差异有多大。 如果不考虑样本的代表性和误差,很可能 会得出错误的结论。 如美国选举前的调查。
考察抽样框误差的成因,大致有 以下几个方面:

(1)丢失目标总体单元。在此情形下,抽样框 没有能够覆盖全部目标总体单元,也就是使部 分目标总体单元没有包括在抽样框中,因而也 就没有机会被选入样本。由于存在丢失单元, 使得总体总和的估计偏低,总体均值的估计也 可能会出现偏差。丢失单元是一种威胁性较大 的抽样框误差,具有较强的隐蔽性,不易被发 现。

其中,Y0是非目标总体单元观测值之和,Y是 目标总体总量,Yi为第i单元的观测值。现从抽 样框的M个单元中随机抽取m个单元组成样本, 则 为YF的无偏估计。当用来估计Y时,就会产生 偏差,这表明被高估了。
样本数据误差的来源
误差
抽样误差 由抽样的随 机性造成 非抽样误差
抽样框不完善、无回答、 调查过程的差错、数据 整理过程的差错
抽样误差的特点




在抽样调查中,抽样误差是不可避免的,但是 可以估算出抽样误差的大小; 增大样本量可以减少抽样误差; 选择更适合的抽样方法可有效减小抽样误差, 如分层抽样、多阶段抽样等; 利用辅助变量改进估计方法也可提高估计的精 度,如比估计和回归估计。 预先可知。

(4)不正确的辅助信息。 一般将不包含辅助信息的抽样框称之为简单抽 样框,而将包含辅助信息的抽样框称为复杂抽 样框。复杂抽样框中的辅助信息可以用于分层 抽样、不等概率抽样,以及使用比估计和回归 估计等。如果辅助资料不完全或不正确,则不 但不能提高抽样估计的效率,反而会降低估计 的准确性。

返回
非抽样误差的特点



非抽样误差不随样本量增大而减小 造成估计量有偏,且难以从样本中估计出来, (知道存在,但无法估计出误差的大小); 有些非抽样误差难以识别和测定,(不知道是 不是存在非抽样误差);如班级人数 成因复杂,有社会的、经济的、心里的等多方 面的因素,处理方法复杂,且较困难。
非抽样误差的产生
Y Yi Yi Y1 Y0
i 1 i 1
N1
N0
(一)丢失目标总体单元时的影响


其中Y1为抽样总体总和,Y0为丢失单元总和, Yi为第i单元的观测值。现从抽样框的N1个单元 中随机抽取n1个单元组成样本,则 N1 y1 是Y1的 无偏估计。当估计Y时,结果就会出现偏差, 偏差为- Y0。 如果以r表示丢失单元与抽样框中单元的均值 之比,又以W0表示丢失单元占全部目标总体 单元的比重。

1、调查及抽样设计阶段

问卷设计:词汇、问题能导致多种理解 抽样框不完善 无回答:没有填写 信息不真实:没有填对

2、数据采集阶段


3、数据处理与分析阶段

审核、整理、录入时出错 估计方法不当:抽样方法必须和估计方法一致。
NEXT
问卷设计阶段可能出现的问题

您是否认为使用电脑数字技术制作的广告 更具有吸引力?

(5)抽样框陈旧。 有时由于构成抽样框的抽样单元资料“老化”, 抽样框所提供的信息与现实情况差距较大,也 会导致抽样框误差。并且这类误差也可能进一 步引起前面四类抽样框误差中的一种或几种同 时发生。 比如,以2000年的人口普查资料作为抽样框。
二、抽样框误差的确定


(一)丢失目标总体单元时的影响 前已指出,丢失目标总体单元是抽样框 误差中威胁最为严重的一种。现设目标 总体是由N1个抽样总体单元及另外N0个 没有包含在抽样框中的单元(即丢失单元) 组成,即N=N1+N0,则总体总和应为:

(2)包含非目标总体单元。 有时,抽样框中也可能包含了一些不属于研究 对象总体即非目标总体的单元,由此容易导致 总体总和的估计偏高。但这种类型的抽样框误 差一般要比丢失单元的威胁性小。因为在调查 中,非目标总体单元往往更容易被发现,并予 以剔除。常可能会遇到这种情况:抽样框中 的单元与目标总体单元不完全为一一对应, 而是一对多或多对一,即存在复合联接。 在这种情形下,目标总体中各个单元的入 样概率可能会受到相应的影响,从而导致 非抽样误差的扩大。但是,有时候采用经 过精心设计的有复合联接的抽样框可以提 高稀有元素被抽中的概率。 比如:一个门牌号内有几户人家,或一个 家庭有几处住房。
总体总和估计偏倚
总体均值估计偏倚
(二)包含非目标总单元时的影响

如果以M0表示抽样框中所含非目标总体单元数, MT表示抽样框中所含目标总体单元数,则抽 样框所含全部单元数M=MT+M0,在抽样框中不 存在丢失单元,也没有复合联接时MT=N,则 抽样总体总和可表示为
(二)包含非目标总单元时的影响
美国选举案例




谁会在1936选举中获胜 ?Alf London还是 F.D.R.(罗斯福)? Literary Digest (文摘)送出一千万份问卷(返 回二百四十万份)后,预测London 会赢。 而Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢。 最后罗斯福和盖洛普都赢了。文摘倒闭了。
人们认为长虹牌彩电质量不错,你觉得怎么样 ? 您觉得产品的包装不好看吗?


返回
抽样框不完善
抽 样 框
目标总体
抽样框
抽 样 框
返回
抽样框误差及其控制

一、抽样框误差的产生 抽样框是有关总体全部单元的名录或地图等的 框架,是抽取样本单元的依据。理想的抽样框 (也称抽样总体)应该同所研究现象的总体(也即 目标总体)一致,但在实践中,抽样总体与目 标总体常常不一致,由此产生的误差就是抽样 框误差。
相关主题