当前位置:文档之家› 07第七章抽样调查

07第七章抽样调查

清单中所列的内容不在总体中
加倍问题
对给定的总体成员,清单上会有两个以上的选项相对应
聚类问题
对给定的清单选项,存在两个或两个以上的总体成员相对 应
20/47
解决遗漏问题
什么时候该担心遗漏问题
包含>90%的总体,并不遗漏重要的子集 可以直接使用
包含50%~90%的总体,并遗漏了子集
可以使用,但必须补充遗漏
26/47
1.总体参数估计概述
设待估计的总体参数是θ,用以估计该参数的
统计量是 ,抽样估计的极限误差是Δ,即:
极限误差是根据研究对象的变异程度和分析任务的性质来 确定的在一定概率下的允许误差范围。 参数估计的两个要求:
精度:估计误差的最大范围,通过极限误差来反映。显然,Δ越小, 估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的 确定要以实际需要为基本标准。
给没有清单的问题加上一个框架
18/47
获得清单
尽量使用现有的清单,实在不行才亲自获得.
(1)一般总体的地区级清单 从邮政局的地址目录、地区电话目录、街道办事
处 (2)组织成员清单 组织的内部 (3)行业地区级清单 黄页、商业厅
19/47
清单的问题
遗漏问题
清单中存在没有列出的总体成员
无被选项问题
不可能采用全面调查时可采用抽样调查。 不必要进行全面调查时可采用抽样调查。 由于时间经费限制或误差要求不高时可采用抽样调查。 满足紧急需要,来不及进行全面调查,可用抽样调查。 在全面调查后,对某些数据进行修正时采用抽样调查。
3/47
(二)抽样调查的原理
1. 必然现象与偶然现象 2. 大数定理 3. 中心极限定理
29/47
3.参数区间估计
参数区间估计的含义:估计总体参数的区间范围,
并给出区间估计成立的概率值。
p(1 2 ) 1
其中: 1-α(0<α<1)称为置信度;α是区间估计的显著性水平, 其取值大小由实际问题确定,经常取1%、5%和10%。
注意对上式的理解:
例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,, 这样,由1000个样本构造的总体参数的1000个置信区间中,有95% 的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里, 95%这个值被称为置信水平(或置信度)。
16/47
定义总体cont.
设定总体边界
应该用操作数语表示清楚
ex.
雅安地区的成年人 VS 年满18周岁,长期居住雅安地区的人
啤酒饮用者
VS 过去三个月至少喝一次啤酒的人
17/47
2.设定总体框架
总体框架就是一份清单或一个系统,在 它上面列出了总体中的每一个成员。
获得清单
清单的问题
• 解决遗漏的问题 • 处理无被选资格问题 • 处理加倍问题 • 处理聚类问题
可靠性:估计正确性的一个概率保证,通常称为估计的置信度。
27/47
2.总体参数的点估计
点估计的含义:直接以样本统计量作为相应 总体参数的估计量。
X
p
P
2 s2
2
X X n 1
总体平均数 总体成数 总体方差的估计量
28/47
Is point estimate accurate?
优良估计具有无偏、一致、有效性。 点估计完全正确的概率通常为0。因 此,我们更多的是考虑用样本统计量 去估计总体参数的范围,即区间估计。

样本误差

样本不能真实反应总体时带来的偏差。 样本误差可以通过调整样本大小来控 制。即样本越大就越能真实的反应总 体的特征。
样本偏差
样本中的成员不能代表总体成员特征 时产生的偏差。样本偏差的控制:选择 能最好代表总体的样本,并从所选择 样本中尽可能获取数据。
第七章 抽样调查P119
学习目标
1. 掌握抽样的程序 2. 了解抽样误差的影响因素 3. 熟练掌握常用的抽样组织形式
学习内容
一.抽样调查的意义、作用、原理 二.抽样的基本概念 三.抽样的程序 四.抽样样本确定 五.抽样设计
2/47
一、抽样调查的意义、作用、原理
(一)抽样法的意义及作用 意义:通过对部分单位的调查,达到对总体数量特征的认识。 作用:
则必须增加样本容量n。样本容量n究竟取多大合适?
How large is large?
=z
2
g
n
n
z 2 2 2 x2
34/47
ex.确定样本容量
对某批木材进行检验,根据以往经验,木材长度的标 准差为0.4米,而合格率为90%。现采用重复抽样方式, 要求在95.45%的概率保证程度下,木材平均长度的极 限误差不超过0.08米,抽样合格率的极限误差不超过 5%,问必要的样本单位数应该是多少?
4/47
1.必然现象与偶然现象
① 必然性是指事物联系和发展中一定要发生的、不可避免的趋 势。偶然性是指事物联系和发展中不确定的趋向。必然性和 偶然性是对立统一的关系。
② 二者是对立的,它们是事物发展的两种不同趋向,产生的原 因以及在事物发展中的地位和作用不同。
③ 二者是统一的,其表现是: 第一,必然性总是通过大量的偶然性表现出来,由此为自己 开辟道路,没有脱离偶然性和纯粹必然性;第二,偶然性是 必然性的表现形式和必要补充,偶然性背后隐藏着必然性并 受其制约,没有脱离必然性的纯粹偶然性;第三,必然性和 偶然性可以在一定条件下互相转换。
④ 必然性和偶然性辩证关系的原理,对指导科学研究和社会实 践有重大意义。 5/47
2.大数定理
lim
n
p
1 n
n i 1
Xi
1
当样本容量n 充分大时,可以用 样本平均估计总体平均。
lim
n
p
m n
p
1
当试验次数n充分大时,可以用 频率代替概率。
大数定理的意义:个别现象受偶然因素影响,但是,对 总体的大量观察后进行平均,就能使偶然因素的影响相 互抵消,从而使总体平均数稳定下来,反映出事物变化 的一般规律,这就是大数定理的意义。
1. 抽样估计效果的衡量与抽样组织形式 2. 简单随机抽样 3. 类型抽样 4. 整群抽样 5. 等距抽样 6. 阶段抽样 7. 不同抽样设计的比较
36/47
1.抽样估计效果的衡量与抽样组织形式
Sampling is destined to cause errors.
非样本误差
由和被访者无关的所有错误来源组成, 包括:度量工具自身的不足或不稳定, 编码和输入数据时产生误差
1、估计总体 2、从1到N之间选择样本,N为总体大小
例:在去商场购物的样本中,估计有10000个顾客在 采访期间进商商场购物,要从中选500人
方法1、 随机访问500人 方法2、 每隔20人(10000/500=20)访问一次
25/47
四、抽样样本确定
1. 总体参数估计概述 2. 总体参数的点估计 3. 参数区间估计 4. 样本容量的确定
3. 每个单位在多次(轮)试验中中选的机会是不等的。
14/47
三、抽样的程序
1. 定义总体 2. 设定总体框架 3. 抽样的设计 4. 抽样
15/47
1.定义总体
定义总体单元
总体是由哪些单元个体构成的(个人、家庭、 公司、工厂……) 。
设定总体边界
总体边界,是将与调研项目相关的人员和无 关人员区分开的条件。
9/47
2.样本容量与样本个数 重复抽样 :Nn
不重复抽样:CNn 样本容量
一个样本中所包含的单位数,用n表示。 样本容量大,样本误差会小,但调查费用必增加,反之,样
本容量过小,又将导致抽样误差增大,甚至失去抽样推断的 价值。因此,在抽样设计中应根据调查目的认真考虑合适的 样本容量。
样本个数
又称样本可能数目,指从一个总体中所可能抽取的样本的个 数。对于有限总体,样本个数可以计算出来。样本个数的多 少与抽样方法有关。
一般地,将构造置信区间的步骤重复很多次,置信区间包含总体参数真 值的次数所占的比例称为置信水平。
30/47
区间估计的基本要素
对总体均 值的估计
包括:样本点估计值、抽样极限误差、估计的可靠程度
p(ˆ Δ) 1 ,即p( X ) 1
进一步可以写成
p( X ) 1
X
X
1 称为置信度(或概率保证程度) 称为概率度 X
2
用Excel函数求z 的值 abs(normsinv(1 / 2)) 2
X 是样本平均数的标准差,由中心极限定理可得

n
所以=z
2
g
n
32/47
Some questions
1. 重复抽样和不重复抽样的Δ一样吗? 2. 总体方差未知时怎么办?
1. 不重复抽样时只需加一个修正系数
=z 2
n
N n N 1
重复抽样
重复抽样(或重置抽样)是指从总体中抽出一个样 本单位,记录其标志值后,又将其放回总体中继 续参加下一轮单位的抽取。
重复抽样的特点
1. n个单位的样本是由n次试验的结果构成的。
2. 每次试验是独立的,即其试验的结果与前次、后 次的结果无关。
3. 每次试验是在相同条件下进行的,每个单位在多
次试验中选中的机会(概率)是相同的。
包含50%的总体或更少
不使用这份清单
21/47
处理无被选资格问题
当遇到无被选资格的元素时就删除它,并相应 的调整规模的大小.
(1)确定调整后的规模 (2)从调整后的规模中抽取有被选资格的元素
ex.如查需要某一城市300(n)个成年人的样本, 具了解成年人占所有登记人数的60%(e)
调整后的样本规模=n/e=300/0.6=500 从500人中抽取300个成年人,把其它的删除
相关主题