当前位置:文档之家› 第10章 抽样估计与样本量确定

第10章 抽样估计与样本量确定


19
10.4 参数估计

参数估计就是根据从样本中收集的信息对总体参数进行推 断的过程。根据中心极限定理等推断理论所阐明的抽样分 布与总体分布之间的关系,由样本统计量的具体值(估计 值)估计总体参数。 点估计 区间估计


20

点估计

用样本的估计量直接作为总体参数的估计量。 存在抽样误差。 在点估计的基础上,对总体参数的区间或范围 进行估计(样本统计量加减抽样误差),点估计 值落在该区间范围内的概率为置信度或置信系 数或置信水平。
26
举例P227
已知:n 36,1 95%, 2 0.025,1 2 0.975. 根据样本计算得: x 39.5, s 2 60.37.
2 查 2分布表得知: , 12 2 n 1 20.6120 . 2 n 1 53.1604
课后思考与训练题 P237-238 第4、5、7题

28
10.5 样本量的确定


样本量的确定问题,首先涉及对总体参数估计值的精度要 求,同时也涉及与各种运作限制(如可获得的预算、资源 和时间)之间的平衡问题。 抽样调查估计值的精度是对抽样误差大小的度量。因此确 定样本量是为控制抽样误差,而不是非抽样误差。
该银行信用卡年龄方差 2在95%置信度下的置信区间为 : 53.1604 20.6120 即, 39.75 2 102.51
36 -1 60.37 2 36 -1 60.37
结论是:在95%的置信度下,信用卡用 户年龄标准差为 6.3 ~ 10.1岁.
27
练习题

12
10.3 抽样分布与抽样误差

总体分布:总体各单位的观测值所形成的频数分布。 样本分布:一个样本中各个观测值形成的频数分布。 抽样分布:样本统计量的抽样分布是一种理论分布,是指 在重复抽取容量为n的样本时,由该统计量的所有可能取 值形成的相对频数分布。
13


10.3.1 样本均值的抽样分布及抽样误差

3)样本设计和估计量
以上所讨论的抽样方法都假定的是简单随机抽样,当调查采用 了复杂的样本设计时,就应考虑实际使用抽样设计的效率,并 对计算样本量的基本公式作出调整。 通常的做法是在简单随机抽样的样本量计算公式的基础上乘以 一个设计效应因子。 设计效应(Deff)是指在给定抽样设计下估计值的抽样方差, 与相等样本量下的简单随机抽样的估计值的抽样方差之比。
纽曼分层抽样即是一种不等概率抽样。
高收入阶层: wd ,1 N1 n1 2000 33.3 60.1
各层样本 中收入阶层: wd ,2 N2 n2 12000133.3 90.0 单元权数 低收入阶层: wd ,3 N3 n3 6000 33.3 180.2
5

抽样误差范围: E Z 2 S p 重复的简单随机抽样下 样本比例的标准误差: Sp 解得样本量n : n
2 Z 1 2
1
n
E2

如果在以往调查中可以得到总体比例的一个较好的估计, 那么直接代入公式即可。否则可以取π=0.5,因为此时总 体的方差最大。
10.2.3 权数的调整




无回答时需要对权数调整; 考虑来自其他渠道、更具权威性的某些辅助信息,合 并到权数中。 1. 对无回答的权数调整 2. 使用辅助信息调整权数 3. 事后分层 4. 比率估计
6


1. 对无回答的权数调整
无回答调整因子是原来样本单元的权数与给出回答的单元 的权数和的比值。对于自加权设计,该比值也等于原样本 单元数与给出回答的单元数的比值。
29

10.5.1 估计精度与样本量之间的关系
总体参数 总体参数的估计值 抽样误差的范围( E)
E Z 2 S x
p Z 2 S p
2)调查回答率 100%
假定条件: 1 )放回(重复)的简单 随机抽样
但实际抽样调查中,以上假定条件可能很难都满足。如样本 可能不是重复抽样;抽样方法可能是分层抽样、系统抽样、 分群抽样,而非简单随机抽样;调查的回答率实际上很少能 达到100%
2 2 1 n 非重复的简单随机抽样 下样本比例的标准误差 : S p2 1 2 2 2 Z 2

n
1
n N
抽样误差范围: E Z 2S p
n
解得样本量n :
E
Z N
n
N
n
Z 2 1 Z 2 1 E2 2 N
对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总 体方差的比值的抽样分布服从自由度为(n-1)的x2分布。
n 1s


2
2
~ 2 n 1
or
2 x x s i i 1
n
2
~ 2 n 1
总体方差在1-a置信水平下的区间估计为:
n 1s 2 2 n 1s 2 2 2 n 1 2 1- 2 n 1
30


10.5.2 假定条件下样本量的计算及其应用考虑 1、确定样本量的基本公式
1)给定总体均值估计的精度下确定样本量的公式
抽样误差范围: E Z 2 S x 重复的简单随机抽样下 样本均值的标准误差: Sx 解得样本量n : n
2 2 Z 2
n
E2
31

2)给定比例估计的精度下确定样本量的公式
第10章 抽样估计与样本量确定

Байду номын сангаас

10.1 引言 10.2 加权及权数调整 10.3 抽样分布与抽样误差 10.4 参数估计 10.5 样本量的确定
1
10.1 引言

抽样调查的目的是用样本推断总体。 确定样本权数是估计过程中一个重要组成部分。 当确定了每个样本单元的权数后,就可以将它们 应用于抽样估计,包括总体总量、均值和比例等 简单估计值的计算,抽样误差的估计。
3
设计权数wd
1
1 100
100

10.2.1 等概率抽样的加权(自加权设计)
入样概率
P 1
n1 20 1 N1 2000 100
入样概率 P2 N2
4
n

2
120 1 12000 100
入样概率
P3
n3 60 1 N 3 6000 100


10.2.2 不等概率抽样加权
9
例10-5

利用设计权数计算调查估计值
10
例10-5
wpst ,男性 N男性 360 6.55 nr ,男性 55 wpst ,女性 N女性 420 9.33 nr ,女性 45
11


4. 比率估计
比率估计:用一个乘数因子对各类权数进行调整,这个乘 数因子就是各类的辅助变量值与同类的样本估计值的比率。 如例10-5中,男性层的调整因子(男性数量与男性估计值 之比)即是一种乘数因子。
Sx
n

3)若总体 X ~ N
,那么,
2
x ~ N ,

2
n


4)总体不服从正态分布,当样本量足够大时(大于 等于30),样本均值也服从正态分布。
16

10.3.2 样本比例的抽样分布及抽样误差
N0 总体比例 N n0 样本比例 n
样本容量足够大时
样本比例期望值 E p
2
38
总体大小对确定样本量的影响(表10-11)
样本量随总体大小变化的趋势
样本量
500 400 300 200 100 0 50 100 500 1000 5000 10000 1E+05 1E+06 1E+07 总体大小 44 79 217 278 357 370 383
88
384
384
39

32

2、对样本量基本公式的应用考虑

1)多大抽样误差对调研目标而言是可以接受的 2)是否需要对调查总体中的子总体(域)进行估计 3)相对于调查估计值的抽样误差应该多大为宜 4)精度要求的实际含义是什么
33
精度要求与样本量
0.0693 0.0196
34

10.5.3 关于确定样本量的现实复杂考虑及计算 1、关于确定样本量的现实复杂考虑

区间估计

21

1、总体均值的区间估计
当总体标准差 未知时, 一般通过样本标准差S来 估计总体标准差
Sx S n

当总体标准差 已知 时,样本均值标准误 可以通过如下公式:
Sx n
22
例10-7
23

2、总体比例的区间估计
p Z 2 S p
S p—样本比例的标准误差
例10-6:一个总体,含四个元素1、2、3、4,现抽取 n=2个简单随机样本。
1 2 3 4 总体均值 2 .5 N 4
i 1 i 2 x i i 1 N
x
N
总体方差 2
N
1.25
14

抽样均值及方差
15
结论

1)
E x
2

2 2) S x OR n


40

设某一抽样设计样本估计值的方差为 S (,同等样本 ˆ) 2 S 量的简单随机抽样设计的样本估计值的方差为 在抽 ˆ ) ( 样设计效应Deff为:
1 0
2
相关主题