抽样样本量的确定_图文
除了估计值的精度以外,调查实际操作的限制条件 也许是影响样本容量的最大因素。
客户提供的经费能支持多大容量的样本 整个调查持续的时间有多长 调查需要多少访员 能招聘到的访员有多少
1.给定精度水平下样本容量的确定
样本容量的大小与调查估计值所要求的精度紧密相关
数据是通过抽样而不是普查收集的,就会产生抽样误差。 精度是由抽样方差来测量的。 随着样本容量的增加,调查估计值的精度也会不断提高。
表3: 显示了不同规模的总体在P=0.5时,使用简单随机 抽样,且以误差界限为0.05、置信度为95%的标准估计P 所需的样本容量
总体规模 50 100 500
1,000 5,000 10,000 100,000 1,000,000 10,000,000
所需的样本量 44 80 222 286 370 385 398 400 400
抽样方差的几种计量方法
标准误差 误差界限 变异系数
抽样调查中样本容量的确定,也经常会使 用一种或多种这样的计量方法来对精度进行说 明。
非抽样误差
非抽样误差会对调查估计值的精度产生显著的影响 非抽样误差的大小与样本容量的大小却没有很大的关系 确定样本容量,就不必将这些误差作为影响因素加以考虑 为确保调查结果的准确性,应该消除非抽样误差,至少应尽 可能使之最小化
对于小规模总体,通常必须调查较大比 例的样本,以取得所期望的精度。因此,实 际操作中,对小规模总体经常采用普查而不 是抽样调查。
6.样本设计和估计量
计算样本容量时,通常假定采用的抽样方式为简单随 机抽样(SRS)。所以,如果样本容量计算公式假定为简单随 机抽样。
分层抽样得到的估计值通常比相同规模的简单随机抽 样更精确,或者至少 一样精确。 整群抽样得到的估计值,其精度通常低于使用同一估 计量进行估计时的简单随机抽样的估计值的精度
求比例样本容量的确定
下面用一个例子,说明估计比例问题时样本容量的确定过程。
在这一例子中,所需的精度是根据误差界限确定的,所研究的指标 取两个值,即P和1-P。 在这种情况下,对于大总体,且估计量服从正态分布时, P的总体方差为:
若总体真值已知,那么直接将它代入上面的等式 就可以得到样本容量
若总体真值未知,而且也没有以前的信息可以利 用,那么可以P=0.5 用,因为这时的方差最大, 可以求得一个比较保守的样本容量
8
30% 满意
9
20% 满意
10
10% 满意
11
0% 满意
0% 满意 10% 满意 20% 满意 30% 满意 40% 满意 50% 满意 60% 满意 70% 满意 80% 满意 90% 满意 10% 满意
总体的变异程度
要精确地测量总体中具有高度变异性或不 经常出现的特征是很困难的。
要对这样的变量提供精确的估计值,需要 较大的样本容量。
其中,S 是总体的标准差
如果误差界限设为e,那么:
这里Z是对应于某一置信水平的标准正态分布的分位点值。
解n,得:
为确定n,需要知道
期望的误差界限e 置信水平 对应的标准正态分布的分位点值 Z 总体规模 N 总体方差 S2
其中,总体方差S2是最不容易得到的,通常需要根 据过去对类似总体所做的研究作近似计算。
例如,在一次全国范围的抽样调查中,对国家层次的数据 ,调查主办者可能需要±3%的误差界限;但对于省级层次的估 计值,±5%的误差界限可能就可以满足要求;
而对于省级以下层次的估计值,±10%的误差界限可能就 足够了。
在这种情况下,通常对每个研究域都进行分层, 并单独计算各层的样本容量
将各个研究域中所有层的样本容量相加,便得到 了调查所需的总样本容量
7.回答率
所有的调查都会遇到无回答的困扰即: 由于某些原因,不能获得被抽中样本单位的信息
当一个被调查单位的所有或几乎所有的数据都缺 失时,我们就称之为完全无回答(或称单位无回答)
某次调查的回答率是用调查得到的有效问卷数占 预期样本容量的一个百分比来表示的
完全无回答会减少有效样本的数量,从而会增加 抽样误差,并进而降低估计值的精度
调查估计值能容忍多大的不确定性?。 常用的95%的置信度、±5%的误差界限对我们的
调查目标是否适宜 估计值是否需要更高(或更低)精度
如果调查结果将用于进行一项有重大意义或有较大风险的决策, 那么,估计值可能需要较高的精度;
如果我们只是简单地希望取得所研究总体某个特征的感性认识 ,
当研究的特征具有最大的变异程度时,调 查需要的样本容量也最大。
对于只取两个值的特征,则当这两个值在 总体中以50—50的比例出现时,特征的变 异程度最大。
如果所研究特征的真实变异程度大于确定 样本容量时我们估计的变异程度,那么, 调查估计值的精度就会低于期望的精度。
相反,如果所研究特征的真实变异程度与 我们所估计的变异程度相比要小,那么, 与调查目标所要求的估计值相比,抽样调 查得到的估计值会更加精确。
调查估计值有关的抽样方差有多大
为达到调查结果要求的精度,最小的调查估计值是什 么?假设我们进行比例估计。其中,一些指标的比例 可能是P=50%或更高,但是其它指标的比例则可能较 低,如P=5% 或者 P=10%
事实上,P可以是P=0 到 P=1.0之间的任一数值。在确 定调查估计值所需的精度时,应该考虑当某个既定精 度达到时所得的最小估计值。如果最小的估计值是 P=5%,那么误差界限就应该小于5%。
2.误差界限
误差界限是标准误差的倍数 标准误差是估计量抽样方差的平方根 乘数因子取决于在调查估计中所希望
达到的置信水平(或称置信度)
对于估计值 t, 在给定其标准误差 t的情况下 , 置信区间的公式可以表示为:(t-zt t+zt)
这里 zt是误差界限, z是对应于某一置
第2步:使用下列等式对总体的大小进行调整
第3步:设计效果调整样本容量
如果样本设计不是采用简单随机抽样,那么可以使用下列公式 ,即用抽样设计效果对样本容量进行调整 :
其中,是设计效果,并且有: 在简单随机抽样设计下,B = 1, 在分层抽样设计下, B 1, 在整群抽样设计下, B 1。
信水平的标准正态分布的分位点值
该z值可从标准正态分布表中查得,大多
数统计学教材中都附有这样的统计表
常用的z值包括
对于 90% 的置信度,对应的z值为 1.64 对于 95% 的置信度,对应的z值为 1.96 对于 99% 的置信度,对应的z值为 2.56
3.多大的抽样方差是可接受的
置信区间
由于我们将在某一给定误差界限下,阐述样本容 量确定的过程,所以有必要复习一下置信区间的概念 。
对于具有正态分布的估计量来说,95%的置信区 间意味着在同样的条件下,反复抽样100次所得的100 个样本中,有95个样本的估计值所确定的区间包含总 体真值,这个区间以样本的估计值为中心,半径为 1.96倍的标准误差。
可以用来修正其它影响调查结果精度的因素 例如减少无回答率(如回访拒答者、实施小型的试点调查、
培训访员,等等),这样做可能更有效率
4.总体的变异程度
调查总体中,我们所研究的项目或指标,对于不 同的个人、住户或企业,得到的估计结果可能会有很 大的不同。虽然我们不能控制这种变异性,但它的大 小却影响到了给定精度水平下,研究项目所必需的样 本容量。
Table 1
样本容量和在P=0.5时运用简单随机抽样估计P值得到的误差界限
样本容量
误差界限
50
0.14
100
0.10
500
0.045
1000
0.032
最佳的解决办法
不应为追求最小的误差界限而选择最大可能的样本 可以接受一个较大的误差界限,同时有效地利用现有资源
在此基础上,获得具有相对较高精度的估计结果 采用一个较小的样本而不是大样本而节省下来的费用,
计算比例估计样本容量的详细步骤
先计算初始样本容量,然后根据总体的大小、设计 效果和回答率分别对它进行调整,最后求得最终的样本 容量。
第1步:计算初始样本容量
注意,公式(1)使用了有限总体校正因子n/N,对总体规模进行校 正。如果忽略这个因子,初始样本容量n1就可以按下列公式计算:
如果e 和 P都不用比例表示,而用百分数表示, n1 的计算公式同样成立。
设计效果因子
一般来说,当样本容量的计算公式假定为简单随机抽样SRS, 但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应
该乘以设计效果因子。
设计效果=对于同样规模的样本容量,给定样本设计下 估计量的抽样方差对简单随机抽样估计量的 抽样方差的比率。
对于简单随机抽样设计,设计效果 = 1 对于分层抽样设计,设计效果 1 对于整群抽样设计,设计效果 1
抽样样本量的确定_图文.ppt
本讲主要内容
如何计算简单随机抽样的样本量确定 如何实现分层抽样中各层样本单位数的分配
样本容量的确定
样本量=费用+精度 (函数)
确定样本容量,需要处理好预定的精度与现有经 费,同时也要考虑资源和时间等限制条件,最终的样 本量确定是在上述因素之间的权衡关系。
分层抽样分配样本的标准
根据预计的回答率调整样本容量
例如,如果初始样本容量是400,而通过 上述途径估计的回答率为75%,那么选 择的样本容量就应该为:
一个最简单的例子 没有无回答的简单随机抽样样本容量的计算公式
简单随机抽样下,通常使用误差界限和 估计量的标准误来确定所需的样本容量 。
在无放回简单随机抽样情况下 总体均值估计量的标准误差的表达式
例如: 某公司决定,如果公司所在的地区中,至少有P=4%的人
群对某一种产品存在需求,那么该公司就决定生产这种产品。 因此,该公司的市场调研部准备对当地的居民一项调查,以便 估计他们在这种产品上的消费需求。