简单随机抽样.
19
如果度量的单位是诸如米或年这种数量形式, 就称这样的数据为定量数据。定量数据一般是对 “多少”、“多大”这样的问题所作的回答,例 如年龄、孩子的数量、工作的小时数、支出与收 入、血压等等。 对于不同类型的变量,需要使用不同类型的估计。 通常,对定性变量,我们计算比例与总数;对定 量变量,我们计算平均数与总量。
第三章 简单随机抽样(SRS)
第一节 概述
第二节
第三节
估计量及其误差
样本量的确定
1
第一节
一、定义
概述
二、抽取方法
三、方法评估 四、两个试验
2
一、定义
所有概率抽样的出发点和理论基础都是简单 随机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的被抽 中的概率p=n/N。
7
与其他抽样技术相比,简单随机抽样有以下优
点: 是最简单的抽样技术; 抽样框不需要其他(辅助)信息,唯一需要的 只是一个关于调查总体所有单元的一个完全的清单 和与其如何联系的信息; 关于样本量的确定、总体估计与方差估计都有 现成的标准公式可以利用,因此技术发展已经成熟。
8
简单随机抽样的缺点是: 抽样框中即使有现成的辅助信息也不加利用, 使得估计的统计效率较其他利用辅助信息的样本设 计低; 由于样本在总体中的地理分布范围比较广,如 果采用面访,费用较高; 有可能抽到一个“差的”样本。原因是这种方 法不对抽中哪一个样本进行控制,所有样本量为n的 样本都有相同的被抽中的机会,因此抽出来的样本 有可能分布不好,不能很好地代表总体; 如果不用计算机,而用随机数表抽一个大样本 将十分单调劳神。
4
二、抽取方法 抽样可以是放回的,也可以是不放回的。如 果抽样比非常小,则放回抽样与不放回抽样实际 上是差不多的。一般情况下,不放回抽样的结果 更精确,实际操作也更方便些。在本课程中,除 非特别指明,抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法两种 实施方法。
5
三、方法评估 简单随机抽样被用作评估其他抽样策略的效 率的基准,这里抽样策略是指抽样方法与所用估 计量的结合。一个估计量就是一个用来计算估计 值的公式。估计量的抽样误差是通过其抽样方差 来测量的,而抽样方差定义为对采用这种抽样设 计的所有可能样本,估计值距其平均值的差(称 为离差)平方的平均。
简单随机抽样有两个相互等价的定义。
3
随机样本的优点: 1.随机选择可以消除“偏心”;也就是说随机 抽样把偏差给消灭了。 2.如果我们从同一个总体,重复抽取许多大小 一样的随机样本,所有样本的变异状况就会遵循某 种可预测的形态 (pattern) 。从这个可预测的形态 可以得知,由较大样本所得结果的变异.会小于小 样本结果的变异。
9
四、两个试验 也许有人会认为,在抽样时不用随机数表, 而采取随意抽选的办法也可以达到预期的抽样效 果。表面上看,这种想法似乎有一定道理,但实 际试验的结果证明随意抽样不等于随机抽样。以 下是两个有名的试验:
10
试验一:随意数试验
让六个人写下100个自己随意想到的三位数, 将这些数内的 0 、 1 、 2 、 … 、 9 数字列成次数分布 表如下:
22
二、估计量的性质
不同的样本将得到不同的估计值。 一个估计量的抽样分布,是指使用相同的抽样 设计,从同一个总体抽取的所有可能样本的估计值 的分布。 显然,这样的抽样分布依赖于估计量的形式和 所采用的抽样设计(例如简单随机抽样、系统抽样、 分层抽样、多阶抽样等)。
13
14
可见四个人都对颜色存在偏好,如第一个人 偏爱绿色,第二个人偏爱蓝色等。这种由于对颜 色偏好所引起的偏估类型,可称之为颜色偏误。
15
从上述两个试验可以发现,利用人为的随意 抽样方法都会产生偏差。每个试验者均有较为喜 欢的数字和颜色,因此,使得样本变成非随机的, 进而给抽样估计带来困难。
16
11
可以看出,六个人都对数字存在偏好,如第一 个人更加偏好数字 4 、 3 、 0 ;第二个人则偏好数字 1 、 8 、 4 ;等等。这种由于数字偏好所引起的偏估类型 可称之为数字偏误。
12
试验二:着色试验 让四个人将 10×10方格的纸板着色,可供选 择的颜色有蓝、绿、红、白和黄色五种,对每一 个四分象限来说,规定每种颜色只能在每行和每 列出现一次。每个方格以其所在的列号与行号表 示,如(4, 6)代表第四列第六行的方格。请四个 人对这 100 个方格随意选择行列号,而对其着色。 将这些由这四个人着色所得到的资料形成次数分 布表如下:
18
样本单元可以按某些指标划分成不同的类别, 所得的数据就称为分类数据或定性数据。这些变 量中,如性别或婚姻状况,通常只有几个可能的 取值。民意调查中,通常用量表的形式收集所需 的数据也是定性数据,例如很赞成,赞成,既不 赞成也不反对,不赞成,很不赞成。必须注意的 是,这种情况下每个单元属于而且只属于其中一 个类别。 Nhomakorabea20
在估计时,需要考虑的另一个问题是,估计 针对的是总体的什么范围。估计既可以针对整个 调查总体,也可以针对特定的子总体或特定的域。 例如,除需要计算全国估计值外,可能还需要省 及地市的估计值。同时,还可能需要诸如分性别、 年龄、受教育水平等这样的域估计值。
21
对下述问题的回答将有助于决定如何计算估 计值: —— 需要估计什么类型的参数 ? 是比例,均 值,还是总量? —— 数据是什么类型的 ? 是定性数据,还是 定量数据? ——采用怎样的权数?是自加权设计吗? ——需要估计的是什么样的域?
6
如果一种抽样策略的抽样方差比另一种抽样 策略的抽样方差小,我们就称这种抽样策略更有 效率(这种效率也称统计效率)。一个有较小抽 样方差的估计量具有较高的精度。 基什提出用设计效果(Deff)来衡量一种抽 样策略的效率。
一个复杂抽样设计的抽 样方差 Deff 相同样本量的简单随机 抽样的抽样方差
第二节
估计量及其误差
一、数据类型
二、估计量的性质 三、在简单随机抽样条件下的其他估计量 四、抽样误差的其它度量
17
一、数据类型
几乎每项调查都需要计算诸如比例、均值、总 量这样的简单描述统计量,当然也会用到一些更为 复杂的统计量和分析方法。大多数调查都要求收集 很多个指标,这些指标也称作变量。变量既可以是 定性的 ( 或称分类的 ) ,也可以是定量的 ( 或称计量 的 )。