当前位置：文档之家› 简单随机抽样.

简单随机抽样.

19
如果度量的单位是诸如米或年这种数量形式，就称这样的数据为定量数据。定量数据一般是对 “多少”、“多大”这样的问题所作的回答，例如年龄、孩子的数量、工作的小时数、支出与收入、血压等等。对于不同类型的变量，需要使用不同类型的估计。通常，对定性变量，我们计算比例与总数；对定量变量，我们计算平均数与总量。
第三章简单随机抽样（SRS）
第一节概述
第二节
第三节
估计量及其误差
样本量的确定
1
第一节
一、定义
概述
二、抽取方法
三、方法评估四、两个试验
2
一、定义
所有概率抽样的出发点和理论基础都是简单随机抽样。简单随机抽样是一种一步抽样法，它保证样本量为n的每个可能的样本都有相同的被抽中的概率p=n/N。
7
与其他抽样技术相比，简单随机抽样有以下优
点：是最简单的抽样技术；抽样框不需要其他（辅助）信息，唯一需要的只是一个关于调查总体所有单元的一个完全的清单和与其如何联系的信息；关于样本量的确定、总体估计与方差估计都有现成的标准公式可以利用，因此技术发展已经成熟。
8
简单随机抽样的缺点是：抽样框中即使有现成的辅助信息也不加利用，使得估计的统计效率较其他利用辅助信息的样本设计低；由于样本在总体中的地理分布范围比较广，如果采用面访，费用较高；有可能抽到一个“差的”样本。原因是这种方法不对抽中哪一个样本进行控制，所有样本量为n的样本都有相同的被抽中的机会，因此抽出来的样本有可能分布不好，不能很好地代表总体；如果不用计算机，而用随机数表抽一个大样本将十分单调劳神。
4
二、抽取方法抽样可以是放回的，也可以是不放回的。如果抽样比非常小，则放回抽样与不放回抽样实际上是差不多的。一般情况下，不放回抽样的结果更精确，实际操作也更方便些。在本课程中，除非特别指明，抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法两种实施方法。
5
三、方法评估简单随机抽样被用作评估其他抽样策略的效率的基准，这里抽样策略是指抽样方法与所用估计量的结合。一个估计量就是一个用来计算估计值的公式。估计量的抽样误差是通过其抽样方差来测量的，而抽样方差定义为对采用这种抽样设计的所有可能样本，估计值距其平均值的差（称为离差）平方的平均。
简单随机抽样有两个相互等价的定义。
3
随机样本的优点： 1.随机选择可以消除“偏心”；也就是说随机抽样把偏差给消灭了。 2.如果我们从同一个总体，重复抽取许多大小一样的随机样本，所有样本的变异状况就会遵循某种可预测的形态 (pattern) 。从这个可预测的形态可以得知，由较大样本所得结果的变异．会小于小样本结果的变异。
9
四、两个试验也许有人会认为，在抽样时不用随机数表，而采取随意抽选的办法也可以达到预期的抽样效果。表面上看，这种想法似乎有一定道理，但实际试验的结果证明随意抽样不等于随机抽样。以下是两个有名的试验：
10
试验一：随意数试验
让六个人写下100个自己随意想到的三位数，将这些数内的 0 、 1 、 2 、 … 、 9 数字列成次数分布表如下：
22
二、估计量的性质
不同的样本将得到不同的估计值。一个估计量的抽样分布，是指使用相同的抽样设计，从同一个总体抽取的所有可能样本的估计值的分布。显然，这样的抽样分布依赖于估计量的形式和所采用的抽样设计(例如简单随机抽样、系统抽样、分层抽样、多阶抽样等)。
13
14
可见四个人都对颜色存在偏好，如第一个人偏爱绿色，第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型，可称之为颜色偏误。
15
从上述两个试验可以发现，利用人为的随意抽样方法都会产生偏差。每个试验者均有较为喜欢的数字和颜色，因此，使得样本变成非随机的，进而给抽样估计带来困难。
16
11
可以看出，六个人都对数字存在偏好，如第一个人更加偏好数字 4 、 3 、 0 ；第二个人则偏好数字 1 、 8 、 4 ；等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。
12
试验二：着色试验让四个人将 10×10方格的纸板着色，可供选择的颜色有蓝、绿、红、白和黄色五种，对每一个四分象限来说，规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示，如(4， 6)代表第四列第六行的方格。请四个人对这 100 个方格随意选择行列号，而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下：
18
样本单元可以按某些指标划分成不同的类别，所得的数据就称为分类数据或定性数据。这些变量中，如性别或婚姻状况，通常只有几个可能的取值。民意调查中，通常用量表的形式收集所需的数据也是定性数据，例如很赞成，赞成，既不赞成也不反对，不赞成，很不赞成。必须注意的是，这种情况下每个单元属于而且只属于其中一个类别。 Nhomakorabea20
在估计时，需要考虑的另一个问题是，估计针对的是总体的什么范围。估计既可以针对整个调查总体，也可以针对特定的子总体或特定的域。例如，除需要计算全国估计值外，可能还需要省及地市的估计值。同时，还可能需要诸如分性别、年龄、受教育水平等这样的域估计值。
21
对下述问题的回答将有助于决定如何计算估计值： —— 需要估计什么类型的参数 ? 是比例，均值，还是总量? —— 数据是什么类型的 ? 是定性数据，还是定量数据? ——采用怎样的权数?是自加权设计吗? ——需要估计的是什么样的域?
6
如果一种抽样策略的抽样方差比另一种抽样策略的抽样方差小，我们就称这种抽样策略更有效率（这种效率也称统计效率）。一个有较小抽样方差的估计量具有较高的精度。基什提出用设计效果（Deff）来衡量一种抽样策略的效率。
一个复杂抽样设计的抽样方差 Deff 相同样本量的简单随机抽样的抽样方差
第二节
估计量及其误差
一、数据类型
二、估计量的性质三、在简单随机抽样条件下的其他估计量四、抽样误差的其它度量
17
一、数据类型
几乎每项调查都需要计算诸如比例、均值、总量这样的简单描述统计量，当然也会用到一些更为复杂的统计量和分析方法。大多数调查都要求收集很多个指标，这些指标也称作变量。变量既可以是定性的 ( 或称分类的 ) ，也可以是定量的 ( 或称计量的 )。

e商务文档

简单随机抽样.

相关文档推荐：