当前位置:
文档之家› (应用统计学经济与管理中的数据分析)第六章抽样调查基础
(应用统计学经济与管理中的数据分析)第六章抽样调查基础
4
一、抽样单元和抽样框
为使抽样能够实施,同时也为了具体抽样的便利,通常将总体划分成互不重叠且有穷尽的 若干部分,每个部分称为一个抽样单元(sampling unit)。
抽样单元不一定就是组成整体的最小单位。如在电视剧收视率抽样调查中,可以将每个电 视观众作为抽样单元,也可以将每个拥有电视机的家庭作为抽样单元;在人口变动量抽样 调查中可以将县、乡(街道)或居委会(村)都作为抽样单元。抽样单元可以是自然形成的, 例如各级行政单位、机关、学校、工厂以至个人;也可以是人为划分的,例如在田地调查 中,将整块田地划分为边长一米的方形小块作为抽样单元。
抽样单元有大小之分。一个大的抽样单元(例如省)可以分成若干个小的抽样单元(例如县) ,前者称为初级单元或一级单元(primary sampling unit),后者称为次级单元或二级单元 (secondary sampling unit)。这些概念对于理解较复杂的抽样方法,例如多阶抽样与整 群抽样,非常重要。
12
第三节 分层随机抽样
13
一、层数确定与样本量分配
(一)确定层数的基本思想 (二)每层样本量的分配
1. 比例分配 2. 最优分配 3. 奈曼最优分配(Neyman optimum allocation)
14
二、估计量及其性质
(一)估计量
1. 简单估计 2. 比估计
(1) 分别比估计: (2) 联合比估计:
样本中包含的抽样单元数 称为样本量(size of the sample),样本量与总体单元总数 之比 称为抽样比(sampling fraction)。须强调,在复杂抽样中 是指该抽样中的最基本的单元 的数量。
在总体中按抽样单元进行概率抽样时,需要一份有关抽样单元的名册、清单或地图。记录 或表明总体所含全部(初级)抽样单元或一个较大的抽样单元所包含的全部次一级抽样单元 的这种名册、清单或地图称为抽样框(sampling frame)。在抽样框中,每个抽样单元都被 编上号。抽样框是设计并实施一个抽样方案所必须具备的基础资料。一旦某个单元被选中 ,也需要根据抽样框找到这个单元,从而能够实施调查。
抽样可以逐个进行,即每次只从总体中抽取一个个体(或单元),也可以整个样本 一次同时抽取。在逐个抽取时,每次被抽到的个体可以不放回也可以重新放回 整体中去,前者称为不放回抽样(sampling without replacement),后者称为 放回抽样(sampling with replacement)。如果整个样本一次同时抽取也是一种 不放回抽样。另外,当抽取总体中的每个个体时,个体被抽中的概率可以是相 等的,也可以是不等的。前者称为等概率抽样(sampling with equal probabilities),后者称为不等概率抽样(sampling with unequal probabilities)。
9
一、样本容量的确定
(一)参数为总体总和或总体均值的情形 (二)参数为总体比例的情形
10
二、估计方法
(一)估计方法
1. 简单估计 2. 比估计
(二)估计量的无偏性
(1) 总体均值 (2) 总体总值 (3) 总体比例 (4) 总体比率
11
三、方差与区间估计
1. 总体特征的方差的简单估计 2. 比估计量的方差估计
Hale Waihona Puke 5二、误差误差一般理解为估计值与真实值之间的差异。误差 越小,估计量的精度越高。
抽样调查中的误差来源主要有两个,一种是非抽样 误差(non-sampling error),它是指由于调查中获 得的原始数据不准确(例如测量误差)、抽样框有缺 陷(抽样框中的抽样单元有重复或遗漏)、或在调查 中由于种种原因无法得到符合抽样设计方案的全部 样本数据(例如部分调查对象拒绝回答问题)等原因 引起的。
3
第一节 基 本 概 念
抽样调查涉及的概念比较多。首先对抽样(sampling)做一个大的分类:概率抽 样(probability sampling)和非概率抽样(non-probability sampling),其中概 率抽样又可以称为随机抽样(random sampling)。概率抽样具有以下几个基本 特点:①能够确切地定义(或区分)不同的样本,即能够明确表明一个确定的样本 包含哪些个体;②对每个可能的样本,都赋予一个被抽到的概率;③通过某种 随机形式从总体中抽取一个样本,使这个样本被抽中的概率等于所赋予的概率 ;④从样本估计总体参数时需要与抽样概率相联系。概率抽样的优点在于可以 估计抽样误差,可获得估计的精度。非概率抽样主要依赖主观判断,或根据操 作方便的原则进行。非概率抽样一般不能估计其抽样误差。本章的重点是概率 抽样,对非概率抽样只讨论系统抽样。
抽样调查误差的另一来源是抽样误差(sampling error),它是由于我们用局部的样本数据对整体的 总体参数进行估计所引起的误差。
6
三、精度、信度与效度
7
图6-1描述了ABC三种抽样调查对各自的总体均值参数的估 计情况,图中的空心圆圈表示均值参数真值的位置,而散点 表示了抽样样本。从图中可以直观地看到,A偏倚小(可以理 解成样本“重心”和均值参数真值位置之间的系统性误差) 而样本的方差(可以理解为调查中的随机误差)大,称这样的 抽样调查效度(validity)高而信度(reliability)低;B的系统性 误差大而随机误差小,称这样的抽样调查效度差而信度高; 相比之下,C的系统误差与随机误差都小,即均方误差小, 精度高。
8
第二节 简单随机抽样
简单随机抽样(simple random sampling)有两种等价的定 义:第一,从总体 个单元中,一次抽取 个单元,使全部可 能的 种不同的结果每种被抽到的概率都等于 ,通过这种抽 样得到的样本叫做简单随机样本,样本容量为 ;第二,从 总体 个单元中,逐个不放回地抽取单元,每次抽取到尚未 入样中的任何一个单元的概率都相等,直到抽足 个单元为 止,这样所得的 个单元也组成一个简单随机样本。图6-2形 象地表示了简单随机抽样。
(二)估计量的性质
1. 简单估计 2. 比估计