抽样主讲老师赵凌云教学重点:相关术语的含义;概率抽样的基本方法;样本规模与抽样误差教学难点:分层随机抽样与整群随机抽样的异同;样本规模与抽样误差的确定教学内容:第一节几个重要术语的概念1、抽样调查所谓抽样调查,是按照一定的程序,从所研究对象的同质总体中抽取一部分进行调查,并在一定的条件下,运用数理统计的原理和方法,对总体的数量特征进行估计和推断。
2、总体和样本总体(Population)或同质总体,是指提供所需信息的人的全体。
对应的总体指标是根据总体各单位标志值计算,常用的总体指标有总体平均数μ、总体比例π、总体方差σ2。
样本是总体的一部分,它由从总体中按一定程序选取的部分个体或抽样单元组成。
样本是总体的子集,相对较小,但精心选择的样本能够准确的反映出所抽查的总体的特征。
对应的样本指标是根据样本各单位标志值计算,常用的样本指标有样本平均数Χ、样本比例ρ、样本方差S2。
3、随机抽样和非随机抽样抽样可分为随机抽样(也称概率抽样Probability sampling)和非随机抽样(也称非概率抽样Non-probability sampling)两种方式。
随机抽样指在总体中的每个单位都具有同等可能性被抽选的方法。
随机抽样在市场调查中应用的非常广泛,在完成抽样的过程中,调查员必须严格遵守正确的抽样程序,避免武断或有偏见的选择抽样的单位。
使用抽样的样本预测总体时的差异,称为抽样误差。
随机抽样,总体中的每一个体或单位被抽中的概率要相等。
它的优点在于:(1)可以根据抽样数据,利用统计分析方法,对总体的数量特征做出估计。
(2)抽样误差可以事先确定并加以控制。
其难点在于,要有总体完整的名单才能进行随机抽样,而市场调查中有些总体是无法精确界定的;而有些总体的资料是不公开的或很难收集的,此时进行随机抽样必然会无形中增加很大的成本。
非随机抽样是指从总体中非随机的选择特定的要素(单位),根据简便易行、节省开支或根据研究者主观的判断从总体中选取样本的抽样方法。
非随机抽样更多的依赖研究者个人的经验和判断,它的缺点是无法估计和控制抽样误差,也不能用样本的定量数据推断总体,但是非随机抽样实行起来简单方便,所以经常在定性调查研究中使用。
4、抽样框和抽样单元抽样框被定义为总体的数据目录或单位的名单,从中可以抽出样本单位。
抽样框一般可采用现成的名单,如住户登记表、电话号码簿等。
因该注意的是,在利用现有名单作为抽样框时,要先对该名录进行核查,避免有重复、遗漏的情况发生,以提高样本框对总体的代表性。
为了便于抽样,通常将总体划分为有限个互补重叠又穷尽的部分,每一个部分称为抽样单元。
抽样单元可大可小,如在全国性居民生活状况的抽样调查中,可以设置省为一级抽样单元,省下面的不同城市设置为二级单元,城市中街区可以设置为三级单元,家庭户设为四级单元,抽样方案按照不同级别的抽样单元分别进行。
第二节抽样的方法根据是否遵循随机原则进行抽样,抽样方法可以分为两大类:随机抽样(概率抽样)和非随机抽样(非概率抽样)。
一、随机抽样(概率抽样)根据调查对象的性质和研究目的的不同,随机抽样方法主要有:简单随机抽样、分层抽样、整群抽样、多级抽样、系统抽样等方法。
下面针对各抽样技术的概念、特点等内容进行介绍。
1.简单随机抽样简单随机抽样(Simple random sampling)是最完全的概率抽样,针对包含N个单位的总体,选出n个单位作为样本时,每个单位在抽选时有相同被选中的机会的方法。
有的书中定义简单随机抽样时,有两种方式:如果抽样是无放回的(每个样本被抽中的概率是一样的),所得到的样本就叫做简单随机抽样样本;如果抽样是有放回的(每次抽中的签要放回,并再次混合均匀后,再继续抽取),则得到的样本叫做非常简单随机样本。
前一种方法,总体中每个单元被抽中的概率完全相等;后者,总体中每个单元被抽中的概率并不相等。
但是如果总体很大,样本量相对较小时,两者的差别会非常小。
简单随机抽样一般可采用抽签法,或查阅随机数表的方法来得到样本。
(1)抽签法是先将总体中的每个单元都编上号,写在签上,将签充分混合均匀,每次抽取一个签,签上号码所对应的单元即入样,抽中的签不放回,再接着抽取下一个签,直到抽够所需样本量为止。
(2)随机数表法是先将总体中的每一个单元都编上号,要注意的是,所有号码的位数均应相同。
然后从随机数表的任一位置开始,向任何一个方向连续地摘录数字,将得到的数字按上边编号的位数分割为若干组数码,得到的数码所对应的单元即入样,重复的数码和没有对应单元的数码去掉,直至抽足所需样本量为止。
例如,要从一个700人的总体中抽取样本量为15的样本,先将这700人按001~700编号(或000~699,注意一定位数相同),从表中的任一位置,例如从第6行、第7列开始,向右(可以向其他任何方向)连续地以三位数字为一个数码,得到的数码如下:上面有下划线的数码均有相应的单元与之对应,则对应单元入样,依次选够15个为止。
其他超过700的数码没有对应单元,去掉即可。
数码618出现了二次,第二个618也要去掉不算。
这两种方法,以随机数表法实施起来更为便利,特别是总体非常大的情况,用抽签法是几乎不可能的。
简单随机抽样的优越性在于方法简单直观,当总体名单完整时,可直接从中随机选取样本,由于抽取概率相同,计算抽样误差及对总体指标进行推断时比较方便。
但是在实际的调查中,编制和获得完整的总体是非常困难的,也是不可能做到的,而且简单抽样得到的样本较为分散,会消耗比较大的调查成本,因此简单随机抽样适合于总体单位数不是很庞大,而且样本分布比较均匀情况。
2.系统抽样系统抽样(Systematic sampling)也叫等距抽样,先将先将总体的每个单元编号,并按照一定顺序排列,然后按一定间隔选取样本的抽样方法。
等距抽样经常最为简单随机抽样的代替物使用,所得到的样本几乎与简单随机抽样的样本相同。
使用等距抽样的方式,也必须获得一份总体的单位表,这一点与简单随机抽样是一样的。
决定抽样间隔的运算公式如下:例如要从120户居民中选出7户,使用系统(等距)抽样的过程如下:a.先将120户居民从“1”到“120”编号;b.决定间隔数;120/7=17.1,最接近的整数是17,间隔数定为17。
c.抽取第一个编号:等距抽样的方式可以随意使用一个起点,可通过随机表选取,也可按照简单的主观随意决定第一个编号。
d.然后每隔17抽取一个编号,这时可能出现两种情况:第一是开始的号码比较大,按照间隔抽选时,会出现超出编号的可能,即1);第二是选中的样本偏好在总体编号的范围内,即2):1)38,55,72,89,106,123(3),140(20);2)8,25,42,59,76,93,110“1)”中最后两个编号超过了120,则把它们分别减去120,得到最后的编号3,20。
最后这些编号所对应单元入样。
“2)”里由于第一个编号限定在1至17之间,所以没有出现超过120的编号,则所抽中编号不需修正,它们所对应单元入样。
由此可见,在确定第一个编号时,“2)”的方法更为简便。
3.分层抽样分层抽样(Stratified sampling)又称类型抽样,是先将总体的所有单位按某些重要特性分成若干互不重叠的子总体(或层),然后在各个子总体(或层)中采用简单随机抽样或者等距抽样方式抽取样本单位的一种抽样方法。
在分层时可以根据调查的具体要求,按照一个或多个特性来分层。
比如下面的例子是按照教育程度和性别这两个指标来分层的。
为便于计算,假设总体是1,000,000人,从中抽取1,000人的样本。
教育程度作为第一阶段分层的指标,性别作为第二阶段分层的指标,先按教育程度分为四组,每组再按性别分成两组,共分为八层,见下图。
从图中可以看到,整个抽样过程是先按照教育程度和性别将总体分为八层,根据各种教育程度在总体中所占比例和各种教育程度中男女所占比例,计算出每层的人数,再按照“1000/ 1000000=1/1000”的比例从每一层中随机抽取子样本,八个子样本合在一起即为样本。
分层抽样的优点在于:(1)由于总体中常有少数特殊单元,用简单随机抽样得到的样本中,这些特殊单元所占的比例容易过高或过低,而影响估计量的精度,分层抽样可以将这些特殊单元做为一层,从而避免上述情况,使样本更具代表性。
(2)可以根据需要对各层的特性加以比较。
(3)从管理和实施上看,比简单随机抽样便利得多。
4.整群抽样整群抽样(Cluster sampling)是先将总体划分为若干互不重叠的群,然后在所有的群中,随机地抽取一部分,对抽中的这些群内的所有单元进行调查的抽样方法。
要注意的是,分层抽样和整群抽样都是先将总体划分为互不重叠的若干部分(层或群),但是划分的原则是不一样的。
在分层抽样时,是要将在某些特性上比较一致的单元分为一层,而各层之间的差异性则较大(见13-3分层抽样示意图)。
在整群抽样中分群时则恰恰相反,要求各群之间的差异较小,每个群中各单元的差异较大。
例:某高校学生会要调查该校在校生对学校广播站节目的评价,用整群抽样法抽样时,可以把全校每一个班级做为每一群,也可以按宿舍来划分,每一个宿舍做为一个群,因为在这个问题上,一般来说各班之间或各宿舍之间差异不会太大。
假设该校有1500名学生,200个学生宿舍,从中抽取15个宿舍进行调查,抽样过程见图13-4。
从图13-4中看到整群抽样的特点就是对群进行随机抽样,抽到的群的所有单元全部入样。
整体抽样的优点是,组织实施比较方便,确定一组就可以抽出许多单位进行调查;而且只是需要群的名单,而不需要群内单元的名单,这就使得抽样工作大为简化。
5.多级抽样多级抽样(Multistage sampling)又叫多阶段抽样。
在很多情况下,特别是复杂的、大规模的市场调查种,调查单位一般不是一次性直接抽取到的,而是采用两阶段或多阶段抽取的办法,即先抽取大的单元,在大单元中再选取小单元,再在小单元中选取更小的单元,这种抽样方式称为多级抽样。
以二级抽样为例,二级抽样是先将总体分为互不重叠的若干部分(称为一级单元),从中随机抽取一些一级单元,这是抽样的第一阶段;再从这些抽中的一级单元中分别随机抽取子样本,所有的子样本合起来构成样本,这是抽样的第二阶段。
分层抽样和整群抽样是二级抽样的两种特殊形式。
见下图:从图中可以看到,整个过程是先在所有一级单元(100个班)中,抽取10个班,再从每个班中抽取10个人,这10个班抽中的所有人合在一起构成了100人的样本。
如果第一阶段的抽样时,所有一级单元全部被抽中,此时二阶抽样就相当于分层抽样,如果第二阶段抽样时,整个班的人全部入样,此时二阶抽样就相当于整群抽样。
多级抽样适合于大规模调查,它的组织实施的便利程度和抽样精度介于分层抽样和整群抽样之间。