第五节抽样技术与数据分析基础抽样调查和数据分析是社会学定量研究中的重要手段和方法。
如何使收集的资料对总体具有代表性?如何利用调查数据揭示社会运行规律?抽样技术和数据处理及分析尤为重要。
一、抽样技术所谓抽样,就是按照一定的方式,从总体中抽取能代表总体的一部分元素,即样本,然后根据样本中所包含的信息对总体的状况进行估计和推算的过程。
重要概念所谓抽样,就是按照一定的方式.从总体中抽取能代表总体的一部分元素,即样本,然后根据样本中所包含的信息对总体的状况进行估计和推算的过程。
理解抽样技术与解释几个基本概念有密切关系。
(1)总体和样本。
总体指的是所研究对象的全体。
样本由从总体中抽取的部分个体(或单位)所组成。
(2)抽样单元和抽样框。
为了便利地实现随机抽样,常常把总体划分成有限个互不重叠的部分,每个部分叫做一个抽样单元。
抽样时,给抽样单元赋予一个被抽中的概率,可以是相等的,也可以是不相等的。
在设计概率抽样的方案时,必须有一份关于全部抽样单元的资料,如名单、地图、规模等,称为抽样框。
(3)抽样误差和非抽样误差。
用样本估计总体产生的误差叫做抽样误差。
非抽样误差是在抽样调查中由于人为的差错或一些不可控制的因素所造成的误差。
(4)总体指标。
总体指标就是调查的目标量,也就是有关的总体参数,因而又称总体值或参数值。
根据从总体中抽取样本的方式,抽样分为概率抽样与非概率抽样。
概率抽样依据概率论的基本原理,按照随机的方式进行,它充分考虑等概率的原则,可以避免抽样过程中的人为影响,可以对样本的误差加以控制,以保证样本的代表性。
概率抽样包括简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样等具体方式。
非概率抽样则主要是按照抽取样本的方便性、主观判断、主观意愿来选取研究对象,与概率抽样相比,其最大的区别是非概率抽样无法保证抽取样本的等概率性质,样本误差无法控制和估计。
非概率抽样有偶遇抽样、主观抽样、配额抽样、滚雪球抽样。
概率抽样的过程一般包括界定总体、制定抽样框、决定抽样方案、实际抽取样本和评估样本质量等几个基本的步骤。
二、简单随机抽样简单随机抽样最为直接地体现了抽样的等概率、随机性的原则,因而也是最为基本的概率抽样形式。
事实上,其他抽样方式也是以简单随机抽样为基础的。
因此,了解简单随机抽样是学习其他抽样方式的人口。
(一)简单随机抽样简单随机抽样就是按照等概率原则,从含有N个抽样元素的总体中抽取n个元素(N>n)组成样本的方式。
所谓等概率,就是在总体N中抽取n个元素时,总体中每一个元素被抽中的概率都是相等的,即都是n/N。
简单随机抽样所得到的样本称为简单随机样本。
简单随机抽样所采用的办法通常有抽签法和随机数表方法。
抽签法是先将总体中的每个单元都编上号,写在签上。
将签充分混合均匀后,每次抽一个签,签上的号码即表示样本中的一个单元。
另一种常用的简单随机抽样的办法是随机数表法。
随机数表是随机形成的,表中的数码和排列没有任何规律性,故又称乱数表。
样本规模也称样本容量,确定样本规模是抽样设计的重要环节。
在简单随机抽样过程中,当估计参数为总体均值时,最小样本规模的确定公式是:式中,△为绝对抽样误差,t为规定的绝对抽样误的t值范围,S2为总体元素的方差。
当估计参数为比例P时,样本规模可从如下方式得到:在上述公式中,绝对抽样误差“△”是人为规定的,t值则对应于所要求的置信度,可以从t分布表中查出。
(二)概率与规模成比例抽样概率与规模成比例抽样(sampling with probabilities proportionate to size,简称PPS)是社会学调查研究中最常用的一种抽样方法。
PPS抽样使用多级抽样的形式,它根据元素的层级划分特征,依次由高到低抽取各层级的样本单位。
不同的是,虽然PPS抽样在确定各级抽样单位规模时,上一级抽样单位的数量应该与下一级保持平衡,但是,每一个级或层次内的子抽样,其样本规模都是相同的。
由于不论初级抽样单位(primary sampling unit,简称PSU)大小,都从中抽取固定的样本单位,因此PPS抽样的样本规模的变动也得到了控制。
同时,PPS抽样在抽取较高层级的样本单位(即是对群或层的抽样)时,每个群中选的概率与群规模的大小成正比关系。
比如在某一层级中,一个PSU的规模是另一个的3倍,则前者中选的概率也是后者的三倍,成了不等概率抽样。
不过在下一级抽样时,由于PPS抽样是从每个抽中的PSU中抽选固定的样本量,这时子抽样的概率就与规模成反比,即PSU越大,PSU内的元素被抽中的概率越小,因而对于总体每一元素来说,中选的概率仍然是相同的,保证了抽样的等概率特性。
PPS抽样步骤可示例如下。
假设要在某个城市56万多符合调查要求的人口中抽取400人进行调查。
显然,如果按照简单随机抽样或系统抽样的方式,找到一份56万多人口的全部名单来制作抽样框是非常不现实的。
但我们知道,该城市是由区、街道、居委会三级组成的,于是我们分阶段来抽样。
该城市区一级单位只有4个,4个区中共有21个街道,我们决定以街道为PSU,先在21个街道中抽取4个,然后在每个被抽中的街道中再进一步分别抽取4个居委会,继而在每个被抽中的居委会中分别抽取25人作为样本(4×4×25=400)。
具体操作是:第一步,先抽取4个街道。
将21个街道符合调查要求的人口规模和累计规模排列出来,并给出每个街道的选样范围,如表5—5所示。
表5--5 PPS抽样步骤举例第二步,采用系统抽样的方式抽取街道。
首先计算抽样问隔。
在规模为56.67万的总体中,抽取4个PSU,抽样间隔的计算是K=56.67/4=14.1425(万)。
在1~K 的范围内,使用随机数表或随机函数给出一个随机起点,比如是6.865514,由于6.865514落在平政路的选样范围,平政路即为第一个抽选到的PSU;根据等距抽样原则,第二、三、四个PSU的选取就不难获得。
比如第二个点的号码是21.0081(=6.865514+14.1425),落在鹤岭街道的抽样范围,鹤岭即为被抽中的第二个街道。
依此类推。
第三步,按照抽取街道的方式,对每一个被抽中的街道,分别抽取出4个居委会。
第四步,在抽到的l6个居委会中,用系统抽样或简单随机抽样的方式分别抽取25户家庭。
第五步,人户抽样。
人户抽样即在被抽中的每户家庭中抽取一位合适的家庭成员作为访谈对象,其简便操作的方式是利用人户抽样表(见表5—6)。
此表是按照随机、等概率的性质编制出来的。
表5—6入户抽样表使用上述人户抽样表要求首先对问卷进行编号,在进入被抽中的家庭后,调查员要询问该家庭中所有符合调查要求的家庭成员的年龄。
比如,某次调查的一个例子是:“请问您家l8~65周岁的成员(含18、65周岁,指共同居住、共同生活、财产共享的家庭成员)有几位?”然后,请调查员将符合条件的家庭成员,从年龄最大的一位开始,按年龄大小顺序记入随机数表。
问卷编号的尾数与最后一位家庭成员的序号交叉,所获得的随机数字,即是被抽中的家庭成员的序号,该家庭成员即是被访对象。
比如,用一本编号为“0204”的问卷进入一户有3位成员符合抽样条件的家庭,表中序号“3”和问卷尾数“4”交叉处的随机数字为“2”,则序号为2的家庭成员即是将要访谈的对象,如表5—6所示。
使用入户抽样表需要注意的是,不能特意挑选问卷进入被访者家庭,否则就会破坏人户抽样的随机性。
三、数据分析数据分析主要包括单变量统计,双变量分析以及多变量分析。
这里简单介绍单变量分析与双变量分析的内容。
(一)单变量分析描述单变量的样本集中趋势,常用的统计描述方式主要有均值、众数和中位数,其中样本均值的计算是最常见的一种方式。
均值,即样本平均数,其基本公式为:式中为均值,x i为样本观测值,n为样本量。
对变量的离散程度的分析,主要是了解样本值分布的不均衡状况,它与集中趋势的分析恰好相反。
常见的离散统计量包括全距、标准差、四分位差等。
其中,标准差是需要重点掌握的。
标准差即是一组数据相对于均值的偏差平方的算术平均数的平方根,用公式表示就是:式中S为标准差,为均值,x i为样本观测值,n为样本量。
进一步,标准差与平均数百分比值称为离散系数,用公式表示为:式中,CV为离散系数。
可见离散系数具有相对性,它可以用来比较不同变量之间离散程度的差异。
区间估计是单变量统计推断的一种主要情形,它是指在一定的置信度范围下对总体的取值区间的估计,因此也称为置信区间。
常见的区间估计有总体均值的区间估计和总体百分数估计。
这里我们首先需要清楚什么是置信度。
置信度或可称为区问估计的把握性程度,社会统计一般取三种置信度,即90%、95%、99%,它们表示对总体的推断有90%、95%或99%的把握,或者反过来,对总体的推断存在10%、5%、l%的误差(即允许误差,记为α)。
总体均值的区间估计公式为:式中,S为标准差,为均值,n为样本量,Z(1-α)为置信度为l-α的Z值(置信度90%、95%、99%所对应的Z值分别为l.68、1.96、2.58)。
相应地,当从样本百分比来估计总体百分比的区间时,公式为:式中p为样本中的百分比。
(二)双变量分析检验和测量两个变量之间的关系,是双变量分析的基础。
在社会统计学中,有一组称为消减误差比例的统计量常用来测量两个变量之间的相关程度。
所谓消减误差比例(proportionate reduction in error,简称PRE),就是用一个变量预测另一个变量时可以减少的误差比例,即:式中,E1为预测某个变量(Y)的全部误差,E2为用一个与变量Y相关的变量X来预测 Y 时的误差总数,那么E1-E2就是用变量X预测Y时可以减少的误差。
但是,对不同层次、性质的变量之间消减误差比例的统计分析需要采用不同的统计量。
测量和检验两个定类数据之间的关系,有对称和非对称的Lambda测量以及 tau-Y测量,对称Lambda测量表示两个变量相互预测时可以减少的误差比例,非对称Lambda测量以及tau-Y测量则表示用一个变量预测另一个变量时可消减的误差比例。
比如用变量X预测变量Y时,得到tau-y=0.54,即表示通过X预测Y可消减54%的误差。
两个定类变量是否相关,还可用卡方(χ2)检验来表示,卡方的计算公式为.式中,f$0为列联表单元格中的实际观测频数,f e为单元格的期望频数。
卡方检验的步骤是先建立两个变量的独立性假设(称为零假设),然后根据自由度df=(r一1)(c-l)和给出的显著性水平来查χ2分布表,得到一个χ2临界值,然后将计算出来的χ2值与查表所得的临界值比较,如果χ2值大于或等于临界值,则表明拒绝零假设,两个变量之间具有相关关系,反之,则接受零假设。
两个定序变量之间的相关关系通常可以采用古德曼和古鲁丝卡的Gamma系数、萨默斯(Somers)的d y系数以及斯皮尔曼相关系数(rho系数)来测量。