第七节计数数据统计分析的SPSS操作对于计数数据的统计分析,SPSS提供了不同的分析和检验方法,从总体上来说,大致可以分为:用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。
一、二项分布的非参数检验方法我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。
此时即可用二项分布(Binomial)方法进行检验。
下面结合具体数据说明Binomial方法在检验比率差异时的应用。
1.数据所用数据文件为SPSS目录下之GSS93 subset.sav。
这里我们将该数据文件另寸为“8-6-1.sav”。
该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。
2.理论分析从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于0.5,可以用比例检验的方法进行检验。
在SPSS中对应于二项分布的检验(Binomial Test)过程。
3.二项分布检验过程(1)打开该数据文件后点击菜单Analyze,在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial…,单击可进入二项检验(Binomial Test)的主菜单。
把SEX变量选入到检验变量表列中,其他选项请保持默认(图8-1)。
图8-1:二项分布检验主对话框(2)请单击Options…按钮,打开对话框如图8-2所示。
在此我们想同时在结果中输出一些描述统计量及百分位数,可设置如图所示。
设置完成单击Continue按钮回到主对话框。
图8-2:二项分布Options窗口(3)在主对话框中点击OK得到程序运行结果。
4.结果及解释(1)输出数据描述统计量信息NPar TestsDescriptive StatisticsN Mean Std.DeviationMinimum Maximum Percentiles25th 50th(Median)75th Respondent's Sex1500 1.57 .49 1 2 1.00 2.00 2.00在描述统计表中,程序提供了样本容量、平均数、标准差、极值及三个百分位数。
(2)输出二项分布检验结果Binomial TestCategory N Observed Prop. Test Prop. Asymp. Sig.(2-tailed)Respondent'sSex Group 1 Male 641 .43 .50.000Group 2 Female 859 .57Total 1500 1.00a Based on Z Approximation.在Binomial Test表中,所检验变量的有关信息,如男女两性的数目及比例,最后一项是双侧检验的显著性水平值。
本例数据检验结果表明:男生组的人数641,在总人数中所占的比例为0.43,假设的总体比例为0.5,双侧检验的显著性小于.05,所以我们可以说男女两性回答者比例相同的假设不能成立,从表中可以看出,女性被试远多于男性被试(女生人数859人,所占比例0.57)。
5.非对称二项分布的检验也可以用该程序来检验样本数据分布是否来自非对称分布的二项总体。
以刚才我们用过的数据为例,假如在调查设计时,调查者想控制被试性别比例(男:女)为4:6,在调查结束后分析数据资料中的性别比例是否与原先所设想的一致。
操作如下:打开Binomial对话框,设置如下图8-3所示(指定检验的概率值为0.40):图8-3:非对称二项分布比率定义用户可以自行检验程序运行的结果。
如果用户指定分析的变量中含有三个或更多的变量值,在定义二分值时,需要选择Cut point 项,并在后面的方框中填入一个分界点,该分界点必须小于最大变量值,大于最小变量值。
小于或等于分界点的值形成第一项,大于分界点的值将形成第二项。
此时请注意如果指定检验概率值,它所对应的将是第一项的概率值。
请用户自行检验该程序。
二、配合度的检验(一)、离散变量配合度检验——单样本 2检验这种方法可用于离散型变量的配合度检验,分析实际频数与理论频数是否一致。
它要求至少有一个变量,变量值为几个固定值,即一个因素多项分类的情况。
1.数据采用SPSS文件夹中的CARS.SA V数据为例,具体说明这一方法的应用。
CARS.SA V数据文件中有一变量为origin,变量值为1、2、3三个整数,分别代表三个地区,这三个整数出现的总次数是405。
我们现在欲检验这三个地区所出现的频率是否与预期的270、65、70一致。
将该数据文件另存为“8-6-2.sav”。
2.理论分析从上面数据来看,我们的主要目的是检验三个地区的实际观测频率与理论假设的270、65、70是否存在差异,属于离散变量配合度检验的问题,应用卡方检验。
3.单样本χ2检验过程和结果(1)请单击主菜单Analyze / Nonparametric Tests / Chi-S quare…,可进入单样本χ2检验的主对话框。
从左边变量表列中把指定分析的地区变量选入到右边检验变量表中去,在下面Expected values 中选择Values一项,并分别把理论次数填入到小方框中,并点击Add按钮完成设置。
如果我们欲检验的理论次数各组相等,则可以直接选择All categories eaqual项即可。
在Expected range项中保持默认选择项即Get from data。
如果我们只想使用一部分按大小顺序排列的数据来进行分析,就可以选择Use specified range,并指定数据的下限与上限。
本例设置如下图11-1所示:图11-1(2)E xact…按钮可以保持默认选项。
Options…按钮允许用户指定输出结果是否包括描述性统计量,以及对缺失值的处理方法。
因与前面所讲述的用法相同,在此不再赘述。
点击Continue返回主对话框。
(3)在主对话框中点击OK,得到输出结果。
4.结果及解释(1)描述统计量表列出了变量名、样本容量、平均数、标准差、最小值、最大值。
Descriptive StatisticsN Mean Std. Deviation Minimum MaximumCountry of Origin 405 1.57 .80 1 3(2)实际观测数与理论次数对照表列出了每个变量值的实际频数与理论次数及差值。
Country of OriginObserved N Expected N ResidualAmerican 253 270.0 -17.0European 73 65.0 8.0Japanese 79 70.0 9.0Total 405本例中,美国(American)实际观测次数253人,理论期望次数270人,实际观测次数与理论次数的差异为-17;欧洲(European)实际观测次数73人,理论期望次数65人,实际观测次数与理论次数的差异为8;日本(Japanese)实际观测次数79人,理论期望次数70人,实际观测次数与理论次数的差异为9。
(3)χ2检验表列出了χ2值,自由度及显著性水平值。
在这种基于渐近分布的检验方法中,显著性水平小于0.05 即可认为实际次数与理论次数差异显著,否则差异不显著。
Test Statistics aCountry of OriginChi-Square 3.212df 2Asymp. Sig. .201a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 65.0.在本例中,对应的卡方统计量的值为3.212(χ2=3.212),对应的自由度为2(df=2),显著性水平值为0.201>0.05,故可认为实际次数与理论次数无差异。
(二).连续型变量的配合度检验——正态分布的检验有时在执行统计分析前,需要确定样本是否来自一个正态分布的总体。
在此我们介绍一种非参数检验的方法及相应的图形检验法。
1.单样本的K-S检验(1)数据我们仍以SPSS目录下的数据文件GSS93 subset.sav(或盘中文件8-6-1.sav)为例,我们欲检验educ变量值是否来自正态分布的总体。
(2)变量受教育程度可以看成是一个连续型的变量,要检验其分布是否为正态分布属于配合度检验的问题,可以用单样本的K-S检验。
(3)操作过程①单击主菜单Analyze/Nonparametrics Test / 1-Sample K-S…,进入主对话框,请设置如下图8-4所示:图8-4: 单样本的柯尔莫哥洛夫—斯米诺夫检验主对话框程序所能检验的四种分布:Normal(正态分布)、Uniform(均匀分布)、Poisson(普阿松分布)和Exponedtial(指数分布)。
②单击Exact…可进入选择检验方法的对话框,如下图8-5所示:图8-5:K—S检验的Exact选项Asymptotic only 是一种基于渐近分布的显著性水平的检验指标,通常显著性水平小于0.05则认为显著,适于大样本,如果样本过小或分布不好,该指标的适用性会降低。
Monte Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐近方法估计显著性水平的情况,可以不必依赖渐近方法的假设前提。
Exact 精确计算观测结果的概率值,通常小于0.05即被认为显著,表明行变量与列变量之间存在相关。
同时允许用户键入每次检验的最长时间限制,可以键入1到9,999,999,999之间的数字,但只要一次检验超过指定时间的30分钟,就应该使用Monte Carlo方法。
注:只要有可能,程序会提供显著性水平的精确值,而不是Monte Carlo估计值。
③单击Options按钮可以进入对话框。
选择是否输出描述统计量和百分位数,以及以缺失值的处理,由于与以前所用过的程序相差无几,所以在此不赘述。
④在主对话框点击OK得到程序执行结果。
(4)结果及解释①描述统计量信息Descriptive StatisticsMinimum Maximum PercentilesN Mean Std.Deviation75th25th 50th(Median) Highest Year1496 13.04 3.07 0 20 12.00 12.00 15.75 of SchoolCompleted描述统计量表列指定检验变量的标签、样本容量、平均数、标准差、最大值、最小值及三个百分位数。