方差分析方差分析可以用来检验来多个均值之间差异的显著性,可以看成是两样本t检验的扩展。
统计学原理中涉及的方差分析主要包括单因素方差分析、两因素无交互作用的方差分析和两因素有交互作用的方差分析三种情况。
虽然Excel可以进行这三种类型的方差分析,但对数据有一些限制条件,例如不能有缺失值,在两因素方差分析中各个处理要有相等的重复次数等;功能上也有一些不足,例如不能进行多重比较。
而在方差分析方面SPSS的功能特别强大,很多输出结果已经超出了统计学原理的范围。
用SPSS检验数据分布的正态性方差分析需要以下三个假设条件:(1)、在各个总体中因变量都服从正态分布;(2)、在各个总体中因变量的方差都相等;(3)、各个观测值之间是相互独立的。
在SPSS中我们很方便地对前两个条件进行假设检验。
同方差性检验一般与方差分析一起进行,这一小节我们只讨论正态性的检验问题。
[例7.4] 检验生兴趣对考试成绩的影响的例子中各组数据的正态性。
在SPSS中输入数据(或打开数据文件),选择Analyze→Descriptive Statistics→Explore,在Explore对话框中将统计成绩作为因变量,兴趣作为分类变量(Fator),单击Plots按钮,选中“Histogram”复选框和“Normality plots with Test”,单击“Continue”按钮,在单击主对话框中的“OK”,可以得到分类别的描述统计信息。
从数据的茎叶图、直方图和箱线图都可以对数据分布的正态性做出判断,由于这些内容前面已经做过讲解,这里就不再进一步说明了。
图7-2 用Expore过程进行正态性检验top↑输出结果中的Q-Q图是观察数据分布正态性的一种常用图形。
这类图形大致是这样绘制的:计算数据在样本中对应的经验分布函数值(类似于累积分布的函数值,取值在0-1之间);然后计算标准正态分布(或者均值、方差相同的正态分布)对应于经验分布函数值的分位数。
以实际值为横坐标,正态分布的分位数为纵坐标作散点图,如果图形中的点大致在一条直线上则说明数据服从正态分布。
图7-3是不太喜欢统计学的学生统计成绩的Q-Q图,从图中可以判断数据并没有严重背离正态分布。
图7-3 Q-Q图表7-8是对数据进行正态性检验的结果。
SPSS中采用的是Kolmogorov-Smirnov检验和Shapiro-Wilk检验。
这两种检验方法都属于非参数统计的内容,统计量的计算方法可以参考有关书籍。
我们可以根据软件给出的p-值对数据是否服从正态分布进行检验:由于表7-8中的p-值都大于0.05,因而我们不能拒绝零假设,也就是说没有证据表明各组的数据不服从正态分布(检验中的零假设是数据服从正态分布)。
* This is a lower bound of the true significance.a Lilliefors Significance Correctiontop↑用SPSS进行单因素方差分析和多重比较SPSS的One-Way ANOVA过程可以进行单因素方差分析和均值的多重比较。
[例7.5] 对不同兴趣的学生的统计成绩进行多重比较。
单击Analyze→mpare Means →One-Way ANOVA,在对话框中将变量“统计成绩”选入Dependent List框,将变量“兴趣”移入Factor栏,如图7-4。
单击对话框中的“Options”按钮,在弹出的对话框中选中“Discriptive(描述统计)”、“Homogeneity of variance test (同方差检验”和“Means plot(均值的图形)”复选框(图7-5)。
单击主对话框中的“Post Hoc(事后多重比较)”,选中“LSD(最小显著差异方法)”复选框。
单击主对话框中的“OK”按钮,就可以得到相应的分析结果了。
图7-4 单因素方差分析对话框图7-5 单因素方差分析的选项设定在SPSS的输出结果中,表7-9是对同方差性的检验。
SPSS采用的是Levene检验,这是一种非参数检验方法,与F检验类似,但不依赖于正态性假设,比F检验更稳健。
从检验结果看,在5%的显著性水平下不能认为个总体的方差不相等。
表7-9 同方差性检验top↑表7-10是SPSS生成的方差分析表,与Excel的计算结果完全一致。
表7-11是用LSD法进行多重比较的结果。
在表-11中的均值差(Mean Difference)一栏中加有星号的值是在5%的显著性水平下显著不等于零的值。
例如,很不喜欢统计学的学生的考试成绩与不太喜欢的学生的平均成绩相差19.083分,这一差异在5%的显著性水平下是显著的。
在加有星号的行中,相应的置信区间没有包含“0”值。
表7-11 LSD法多重比较的结果(I) 兴趣(J) 兴趣MeanDifference(I-J)Std. Error Sig.95% ConfidenceInterval1 很不喜欢2 不太喜欢-19.083* 6.720.008-32.81-5.363 无所谓-12.4647.009.086-26.78 1.854 比较喜欢-17.875* 6.848.014-31.86-3.895 非常喜欢-23.893*7.009.002-38.21-9.582 不太喜欢 1 很不喜欢19.083* 6.720.008 5.3632.813 无所谓 6.619 5.636.249-4.8918.134 比较喜欢 1.208 5.434.826-9.8912.315 非常喜欢-4.810 5.636.400-16.32 6.703 无所谓 1 很不喜欢12.4647.009.086-1.8526.782 不太喜欢-6.619 5.636.249-18.13 4.894 比较喜欢-5.411 5.788.357-17.23 6.415 非常喜欢-11.429 5.978.065-23.64.784 比较喜欢 1 很不喜欢17.875* 6.848.014 3.8931.862 不太喜欢-1.208 5.434.826-12.319.893 无所谓 5.411 5.788.357-6.4117.235 非常喜欢-6.018 5.788.307-17.84 5.805 非常喜欢 1 很不喜欢23.893*7.009.0029.5838.212 不太喜欢 4.810 5.636.400-6.7016.323 无所谓11.429 5.978.065-.7823.644 比较喜欢 6.018 5.788.307-5.8017.84* The mean difference is significant at the .05 level.图7-6是以因素水平为横轴,以各组平均考试成绩为纵轴绘制的散点图可看出各组均数的分布状况。
从图中可以看出,总体来说学生的学习兴趣越大平均考试成绩越好,但“不太喜欢”统计学的一组是个例外。
图7-6 不同学习兴趣学生的平均考试成绩top↑用SPSS进行双因素方差分析SPSS的General Linear Model中的Univariate过程可以用来进行单因素或多因素方差分析,检验不同因素以及因素之间的交互作用对均值的影响是否显著。
[例7.6] 7.1.3小节的数据为例在SPSS中进行双因素无交互作用的方差分析。
要用SPSS处理表7-6的数据需要先将数据整理成列表的形式(表7-12)。
在SPSS 中建立数据表以后,选择Analyze→General Linear Model→Univariate,在主对话框中将“收入”放入Dependent Variable 矩形框,将“地区”和“险种”放入Fixed Factor(s)矩形框中(图7-7)。
图7-7 Univariate主对话框在主对话框中点击Model按钮进入Model对话框,选择Custom,在效应下拉框中选择Main effect,把“险种”和“地区”变量选入右边的模型框中,单击Continue 返回主对话框(图7-8)。
其它选项采用默认值,单击主对话框中的“OK”按钮,可以得到无交互作用的双因素方差分析结果,分析结果见表7-13。
这一模型在Excel中是不能直接分析的。
图7-8 Univariate过程的模型定义对话框top↑表7-13 SPSS输出的有重复双因素、无交互作用的方差分析表险种 3.376 2 1.688 .544 .586地区20.627 3 6.876 2.216 .107Error 93.073 30 3.102Total 57397.520 36Corrected Total 117.076 35根据表7-13的分析结果,在无交互作用的双因素方差分析模型中,险种和地区因素对保险销售人员的收入都没有显著影响:险种因素的p-值等于0.586,地区因素的p-值等于0.107。
表中的Corrected Total是我们常用的“总离差平方和”,“Total”是总平方和(与0的离差平方和)。
然而,如果地区和险种因素的交互作用对收入有显著影响,而我们在模型中忽略了二者的交互作用,我们所作的双因素方差分析就是错误的。
下面我们来作有交互作用的方差分析。
[例7.7]使用例7.5中的数据进行双因素有交互作用的方差分析。
调用Univariate过程,变量的设置保持不变,在模型设置对话框中选择Custom,在效应下拉框中选择Interaction,同时选中“险种”和“地区”变量,点击中间的右箭头,右面Model下面的矩形框中会出现入“险种*地区”这一变量,这表示模型中包含了二者的交互作用(图7-9)。
返回主对话框,单击Plots按钮,在弹出的对话框中把“地区”变量指定为Horizontal Axis,把“险种”指定为Spearate Lines,点击下面的Add按钮,表示我们需要做一个以地区为横轴,每个险种按险种的平均值为一条线的图形(图7-10)。
返回主对话框,在options对话框中选中“Homogeneity test(同方差检验)”复选框。
最后单击主对话框中的“OK”按钮就可以得到有交互作用的双因素方差分析结果了。
图7-9 有交互作用的双因素模型设定图7-10 要求SPSS输出均值图形的设定top↑表7-14是同方差性检验的结果,检验的p-值等于0.358,表明没有证据表明各个总体的方差不相等。
表7-14 同方差性的Levene检验a零假设是各组中的因变量误差的方差都相等。
a Design: Intercept+险种+地区+险种* 地区表7-15是SPSS输出的方差分析表。
表中关于险种、地区因素以及二者交互作用的F检验值和p-值与Excel的计算结果是一致的,检验的结论同样是在5%的显著性水平下险种因素的影响不显著,地区的影响以及二者的交互作用影响显著。