当前位置:文档之家› spss学习系列23.协方差分析

spss学习系列23.协方差分析

(一)原理一、基本思想在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。

如果忽略这些因素的影响,则有可能得到不正确的结论。

这种影响的变量称为协变量(一般是连续变量)。

例如,研究3种不同的教学方法的教学效果的好坏。

检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。

协方差分析将那些难以控制的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对于观察变量的影响,从而实现对控制变量效果的准确评价。

协方差分析要求协变量应是连续数值型,多个协变量间互相独立,且与控制变量之间没有交互影响。

前面单因素方差分析和多因素方差分析中的控制变量都是一些定性变量,而协方差分析中既包含了定性变量(控制变量),又包含了定量变量(协变量)。

协方差分析在扣除协变量的影响后再对修正后的主效应进行方差分析,是一种把直线回归或多元线性回归与方差分析结合起来的方法,其中的协变量一般是连续性变量,并假设协变量与因变量间存在线性关系,且这种线性关系在各组一致,即各组协变量与因变量所建立的回归直线基本平行。

当有一个协变量时,称为一元协方差分析,当有两个或两个以上的协变量时,称为多元协方差分析。

二、协方差分析需要满足的条件(1)自变量是分类变量,协变量是定距变量,因变量是连续变量;对连续变量或定距变量的协变量的测量不能有误差;(2)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;协变量的回归系数(即各回归线的斜率)是相同的,且不等于0,即各组的回归线是非水平的平行线。

否则,就有可能犯第一类错误,即错误地接受虚无假设;(3) 自变量与协变量相互独立,若协方差受自变量的影响,那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应就会被排除;(4)各样本来自具有相同方差σ2的正态分布总体,即要求各组方差齐性。

三、基本理论1. 观测值=均值+分组变量影响+协变量影响+随机误差. 即()ij i ij ij y u t x x βε=++-+ (1)其中,X 为所有协变量的平均值。

注:在方差分析中,协变量影响是包含在随机误差中的,在协方差分析中需要分离出来。

用协变量进行修正,得到修正后的y ij (adj)为(adj)()ij ij ij i ij y y x x u t βε=--=++就可以对y ij (adj)做方差分析了。

关键问题是求出回归系数β.2. 总离差=分组变量离差+协变量离差+随机误差,(1)计算总离差平方和时,记11()()knxy ij ij i j T x x y y ===--∑∑211()k nxx ij i j T x x ===-∑∑总离差平方和:211()knyy ij i j T y y ===-∑∑最终要检验分组自变量对因变量有无显著作用。

原假设H 0:无显著作用。

假设检验是在H 0为真条件下进行,可认为t i =0,则()ij T ij ij y u x x βε=+-+按最小二乘法原理线性回归可得到β的估计值ˆxyT xxT T β=记修正的总离差平方和(残差平方和)为T yy(adj),则22(adj)ˆT xyyy yy xx yyxxT T T T T T β=-=-,自由度为n-2注:2ˆT xx T β为回归平方和,若ˆ0Tβ=(回归线为水平线),表示协变量x 对y 无作用,用方差分析就可以解决了。

(2)计算组内离差平方和时,记11()()knxy ij i ij i i j E x x y y ===--∑∑211()k nxx ij i i j E x x ===-∑∑组内总离差平方和:211()k nyy ij i i j E y y ===-∑∑根据协方差分析的基本假设:各组内回归系数相等(做协方差分析时需要检验这一点),得到组内回归系数βw 的估计值ˆxyw xxE E β=记修正的组内总离差平方和(组内残差平方和)为E yy(adj), 则22(adj)ˆxyyy yy w xx yyxxE E E E E E β=-=-, 自由度为n-k-1其中,2ˆw xx E β为组内回归平方和,当1ˆˆw wk ββ==L 时,组内总离差平方和认为完全是由随机因素引起的,E yy(adj)就是随机为误差。

这里的ˆw β是1ˆˆ,,w wkββL 的加权平均值。

(3)计算分组变量离差平方和B yy(adj),它反映的是各个水平之间的差异。

2(adj)(adj)(adj)(adj)ˆT yy yy yy yy xx yy B T E T T E β=-=--即,分组变量离差=总离差-协变量离差-随机误差。

于是,就可以进行组间无差异检验了:(adj)(adj)/1/1yy yy B k F E n k -=--3. 因此,在做协方差分析前,需要依次做两个假设检验: (1)协变量对因变量的影响对与各组来说都是相同的,即各组回归系数相等:1ˆˆˆ:w wk wβββ===L ; 步骤:① 先按回归系数相等和不相等分别表示模型()ij i w ij ij y u t x x βε=++-+ ()ij i wi ij ij y u t x x βε=++-+并计算出误差平方和2(adj)yy yy w xx E E E β=-211i kyy wi xx i S E E β==-∑其中,1i kyy yy i E E ==∑.② 计算F 值(adj)11/1/2yy E S k F S n k--=-若F 值小于临界值F α,则说明各组回归系数无显著差异(相等)。

(2)这些相等的回归系数ˆ0w β≠. 即采用一元线性回归的显著性检验,2(adj)/1=//(1)w xx yy E F E n k β=--回归平方和/自由度残差平方和自由度 2222/(1)(/)/(1)xy xxxy yy xyxx yy xx xyE E E n k E E E n k E E E--==----4. 协方差分析的步骤(1)检验数据是否满足假设条件:正态分布性、方差齐性、线性相关性、平行性;(2)检验效应因子的显著性; (3)估计校正的组均值;(4)检验校正的组均值之间的差异。

(二)实例研究分别接受了3种不同的教学方法的3组学生,在数学成绩上是否有显著差异。

数据文件入下:先不考虑数学入学成绩,只以“教学方法”为分组变量,“后测成绩”为因变量进行单因素方差分析,得到结果:单因素方差分析后测成绩平方和df均方F显著性组间1.000组内93总数94P值<, 结果表明,两种教学方法有非常显著的差异。

但是,后测成绩肯定会受到前测成绩(连续型)的影响,假定前测成绩与教学方法(即组别,是控制变量)不存在交互影响。

因此,将后测成绩作为因变量;教学方法作为控制变量;前测成绩作为协变量进行协方差分析。

1. 平行性假定检验协方差分析的假定:①各组协变量与因变量的关系是线性的;②各组残差正态;③各组回归斜率相等(各组回归线平行)。

注意:协方差分析一般还要求各分组间协变量的观察值范围不宜相差太大。

本例先观察前测成绩与后测成绩的回归线是否平行(即协变量前测成绩对因变量后测成绩的影响在分别采用两种教学方法的班级是否相同)。

【图形】——【旧对话框】——【散点/点状】,打开“散点图/点图”窗口,选择“简单分布”,点【定义】打开“简单散点图”窗口;将“后测成绩”选入【Y轴】,“前测成绩”选入【X轴】,“教学方法”选入【面板依据:行】;点【确定】得到散点图结果,双击散点图打开“图表编辑器”,点“添加合计拟合线”按钮,再关闭“图表编辑器”:可见两组的直线趋势的斜率比较接近(平行),基本符合协方差假定。

2. 组内回归斜率相同检验(1)【分析】——【一般线性模型】——【单变量】,打开“单变量”窗口;将“后测测验”选入【因变量】,“教学方法”选入【固定因子】,“前测成绩”选入【协变量】;(2)点【模型】打开“模型”子窗口,要进行回归斜率相同的检验,故【指定模型】选“设定”;将【因子与协变量】框中的“教学方法”“前测成绩”先分别选中、再同时选中选入【模型】框;点【继续】;注:“教学方法*前测成绩”进行交互效应分析,即检验回归线斜率相等的假设。

点【确定】得到主体间效应的检验因变量: 后测成绩源III 型平方和df均方F Sig.校正模型3.000截距1.000教学方法1.988.323前测成绩1.000教学方法 * 前测成绩1.243.623误差91总计95校正的总计94a. R 方 = .308(调整 R 方 = .285)“教学方法*前测成绩”交互作用检验的P值=>,接受原假设,即交互作用无统计学意义。

因此,可认为两组斜率相同,符合协方差分析的假定。

3. 协方差分析(1)同2.的(1);(2)点【模型】,打开“模型”子窗口,【指定模型】选“全因子”;注:【全因子】表示模型包含全部因素变量和协变量的主效应、因素变量间的交互效应,但不包括与协变量的交互效应。

本例中只有1个因素变量和1个协变量,没有交互效应,计算结果只会有主效应。

(3)点【选项】,打开“选项”子窗口,将“教学方法”选入【显示均值】框,将输出不同教学方法的后测成绩调整后(考虑了协变量效应之后)的边缘平均值;勾选“比较主效应”,【置信区间调节】选“LSD(无)”,表示对“教学方法”各组的后测成绩平均值进行组间比较;【输出】选项,勾选“描述统计”、“(误差)方差齐性检验”、“残差图”;点【继续】;点【确定】得到各组因变量误差的方差齐性检验P值=>, 故接受原假设,即各组因变量误差的方差相同。

这说明下面的方差分析结果是有效的。

主体间效应的检验因变量: 后测成绩源III 型平方和df均方F Sig.校正模型2.000截距1.000前测成绩1.000教学方法1.033误差92总计95校正的总计94a. R 方 = .306(调整 R 方 = .291)考虑了协变量“前测成绩”之后的方差分析结果,前测成绩的P 值<, 说明“前测成绩”对“后测成绩产生了显著影响;“教学方法”的P值=<, 说明“教学方法”对“后测成绩”也产生了显著的影响。

注1:如果有多个教学方法的分组,要进一步判断各分组的差异,可查看后面结果中的“成对比较”结果。

注2:与不考虑协变量的单因素方差分析模型做对比:单因素方差分析后测成绩平方和df均方F显著性组间1.000组内93总数94发现教学方法的显著性比原来小了;需要总方差都是,单因素方差分析模型的组间差异解释了, 而考虑了协变量的协方差分析模型解释的方差增大到,这说明协方差分析模型能更准确地检验因素变量对因变量的作用。

相关主题