方差分析简介(一)方差分析是我们从心理统计这门课就提到一个基本的统计方法。
但或许很多人到做研究生毕业论文的时候,还没搞清楚到底方差分析是怎么一回事。
我们的老师对很多基本的地方也是含糊不清。
我就我几年学习和应用的理解,粗略讲一下方差分析是怎么回事。
什么是方差分析?就是对方差的分析。
有人说你这不废话么?这还真不是废话。
t检验就不是对方差的分析。
独立样本t检验是对两个样本均值的差异进行检验,而相关样本t检验是对两个样本差异的均值进行检验。
而方差分析就是对引起样本数据出现差异的若干因素影响孰强孰弱的分析。
换句话说,当样本数据差异较小的时候,t检验会认为不存在差异,但方差分析可以从这较小的差异中分析出实验处理和随机误差谁对这个差异贡献更大。
所以说在控制水平一定的情况下,方差分析更容易得到显著性水平高,但power较低的结果。
(因为虽然差异贡献大,但本身差异不大。
翻译为人话就是这个研究结果虽然显著但没什么意义。
)既然是对方差的分析,那么研究者对数据就有一定的要求。
不是什么样的数据都适合做方差分析。
这其中最重要最重要的,违反了就无从可谈的就是至少要等距数据(interval data)。
因为至少等距数据才能做参数检验。
称名数据(nominal data)和顺序数据(ordinal data)只能做非参数检验。
既然要分析方差,就得有均值,有方差。
第二重要的是要正态分布的数据。
为什么要强调数据正态分布呢?这要从平均数说起,平均数,从定义上来说,是一组数据中唯一对其离均差之和为0的数值。
如果数据呈正态分布,平均数就是一组数据中最具有代表性的那个值。
好比说一次考试全班的平均分为81.6分,我们大概可以知道有两个事实:1)多数同学考试分数是七八十分,2)如果你高于82分说明你考的还算不错,低于81分就说明考得不够理想。
这个高低差距越大,这个结论的信心就越强。
这两个结论是基于考试分数是基本上的正态分布推断出来的。
如果不是正态分布怎么样呢?拿工资说话,以我所在的圣安东尼奥市为例,这个城市适合工作年龄的人,大约有55%的“蓝领”,30%的“白领”,14%学生或自由职业者,和1%的绝对高收入者。
这个差别有多大呢?“蓝领”的税后工资大约是年收入25,000~45,000,白领大约是50,000~80,000,而超高收入者,例如蒂姆邓肯同学,他的税后收入大约是20,000,000。
如果算个平均数,统计局说圣安东尼奥市人民平均收入高达50,000,大家过着幸福美满的生活。
那55%的蓝领和14%的学生肯定想抽这个发言人。
因为马刺队拿小头的球员收入恐怕就要把这个数字往上提5,000。
更不要说后面赚大头的各种大老板了。
所以50,000这个平均数代表性不够强。
既然在方差的计算中要计算每个数据与平均数的差异,因此平均数给力不给力也就会很大影响方差分析的结论。
当然如果是稍微有点偏态分布,统计学家也找到了校正的方法。
这个因素虽然重要,但没有等距数据这个条件那么critical。
第三叫方差齐性(homogeneity of variance)。
意思就是所有需要进行比较的组的数据方差要在统计上没有显著差别。
而其实这个差别主要体现在误差上。
HOV想保证的就是误差等分散性。
不同组虽然进行了不同的实验处理,可由于随机误差引起的变异在各组之间并没有太大差别。
当然这个因素如果不满足也有很多校正的办法。
第一部分最后要提到的是误差(Error)。
在方差分析的模型中,凡是无法解释的变异都被统归为误差。
我之所以说误差,而不是随机误差,是因为这些变异仅仅是Undetermined,绝不等于Random。
换句话说,你不知道一件事情发生的原因,只是因为它没有纳入解释系统,或是没有被很好的测量,那是“待定”解决,而不是“天知道怎么回事”。
在心理学以及很多行为科学中,不同的实验设计,就有不同的误差系数。
而改进实验设计的目的,就是在保证实验可行性的情况下,尽可能多的把一些可以解释的变异从误差变异中剥离出来,以提高Power。
再一次提到Power,也就是结果的意义。
方差分析本身是一个power基准相对较低的统计方法,改良实验设计以及事后检验的方法,会有效提高Power,而让结论更加有意义。
这会在后文慢慢提到。
方差分析简介(二)自由度(degree of freedom)是统计中玩的比较多的一个概念。
什么是自由度呢?有的老师会这么讲,当n个数据的均值确定的时候,那么有且仅有n-1的数据是不确定的,最后一个数据是被钉死的。
那么自由度就是n-1。
那么自由度就是该条件下可以活动的数据个数。
通过这个解释我们知道自由度是怎么算出来的,却不能理解自由度的本质。
所以我们会计算,但是不会设计。
在Stevens的《Handbook of Experimental Psychology》中用了一个巧妙的比喻告诉我们什么是自由度,而且帮助我们学会在设计中确定自由度。
想象桌子上有一杯水,你要拿起这一杯水,最基本的动作是什么?——用手拿。
那么从你开始启动动作到你手碰到杯子的全过程,你身体的哪些部位在动?(先忽略手指的动作)大家可以试着做一下。
最简单,最基础,也再也无法省略的动作包括:抬动大臂、弯曲小臂、活动手腕。
在这个基本动作中,我们至少使用了四个肌肉群,肩部肌肉群、大臂肌肉群、小臂肌肉群、掌部肌肉群。
肌肉群本身只能收缩或被迫拉伸,让我们手真正碰到杯子的原因,是因为关节的作用。
关节,使肌肉群能够灵活移动。
那么在这个动作中我们使用了:肩关节、肘关节、腕关节。
启用关节的数量,就决定了肌肉能够活动范围的程度,如果我们想做更复杂的活动,就需要启用更多的关节。
这关节,就是自由度。
那自由度大是好还是小是好呢?刚刚够用不浪费最好,这取决于实验需要。
好比有人拿杯子还要转个腰,但转腰这个动作可能会带来更多的误差。
有人拿杯子要用两只手,因为是给领导递茶。
在后面的分析中会提到通过实验设计减少自由度的利弊,总的来说在保证实验可行性的情况下,通过将一部分效应从误差中分离出来以减少误差平方和和自由度可以提高Power。
比较(Comparison)是方差分析的核心。
有人统归那叫事后检验,这是国内一些心理教育统计书的一个很大的缺陷。
事后检验(Post Hoc)只是比较的一类,而且是在实际研究中最不想用到的一类。
国内书重在分析方差分析的模型,以及前期的计算。
但对Comparison讲的很少。
我们在这里放一个例1。
说研究者想知道睡眠剥夺对人数学计算及推理能力的影响。
于是他找了160个修普通心理学课程的大二学生(永远悲催的被试银行),随机排到4组,每组40人。
第一组不剥夺睡眠,第二组剥夺6小时睡眠,第三组剥夺12小时睡眠,第四组剥夺18小时睡眠。
之后让他们限时半小时完成一份GRE数学题(哎我很BT我很BT)。
结果发现各组平均分如下:第一组750分,第二组730分,第三组720分,第四组640分。
所有被试总平均分为715分。
并且给出各组标准差和全部被试标准差。
问研究者如何评估研究结果。
拿到这个例子,如果它出现在大二心理统计考试题中,我想所有人都会毫不犹豫的写:其中至少有两个不相等。
∑∑(∑∑),(为了怕忘嘴里会念念有词:“所有数据的平方和减去所有数据和的平方除以数据个数。
”)∑̅̅̅̅,(嘴里还得念叨:“各组平均数减去总平均数的平方求和再乘以组数据个数。
”)⁄⁄⁄ ~然后再查表,发现这个F比要大,然后就说:推翻虚无假设。
剥夺睡眠对GRE数学成绩有显著影响,p<0.05。
看上去很Happy的结果,如果计算都没问题的话这道题貌似满分了。
现在的问题是:睡眠剥夺对GRE数学成绩究竟有什么影响?有人说这不是很明显么?剥夺睡眠时间越长,成绩越差嘛。
直观上是这样,统计上呢?似乎我们之前的方差分析并没有给出确定的结果。
我们回到这个F 检验的模型,⁄。
假如F比临界值要大,仅仅是告诉我们各组GRE成绩受到睡眠剥夺的影响要大于受到误差的影响。
起码有两个问题没有解决:一,这个影响到底有多大?二,它是如何影响的?从直观上看画个图就可以了。
我们再次想到了t检验。
因为t检验是比较两组数据差异最好的方式之一。
在这里我们能不能用t检验?要用多少次t检验才能把这个问题弄明白?有人说:不能做多重t检验,因为那样会增大。
一点儿都没错,三组及以上数据的差异比较要用方差分析的原因也就是在此。
但确保不增大的情况下推断出多组数据差异的精髓,就在于比较(Comparison)。
但比较与多重t检验没有本质上的差别,只要对比两组数据差异,就要冒风险。
总体的。
c是进行多重比较的次数。
于是很容易可以看出,在能够回答问题的情况下,比较的次数越少越好。
括号里的数字为比较的权重,左侧说明为比较的意义,我们来看看下面哪种比较为最优。
1.Helmert2. Polynomial3. Simple4. Repeated5. Deviation这五种比较方式各有千秋。
需要强调的是,这些都是所谓的事前比较(Contrast)。
事前比较是优于事后比较的(Post Hoc)。
我们在SPSS里学的无论是Bonferroni还是LSD都是Power 很低很低的比较。
即便一定要用事后比较,也要选择Scheffe。
Scheffe是比较所有必要的配对,而Bonferroni和LSD是比较所有可能的配对,是最白痴最没有办法的比较方法,以后不到万不得已千万不要用。
而这五种比较方法对应了五种不同的设计理念。
在后面还会提到。
方差分析简介(三)今天重点讲几种比较(Comparison)。
我花了很大精力理解了实验设计和比较的关系,但因为我线性代数的基础不是很好,比较和实验设计各自与矩阵的关系只是理解了一个大概,在这里不误人子弟。
虽然说离开矩阵模型也能基本掌握比较,但我还是强烈建议大家去看有关比较和矩阵已经实验设计与矩阵的关系的教材。
比较(Comparison or Contrast),从定义上讲,就是各组均值赋予不同权重后的线性组合。
(有人打断:尼玛能说人话么!!!!!!!!!额,先等我把这句话说完。
)这个线性组合满足条件:1)至少一个权重系数不为0;2)权重系数总和为0。
用公式来表达就是,对于p个组的设计:这个公式还稍微有点抽象,为了更加明白的解释,我们这里以p=4,即4个组的设计举个简单例子。
假如说我们四组的均值分别为a1,a2,a3,a4。
在公式中,令c1=1,c2=-1,c3=0,c4=0,则有=。
不错,在这里我们设计的比较,其实就是比较a1和a2的大小了。
如果用表格表示就是:看完这个例子我们再用通俗的话来讲比较,那就是计算很多均值之间的差异(尼玛这就是人话了么!!!!!!!!好吧,你就当人话听吧。
)我们操纵c1,c2,c3,c4的值,或是说设定线性组合的权重系数,就可以以特定的方式来分析:自变量x在四种不同水平下,因变量y所呈现的a1,a2,a3,a4水平究竟反映了怎样的结果和意义。