重复测量设计1.前面已经多处提到此设计. 现在对它作出正式定义: 重复测量设计指将一组或多组被试者先后重复地施加不同的实验处理, 或在不同场合和时间点被测量至少两次的情况.2.重复测量设计大体有两类. 一类是对每个人在同一时间不同因子组合间测量; 另外一类是对每个人在不同时间点上重复. 前者常见于裂区设计,而后者常见于经典试验设计即包括前测,处理,一次或几次后测的情况. 后者比前者要多见.3.不论沿裂区方向还是沿时间点重复,个体内因子无一例外的都是重复测量因子.重复测量设计的特点是一定有个体内因子但不一定有个体间因子.后者是不同处理组合或不同个体组.而且即使有不同组群(例如男性和女性)但人人都经历重复测量而不是一组接受重复测量另一组不接受.4.不含个体间因子的重复测量设计例子包括对一组顾客的购物偏好在三个月内重复测量; 或对其三周内的生鲜食品消费量追踪研究; 或对其家庭购买保健品药物数目一年内测量等.5.重复测量设计优点是A.每一个体作为自身的对照,克服了个体间的变异。
分析时可更好地集中于处理效应, 同时被试者间自身差异的问题不再存在. 也就是减少了一个差异来源B.重复测量设计的每一个体作为自身的对照,研究所需的个体相对较少,因此更加经济.6.重复测量设计缺点是滞留效应(Carry-over effect) 前面的处理效应有可能滞留到下一次的处理潜隐效应(Latent effect) 前面的处理效应有可能激活原本以前不活跃的效应学习效应(Learning effect) 由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高.7.思考题: 我设计了两个劳工服务方案. 一个经由劳务公司,每人每周一次服务在上海收费50,另一个经由私人,每人每次30元.前者可以报怨,可以随时辞退,可以有安全性理赔(例如劳工偷窃等可以找公司赔钱).后者一切自己负担.我的目的是看有多少人会选后者, 多少人会选前者.此时应该如何设计?8.面对这些问题也有办法.主要的是反向平衡(Counterbalancing)即变动不同因子水平出现次序使得它们以同等机会以不同次序出现.9.反向平衡法则决定第一次排序的公式是 1, 2, n, 3, n-1, 4, n-2,…, 其中每个数字对应一个处理水平. 例如有四个水平,则上式化为1, 2, 4, 3. 有了第一次排序则第二次排序只要在第一次基础上加1. 故第二次出现次序为2,3,1,4; 第三次是10.每个被试须作多少次测试取决于试验需要和课题性质.一旦决定下来则会决定组内变量水平数。
如果实验中没有组内变量,则每个被试只需作一次测试;如果实验中有一个组内变量,则测试的次数就是该组内变量的水平数;如果实验中的组内变量不只一个,则测试次数就是实验中几个组内变量水平数的乘积.8. 重复测量设计方差分析的统计前提1) 每个处理条件内的观察都是独立的;2) 每个处理条件内的总体分布是正态分布或多元正态分布;3) 每个处理条件内方差同质;4) 每个被试者的多元观测值之间有相关.9. 本质上只有1个指标,为何要把测自不同时间点上的数据看成是多元的呢? 因为同1 个体的数据重复测自同1个受试对象,它们之间往往有较高的相关性。
这种相关性通常会减少误差项变异, 从而使得F 测验的分母变小, 其后果是F 测验更易于到达显著即使无效假设是正确的. 换句话说, 犯一类错误的概率加大了.10. 重复测量方差分析要满足几个假设条件. Fisher 指出了这些条件但是直到Box(1954)才证明了这些条件的必要性并指出,若这些假设不能满足,则方差分析的F 值是有偏的,这会造成过多的拒绝本来是真的无效假设(即增加了I 型错误的概率)1. 第一条件是所谓复合对称性(Compound Symmetry). 后者意思是各对测量值之间的协2. 类似上述方差-协方差矩阵具有复合对称性, 也被称为S 型矩阵. 该矩阵只能当加性条件满足时才能成立. 如果个体和处理有互作则不太可能出现各个处理间协方差相等的情况.3. Box 在1954年证明在重复测量情况下F 检验不具有理论自由度而是有分子分母自由度各为)1(-J ε和)1)(1(--j n J ε.其中的ε上限=1. 其具体值取决于相关矩阵的性质是否有复合对称性. 如果没有复合对称性则(J-1)> )1(-J ε且(J-1)(n-1)>)1)(1(--j n J ε. 这时如果用通常F 检验临界值势必偏小,导致I 类错误增加.a. 为什么重复测量时F 检验自由度是J-1和(J-1)(n-1)呢? 这里分子自由度好理解即组数减1. 分母乃因为重复测量时是用测量次数和个体内因子的互作为误差项的.4. Geisser 和Greenhouse 在1958年发展了Box 的发现,在裂区设计中证明ε下限是1/(J-1), 故当ε不等于1时有分子自由度为1/(J-1)*(J-1)=1, 分母自由度为1/(J-1)*(J-1)(n-1)=n-1.5. 后来证明复合对称性是充分条件但不是必要条件. 在1970年Huynh 和Feldt 证明重复测量分析的一个必要和充分条件是所有成对测量值的差数方差相等. 这个就是所谓的球形假设或循环假设(Circularity). 如该假设成立则无必要再对自由度进行调整.6. 注意复合对称性是指各个测量值各自围绕本身平均数的方差, 而球形假设则是对成对测量值的差数方差而言的. 球形假设下的方差-协方差矩阵称为H 矩阵. S 矩阵可以视为H 矩阵的特例. 凡是有复合对称性的方差-协方差必定也是球形的.7. 为了有效地处理重复测量数据间的相关性, GLM 程序既可以用多元分析法又可以用一元分析法, 后者资料必须满足特定类型的协方差矩阵, 称为H 型协方差(Huynh and Feldt 1970)。
若资料具有这种类型的协方差矩阵, 则称此资料满足 Huynh-Feldt 条件(以下简称H-F 条件)。
资料是否满足此条件,可进行球性检验(Sphericity test). 8. 球性检验的基本原理用Excel 表格很容易理解. 见”球形检验原理” 一表.9. 如果只有两次测量值则球形假设自然满足, 因为两次测量只可能有一个差数, 一个差数方差.10. 一般而言当你有两个以上重复测量值时球形假设很难以满足. 首先要了解重复测量主要用于两个情况. 一个是长期调查(Longitudinal Studies)一个是包括前试到处理到后试的经典试验. 前者在两次相邻测试点之间的现实性会高于相隔较远测试点(例如第一个月和第二个月之间相关性会大于第一个月和第三个月之间), 后者则处理效应不大可能在不同个体间有相似效应.11. 如果球形假设不能满足, 用于调整复合不对称性的Box 的ε也可以用来对非球形进行调整. 这个即为εˆ, 它取值介于1和1/J-1之间. 越是接近1说明方差越同质. 12. F 检验的分子和分母自由度都要用εˆ进行调整. 因为εˆ值不可能大于1, 所以调整后的自由度不可能大于原来自由度, 相应的F 临界值也要升高才能到达显著.13. Huynh 和Feldt 发现如果εˆ>0.75则自由度调整导致显著性测验太过保守即II 类错误概率上升. 所以他们推荐一种比较不那么保守的εˆ, 记为ε~. 14. 有人建议下列三原则 a. 如果εˆ>0.75, 对自由度用ε~进行调整; b. 如果εˆ<0.75, 对自由度用εˆ进行调整; c. 如对εˆ毫不了解, 对自由度也用εˆ进行调整. 15. 上述自由度的调整属于单元方差分析法. 因为它还是把多个测量当成单一因变量处理. 仅仅是对相应自由度进行调整. 另一种分析方法是把多次测量当成多个因变量. 后者完全改变了分析思路. 不再需要测验球形假设是否满足. 而是通过独立正态变量转换使得多次测量之间从相关变成独立关系. 那时F 检验自由度无需调整.16. 首先从什么是独立标准(Orthonormal)转换开始. 如果I C C τ=∑'则说球形存在. 其中C 代表一个独立转换系数矩阵, 含有(J-1)*(J-1)个元素. 后者再经正态化处理. ∑ 是群体方差-协方差矩阵, C ’是C 的转置. τ代表一个常数, I 代表一个0, 1矩阵, 其中主对角线上是1, 非主对角线上全部是0. 如果τ代表方差, 则I C C τ=∑'意味着群体方差在主对角线上而协方差全部是0. 具体操作转换过程见”独立标准转换”一表.17. 当然并不是所有多元方差分析都需要用标准正态转换. 有时可以用各个测量值之间的差数进行模型分析. 后者有些象时间序列中的差分处理.18. 不论何种转换其基本精神都是要把原先相关的测量值变成独立或近似独立. 至少转换不会增加相关.19. 多元方差分析要假定多元正态分布, 而且被试者数目要大于处理水平. 但是后者不难满足. 否则N-1<J 则方差-协方差矩阵不会是正定的(Positive Definite), 后者使得无法求矩阵的倒数, 从而方程无解.20. 究竟用单元还是多元方差分析并无绝对标准. 两者之间也无绝对优势. 但有一点当方差是同质时单元方差分析比多元更有力量, 因为未经调整的自由度要大于多元方差分析的Hotelling ’s T 221. 如果变异大则有些小的效应可能会被单元方差分析所掩盖. 此时多元测验更有优势.22. 有两个调整系数,第一个是Greenhouse-Geisser 调整系数)ˆ(ˆεεG G -,计算公式为 ∑∑∑+---=k l k k kl kl s a s a s a s s a ])())()(2()()[1()(ˆ22222222222ε式中的2kl s 是协方差矩阵中的第k 行第l 列元素,2s =22/)(a s k lkl ∑∑是所有元素的总平均值,222/)(a s s l ll kk ∑=是主对角线元素的平均值,a s s lkl k /)(22∑=是第k 行的平均值。
εˆ的取值在1.0与1/(a -1)之间。
33. 第2个系数是Huynh-Feldt 调整系数)(εεF H -。
研究表明,当ε真值在0.7以上时,用εˆ进行自由度调整后的统计学结论偏于保守,故Huynh 和Feldt 提出用平均调整值ε值进行调整。
ε值的计算公式为]ˆ)1()1)[(1(2ˆ)1(εεε------=a g n a a ng 式中中的g 是对受试对象的某种特征(如年龄或性别)进行分组的组数,n 是每组23. 为了确定这个特殊总体,必须进行平均值之间的多重比较。
但此处不能采用一般的多重比较方法,因为那些方法都是建立在独立样本基础上的。