当前位置：文档之家› 第4章方差分析

第4章方差分析

第四章方差分析方差分析（Analysis of Variance，ANOVA）是将待分析资料的总变异剖分为不同的变异来源，以获得不同变异来源的总体方差的估计值。

通过F检验，完成多个样本平均数之间的差异显著性检验（即多重比较），若处理效应为随机模型时，则进行方差组分的估计。

4.1 方差分析的SAS过程用于方差分析的主要过程有方差分析（ANOVA）和广义线性模型(GLM)。

对于无缺省（缺值、缺组等）资料，或称平衡资料，一般采用（ANOVA）过程，对缺省资料（非平衡资料）应采用（GLM）过程。

事实上根据效应模型的不同，还有VARCOME（方差组分）过程,MIXED（混合模型）过程等。

4.1.1 ANOVA过程1. 名词解释自变量与依变量在方差分析中，自变量可称为独立变量、定性变量（Qualitative Variale）、分类变量（Classiflcation Variable）或类别变量（Categorcal Variable），相当于因素处理、水平变量。

依变量又称反应变量（Response Variable），相当于观察值变量。

实验效应方差分析的目的是找出对依变量产生的实验效应，这种效应可分为3种：主效应，常以自变量的英文字母表示，如A、B等。

互作效应，常以星号联接自变量表示，如A*B。

嵌套效应，以小括号表示，如A（B）表示A效应嵌套在B效应之内。

2语句说明：CLASS指令必须出现在MODEL指令之前，如选用TEST、MANOVA指令，则它们必须出现在MODEL指令之后。

MEANS、TEST及MANOVA等指令可重复使用，其他指令则只能出现一次。

PROC ANOV A选项串中：⑴DA TA=输入数据集名称，指明对它执行ANOV A分析。

⑵MANOV A 要求将含一个或一个以上依变量遗漏数据的观察值剔除。

⑶OUTPUT=(含分析结果的)输出文件名称，包括平方和(SS)，F检验值，以及各效应的显著程度。

CLASS变量名称串指明自变量，自变量可以是数值的或文字的。

MODEL指令定义分析所用的线性数学模型(见表6—1)，删除号（/）后的选项：⑴NOUNI：不印出单变量方差分析的结果，适用于多变量的方差分析。

⑵INT：要求SAS把线性模型内的截距（即资料的总平均数）当成一个参数，同时对这个截距作是否为零的假设检验。

MEANS指令前半部要求算出某些自变量（或互作）中各组的平均数，后半部（删除号后）共有24个选项，前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。

这些选项有：⑴BON：修正最小显著差异t检验。

⑵DUNCAN：邓肯多重范围检验，即邓肯氏新复极差法。

⑶DUNNETT（控制组组名）：邓尼特控制差异检验。

它是依据t分布由各组平均数与控制组（指定组如对照组）进行比较，采用双尾检验。

⑷DUNNETTL（控制组组名）：邓尼特小于控制均数检验。

与控制组平均数的比较，采用单尾检验，临界值订在t分布的下端。

⑸DUNNETTU（控制组组名）：邓尼特大于控制均数检验。

与控制组平均数的比较，采用单尾检验，临界值订在t分布的上端。

⑹GABRIEL：贵博氏多重比较。

⑺REGWF：R—E—G—W多重F检验。

⑻REGWQ：R—E—G—W多种t检验。

⑼SCHEFFE：执行沙菲氏(Scheffe)的多重比较检验。

⑽SIDAK：Sidak调整T检验。

⑾SUM（或⑿GTI）：Sidak独立样本t检验。

当两组样本含量不等时为哈氏（Hochberg）的GTI 检验。

⒀SNK：纽曼—库尔多重范围检验，即q检验。

⒁T（或⒂LSD）：配对t检验或费歇尔最小显著差异检验。

⒃TUKEY：图基固定极差检验。

⒄W ALLER：娃尔—邓肯K—比率t检验。

以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。

其它主要选项还有⒅ALPHA=P：界定检验的显著水准。

内设值为P=0.05。

当上面选项与选项⑵并用时，P值必须是0.10、0.05、0.01三者之一。

与上面其他检验选项时，P可以是0.0001与0.9999间任何的值。

⒆LINES：将显著性检验的平均数，由大到小排列。

若某一对平均数之间无显著差异，则将它们印在同一行上，并以虚线将它们与其他有显著差异的平均数分开。

当选用⑵、⑺、⑻、⒀或⒄等检验时，此选项会自动被包括在内，否则，必须附加此选项。

⒇CLM：效应的各组平均数以置信区间方式表示。

此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。

(21)CLDIFF：与(20)相仿，选用⑵、⑺、⑻、⒀、⒄时，附加此选项，将以置信区间方式显示各组平均数。

(22)E=效应名称：它界定各显著检验的分母，缺省时以误差项的均方自动成为分母。

FREQ指令指明该变量值为各观察值重复出现的次数。

TEST指令用来指定F检验的分子与分母，H=分子，E=分母；一般而言，系统自动采用误差项的均方作为F检验的分母。

但对于随机模型等，可选此项。

MANOV A指令主要用于执行多变量(多元)方差分析。

BY指令用于把数据文件分成几个小文件，然后逐一进行ANOV A分析，但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。

此步骤可籍PROC SORT达成。

以上指令中MODEL指令至关重要，同一资料，分析结果依模型不同而异。

常用的模型定义语句有：MODEL Y=A；单因素方差分析，MODEL Y=A B两因素主效应模型，MODEL Y=A B A*B两因素带互作模型，MODEL Y=A B(A)嵌套（NESTED）模型用于系统分组资料。

MODEL Y1、Y2=A两元单因素方差分析。

在模型定义中，可用“|”和“@n”简化表达。

“|”等价于按Searle规则将效应从左到右展开，“＠n”表示互作效应和嵌套效应所包含的最多变量数。

各种模型简化表示法及其等价形式列于下表。

表4—1模型简化表示法及其等价形式结果输出包括分类变量信息表，方差分析表及多重比较表等。

4.1.2 GLM过程1. 概述GLM是广义线性模型(General Linear Model)的简称，其推算参数的理论依据是最小误差平方法(The Least Squares Method)。

最适宜于非平衡设计的资料，该过程可应用于多种不同的统计分析。

本章仅介绍在方差分析方面的用途。

2.语句说明：格式中第1、3条指令是不可省略的，CLASS指令必须出现在MODEL、MEANS指令之前，其余均应出现在MODEL指令之后(但BY可出现在RUN前任何一处)。

PROC GLM选项串中：⑴DA TA、⑵MANOV A、⑶OUTPUT的含义与ANOV A选项串中的相同。

⑷NOPRINT：要求分析结果不在报表上打印出来，一般不用此选项。

⑸MULTIPASS：要求重读输入资料文件内的数据，也不常用。

⑹ORDER=FREQ |DATA| INTERNAL|FORMA TTED：界定自变量内各水平（组别）的次序，该选项与CONTRAST 及ESTIMATE指令相关。

当ORDER=FREQ时，观察值个数最多的那一组为第一组，余类推。

当ORDER=DATA时，组别按输入资料文件中各组第一次出现的次序而定。

当ORDER=INTERNAL时，组别按其代号由小到大排列，或按各组名称的英文字母顺序排列。

当ORDER=FORMATTED时，则组别的顺序以外部的格式而定，此项为内设值。

CLASS指令指明自变量。

MODEL指令的前半部可参见表4—1，删除号后的选项串大致可分四类。

第一类与截距（常数项）有关。

⑴NOINT：把截距排除模型之外。

⑵INT：印出截距统计检验。

第二类与报表有关。

⑴NOUNI：不打印单因素方差分析结果（常用于多变量分析）。

⑵SOLUTION：打印一般线模型中参数的估计值，当省略CLASS指令时，程序会自动印出此解。

⑶TOLERANCE：印出容忍量。

其定义为1－R2，R2为自变量与依变量的相关指数。

第三类与无效假设的检验有关。

⑴E：要求印出所有可估计函数（Estimable Functions）的值。

⑵E1；或E2：或E3：或E4：只要求印出每一效应第一、或第二、或第三、或第四型可估计函数值。

⑶SSI：或SS2：或SS3：或SS4：只印出每一效应第一、或第二、或第三、或第四型的平方和。

第四类与控制计算过程的打印有关。

⑴XPX：要求印出(X＇X)的向量积距阵⑵INVERST(或I)：要求印出(X＇X)的逆距阵，或(X＇X)通用逆距阵。

MEANS指令的后半部分（删除号后）的选项，前22项可参见ANOV A过程。

另有DEPONL Y：要求印出依变量的平均数，若省略此项，程序会印出文件中所有连续性变量的平均数。

ETYPE=1(或2、或3、或4)：界定F检验中分母距阵的均方类型，内设为分析过程检验中最高的一型。

HTYPE=1(或2、或3、或4)：与W ALLER选项并用，界定F检验中分子距阵的均方类型，内设为分析过程检验中最高的一型。

CONTRAST指令用于对比检验，即以线性方程序重新组合参数据执行检验。

其中“比较式的名字”必须放在单引号内，名字长度以20个字母为限；各组效应系数前必须先注明所要比较的效应，这些效应必须是MODEL中出现过的。

横行系数总和必须是0，不接受分数。

若有多个比较式，则以逗号将各横行隔开。

删除号后有E：印出线性函数的向量L。

E=效应名称：界定F检验的分母内设为误差项均方。

ETYPE=1（或2：或3：或4）：界定平方和的类型等。

ESTIMA TE指令用于检验参数线性组合。

LSMEANS指令用于计算依据最小误差平方法所得的平均数。

主要选项有：⑴E：最小误差平方平均数(Lsm)计算过程中所用到的可估计函数值。

⑵STDERR：印出t检验(Ho：Lsm≠0) 的分母与其显著程度。

⑶TDIFF：印出各平均数比较的t值及显著程度。

⑷PDIFF：印出各平均数比较后的显著程度。

⑸E=效应名称：必须与⑵、⑶、⑷选项并用，指定某一效应均方作为t检验的分母。

缺省时，GLM自动采用误差项的均方作为t检验的分母。

⑹ETYPE=1(或2：或3：或4)：指定⑸中效应均方的类型。

MANOV A指令请参阅4.3。

OUTPUT指令中，OUT=输出资料文件名称，这个文件含原输入资料文件的所有变量，以及指令中所提到的关键字。

关键字=变量名称串：关键字主要有⑴P=预测值。

⑵R=预测误差。

⑶L95M(或U95M)=依变量平均数95%置信区间的下限(或上限)。

⑷L95(或U95)=依变量预测值95%置信区间的下(或上)限。

⑸STDP=预测值平均数的标准差。

⑹KSTDP=误差的标准差。

⑺STDI=个别预测值的标准差。

⑻STUDENT=经过标准化的误差。

⑼H=影响力，定义为X i(X＇X)X i。

RANDOM指令指定模型中的随机效应。

e商务文档

第4章方差分析

相关文档推荐：