实验10 双因素方差分析双因素方差分析是对样本观察值的差异进行分解,将两种因素下各组样本观察值之间可能存在的系统误差加以比较,据此推断总体之间是否存在显著性差异,根据两因素是否相互影响,双因素分析分为不存在交互作用的双因素方差分析和存在交互作用的双因素方差分析。
10.1 实验目的掌握使用SAS进行双因素方差分析的方法。
10.2 实验内容一、用INSIGHT作双因素方差分析二、用“分析家”作双因素方差分析三、用glm过程作双因素方差分析10.3 实验指导一、用INSIGHT作双因素方差分析【实验10-1】工厂订单的多少直接反映了工厂生产的产品的畅销程度,因此工厂订单数目的增减是经营者所关心的。
经营者为了研究产品的外形设计及销售地区对月订单数目的影响,记录了一个月中不同外形设计的该类产品在不同地区的订单数据如表10-1(sy10_1.xls)所示。
试用双因子方差分析检验该产品的外形设计与销售地区是否对订单的数量有所影响。
表10-1 不同外形设计的产品在不同地区的订单数据销售地区设计1 设计2 设计3地区1 700 450 560 地区2 597 357 420 地区3 697 552 720 地区4 543 302 515该问题即检验如下假设:H0A:不同的设计对订单数量无影响,H1A:不同的设计对订单数量有显著影响H0B:不同地区对订单数量无影响,H1B:不同地区对订单数量有显著影响具体步骤如下:1. 生成数据集将表10-1在Excel 中整理后导入成如图10-1左所示结构的数据集,存放在Mylib.sy10_1中,其中变量a 、b 、y 分别表示销售地区、外形设计、销售量。
图10-1 数据集mylib.sy10_1与分析变量的选择 2. 方差分析在INSIGHT 模块中打开数据集Mylib.sy10_1。
选择菜单“Analyze (分析)”→“Fit (拟合)”,在打开的“Fit(X Y)”对话框中选择数值型变量作因变量,分类型变量作自变量:选择变量y ,单击“Y ”按钮,选择变量a 和b ,单击“X ”按钮,分别将变量移到列表框中,如图10-1右所示。
单击“OK ”按钮,得到分析结果。
3. 结果分析结果中表的含义与单因素方差分析相应的表的含义是类似的:(1) 第一张表提供了模型的一般信息;第二张表列举了作为分类变量的a 和b 的水平的信息;第三张参数信息表给出了标识变量P_i 的定义。
图10-2 多因素方差分析第1、2、3张表 其中,标识变量取值:,其他类似。
,其他,设计,,其他类似;,其他,地区,""⎩⎨⎧==⎩⎨⎧==01b 1P_601a 1P_2(2) 第四张表给出了方差分析模型,利用参数信息表中标识变量P_i 的定义可以推算出在各个因素不同水平下变量y 均值的信息:⎪⎪⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎧======+==+==+==++==+==+==++==+==+==++=3,4472.66672,4138.5-472.66671,45.80472.66673,3203472.66672,3138.5-203472.66671,35.80203472.66673,26667.4472.66672,2138.5-6667.4472.66671,25.806667.4472.66673,1116.6667472.66672,1138.5-116.6667472.66671,15.80116.6667472.6667y 设计地区设计地区设计地区设计地区设计地区设计地区设计地区设计地区设计地区设计地区设计地区设计地区的均值b a b a b a b a b a b a b a b a b a b a b a b a (3) 第五张拟合汇总表中给出变量y 的均值为534.4167,判定系数R 2为0.9220等,如图10-3。
图10-3 多因素方差分析第4、5张表(4) 在第六张方差分析表中,检验模型显著性的F 统计量为14.19,相应的p 值小于0.05 = α,所以拒绝a 和b 对分析变量y 无显著影响的假设,即模型是显著的。
在模型显著的情况下常需要进一步分析两个因素是否都有显著影响或者只有一个因素是显著的,这时就需要用到第七张表提供的信息。
在III 型检验表中,进一步将模型平方和分解为属于a 和b 的平方和。
在这里两个因素的p 值都小于0.05,说明了这两个因素对分析变量y 都有显著影响,如图10-4。
图10-4 多因素方差分析第6、7张表 (5) 第八张是模型的参数估计表(图10-5),表中给出了对各因素不同水平下的参数之差的估计值和检验结果。
图10-5 多因素方差分析第8张表结果表明,除a 因素中地区2与地区4的均值无显著差异,b 因素中设计1与设计3的均值无显著差异外,其余两个因素的各水平下的均值都有显著差异。
(6) 考察模型假定:在显示窗的底部有一个残差和预测值的散点图(如图10-6所示),可以像单因素分析一样考察残差分布的正态性假定。
图10-6 残差和预测值的散点图 二、用“分析家”作双因素方差分析【实验10-2】北京市房地产开发商想要了解本市商品房各类房型及户型在各地区的销售情况,搜集了房屋的销售量数据,如表10-2(sy10_2.xls )所示。
试用有交互作用的双因子方差分析检验地区与房型对房屋销售是否存在交互作用。
表10-2 各种房型的销售套数三室两厅 两室两厅 复式房型 其他 1月份652 521 67 486 朝阳区 2月份711 548 59 338 1月份481 521 50 391 海淀区 2月份509 425 55 348 1月份397 561 28 147 大兴区 2月份314 570 24 184 1月份157 138 8 96 通州区 2月份164 194 5 57 1月份217 449 5 147 其他 2月份 145 492 8 1081. 生成数据集将表10-2在Excel 中整理后导入成如图10-7左所示结构的数据集,存放在Mylib.sy10_2中,其中a 、b 和sl 分别表示地区、户型和销售量。
在“分析家”中打开数据集Mylib.sy10_2。
2. 方差分析(1) 选择菜单“Statistics (统计)”→“ANOV A (方差分析)”→“Factorial ANOV A (因素方差分析)”,打开“Factorial ANOV A ”对话框。
(2) 选中变量A 、B ,单击“Independent (自变量)”按钮,将其移到“Independent ”框中;选中变量SL ,单击按钮“Dependent (因变量)”,将其移到“Dependent ”框中,如图10-7右所示。
图10-7 数据集Mylib.sy10_2与变量选择(3) 考虑因素间的交互作用:单击“Model”按钮,打开“Factorial ANOV A Model”对话框。
单击“Standard Models”按钮,在弹出的菜单中选择“Effects up to 2-wav interactions”项,表示交互作用的a*b加入了模型效应栏,如图10-8左所示,单击“OK”按钮返回。
图10-8 选择模型与图形(4) 绘制各因素不同水平下均值差异的连线图:单击“Plots”按钮,在打开的“Factorial ANOV A:Plots”对话框中,选中“Plot dependent means for two-way effects(双因素效应的因变量均值连线图)”复选框;并选择“Height of standard error (se) bars”中的“2 se”,附加上以均值为中心的二倍标准差为长度的竖线图,如图10-8右所示,单击“OK”返回。
再次单击“OK”按钮,系统按要求进行方差分析计算,方差分析的结果如图10-9所示。
3. 结果分析显示的结果包含方差分析表和汇总信息。
输出的方差分析表显示双因素考虑交互作用的方差分析模型是显著的(F=62.36,p < 0.0001),最下面一张表给出两个因素和交互作用的检验结果。
由最后一列“Pr > F”的三个p 值可以看出因素A、B及因素A与B的交互作用(A*B)对指标y的影响是高度显著的。
图10-9 方差分析结果在分析家窗口的项目管理器中双击选项“Means Plot of y by a and b ”,得到双因素不同水平下因变量均值的连线图如图10-10所示。
在因素A 的5个水平位置上(朝阳区、大兴区、海淀区、其他、通州区)有5条竖线,对应于因素B 的四个水平(复式房型、两室两厅、其他和三室两厅)有4条不同颜色的连线。
每条连线与竖线的交点纵坐标是在两因素相应水平下因变量y 的均值。
每条竖线上还标出因变量y 的均值的二倍标准差的位置。
图10-10 双因素不同水平下因变量均值差异的连线图 从因素B 的四个水平对应的连线可以看出:复式房型的销售量最低,且与所在地区关系不大;两室两厅的销售量比较均衡,需求量较多;三室两厅与其它房型的销量则与所在地区密切相关,在朝阳区、海淀区的销量较高,在大兴、通州及其他地区的销量则较低。
从因素A (地区)来看,通州区各种房形的销量都较低。
从两室两厅的连线与其他三条连线的交叉可直观地看出因素A 与因素B 有交互作用。
在市区销量最好的房型为三室两厅,在郊区销量最好的房型是两室两厅。
三、用glm 过程进行双因素方差分析【实验10-3】编程对表10-2中数据进行有交互作用的双因子方差分析。
执行如下代码:proc glm data=mylib.sy10_2;class a b;model sl = a b a*b;run;程序运行主要结果同实验10-2。
10.4 上机演练【练习10-1】某家上市公司有若干下属子公司,公司主要经营三种业务。
公司总裁为了解下属公司的经营状况,从下属公司中随机抽出了四家公司,并调查了每家公司在这三种主营业务上的连续两个季度的利润率,调查结果如表10-3(lx10_1.xls)所示。
表10-3 四家子公司的主营业务利润率(%)公司1 公司2 公司3 公司4 主营业务1季度1 10.35 -2.89 -5.04 5.29季度2 4.47 0.30 2.61 -3.44 主营业务2季度1 11.25 4.85 1.82 9.76季度2 7.92 5.12 0.56 1.93 主营业务3季度1 -6.55 -9.06 -9.67 -2.81季度2 -4.32 -3.48 -12.43 -4.08 试进行用双因素方差分析并回答以下问题:(1) 各子公司的利润率是否有显著的差异?(2) 各主营业务的利润率是否有显著的差异?(3) 不同子公司在各主营业务上的利润率是否有所差别?10.5 实验报告请按练习内容写出包括如下内容的实验报告:一、实验目的;二、实验内容、程序及结果分析;三、实验体会(问题、评价、感想与建议等)。