当前位置:文档之家› SPSS软件的应用——多元统计分析

SPSS软件的应用——多元统计分析

多元统计分析学院:理学与信息科学学院专业班级:信息与计算科学 2012级01 班姓名:韩祖良(20125991)****:***2015 年6月1日作业1 方差分析三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表:1、方差分析的前提条件要求各总体服从正态分布,请给出正态分布的检验结果,另要求各总体方差齐性,给出方差齐性检验结果。

2、检验三组贫血患者的指标x1,x2间是否有显著差异,进行多元方差分析。

如果有显著差异,分析三组患者间x1指标是否有显著差异,x2指标是否有显著差异?3、最后进行两两比较,给出更具体的分析结果。

4. 画出三组患者x1,x2两指标的均值图。

答:1.将所需分析数据输入到SPSS中,首先判断各总体是否服从正态分布:对文件进行拆分:数据→拆分文件→按组组织输出→确定。

然后进行正态性检验:文件→描述统计→探索,在绘制对话框中,选择按因子水平分组和带检验的正态图,最后单击确定按钮。

最后得出结果如图(1),(2),(3)所示:表(1)由表(1)可以看出,A组的X1指标的Sig=0.907,X2的Sig=0.914,在检验标准为0.05的条件下,接受H0,拒绝H1,故得A组服从正态分布。

表(2)由表(2)可以看出,B组的X1指标的Sig=0.406,X2的Sig=0.765,在检验标准为0.05的条件下,接受H0,拒绝H1,故得B组服从正态分布。

表(3)由表(3)可以看出,C组的X1指标的Sig=0.337,X2的Sig=0.839,在检验标准为0.05的条件下,接受H0,拒绝H1,故得C组服从正态分布。

再检验各总体是否满足方差齐性:首先取消文件的拆分,对所有个案进行分析。

然后进行方差齐性检验:分析→一般线性模型→多变量,在选项对话框中,选择方差齐性检验,所得结果如下:表(4)上表是对协方差阵相等的检验,由Sig=0.670>0.05,故在显著性水平为0.05的条件下,接受H0,拒绝H1,即观测到的因变量的协方差矩阵在所有组中均相等,可得三组符合方差齐性。

2、多元方差分析:分析→一般线性模型→多变量,在两两比较对话框中进行两两比较检验,假定方差齐性(选择LSD(L))→继续,最后单击确定。

表(5)上表为多变量检查表,该表给出了几个统计量,从表中可以看出,Sig的值均为0.01,小于显著性水平0.05,故拒绝H0,接受H1。

即三组不同患者的血红蛋白浓度和红细胞计数这两个指标间均存在显著差异。

下面分别分析三组患者间X1指标是否有显著差异,X2指标是否有显著差异:得到结果如表(6)所示。

表(6)由上表看出,三组患者之间X1指标的F=7.302,Sig=0.03,在检验水平为0.05的条件下,接受H0,拒绝H1,故可以认为这三组患者间的X1指标无差异;X2指标的F=3.915,Sig=0.032,在检验标准为0.05条件下,差异有统计学意义,拒绝H0,接受H1,这说明这三组血红蛋白浓度和红细胞计数这两个指标上均有显著差异。

3、对各组进行两两比较:通过软件操作得到如表(7)的比较结果:表(7)从表中数据可以看出:①在X1(血红浓度蛋白)这个指标上,A组和B组、B组和C组的显著性水平均小于0.05,故拒绝H0,接受H1。

即A组和B组、B组和C组在血红蛋白浓度这个指标上有显著性差异,且B组的血红蛋白浓度显著高于A、C两组。

②在X2(红细胞计数)这个指标上,A组和C组的显著性水平为0.014<0.05,故拒绝原假设,即A组和C组在血红细胞计数指标上有显著差异,且C组的红细胞计数远远高于A组。

4、画出三组患者X1,X2两指标的均值图:在绘制对话框中,添加水平轴gr,得到如下结果:X1的指标图:图(1)由上图可以看出,A组和B组、B组和C组的血红蛋白浓度有显著差异,而A组与C组的血红蛋白浓度大致在同一水平线上,无显著差别。

X2的指标图:图(2)由上图可以看出A组与C组的红细胞计数存在显著差异,A组和B组、B组和C组的差异相对较小。

作业2 聚类分析作业16种饮料的热量、咖啡因、钠及价格四种指标的数据见下表:要求:1.用系统聚类法聚类,聚类方法采用组间联结法,距离采用平方欧式距离计算,不对数据进行标准化,给出树状图和冰柱图,给出聚合系数随分类数变化曲线图,并分析聚成几类比较合适,写出每一类包含的饮料编号。

2.用快速聚类法给出聚类结果并对结果进行分析,聚类类数和系统聚类法相同。

答:1、系统聚类法:在数据编辑窗口的主菜单中选择分析→分类→系统聚类,在弹出的系统聚类对话框中,将饮料编号选入标注个案中,将其他变量选入变量框中,在分群单选框中选择个案,表示的是进行Q型聚类。

在输出复选框中选择统计量和图。

在统计量对话框中选择合并进程表和相似性矩阵。

在绘制对话框下,选择树状图和冰柱图(方向垂直),在方法对话框中,聚类方法选择组间联接,区间为平方Eudidean距离,标准化为全局从0到1,最后得到结果如下:平均联结(组之间):聚类表阶群集组合系数首次出现阶群集下一阶群集 1 群集 2 群集 1 群集 21 5 15 13.130 0 0 72 4 13 25.970 0 0 33 24 36.485 0 2 84 6 9 69.130 0 0 105 1 10 102.630 0 0 156 8 11 150.330 0 0 87 5 16 198.375 1 0 118 2 8 319.778 3 6 129 12 14 322.540 0 0 1210 3 6 458.795 0 4 1311 5 7 1006.863 7 0 1312 2 12 1435.076 8 9 1413 3 5 1755.654 10 11 1414 2 3 6287.175 12 13 1515 1 2 19406.6845 14 0树状图:* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *Dendrogram using Average Linkage (Between Groups)Rescaled Distance Cluster CombineC A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+5 5 -+15 15 -+-+16 16 -+ +-+7 7 ---+ +-----------+6 6 -+ | |9 9 -+---+ |3 3 -+ +-------------------------------+4 4 -+ | | 13 13 -+ | | 2 2 -+-+ | | 8 8 -+ +-------------+ |11 11 -+ | |12 12 -+-+ | 14 14 -+ | 1 1 -+-----------------------------------------------+ 10 10 -+聚合系数图:由聚合系数图趋于平缓,所以聚合成三类比较合适。

冰柱图:根据冰柱图聚成三类比较合适。

第一类饮料编号7,16,15,5,9,6,3第二类饮料编号14,12,11,8,13,4,2第三类10,12、快速聚类法:在数据编辑窗口的主菜单中选择分析→分类→K-均值聚类,在弹出的K-均值聚类分析对话框中,将饮料标号选入标注个案中,将其他变量选入变量框中,在选项对话框中选择初始聚类中心和每个个案的聚类信息。

在保存对话框中选择聚类成员和与聚类中心的距离,并保存在变量视图和数据视图中。

对输出结果进行分析:表(1)初始聚类中心聚类1 2 3热量207.20 .00 107.00咖啡因 3.30 4.20 .00钠15.50 13.10 8.30价格 2.80 2.204.20根据表(3),可以将饮料分为三类第一类饮料编号1,10第二类饮料编号2,4,8,11,12,13,14 第三类饮料编号3,5,6,7,9,15,16最终聚类中心间的距离聚类 1 2 31 169.431 95.8712 169.431 73.6443 95.871 73.644每个聚类中的案例数聚类 1 2.0002 7.0003 7.000有效16.000缺失.000由表(4)表示最终聚类中心,由此可以看出各分类的成分差异,第①类的热量最高,咖啡因最少,钠含量高;第②类热量最低,但咖啡因含量偏高,总体价格便宜;第③类各成分也适中,价格也适中。

作业3判别分析作业----中小企业的破产模型为研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)进行判别分析,要求:1、给出判别变量的显著性检验结果(方差分析表),以及协方差矩阵是否相等的Box’M检验结果。

2、给出费歇判别函数的表达式及对待判样品的费歇判别结果3、给出贝叶斯判别函数的表达式及对待判样品的贝叶斯判别结果4、给出分类结果矩阵,包括交叉验证的结果5、在第1问中,如果存在不显著的变量,用逐步判别分析法再次进行判别,写出判别函数的表达式,并说明判别效果是否有显著改善?(对案例进行正确分类的百分比是否有提高?)答:1、表(1)组均值的均等性的检验Wilks 的LambdaF df1 df2 Sig.X1 .681 16.902 1 36 .000X2 .949 1.951 1 36 .171X3 .627 21.450 1 36 .000X4 .999 .030 1 36 .864表(1)是对各组均值是否相等的检验,由该表可以看出,在0.05的显著性水平下,我们不能拒绝收益性指标和生产效率指标在各组的均值相等的假设,即认为除了这两者外,其余两个指标在各组的均值是有显著差异的。

因此剔除收益性指标和生产效率指标这两个变量。

协方差矩阵的均等性的箱式检验:表(2)对数行列式X 秩对数行列式1 4 -13.5962 4 -9.822汇聚的组内4 -10.383打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。

表(3)检验结果箱的 M 40.184F 近似。

3.523 df1 10df25562.171 Sig. .000对相等总体协方差矩阵的零假设进行检验。

上面两个表是对各组协方差矩阵是否相等的Box的M检验,表(2)反映协方差矩阵的秩和行列式的对数值。

由行列式的值可以看出,协方差矩阵不是病态矩阵,表(3)是对个总体协方差阵是否相等的统计检验,由F值及其显著水平,在0.05的显著性水平下拒绝H0,即认为各总体协方差阵不相等。

相关主题