当前位置：文档之家› 数据分析作业

数据分析作业

一、第4题方差分析1.1 建立数据文件由题意可知，在同一浓度和温度下各做两次实验，将每一次的实验结果看作一个样本量，共342=24⨯⨯个样本量。

(1) 在“变量视图”下，名称分别输入“factor1”、“factor1”、“result”，类型设为“数值”，小数均为“0”，标签分别为“浓度”、“温度”、“收率”，factor1的值“1=A1，2=A2，3=A3”，factor2的值“1=B1，2=B2，3=B3，4=B4”，对齐选择“居中”。

(2) 在“数据视图”下，根据表中数据输入对应的数据。

数据文件如图1所示，其中“factor1”表示浓度，“factor2”表示温度，“result”表示收率。

三种不同浓度分别用1、2、3表示，四种不同温度分别用1、2、3、4表示。

图1.1 SPSS数据文件格式1.2 基本思路，利用单因素方差分析，对(1) 设“浓度对收率的影响不显著”为零假设H该假设进行判定。

，则可(2) 设“它们间的交互作用对收率没有显著影响”分别依次为假设H是否成立。

以通过多因素方差分析工具，利用得出的结果即能证明假设H1.3 操作步骤(1) 单因素的方差分析操作①分析—比较均值—单因素；因变量列表：收率；因子：浓度；②两两比较：选中“LSD”复选框，定义用LSD法进行多重比较检验；显著性水平：0.05，单击“继续”；③选项：选中“方差齐次性检验”，单击“继续”；④单击“确定”。

(2) 有交互作用的两因素方差分析操作①分析—一般线性模型—单变量；因变量：收率；固定因子：温度、浓度；②绘制。

水平轴：factor1，选择浓度作为均值曲线的横坐标，单图：factor2，选择温度作为曲线的分组变量；单击添加—继续。

③选项。

显示均值：factor1，定义估计因素1的均值；显著性水平：0.05；单击“继续”；④单击“确定”。

1.4 结果分析(1) “浓度对收率有无显著影响”结果分析执行上述操作后，生成下表。

表1.1 方差齐性检验表1中Levene统计量的取值为0.352，Sig.的值为0.708，大于0.05，所以认为各组的方差齐次。

表1.2 单因素方差分析从表2可以看出，观测变量收率的总离差平方和为119.58；如果仅考虑浓度单因素的影响，则收率总变差中，浓度可解释的变差为39.083，抽样误差引起的变差为80.875，它们的方差分别为19.542、3.851，相除所得的F统计量的观测值为5.074，对应的概率P值为0.016，小于显著性水平0.05，则应拒绝原假设，认为不同浓度对收率产生了显著影响，它对收率的影响效应不全为0。

表1.3 多重比较表3是各种浓度之间显著性差异两两比较的结果。

从表3可以看出，浓度A2同其他任意两种浓度比较，其Sig.值都小于0.05，所以认为浓度A2与其他浓度在收率上有显著差异。

而其他两种浓度，可以认为其浓度的不同对收率的影响不大。

(2) “浓度、温度及其相互作用对收率的影响”结果分析执行上述操作后，生成下表。

表1.4 两因素方差分析表表4为两因素方差分析表，表中第一行“校正模型”代表对方差分析模型的检验，Sig值为0.23>0.05，说明模型不适用。

观测变量的总方差119.958，它被分解为五个部分，分别由浓度不同引起的变差39.083，由温度差异引起的变差13.792，由浓度和温度的交互作用引起的变差17.583，由随机因素引起的变差为49.500。

这些变差除以各自的自由度后，得到各自的均方，并可计算出F统计量的观测值和对应的概率p值。

Ffactor1、Ffactor2、Ffactor1，factor2的概率p值分别为0、0.382、0.648。

由于Ffactor1的概率p值小于显著性水平0.05，则应拒绝零假设，认为不同浓度对收率有显著影响。

而Ffactor2、Ffactor1，factor2的概率p值均大于0.05，因此不应拒绝原假设，可以认为不同温度对收率的影响没有显著差异，浓度和温度的交互作用对收率的影响也不显著。

表5代表浓度在各水平下的均值、标准误均值及95%的置信区间。

表1.5 浓度的均值图1.2 两因素交互影响的均值图上图为两因素交互影响的均值图，横坐标代表浓度，纵坐标代表收率均值，且按温度绘制不同的折线。

从图形上看，这些折线近似平行，可以认为两因素的交互作用不显著。

1.5 结论综上，不同浓度对收率有显著影响，而不同温度对收率的影响没有显著差异，浓度和温度的交互作用对收率的影响也不显著。

二、第9题回归分析42.1 基本思路本例中被解释变量为课题总数X5，解释变量为投入人年数X2、投入科研事业费X4、论文数X7、获奖数X8。

建立多元回归模型，利用回归方程的统计检验对建立的多元回归模型进行检验，首先对解释变量采取强行进入策略，分析他们之间的线性关系以及多重共线性；然后对解释变量采用向前筛选策略，做方差齐性和残差的自相关性检验。

2.2 操作步骤(1) 分析—回归—线性；因变量：课题总数X5；自变量：投入人年数X2、投入科研事业费X4、论文数X7、获奖数X8；方法：进入；(2) 统计量：选中回归系数“估计”、模型拟合度、共线性诊断、残差Durbin-Watson；(3) 单击“确定”，生成表2.1、表2.2、表2.3、表2.4；(4) 同步骤(1)；(5) 点击“绘制”，X坐标为标准化预测值ZPRED，Y坐标为DRESID，在标准化残差图中选“正态概率图”，点击“继续”按钮，进行残差均值和方差齐性检验；点击“保存”中选择保存标准化预测值、标准化残差；(6) 菜单—分析—相关—双变量，在变量框选择标准化残差、标准化预测值—相关系数—Spearman；(7) 点击“确定”按钮。

2.3 结果分析表2.1 模型汇总b由上表可看出，该方程中有多个解释变量，依次应参考调整的判断系数。

由于调整的判定系数0.927较接近于1，因此认为拟合优度较高，被解释变量可以被模型解释的部分较多，未能被解释的部分较少。

并且Durbin-Watson为1.776在1.5和2.5之间，因而可以用线性回归模型来拟合数据。

表2.2 Anova a上表是立项课题数多元线性回归分析的结果。

可以看出，被解释变量的总离差平方和，回归平方和及均方分别为21076810.000，19741985.311和1334824.689，检验统计量的观测值为96.135，对应的概率p值近似为0.依据该表可进行回归方程的显著性检验，若显著性水平α为0.05，由于概率p值小于α，应拒绝回归方程显著性检验的假设，认为各回归系数不同时为0，被解释变量与解释变量全体的线性关系是显著的。

表2.3 系数a依据表2.3可以进行回归系数显著性检验，从表中可以看到，若显著性水平α为0.05，除了投入人年数外，其余变量的回归系数显著性t检验的概率p值均大于0.05，因此不应拒绝零假设，故认为他们与被解释变量的线性关系是不显著的，不应该保留在方程中。

表2.4 共线性诊断a.273000100012.3693.401.54.00.13.00.003.2773.925.14.00.09.00.544.0677.987.31.07.59.13.415.01318.195.00.93.17.87.04a. 因变量: 课题总数依据表2.4可以进行共线性检测。

从方差比来看，第5个特征根既能解释投入人年数方差的93%，也可以解释论文数方差的87%，因此有理由认为这些变量之间是存在多重共线性的；再从条件指数来看，第5个条件指数大于10，说明变量间确实存在多重共线性。

(1) (2)(3)图2.3 课题总数表2.5 相关系数从表2.5中对标准化残差进行检验，Durbin-Watson（1.747）在1.5和2.5之间，因而残差序列相对独立。

从图(1)中看到数据点围绕基准线还存在一定的规律行，可利用非参数检验方法对标准化残差再进行检验。

从图(2)中可以看出，随着标准化预测值的变化，残差点在0线周围随机分布，但残差的等方差性并不完全满足，方差似乎有增大的趋势。

从表2.5中可以看到，残差与预测值的spearman等级相关系数为-0.176，且检验并不显著，因此认为异方差现象并不明显。

2.4 结论根据以上分析结果，可知影响高校课题总数的因素，如投入人年数、投入科研事业费、论文数、获奖数等因素间存在多重共线性。

三、第12题聚类分析23.1 求解思路因为要在相似变量中选择少数具有代表性的变量参与其他分析，因此选用SPSS层次聚类的R型聚类进行分析。

个体距离采用欧式距离，类间距离采用平均组间链锁距离，并输出树状图、冰柱图。

3.2 操作步骤(1) 选择菜单分析—分类—系统聚类；(2) 将8个变量添加到变量框中，在聚类方法中选择变量，采用R型聚类；(3) 在“统计量”对话框中，选择合并进程表和相似性矩阵，并在聚类成员中选择方案范围为最小聚类数2，最大聚类数4；(4) 在“绘制”对话框中勾选上“树状图”；(5) 在“方法”对话框中聚类方法选择“组间联接，区间采用Euclidean距离；(6) 单击“确定”，进行层次聚类分析。

3.3 结果分析表3.1 群集聚类表表3.2 群集成员表由表3.1可看出，第一步将2和4合并为一组，此组将在第三步中出现；第二步将3和5合并为一组，此组将在第四步中出现；其他同理；最后在第七步，将所有组合并为一组。

由表3.2可看出，分成4组的话，第一组为意大利；第二组为韩国、法国、美国；第三组为罗马尼亚、中国、俄罗斯；第四组为热心观众。

其他群集同理。

图3.1 冰柱图由冰柱图可看出，当聚成7类时，法国和韩国为一类，其他裁判各为一类；当聚成6类时，法国韩国为一类，中国和罗马尼亚为一类，其他裁判各为一类；当聚成5类时，美国、法国、韩国为一类，中国和罗马尼亚为一类，其他裁判各为一类；当聚成4类时，美国、法国、韩国为一类，俄罗斯、罗马尼亚、中国为一类，意大利和热心观众各为一类；当聚成3类时，热心观众为一类，美国、法国、韩国为一类，其他国家为一类；当聚成两类时，热心观众为一类，其他国家为一类。

图3.2 树状图由树状图可看出：第一步（2,4）以及（3,5）各合并为一组；第二步（2,4）和6合并为一组，（3,5）和7合并为一组；第三步（3,5,7）和1合并为一组；第四步（2,4,6）和（1,3,5,7）合并为一组；第五步，所有裁判合并为一组。

3.4 结论由以上结果可看出，若将裁判分成4组，意大利裁判独自分成一组，说明了其打分标准与其他裁判存在很大的差异性；热心观众也是独自分成一组，其打分标准也与其他裁判存在很大的差异性；韩国、美国、法国分成一组，说明这三个国家的裁判打分具有相似性；罗马尼亚、中国、俄罗斯分成一组，说明这三个国家的裁判打分也具有相似性。

e商务文档

数据分析作业

相关文档推荐：