数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。
(25分)解:1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。
尝试多种模型后采用曲线估计,得出表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。
上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。
x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(33由图可知,他们之间呈正线性关系所以可以采用如下的线性回归方法分析。
2.线性回归先用强行进入的方式建立如下线性方程设Y=β0+β1*(Xi1)+β2*Xi2+β3*X+εi i=1.2 (24)3i其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差R值为0.952,大于0.8,表示两变量间有较强的线性关系。
且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。
建立总体性的假设检验提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零得如下方差分析表上表是方差分析SAS输出结果。
由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。
做独立性的假设检验得出参数估计表2=β3=0:H1:β1、β2、β3不全为零由表知,β1=33.014,β1=0.072,β2=0.169,β3=0.178,以β1=0.072为例,表示当成人识字率(x2),一岁儿童疫苗接种率(x3)不变时,,人均GDP(x1)每增加一个单位,平均寿命(y)就增加0.072个单位。
基于以上结果得出年平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有显著性的线性关系有回归方程Y=33.014+0.072*X1+ 0.169*X2+ 0.178*X3β1、β2、β3对应得p值分别为0.000,0.000,0.002,对应的概率p值都小于0.05,表示它们的单独性的假设检验没通过,即该模型是最优的,所以不用采用逐步回归的方式分析。
对原始数据进行残差分析未标准化的残差RES_1-7.53964-3.57019-3.42221-2.89835-2.30455-2.17263-2.05862-1.37142-1.17048-.43890-.17260-.03190.946551.428961.612521.615902.101393.018563.025713.498084.607375.29645以X1为横轴,RES_1为纵轴画出如下散点图由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。
同理可以得出RES_1与X2、X3的散点图,由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。
由上图可以看出,该残差图中各点分布近似长条矩形,所以模型拟合较好,即该线性回归模型比较合理。
误差项的正态性检验数据(RES_1)标准化残差ZRES_1由图可以看出,散点图近似的在一条直线附近,则可以认为数据来自正太分布总体二、诊断发现运营不良的金融企业是审计核查的一项重要功能,审计核查的分类失败会导致灾难性的后果。
下表列出了66家公司的部分运营财务比率,其中33家在2年后破产Y=0,另外33家在同期保持偿付能力(Y=1)。
请用变量X1(未分配利润/总资产),X2(税前利润/总资产)和X3(销售额/总资产)拟合一个Logistic 回归模型,并根据模型给出实际意义的分析,数据见财务比率.sav(25分)。
解:整体性的假设检验 提出假设性检验H0:回归系数i β=0(i=1,2,3),H1:不都为0 建立logistic 模型:)}0{1}0{ln(=-=Y p Y p =3213210X X X ββββ+++分类表a,b已观测 已预测Y百分比校正1步骤 0Y0 0 33 .0 10 33100.0上表显示了logistic分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型均预测为错误,正确率为0%,另外33家在同期保持偿付能力(Y=1),正确率为100%,所以模型总的预测正确率为50%。
由上表得知,如果变量X1(未分配利润/总资产),X2(税前利润/总资产)进入方程,概率p值都为0.000,小于显著性水平0.05,本应该是拒绝原假设,X1,X2是可以进入方程的。
而X3(销售额/总资产)进入方程,概率p值为0.094,大于显著性水平0.05,本应该是接受原假设,X3(销售额/总资产)是不能进入方程的,但这里的解释变量的筛选策略为enter,是强行进入方程的。
用强行全部进入-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是5.791,比较小,表示模型的拟合优度还可以,而且Nagelkerke R 方为0.969,与0相比还是比较大的,所以拟合度比较高上表显示了logistic 分析的初始阶段方程中只有常数项时的错判矩阵,其中33家在2年后破产(y=0),但模型预测出了32家,正确率为97%,另外33家在同期保持偿付能力(Y=1),模型预测出了32家,正确率为97%,所以模型总的预测正确率为97%,较之前的有很大的提高。
上表给出了方程中变量的系数。
由表得出160.5,180.0,336.0,334.10,3210===-=ββββ以1β为例,表示控制变量X2(税前利润/总资产)和X3(销售额/总资产)不变,X1(未分配利润/总资产)每增加一个单位,)}0{1}0{ln(=-=Y p Y p 增加0.336分单位模型方程:)}0{1}0{ln(=-=Y p Y p = 4.160X3X2180.00.336X1-10.334-++Logistic 回归方程: P{Y=0}=)4.160X3X2180.00.336X1--10.334ex p(1)4.160X3X2180.00.336X1--10.334ex p(+++++由表得知,X1到X3对应的概率p 值都大于0.05,接受原假设,表示X1到X3对Y 都没有显著性影响。
所以用下述方法改进。
用向前步进(wald )-2倍的对数似然函数值越小表示模型的拟合优度越高,这里的值是9.472,比之前的5.791要大,表示拟合优度降低,表示用向前的方法并没有比进入的方法好而且从上表知道总的预测百分比为97%,没有变化,所以这一步较之前的强行进入的方法没什么优化,也就是没什么必要用向前的方法做。
所以有最优的一个Logistic 回归模型为 模型方程:)}0{1}0{ln(=-=Y p Y p = 4.160X3X2180.00.336X1-10.334-++Logistic 回归方程: P{Y=0}=)4.160X3X2180.00.336X1--10.334ex p(1)4.160X3X2180.00.336X1--10.334ex p(+++++三、为了研究几个省市的科技创新力问题,现在取了2005年8个省得15个科技指标数据,试用因子分析方法来分析一个省得科技创新能力主要受到哪些潜在因素的影响。
数据见8个省市的科技指标数据.sav ,其中各个指标的解释如下:(25分)X1:每百万人科技活动人员数(人/万人)X2: 从事科技活动人员中科学技术、工程师所占比重(%) X3 :R&D 人员占科技胡哦哦的呢人员的比重(%) X4:大专以上学历人口数占总人口数的比例(%) X5 :地方财政科技拨款占地方财政支出的比重(%) X6:R&D 经费占GDP 比重(%)X7:R&D 经费中挤出研究所占比例(%) X8:人均GDP(元/人)X9:高科技产品出口额占商品出口额的比重(%) X10: 规模以上产业增加值中高技术产业份额(%)X11 :万名科技人员被国际三大检索工具收录的论文数(篇/百万人) X12 :每百万人口发明专利的授权量(件/百万人)X13:发明专利申请授权量占专利申请授权量的比重(%)X14 :万人技术市场成交合同金额(万元/万人)X15 :财政性教育经费支出占GDP比重(%)解:所占的比例相差很大,取值范围差异大,所以不大适合做协方差的矩阵分析。
所以应该采用相关矩阵的方法分析如下:上表是15个变量间的相关系数矩阵,可以看出相关系数都比较高,比如X1(每百万人科技活动人员数(人/万人))和X2(从事科技活动人员中科学技术、工程师所占比重(%))的相关系数0.859,接近1,呈较强的的线性相关性,所以能够从中提取公因子,适合做因子分析由表可知,前两个因子的特征根值很高,累积方差贡献率为分别为85.608(>=80%即可),对解释原有变量的贡献很大,第3个以后的因子特征根值都很小,对解释原有变量的贡献很校,可以忽略,因此提取第一和第二个因子比较合适,基本能表达所有信息。
有特征值1λ=11.136 2λ=1.706上表是因子载荷矩阵A以X1,X5,X10为例,有因子分析模型1X =0.9731F -0.1582F +1ε;5X =0.4821F +0.4972F +2ε;10X =0.6111F +0.6372F +3ε;因为5X ,和10X ,变量在1F ,2F 上都有较大的相差不大的载荷,几乎都受它们的共同影响,因子间的差异性没有表示出来,不方便进行因子命名,所以要进行正交旋转(拉大因子间的差异性)对A 做方差最大的正交旋转,得到正交旋转矩阵]926.0379.0379.0926.0[-=Γ上表为旋转后的因子载荷矩阵以X1,X5,X10为例,有因子分析模型1X =0.9601F -0.2232F +1ε;5X =0.2581F +0.6422F +2ε; 10X =0.3251F +0.8212F +3ε;在第一公因子1F 对应的列中,正载荷主要是X1,X2,X3,X4,X6,X7,X11,X12,X13,X14,X15,其载荷分别是0.960……,所以1F 可视为高科技因子;在第二公共因子2F 对应的列中,正载荷主要是,X5,X10其载荷是0.642,0.821,所以2F可视为非该科技因子;有公共因子1F,2F的得分矩阵如下:F1的得分:-0.90012-0.79770-0.47026-0.45750-0.003730.128880.255142.24528得分越高表示科技越高F2的得分-1.31413-1.28805-0.53602-0.026410.332790.397341.000451.43403得分越低表示分高科技成分越高四、湖南省某白酒厂开发了一种新的白酒,想在本省上市,考虑到公司的现状:生产能力小,营销实力不强,在全省范围内没有系统的营销网络。