回归分析习题1通常用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值。
对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。
这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的。
而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据。
(数据集wyzl4_2中存放了从某市随机抽取的20个商业中心有关指标的数据,利用该数据完成下列工作(1)研究变量间的相关程度。
(其余6个变量与“单位面积年营业额”间的相关程度,其余6个变量之间的相关程度);(2)由(1)的结论建立“单位面积年营业额”与和其线性相关程度最高的变量的一元线性回归方程;(3)采用逐步回归方法建立“单位面积年营业额”的预测公式。
表20个商业中心有关指标的数据2.我国从1982~2001年间的20年的财政收入(Y)和国内生产总值(X)的数据存放在数据集wyz4_4_7.中。
试分别采用指数回归、对数回归、幂函数回归和多项式回归给出回归方程,并选择最佳回归方程。
1.解:(1)变量间的相关性分析利用SPSS软件构造所有变量的散点图矩阵和相关矩阵,结果见图1和表1从散点图矩阵直观可以看出Y “单位面积年营业额”与x2“日人流量(万人) ”和x3“居民年消费额(万元) ”线性关系较密切。
x2“日人流量 (万人) ”与x6 “对商场商品丰富程度满意度” 线性关系较密切从表1得)3,(x y ρ=0.795**,)2,(x y ρ=0.790**,)6,(x y ρ=.0 .697**,说明 Y “单位面积年营业额”与x3“居民年消费额(万元) ”,x2“日人流量 (万人) ”,x6 “对商场商品丰富程度满意度”及x5 “对商场设施满意度”在0 .01 水平(双侧)上显著相关线性关。
可以考虑采用多元线性回归模型来建立“单位面积年营业额”的预测公式。
图1散点图矩阵单位面积 年营业额 (万元/m2) 每小时机 动车流量 (万辆) 日人流量 (万人) 居民年 消费额 (万元) 对商场 环境 满意度 对商场 设施 满意度 对商场商品丰富程 度满意度单位面积 年营业额 (万元/m2)Pearson 相关性1 .413 .790** .795** .341 .450* .697** 显著性(双侧) .071 .000 .000 .141 .046 .001 N2020 20 20 202020 每小时机动车流量(万辆) Pearson 相关性.413 1 .751** -.129 .664** .424 .774** 显著性(双侧) .071 .000 .588 .001 .062 .000 N2020 20 20 202020 日人流量(万人) Pearson 相关性.790** .751**1.273.594** .279.983**(2)建立Y “单位面积年营业额”与“居民年消费额”的一元线性回归方程 设 ⎩⎨⎧++=),0(~2310σεεββN x y 利用SPSS 软件的线性回归分析的模块进行分析,结果见表2~表6和图2~图3由最小二乘估计得到一元线性回归方程(见表4)Y (单位面积年营业额)=0.928+0.877x3(居民年消费额)由回归方程的显著性检验的p 值Sig.= .000,知回归方程在α=0.01的水平上通过检验,即Y 与x3的线性关系是显著的(见表3方差分析表)由常量β0的t 检验的p 值Sig.=0.005<0.01知回归方程的常数项不为零。
拟合有常数 项的回归方程是合适的 (见表4 系数表)由方程的拟合优度(可决系数)R 2=0.631,知方程的拟合优度(可决系数)还不够高,即方程有改进的余地,还可以引入有关的变量 。
(见表1)对残差作Shapiro-Wilk 正态性检验,p 值Sig.=0.538>0.05(见表5)知随机误差项εi服从正态分布的假定满足。
作回归标准化残差的标准P-P 图(见图2),进一步验证了随机误差项εi服从正态分布的假定满足对残差序列作D-W 检验,检验统计量Durbin-Watson=2.125知εεεn ,,,21Λ之间存在 一定的负自相关:εεεn ,,,21Λ相互独立的假定不一定满足(见表2)以标准化的残差e t 为纵坐标,而以标准化的预测值y i ∧为横坐标做残差的散点图(见图3)。
图中显示散点随机地分布在–2到+2的带子里,可以认为线性回归模型的等方差假定成立 。
结论:(1)一元线性回归方程Y (单位面积年营业额)=0.928+0.877x3(居民年消费额)在α=0.01的水平上通过检验,拟合优度为0.631,方程有改进的余地,还可以引入有关的变量 。
(2)误差项正态分布的假设和和误差项的等方差假设均成立,但误差项的独立性假设不满足。
表3 方差分析表Anova b模型 平方和df均方 F Sig. 1回归 8.125 1 8.125 30.824.000a残差 4.745 18 .264总计12.87019a. 预测变量: (常量), 居民年消费额(万元)。
b. 因变量: 单位面积年营业额(万元/m2)表4系数a模型 非标准化系数标准系数 t Sig.B 标准 误差试用版1(常量).928.2883.220.005居民年消费额(万元).887 .160 .795 5.552 .000 a. 因变量: 单位面积年营业额(万元/m2)表5 残差的正态性检验Tests of NormalityKolmogorov-Smirnov a Shapiro-WilkStatistic df Sig. Statistic df Sig. Standardized Residual .090 20 .200*.960 20 .538 a. Lilliefors Significance Correction*. This is a lower bound of the true significance.图2 回归标准化残差的标准P-P图图3 标准化残差图 残差统计量a极小值 极大值 均值 标准 偏差N预测值 1.4244 4.0049 2.3950 .65393 20 残差 -.89496 .76957 .00000 .49972 20 标准 预测值 -1.484 2.462 .000 1.000 20 标准 残差-1.7431.499.000.97320a. 因变量: 单位面积年营业额(万元/m2)(3)采用逐步回归方法建立“单位面积年营业额”的预测公式。
解 设y 与x1,x2,…,x8满足⎩⎨⎧++++=),0(~288110σεβββN εx x y Λ 规定:进入方程的变量的显著性水平为0.05,从方程中剔出变量的显著性水平为0.10,(见表7)逐步回归的步骤:(见表10)第一步引入变量x3居民年消费额(万元)得到一元线性回归方程Y (单位面积年营业额)=0.928+0.877x3(居民年消费额),第二步引入变量x2日人流量(万人)得到线性回归方程Y (单位面积年营业额)=-0.117+0.698x3(居民年消费额) +0.317x2(日人流量(万人)), 第三步引入变量x4对商场环境满意度,所得线性回归方程为:Y (单位面积年营业额)=-.297+0.723x3(居民年消费额)+0.291 x2 (日人流量(万人))+0.037 x4(对商场环境满意度)以上3方程在显著性水平为0.05上均通过检验(见表9)。
第3个方程的回归系数(包括常数项)t 检验的p 值0.010,0.000,0.000,0.034,在显著性水平为0.05上均通过检验(见表10)。
三个方程的修正R 方值逐步增大0.611<0.985<.988,故第3个方程为最优的(见表8)对第3个方程的自变量作共线性诊断(见表10):回归方程第i 个回归系数的方差膨胀因子VIF 分别1.235、1.885、1.767,说明方程中的3个回归变量不存在共线性,对残差序列作D-W 检验,检验统计量Durbin-Watson=2.574> 2知εεεn ,,,21Λ之间存在一定的负自相关:εεεn ,,,21Λ相互独立的假定不一定满足(见表8)对残差作Shapiro-Wilk 正态性检验,p 值Sig.= =0 <0.01(见表15)知随机误差项εi不服从正态分布。
作回归标准化残差的标准P-P 图(见图3),进一步验证了随机误差项εi不服从正态分布。
以标准化的残差e t 为纵坐标,而以标准化的预测值y i ∧为横坐标做残差的散点图(见图5)。
图中显示散点随机地分布在–2到+2的带子里(除一个点),可以认为线性回归模型的等方差假定成立 。
结论:(1)“单位面积年营业额”的预测公式为:Y (单位面积年营业额)=-.297+0.723x3(居民年消费额)+0.291 x2 (日人流量(万人))+0.037 x4(对商场环境满意度)方程在显著性水平为0.05上通过检验,调整的R 方值=0.988,(2)模型的假定误差项的正态性和不相关性存在问题,估计方法有待改进。
系数a模型共线性统计量容差VIF1 居民年消费额(万元) 1.000 1.0002 居民年消费额(万元).926 1.080日人流量(万人).926 1.080 3 居民年消费额(万元).810 1.235日人流量(万人).530 1.885Tests of NormalityKolmogorov-Smirnov a Shapiro-WilkStatistic df Sig. Statistic df Sig. Standardized Residual .172 20 .121 .775 20 .000 a. Lilliefors Significance Correction图4 回归标准化残差的标准P-P图图5 标准化残差图2.我国从1982~2001年间的20年的财政收入(Y)和国内生产总值(X)的数据存放在数据集wyz4_4_7.中。
试分别采用指数回归、对数回归、幂函数回归和多项式回归给出回归方程,并选择最佳回归方程。
解:(1)利用SPSS软件作Y与X的散点图由散点图可以看出可以利用指数(Exponential )回归 y = a e x b 对数(Logarithmic )回归 y = a +b x ln 幂函数(Power )回归 y = a x b二次曲线(Quadratic ) y =x b x b b 2210++ 三次曲线(Cubic ) y =x b x b x b b 332210+++ 作曲线拟合(2)利用SPSS 软件拟合结果指数(Exponential )回归 y = e x 00002428.095.1562 对数(Logarithmic )回归 y = -34350.518 + 3913.184x ln 幂函数(Power )回归 y = 1.384x 785.0二次曲线(Quadratic ) y =x E x 2)6523.1(01.065.2040-+-三次曲线(Cubic ) y =x E x E x 32)11674.3()6886.3(202.0429.304-+--+三次曲线的R Square=0.998>二次曲线的R Square=0.979>指数回归的R Square=0.965>幂函数回归的R Square=0.962,以上四种曲线拟合都可以,三次曲线拟合最好。