一元线性回归一、实验题目1一家保险公司十分关心其总公司营业部加班的程度,决定认真调查一下现状。
经过10周的时间,收集了每周加班时间的数据和签发的新保单数目,x为每周签发的新报数目,y为每周加班时间(小时),数据见下表:二、实验内容散点图如下所示:[数据集1]描述性统计量均值标准偏差Ny 2.850 1.4347 10x 762.00 379.746 10相关性y x Pearson 相关性y 1.000 .949x .949 1.000 Sig. (单侧)y . .000x .000 . N y 10 10x 10 10输入/移去的变量b模型输入的变量移去的变量方法1 x a. 输入a. 已输入所有请求的变量。
b. 因变量: y残差统计量a极小值极大值均值标准偏差N预测值.889 4.958 2.850 1.3614 10 标准预测值-1.440 1.548 .000 1.000 10 预测值的标准误差.154 .291 .209 .050 10 调整的预测值.834 5.223 2.857 1.3944 10 残差-.8390 .5259 .0000 .4526 10 标准残差-1.748 1.096 .000 .943 10 Student 化残差-1.908 1.272 -.006 1.051 10 已删除的残差-1.0003 .7089 -.0072 .5662 10 Student 化已删除的残差-2.419 1.332 -.058 1.170 10 Mahal。
距离.028 2.398 .900 .856 10 Cook 的距离.001 .416 .129 .157 10 居中杠杆值.003 .266 .100 .095 10 a. 因变量: y残差图分析:1.x 与y 之间大致呈线性关系。
2、设回归方程为01y x ββ∧∧∧=+1β∧=1221(2637021717)0.0036(71043005806440)()ni ii nii x y n x yxn x --=-=--==--∑∑01 2.850.00367620.1068y x ββ-∧-=-=-⨯=0.10680.0036y x ∧∴=+可得回归方程为3、 22ni=11()n-2i i y y σ∧∧=-∑ 2n 01i=11(())n-2i y x ββ∧∧=-+∑=0.2305σ∧=0.48014、 由于211(,)xxN Lσββ∧t σ∧==服从自由度为n-2的t 分布。
因而/2|(2)1P t n αασ⎡⎤⎢⎥<-=-⎢⎥⎣⎦也即:1/211/2(p t t ααβββ∧∧∧∧-<<+=1α-可得195%β∧的置信度为的置信区间为0.4801/0.4801/⨯⨯(0.0036-1.8600.0036+1.860即为:(0.0028,0.0044)22001()(,())xxx N n L ββσ-∧+t ∧∧==服从自由度为n-2的t 分布。
因而/2(2)1P t n αα∧⎡⎤⎢⎥⎢⎥<-=-⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦即0/200/2()1p βσββσα∧∧∧∧-<<+=- 可得195%0.3567,0.5703β∧-的置信度为的置信区间为()5、x 与y 的决定系数 22121()()nii nii y y r y y ∧-=-=-==-∑∑16.8202718.525=0.9086、由于(1,9)F F α>,拒绝0H ,说明回归方程显著,x 与y 有显著的线性关系。
7、t σ∧==其中2221111()22n ni i i i i e y y n n σ∧∧====---∑∑0.00368.5420.04801==/2 1.895t α= /28.542t t α=>∴接受原假设01:0,H β=认为1β显著不为0,因变量y 对自变量x 的一元线性回归成立。
8、 相关系数()()niix x y y L r ----==∑0.9489=r 小于表中1%α=的相应值同时大于表中5%α=的相应值,∴x 与y 有显著的线性关系.9、从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
10、001000 3.7x ∧==新保单时,需要加班的时间为y 小时。
11、00/200y (2)1y t n h αασ∧∧±-+的置信概率为1-的置信区间精确为, 即为(2.7,4.7)近似置信区间为:02y σ∧∧±,即(2.74,4.66)12、可得置信水平为α1-的置信区间为0/200(2)y t n h ασ∧∧±-,即为(3.33,4.07).一、实验题目2下表是1985年的美国50个洲和哥伦比亚特区公立学校中教师的人均年工资y (美元)和对学生的人均经费投入x (美元)。
[数据集1]二、实验内容(1)绘制y 对x 的散点图,可以用直线回归描述两者之间的关系吗?描述性统计量均值标准偏差Ny 24354.57 4178.824 51x 3694.65 1053.060 51相关性y x Pearson 相关性y 1.000 .835x .835 1.000 Sig. (单侧)y . .000x .000 . N y 51 51x 51 51残差统计量a极小值极大值均值标准偏差N预测值19722.53 39779.89 24354.57 3490.019 51 标准预测值-1.327 4.420 .000 1.000 51 预测值的标准误差325.114 1487.149 425.285 176.411 51 调整的预测值19570.60 38596.95 24336.12 3406.183 51 残差-3848.022 5523.929 .000 2298.333 51 标准残差-1.657 2.379 .000 .990 51 Student 化残差-1.682 2.403 .003 1.010 51 已删除的残差-3963.589 5635.198 18.453 2397.556 51 Student 化已删除的残差-1.715 2.532 .009 1.030 51 Mahal。
距离.000 19.535 .980 2.769 51 Cook 的距离.000 .316 .023 .050 51 居中杠杆值.000 .391 .020 .055 51 a. 因变量: y标准残差的直方图和正概率图1、由上面的散点图分析可知: 可以用直线回归描述y 与x 之间的关系.2、回归方程为:12112.629 3.314y x ∧=+3、从图上可看出,检验误差项服从正态分布。
实验二 多元线性回归分析一、实验题目1用下表的数据,建立GDP 对1x 和2x 的回归。
对得到的二元回归方程21709.1607.06.2914x x y ++=∧,你能够合理的解释两个回归系数吗?如果现在不能给出合理的解释,不妨在学到第六章多重共线性后再来解释这个问题,在学过第七章岭回归后再来改进这个问题。
二、实验内容Model SummaryModel R R Square Adjusted RSquareStd. Error of theEstimate1 1.000a.999 .999 1187.620634109045600a. Predictors: (Constant), 第二产业增加值x2, 第一产业增加值x1ANOV A bModel Sum of Squares df Mean Square F Sig.1 Regression 1.809E102 9.047E9 6413.953 .000aResidual 16925313.247 12 1410442.771Total 1.811E10 14a. Predictors: (Constant), 第二产业增加值x2, 第一产业增加值x1b. Dependent Variable: GDPCoefficients a21711.1602.0465.2932x x y ++=∧二元回归方程为:因为2R =0.999表明回归方程非常显著,并且由方差分析表中可以看出: F=6413.953, P 值=0.000 也表明回归方程高度显著,说明x1和x2整体上对y 有高度显著影响,但是 对于x1的系数来说,P 值=0.067>0.05,则没通过检验,所以0.602明显不合理。
从 Coefficients 中看出VIF1=VIF2=20.226>10,说明回归方程中存在着严重的多重共线性实验三 违背基本假设的情况一、实验题目1下列数据是用电高峰每小时用电量y 与每月用电量x 的数据二、实验内容(1)用普通最小二乘法建立y 与x 的回归方程,并画出残差散点图CoefficientsUnstandardized Coefficients Betat Sig.BStd. ErrorEquation 1(Constant) -.831 .441 -1.885 .065 x.004.000.840 11.045.000x y 441.0831.0+-=∧回归方程为:残差散点图:(2)诊断该问题是否存在异方差。
从(1)中的残差图中可以看出误差项具有明显的异方差随着y的增加呈现增加的态势Correlationsx ySpearman's rho x Correlation Coefficient 1.000 .778**Sig. (2-tailed) . .000N 53 53y Correlation Coefficient .778** 1.000Sig. (2-tailed) .000 .N 53 53**. Correlation is significant at the 0.01 level (2-tailed).,出:从等级相关系数表中得0.00=值r≈P0.778则认为残差绝对值与自变量x显著相关,存在异方差(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘法回归方程M=1.5时可以建立最优权函数,此时得到:-回归方程为:.0=y+685x004.0)4(y=消除异方差用方差稳定变换y1一、实验题目2某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周演出场次x1和乐队网站的周点击率x2,数据件下表:二、实验内容(1)用普通最小二乘法建立y 与x1和x2的回归方程,用残差图及DW 检验诊断序列的自相关性。
Coefficients aModel Unstandardized CoefficientsStandardizedCoefficientst Sig. B Std. ErrorBeta1(Constant) -574.062 349.271-1.644.107 周演出场次 x1 191.098 73.309 .345 2.607 .012 周点击率x22.045.911.2972.246.029a. Dependent Variable: 销售额y21045.2098.191062.574x x y ++-=回归方程为:残差图如下:DW 检验诊断 Model Summary b Model R R SquareAdjusted RSquareStd. Error of the Estimate Durbin-Watson1.541a.293.264329.69302.745a. Predictors: (Constant), 周点击率x2, 周演出场次 x1b. Dependent Variable: 销售额y从残差图中明显看出误差项呈正相关性由模型图中可以看出DW=0.745 在(0,2)的范围内,并且6275.0=∧ρ在(0,1)范围内 所以误差项呈正相关性(2)用迭代法处理序列相关,并建立回归方程。