当前位置：文档之家› 统计学第四版贾俊平人大_回归与时间序列stata

统计学第四版贾俊平人大_回归与时间序列stata

回归分析与时间序列一、一元线性回归11.1 （1）编辑数据集，命名为linehuigui1.dat输入命令scatter cost product,xlabel(#10, grid) ylabel(#10, grid)，得到如下散点图，可以看到，产量和生产费用是正线性相关的关系。

（2）输入命令reg cost product，得到如下图：可得线性函数（product为自变量，cost为因变量）：y=0.4206832x+124.15,即β0=124.15，β1=0.4206832（3）对相关系数的显著性进行检验，可输入命令pwcorr cost product, sig star(.05) print(.05)，得到下图：可见，在α=0.05的显著性水平下，P=0.0000<α=0.05，故拒绝原假设，即产量和生产费用之间存在显著的正相关性。

11.2 （1）编辑数据集，命名为linehuigui2.dat输入命令scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid)，得到如下散点图，可以看到，分数和复习时间是正线性相关的关系。

2）输入命令cor fenshu time计算相关系数，得下图：可见，r=0.8621，可见分数和复习时间之间存在高度的正相关性。

11.3 （1）（2）对于线性回归方程y=10-0.5x，其中β0=10，表示回归直线的截距为10；β1=-0.5，表示x变化一单位引起y的变化为-0.5。

（3）x=6时，E(y)=10-0.5*6=7。

11.4 （1），判定系数测度了回归直线对观测数据的拟合程度，即在分数的变差中，有90%可以由分数与复习时间之间的线性关系解释，或者说，在分数取值的变动中，有90%由复习时间决定。

可见，两者之间有很强的线性关系。

（2）估计标准误差分，即根据复习时间来估计分数时，平均的估计误差为0.25分。

11.5 （1）编辑数据集，命名为linehuigui3.dat输入命令scatter time juli,xlabel(#5, grid) ylabel(#5, grid)，得到如下散点图，可以看到，时间和距离是正线性相关的关系。

（2）输入命令cor time juli计算相关系数，得下图：可见，r=0.9489，可见时间和距离之间存在高度的正相关性。

（3）输入命令reg time juli得到下图：可得线性函数（juli为自变量，time为因变量）：y=0.0035851x+0.1181291,即β0=0.1181291，表示回归直线的截距为0.1181291；β1=0.0035851，表示距离（x）变化1km引起时间（y）的变化为0.0035851天。

11.6 （1）编辑数据集，命名为linehuigui4.dat输入命令scatter cspt GDP,xlabel(#3, grid) ylabel(#3, grid)，得到如下散点图，可以看到，时间和距离是正线性相关的关系。

（2）输入命令cor cspt GDP计算相关系数，得下图：可见，r=0.9981，可见人均消费水平和人均GDP之间存在高度的正相关性。

（3）输入命令reg cspt GDP得到下图：可得线性函数（GDP为自变量，cspt为因变量）：y=0.3086827x+734.6928,即β0=734.6928，表示回归直线的截距为734.6928；β1=0.3086827，表示人均GDP（x）变化1元引起人均消费水平（y）的变化为0.3086827元。

（4）由（3）得到的结果可得 =0.9963，判定系数测度了回归直线对观测数据的拟合程度，即在人均消费水平的变差中，有99.63%可以由人均消费水平与人均GDP之间的线性关系解释，或者说，在人均消费水平取值的变动中，有99.63%由人均GDP决定。

可见，两者之间有很强的线性关系。

（5）由（3）得到的结果可得回归方程线性关系的F检验值1331.69对应的检验P值为0.0000<α=0.05，故拒绝原假设，即人均消费水平和人均GDP之间存在显著的正相关性。

（6）x=5000时，E（y）=0.3086827*5000+734.6928=2278.1063。

（7）x=5000时，输入命令predictnl PT=predict(xb),ci(lb ub) l(95)，得到各人均GDP 水平下的置信区间，如下图：输入如下命令，得到置信区间和预测区间示意图：predict yhatpredict stdp, stdppredict stdf, stdfgenerate zl = yhat - invttail(5,0.025)*stdpgenerate zu= yhat + invttail(5,0.025)*stdpgenerate yl = yhat - invttail(5,0.025)*stdfgenerate yu = yhat + invttail(5,0.025)*stdftwoway (lfitci cspt GDP, level(95)) (scatter cspt GDP) (line zl zu yl yu GDP, pstyle(p2 p2 p3 p3) sort)取cspt=y，GDP=x，y0为x0=5000的预测值，x1为GDP平均值，x2=（x0-x1）^2，x3= sum((x-x1)^2)，，y0=0.3086827*5000+734.6928=2278.1063，egen x1=mean(x)，得到x1=12248.429，gen x2=(5000-12248.429)^2，得到x2=52539722.968，egen x3= sum((x-x1)^2)，得到x3=854750849.7143display y0+2.7764*247.3*sqrt(1/7+x2/x3)，得zu=2588.4671display y0-2.7764*247.3*sqrt(1/7+x2/x3)，得zl=1967.7455display y0+2.7764*247.3*sqrt(1+1/7+x2/x3)，得yu=3031.5972display y0+2.7764*247.3*sqrt(1+1/7+x2/x3)，得yl= 1524.6154即人均GDP为5000元时，人均消费水平95%的置信区间为[1967.7455,2588.4671]，预测区间为[1524.6154, 3031.5972]。

11.7 （1）编辑数据集，命名为linehuigui5.dat输入命令scatter cmplts percent,xlabel(#5, grid) ylabel(#5, grid)，得到如下散点图，可以看到，时间和距离是负线性相关的关系。

（2）输入命令reg cmplts percent得到下图：可得线性函数（percent为自变量，cmplts为因变量）：y=-4.700623x+430.1892,即β0=430.1892，表示回归直线的截距为430.1892；β1=-4.700623，表示航班正点率percent 提高1%使投诉次数cmplts的减少-4.700623次。

（3）由（2）得到的结果可得回归系数检验的t值-4.96对应的P值为0.001<α=0.05，故拒绝原假设，即航班正点率percent是投诉次数cmplts的一个显著因素（或者输入test percent=0）。

（4）x=80时，E（y）=-4.700623*80+430.1892=54.13936次。

（5）x=80时，输入命令predictnl PT=predict(xb),ci(lb ub) l(95)，得到各航班正点率水平下的置信区间，如下图：输入如下命令，得到置信区间和预测区间示意图：predict yhatpredict stdp, stdppredict stdf, stdfgenerate zl = yhat - invttail(8,0.025)*stdpgenerate zu= yhat + invttail(8,0.025)*stdpgenerate yl = yhat - invttail(8,0.025)*stdfgenerate yu = yhat + invttail(8,0.025)*stdftwoway (lfitci cmplts percent, level(95)) (scatter cmplts percent) (line zl zu yl yu percent, pstyle(p2 p2 p3 p3) sort)取cmplts=y，percent=x，y0为x0=80的预测值，x1为percent平均值，x2=（x0-x1）^2，x3= sum((x-x1)^2)，，y0=-4.700623*80+430.1892=54.13936，egen x1=mean(x)，得到x1=12248.429，gen x2=(80-75.86)^2，得到x2= 17.1396，egen x3= sum((x-x1)^2)，得到x3=397.024display y0+2.3060*18.887*sqrt(1/10+x2/x3)，得zu=70.619033display y0-2.3060*18.887*sqrt(1/10+x2/x3)，得zl=37.659687display y0+2.3060*18.887*sqrt(1+1/10+x2/x3)，得yu=100.7063display y0-2.3060*18.887*sqrt(1+1/10+x2/x3)，得yl= 7.5724171即航班正点率为80%时，投诉次数的95%的置信区间为[37.659687,70.619033]，预测区间为[7.5724171, 100.7063]。

11.8 （1）打开一张EXCEL表格，输入数据如下：（2）数据｜分析｜数据分析｜回归，弹出回归对话框并设置如下：（3）单击“确定”得如下输出结果：SUMMARY OUTPUT回归统计Multiple R 0.79508 R Square 0.632151 Adjusted RSquare0.611715 标准误差 2.685819 观测值20 方差分析df SS MS F SignificanceF回归分析 1 223.1403 223.1403 30.93318 2.79889E-05 残差18 129.8452 7.213622总计19 352.9855Coefficients 标准误差t Stat P-value Lower 95% Upper95%下限95.0%上限95.0%Intercept 49.31768 3.805016 12.96123 1.45E-10 41.32363505 57.31172 41.323635 57.31172 X Variable 1 0.249223 0.04481 5.561761 2.8E-05 0.155080305 0.343365 0.1550803 0.343365 Excel输出的回归结果包括以下几个部分：第一部分是“回归统计”，这部分给出了回归分析中的一些常用统计量，包括表中复相关系数Multiple R=0.79508，它是度量复相关程度的指标，取值[0,1]之间，取值越大，表明要素或变量之间的线性相关程度越密切；判定系数R Square=0.632151，表示有63.2151%的出租率可以由每平方米月租金之间的线性关系来解释；调整的决定系数Adjusted R Square=0.611715，表示调整后的判定系数使用了自由度为一个权重因子，即使解释变量增加，如果它与被解释变量无关，则调整后的判定系数不会增加会减少；标准误差，表示各测量值误差的平方的平均值的平方根，故又称为均方误差的平方根，在这里取2.685819（已验证，该值即为）；观测值个数19。

e商务文档

统计学第四版贾俊平人大_回归与时间序列stata

相关文档推荐：