当前位置:
文档之家› 统计学第四版贾俊平人大-回归与时间序列stata
统计学第四版贾俊平人大-回归与时间序列stata
egen x3= sum((x-x1)^2),得到x3=397.024
display y0+2.3060*18.887*sqrt(1/10+x2/x3),得zu=70.619033
display y0-2.3060*18.887*sqrt(1/10+x2/x3),得zl=37.659687
display y0+2.3060*18.887*sqrt(1+1/10+x2/x3),得yu=100.7063
(4)由(3)得到的结果可得 =0.9963,判定系数 测度了回归直线对观测数据的拟合程度,即在人均消费水平的变差中,有99.63%可以由人均消费水平与人均GDP之间的线性关系解释,或者说,在人均消费水平取值的变动中,有99.63%由人均GDP决定。可见,两者之间有很强的线性关系。
(5)由(3)得到的结果可得回归方程线性关系的F检验值1331.69对应的检验P值为0.0000<α=0.05,故拒绝原假设,即人均消费水平和人均GDP之间存在显著的正相关性。
可得线性函数(product为自变量,cost为因变量):y=0.4206832x+124.15,即β0=124.15,β1=0.4206832
(3)对相关系数的显著性进行检验,可输入命令pwcorr cost product, sig star(.05) print(.05),得到下图:
可见,在α=0.05的显著性水平下,P=0.0000<α=0.05,故拒绝原假设,即产量和生产费用之间存在显著的正相关性。
取cmplts=y,percent=x,y0为x0=80的预测值,x1为percent平均值,x2=(x0-x1)^2,x3=sum((x-x1)^2)
y0=-4.700623*80+430.1892=54.13936,
egenx1=mean(x),得到x1=12248.429,
gen x2=(80-75.86)^2,得到x2=17.1396,
(2)输入命令cortime juli计算相关系数,得下图:
可见,r=0.9489,可见时间和距离之间存在高度的正相关性。
(3)输入命令regtime juli得到下图:
可得线性函数(juli为自变量,time为因变量):y=0.0035851x+0.1181291,即β0=0.1181291,表示回归直线的截距为0.1181291;β1=0.0035851,表示距离(x)变化1km引起时间(y)的变化为0.0035851天。
y0=0.3086827*5000+734.6928=2278.1063,
egenx1=mean(x),得到x1=12248.429,
gen x2=(5000-12248.429)^2,得到x2=52539722.968,
egen x3= sum((x-x1)^2),得到x3=854750849.7143
F
Significance F
回归分析
1
223.1403
223.1403
30.93318
2.79889E-05
残差
18
129.8452
7.213622
总计
19
352.9855
Coefficients
标准误差
t Stat
P-value
Lower 95%
Upper 95%
下限 95.0%
上限 95.0%
调整的决定系数Adjusted R Square=0.611715,表示调整后的判定系数使用了自由度为一个权重因子,即使解释变量增加,如果它与被解释变量无关,则调整后的判定系数不会增加会减少;
标准误差,表示各测量值误差的平方的平均值的平方根,故又称为均方误差的平方根,在这里取2.685819(已验证,该值即为 );
predict stdp, stdp
predict stdf, stdf
generatezl= yhat - invttail(5,0.025)*stdp
generatezu= yhat + invttail(5,0.025)*stdp
generateyl= yhat - invttail(5,0.025)*stdf
generatezu= yhat + invttail(8,0.025)*stdp
generateyl= yhat - invttail(8,0.025)*stdf
generateyu= yhat + invttail(8,0.025)*stdf
twoway (lfitci cmplts percent, level(95)) (scatter cmplts percent) (line zlzu yl yu percent, pstyle(p2 p2 p3 p3) sort)
display y0-2.3060*18.887*sqrt(1+1/10+x2/x3),得yl=7.5724171
即航班正点率为80%时,投诉次数的95%的置信区间为[37.659687,70.619033],预测区间为[7.5724171,100.7063]。
11.8(1)打开一张EXCEL表格,输入数据如下:
generateyu= yhat + invttail(5,0.025)*stdf
twoway (lfitcicsptGDP, level(95)) (scattercsptGDP) (linezlzuylyu
GDP, pstyle(p2 p2 p3 p3) sort)
取cspt=y,GDP=x,y0为x0=5000的预测值,x1为GDP平均值,x2=(x0-x1)^2,x3=sum((x-x1)^2)
输入命令scatter cmplts percent,xlabel(#5, grid) ylabel(#5, grid),得到如下散点图,可以看到,时间和距离是负线性相关的关系。
(2)输入命令reg cmplts percent得到下图:
可得线性函数(percent为自变量,cmplts为因变量):y=-4.700623x+430.1892,即β0=430.1892,表示回归直线的截距为430.1892;β1=-4.700623,表示航班正点率percent提高1%使投诉次数cmplts的减少-4.700623次。
display y0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yl=1524.6154
即人均GDP为5000元时,人均消费水平95%的置信区间为[1967.7455,2588.4671],预测区间为[1524.6154,3031.5972]。
11.7(1)编辑数据集,命名为linehuigui5.dat
(3)由(2)得到的结果可得回归系数检验的t值-4.96对应的P值为0.001<α=0.05,故拒绝原假设,即航班正点率percent是投诉次数cmplts的一个显著因素(或者输入test percent=0)。
(4)x=80时,E(y)=-4.700623*80+430.1892=54.13936次。
(6)x=5000时,E(y)=0.3086827*5000+734.6928=2278.1063。
(7)x=5000时,输入命令predictnl PT=predict(xb),ci(lb ub) l(95),得到各人均GDP水平下的置信区间,如下图:
输入如下命令,得到置信区间和预测区间示意图:
predict yhat
(5)x=80时,输入命令predictnl PT=predict(xb),ci(lb ub) l(95),得到各航班正点率水平下的置信区间,如下图:
输入如下命令,得到置信区间和预测区间示意图:
predict yhat
predict stdp, stdp
predict stdf, stdf
generatezl= yhat - invttail(8,0.025)*stdp
display y0+2.7764*247.3*sqrt(1/7+x2/x3),得zu=2588.4671
display y0-2.7764*247.3*sqrt(1/7+x2/x3),得zl=1967.7455
display y0+2.7764*247.3*sqrt(1+1/7+x2/x3),得yu=3031.5972
Excel输出的回归结果包括以下几个部分:
第一部分是“回归统计”,这部分给出了回归分析中的一些常用统计量,
包括表中复相关系数Multiple R=0.79508,它是度量复相关程度的指标,取值[0,1]之间,取值越大,表明要素或变量之间的线性相关程度越密切;
判定系数R Square=0.632151,表示有63.2151%的出租率可以由每平方米月租金之间的线性关系来解释;
观测值个数19。
第二部分是“方差分析”,这部分给出的是回归分析的方差分析表,包括自由度df、回归平方和SSR=223.1403、残差平方和SSE=129.8452、总平方和SST=352.9855、回归的均方根223.1403、残差的均方根MSE=7.213622;
(2)数据|分析|数据分析|回归,弹出回归对话框并设置如下:
(3)单击“确定”得如下输出结果:
SUMMARY OUTPUT
回归统计
Multiple R
0.79508
R Square
0.632151
Adjusted R Square
0.611715
标准误差
2.685819观测值 Nhomakorabea20方差分析
df
SS
MS
(3)输入命令regcsptGDP得到下图: