stata回归结果详解
x4 51.9 90.9 73.7 14.5 63.2 2.2 20.2 43.8 55.9 64.3 42.7 76.7 22.8 117.1 146.7 29.9 42.1 25.3 13.4 64.3 163.9 44.5 67.9 39.7 97.1
数据来源于贾俊平《统计学》(第7版),第12章多元线性回归
5.系数置信区间
0.17
2.086
t
t0
ttail(df,t) = p 计算单边P值 双边时P值加倍就行了 如: ttail(20,0.17498)*2=0.863
invttail(df,p) = t 计算单边临界值 在双边95%置信度,5%显著水平 时的临界值为: t0=invttail(20,0.025)=2.086
tden(df,t)
t(df,t)
invt(df,p)
ttail(df,t)
invttail(df,p)
chi2den(df,x)
chi2 (df,x)
invchi2 (df,p)
chi2tail(df,x)
invchi2tail(df,p)
Fden(df1,df2,x)
F (df1,df2,x)
invF (df1,df2,p)
• (3) 回归系数的正负号与预期的相反。
• ( 4) 容忍度( tolerance) 与方差扩大因子(variance inflation factor , VIF) 。某个自变量的容忍度等于1 减去该
自变量对其他k-1 个自变量的线性回归的判定系数, 容忍 度越小,多重共线性越严重。方差扩大因子等于容忍度的 倒数,VIF 越大,多重共线性越严重, 一般认为容忍度小 于0.1 、VIF 大于10 时,存在严重的多重共线性。
由 Y=0+ 1X1+v 得 由 Y=0+1X1+2X2+ 得
如果X2与X1相关,显然有 如果X2与X1不相关,也有
Why?
回归分析之联合检验
• 无约束模型: • 约束后面q个变量: • 原假设: • 备选假设:H1:其中至少一个不等于0 • 检验F统计量:
16.5 2.2
10.7 27.1
1.7 9.1 2.1 11.2
6 12.7 15.6
8.9 0.6 5.9
5 7.2 16.8 3.8 10.3 15.8 12
x3 5 16 17 10 19 1 17 18 10 14 11 23 14 26 34 15 2 11 4 28 32 10 14 16 10
回归系数
回归系数 标准误差
T值 P值
置信区间
T值=Coef./Std. Err.
P值用于说明回归系数的显著性,一般来说P值<0.1(*)表示10%显著水平显著,P值 <0.05(**)表示5%显著水平显著, P值<0.01(***)表示1%显著水平显著 置信区间(CI) 0.0145294-invttail(20,0.025)*0.0830332=0.0145294-2.086*0.0830332=-0.1586748 0.0145294+2.086*0.0830332=0.1877335
第三列df是自由度(degree of freedom),第一行是回归自由度dfr,等于变量数 目,即dfr=m;第二行为残差自由度dfe,等于样本数目减去变量数目再减1,即 有dfe=n-m-1;第三行为总自由度dft,等于样本数目减1,即有dft=n-1。对于本例 ,m=4,n=10,因此,dfr=4,dfe=n-m-1=20,dft=n-1=24。
Ftail(df1,df2,x)
invFtail(df1,df2,p)
Ftail(2,702,3.96)=0.0195=1-F(2,702,3.96)
6.回归结果的评价
• (1)通过模型F检验说明线性关系是否成立。 • (2)回归系数符号是否与理论或预期相一致
。 • (3) 通过系数t检验说明y 与x关系统计显著性
• 但ln( consume)~ln(income)+ln(income2)共线性,应为ln( consume)~ln(income)+(lnincome)2
• 3、一个自变量是两个或多个自变量和线性函数
回归模型中包含无关变量
遗漏变量偏误
遗漏相关变量偏误
采用遗漏相关变量的模型进行估计而带来的 偏误称为遗漏相关变量偏误(omitting relevant variable bias)。
X3的VIF=3.83 =1/(1-0.7392)=1/(08) =1/容忍度
• 不存在完全共线性假设,允许自变量之间存在相关关系,只是 不能完全相关
• 1、一个变量是另一个变量的常数倍,如同时放入不同度量单 位的同一变量
• 2、同一变量的不同非线性函数可以成为回归元,如 consume~income+income2
1.方差分析
第二列SS对应的是误差平方和,或称变差。 1.第一行为回归平方和或回归变差SSR,表示因变量的预 测值对其平均值的总偏差。 2.第二行为剩余平方和(也称残差平方和或剩余变差) SSE,是因变量对其预测值的总偏差,这个数值越大,拟 合效果越差,y的标准误差即由SSE给出。 3.第三行为总平方和或总变差SST,表示因变量对其平均 值的总偏差。 4.容易验证249.37+63.28=312.65
0.0145294-invttail(20,0.025)*0.0830332=0.0145294-2.086*0.0830332=-0.1586748 0.0145294+2.086*0.0830332=0.1877335
Stata中查临界值和p值
normalden(z)
normal(z)
invnormal(p)
x1 67.3 111.3 173 80.8 199.7 16.2 107.4 185.4 96.1 72.8 64.2 132.2 58.6 174.6 263.5 79.3 14.8 73.5 24.7 139.4 368.2 95.7 109.6 196.2 102.2
x2 6.8
19.8 7.7 7.2
3.回归系数检验
当自变量只有两个时,R2j就是这两个变 量的相关系数(pwcorr x2 x1)的平方
4.系数标准误差计算
对多元回归“排除其它变量影响”的解释
简单回归和多元回归估计值的比较
.03789471= .0289094 + .1678986 * .0535163
tw (function t=tden(20,x),range(-3 3)), xline(0.17 2.086)
。 • (4)用判定系数说明回归模型在多大程度上
解释了因变量y 取值的差异。 • (5)画残差直方图或正态概率图考察误差项
的正态性假定是否成立。
7.多重共线性判断
• 出现下列情况,暗示存在多重共线性:
• (1 )模型中各对自变量之间显著相关(相关系数检验)。
• (2) 当模型的线性关系F检验显著时,几乎所有回归系 数的t 检验都不显著。
设正确的模型为 却对 进行回归,得
Y=0+1X1+2X2+ Y=0+ 1X1+v
将正确模型 Y=0+1X1+2X2+ 的离差形式
代入
得
(1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下 求期望与大样本下求概率极限都不会为零,从而使得OLS 估计量在小样本下有偏,在大样本下非一致。
(2)如果X2与X1不相关,则1的估计满足无偏性与一致性;但这时0的估计 却是有偏的。
stata回归结果详解
no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
y 0.9 1.1 4.8 3.2 7.8 2.7 1.6 12.5 1 2.6 0.3 4 0.8 3.5 10.2 3 0.2 0.4 1 6.8 11.6 1.6 1.2 7.2 3.2
第四列MS是均方差,误差平方和除以相应的自由度 1.第一行为回归均方差MSR 2.第二行为剩余均方差MSE,数值越小拟合效果越好
F值,用于线性关系的判定。 结合P值对线性关系的显著性 进行判断,即弃真概率。所 谓“弃真概率”即模型为假的 概率,显然1-P便是模型"为 真的概率,P值越小越好。对 于本例,P=0.0000<0.0001, 故置信度达到99.99%以上。
2.模型显著性
R- Squared为判定系数(determination coefficient),或称拟合优度(goodness of fit), 它是相关系数的平方,也是SSR/SST,y的总偏差中自变量解释的部分。 Adjusted对应的是校正的判定系数
Root MSE为标准误差(standard error),数值越小,拟合的效果越 好