stata回归结果详解
解释了因变量y 取值的差异。 • (5)画残差直方图或正态概率图考察误差项
的正态性假定是否成立。
7.多重共线性判断
• 出现下列情况,暗示存在多重共线性:
• (1 )模型中各对自变量之间显著相关(相关系数检验)。
• (2) 当模型的线性关系F检验显著时,几乎所有回归系 数的t 检验都不显著。
• (3) 回归系数的正负号与预期的相反。
x1 67.3 111.3 173 80.8 199.7 16.2 107.4 185.4 96.1 72.8 64.2 132.2 58.6 174.6 263.5 79.3 14.8 73.5 24.7 139.4 368.2 95.7 109.6 196.2 102.2
x2 6.8
19.8 7.7 7.2
Var(ˆ1)
2
x12i
Var(ˆ1) 2
x22i
x12i
x
2 2i
(
x1i x2i ) 2
2
x12i
(1
r2 x1x2
)
如果X2与X1相关,显然有
Var(ˆ1 ) Var(ˆ1 )
如果X2与X1不相关,也有
Var(ˆ1 ) Var(ˆ1 ) Why?
回归分析之联合检验
• 无约束模型: • 约束后面q个变量: • 原假设: • 备选假设:H1:其中至少一个不等于0 • 检验F统计量:
Reg y x1-x4
16.5 2.2
10.7 27.1
1.7 9.1 2.1 11.2
6 12.7 15.6
8.9 0.6 5.9
5 7.2 16.8 3.8 10.3 15.8 12
x3 5 16 17 10 19 1 17 18 10 14 11 23 14 26 34 15 2 11 4 28 32 10 14 16 10
• 3、一个自变量是两个或多个自变量和线性函数
回归模型中包含无关变量
y01 x 12 x 23 x 3 u 在 控 制 了 x 1 和 x 2 之 后 , x 3 对 y 没 有 影 响 , 即 3 = 0 。 变 量 x 3 与 x 1 和 x 2 或 许 相 关 , 或 许 不 相 关 。
stata回归结果详解
付畅俭 湘潭大学商学院
no 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
y 0.9 1.1 4.8 3.2 7.8 2.7 1.6 12.5 1 2.6 0.3 4 0.8 3.5 10.2 3 0.2 0.4 1 6.8 11.6 1.6 1.2 7.2 3.2
遗漏相关变量偏误
采用遗漏相关变量的模型进行估计而带来的 偏误称为遗漏相关变量偏误(omitting relevant variable bias)。
设正确的模型为 却对 进行回归,得
Y=0+1X1+2X2+ Y=0+ 1X1+v
ˆ1
x1i yi x12i
将正确模型 Y=0+1X1+2X2+ 的离差形式
第三列df是自由度(degree of freedom),第一行是回归自由度dfr,等于变量数 目,即dfr=m;第二行为残差自由度dfe,等于样本数目减去变量数目再减1,即 有dfe=n-m-1;第三行为总自由度dft,等于样本数目减1,即有dft=n-1。对于本例, m=4,n=10,因此,dfr=4,dfe=n-m-1=20,dft=n-1=24。
F(4,20)M SR62.342819.70 M SE 3.1640
谓“弃真概率”即模型为假
的概率,显然1-P便是模型" R2SSR249.370.7976
为真的概率,P值越小越好。
SST 63.28
对 于 本 例 , P=0.0000<0.0001 , 故置信度达到99.99%以上。
Ra21SSSSE T//ddffet1(n n1)(m 11R2)124(1200.7976)0.7571
0.0145294-invttail(20,0.025)*0.0830332=0.0145294-2.086*0.0830332=-0.1586748 0.0145294+2.086*0.0830332=0.1877335
Stata中查临界值和p值
normalden(z)
normal(z)
invnormal(p)
(1)如果漏掉的X2与X1相关,则上式中的第二项在小样本下 求期望与大样本下求概率极限都不会为零,从而使得OLS 估计量在小样本下有偏,在大样本下非一致。
(2)如果X2与X1不相关,则1的估计满足无偏性与一致性;但这时0的估计 却是有偏的。
由 Y=0+ 1X1+v 得 由 Y=0+1X1+2X2+ 得
R o o t M S E M S E 3 .1 6 4 0 1 .7 7 8 8
回归系数
回归系数 标准误差
T值
P值
回 归 系 数 j的 标 准 误 差
置信区间
var(ˆj)SSTx M j(S 1E R2 j)S M SS T E xj *V IFj,R2 j为 xj对 其 它 自 变 量 进 行 回 归 的 判 决 系 数
• 1、一个变量是另一个变量的常数倍,如同时放入不同度量单 位的同一变量
• 2、同一变量的不同非线性函数可以成为回归元,如 consume~income+income2
• 但ln( consume)~ln(income)+ln(income2)共线性,应为 ln( consume)~ln(income)+(lnincome)2
3.回归系数检验
v a r(ˆ3 )S S T x M 3 ( S 1 E R 3 2 )1 7 5 9 .8 3 4 .( 1 1 6 4 0 0 .7 3 9 2 )3 4 .5 1 8 6 .4 9 0 1 0 .0 8 3 0 3
当自变量只有两个时,R2j就是这两个变 4.系数标准误差计算
n
2.SSE (yi yˆi)263.28 i1
合效果越差,y的标准误差即由SSE给出。 3.第三行为总平方和或总变差SST,表示因变量对其平均 值的总偏差。
n
3.SST (yi y)2312.65 i1
4.容易验证249.37+63.28=312.65
4 .S S R S S E S S T
• ( 4) 容忍度( tolerance) 与方差扩大因子(variance inflation factor , VIF) 。某个自变量的容忍度等于1 减去该
自变量对其他k-1 个自变量的线性回归的判定系数, 容忍 度越小,多重共线性越严重。方差扩大因子等于容忍度的 倒数,VIF 越大,多重共线性越严重, 一般认为容忍度小 于0.1 、VIF 大于10 时,存在严V重IFj的容 多忍 1度 重=共11线R2j 性。
Ftail(df1,df2,x)
invFtail(df1,df2,p)
Ftail(2,702,3.96)=0.0195=1-F(2,702,3.96)
6.回归结果的评价
• (1)通过模型F检验说明线性关系是否成立。 • (2)回归系数符号是否与理论或预期相一致。 • (3) 通过系数t检验说明y 与x关系统计显著性。 • (4)用判定系数说明回归模型在多大程度上
0.17
2.086
t
t0
ttail(df,t) = p 计算单边P值 双边时P值加倍就行了 如: ttail(20,0.17498)*2=0.863
invttail(df,p) = t 计算单边临界值 在双边95%置信度,5%显著水平 时的临界值为: t0=invttail(20,0.025)=2.086
1.方差分析
第二列SS对应的是误差平方和,或称变差。
n
n
1.第一行为回归平方和或回归变差SSR,表示因变量的预 1 .S S R (y ˆiy)2 (y ˆiy ˆ)22 4 9 .3 7
i 1
i 1
测值对其平均值的总偏差。
2.第二行为剩余平方和(也称残差平方和或剩余变差) SSE,是因变量对其预测值的总偏差,这个数值越大,拟
因此,在以下两种情况下会相等
1、 样 本 中 x 2 对 y的 偏 效 应 为 0 , 即 ˆ 2 = 0 2、 样 本 中 x1和 x 2不 相 关 , 即 1 = 0
tw (function t=tden(20,x),range(-3 3)), xline(0.17 2.086)
5.系数置信区间
R- Squared为判定系数(determination coefficient),或称拟合优度(goodness of fit), 它是相关系数的平方,也是SSR/SST,y的总偏差中自变量解释的部分。 Adjusted对应的是校正的判定系数
Root MSE为标准误差(standard error),数值越小,拟合的效果越好
当 回 归 模 型 中 包 含 一 个 或 多 个 无 关 变 量 , 对 模 型 进 行 了 过 度 设 定 , 不 影 响 O L S 估 计 的 无 偏 性 , 但 会 影 响 估 计 的 方 差 。
遗漏变量偏误
wage0 1educ2abil u
但由于能力不观测,因此估计模型为
wage0 1educv 其中v2abil u
第四列MS是均方差,误差平方和除以相应的自由度 1.第一行为回归均方差MSR 2.第二行为剩余均方差MSE,数值越小拟合效果越好
1.MSR SSR 249.37 62.34 dfr 4
2.MSE SSE 63.28 3.16 dfe 20
2.模型显著性 F值,用于线性关系的判定。