第4章多元回归分析:推断4.1复习笔记考点一:OLS估计量的抽样分布★★★1.假定MLR.6(正态性)假定总体误差项u独立于所有解释变量,且服从均值为零和方差为σ2的正态分布,即:u~Normal(0,σ2)。
对于横截面回归中的应用来说,假定MLR.1~MLR.6被称为经典线性模型假定。
假定下对应的模型称为经典线性模型(CLM)。
2.用中心极限定理(CLT)在样本量较大时,u近似服从于正态分布。
正态分布的近似效果取决于u中包含多少因素以及因素分布的差异。
但是CLT的前提假定是所有不可观测的因素都以独立可加的方式影响Y。
当u是关于不可观测因素的一个复杂函数时,CLT论证可能并不适用。
3.OLS估计量的正态抽样分布定理4.1(正态抽样分布):在CLM假定MLR.1~MLR.6下,以自变量的样本值为条件,有:∧βj~Normal(βj,Var(∧βj))。
将正态分布函数标准化可得:(∧βj-βj)/sd(∧βj)~Normal(0,1)。
注:∧β1,∧β2,…,∧βk的任何线性组合也都符合正态分布,且∧βj的任何一个子集也都具有一个联合正态分布。
考点二:单个总体参数检验:t检验★★★★1.总体回归函数总体模型的形式为:y=β0+β1x1+…+βk x k+u。
假定该模型满足CLM假定,βj的OLS 量是无偏的。
2.定理4.2:标准化估计量的t分布在CLM假定MLR.1~MLR.6下,(∧βj-βj)/se(∧βj)~t n-k-1,其中,k+1是总体模型中未知参数的个数(即k个斜率参数和截距β0)。
t统计量服从t分布而不是标准正态分布的原因是se(∧βj)中的常数σ已经被随机变量∧σ所取代。
t统计量的计算公式可写成标准正态随机变量(∧βj-βj)/sd(∧βj)与∧σ2/σ2的平方根之比,可以证明二者是独立的;而且(n-k-1)∧σ2/σ2~χ2n-k-1。
于是根据t随机变量的定义,便得到此结论。
3.单个参数的检验(见表4-1)表4-1单个参数的检验注意:(1)当检验βj 是否等于某个非零常数时,则H 0:βj =αj 。
相应的t 统计量为:t=(∧βj -αj )/se(∧βj )。
(2)p 值是根据t 值在t 分布上计算出的概率,就是能拒绝虚拟假设的最小显著性水平。
用α表示检验的显著性水平,当p<α时,就应拒绝虚拟假设;否则,就不能拒绝H 0。
(3)当不能拒绝原假设时,应回答“不能拒绝原假设”,而不能说“接受原假设”。
4.经济或实际显著性与统计显著性(1)变量x j 的统计显著性完全由j ˆt 的大小决定,而经济显著性或实际显著性则与∧βj 的大小(及符号)相关。
(2)在实践中,区分导致t 统计量统计显著的原因很重要。
当一个变量的估计效应不太大时,认为该变量在解释y 时很“重要”会导致错误的结论。
(3)一般而言,样本越大,变量往往会越显著,因此进行t 检验时应使用更小的显著性水平。
5.检验变量在多元回归模型中的经济和统计显著性的准则(1)首先检查统计显著性,当变量通过显著性检验时,可再讨论系数的大小;当变量没有通过检验时,若根据理论或实践经验认为该变量对于模型很重要,则应适当放松显著性(尤其是小样本)。
(2)一般来说,t统计量很小的变量都具有“错误”的符号。
考点三:置信区间★在经典线性模型假定下,为总体参数βj构造一个置信区间(CI)是很容易的。
置信区间又称区间估计,它为总体参数的可能取值提供了一个范围,而不只是一个点估计值。
它的含义是:对每次获得的随机样本都计算∧βj并构造一个样本区间,那么总体值βj将以1-α的概率出现在样本区间中。
置信区间的下界和上界分别是:∧βj-c·se(∧βj)和∧βj+c·se(∧βj)。
考点四:检验关于参数的一个线性组合假设★★★假定检验的原虚拟假设为H0:β1=β2,对立假设为H1:β1<β2。
将虚拟假设和对立假设分别重新写成H0:β1-β2=0与H1:β1-β2<0。
构造新的t统计量,即:t=(∧β1-∧β2)/se(∧β1-∧β2)。
因为Var(∧β1-∧β2)=Var(∧β1)+Var(∧β2)-2Cov(∧β1,∧β2),所以se(∧β1-∧β2)={[se(∧β1)]2+[se(∧β2)]2-2s12}1/2,其中s12为Cov(∧β1,∧β2)的一个估计值。
因此,se (∧β1-∧β2)的计算较为困难,而且在回归结果中也并没有报告(∧β1-∧β2)的标准误。
在实际操作中,可将β1与β2之差定义为一个新参数,即θ1=β1-β2。
因此原虚拟假设和备择假设转变为H0:θ1=0与H1:θ1<0。
将β1写为β1=θ1+β2,代入模型中去,通过构造新的变量便可以估计出∧θ的标准误,这样就可以直接进行t检验。
考点五:对多个线性约束的检验:F检验★★★★★1.对排除性约束的检验对排除性约束的检验是指检验一组自变量是否对因变量都没有影响,该检验不适用于不同因变量的检验。
F统计量通常对检验一组变量的排除有用处,特别是当变量高度相关的时候。
含有k个自变量的不受约束模型为:y=β0+β1x1+…+βk x k+u,其中参数有k+1个。
假设有q个排除性约束要检验,且这q个变量是自变量中的最后q个:x k-q+1,…,x k,则受约束模型为:y=β0+β1x1+…+βk-q x k-q+u。
虚拟假设为H0:βk-q+1=0,…,βk=0,对立假设是列出的参数至少有一个不为零。
定义F统计量为F=[(SSR r-SSR ur)/q]/[SSR ur/(n-k-1)]。
其中,SSR r是受约束模型的残差平方和,SSR ur是不受约束模型的残差平方和。
由于SSR r不可能比SSR ur小,所以F 统计量总是非负的。
q=df r-df ur,即q是受约束模型与不受约束模型的自由度之差,也是约束条件的个数。
n-k-1=分母自由度=df ur,且F的分母恰好就是不受约束模型中σ2=Var(u)的一个无偏估计量。
假设CLM假定成立,在H0下F统计量服从自由度为(q,n-k-1)的F分布,即F~F q,n-k-1。
如果F值大于显著性水平下的临界值,则拒绝H0而支持H1。
当拒绝H0时,就说,x k-q+1,…,x k在适当的显著性水平上是联合统计显著的(或联合显著)。
2.F统计量和t统计量之间的关系(1)当检验单个变量的显著性时,F统计量等于对应t统计量的平方。
因为t n-k-12具有F1,n-k-1分布,所以在双侧对立假设下,这两种方法得到完全一样的结果。
但t统计量可用来检验单侧备择假设,对于检验单个参数假设更灵活;且t统计量比F统计量更容易获得。
因此一般用t统计量对单个参数假设进行检验。
(2)两(或多)个t检验不显著的变量,合起来可能十分显著。
此外还可能,在一组解释变量中,一个变量t检验显著;但在常用的显著性水平上,这组变量却不是联合显著的。
(t检验与F检验之间的这种可能冲突,给出了为什么不应该“接受”原假设的一个例子。
)(3)当一个变量十分显著时,对它与其他变量进行联合检验,结果是联合显著的。
在这种情况下,同时拒绝这两个虚拟假设并不存在逻辑上的不一致。
3.F统计量的R2型(1)F统计量的R2型的优点①R2必定介于0和1之间;而SSR在很大程度上依赖度量单位,计算较繁冗。
②R2在几乎所有的回归中都会报告,使用R2来检验变量的排除较为容易。
(2)F统计量的R2型的公式计算公式为:F=[(R ur2-R r2)/q]/[(1-R ur2)/(n-k-1)]=[(R ur2-R r2)/q]/[(1-R ur2)/df ur)]。
因为R ur2>R r2,所以再次表明F总是正的。
4.回归整体显著性的F统计量在含有k个自变量的模型中,对于整体显著性检验的虚拟假设为所有的斜率参数都是零,即H0:β1=β2=…=βk=0,对应的受约束模型为y=β0+u。
受约束模型的R2为零,因为y中的变异一点都没有得到解释。
F统计量的计算公式为:F=(R2/k)/[(1-R2)/(n-k-1)]。
其中,R2是y对x1,x2,…,x k回归的通常R2。
上述F统计量的公式只有在检验所有自变量的联合排除时才有效。
5.检验一般的线性约束假设不受约束模型为y=β0+β1x1+β2x2+β3x3+β4x4+u。
当检验的原假设为H0:β1=1,β2=0,β3=0,β4=0。
其中,除β1=1外都是排除性约束。
首先估计不受约束模型,得到SSR ur;然后施加约束,得到受约束模型y=β0+x1+u,变换为y-x1=β0+u,估计该式子得到SSR r。
F统计量就是[(SSR r-SSR ur)/SSR ur][(n -5)/4],将得到的F值与临界值比较即可决定是否拒绝原假设。
4.2课后习题详解一、习题1.下面哪种因素可能导致通常OLS的t统计量无效(即在H0下不服从t分布)?(i)异方差性。
(ii)模型中两个自变量之间的样本相关系数达到0.95。
(iii)遗漏一个重要的解释变量。
答:(i)和(iii)可能导致通常OLS的t统计量无效。
同方差性是CLM假定之一。
遗漏一个重要的变量违背了假定MLR.3。
(ii)CLM假定除了排除相关系数等于1的情况外,并没有涉及自变量之间的相关性。
2.考虑一个用企业年销售额、股本回报率(roe,以百分数表示)和企业股票的回报(ros,以百分数表示)来解释CEO薪水的如下方程:log(salary)=β0+β1log(sales)+β2roe+β3ros+u(i)用模型参数来表述如下原假设:在控制了sales和roe后,ros对CEO的薪水没有影响。
再给出备择假设的参数表述:股票市场更好的业绩会提高CEO的薪水。
(ii)使用CEOSAL1中的数据,通过OLS可以得到如下方程:如果ros提高50个百分点,预计salary会提高多大比例?ros对salary具有实际上很大的影响吗?(iii)检验ros对salary没有影响的原假设,备择假设是具有正效应。
在10%的显著性水平上进行检验。
(iv)你最后会在一个用企业业绩表示CEO报酬的模型中包括ros吗?给出你的解释。
答:(i)原假设为:H0:β3=0;备择假设为:H1:β3>0。
(ii)如果ros提高50个百分点,预计salary会提高:0.00024×50=0.012=1.2%。
因此ros对salary的影响实际上是很小的。
(iii)自由度为n-k-1=209-3-1=205,10%的显著性水平下,单侧检验的临界值为1.282。
t统计量为:0.00024/0.00054≈0.44,小于临界值,因此在10%的显著水平上不能拒绝虚拟假设,即ros对salary没有影响。
(iv)会。