当前位置：文档之家› 讲义3 多元线性回归模型_假设检验

讲义3 多元线性回归模型_假设检验

讲义3 多元线性回归模型：推断主要内容：1、推断的数学知识复习2、Size，power的含义3、OLS估计量的样本分布4、单约束检验－t检验5、多约束检验—F检验对应教材内容：chapter2.5自由度的概念“自由度”是指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的数据的个数。

例：假设n 个独立变量Xi ~N(0,1)，那么)(~)...(222221n X X X n χ+++；随机向量的分布与数字特征 ● 协方差矩阵设Y 是一个由多个随机变量组成的向量，即'21),...,,(n Y Y Y Y =，那么 Y 的期望为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==n n Y E Y E Y E μμμ...)(...)()(11， Y 的协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡------=--=∑])[(...)])([(.........)])([(...])[(]))([(21111211'n n n n n n Y E Y Y E Y Y E Y E Y Y E μμμμμμμμ对于n 个随机变量的线性组合Y 'α，有μαααα''11)()...(==++Y E Y Y E n nααα∑='')(Y Var● 多变量的正态分布X ~N (μ,∑)，其中X 为n 维列向量，常被称为正态向量；μ为期望向量，∑为协方差矩阵。

X 的密度函数为'1/21/211()exp[()()](2)||2n f X x x μμπ-=--∑-∑.● 正态向量的线性函数若),(~∑μN X ，那么),(~'A A b A N b AX ∑++μ● 标准正态向量的二次型若~(0,)n X N I ，A 是幂矩阵，那么))((~2'A rank AX X χ。

特别地，)1(~)(2120'--=∑=n X X X M X ni i χ。

● 幂矩阵二次型的独立性设~(0,)n X N I ，A 和B 都是幂矩阵，那么如果0=AB 就有AX X '和BX X '就独立。

● 满秩二次型的分布设),(~∑μN X ，那么),0(~)(2/1I N X μ-∑-，)(~)()(21'n X X χμμ-∑--。

● 线性函数与二次型的独立性设~(0,)n X N I ，LX 是X 的线性函数，AX X '是X 的二次型，那么如有LA=0必有LX 和AX X '独立。

临界值的概念设X 的分布函数为F ，αx 满足(){},01F x P X x αααα=≤=<<，则称αx 为F 的α临界值或分位数（点）。

例1：对称分布~(0,1)U N 的临界值例2：非对称分布22~(1)n χχ-的临界值区间估计对于参数θ，如果有两个统计量),,,(ˆˆ2111n X X X θθ=,),,,(ˆˆ2122n X X X θθ=，满足对给定的)1,0(∈α，有αθθθ-=≤≤1}ˆˆ{21P则称区间[1ˆθ，2ˆθ]是θ的一个区间估计或置信区间，1ˆθ、2ˆθ分别称作置信下限、置信上限，α-1称为置信水平。

置信水平为1-α，在实际上可以这样理解:如取%951=-α，就是说若对某一参数θ取100个容量为n 的样本，用相同方法做100个置信区间。

[)(1ˆk θ，)(2ˆk θ]，k =1,2,…,100,那么其中有95个区间包含了真参数θ．因此,当实际上只做一次区间估计时，我们有理由认为它包含了真参数。

这样判断当然也可能犯错误，但犯错误的概率只有5%。

寻找置信区间的通常方法是从已知抽样分布的统计量，如上文提到的U ，X 和T 入手，由于分布和概率已知，只要确定临界值就可以了。

假设检验原理的复习第一步，建立假设0H 称为原假设，1H 称为备择假设。

注意：在假设检验中，原假设0H 与备选假设1H 的地位是不对等的。

一般来说α是较小的，因而检验推断是“偏向”原假设，而“歧视”备选假设的。

既然0H 是受保护的，则对于0H 的肯定相对来说是较缺乏说服力的，充其量不过是原假设与试验结果没有明显矛盾；反之，对于0H 的否定则是有力的，且α越小，小概率事件越难于发生，一旦发生了，这种否定就越有力，也就越能说明问题。

在应用中，如果要用假设检验说明某个结论成立，那么最好设0H 为该结论不成立。

例3.1（单侧检验）：00:μμ=H ，01:μμ>H第二步，构造统计量，求出统计量的样本分布以及由样本观察值算出其具体值。

统计量1n SX t 0--=μ在0H 成立的条件下，)(~1n t t-；对应的具体值记为t ˆ。

第三步，根据备择假设构造出对0H 不利的小概率事件——在给定显著性水平α下，确定临界值，构造出拒绝域。

在一个问题中，通常指定一个正数α（01α<<），认为概率不超过α的事件是在一次试验中几乎不会发生的事件，α称为显著性水平。

α=0.05，算出临界值1(1)t n α--。

1{(1)}V t t n α-=>-，这里V 是拒绝域，它是使得这一小概率事件发生的样本空间的点的全体。

第四步，得出结论方法1：根据计算出来的t 值，看样本是否落在V 内，若落在V 内，则拒绝0H ，否则,不能拒绝0H 。

如果>t ˆ)1(1--n t α，则称能以α的显著性水平拒绝零假设；否则，不能拒绝零假设；方法2：比较p 值和α。

p 值定义为不能拒绝零假设的最大的显著性水平；}ˆ{t t P >，也就是在t-分布中大于统计量t ˆ的概率。

比较p 值和预先设定的显著性水平。

如果p 值<α，则称能以α的显著性水平拒绝零假设；否则，不能拒绝零假设。

例3.2：（双侧检验）0:μμ=H ，01:μμ≠H与例3.2不同的地方在于第三步和第四步。

第三步，令α=0.05，算出临界值1/2(1)t n α--。

1/2{||(1)}V t t n α-=>-，这里V 是拒绝域，它是使得这一小概率事件发生的样本空间的点的全体。

第四步，如果tˆ落在拒绝域，则能拒绝零假设；否则，不能拒绝零假设；思考：若用方法2，那么p 值是多少？由于统计量是随机变量，假设检验可能犯两种类型的错误。

● 当0H 成立，而检验的结果表明0H 不成立，即拒绝了0H ，这时称该检验犯了第一类错误(typeI error)或“弃真”的错误；第一类错误的概率就是在0H 成立的条件下V 的概率)|(0H V P ；检验的显著性（size of test ）=α● 当0H 不成立，1H 成立，而检验的结果表明0H成立，即接受了0H ，这时称该检验犯了第二类错误(type II error)，或称“取伪”的错误。

犯第二类错误的概率是}|{1H V P -X =β。

定义一个检验的势（power of test ）＝1－β。

给定多元线性回归方程：011...i i ik k i y x x βββε=++++，),...,2,1(n i =OLS 估计量的样本分布在有限样本下进行假设检验，除了假定1到假定4，一般还需要加上假设5：假定5 扰动项服从正态分布那么，得到，2'1|~(,())b X N X X βσ-其中，|~(,())j j jj b X N X X βσ-单个线性约束的假设检验：t 检验原理：t 统计量=分布t N ~/)1,0(2χ;『证明：因为2'1()/(())|~(0,1)j j jj b X X X N βσ--'22|~(1)e eX n k χσ--所以()/()|~(1)j j j b se b X t n k β---』单个参数的线性假设检验/()~(1)j j t b se b t n k =--上述的t 检验又称系数的显著性检验，是回归分析最常见的检验之一。

t 检验的步骤：1）根据样本数据计算t 统计量；2）确定显著性水平α，一般可选择取1%，5%，10%。

3）确定备择假设，由此确定是单侧检验还是双侧检验。

4）根据自由度为1n k --的t 分布计算临界值，单侧检验计算αt ，双侧检验计算2/αt 。

或者计算p 值：双侧检验的|)||Pr(|t T p d >=；单侧检验的p 值2/d s p p =。

5）最后比较临界值与t 统计量，或者比较p 值和显著性水平α。

例子：房产价格与空气污染首先估计方程，得到系数OLS 估计值及其标准差：然后进行系数显著性检验。

0:10=βH ；0:11≠βH0~(1)()i i i b t t n k se b β-=--例子（续）：1:11<βH 1:11>βH单个线性约束的假设检验2323(1)~(1)var()b b t t n k b b +-=--+3434()~(1)var()b b t t n k b b -=---多个线性约束的假设检验：F 检验F 检验F 统计量服从(,1)F J n k --。

『证明：Step1，由假定5推出])(,0[~|)('1'2R X X R N X b R --σβ；在原假设H0下，])(,0[~|'1'2R X X R N X r Rb --σ；令)(])([)(1'1'2'r Rb R X X R r Rb w --=--σ，那么有)(~|2J X w χ。

Step2，因为)()('2'2'σεσεσεεσM M ee ==，),0(~|n I N X σε 推出'22|~(1)e eX n k χσ--。

Step3，由0),(=e b Cov 推出X w |和X ee |2'σ独立。

所以''1'1'()[()]()/~(,1)/(1)Rb r R X X R Rb r JF J n k e e n k --------。

』F 统计量的两种更简便的计算方法：22''**'2()/()//(1)(1)/(1)U R U R R Je e e e J F e e n k R n k --==-----其中R SSR 、2R R 是约束回归的残差平方和以及决定系数；U SSR 、2U R 是无约束回归的残差平方和以及决定系数。

讨论几种常见的约束：012():...0k v H βββ====22//~(,1)/(1)(1)/(1)ESS k R k F F k n k RSS n k R n k ==-------上述检验称为联合显著性检验，也是回归分析的常见检验。

e商务文档

讲义3 多元线性回归模型_假设检验

相关文档推荐：