讲义3 多元线性回归模型:推断主要内容:1、推断的数学知识复习2、Size,power的含义3、OLS估计量的样本分布4、单约束检验-t检验5、多约束检验—F检验对应教材内容:chapter2.5自由度的概念“自由度”是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。
例:假设n 个独立变量Xi ~N(0,1),那么)(~)...(222221n X X X n χ+++;随机向量的分布与数字特征 ● 协方差矩阵设Y 是一个由多个随机变量组成的向量,即'21),...,,(n Y Y Y Y =,那么 Y 的期望为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡==n n Y E Y E Y E μμμ...)(...)()(11, Y 的协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡------=--=∑])[(...)])([(.........)])([(...])[(]))([(21111211'n n n n n n Y E Y Y E Y Y E Y E Y Y E μμμμμμμμ对于n 个随机变量的线性组合Y 'α,有μαααα''11)()...(==++Y E Y Y E n nααα∑='')(Y Var● 多变量的正态分布X ~N (μ,∑),其中X 为n 维列向量,常被称为正态向量;μ为期望向量,∑为协方差矩阵。
X 的密度函数为'1/21/211()exp[()()](2)||2n f X x x μμπ-=--∑-∑.● 正态向量的线性函数 若),(~∑μN X ,那么),(~'A A b A N b AX ∑++μ● 标准正态向量的二次型若~(0,)n X N I ,A 是幂矩阵,那么))((~2'A rank AX X χ。
特别地,)1(~)(2120'--=∑=n X X X M X ni i χ。
● 幂矩阵二次型的独立性设~(0,)n X N I ,A 和B 都是幂矩阵,那么如果0=AB 就有AX X '和BX X '就独立。
● 满秩二次型的分布 设),(~∑μN X ,那么),0(~)(2/1I N X μ-∑-,)(~)()(21'n X X χμμ-∑--。
● 线性函数与二次型的独立性设~(0,)n X N I ,LX 是X 的线性函数,AX X '是X 的二次型,那么如有LA=0必有LX 和AX X '独立。
临界值的概念设X 的分布函数为F ,αx 满足(){},01F x P X x αααα=≤=<<,则称αx 为F 的α临界值或分位数(点)。
例1:对称分布~(0,1)U N 的临界值例2:非对称分布22~(1)n χχ-的临界值区间估计对于参数θ,如果有两个统计量),,,(ˆˆ2111n X X X θθ=,),,,(ˆˆ2122n X X X θθ=,满足对给定的)1,0(∈α,有αθθθ-=≤≤1}ˆˆ{21P则称区间[1ˆθ,2ˆθ]是θ的一个区间估计或置信区间,1ˆθ、2ˆθ分别称作置信下限、置信上限,α-1称为置信水平。
置信水平为1-α,在实际上可以这样理解:如取%951=-α,就是说若对某一参数θ取100个容量为n 的样本,用相同方法做100个置信区间。
[)(1ˆk θ,)(2ˆk θ],k =1,2,…,100,那么其中有95个区间包含了真参数θ.因此,当实际上只做一次区间估计时,我们有理由认为它包含了真参数。
这样判断当然也可能犯错误,但犯错误的概率只有5%。
寻找置信区间的通常方法是从已知抽样分布的统计量,如上文提到的U ,X 和T 入手,由于分布和概率已知,只要确定临界值就可以了。
假设检验原理的复习第一步,建立假设0H 称为原假设,1H 称为备择假设。
注意:在假设检验中,原假设0H 与备选假设1H 的地位是不对等的。
一般来说α是较小的,因而检验推断是“偏向”原假设,而“歧视”备选假设的。
既然0H 是受保护的,则对于0H 的肯定相对来说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于0H 的否定则是有力的,且α越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。
在应用中,如果要用假设检验说明某个结论成立,那么最好设0H 为该结论不成立。
例3.1(单侧检验):00:μμ=H ,01:μμ>H第二步,构造统计量,求出统计量的样本分布以及由样本观察值算出其具体值。
统计量1n SX t 0--=μ在0H 成立的条件下,)(~1n t t-; 对应的具体值记为t ˆ。
第三步,根据备择假设构造出对0H 不利的小概率事件——在给定显著性水平α下,确定临界值,构造出拒绝域。
在一个问题中,通常指定一个正数α(01α<<),认为概率不超过α的事件是在一次试验中几乎不会发生的事件,α称为显著性水平。
α=0.05,算出临界值1(1)t n α--。
1{(1)}V t t n α-=>-,这里V 是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体。
第四步,得出结论方法1:根据计算出来的t 值,看样本是否落在V 内,若落在V 内,则拒绝0H ,否则,不能拒绝0H 。
如果>t ˆ)1(1--n t α,则称能以α的显著性水平拒绝零假设;否则,不能拒绝零假设;方法2:比较p 值和α。
p 值定义为不能拒绝零假设的最大的显著性水平;}ˆ{t t P >,也就是在t-分布中大于统计量t ˆ的概率。
比较p 值和预先设定的显著性水平。
如果p 值<α,则称能以α的显著性水平拒绝零假设;否则,不能拒绝零假设。
例3.2:(双侧检验)0:μμ=H ,01:μμ≠H与例3.2不同的地方在于第三步和第四步。
第三步,令α=0.05,算出临界值1/2(1)t n α--。
1/2{||(1)}V t t n α-=>-,这里V 是拒绝域,它是使得这一小概率事件发生的样本空间的点的全体。
第四步,如果tˆ落在拒绝域,则能拒绝零假设;否则,不能拒绝零假设; 思考:若用方法2,那么p 值是多少?由于统计量是随机变量,假设检验可能犯两种类型的错误。
● 当0H 成立,而检验的结果表明0H 不成立,即拒绝了0H ,这时称该检验犯了第一类错误(typeI error)或“弃真”的错误;第一类错误的概率就是在0H 成立的条件下V 的概率)|(0H V P ; 检验的显著性(size of test )=α● 当0H 不成立,1H 成立,而检验的结果表明0H成立,即接受了0H ,这时称该检验犯了第二类错误(type II error),或称“取伪”的错误。
犯第二类错误的概率是}|{1H V P -X =β。
定义一个检验的势(power of test )=1-β。
给定多元线性回归方程:011...i i ik k i y x x βββε=++++,),...,2,1(n i =OLS 估计量的样本分布在有限样本下进行假设检验,除了假定1到假定4,一般还需要加上假设5: 假定5 扰动项服从正态分布那么,得到,2'1|~(,())b X N X X βσ-其中,|~(,())j j jj b X N X X βσ-单个线性约束的假设检验:t 检验原理:t 统计量=分布t N ~/)1,0(2χ;『证明:因为2'1()/(())|~(0,1)j j jj b X X X N βσ--'22|~(1)e eX n k χσ--所以()/()|~(1)j j j b se b X t n k β---』单个参数的线性假设检验/()~(1)j j t b se b t n k =--上述的t 检验又称系数的显著性检验,是回归分析最常见的检验之一。
t 检验的步骤:1)根据样本数据计算t 统计量;2)确定显著性水平α,一般可选择取1%,5%,10%。
3)确定备择假设,由此确定是单侧检验还是双侧检验。
4) 根据自由度为1n k --的t 分布计算临界值,单侧检验计算αt ,双侧检验计算2/αt 。
或者计算p 值:双侧检验的|)||Pr(|t T p d >=;单侧检验的p 值2/d s p p =。
5)最后比较临界值与t 统计量,或者比较p 值和显著性水平α。
例子:房产价格与空气污染首先估计方程,得到系数OLS 估计值及其标准差:然后进行系数显著性检验。
0:10=βH ;0:11≠βH0~(1)()i i i b t t n k se b β-=--例子(续):1:11<βH 1:11>βH单个线性约束的假设检验2323(1)~(1)var()b b t t n k b b +-=--+3434()~(1)var()b b t t n k b b -=---多个线性约束的假设检验:F 检验F 检验F 统计量服从(,1)F J n k --。
『证明:Step1,由假定5推出])(,0[~|)('1'2R X X R N X b R --σβ;在原假设H0下,])(,0[~|'1'2R X X R N X r Rb --σ;令)(])([)(1'1'2'r Rb R X X R r Rb w --=--σ,那么有)(~|2J X w χ。
Step2,因为)()('2'2'σεσεσεεσM M ee ==,),0(~|n I N X σε 推出'22|~(1)e eX n k χσ--。
Step3,由0),(=e b Cov 推出X w |和X ee |2'σ独立。
所以''1'1'()[()]()/~(,1)/(1)Rb r R X X R Rb r JF J n k e e n k --------。
』F 统计量的两种更简便的计算方法:22''**'2()/()//(1)(1)/(1)U R U R R Je e e e J F e e n k R n k --==-----其中R SSR 、2R R 是约束回归的残差平方和以及决定系数;U SSR 、2U R 是无约束回归的残差平方和以及决定系数。
讨论几种常见的约束:012():...0k v H βββ====22//~(,1)/(1)(1)/(1)ESS k R k F F k n k RSS n k R n k ==-------上述检验称为联合显著性检验,也是回归分析的常见检验。