当前位置:文档之家› 多元线性回归分析—内容提要与案例

多元线性回归分析—内容提要与案例

多元线性回归分析—内容提要 1.多元线性回归的数学模型【模型的理论假设】设p x x x ,,,21 是) 2 ( ≥p 个自变量(解释变量),y 是因变量,则多元线性回归模型的理论假设是εββββ+++++=p p x x x y 22110,),0(~2σεN ,其中,p ββββ,,,,210 是1+p 个未知参数,0β称为回归常数,p βββ,,,21 称为回归系数,),0(~2σεN 为随机误差.【模型的建立】求p 元线性函数p p x x x Ey ββββ++++= 22110的经验回归方程pp x x x y ββββˆˆˆˆˆ22110++++= , 其中,y ˆ是Ey 的统计估计,p ββββˆ,,ˆ,ˆ,ˆ210 分别是,,,,,210pββββ 的统计估计,称为经验回归系数.【模型的数据结构】设对变量向量y x x x p ,,,,21 的n 次观测得到的样本数据为),,,,(21i ip i i y x x x ,) 1 ( ,,2,1 +>=p n i .为了今后讨论方便,我们引进矩阵⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y y 21,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=np n p p x x x x x x X 1221111111,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p ββββˆˆˆˆ10 ,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n εεεε 21 于是,多元线性回归模型的数据结构为εβ+=X y称为多元样本回归方程,其中n p X rank <+=1)(,) ,(~21n n n n I O N ⨯⨯σε且各个i ε相互独立.由于矩阵X 是样本数据,X 的数据可以进行设计和控制,因此,矩阵X 称为回归设计矩阵或资料矩阵.注释 对多元线性回归模型理论假设的进一步说明:⑴ 条件n p X rank <+=1)(表明,X 是一个满稚矩阵,即矩阵X 列向量(解释变量)间线性无关,样本容量的个数应当大于解释变量的个数.反该假设时,称模型存在多重共线性问题.⑵ 条件) ,(~21n n n n I O N ⨯⨯σε且各个i ε相互独立表明,系统受到零均值齐性方差的正态随机干扰,系统自变量之间不存在序列相关,即0)(=i E ε,⎩⎨⎧≠==ji ji j i ,0 ,),cov(2σεε, ,,2,1, n j i =. 当j i j i ≠≠ ),var()var(εε时,称回归模型存在异方差.当j i j i ≠≠,0),cov(εε时,称回归模型存在自相关.当模型违反上述假设后,就不能使用最小二乘法估计回归系数.解决方法将在后面介绍,先介绍模型符合假设时的参数估计方法.2.模型参数的最小二乘估计【参数估计的准则】定义离差平方和),,,(10p Q βββ ∑=-=ni i i y E y 12))((∑=----=ni ip p i x x yi 12110)(βββ ,求pβββˆ,,ˆ,ˆ10 使得 ),,,(m in)ˆ,,ˆ,ˆ(10,,,1010p pQ Q pβββββββββ =,称p βββˆ,,ˆ,ˆ10 称为模型参数pβββ,,,21 的最小二乘估计,称 ipp i i i x x x y ββββˆˆˆˆˆ22110++++= 为因变量),,2,1( n i y i =的回归拟合值,简称回归值或拟合值.称i i i yy e ˆ-= 为因变量),,2,1( n i y i =的残差.【参数估计的算法】当满足元线性回归模型理论假设的条件时,模型参数p βββ,,,21 的最小二乘解为()y X X X T T 1ˆ-=β. 可以证明)ˆ(ββ=E ,12)()ˆcov( -=X X T σβ, ),(~ˆ2σββjjj j c N ,p j ,,2,1 =, 其中()p p ij T c X X ⨯-=1)(.由此可见,T p)ˆ,,ˆ,ˆ(ˆ10ββββ =是T p ),,,(10ββββ =的无偏估计.协方差阵)ˆcov(β反映出估计量βˆ的波动大小,由于)ˆcov(β是2σ右乘一个矩阵1)(-X X T ,所以βˆ的波动大小可以由抽样过程中进行控制.同一元线性回归分析一样,在多元线性回归中,样本抽样要尽可能的分散.3.回归方程的显著性检验⑴ 多元回归方程显著性的整体性检验检验解释变量p x x x ,,,21 全体对因变量y 是否有显著影响,方法是F 检验,亦称方差分析.【显著性检验基本定理】令∑=-=ni i y y SST 12)( ─ 总偏差平方和,自由度1-=n f T .∑=-=ni i y ySSR 12)ˆ( ─ 回归平方和,自由度p f R =. ∑=-=ni i i yy SSE 12)ˆ( ─ 残差平方和,自由度1--=p n f E . 则有① SSE SSR SST +=. ②)1(~22--p n SSEχσ且2)1()(σ--=p n SSE E .③ SSE 与T p)ˆ,,ˆ,ˆ(ˆ10ββββ =相互独立. 【显著性检验基本方法 ─ F 检验(方差分析)】 检验假设0:H 021====p βββ .检验统计量及其分布在0H 为真时,SSR 与SSE 相互独立,)(~22p SSRχσ,于是检验统计量)1,(~)1/(/----=p n p F p n SSE pSSR F .检验的显著性概率()F p n p F P p >--=)1,( .决策准则在显著性水平α下,当p >α时拒绝0H ,即认为回归方程有显著意义. ① 当01.0<p 时,称回归方程高度显著,标记为**; ② 当05.001.0<≤p 时,称回归方程显著,标记为*; ③ 当05.0≥p 时,称回归方程不显著,不做标记. 检验结果的报告(方差分析表)此外,与一元线性回归分析类似,可用可决系数SSTSSRR =2 来测定回归方程对各个观测点的拟合程度,]1,0[2∈R ,2R 的值越大(小)表明回归直线对各个观测点的拟合程度越高(低).⑵ 多元回归方程中每个自变量对因变量影响显著性检验 检验解释变量j x 对因变量y 影响的显著性. 检验假设0:j H 0=j β(p j ,,2,1 =). 检验统计量及其分布 在0H 为真时,检验统计量)1,1(~)1/(ˆ2----=p n F p n SSE c F jj jj β检验的显著性概率()j F p n F P p >--=)1,1(.决策准则在显著性水平α下,当p >α时拒绝j H 0,即认为解释变量j x 对因变量y 影响显著. 若存在不显著的变量,取}{min 1j pj k F F ≤≤=,从回归方程中剔除自变量k x .设从原回归方程pp k k k k k k x x x x x y ββββββˆˆˆˆˆˆˆ1111110+++++++=++-- 中剔除自变量k x 后,重新建立的回归方程中为pp k k k k x x x x y *1*11*11*1*0ˆˆˆˆˆˆβββββ++++++=++-- , 则可以证明,新回归方程的系数与原回归方程的系数有如下关系:k kkkj j j c c βββˆˆˆ*-= ) , ,,2,1(k j p j ≠= , ∑≠-=kj jj x y **0ˆˆββ. 对于新建立的回归方程,必须对每一个余下的变量再次进行检验,直至余下变量全部显著为止.4.最优回归方程的选择⑴ 最优回归方程选择标准① 因子完备的原则 回归方程中包含所有对因变量有显著影响的自变量. ② 模型从简的原则 回归方程中所包含的自变量的个数尽可能的少. ③ 充分拟合的原则 回归方程的剩余方差达到最小. ⑵ 最优回归方程选择方法(逐步回归法)① 根据问题所属专业领域的理论和经验提出对因变量可能有影响的所有自变量. ② 计算每一个自变量对因变量的相关系数,按其绝对值从大到小排序.③ 取相关系数绝对值最大的那个自变量建立一元线性回归模型,检验所得回归方程的显著性,若检验表明回归效果显著则转入④,若检验表明回归效果不显著则停止建模.④ 进行变量的追加、剔除和回归方程的更新操作:若检验表明回归效果显著,则按相关系数绝对值由大到小的顺序逐一将相应的自变量引入回归方程;每引入一个新的自变量,对新回归方程中每一个自变量都要进行显著性检验.若检验表明回归效果不显著,则剔除对因变量影响最小的自变量,更新回归方程;对更新后的回归方程中的每一个自变量仍要进行显著性检验、剔除、更新,直到回归方程中的每一个自变量都显著为止,再引入前面未曾引入的自变量.以此类推,直到无法剔除已经引入的自变量,也无法引入新的自变量为止. 注释① 逐步回归法不能保证得到真正的最优回归方程,但此法是计算量较小、预测效果较好、有工具软件支持、应用最多欧德一种方法.② 逐步回归法受检验的显著性水平α影响较大,α较大将会有较多的自变量引入回归方程,α较小将会导致一些重要的自变量被剔除.5.利用回归方程对系统进行预测⑴ 点预测设预测点为T p x x x x ),,,(002010 =,则pp x x x y 002201100ˆˆˆˆˆββββ++++= 是对p p x x x Ey 002201100ββββ++++=的点估计,亦是对0002201100εββββ+++++=p p x x x y ,),0(~20σεN的点预测.⑵ 区间预测 可以证明)1(~ˆ00--∆-=p n t s yy t其中12--=p n SSEs (剩余方差),∑∑==--++=∆p i pj ij j j i i c x x x x n 1100))((11,),,2,1( 11p i x n x nk ki i ==∑=.于是,点预测的误差为∆--±-s p n t )1(2/1α,即在0x 处的区间预测为))1(ˆ , )1(ˆ(2/102/10∆--+∆-----s p n t y s p n t yαα 即ααα-=∆--+<<∆-----1})1(ˆ )1(ˆ{2/1002/10s p n t y y s p n t yP . 当n 较大,),,2,1( 0p i x x i i =≈时,可取1=∆以此来简化计算.多元线性回归分析—案例及M A T L A B 解决【案例】 设某种水泥在凝固时所释放出的热量Y (卡/克)与水泥中的下列四种化学成分有关:1x ─32O Al 3CaO ⋅的成分(%), 2x ─2SiO 3CaO ⋅的成分(%), 3x ─3232O Fe O Al 4CaO ⋅⋅的成分(%),4x ─2SiO 2CaO ⋅的成分(%).共观测了13组数据(见下表):序号x 1x 2x 3x 4Y1 2 3 4 57 1 11 11 726 29 56 31 526 15 8 8 660 52 20 47 3378.5 74.3 104.3 87.6 95.96 7 8 9 10 11 12 1311 3 1 2 21 1 11 1055 71 31 54 47 40 66 689 17 22 18 4 23 9 822 6 44 22 26 34 12 12109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4试用逐步回归法求出Y 对1x 、2x 、3x 和4x 的最优回归方程.注释 数据保存在hald.mat 文件中,ingredients 为解释变量, heat 为因变量 .1、MATLAB 逐步回归法建模的交互式图形环境介绍【函数名称】stepwise 【函数功能】创建多元线性回归分析的逐步回归法建模的交互式图形环境. 【调用格式】 stepwise(X,y)stepwise(X,y,inmodel,penter,premove) 【参数说明】X ─p 元线性模型解释变量的n 个观测值的n ×p 矩阵. y ─p 元线性模型因变量的n 个观测值的n ×1向量.inmodel ─标量或向量(由X 的列号构成),用来指明最初引入回归方程的解释变量(缺省设置为空).penter ─模型检验的显著性水平上限值(缺省设置为0.05). premoveb ─模型检验的显著性水平下限值(缺省设置为0.10). 【案例中的应用】load haldstepwise(ingredients, heat) 【交互式图形界面的说明】窗口Ⅰ C o e f f i c i e n t s w i t h E r r o r B a r s绘出各个解释变量回归系数的估计,圆点表示点估计值,横线表示置信区间(有色线段表示90%置信区间,黑色线段表示95%置信区间).窗口的右侧给出回归系数的点估计值(Coeff)、显著性检验的t统计量的值(t-stet)和显著性概率p值(p-val).窗口ⅡM o d e l H i s t o r y该窗口绘出的圆点表示历次建模的模型标准差σ的估计.两个窗口中间输出的是当前模型的有关信息,包括:lntercept ─模型截距(常数项)的估计.RMSE ─模型标准差σ的估计.R-square ─可决系数.Adj-R-sq ─校正的可决系数.F ─模型整体性检验的F统计量的值.p ─模型整体性检验的显著性概率.窗口Ⅰ右侧的三个按钮:Next Step ─在回归方程中按相关系数绝对值大小逐次引入解释变量,如无解释变量可引入时按钮不可用.All Steps ─直接给出“只进不出”方式建模的最终结果(注意,此时的回归方程未必是最优回归方程).Export…─选择向Workspace传输的计算结果(有关变量名可由用户自定义).2、MATLAB逐步回归法建模的集成命令介绍【函数名称】stepwisefit【函数功能】用逐步回归法创建多元线性回归分析的最优回归方程..【调用格式】b = stepwisefit(X,y)[b,se,pval,inmodel,stats,nextstep,history] = tepwisefit(...) [...] = stepwisefit(X,y,'Param1',value1,'Param2',value2,...) 【参数说明】输入参数X与y的意义同函数stepwise. 其它引用参数的用法请用doc命令调阅系统帮助.输出参数b─模型系数 .se ─模型系数的标准误差.pval─各个解释变量显著性检验的显著性概率.inmodel─各个解释变量在最终回归方程中地位的说明(1表示在方程中,0表示不再方程中).stats─是一个构架数组,包括:source :建模方法的说明,'stepwisefit'表示逐步回归法;dfe:最优回归方程的剩余自由度;df0:最优回归方程的回归自由度;SStotal:最优回归方程的总偏差平方和;SSresid:最优回归方程的剩余平方和;fstat:最优回归方程的F统计量的值;pval:最优回归方程的显著性概率;rmse:最优回归方程的标准误差估计;B:模型系数;SE:模型系数的标准误差;TSTAT:每个自变量显著性检验的T统计量的值;PVAL:每个自变量显著性检验的显著性概率;intercept:常数项的点估计;等等.nextstep ─对是否还有需要引入回归方程的自变量的说明(0表示没有)history ─是一个构架数组,包括:rmse:每一步的模型标准误差估计;df0:每一步引入方程的变量个数;in:记录了按相关系数绝对值大小逐步引入回归方程的变量的次序.【案例中的应用】load hald[b,se,pval,inmodel,stats,nextstep,history]=stepwisefit(ingredients, heat, 'penter', .10) Initial columns included: noneStep 1, added column 4, p=0.000576232Step 2, added column 1, p=1.10528e-006Step 3, added column 2, p=0.0516873Step 4, removed column 4, p=0.205395Final columns included: 1 2Columns 1 through 3'Coeff' 'Std.Err.' 'Status'[ 1.4683] [ 0.1213] 'In'[ 0.6623] [ 0.0459] 'In'[ 0.2500] [ 0.1847] 'Out'[-0.2365] [ 0.1733] 'Out'Column 4'P'[2.6922e-007][5.0290e-008][ 0.2089][ 0.2054]b =1.46830.66230.2500-0.2365se =0.12130.04590.18470.1733pval =0.00000.00000.20890.2054inmodel =1 1 0 0stats =source: 'stepwisefit' dfe: 10df0: 2SStotal: 2.7158e+003SSresid: 57.9045fstat: 229.5037pval: 4.4066e-009rmse: 2.4063xr: [13x2 double] yr: [13x1 double] B: [4x1 double]SE: [4x1 double]TSTAT: [4x1 double]PVAL: [4x1 double]intercept: 52.5773wasnan: [13x1 logical]nextstep =history =rmse: [8.9639 2.7343 2.3087 2.4063] df0: [1 2 3 2]in: [4x4 logical]。

相关主题