课程设计(论文)课程名称:应用回归分析设计题目:自变量的选择院系:数学与统计学院专业:概率论与数理统计设计者:沈铁学号: ***********自变量选择一.自变量选择概述在应用回归分析去处理实际问题时,回归自变量选择是首先要解决的重要问题。
通常,在做回归分析时,人们根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的的一些因素作为自变量引进回归模型,其结果是把一些对因变量影响很小的,有些甚至没有影响的自变量也选入了回归模型中,这样一来,不但计算量变大,而且估计和预测的精度也会下降。
此外,如果遗漏了某些重要变量,回归方程的效果肯定不好。
在一些情况下,某些自变量的观测数据的获得代价昂贵,如果这些自变量本身对因变量的影响很小或根本没有影响,我们不加选择的引进回归模型,势必造成观测数据收集和模型应用的费用不必要的加大。
因此,在应用回归分析中,对进入模型的自变量作精心的选择是十分必要的。
在多元线性回归模型中,自变量的选择实质上就是模型的选择。
现设一切可供选择的变量是t 个 ,它们组成的回归模型称为全模型(记:1+=t m ),在获得n 组观测数据后,我们有模型⎩⎨⎧+=),0(~2n n I N X Y σεεβ其中:Y 是1⨯n 的观测值,β是1⨯m 未知参数向量,X 是m n ⨯结构矩阵,并假定X 的秩为m 。
现从tx x x ,,,21 这t 个变量中选t '变量,不妨设t x x x ',,,21 ,那么对全模型中的参数β和结构矩阵X 可作如下的分块(记:1+'=t p ):()'=q p βββ,,()q p X X X =我们称下面的回归模型为选模型:⎩⎨⎧+=),0(~2n p p I N X Y σεεβ 其中:Y 是1⨯n 的观测值,pβ是1⨯p 未知参数向量, p X是p n ⨯结构矩阵,并假定pX 的秩为p 。
自变量的选择可以看成是这样的两个问题,一是究竟是用全模型还是用选模型,二是若用选模型,则究竟应包含多少变量最适合。
如果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。
为了讨论方便起见,先引入几个记号:全模型中参数2,σβ的估计:1ˆ()'X X X Y β-'=211ˆ[()]()Y I X X X X Yn R X σ-'''=--其中:)(X R 为矩阵X 的秩。
在点)(1'=t x x x 点上的预测值为ˆˆy x β'=在选模型中参数2,σβ的估计:121()1[()]()p p p p p p p p p p X X X YY I X X X X Yn R X βσ--''=''=--在()'''='''=+),(),()(11tppqpxxxxxxx上的预测值为pppxyβ~~'=二.自变量选择发展简史.从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题,统计学家提出了许多回归选元的准则,并提出了许多行之有效的选元方法. 黄荣坦(1992) 就自变量的选择准则进行了分析比较, 并提出建议, 在编制最优回归方程选择软件时, 只要采用3 种准则, 即广义K 2L 差异度准则、Cp 准则和PRESS 准则, 并指出第一种准则在计算机上较容易实现. 胡代清(1990) 就逐步回归方程的更新也提出了自己的解决办法, 若原观测数据序列长度为N 0, 并已建立相应的回归方程, 现继续观测了N 1 次, 当N 1 较大时, 就需要重新建立回归方程. 这时可利用原数据序列的特征值和新观测的延长序列, 更新逐步回归方程.关于多元线性回归方程自变量选择, 还有如下的一些探讨. 朱颖元(1992) 建议选择因子时, 将F a 作为选择因子的门限值, 而不作为假设检验的显著性界限, 在逐步回归分析的基础上提出了以剩余标准差最小为准则的改进算法; 陈迪(1988) 在模型残差矩阵的迹损失下, 讨论了多元线性模型的自变量选择的问题, 证明了自变量子集可丢弃的充要条件, 并讨论了当设计阵是列正交时最优回归模型的求法; 郑忠国(1991) 利用多重假设检验理论找到逐步回归中选入或删除一个变量的方法, 指出利用偏相关系数构造出来的检验统计量具有一定的优越性.三.自变量选择准则若一个多元回归的问题中有t可供选择的自变量,那么所有可能的回归方程有12-t 个,下面给出一些自变量选择的准则,希望能从12-t 个回归方程中选择一个最合理的方程. 先给出一些记号:对全模型,记:SST SSE R X X X X H Y H I Y SSE -=''=-'=-1,)(,)(21对选模型,记:SST SSE R X X X X H Y H I Y SSE p p p p p p p p p -=''=-'=-1,)(,)(21对一切p 有22p p R R SSE SSE ≥≤,即全模型的残差平方和总达到最小,而复相关系数总达到最大,因此残差平方和和复相关系数均不能作为选择变量的准则。
下面从不同的角度给出自变量选择的准则。
从模型拟合角度考虑准则1 平均残差平方和达到最小.p n SSE Pp -=2~σpSSE 随p 的增加而减少,但p n -也随p 的增加而减少。
但前面的i x,由于其对y 的作用很显著,使pSSE 减少得较快,能使p n SSE p-随的p 增加而减少,但当ix 对y 的作用不明显时, 随差p 的增加,pSSE 减少的很慢,而p n -1随p 的增加继续增加,这就使()P SSE n p -随p 的增加而增加,取()P SSE n p -的最小值所对应的p 。
当然相应入选p 个变量是所有t 个变量是所有自变量中最显著的。
(其显著性由计算t 统计量或F 统计量得出)。
准则2 修正的复相关系数2P R 达到最大。
其中2P R 的定义为, )1)(12---=n SST p n SSE R P P p n n R p ----=1)1(12可以证明在=q β时,22qp p R R +≥,故取2pR 达到最大的方程为好。
从预测角度考虑。
为了叙述方便,先给出下面记号。
记:⎪⎪⎪⎪⎪⎭⎫⎝⎛''''''=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=nqnpq p q pn x x x x x x x x x X 2211''2'1 其中: ⎪⎪⎭⎫ ⎝⎛=iq ip i x x x ,n i 2,1=从而有⎪⎪⎭⎫ ⎝⎛''''='q qp q qp p p X X X X X X X X X X其中:∑=''ip ip p p x x X X ,'iqip q p x x X X ∑=', 'ip iq p qx x X X ∑=',∑=''iq iq q qx x X X准则3 预测偏差的方差p JJ 达到最小2~)(pp p n JJ σ+=而()p p x y D β~'-=21'))(1(σp pppx XX x -'+,所以在n 个样本点上的预测偏差的平方和为:''12()(1())iipp ip p p ip iiD y xx X X x βσ-'-=+∑∑2'12)(σσ⎥⎦⎤⎢⎣⎡'+=∑-i ip ip p p x x X X tr n 2)(σp n +=2σ是未知参数,用2~pσ作为2σ的估计。
准则4 平均预测均方误差pS 达到最小。
2~11pp p n S σ--=由于py ~不一定是Ey 的无偏估计,从而预测偏差 的方差改用均方误差来描述。
准则5pC 统计量22s SSE n p C p p +-=其中2s 是全模型中2σ的无偏估计.考虑在n 个样本点上,用选模型作预测时,预测值与期望值的相对偏差平方和为:∑∑'-'=-=ii p ip ii i p x x Ey y J 2222)~(1)~(1ββσσ而∑'-'+'-'=ii p ip p ip p ip p x x E x E x E EJ ])~()~~([1222ββββσ)(1ˆ212I I +=σ∑∑∑-''='='=iiiipp p ip ip p ip p ip x X X x x D x x D I 121)(~~σββ∑∑''=''=--iiip ip p p ipip p p x x x x tr x x x x tr 1212)()(σσp 2σ= ∑='-'=ni i p ipx x E I 122)~(ββ∑=-'-'=ni q iq q ip x C B x 121)(ββ∑=--'-'-''=ni q iq ip iq ip qx C B x x x B C 111))((ββq iq iq iq ip ip iq ip ip ni qx x x x B C C B x x c B x x B C ββ)(11111'+''-'-'''=----=∑q iq iq ni iq ip ip iq ipipq x x x x B C C B x x C B x xB C ββ)(11111∑∑∑∑'+''-'-'''==----q qD C B C C B C C BB B C ββ)1111+'-'-''=--q qC B CD ββ)(1-'-'= ))(~(22p nE p--=σσ由此可知:{}{}np ESSE n P P N E p n p n E EJ pppp -+=-+-=---=2)2()(~1)2()(~12222222σσσσσσσ故选22s SSE n p C p p +-=。
从上面pC 统计量的定义可知,要选pC 值小,并且PC p -的回归方程。
准则6 预测平方和pPRESS 达到最小。