非参数回归简介一、参数回归与非参数回归的特点无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。
参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。
另一类回归,非参数回归,则与参数回归正好相反。
它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。
参数回归与非参数回归的优缺点比较:参数回归:优点: (1).模型形式简单明确,仅由一些参数表达(eg: y=a+bx+e, a,b为待估参数)(2).在经济中,模型的参数一般都具有明确的经济含义(3).当模型参数假设成立,统计推断的精度较高,能经受实际检验(4).模型能够进行外推运算(5).模型可以用于小样本的统计推断缺点: (1).回归函数的形式预先假定(2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足正态假设,解释变量间独立,解释变量与随机误差不相关,等(3).需要对模型的参数进行严格的检验推断,步骤较多(4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果不好,需要修正或者甚至更换模型非参数回归:优点; (1).回归函数形式自由,受约束少,对数据的分布一般不做任何要求(2).适应能力强,稳健性高,回归模型完全由数据驱动(3).模型的精度高(4).对于非线性、非齐次问题,有非常好的效果缺点: (1).不能进行外推运算 (2).估计的收敛速度慢(3).一般只有在大样本的情况下才能得到很好的效果,而小样本的效果较差(4).高维诅咒, 光滑参数的选取一般较复杂二、非参数回归的方法简介非参数回归方法样条光滑正交回归核回归:N-W估计、P-C估计、G-M估计局部多项式回归:线性、多项式光滑样条:光滑样条、B样条近邻回归:k-NN、k近邻核、对称近邻正交级数光滑局部回归Fourier级数光滑wavelet光滑处理高维的非参数方法:多元局部回归、薄片样条、可加模型、投影寻踪、回归树、张量积等。
●回归模型:设Y 为被解释变量,X 为解释变量,当X 为d 维随机变量时,1(,)d X Y R +∈,(,)i i X Y 为(,)X Y 的相互独立观测样本。
非参数回归模型如下:(1) 其中i e 为相互独立同分布随机变量,满足期望0i Ee =,方差2()i Var e σ=。
()i m X 是未知的函数,目标是要把()i m X 估计出来。
易知,()()E Y X x m x ==。
●权函数方法非参数回归的基本方法有核函数法,最近邻函数法,局部多项式方法、样条函数法,小波函数法。
这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。
也就是说,回归函数()m x 的估计ˆ()mx 总可以表为下述形式: 1ˆ()()ni i i mx W x Y ==∑ (2)其中{W i (X )}称为权函数。
这个表达式表明,ˆ()mx 总是Y i 的线性组合,一个Y i 对应一个W i 。
不过W i 与X i 倒没有对应关系,W i 如何生成,也许不仅与X i 有关,而且可能与全体的{X i }或部分的{X i }有关,要视具体函数而定,所以W i (X )写得更细一点应该是W i (x ;X 1,…,X n )。
这个权函数形式实际也包括了线性回归。
如果i i i X Y εβ+'=,则1ˆ()i ii X X X X X Y β-''''=,也是Y i 的线性组合。
在一般实际问题中,权函数都满足下述条件:(),1,2,,i i i Y m X e i n =+=111(;,,)0,(;,,)1ni n i n i W x X X W x X X =≥=∑(3)下面我们结合具体回归函数看权函数的具体形式。
1.核函数法(N-W 估计)选定R d 空间上的核函数K ,一般取概率密度。
令11(;,,)/n i i i n i n n X x X x W x X X K K h h =⎛⎫⎛⎫--= ⎪ ⎪⎝⎭⎝⎭∑(4)显然∑==ni i W 11。
此时回归函数就是111ˆˆ()()i n nn N W n ni i i n i i i i n X x K h Ym x W x Y Y X x K h -===⎛⎫- ⎪⎝⎭===⎛⎫- ⎪⎝⎭∑∑∑ (5)核函数估计的基本性质:定理1.设模型(1)中的()m x 的N-W 核函数估计为(2)式,且满足以下条件: (A1)()K u du <+∞⎰(A2) lim ()0uuK u →∞= (A3) 2EY <+∞(A4) ,0,n n n h nh →∞→→∞则对每一()m x ,()f x ,2(|)()Var Y X x x σ==的连续点,以及()0X f x >,有1ˆ()()()nP N Wnii n i Wx Y m x m x -==−−→∑2.k 近邻权函数估计k 近邻权估计不同于核估计的构建,核估计是在x 某固定邻域内所对应的解释变量的局部加权平均,估计的好坏主要在于核函数及光滑参数的选取。
由核估计的定义知道,核估计的边界点的偏差将大于内点处的偏差。
也就是说,核估计存在边界效应问题。
而k 近邻权估计是用最靠近x 的k 个观察值所对应的k 个解释变量的加权平均值。
由核函数的选择不同,分为k 近邻均匀权估计与k 近邻核权估计。
非参数模型(1)的k 近邻均匀权估计为1(,)()nn ni i i m x k W x Y ==∑其中1()0,xkni i J W x k⎧∈⎪=⎨⎪⎩,其他令1k n <<,为正整数,{:}xk i J i X x k =为离最近的个观测值之一.k 显然决定了权的大小及参加平均的i Y 的多少,k 实际上类似于N-W 估计中的光滑参数n h ,k 较大时,会提高k 近邻均匀权估计的光滑度。
3.局部多项式估计局部多项式估计使用局部广义最小二乘的思想,依靠局部多项式逼近i Y .设()m x 在X t =处的1p +阶导数存在,x 为t 邻域内的任一点,则()m x 的Taylor 展开式为()()()()()()()!p p m t m x m t m t x t x t p '≈+-++- (6)因此,可以视()(),(),,()p m t m t m t ' 为待估参数,令()!(0,1,)j j m t j j p β== ,则(6)式可写为01()()()p i p i m x X t X t βββ≈+-++- (7)这里11(,),,(,)n n X Y X Y 为(,)X Y 的观测样本。
1201(,,,),(,,)T T n n Y Y Y Y ββββ== 。
由WLSE 解上式得1ˆ()X WX X WY β-''=01ˆˆˆˆ(,,,)T p ββββ= .于是在(6),(7)中: ()0ˆˆˆˆ(),()!j jm t m t j ββ== 当t 取遍X 的样本点时,可以得到整个曲线的估计ˆ()LPEnp m 。
LPE 估计的主要优点为:可以同时用于当X 为随机或者固定设计的形式,并同时给出()m 所有r 阶()r m 的估计ˆ()r m。
更重要的是不必修正边界。
不难发现,N-W 回归估计(*)是(7)0p =局部多项式估计的特例。
事实上,当0p =时,若令1(1,1,,1),i n n n nX x x W diag K h h ⨯⎛⎫⎛⎫-'== ⎪ ⎪ ⎪⎝⎭⎝⎭ ,则此时00ˆˆ()LPE n m x β=即为N-W 估计(亦称局部常数估计),同理可考察11ˆˆ()LPE n m x β=。
对于样条光滑估计、傅里叶级数光滑估计、小波估计等估计方法由于时间原因这里不做介绍了。
● 光滑参数的选取光滑参数(即窗宽)n h 过小,随机误差所产生的噪音得不到排除,是没有意义的估计,n h 过大,会得到过分光滑的曲线,因此对窗宽n h 的选择是衡量核估计精度的重要因素。
关于窗宽n h 的选择有三种方法:直接插入法、交错鉴定法、惩罚函数法,其中交错鉴定法是选择窗宽的一个常用方法,其基本思路是最小化下面的“交叉核实”目标函数:21()()ˆ[()]nn i i i i i CV h X Y m X π=-=-∑ (8)其中,ˆ()i imx -是剔除i x 后由余下1n -个样本数据估计出来的核回归估计量,()i x π是一个权函数。
最优窗宽的交叉核实估计量CV h 定义为最小化上面的目标函数,即:ˆarg min ()nCV nh h CV h = 一般情况下,实际中根据经验选取窗宽的时候也比较多。
三、非参数回归的现实应用例子: 数据选用1998年1月至2012年3月的居民消费价格指数(CPI )和货币供应量M0,数据来源自中国人民银行网站及中经网。
模型中因变量为CPI ,解释变量为M0,我们先用线性回归模型进行估计, 再用非参数回归方法中的局部多项式估计方法, 对上面的各个模型的估计结果进行比较以确定最合适的模型。
以下结果均使用R软件编程实现。
线性回归的结果如下:Estimate Std. Error t value Pr(>|t|) (Intercept) 9.847e+01 3.756e-01 262.19 <2e-16 ***m0 1.375e-04 1.391e-05 9.89 <2e-16 *** Multiple R-squared: 0.3666, Adjusted R-squared: 0.3628图1 CPI与M0线性回归结果从图1我们可以看出,虽然我们能得到CPI与M0之间的直线关系,但是直观上看很多点距离直线的距离较大,也就是估计的误差比较大。
用这种一元回归得到的预测也不一定准确。
图2为标准差的Q-Q图,可以看出残差并不是服从正态分布。
用线性回归模型做两者关系的拟合并不理想。
局部多项式回归拟合结果如下:图 3 局部多项式拟合结果图4为窗宽h放大四倍后的图形:图4 窗宽放大四倍后的拟合结果从图3,图4可以看出用非参数方法得到的拟合图像精确度较高,经计算,求得参数回归估计的MSE为4.259762,而非参数回归估计的MSE仅为,也支持上述结论。
四、结论从上述工作中我们可以看出LPE回归的拟合值与观测值基本一致,估计精度高。
从图3中我们可以看出通货膨胀率与货币供应量并不完全是正相关关系。
我们可以看到在M0达到30000亿前,CPI基本上是随着M0的增加而成上涨趋势,而从M0达到30000亿起,也就是2008年年初起至2009年8月,CPI出现了较大幅度的下降,这与金融危机的影响是密不可分的。