当前位置:文档之家› 非参数回归模型与半参数回归模型

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型第一节 非参数回归与权函数法一、非参数回归概念前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。

参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。

另一类回归,非参数回归,则与参数回归正好相反。

它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。

设Y 是一维观测随机向量,X 是m 维随机自变量。

在第四章我们曾引进过条件期望作回归函数,即称g (X ) = E (Y |X ) (7.1.1)为Y 对X 的回归函数。

我们证明了这样的回归函数可使误差平方和最小,即22)]([min )]|([X L Y E X Y E Y E L-=-(7.1.2)这里L 是关于X 的一切函数类。

当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。

细心的读者会在这里立即提出一个问题。

既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。

实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。

正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。

在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。

所以我们知道,参数回归与非参数回归的区分是相对的。

用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。

二、权函数方法非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。

这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。

也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式:∑==ni i i n Y X W X g 1)()((7.1.3)其中{W i (X )}称为权函数。

这个表达式表明,g n (X )总是Y i 的线性组合,一个Y i 对应个W i 。

不过W i 与X i 倒没有对应关系,W i 如何生成,也许不仅与X i 有关,而且可能与全体的{X i }或部分的{X i }有关,要视具体函数而定,所以W i (X )写得更仔细一点应该是W i (X ;X 1,…,X n )。

这个权函数形式实际也包括了线性回归。

如果i i i X Y εβ+'=,则Y X X X X X ii '''='-1)(ˆβ,也是Y i 的线性组合。

在一般实际问题中,权函数都满足下述条件:1),,;(,0),,;(111=≥∑=n ni i n i X X X W X X X W(7.1.4)如果考虑在第五章介绍的配方回归与评估模型曾有类似条件,不妨称之为配方条件,并称满足配方条件的权函数为概率权。

下面我们结合具体回归函数看权函数的具体形式。

1.核函数法选定R m 空间上的核函数K ,一般取概率密度。

如果取正交多项式则可能不满足配方条件。

然后令∑=⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛-=n i n in in i a X X aX X K X X X W 11/),,;( (7.1.5)显然∑==ni iW11。

此时回归函数就是i ni nj n i n i n i i i Ya X X K a X X K Y X W X g Y ∑∑∑===⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫⎝⎛-===111)()( (7.1.6)2.最近邻函数法首先引进一个距离函数,用来衡量R m 空间中两点u = (u 1,…,u m ) 和v = (v 1,…,v m ) 的距离‖u -v ‖。

可以选欧氏距离∑=-=-ni i iuu 122)(||||υυ,也可以选||||max ||||1i i ni u u υυ-=-≤≤。

为了反映各分量的重要程度,可以引进权因子C 1,…,C n ,使{C i }也满足配方条件。

然后将距离函数改进为∑=-=-ni i i i u C u 122)(||||υυ(7.1.7) ||max |||12i i i ni u C u υυ-=-≤≤(7.1.8)现在设有了样本(Y i ,X i ),i =1,…,n ,并指定空间中之任一点X ,我们来估计回归函数在该点的值g (X )。

将X 1,…,X n 按在所选距离‖·‖意义下与X 接近的程度排序:||||||||||||21X X X X X X n k k k -<<-<-(7.1.9)这表示点1k X 与X 距离最近,就赋以权函数k 1;与X 距离次近的2k X 就赋予权函数k 2。

…,等等。

这里的n 个权函数k 1,…,k n 也满足配方条件,并且按从大到小排序,即∑==>≥≥≥ni i n k k k k 1211 ,0(7.1.10)就是n i k X X X W i n k i ,,1 ,),,;(1 ==(7.1.11)若在{‖X i -X ‖, i =1,…,n }中有相等的,可将这n 个相等的应该赋有的权取平均。

比如若前两名相等,‖X 1-X ‖=‖X 2-X ‖, 就令W 1 = W 2=)(2121k k +。

这样最近邻回归函数就是∑∑∑=======ni ni ni i i i i i n i Y X k Y k Y X X X W X g Y 1111)(),,;()((7.1.12)k i 尽管是n 个常数,事先已选好,但到底排列次序如何与X 有关,故可记为k i (X )。

三、权函数估计的矩相合性首先解释矩相合性的概念。

如果对样本 (Y i ,X i ),i =1,…,n 构造了权函数W i = W i (X )=W I (X ;X 1,…,X n ),有了回归函数g (X )的权函数估计∑==ni ii n YW X g 1)(,当Y 的r 阶矩存在(E |Y |r <∞)时,若0|)()(|lim =-∞→r n n X g X g E(7.1.13)则称这样的权函数为矩相合的权函数。

在什么样的条件下构造的权函数是矩相合的呢? Stone(1977)提出了很一般的,几乎是充分必要的条件。

下面我们考虑其充分性条件,并限于考虑概率权。

定理7.1.1 设概率权{W i }满足下述条件: (1)存在有限常数C ,使对R m 上任何非负可测函数(连续函数与分段连续函数是最常见的可测函数)f , 必有)()(1X CEf X f W E n i i i ≤⎪⎭⎫⎝⎛∑= (7.1.14)(2)∀ε>0, 当n →∞时,01)||(||−→−∑=≥-Pni X X i i I W ε (7.1.15)(3)当n →∞时,0max 1−→−≤≤Pi ni W (7.1.16)则{W i }是矩相合的权函数。

定理条件可以作一些直观解释。

条件(1)可以作如下理解,因为权函数是概率权,必有|W i |<1,i =1,…,n 。

于是∑∑∑∑=====≤≤⎪⎭⎫⎝⎛n i n i ni i i i i n i i i X f E X f E X f W E X f W E 1111)()()()((7.1.17)这里取的是C =1。

因此条件(1)可以说不叫做一个条件。

条件(2)是说,与X 的距离超过一定值的那些X i ,对应算出来的权函数之和很小,也就是说,权函数的值主要取决于那些与X 邻近的X i 的值。

这个条件合理。

条件(3)是说,当n 越来越大时,各个权系数将越来越小,这也是合理的要求。

在证明本定理之前,先证两个引理。

引理7.1.1 设概率权函数{W i }适合定理7.1.1的条件(1)及(2),又对某个r , E |f (X )|r <∞,则0)()()(lim 1=⎪⎭⎫⎝⎛-∑=∞→r i n i i n X f X f X W E (7.1.18)证明 先设f 在R m 上有界且一致连续,则任给ε>0,存在ε>0,当‖u -v ‖≢ε时,|f (u )-f (v )|≢(ε/2)1/r 。

于是εη>-==∑∑+≤-)(||11)()2(2)()()(X X ni irrini ii IX W M X f X f X W (7.1.19)其中)(sup X f M X=,此处X 表示具体取值。

由条件(2),上式右边第二项依概率收敛于0且不大于1。

依控制收敛定理有0)(lim 1)(||=⎪⎭⎫⎝⎛∑=>-∞→n i X X i n i I X W E ε (7.1.20)故存在n 0,使当n ≣n 0时,有2)(1)(||ηε≤⎪⎭⎫ ⎝⎛∑=>-n i X X i i I X W E(7.1.21)因此当n ≣n 0时,有η≤⎪⎭⎫⎝⎛-∑=n i r i i X f X f X W E 1|)()(|)((7.1.22)于是对这种一致连续的f ,引理得证。

证毕对一般的函数f ,取一个在R m上连续,且在一有界域之外为0的函数f ~,使∞<2)(~X f E ,且η<-rX f X f E )(~)(,这里ε是事先指定的。

因为⎭⎬⎫⎪⎭⎫ ⎝⎛-+⎪⎭⎫ ⎝⎛-+⎩⎨⎧⎪⎭⎫ ⎝⎛-≤⎪⎭⎫ ⎝⎛-∑∑∑∑===-=r ni i r i i ni i r i ni i r r i n i i X f X f X W E X f X f X W E X f X f X W X f X f X W E |)()(~|)(|)()(~|)( |)(~)(|)(3)()()(11111 (7.1.23)右边括号里第三项等于η<-r X f X f E )()(~;第一项根据条件(1)不超过ηC X f X f CE r <-)()(~;因为f ~在R m 上有界且一致连续,由前面已证结果知当n →∞时,第二项将趋于0。

因此η)1(3|)()(|)(lim 11+≤⎪⎭⎫⎝⎛--=∞→∑C X f X f X W E r r i n i i n (7.1.24) ε是任意的,故引理得证。

证毕引理7.1.2 设{W i }为满足定理7.1.1三个条件的概率权,函数f 非负且∞<)(X Ef ,则0)()(lim 12=⎪⎭⎫⎝⎛∑=∞→i n i i n X f X W E (7.1.25)证明 定义一组新的概率权函数2i i W W =',由于0≢W i ≢1, 故0≢i W '≢1。

相关主题