非参数回归介绍
参数估计技术,科学出版社,北京 吴喜之译(2008),现代非参数统计,科学出版社,北京
非参数回归介绍
9
局部回归
1.核回归(核光滑)
(1)N-W估计
由Nadaraya(1964) 和 Watson(1964)分别提出, 形式:
n
m ˆhNW(x)
Kh(xXi)
j1
能够写成:
Rˆ(h)1 h
n i1
Yi
2
1mˆLh(iixi)
这里 Lii i (xi ) 是光滑矩阵L的第i个对角线元素
广义交叉验证(generalized cross-validation,GCV)
GCV(h)1hi n1Yi1m ˆh/(nxi)2
n
其中: /n n1 Lii i 1
非参数回归介绍
6
光滑参数的选取
缺一交叉验证方法(leave-one-out cross validation , CV)
C VR ˆ(h)1 ni n1[Y i m ˆ(i)h(xi)]2
这里 mˆ ( i)h ( x ) 是略去第i个数据点后得到的函数估计
交叉验证的直观意义:
E ( Y i m ˆ ( i ) h ( x i ) ) 2 E ( Y i m ( x i ) m ( x i ) m ˆ ( 1 ) h ( x i ) ) 2
缺点:(1).回归函数的形式预先假定 (2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足
正态假设,解释变量间独立,解释变量与随机误差不相关,等 (3)需要对模型的参数进行严格的检验推断,步骤较多 (4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果
不好,需要修正或者甚至更换模型
据拟合的回归曲线能够最好的逼近真实的回归曲线(即达到风险
最小)Байду номын сангаас这里真实回归函数m(x)一般是未知的。
可能会想到用平均残差平方和来估计风险R(h)
1
n
n
[Yi
i1
mˆh (xi )]2
但是这并不是一个好的估计,会导致过拟合(欠光滑), 原因在于两次利用了数据,一次估计函数,一次估计风险。 我们选择的函数估计就是使得残差平方和达到最小,因此 它倾向于低估了风险。
(1)模型为随机设计模型,样本观测 (X i, Yi)~iid
m (x)E (Y|Xx)
(2)模型为固定设计模型 Xi 为R中n个试验点列, i=1,2,…,n Yi为固定Xi的n次独立观测,i=1,2,…,n m(x)为为一未知函数,用一些方法来拟合
定义:线性光滑器(linear smoother)
非参数回归:
优点;(1)回归函数形式自由,受约束少,对数据的分布一般不做任何要求
(2)适应能力强,稳健性高,回归模型完全由数据驱动
(3)模型的精度高 ;(4)对于非线性、非齐次问题,有非常好的效果
缺点:(1)不能进行外推运算,(2)估计的收敛速度慢
(3)一般只有在大样本的情况下才能得到很好的效果,
而小样本的效果较差
Boxcar核: Gaussian核: Epanechnikov核:
tricube核:
K(x)1/2I(x)
I ( x ) 为示性函数
K(x)1/ 2 ex2/2
K(x)3/4(1x2)I(x)
K (x)7 0/8 1 (1 |x|3)3I(x)
非参数回归介绍
4
回归模型: Ym(x) E0,Var()2
相关文献可以参考:
Wolfgang Härdle(1994),Applied Nonparametric Regression,
Berlin Jeffrey D.Hart (1997), Nonparametric Smoothing and Lack-
of-Fit Tests, Springer Series in Statistics 李竹渝、鲁万波、龚金国(2007),经济、金融计量学中的非
处理高维的非参数方法:多元局部回归、薄片样条、 可加模型、投影寻踪、 回归树、张量积,等
非参数回归介绍
3
核函数K :函数K(.)满足: K(x) 0
( 1 ) K(x)dx 1 ( 2 ) xK(x)dx0
( 3 )
K 2 x2K (x)dx
2
( 4 ) cK K(x) dx
常见的核函数:
E(Yi m(xi))2 E(m(xi)mˆ(1)h(xi))2
2 E(m(xi)mˆ(1)h(xi))2 2 E(m(xi)mˆh(xi))2
因此:E (R ˆ(h ))2 R 预 测 风 险
非参数回归介绍
7
光滑参数的选取
n
定理:若 mˆh(x)
j (x)Yj
那么缺一交叉验证得分 Rˆ ( h )
非参数回归简介
A brief introduction to nonparametric regression
非参数回归介绍
1
参数回归与非参数回归的优缺点比较:
参数回归:
优点:(1).模型形式简单明确,仅由一些参数表达 (2).在经济中,模型的参数具有一般都具有明确的经济含义 (3).当模型参数假设成立,统计推断的精度较高,能经受实际检验 (4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断
tr(L) 为有效自由度
非参数回归介绍
8
光滑参数的选取
其他标准 (1)直接插入法(Direct Plug-In , DPI)
(2)罚函数法(penalizing function)
(3)单边交叉验证(One Sided Cross Validation,OSCV)
(4)拇指规则(Rule Of Thumb)
(4)高维诅咒, 光滑参数的选取一般较复杂
非参数回归介绍
2
归局
非
部
核回归:N-W估计、P-C估计、G-M 估局部计多项式回归:线性、多项式
参 数
回
近邻回归:k-NN、k近邻核、对称近 邻稳健回归:LOWESS、L光滑、R光滑、M 光滑
回
样条光滑
光滑样条:光滑样条、B样条
归
正交级数光滑
方
正交回归
法
Fourier级数光滑 wavelet光滑
m(x) li(x)Yi
i
非参数回归介绍
5
光滑参数的选取
风险(均方误差) (mean squared error , MSE)
R(h)E1 ni n1[m ˆh(xi)m(xi)]2
mˆ h ( x ) 是 m ( x ) 的估计,h是光滑参数,称为带宽或窗宽
理想的情况是希望选择合适的光滑参数h,使得通过样本数