当前位置:文档之家› 光滑样条回归及应用研究

光滑样条回归及应用研究


[1] 9.793812 #读出调整的自由度值为 9.79
>fit2$lambda
[1] 0.004389605##读出调整的光滑参数为 0.0044
>lines(fit2,col="blue",lwd=2) #画出光滑样条曲线
>attr(bs(x,df=9.8),"knots")#读出自由度为 9.8 时,样条结点的位置
在诸多方法中,三次光滑样条因其计算简便、结果有良好的统计性质而应用广泛。在光滑样条的学 术研究上,陈长生、徐勇勇(1997)主要重点研究了儿童成长曲线的光滑样条拟合[1],回归结果优于参数 估计方法。2000 年其在此基础上进行加权光滑样条的改进[2],改进后模型效果更好,稳定性更强。卢一 强、陈中威(2010)主要研究了基于光滑样条的选择方法,提出了部分线性模型中的非参数函数部分的假设 检验是否为多项式的假设检验方法[3]。本文通过介绍光滑样条回归模型、算法、案例分析,基于 R 语言 的实现,对光滑样条进行研究以及光滑样条回归与多项式回归结果的比较分析。
Open Access
1. 引言
在实际应用中,我们常常对总体进行某种分布的假设,抽样得到样本信息,去估计总体参数,这种 方法称为参数估计方法。但当对总体信息一无所知,或不假定总体分布形式,只通过样本信息对总体参 数进行估计,此时,非参数估计就展现了很强的灵活性。
非参数回归分为局部回归、光滑样条回归、正交回归。光滑样条回归,因其在抽取样本对总体进行 回归时,不必依赖总体分布形式,在减小误差、提高预测精确度、提高拟合曲线的光滑度上都体现了良 好的特性。
2. 理论模型及方法论 2.1. 非参数回归模型的一般形式及模型
设 Y 为因变量 X1, X 2 ,, X p 为自变量,非参数回归模型的一般形式为
( ) =Y η X1, X 2 ,, X p + ε
其中对 p 元回归函数只作一些连续性或光滑性的要求。由于非参数回归模型不假定回归函的具体形式而 增加了模型的灵活性和适应性。
12.5%
25%
7.5%
50%
62.5%
75%
100%
0.4115038 0.6566871 0.8289012 0.9908485 1.1491730 1.3207943 2.8121807
运用光滑样条方法拟合的图形如图 1 所示。
5. 实证分析
本文以 R 语言中 ISLR 包中 Wage 数据集为例,此数据集是以美国中部大西洋地区男员工收入水平为 背景的调查数据,通过此数据集运用多项式回归和光滑样条回归两种方法分析比较研究工资水平和年龄 之间的关系。
>set.seed(1)
>ei<-rnorm(4000,0,3) #生成均值为 0,标准差为 1 的 4000 条残差序列
>x<-rnorm(4000,1,0.5) #生成均值为 1,标准差为 0.5 的 4000 条 x 序列
>y<-5*x^2+*x^3+ei #设置 x、y 关系式,生成 y
>plot(x,y,cex=.8,col="darkgrey") #画出 x、y 的散点图
min
s
(
f
)
T
=∑ { yi
−η
(
xi
)}2
+
b
λ ∫ {η ′′ (
x )}2
dx
i =1
a
损失函数
T
∑ { yi
−η
( xi
)}2
是使η
能很好的拟合数据,而
b
λ∫{η′′( x)}2
dx
则对函数 η
的波动性进行惩罚,二
i =1
a
阶导数η′′( x) 对应了斜率的变化程度,衡量的是函数的粗糙度。 λ 为需要选择的光滑参数也称拉格朗日
乘子,此方法可以避免多项式样条估计的节点选择对非参数拟合曲线的光滑程度影响。λ 值越大,函数η
越光滑。
3. 光滑样条基本算法
1) 目标函数均方误差最小
min
s
(
f
)
T
=∑{
yi
−η
(
xi
)}2
+
λ
b


′′
(
x )}2
dx
i =1
a
2)
写成矩阵形式,其中
η
(
x
)
=

N j =1
N
j
(
x

j
s (θ , λ ) =( y − Nθ )T ( y − Nθ ) + λθ TΩNθ
文章引用: 王凤雪. 光滑样条回归及应用研究[J]. 统计学与应用, 2019, 8(4): 604-612. DOI: 10.12677/sa.2019.84069
关键词
光滑样条,算法,光滑度
王凤雪
Copyright © 2019 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/
6) 估计样条函数
∑ =ηˆ S= λ y
( ) ρ N
k =1 k
λ
uk uKT y
4. 基于 R 语言的随机模拟比较研究
光滑样条的拟合用 R 语言的 smoothing.spline()实现。随机模拟实验运用 R 语言,随机生成变量 X,Y,
运用光滑样条方法回归拟合 X 与 Y 之间的关系。
#模拟实验
矩阵 Sλ 可以写成 Sλ= ( I − λ K )−1 此时 min s (η ) = ( y −η )T ( y −η ) + ληT Kη → ηˆ = Sλ y
矩阵 S 具有对称半定性质,对其进行特征分解:
∑ ( ) Sλ =
ρ N
k =1 k
λ
uk uKT
其中,
ρk

)
=
1
+
1 λdk
,这里的 dk 是矩阵 K 的特征值
The Study on Smooth Spline Regression and Its Application
Fengxue Wang
College of Science, North China University of Technology, Beijing
Received: Jul. 19th, 2019; accepted: Aug. 1st, 2019; published: Aug. 12th, 2019
>title("Smoothing Spline") #题头命名“光滑样条”
>fit=smooth.spline(x,y,df=10) #设置初始自由度为 10,进行光滑样条拟合
>fit2=smooth.spline(x,y,cv=TRUE)#运用交叉验证法,调整自由度,再次利用光滑样条拟合
>fit2$df
Abstract
This paper studies the smooth spline regression by introducing the model, algorithm and the case for analysis of the nonparametric estimation method. Taking the Wage data set in the ISLR package in R language as an example, spline regression and polynomial are respectively used for empirical analysis, and the relationship between Wage and age is fitted. The results show that spline regression results are superior to polynomial regression.
i =1
在实际生活中,三阶样条比较常用,原理如下:
设某区间 [a,b] 上有实数 t1,t2 ,,tn
且满足
a
<
t1
<
t2
<<
tn
<
b

f
(x)
是定义在区间 [a,b] 的函数,
如 f ( x) 满足以下条件[儿童参考]:
1) 在 [a,t1 ],(t1,t2 ],,(tn ,b] 上,函数 f ( x) 为三次多项式。 2) 函数 f ( x) 及其二阶导数在 ti (i = 1, 2,, n) 处处连续。
DOI: 10.12677/sa.2019.84069
606
统计学与应用
王凤雪
5) 求光滑参数 λ
dfλ = trace ( Sλ )
( ) ( ) ( ) Sλ = N N T N + λΩN N T = N N T I + λ N − T ΩN N −1 N −1 N T = I + λ N −TΩN N −1 −1
Figure 2. Scatter diagram 图 2. 散点图
5.1. 多项式回归模型
由 wage-age 的散点图可以,两变量之间不存在线性关系,最好是拟合一条曲线,使散点均匀地散落 在曲线两侧,首先尝试构造多项式回归模型。构造多项式回量间产生多重共线性。运用交叉验证法选择合适的多项式次 数。 #运用交叉验证法选择多项次最佳回归次数
相关主题