当前位置:文档之家› 第11章 非参数回归(非参数统计,西南财大)范文

第11章 非参数回归(非参数统计,西南财大)范文

第十二章 非参数回归及其相关问题第一节 参数回归问题的回顾在线性回归模型中,我们总是假定总体回归函数是线性的,即 多元线性回归模型一般形式为:i Ki K i i i X X X Y μββββ+++++= 33221总体回归函数(PRF )Ki K i i ki i i i X X X X X X Y E X m ββββ++++== 3322132),,,()(但是,经验和理论都证明,当)(X m 不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对)(X m 的形式不作任何假定的前提下研究估计)(X μ。

例 设二维随机变量,其密度函数为⎩⎨⎧≤≤≤≤+=其它10,10),(y x yx y x f ,求)/(x X Y E =.解:1021),()(1≤≤+==⎰x x dy y x f x f x⎰==1)(),()/(dy x f y x f yx X Y E x ⎰++=1021dy x y x y ⎰++=1)(211dy y x y x )()321(122x m x x =++= 从例可知,)/(x X Y E =仅与x 有关,条件期望)/()(x X Y E x m y ===表明Y 与X 在条件期望的意义下相关。

由样本均值估计总体均值的思想出发,假设样本),(11Y X ,),(22Y X ,…,),(n n Y X 中有相当i X 恰好等于x ,()(/)m x E Y x =,不妨记为1i X ,2i X ,…,k i X ,自然可取相应的Y 的样本1i Y ,2i Y ,…,k i Y ,用他们的平均数∑=kj i j Y k 11去估计)/()(X Y E X m =。

可是2在实际问题中,一般不会有很多i X 的值恰好等于x 。

这个估计式,仿佛是一个加权平均数,对于所有的i X ,如果等于x ,则赋予k1的权,如果不等于x ,则赋予零权。

由此可启发我们在思路上产生了一个飞跃。

即对于任一个x ,用n Y Y Y ,,,21 的加权和去估计()m x ,即∑==ni i i n Y W x m1)(ˆ,其中n i W i ,,2,10 =≥,,1=∑i W 估计)/()(X Y E X =μ。

问题是如何赋权,一种合乎逻辑的方法是,等于x 或靠x 非常近的那些i X ,相应的权大一些,反之小权或零权。

两种模式:设(,)k Y R R ∈⨯x 上的随机变量,(,)(1,2,,)i i Y i n =x 为的n 次观测值。

实际应用中 ,{}ni i x 为非随机的,n Y Y Y ,,,21 依条件独立,在理论上非参数回归中{}ni i x 既可以是非随机的,也可以是随机的。

而参数回归分析中,我们总是假定{}ni i x 为非随机的。

根据{}ni i x 的不同非参数回归有两种模式。

1、{}n i i x 为随机时的非参数回归模型设(,)kY R R ∈⨯x ,+∞<||Y E ,(,)(1,2,,)i i Y i n =z 为(,)Y x 的随机样本。

存在没个未知的实值函数(.)g ,使得(/()i E Y g =i x =x x ) n i ,,2,1 =一般记为(/Y E Y =X =x )(/(/)E Y yf y dy =⎰X =x x )(,)()f y ydy f =⎰x x (,)()()(,)x yf y dy r f f y dy ==⎰⎰x x x x这里,0f ≠x (x),如果0f =x (x),则((/)0m E Y ===x)X x 2、{}ni i x 为非随机时的非参数回归模型由于在实际中,研究者或试验者一般可以控制X 或预先指定X ,这时X 可能不再是随机变量,例如年龄与收入之间的关系中年龄为固定时,收入的分布是已知的,不存在X 为非参数回归3随机变量时,估计)(x f x 的问题。

设(,)k Y R R ∈⨯x ,+∞<||Y E ,(,)(1,2,,)i i Y i n =x 为(,)Y x 的随机样本设的随机变量,(,)(1,2,,)i i Y i n -x 为()Y x,的n 次独立观测值,则 ()i i Y g e =+i x ),,2,1(n i =iid e e e n ,,,21 ,0)(=i e E ,+∞<=2)(σi e Var 。

第二节 一元非参数回归核估计方法一、核估计(一) Nadaraya-Watson 估计核权函数是最重要的一种权函数。

为了说明核函数估计,我们回忆二维密度估计dy x f y x f dy x y yf x X Y E x m x ⎰⎰====)(),()/(/()() (1) 而),(1),(12ni ni n i nh yY h x X K nh y x f --=∑= )(1)(11),(1ni n i n n i n h y Y K h h x X K h n y x f --=∑= (2)在这个密度函数估计中,核函数必须相等,光滑参数n h 可以不等,光滑参数不等时,有)(1)(11),(1yi n i y x i x h y Y K h h x X K h n y x f --=∑=将(2)代入(1)的分子,得dy h y Y K h y h x X K h n dy y x f y yi n i y x i x )()(11),(1--=∑⎰⎰= 令i y Y y s h -+=,则1yds dy h =111(,)()()()n i y i i x xX x y f x y dy K sh Y K s ds n h h =-=+∑⎰⎰4又由)(s k 有对称性,则⎰≡0)(ds s sK ,⎰≡1)(ds s K ,得1式的分子为分子=i x i ni x Y h xX K nh )(11-∑= 分母=)(11xi ni xh xX K nh -∑= 111111()()()11()()n n i i i i i i x x x xn nni i i i x x x xX x X x K Y K Y nh h h h m x X x X x K K nh h h h ====--==--∑∑∑∑ 可以看出对)x X Y E x m ==/()(的 估计,是密度函数估计的一种自然推广,一般也称为权函数估计∑==ni i nin Y x Wx m 1)()(其中11()()1()i x xni ni i x xX x K h h W x X x K h h =-=-∑ 可以看出权函数完全由)(x W ni 确定,其取值与X 的分布有关,称为N-W 估计。

可以推得:∑∑==-=-ni n i ni n i i ni x mY x W Y x W 1212))(ˆ)(())((min θ 0))((12=-∂∂∑=ni i niY x Wθθ0))((12=-∂∂∑=ni ini Y x Wθθ0))((21=--∑=ni i ni Y x W θ∑==ni i ni n Y x W x m1)()(ˆ 所以,核估计等价于局部加权最小二乘法。

非参数回归 5二、窗宽的选择 令1()()i h i x xX x K K X x h h -=- 根据非参数估计11ˆ()()/()nnn hii h i i i mx K Xx Y K x X ===--∑∑当0→h ,11ˆ()()/()nnn hii h i i i mx K Xx Y K x X ===--∑∑的分子和分母中除了当i x X =的项不为零,其它均为零,故i i i n Y K Y K X m=→)0(/)0()(ˆ 这说明当窗宽趋于0时,i x X =点的估计值趋于该点的观测值。

当∞→h ,11ˆ()()/()nnn hii h i i i mx K Xx Y K x X ===--∑∑的分子和分母中每一项()(0)h i K x X K -→,则∑∑∑===--=→ni i n i ni i n Y n K n Y K n x m111111)0(/)0()(ˆ。

说明当窗宽趋于无穷时,则每一点的估计值均为Y 的观测值的平均值。

可见窗宽n h 的控制是核估计精度的重要参数。

太小估计线欠平滑,太大过于平滑。

1、 理论窗宽的最佳选择记22()()K u K u du μ=⎰,⎰=du u K K R 2)()( 当解释变量为随机的情形时,i i i u X m Y +=)(),,2,1(n i =的渐近偏差和渐近方差为: 估计方法 渐近偏差渐近方差N-W 方法)())()()(2)((222k x f x f x m x m h n μ''+'')()()(2K R x f nh x n σ 其中)(x f 为解释变量的密度函数,)/()(22i i i x X u E x ==σ。

估计的均方误差62))()(ˆ(x m x mE n - [][]{}2)()(ˆ)(ˆ)(ˆx m x m E x m E x mE n n n -+-= []{}[]{}22)()(ˆ)(ˆ)(ˆx m x m E x m E x mE n n n -+-= 回归函数m(x)估计的渐近方差随着窗宽见效而增大,渐近偏差随着减小而减小。

所以非参数估计就是在估计的盘查和方差中寻求平衡,使均方误差达到最小。

理论的最佳窗宽5/1-=cn h n 。

2、 样本窗宽的交错鉴定哪一个窗宽是比较恰当的,必须通过样本的资料考察,但是我们的样本仅仅有一个。

在某个局部观测点i X x =,首先,在样本中剔除该观测值点),(i i Y X ,用剩余的n-1个点在i X x =处进行核估计:∑≠-=nij j i nj i n Y X W x m)()(ˆ, 最后比较平方拟合误差12,1ˆ()(())()nn in ii i i CV h nY mX w X --==-∑,使)(n h CV 最小的窗宽,则是最佳的。

3、 窗宽的经验选择方法当K(.)为【-1,1】上对称、单峰的概率密度时,∑≠=nj j i njn Y X Wx m1)()(ˆ是集中在x 附近的加权平均,由于x 为对称的,以n h 为宽度,当n h 太大时,参加的平均点多,会提高精度,但可能偏差会增大。

反之n h 小则相反。

所以应该根据散点图来选择窗宽。

三、核函数的选择 因为 估计方法渐近偏差渐近方差非参数回归7N-W 方法)())()()(2)((222k x f x f x m x m h n μ''+'')()()(2K R x f nh x n σ 所以渐近均方误差为:422211)()(h K C h n K R C MSE B v μ+=--其中v C 和2B C 是与核函数无关的量,对MSE 求h 的导数,则最佳的窗宽为:5/151225120)()(4-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=n K K R C C h B v μ 将5/151225120)()(4-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛=n K K R C C h B vμ代入MSE ,得 )()()44()()(5/225/45/45/15/25/45/4K K R C C h MSE B v μ---+=最优的核函数是使()⎰⎰=du u K u duu KK K R )()()()(22222μ达到最小的核函数+-=)1(75.0)(2u u K 。

相关主题