第一节 投影寻踪回归我们先介绍一下Peter Hall 提出的投影寻踪回归(Projection Pursuit Regression)的思想,它一点也不神秘。
我们手中的资料是k nk k k x Y x ,},{1=是p 元,Y k 是一元。
非参数回归模型是n k x G Y k k k ≤≤+=1 ,)(ε()我们的任务是估计p 元函数G ,当然}|{)(x x Y E x G k k ==。
G 是将p 元变量映像成一元变量,那么何不先将p 元变量投影成一元变量,即取k x u θ'=,再将这个一元实数u 送进一元函数G 作映像呢由于要选择投影方向),,(1p θθθ =,使估计误差平方和最小,就是要寻踪了。
所以取名为投影寻踪回归。
具体操作如何选方向θ,如何定函数G ,如何证明收敛性,下面将逐步讲述。
需要指出的是,投影寻踪回归与单指针半参数回归模型的思想基本上一样,基本算法也差不多,差别大的方面是收敛结果及证明。
若论出现时间,投影寻踪回归较早,在1989年,单指针模型较晚,在1993年。
一、投影寻踪回归算法假设解释变量集合}1,{n k x k ≤≤是来自密度函数为f 的p 元随机样本,对每一个p 元样本x k ,有一元观察Y k 与之对应,并且<)()|(x G x x Y E k k ==()这里G 是回归函数,也是目标函数。
令Ω为所有p 维单位向量的集合,θ,θ1,θ2,…是Ω中的元素。
如果H 是一个p 元函数,比如f 或G ,则H 沿方向θ的方向导数记作u x H u x H x H n /)}()({lim )(0)(-+=→θθ()假如这个极限存在的话。
高阶导数则记作)()()(2121)(θθθθH H =⋅,等等。
x ∈R p的第i 个分量记作x (i ),点积)()(i i y x y x ∑=⋅,模长21)(x x x ⋅=。
符号A 表示R p 的子集,通常是指凸集。
I (·∈A)表示A 的示性函数,I (x ∈A )=1,0)(=∈A x I 。
u 一般代表实数。
我们的任务是从观察1},{1==nk k k y x 作出p 元函数G (x )的估计,遇到的问题是p 太大,维数太高,解决的办法是作投影寻踪回归。
作沿着θ方向的一元函数Ω∈=⋅=θθθ },|)({)(u X x G E u g()在区域p R A ⊂内对G 的第一次投影逼近是函数)()(111x g x G ⋅=θθ()这里θ1是极小化下式)}()]()({[)(2A X I X g x G E S ∈⋅-=θθθ()、的结果。
当然这里G 是未知的,所以我们要作出S (θ)与g θ(u )的估计,才能得到G 1(x )的估计。
下面构造它们的估计。
设θ·x 的密度为f θ,称作沿方向θ的X 的边沿密度,利用样本x j 但不包括x k 构造f θ的核估计为⎪⎪⎭⎫⎝⎛⋅-∑-=≠h x u K h n u f j k j k θθ)1(1)(ˆ)( ()这里K 是核函数,h 是窗宽。
排除x k 在外的g θ的估计为)(ˆ/)1(1)(ˆ)()(u f h x u K Y h n u g k jj k j k θθθ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⋅-∑-=≠ ()借助于交叉核实的思想,作下式)()](ˆ[1)(ˆ2)(1A x I x gY n S k k k k nk ∈⋅-∑==θθθ()的极小化,其解1ˆθ就作为θ的估计。
于是)ˆ(ˆ)(ˆ1)(ˆ)(11x g x G k k ⋅=θθ ()就可以作为回归函数G 在区域A 的第一次投影逼近。
将估计限制在区域A 的理由在于,用来估计G 1的统计量在分母中有密度的核估计。
这个核估计在f 的边界取值接近于0,再作分母就有问题了。
所以我们要对分母接近于0的区域加以限制。
@刚才构造统计量时将x k 排除在外的目的是为了使交叉核实统计量获得的参数估计1ˆθ不致有额外偏差。
一旦1ˆθ确定下来,就可以在统计量中将x k 放回去,不再排除在外:)(1)(ˆ1hx u K nh u f j nj ⋅-∑==θθ())(ˆ/1)(ˆ1u f h x u K Y nh u g jj n j θθθ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⋅-∑== ())(ˆ/ˆ1)(ˆ1ˆ111u f h x u KY nh u G j j n j θθ⎥⎥⎦⎤⎢⎢⎣⎡⎪⎪⎭⎫ ⎝⎛⋅-∑== ()我们称)(ˆ1u G 才真正是在区域A 内与f 有关的G 的第一次投影逼近。
要证明11ˆ,ˆG θ分别是θ1与G 的一致估计还是比较容易的。
我们还可以证明它们一致收敛的收敛速度。
下面我们给出核函数K 与窗宽h 的构造选择细节。
我们使用的核函数是一元的,满足f 与G 的一维投影的平滑条件。
假定f (x )与G (x )沿一切方向的前r 阶方向导数存在,定义},:{εε≤-∈∈=y x A y R x A p 对于()为了j gˆ不为0,进一步假定 f (x )在一个闭集外为0,而在A ε上不为0()为了保证集合}:{A x x ∈⋅θ是合适的区间,对于每一θ∈Ω,我们假定A 非空,是一p 维开凸集。
《对于固定的θ,估计量如θθθf g f k k ˆ,ˆ,ˆ)()(和θg ˆ是经典的一元核估计,使用的是一元样本{θ·x k ,1≤k ≤n },为了得到较高的收敛速度,可以使用r 阶正交核函数K ,它满足⎩⎨⎧-≤≤==⎰∞+∞-1100 1)(r j j du u K u j()并且K 是lder o H 连续的。
所谓lder oH 连续,即存在ε>0,c >0,对一切实数u ,ν,有 ε|||)()(|v u c v K u K -≤-()现在我们确定窗宽。
考虑模型n k x G Y k k k ≤≤+=1 ,)(ε()这里n k k ,,1, =ε是独立同分布的,其均值为0,方差为σ2,与n k x k ,,1, =相互独立。
假定h =h (n )→0,且nh →∞。
对于固定的θ∈Ω,假定f θ(u )>0,且2122]}|))()({([1)()(ˆσθθθθ+=⋅-+=u X u g X G E nhu g u g)(0),()()()}({21221r r h u c h u Z dx K u f +⋅+⋅⎰-θθ() 这里Z (u )是渐近服从正态N (0,1),当取121~+-r nh 收敛于)(ˆu gθ的收敛速度是)()12/(+-r r p n O 。
c (u ,θ)表示一个常数,它依赖于u ,θ取值,但不随n , r 改变。
?二、投影寻踪回归收敛性质设θ1,θ0∈Ω,θ0固定而θ收敛于θ0。
为了引进S (θ)的Taylor 展开,令θ00是与θ、θ0在同一平面上两个单位向量之一,且与θ0垂直。
假定θ与θ0、θ00的关系如下000212)1(ηθθηθ+-=()这里-1≤η≤1。
这个式子对于变换:(η,θ00)(-η,-θ00)是相等的,并且当θ→θ0时η=θ·θ00→0。
在合适的规则条件下,S (θ)有合适的Taylor 展式,当θ→θ0时:)(0),(21),()()(20002200010ηθθηθθηθθ+++=S S S S()下面的定理表述得更清楚一些:定理 假定f 与G 在各个方向上的一阶方向导数都存在且在R p上一致连续,A 是一非空p 维开凸集,其边界有两个方向,函数f 在一个闭集外为0,而在A ε上不为0。
令θ0与00θ为两个平行单位向量,定义000212000)1(),(ηθθηθθθθ+-==。
在上述条件下,则存在θ0与θ00的与η无关的一致连续函数S 1与S 2,当η→0时,一致成立。
这个定理的结果可从如下Radon 变换的随机展开获得。
令T 为中心在原点半径为t 的p 维球,选择t 充分大使T 包含f 的支撑。
给定θ∈Ω,u ∈R ,定义Γθ=Γθ(u ),它是点集{x ∈T :θ·x =u }所形成的(p -1)维表面。
令)(x d θγ是位于x ∈Γθ的(p -1)维的微元,其法线平行于θ。
定义Radon 变换为)()(),(x d x u A θγαθθΓ⎰=():则对此随机变换有如下定理:定理 假定在x ∈T 上沿各个方向都存在一致连续的两个一阶方向导数,令θ0,00θ是两个平行单位向量,按定义θ=θ(θ0,θ00),则存在一致有界的连续函数A 1,A 2,使当η→0时,)(0|)},,(21),,(),({),(|sup 20002200010ηθθηθθηθθ=++-u A u A u A u A ()这里上界对u ≥0所取,θ0,θ00∈Ω,并且θo ⊥θ00。
我们看到这个定理是上一定理的具体化。
这里的A (u,θ),A 1(u ,θ0,θ00),A 2 (u ,θ0,θ00)对应于上一定理的S (θ),S 1(θ0,θ00),S 2(θ0,θ00)。
我们再进一步把A 、A 1、A 2的表达式写具体。
在Radon 变换中,取α(x )=fG ,结果记为A ;取α(x )=f ,结果记为B ,再记A 1、B 1为)()}())(()())({(),,(0)(00)(000010000x d x fG x x fG x u A γθθθθθθθθ⋅-⋅⎰=Γ ())()}()()(){(),,(00000)(00)(00001x d x f x x f x u B θθθγθθθθθ⋅-⋅⎰=Γ()令)/()/()()(),,(21100000010B AB B A x g x x g -+⋅'⋅=θθθθθ()(这里A 1表示A 1(u ,θ0,θ00)在u =θ0·x 处取值,B 1亦然。
注意g θ(u )=A (u ,θ)/B (u ,θ),以及关于S (θ)的定义,我们可以推出中S 1(θ0,θ00)的表达式dx x f x g x G x g S A )(),,()}()({2),(0001000010θθθθθθ-⋅⎰=()类似还可推出S 2(θ0,θ00)的表达式,不过太复杂。
现在我们转到估计投影逼近。
对应于现在可以写为dx x f x g x G S A )()}()({)(2⋅-⎰=θθθ()它的估计是)(ˆθS,如所示。
对于g θ的估计是函数)(ˆk g θ,如所示。
)(ˆk g θ是两式之比,g θ(u |h )也是两式之比:)|,(/)|,()|(h u B h u A h u g θθθ=()这里dx x G x f h x u K h h u A p R )()()|,(1⎪⎭⎫⎝⎛⋅-⎰=-θθ()dx x f h x u K h h u B p R )()|,(1⎪⎭⎫⎝⎛⋅-⎰=-θθ()而)(ˆθS可以由下式准确给出一阶二阶导数: (dx x f h x g x G h S A )()}|()({)|(2⋅-⎰=θθθ()下面我们叙述投影寻踪回归的收敛性质。