当前位置:文档之家› SAS系统和数据分析非线性回归分析

SAS系统和数据分析非线性回归分析

SAS系统和数据分析非线性回归分析电子商务系列第三十四课非线性回归分析现实世界中严格的线性模型并不多见,它们或多或少都带有某种程度的近似;在不少情况下,非线性模型可能更加符合实际。

由于人们在传统上常把“非线性”视为畏途,非线性回归的应用在国内还不够普及。

事实上,在计算机与统计软件十分发达的令天,非线性回归的基本统计分析已经与线性回归一样切实可行。

在常见的软件包中(诸如SAS、SPSS等等),人们已经可以像线性回归一样,方便的对非线性回归进行统计分析。

因此,在国内回归分析方法的应用中,已经到了“更上一层楼”,线性回归与非线性回归同时并重的时候。

对变量间非线性相关问题的曲线拟合,处理的方法主要有:首先决定非线性模型的函数类型,对于其中可线性化问题则通过变量变换将其线性化,从而归结为前面的多元线性回归问题来解决。

电子商务系列● 若实际问题的曲线类型不易确定时,由于任意曲线皆可由多项式来逼近,故常可用多项式回归来拟合曲线。

● 若变量间非线性关系式已知(多数未知),且难以用变量变换法将其线性化,则进行数值迭代的非线性回归分析。

一、 可变换成线性的非线性回归在实际问题中一些非线性回归模型可通过变量变换的方法化为线性回归问题。

例如,对非线性回归模型()ti t i t i t ix b ix a y εα+++=∑=210sin cos (34.1)即可作变换: tt t t t t t t x x x x x x x x 2sin ,2cos ,sin ,cos 4321==== 将其化为多元线性回归模型。

一般地,若非线性模型的表达式为:()()()t m m t t t x g b x g b x g b b y ++++= 22110 (34.2)则可作变量变换: ()()()t m mt t t t t x g x x g x x g x ===*2*21*1,,,(34.3) 将其化为线性回归模型的表达式,从而用前面线性模型的方法来解决,其中式(34.3)中的电子商务系列 x t 也可为自变量构成的向量。

这种变量变换法也适用于因变量和待定参数 b i 。

如:()[]1ex p 2132211-++=t t t t t x x b x b x b a y(34.4) 时上式两边取对数得: ()1ln ln 2132211-+++=t t t t t x x b x b x b a y (34.5)现作变换: 1,ln ,ln 2130*-===t t t t t x x x a b y y (34.6)则可得线性表达式: t t t t x b x b x b b y 3322110*+++= (34.7)利用前面方法确定了3,2,1,0,ˆ=i bi ,并由)ˆexp(ˆ0b a =得到aˆ 的值。

变量变换的线性化方法可推广到下列形式的非线性模型:()()t m m m t t x g b c x g b c b c y h )()()()(11100+++= (34.8)其中x =(x 1,x 2,…,x p ),而h (y t )、c i (b i )、g i (x t )则分别化为新的因变量、线性回归参数和自变量,即可归结为线性回归模型来解。

表34.1给出了一些常见的可线性化的非线性模型。

表34.1 典型的函数及线性化方法当曲线的函数类型未确定时,我们常采用上述非线性模型作为其拟合曲线,即将自变量的各种初等函数的组合作为新自变量,用逐步回归法(或正交筛选法等)对新变量进行筛选,以确定一个项数不多的线性函数表达式。

该方法对表达式形式没限制且精度要求不高的问题颇为有效。

二、 多项式回归分析在式(34.2)中,若取()iix x g =,则为多项式回归模型。

由数学分析知识可知,一般函数都可用多项式来逼近,故多项式回归分析可用来处理相当广泛的非线性问题。

电子商务系列对观测数据(x t ,y t )(t = 1,…,N ),多项式回归模型为:t m t m t t t x b x b x b b y ε+++++= 2210,t =1,2, ,N 令⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=N y y y Y 21,⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=m N N N m m x x x x x x x x x X 222221211111,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=m b b b B 10,⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=N εεεε 21则模型可表示为:ε+=XB Y当X 列满秩时,由前面的讨论知,其最小二乘估计为:()Y X X X B ''=-1ˆ由此即可求得其多项式回归方程。

但由于()1-'X X 的计算既复杂又不稳定,故我们一般采用正交多项式法来进行多项式回归。

三、 不可变换成线性的非线性回归分析假设因变量y 与自变量(x 1,x 2,…,x p )之间满足非线性模型:()εβ+=;,,,21p x x x F y (34.9)其中,()'=m ββββ,,,21 为未知参数,F 为已知表达式,ε 为误差项。

电子商务系列现将观察数据:()pt t t t x x x y ,,,,21 , t =1,2, ,N代人式(34.9)得非线性回归模型:()t pt t t t x x x F y εβ+=;,,,21 , t =1,2, ,N 常记为:E F Y +=)(β其中,()'=N y y y Y ,,,21 为y 的观察向量,()'=m βββ,,1 为非线性回归系数,E =()'N εεε,,,21 为观察误差向量,F 为未知参数β的函数向量。

非线性回归分析就是利用最小二乘准则来估计回归系数β,即求βˆ 使得残差平方和:()()()()()βββF Y F Y E E Q -'-='=2121 在 ββˆ= 处达到最小。

非线性回归分析一般用数值迭代法来进行,其共同特点是:由选定β的初值0β出发,通过逐步迭代:∆⋅+=t 0ββ (34.10)即选择适当的步长t ( >0 ) 及确定搜索方向向量∆=(∆1,∆2,…,∆m ),使得:()()0ββQ Q < (34.11)电子商务系列 再由β取代0β,重复上述迭代过程,直至 Q (β)可认为达到最小值为止,即可将所得的β作为其最小二乘估计βˆ,从而得到非线性回归方程()βˆ;,,,ˆ21px x x F y = 1. 下降方向和步长的选择首先考察()()()()()βββF Y F Y E E Q -'-='=2121的梯度向量(即导数):()()()()ββββF Y G F Y F Q -'-=-'⎪⎪⎭⎫ ⎝⎛∂∂-=∂∂ 其中,'⎪⎪⎭⎫ ⎝⎛∂∂∂∂=∂∂=m F F F G βββ,,1 为F 的梯度矩阵。

为使0β迭代收敛到βˆ,其迭代公式应满足下降性质(34.11)。

现考虑一元函数()()∆⋅+=t Q t 0βϕ,它从0β出发以 ∆为方向的射线上取值。

由复合求导公式得:()()()∆⋅'--=∆⋅'⎪⎪⎭⎫ ⎝⎛∂∂='==G F Y Q t d t ββϕ0可以证明,当 d <0 时,在以 ∆为方向向量的射线上可以找到∆⋅+=t 0ββ,使得()()0ββQ Q <。

我们将满足 d <0 的∆称为下降方向,Bard 于1974年给出了∆为下降方向的充要条件为:()()βF Y G P -'=∆电子商务系列其中,P 为对称正定阵,由此我们可得下降算法的迭代公式为:()()βββF Y G tP -'+=0 (34.12)其中,P 为任意正定阵,G 为F 的梯度,t 为满足()()0ββQ Q <的正实数,即步长。

如何计算∆以便修改参数向量β有五种常用的非线性回归迭代方法:高斯-牛顿法(Gauss-Newton )、最速下降法(梯度法,Gradient )、牛顿法(Newton )、麦夸特法(Marquardt )、正割法(DUD )。

以下我们介绍高斯-牛顿法。

2. 高斯-牛顿法首先选取β的一切初始近似值0β,令0ββ-=∆,则只要确定∆的值即可确定β。

为此,考虑)(βF 在0β处的Taylor 展开式,并略去二次以上的项得: ()()()()∆⋅'+=∆⋅'⎪⎪⎭⎫ ⎝⎛∂∂+=∆+==G F F F F F 0000βββββββ 其中,0βββ=∂∂=F G 为F 的梯度。

此时其残差平方和: ()()()()∆'--'∆'--=G F Y G F Y Q 0021ββ电子商务系列由0=∆∂∂Q ,得其∆的正则方程为: ()()()0βF Y G G G -'=∆' (34.13)故 ()()()01βF Y G G G -''=∆-(34.14) 由此即可用前面线性回归法求∆,只需将G 、)(0βF Y -视为前面(34.1)式中的X 、Y 即可。

此时,对给定精度1ε、2ε ,当{}1max ε<∆i i 或()2εβ<∆+Q 时,即得β最小二乘法估计∆+=0ˆββ;否则用所得的βˆ代替0β,重复上述步骤,直至i ∆或Q (β)满足精度要求为止。

该法称为高斯-牛顿法,其一般迭代公式为:∆+=+i i i t ββ1 (34.15) 其中,∆为()()()()()i i i i F Y G G G ββββ-'=∆'的解,t i 为()()∆⋅+=t Q t i βϕ的最小值点。

高斯-牛顿法在初值0β选取适当,且G G '可逆时非常有效,但在其他情形,其求解较为困难,对此,Marguardt 对(34.14)中∆的正则系数阵作适当修正,得到了改进算法。

四、 nlin 非线性回归过程在很多场合,可以对非线性模型进行线性化电子商务系列处理,尤其是关于变量非线性的模型,以运用OLS 进行推断。

对线性化后的线性模型,可以应用SAS 的reg过程进行计算。

多项式模型可以直接应用glm(广义线性模型)求解。

对于不能线性化的非线性模型。

其估计不能直接运用经典的最小二乘法,而需要运用其他估计方法,如直接搜索法、直接最优法与Taylor级数展开法进行线性逼近。

此时,可以利用SAS/STAT的nlin过程实现相应的计算。

1. proc nlin过程proc nlin采用最小误差平方法(Least Squares Method)及循环推测法(Iterative Estimation Method)来建立一个非线性模型。

相关主题