偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。
近十年来,它在理论、方法和应用方面都得到了迅速的发展。
密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。
在普通多元线形回归的应用中,我们常受到许多限制。
最典型的问题就是自变量之间的多重相关性。
如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。
变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。
在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。
在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。
这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。
一、偏最小二乘回归的建模策略\原理\方法1.1建模原理设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。
为了研究因变量和自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}和.Y={q y y ,...,1}。
偏最小二乘回归分别在X 与Y 中提取出成分1t 和1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:(1) 1t 和1u 应尽可能大地携带他们各自数据表中的变异信息; (2) 1t 与1u 的相关程度能够达到最大。
这两个要求表明,1t 和1u 应尽可能好的代表数据表X 和Y ,同时自变量的成分1t 对因变量的成分1u 又有最强的解释能力。
在第一个成分1t 和 1u 被提取后,偏最小二乘回归分别实施X 对 1t 的回归以及 Y 对1u 的回归。
如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。
如此往复,直到能达到一个较满意的精度为止。
若最终对 X 共提取了 m 个成分1t ,…,mt ,偏最小二乘回归将通过实施 k y 对1t ,…,mt ,的回归,然后再表达成k y 关于原变量x1,…,xm,的回归方程,k=1,2,…,q 。
1.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理。
X 经标准化处理后的数据矩阵记为0E =(E 01,…,E p 0)p n ⨯,j Y 经标准化处理后的数据矩阵记为0F =(01F ,…,q F 0)p n ⨯。
第一步 记1t 是0E 的第一个成分,1w 是0E 的第一个轴,它是一个单位向量,既||1w ||=1。
记1u 是0F 的第一个成分,1u =0F c 1。
c 1是0F的第一个轴,并且||c 1||=1。
如果要1t ,1u 能分别很好的代表X 与Y 中的数据变异信息,根据主成分分析原理,应该有Var(1u )→max Var(1t )→max另一方面,由于回归建模的需要,又要求1t 对1u 有很大的解释能力,有典型相关分析的思路,1t 与1u 的相关度应达到最大值,既r (1t ,1u )→max因此,综合起来,在偏最小二乘回归中,我们要求1t 与1u 的协方差达到最大,既Cov(1t ,1u )=)()(11u t Var Var r(1t ,1u ) →max正规的数学表述应该是求解下列优化问题,既因此,将在||1w ||2=1和||c 1||2=1的约束条件下,去求(w '1E 'Fc 1)的最大值。
如果采用拉格朗日算法,记s=w '1E'0F c 1-λ1(w'11w -1)-λ2 (c '1c 1-1)对s 分别求关于1w ,c 1,λ1和λ2的偏导并令之为零,有1w s∂∂=E '00F c 1-λ121w =0 (1 -2)1c s∂∂=F '00E 1w -λ22c 1=0 (1-3)1λ∂∂s =-(w '11w -1)=0 (1-4)2λ∂∂s =-(c '1c 1-1)=0 (1-5) 由式(1-2)~(1-5),可以推出>=<==1010100'1'21,22c F w E c F E w λλ记100'1'21122c F E w ===λλθ,所以,1θ正是优化问题的目标函数值. 把式(1-2)和式(1-3)写成11100'w c F E θ= (1-6) 11100'c w E F θ= (1-7)将式(1-7)代入式(1-6),有121100'00'w w E F F E θ= (1-8)同理,可得121100'00'c c F E E F θ= (1-9)可见,1w 是矩阵00'00'E F F E 的特征向量,对应的特征值为21θ.1θ是目标函数值,它要求取最大值,所以, 1w 是对应于00'00'E F F E 矩阵最大特征值的单位特征向量.而另一方面, 1c 是对应于矩阵00'00'F E E F 最大特征值21θ的单位特征向量. 求得轴1w 和1c 后,即可得到成分101w E t = 101c F u = 然后,分别求0E 和0F 对1t ,1u 的三个回归方程11'10E p t E += (1-10)11'10*+=F q u F (1-11) 11'10F r t F += (1-12) 式中,回归系数向量是2110'1||||t t E p = (1-13) 2110'1||||u u F q = (1-14) 2110'1||||t t F r =(1-15) 而1E ,1*F ,1F 分别是三个回归方程的残差矩阵.第二步 用残差矩阵1E 和1F 取代0E 和0F ,然后,求第二个轴2w 和2c 以及第二个成分2t ,2u ,有2t =1E 2w 2u =1F 2c211'2'222,c F E w u t >==<θ2w 是对应于矩阵11'11'E F F E 最大特征值22θ的特征值, 2c 是对应于矩阵11'11'F E E F 最大特征值的特征向量.计算回归系数2221'2||||t t E p =2221'2||||t t F r = 因此,有回归方程22'21E p t E += 22'21F r t F += 如此计算下去,如果X 的秩是A ,则会有A A p t p t E '1'10++= (1-16)A A A F r t r t F +++='1'10 (1-17)由于,A t t ,,1 均可以表示成p E E 001,, 的线性组合,因此,式(1-17)还可以还原成k k F y 0*=关于k j E x 0*=的回归方程形式,即Ak p kp k k F x x y +++=**11*αα k=1,2,…,qAk F 是残差距阵A F 的第k 列。
1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。
在许多情形下,偏最小二乘回归方程并不需要选用全部的成分A t t ,,1 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分))(,(X A A m 秩=<,仅用这m 个后续的成分m t t ,,1 就可以得到一个预测性较好的模型。
事实上,如果后续的成分已经不能为解释0F 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。
在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点。
下面的问题是怎样来确定所应提取的成分个数。
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。
我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量B b ,拟合值B y ˆ以及残差均方和2ˆB σ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出2ˆˆT T y σ和。
一般地,若有≈2ˆT σ2ˆB σ,则回归方程会有更好的预测效果。
若 >>2ˆT σ2ˆB σ,则回归方程不宜用于预测。
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。
采用类似于抽样测试法的工作方式,把所有n 个样本点分成两部分:第一部分除去某个样本点i 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h 个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i 代入前面拟合的回归方程,得到j y 在样本点i 上的拟合值)(ˆi hj y-。
对于每一个i =1,2,…,n,重复上述测试,则可以定义j y 的预测误差平方和为hj PRESS ,有∑=--=ni i hj ij hj yy PRESS 12)()ˆ( (1-18)定义Y 的预测误差平方和为h PRESS ,有∑==pj hj h PRESS PRESS 1 (1-19)显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大h PRESS 的值。
另外,再采用所有的样本点,拟合含h 个成分的回归方程。
这是,记第i 个样本点的预测值为hji yˆ,则可以记j y 的误差平方和为hj SS ,有 ∑=-=ni hji ij hj yy SS 12)ˆ( (1-20) 定义Y 的误差平方和为h SS ,有∑==pj hj h SS SS 1 (1-21)一般说来,总是有h PRESS 大于h SS ,而h SS 则总是小于1-h SS 。