浅谈加权最小二乘法及其残差图关键词:异方差;加权最小二乘法;残差图;SPSS一、引言好几年没有翻《统计研究》了。
最近,有一同行朋友打电话告诉我《统计研究》2005年第11期上刊登了一篇有关我与刘文卿合作编著的《应用回归分析》(2001.6.中国人民大学出版社)教材的文章。
赶紧找到这期的《统计研究》,看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨——与何晓群教授商榷》一文,以下简称《孙文》。
认真拜读后感触良多。
首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节,同时感谢《统计研究》给我们提供这样一个好的机会,使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。
《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。
摆出了与加权最小二乘法相关的三类残差图,指出第三类残差图的局限性。
直接的问题是三类残差图的作用,而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。
二、对加权最小二乘法的认识1. 加权最小二乘估计方法拙作《应用回归分析》中对加权最小二乘法有详尽的讲述,这里仅做简要介绍。
多元线性回归方程普通最小二乘法的离差平方和为:∑=----=n i ip p i i p x x y Q 1211010)(),,,(ββββββ(1)普通最小二乘估计就是寻找参数p βββ,,,10 的估计值pβββˆ,,ˆ,ˆ10 使式(1)的离差平方和Q 达极小。
式(1)中每个平方项的权数相同,是普通最小二乘回归参数估计方法。
在误差项i ε等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项i ε的方差2i σ大的项,在式(1)平方和中的取值就偏大,在平方和中的作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。
由式(1)求出的pβββˆ,,ˆ,ˆ10 仍然是p βββ,,,10 的无偏估计,但不再是最小方差线性无偏估计。
加权最小二乘估计的方法是在平方和中加入一个适当的权数i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:∑=----=ni ip p i i i p w x x y w Q 1211010)( ),,,(ββββββ (2)加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pww w βββˆ,,ˆ,ˆ10 使式(2)的离差平方和w Q 达极小。
所得加权最小二乘经验回归方程记做ppw w w w x x y βββˆˆˆˆ110+++= (3)理论上最优的权数i w 为误差项方差2i σ的倒数,即21i i w σ= (4)误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。
由(2)式求出的加权最小二乘估计pww w βββˆ,,ˆ,ˆ10 就是参数p βββ,,,10 的最小方差线性无偏估计。
一个需要解决的问题是误差项的方差2i σ是未知的,因此无法真正按照式(4)选取权数。
在实际问题中误差项方差2i σ通常与自变量的水平有关,可以利用这种关系确定权数。
例如2i σ与第j 个自变量取值的平方成比例时,即2i σ=k 2ijx 时,这时取权数为21ij i x w = (5)更一般的情况是误差项方差2i σ与某个自变量j x 取值的幂函数m ij x 成比例,即2i σ=k mij x ,其中m 是待定的未知参数。
此时权数为 m iji x w 1= (6) 这时确定权数i w 的问题转化为确定幂参数m 的问题,可以借助SPSS 软件解决。
《应用回归》书中和《孙文》中都讲了这个方法,本文不再重述。
需要注意的是,在实际问题中比例关系2i σ=k mij x 只是近似的,式(6)确定的权数i w 只是式(4)最优权数的近似值,因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。
2. 变量变换的加权最小二乘法《孙文》中谈到:加权最小二乘法的实质是要对原始数据实施变换,获得新的解释变量和被解释变量,变换的方法是: 2m jx y y -⋅=' (y '表示变换后的被解释变量) (7) 2m j h hx x x -⋅=',h =0,1,2,……,p (h x '是对应于原始变量h x 的新解释变量) (8)对变换后的变量(p x x x y '''',,,,10)重新进行普通最小二成估计(注意,此处的回归模型不包含常数项,增加了数据变换后派生出的一个新解释变量20m j x x -='),即可得到加权最小二乘法的经验回归方程: p pw w w w x x x y '++'+'='βββˆˆˆˆ1100 (9)以上是《孙文》中对加权最小二乘法的解释,其中公式(7)、(8)、(9)分别对应《孙文》中的公式(3)、(4)、(5)。
3. 两种方法的异同相同之处。
显然,式(3)与式(9)两个回归方程是等价的,把式(3)同时乘以2m j x w -=后就转化为式(9)。
不同之处。
首先,式(3)的回归方程ppw w w w x x y βββˆˆˆˆ110+++= 使用起来比较方便,因为利用该回归方程进行预测和控制时,无须按式(8)变换自变量的新值,直接将自变量的新值代入式(3)即可。
对这一点孙小素副教授也是认同的。
其实,所有方法的优劣评价根本就在于他是否方便于建模最终的应用。
其次,虽然两种加权回归方法所得的回归方程是等价的,但是对回归效果的拟合优度和检验是不同的,式(3)的加权最小二乘的总离差平方和、回归离差平方和、残差平方和的计算公式和关系为:∑∑∑===+-=-n i ni iw i w iw i n i w i ie w y y w y y w 112212)ˆ()( (10) 其中w y 是i y 用i w 加权的算术平均数。
由于式(9)的变换加权最小二乘回归方程不含常数项,所以不满足离差平方和分解式,而是对直接的平方和满足分解式,总平方和、回归平方和、残差平方和的计算公式和关系为:∑∑∑==='+'='n i n i iw iw n i i e y y 112212ˆ (11) 等价于∑∑∑===+=n i ni iw i iw in i i i e w y w y w 112212ˆ (12) 对不含常数项的普通最小二乘回归,SPSS 软件就是用上述公式计算平方和并进而计算判定系数2R 和做F 检验的。
然而,这种做法的合理性是有欠缺的,因为总平方和∑='n i iy 12不能如实反映因变量的变差,仅是为了满足平方和分解式而这样做,有削足适履的嫌疑。
另外一种做法是以∑='-'n i y y 12)(作为总离差平方和,把∑∑=='-'-'n i n i iw i e y y 1122)(作为回归离差平方和,而不使用∑='-'n i iw y y12)ˆ(作为回归离差平方和,Excel 软件不含常数项(即指定常数项为零)的普通最小二乘回归就是采用的这个方法。
对《孙文》所引用的《应用回归分析》例题,有关的计算结果见表1(a )—(d )。
从表中可以清楚看出用变换加权最小二乘法计算离差平方和存在明显的问题,判定系数2R 和检验统计量F 严重失真。
对同样的数据做变换加权最小二乘估计,市面上流行的不同软件的拟合优度检验却差别很大,SPSS 软件计算出的F =442.2,2R =0.968;Excel 软件计算出的F =74.26,2R =0.837。
对其他数值就不逐一对比了。
表1(a ) 普通最小二乘方差分析表(SPSS )表1(b ) 加权最小二乘方差分析表(SPSS )表1(c ) 变换加权最小二乘方差分析表(SPSS )表1(d ) 变换加权最小二乘方差分析表(Excel )针对上述问题,变换加权最小二乘法实际上常用于式(5)成立的情况,即m =2,此时变换后的自变量j x '≡1,回归参数j β就相当于回归常数项了,对变换后的数据就可以用含有常数项的普通最小二乘估计方法,各种统计软件对变换加权最小二乘法回归的拟合优度检验的输出结果就都一致了。
遗憾的是,即使是在这种特殊情况下也仍然与直接用加权最小二乘估计方法不一致,这只需仔细比较两种情况的总离差平方和公式∑='-'n i iy y 12)(和∑=-n i w i iy y w 12)(的差异即可。
这种通过变换变量求解加权最小二乘估计方法的作用是什么呢?引用文献[1]第180页的一段文字给予解释:“许多回归软件包允许用户有选择地使用具体的权数进行加权最小二乘分析。
如果不能选择,通过对观察值的具体变换,使用不加权的最小二乘法,仍能得到加权最小二乘估计量。
”可见通过变换变量求解加权最小二乘估计的方法仅是作为参数估计的一种计算手段而存在的,如果你使用的软件仅具有普通最小二乘功能,就只能用变换变量的方法求解加权最小二乘的参数估计。
《应用回归分析》教材是结合SPSS 软件编写的,而SPSS 软件允许用户直接使用权数进行加权最小二乘分析,不必通过变换变量的方法求解加权最小二乘估计,因此我们在教材中没有给出这种通过变换变量求解加权最小二乘估计的方法。
纵上所述,在拥有像SPSS 这种能够直接计算加权最小二乘估计的软件时,就不必使用变换变量求解加权最小二乘估计的方法了。
即使使用的是变换变量求解加权最小二乘估计的方法,也应该把式(9)变换回式(3)的形式,用来直接表示出原始变量之间的关系。
因此《孙文》把式(9)称为加权最小二乘法的经验回归方程就显然不合适了。
我们也没有见到其他的文献用这个称法。
三、三类残差图的作用以残差为纵坐标轴以自变量(或回归值y ˆ)为横坐标轴画的散点图就是残差图。
《孙文》中的三类残差图如下:1. 普通残差图。
指用原始数据对线性回归模型做普通最小二乘估计所得的普通残差i e 所做的残差图,也就是《孙文》中所称的第一类残差图。
2. 加权普通残差图。
其残差是用原始数据做加权最小二乘估计所得的普通残差w e (在《孙文》中记做w e '),也就是《孙文》中所称的加权派生残差图,或第三类残差图。
3. 加权变换残差图。
其残差是用变换数据做加权最小二乘估计所得的普通残差w e '(在《孙文》中记做w e ),也就是《孙文》中所称的加权残差图,或第二类残差图。
w e '的计算方法有两种,第一种方法是用式(9)的变换加权最小二乘法得到,第二种方法是把加权普通残差w e 乘以2m j x w -=得到,即2m j w w w x e w e e -⋅=⋅='。