当前位置:文档之家› 矩阵投影与最小二乘方法

矩阵投影与最小二乘方法

题目:《神奇的矩阵——矩阵投影与最小二乘方法》
学校:哈尔滨工程大学
姓名:黎文科
联系方式: QQ群:53937814 联系方式: 190356321@
矩阵投影与最小二乘方法
最小二乘法(Least Squares Method,简记为LSE)是一个比较古老的方法,源于天文学和测地学上的应用需要。

在早期数理统计方法的发展中,这两门科学起了很大的作用。

丹麦统计学家霍尔把它们称为“数理统计学的母亲”。

此后近三百年来,它广泛应用于科学实验与工程技术中。

美国统计史学家斯蒂格勒( S. M. Stigler)指出, 最小二乘方法是19世纪数理统计学的压倒一切的主题。

1815年时,这方法已成为法国、意大利和普鲁士在天文和测地学中的标准工具,到1825年时已在英国普遍使用。

追溯到1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。

经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。

随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。

时年24岁的高斯也计算了谷神星的轨道。

奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯于其1809年的著作《关于绕日行星运动的理论》中。

在此书中声称他自1799年以来就使用最小二乘方法,由此爆发了一场与勒让德的优先权之争。

近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面形式的,以勒让德为早。

然而,现今教科书和著作中,多把这个发明权归功于高斯。

其原因,除了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义。

勒让德在其著作中,对最小二乘方法的优点有所阐述。

然而,缺少误差分析。

我们不知道,使用这个方法引起的误差如何,就需建立一种误差分析理论。

高斯于1823年在误差e 1 ,… , e n 独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的!在德国10马克的钞票上有高斯像,并配了一条正态曲线。

在高斯众多伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响。

现行的最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。

它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小:
2
211
()()m m
i i i H y y ===-=-∑∑理论值观测值
我们现在看来会觉得这个方法似乎平淡无奇,甚至是理所当然的。

这正说明了创造性思维之可贵和不易。

从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难。

欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功。

在高斯发表其1809年著作之前,约在1780年左右,拉普拉斯已发现了概率论中的“中心极限定理”。

根据这个定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态。

测量误差正具有这种性质。

一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加。

因此,中心极限定理给误差的正态性提供了一种合理的理论解释。

这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免给人一种不自然的感觉。

耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯,都没有从这个结果的启示中去考察误差分布问题。

对前者而言,可能是出于思维定势的束缚,这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布这个形式最早是狄莫弗( De Moiv re) 1730年在研究二项概率的近似计算时得出的。

以后也有其他学者使用过,但都没有被冠以他们的名字。

高斯之所以获得这一殊荣,无疑是因为他把正态分布与误差理论联系了起来) 。

可以说,没有高斯的正态误差理论配合, 最小二乘方法的意义和重要性可能还不到其现今所具有的十分之一。

最小二乘方法方法与高斯误差理论的结合,是数理统计史上最重大的成就之一,其影响直到今日也尚未过时!由于本文是主要介绍最小二乘法与矩阵投影之间的关系,对于最小二乘和概率之间的关系,请参看靳志辉的《正态分布的前世今生》。

1,2,,)m 代入22b C Da b C Da =+⎪⎨⎪⎪=+ 令
12111
m a a A a ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭,12m b b b b ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭
, 则可写成 C A b D A x b
⎛⎫= ⎪⎝⎭

从线性代数的角度来看,就是A 的列向量的线性组合无法充满整个列空间,也就是说Ax=b 这个方程根本没有解。

从图形上也很好理解:根本没有一条直线同时经过所有蓝色的点!所以为了选取最合适的x ,让该等式"尽量成立",引入残差平方和函数H :
22
min()min()=min()H e b Ax =-
这也就是最小二乘法的思想。

我们知道,当x 取最优值的时候,Ax 恰好对应图中线上橙色的点,而b 则对应图中蓝色的点,e 的值则应红色的线长。

看到这里你有没有和之前投影的那部分知识联系在一起呢?最小二乘的思想是想如何选取参数x 使得H 最小。

而从向量投影的角度来看这个问题,H 就是向量e 长度的平方,如何才能使e 的长度最小呢?b 和a 1,a 2都是固定的,当然是e 垂直a 1,a 2平面的时候长度最小!换句话说:最小二乘法的解与矩阵投影时对变量求解的目标是一致的!
于是,根据矩阵投影的知识,我们可以直接写出最小二乘法问题的解
1()T T C A A A b D -⎛⎫= ⎪⎝⎭. 其中A 称为结构矩阵,b 称为数据矩阵,T A A 称为信息矩阵,T
A b 称为常数矩阵。

为了定量地给出y C Dt =+与实验数据之间线性关系的符合程度,可以用相关系数r 来衡量.它定义为
11122221111,m m m
i i j i
i j i m m m m i i i i i i i i m a b a b r a b m a a m b b =======-=<>=⎡⎤⎡⎤⎛⎫⎛⎫--⎢⎥⎢⎥ ⎪ ⎪⎝⎭⎝⎭⎢⎥⎢⎥
∑∑∑∑∑∑∑
最小二乘法是从误差拟合角度对回归模型进行参数估计或系统辨识,并在参数估计、系统辨识以及预测、预报等众多领域中得到极为广泛的应用。

在数据拟合领域,最小二乘法及其各种变形的拟合方法包括:一元线性最小二乘法拟合、多元线性拟合、多项式拟合、非线性拟合。

最小二乘法能将从实验中得出的一大堆看上去杂乱无章的数据中找出一定规律,拟合成一条曲线来反映所给数据点总趋势,以消除其局部波动。

它为科研工作者提供了一种非常方便实效的数据处理方法。

随着现代电子计算机的普及与发展,这个占老的方法更加显示出其强大的生命力。

参考文献
1.陈希孺院士,《最小二乘法的历史回顾与现状》
2.靳志辉,《正态分布的前世今生》
3.小班得瑞博客,投影矩阵与最小二乘
4.《最小二乘法的应用研究》。

相关主题