当前位置:
文档之家› 线性判别分析LDA与主成分分析PCA
线性判别分析LDA与主成分分析PCA
PCA技术的一大好处是对数据进行降维的处理。我们可以对 新求出的“主元”向量的重要性进行排序,根据需要取前面 最重要的部分,将后面的维数省去,可以达到降维从而简化 模型或是对数据进行压缩的效果。同时最大程度的保持了原 有数据的信息。PCA技术的一个很大的优点是,它是完全无 参数限制的。在PCA的计算过程中完全不需要人为的设定参 数或是根据任何经验模型对计算进行干预,最后的结果只与 数据相关,与用户是独立的。但是,这一点同时也可以看作 是缺点。如果用户对观测对象有一定的先验知识,掌握了数 据的一些特征,却无法通过参数化等方法对处理过程进行干 预,可能会得不到预期的效果,效率也不高。
例子
举一个例子,假设我们对一张100*100像素的图片 做人脸识别,每个像素是一个特征,那么会有 10000个特征,而对应的类别标签y仅仅是0,1值 ,1代表是人脸。这么多特征不仅训练复杂,而且 不必要特征对结果会带来不可预知的影响,但我 们想得到降维后的一些最佳特征(与y关系最密切 的),怎么办呢?
LDA
假设用来区分二分类的直线(投影函数)为:
LDA分类的一个目标是使得不同类别之间的距离越远越好,同 一类别之中的距离越近越好,所以我们需要定义几个关键的值:
类别i的原始中心点(均值)为:(Di表示属于类别i的点):
类别i投影后的中心点为: 衡量类别i投影后,类别点之间的分散程度(方差)为:
最终我们可以得到一个下面的公式,表示LDA投影到w后的目标 优化函数:
带入Si,将J(w)分母化为:
LDA
同样的将J(w)分子化为:
这样目标优化函数可以化成下面的形式:
LDA
LDA
LDA
至此,我们只需要求出原始样本的均值和方差就可 以求出最佳的方向 w,这就是Fisher 于1936 年提出的 线性判别分析。
看上面二维样本的投影结果图:
LDA
对于N(N>2)分类的问题,就可以直接写出以下的结论:
LDA
我们分类的目标是,使得类别内的点距离越近越好(集中), 类别间的点越远越好。
分母表示每一个类别内的方差之和,方差越大表示一个类别内 的点越分散,分子为两个类别各自的中心点的距离的平方,我 们最大化J(w)就可以求出最优的w
LDA
我们定义一个投影前的各类别分散程度的矩阵,其意思是,如 果某一个分类的输入点集 Di里面的点距离这个分类的中心点 mi 越近,则 Si里面元素的值就越小,如果分类的点都紧紧地围绕 着mi,则Si里面的元素值越更接近0.
最大方差理论
因此,我们只需要对协方差矩阵进行特征值分解, 得到的前k大特征值对应的特征向量就是最佳的k维 新特征,而且这k维新特征是正交的。得到前k个u以 后,样例xi通过以下变换可以得到新的样本。
其中的第j维就是xi在uj上的投影。通过选取最大的k 个u,使得方差较小的特征(如噪声)被丢弃。
PCA小结
这同样是一个求广义特征值的问题,求出的第i大的特征向量, 即为对应的Wi。
(此处推导过程见附录PDF)第二部 主成分分析(PCA)介绍
在实际问题中,我们经常会遇到研究多个变量的问 题,而且在多数情况下,多个变量之 间常常存在一 定的相关性。由于变量个数较多再加上变量之间的 相关性,势必增加了分析问 题的复杂性。如何从多 个变量中综合为少数几个代表性变量,既能够代表 原始变量的绝大多 数信息,又互不相关,并且在新 的综合变量基础上,可以进一步的统计分析,这时 就需要进行主成分分析。
下面给出一个例子,说明LDA的目标:
可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原 始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴, 不同类别之间 会有重复,导致分类效果下降。右图映射到的直线就是用 LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的 距离是最大的,而且每个类别内 部点的离散程度是最小的(或者说聚集程 度是最大的)。
LDA的一些限制
1、 LDA至多可生成C-1维子空间 LDA降维后的维度区 间在[1,C-1],与原始特征数n无关,对于二值分类, 最多投影到1维。 2、 LDA不适合对非高斯分布样本进行降维。
上图中红色区域表示一类样本,蓝色区域表示另一 类,由于是2类,所以最多投影到1维上。不管在直 线上怎么投影,都难使红色点和蓝色点内部凝聚, 类间分离。
LDA
上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线 上,LDA的目标是,给出一个标注了类别的数据集,投影到了一条直 线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时 候,如下图所示:
红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过 原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和 蓝色的点被原点明显的分开了。下面我来推导一下二分类LDA问题的公 式:
最大方差理论
在信号处理中认为信号具有较大的方差,噪声有较 小的方差,信噪比就是信号与噪声的方差比,越大 越好。因此我们认为,最好的k维特征是将n维样本 点转换为k维后,每一维上的样本方差都很大。
最大方差理论
比如左图有5个样本点,右图将样本投影到某一维上 ,这里用一条过原点的直线表示
假设我们选择两条不同的直线做投影,那么左右两 条中哪个好呢?根据我们之前的方差最大化理论, 左边的好,因为投影后的样本点之间方差最大。
最大方差理论
最大方差理论
Su = λu, 这是一个标准的特征值表达式了,λ对应的 特征值,u对应的特征向量。 由此var = uTSu = λ var取得最大值的条件就是λ最大,也就是取得最大 的特征值的时候。假设我们是要将一个D维的数据空 间投影到M维的数据空间中(M < D), 那我们取前 M个特征向量构成的投影矩阵就是能够使得方差最 大的矩阵了。同时,由于u是实对称矩阵的特征向量 ,因此特征向量之间正交,投影得到的综合变量彼 此独立,协方差为0。
基本思想
主成分分析所要做的就是设法将原来众多具有一定 相关性的变量,重新组合为一组新的相互无关的综 合变量来代替原来变量。通常,数学上的处理方法 就是将原来的变量做线性组合,作为新的综合变量 ,但是这种组合如果不加以限制,则可以有很多, 应该如何选择呢?
基本思想
如果将选取的第一个线性组合即第一个综合变量记 为F1 ,自然希望它尽可能多地反映原来变量的信息 ,这里“信息”用方差来测量,即希望Var(F1)越大 ,表示F1包含的信息越多。因此在所有的线性组合 中所选取的F1应该是方差最大的,故称F1为第一主成 分。如果第一主成分不足以代表原来p 个变量的信 息,再考虑选取F2即第二个线性组合,为了有效地 反映原来信息,F1已有的信息就不需要再出现在F2中 , 用数学语言表达就是要求Cov(F1 ,F2)=0,称F2为第 二主成分,依此类推可以构造出第三、四…第p 个主 成分。
基本思想
线性判别分析的基本思想是将高维的模式样本 投影到最佳鉴别矢量空间,以达到抽取分类信息 和压缩特征空间维数的效果。投影后保证模式样 本在新的子空间有最大的类间距离和最小的类内 距离,即模式在该空间中有最佳的可分离性。因 此,它是一种有效的特征抽取方法。使用这种方 法能够使投影后模式样本的类间散布矩阵最大, 并且同时类内散布矩阵最小。
总 结
PCA与LDA对比
PCA与LDA的降维对比:
PCA选择样本点投影具有最大方差的方向,LDA选择 分类性能最好的方向。
PCA与LDA对比
LDA的全称是Linear Discriminant Analysis(线性判别 分析),是一种supervised learning。主成分分析( PCA)与LDA有着非常近似的意思,LDA的输入数据 是带标签的,而PCA的输入数据是不带标签的,所 以PCA是一种unsupervised learning。LDA通常来说是 作为一个独立的算法存在,给定了训练数据后,将 会得到一系列的判别函数(discriminate function), 之后对于新的输入,就可以进行预测了。而PCA更 像是一个预处理的方法,它可以将原本的数据降低 维度,而使得降低了维度的数据之间的方差最大。
LDA
要说明白LDA,首先得弄明白线性分类器(Linear Classifier)
:因为LDA是一种线性分类器。对于K-分类的一个分类问题, 会有K个线性函数:
权向量(weight vector) 法向量(normal vector) 阈值(threshold) 偏置(bias)
当满足条件:对于所有的j,都有Yk > Yj,的时候,我们就说x 属于类别k。对于每一个分类,都有一个公式去算一个分值, 在所有的公式得到的分值中,找一个最大的,就是所属的分类 。
线性判别分析(LDA)
与
主成分分析(PCA)
重庆大学
余俊良
第一部分 线性判别分析(LDA)
介绍
线性判别分析(Linear Discriminant Analysis, LDA),也 叫做Fisher线性判别(Fisher Linear Discriminant ,FLD), 是模式识别的经典算法,1936年由Ronald Fisher首次 提出,并在1996年由Belhumeur引入模式识别和人工 智能领域。