基于核函数的学习算法
线性Fisher判别分析
对于两类问题,设待分类的样本有n个:x1, x2,…,xn∈Rd 。在进 行Fisher判别分析时,目标是找到线性投影方向(投影轴),使得 训练样本在这些轴上的投影结果类内散度最小,类间散度最大 。设样本类内均值为mi,则
设样本类间离散度矩阵为Sω,则
设样本类间离散度矩阵为Sb,则
核函数
在处理线性分类问题时,数据以点积的形式( xi · xj ) 出现。 而在处理非线性分类问题时,需要采用非线性映射把输入 空间映射到高维特征空间,记为:
当在特征空间H 中构造最优超平面时,训练算法仅使用空 间中的点积,即 存在一种核函数K,使得: 核函数将m维高维空间的内积运算转化为n维低维输入空 间的核函数计算,从而巧妙地解决了在高维特征空间中计 算的“维数灾难”等问题。
对于类型未知的样本x , 可以采用线性判决函数: 来判断其所属类别,综合式(9),可得分类判决函数:
根据核函数的相关知识,可以使用核函数K( xi · xj )替代 线性分类问题中的点积形式,从而实现非线性变换后 的线性分类。由此,式(5) 的对偶形式可变为:
约束条件:
相应的分类判决函数转变为:
该线性分类函数的VC维即为3
一般而言,VC维越大, 学习能力就越强,但学 习机器也越复杂。
目前还没有通用的关于计算任意函数集的VC 维的理论,只有对一些特殊函数集的VC维可以 准确知道。
结构风险最小化准则
Vapnik和Chervonenkis(1974)提出了SRM。 传统机器学习方法中普遍采用的经验风险最小化原则 在样本数目有限时是不合理的,因此,需要同时最小 化经验风险和置信范围。 统计学习理论提出了一种新的策略,即把函数集构造 为一个函数子集序列,使各个子集按照VC维的大小排 列;在每个子集中寻找最小经验风险,在子集间折衷考 虑经验风险和置信范围,取得实际风险的最小。这种 思想称作结构风险最小化准则(Structural Risk Minimization Principle)。
这时,输入训练样本由原来的x变为Ø ( x) ,然后在这个特征空间F中进行线性FDA 。问题转变为在F中最大化目标函数JF(w)
式中,ω∈F,
是F中相应的矩阵,分别为
由于F空间的维数通常很高甚至是无穷维,因JF (w )式直接求解 很困难。借用非线性支持向量机的核方法,引入以下内积核函 数 来隐含地进行运算,,定义核矩阵K为 式中, (Ki ) pj = k ( xp , xij ) , p = 1, 2, ⋯, n, 是n ×ni 矩阵( i = 1, 2) ,是全体样本分别与类1、类2的内积核矩阵。 由再生核理论可知, F空间的任何解wØ 都是F空间中的训练样 本的线性组合,即:
径向基函数
S形函数
有监督学习 (supervised learning)
监督学习,就是人们常说的分类,通过已有 的训练样本(即已知数据以及其对应的输出) 去训练得到一个最优模型(这个模型属于某 个函数的集合,再利用这个模型将所有的输 入映射为相应的输出,对输出进行简单的判 断从而实现分类的目的,也就具有了对未知 数据进行分类的能力。 典型的例子就是SVM(可支持向量机)、 KFD(基于核的Fisher判别分析)。
b可以通过求解具有L1 软边界的一维线性支持向量机( SVM)来 确定。
SVM和KFD的比较
核Fisher判别分析与支持向量机分类精度相差不大;但由于SVM 需要求解二次优化问题,因此在训练样本较多的情况下需要的训 练时间较长,而KFDA只计算矩阵的特征向量,计算量小,在消耗 时间上具有明显的优势。 与SVM分类相似, KFDA的分类性能受核函数及参数影响很大, 核函数参数在特定的范围内才能得到良好的分类精度。
无监督学习 (unsupervised learning)
无监督学习是我们事先没有任何训练样本,而需要直接对数 据进行建模。 典型的例子就是KPCA(核主成分分析)。
Kernel Principal Component Analysis
KPCA方法借鉴SVM的核方法思想,将线性的PCA扩展到 非线性情形。
理论基础 监督学习:SVM、KFD
无监督学习:KPCA
模型选择
理论基础
机器学习 VC维
结构风险最小化原则
SLT(Statistical Learning Theory)
上世纪90年代中才成熟的统计学习理论,是 在基于经验风险的有关研究基础上发展起来 的,专门针对小样本的统计理论。 统计学习理论为研究有限样本情况下的模式 识别、函数拟合和概率密度估计等三种类型 的机器学习问题提供了理论框架,同时也为 模式识别发展了一种新的分类方法——支持 向量机。
是第i类各个样本与总体的内积核的均值。
由上述三式可得
在F空间中,求解Fisher线性判别函数: 该判别函数隐式地对应原空间的一个非线性判别函数,因此, 它是一种非线性方法。求解矩阵N - 1M 的最大特征值对应的 特征向量就可求得上式的最优解。 测试数据在特征向量wØ 上的投影为: 在实际应用中为了防止N 非正定,使解更稳定,通常引入一个正 则化参数λ,令Nλ =N +λI, I是单位矩阵。则判别函数可以写为:
已知变量y与输入x之间存在一定的未知依赖关系,即联合概率分布F(x,y) 机器学习就是根据独立同分布的n个观测样本: (x1, y1), (x2, y2), · · ·, (xn, yn) 在一组函数{f(x,w)}中求一个最优函数f(x,w0),使预测的期望风险R(w)最 小化。
R( w) L( y, f ( x, w))dF ( x, y )
Kernel Fisher discriminant analysis(基于核的Fisher判别 方法)
是由Mika 等人于1999 年提出的方法。 核 Fisher 判别分析是一种很有用的机器学习方 法,将一个非线性问题通过非线性变换转化为
另一个空间中的线性问题进行求解. 它不依赖于
模型 ,也不存在现代智能技术中重要的一个方面,研究从观测样本出 发去分析对象,去预测未来。 机器学习的基本模型:
输出y与x之间存在一种固定的、但形式未知的联合概率分布函数 F(y,x)。
学习机中有函数集{f(x,w)},可估计输入与输出之间依赖关系, 其中w为广义参数。
风险最小化-机器学习问题表示
其中,非负常数C 为惩罚因子,C 值越大表示对错误分类的惩罚越大。 这是一个具有线性约束的二次规划问题,利用拉格朗日乘子法可以 将式(4) 转化为其对偶形式:
(5)
约束条件:
(6)
其中ai为原问题中与约束条件式(2) 对应的拉格朗日乘子。 这是一个不等式约束下的二次函数寻优问题,存在高效的 算法求解。可以证明,在此寻优问题的解中有一部分ai不 为0,它们所对应的训练样本完全确定了这个超平面,因 此称其为支持向量(support vector)。
核方法分为核函数设计和算法设计两个部分,具体情况如图1 所示。核方法的实施步骤,具体描述为: ①收集和整理样本,并 进行标准化; ②选择或构造核函数; ③ 用核函数将样本变换成 为核矩阵; ④在特征空间对核矩阵实施各种线性算法;⑤得到 输入空间中的非线性模型。
核函数
主要的核函数有三类: 多项式核函数
模型选择
核函数方法中模型选择十分重要,模型选择包 括核函数的选择、构造以及参数调整;就SVMs 而言,还包括容量控制参数(正则化参数) 、损 失函数的确定等。
基于核的Fisher判别分析
KFDA算法的思想是:引入核方法,通过一个非线性映射,将输入数据映射到一个 高维的线性可分的特征空间中,然后在这个特征空间中进行线性Fisher判别分析, 从而实现相对于输入空间的非线性判别分析。 在进行KFDA时,首先通过非线性映射Ø 将输入数据映射到一个高维特征空间中, 即
支持向量机方法建立在统计学习理论基础之上,专门 针对小样本情况下的机器学习问题。 对于分类问题, 支持向量机方法根据区域中的样本计算该区域的分类 曲面,由该曲面决定该区域中的样本类别。 已知样本x 为m 维向量, 在某个区域内存在n个样本: (x1,y1),(x2,y2),…,(xn,yn) 其中,xi 是训练元组,xi∈Rm,yi是类标号,yi∈{1,1}。 若存在超平面( hyperplane):
最佳投影方向是通过最大化目标函数J(w) W为投影方向。
考虑到J(w)的尺度不变性,令分母为非零常数,用Lagrange乘 子法求解得到下面的特征值: W*就是J(w)中的极值解,也就是矩阵S - 1ω Sb的最大特征值对 应的特征向量。测试样本在这个向量上的投影系数就是所提 取的测试样本的特征值。 则FDA的判别函数为 b为偏移量,可以通过求解以下方程得到 则对于一待测样本xi ,求Fisher判别分析判别函数 f ( xi ) =w*xi + b,通过f ( xi )正负确定其归属。
ω·x + b = 0
(1)
其中· 表示向量的点积,如图1 所示,超平面能将这n 个样 本分为两类,那么存在最优超平面不仅能将两类样本准确 分开,而且能使两类样本到超平面的距离最大。式(1) 中 的ω和b 乘以系数后仍能满足方程,进行归一化处理之后, 对于所有样本xi ,式| ω·xi + b| 的最小值为1 , 则样本与 此最优超平面的最小距离为|ω·xi + b |/‖ω‖= 1/‖ω‖,那么最优超平面应满足条件: yi(ω·xi + b)≥1,i=1,…,n. (2)
SVM(Support vector machines)
SVM是基于SLT的一种机器学习方法。简单的
说,就是将数据单元表示在多维空间中,然 后对这个空间做划分的算法。
SVM是建立在统计学习理论的VC维理论和结
构风险最小原理基础上的,根据有限的样本 信息在模型的复杂性之间寻求最佳折衷,以 期获得最好的推广(泛化)能力。