当前位置:文档之家› 支持向量机(SVM)简明学习教程

支持向量机(SVM)简明学习教程

支持向量机(SVM )简明学习教程一、最优分类超平面给定训练数据),(,),,(11l l y x y x ,其中n i R x ∈,}1,1{-∈i y 。

若1=i y ,称i x 为第一类的,I ∈i x ;若1-=i y ,称i x 为第二类的,II ∈i x 。

若存在向量ϕ和常数b ,使得⎪⎩⎪⎨⎧II∈<-I∈>-i i T i i T x if b x x if b x ,0,0ϕϕ (1),则该训练集可被超平面0=-b x T ϕ分开。

(一)、平分最近点法求两个凸包集中的最近点d c ,',做d c ,'的垂直平分面x ,即为所求。

02)(2222=---⇒-=-dc xd c x d xc T,则d c -=ϕ,2)()(d c d c b T +-=。

求d c ,,⎪⎩⎪⎨⎧≥==≥==∑∑∑∑-=-===.0,1,.0,1,1111i y iy i i i y iy i i i i i i x d x c αααααα所以2112∑∑-==-=-i i y iiy ii xx dc αα,只需求出最小的T l ),,(1ααα =。

算法:1)求解.0,1,1..2121min 1121211≥===-∑∑∑∑∑-===-==i y i y i li i i i y i i y i i i i i i t s x y x x αααααα;2)求最优超平面0=-b x T ϕ。

(二)、最大间隔法附加条件1=ϕ,加上(1)式。

记C x C i T x i >=I∈ϕϕmin )(1,C x C i T x i <=I I∈ϕϕmax )(2。

使⎪⎩⎪⎨⎧II∈<-I∈>-=-=i i Ti i Tx if b x x if b x t s C C ,0,0,1..2)()()(max 21ϕϕϕϕϕϕρ (2) 可以说明在(2)下可以得到一个最优超平面,且该超平面是唯一的。

如何快速生成一个最优超平面??? 考虑等价问题:求权向量w 和b ,使⎪⎩⎪⎨⎧II∈-<-I∈>-i i T i i T x if b x w x if b x w ,1,1,且ϕ最小。

这种写法已经包含最大间隔。

事实上b C C C x if C b x w x if C b x w i i T i i T=+=⇒⎪⎩⎪⎨⎧II∈=+-<I∈=+>))()((21),(1),(121021ϕϕϕϕ中心,而w w =ϕ,故w b C =,wC C 12)()()(21=-=ϕϕϕρ。

所以(2)式可以转化为求解:1)(..min≥-b x w y t s wi Ti (3)总结,求最优超平面,只需求解:1)(..21)(min ≥-=Φb x w y t s w w w i T i T (QP1)对(QP1)构造lagrange 函数:令∑=---=li i T i i b x w y w b w L 12]1)([21),,(αα,其中0),,(1≥=T l ααα 为lagrange 乘子。

下求L 的鞍点:1=i =i 1将2)代入L 中,且目标改为)(αW 。

则∑∑∑===+-=li i l i l j j Ti j i j i x x y y W 11121)(αααα所以,(QP1)的对偶问题为:,0..)(max =≥∑iiyt s W ααα (DQP1)由KKT 条件,0]1)([=--b x w y i T i i α。

若存在0*>j α时,有01)(=--b x w y j Tj ,此时,SV j ∈,则∑+-=+-=ij T i i i j j T j x x y y x w y b α*几何意义:i x ,SV i ∈是与超平面距离最近的向量,称其为支持向量。

他在构造超平面中起到及其重要的作用。

SVM 算法1(线性可分SVM 分类机) 1)、求解规划问题(DQP1)2)、求∑==li i i i x y w 1*α和∑+-=ij T i i i j x x y y b α*,得到分类超平面0**=-b x w T 。

3)、分类器:)()(**b x w sign x f T -=。

(三)、软间隔分类超平面针对样本数据线性不可分的情况。

此时02)()()(21<-=ϕϕϕρC C 。

解决方案:软化约束(通过添加松弛因子)。

i j T j b x w y ξ-≥-1)(,其中,0≥i ξ。

显然,当i ξ充分大时,软约束总是成立的,但i ξ不应该取太大。

所以将i ξ加入到目标中,得到(QP2):.0,1)(..21)(min ≥-≥-+=Φ∑i i i T i ii Tb x w y t s C w w w ξξξ (QP2)其中,C 为正的惩罚参数。

显然,QP2包含了QP1的,(取∞→C )。

另外,QP2的鲁棒性好(稳定性好) 同样,对(QP2)构造lagrange 函数:令∑∑∑----+==i i li i T i i i b x w y C w b w L ξβαξβαξ12]1)([21),,,,(。

1=i =i 13)、C C C L i i i i ≤-=≤⇒=--⇒=∇βαβαξ000。

代入L 中,得∑∑---+-)(212i i i i i i C w ξβξαξα。

所以,(QP2)的对偶问题为:0,0..21min 111=≥≥-∑∑∑∑===iili i l i l j j Ti j i j i yC t s x x y y ααααα (DQP2) 对于b ,由KKT 条件⎩⎨⎧=-=+--0)(0]1)([C b x w y i i i i T i i αξξα。

当0*>>j C α时,0=j ξ,则∑+-=+-=ij T i i i j j T j x x y y x w y b α*。

(四)、支持向量机对于本质线性不可分问题,有两种方法:(1)构造非线性分类器;(2)将样本点射到高维特征空间,再用线性分类器。

例1:)}1,3(),1,1(),1,1{(--=T 不可分映射:T x x x ),(2→,则)}1,93(),1,11(),1,11{(~⎪⎪⎭⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-=T 可分。

基本思想:Z x x x x T m ==→))(,),(()(1ϕϕϕ ,),(),(i i i i y Z y x → 例2:对于圆0)()(21222122221=++++⇒=-+-E Dx Cx Bx Ax r b x a x ,故Z x x x x x x x x T ==→=)1,,,,()(),(21222121ϕ。

但复杂性增大,如n R x ∈,则二次特征空间n n n N ++=2/)1(。

(问题:推广性如何评价,技术上如何处理高维数据???)1)、核函数设Z X Z →:,n R X x ⊂∈∀,N N T N R z z x Z x Z x Z ∈==),,())(,),(()(11 。

(注N 可为无穷)考虑在Hilbert 空间中内积的一个一般表达式:),()(i i x x K z z =•。

根据Hilbert-Schmidt 理论,),(i x x K 可以是满足下面一般条件的任意对称函数(Courant andHilbert,1953)定理(Mercer )要保证2l 中的对称连续函数),(v u K 能以正的系数0>k a 展开成),()()(),(1v u K v u a v u K k k k k ⇔⋅⋅=∑∞=ϕϕ正定。

(⎰⎰>⋅⋅⇔0)()(),(v g u g v u K K 正定)2)支持向量机 训练样本)},(,),,{(11l l y x y x T =,Nn R x z R x ∈=→∈)(ϕ,则)}),((,),),({(~11l l y x y x T ϕϕ =。

求Z ~上的超平面将T ~分开(若可分),则最大间隔超平面: 1))((..21)(min ≥-=Φb x w y t s w w w i T i Tϕ (QP3)其对偶问题为:,0..),(21min 111=≥-∑∑∑∑===iili i l i lj j i j i j i yt s x x K y y ααααα (DQP3) 设(DQP3)有解*α,则∑==li i i i x y w 1**)(ϕα,∑+-=+-=ij i i i j j T j x x K y y x w y b ),()(*αϕ,(}0|{*>∈i i j α)。

从而,决策函数为))()(())(()(*1***b x x y sign b x w sign x f li T i i i T-=-=∑=ϕϕαϕ)),((*1*b x x K y sign li i i i -=∑=α。

算法(可分的SVM )(1)、选样本)},(,),,{(11l l y x y x T =; (2)、选核函数,用Mercer 定理判断; (3)、计算*α,由(DQP3); (4)、代入决策函数应用。

(错误率高可转(2)重来)同样,对特征映射后的样本点T ~线性可分难于判断,可引人松弛变量:.0,1)(..21)(min ≥-≥-+=Φ∑i i i T i ii Tb x w y t s C w w w ξξξ (QP4)其对偶问题为:0,0..),(21min 111=≥≥-∑∑∑∑===iili i l i lj j i j i j i yC t s x x K y y ααααα (DQP4) 则∑+-=+-=ij i i i j j T j x x K y y x w y b ),()(*αϕ,(}0|{*>>∈i C i j α)。

决策函数为)(x f )),((*1*b x x K y sign li i i i -=∑=α。

(存在问题:1、C 的选择;2、K 的选择????)3)常用的核函数d 阶多项式核:d T y x y x K )1(),(+=;Gauss 核:}exp{)(),(2y x r y x K y x K r --=-=;))((),(c y x v S y x K T +=,其中)(u S 为Sigmoid 函数,但他不满足Mercer 定理。

二、估计实值函数的支持向量机 (一)、回归分析已知)},(,),,{(11l l y x y x T =,R y R x i n i ∈∈,,最小二乘:εα+=),(x f y ,),0(2σεN ∈。

其定义损失函数为:2)),(()),(,(ααx f y x f y L -=,使得经验风险最小:∑-ii ix f y2)),((minα。

相关主题