实验2分类预测模型——支持向量机SVM
一、 实验目的
1. 了解和掌握支持向量机的基本原理。
2. 熟悉一些基本的建模仿真软件(比如SPSS、Matlab等)的操作和使用。
3. 通过仿真实验,进一步理解和掌握支持向量机的运行机制,以及其运用的场景,特别是
在分类和预测中的应用。
二、 实验环境
PC机一台,SPSS、Matlab等软件平台。
三、 理论分析
1. SVM的基本思想
支持向量机(Support Vector Machine, SVM),是Vapnik等人根据统计学习理论中结
构风险最小化原则提出的。SVM能够尽量提高学习机的推广能力,即使由有限数据集得到的
判别函数,其对独立的测试集仍能够得到较小的误差。此外,支持向量机是一个凸二次优化
问题,能够保证找到的极值解就是全局最优解。这希尔特点使支持向量机成为一种优秀的基
于机器学习的算法。
SVM是从线性可分情况下的最优分类面发展而来的,其基本思想可用图1所示的二维情
况说明。
图1最优分类面示意图
图1中,空心点和实心点代表两类数据样本,H为分类线,H1、H2分别为过各类中离分
类线最近的数据样本且平行于分类线的直线,他们之间的距离叫做分类间隔(margin)。所
谓最优分类线,就是要求分类线不但能将两类正确分开,使训练错误率为0,而且还要使分
类间隔最大。前者保证分类风险最小;后者(即:分类间隔最大)使推广性的界中的置信范
围最小,从而时真实风险最小。推广到高维空间,最优分类线就成为了最优分类面。
2. 核函数
H1
H
H2
margin=2/ ω
支持向量机的成功源于两项关键技术:利用SVM原则设计具有最大间隔的最优分类面;
在高维特征空间中设计前述的最有分类面,利用核函数的技巧得到输入空间中的非线性学习
算法。其中,第二项技术就是核函数方法,就是当前一个非常活跃的研究领域。核函数方法
就是用非线性变换 Φ 将n维矢量空间中的随机矢量x映射到高维特征空间,在高维特征空
间中设计线性学习算法,若其中各坐标分量间相互作用仅限于内积,则不需要非线性变换 Φ
的具体形式,只要用满足Mercer条件的核函数替换线性算法中的内积,就能得到原输入空
间中对应的非线性算法。
常用的满足Mercer条件的核函数有多项式函数、径向基函数和Sigmoid函数等,选用
不同的核函数可构造不同的支持向量机。在实践中,核的选择并未导致结果准确率的很大
差别。
3. SVM的两个重要应用:分类与回归
分类和回归是实际应用中比较重要的两类方法。SVM分类的思想来源于统计学习理论,
其基本思想是构造一个超平面作为分类判别平面,使两类数据样本之间的间隔最大。SVM分
类问题可细分为线性可分、近似线性可分及非线性可分三种情况。SVM训练和分类过程如图
2所示。
图2 SVM训练和分类过程
SVM回归问题与分类问题有些相似,给定的数据样本集合为 x
i,yi ,…, xn,yn
。其中,
𝑥
𝑖
xi∈R,i=1,2,3…n。与分类问题不同,这里的 yi 可取任意实数。回归问题就是给定一个新
的输入样本x,根据给定的数据样本推断他所对应的输出y是多少。如图3-1所示,“×”
表示给定数据集中的样本点,回归所要寻找的函数 f x 所对应的曲线。同分类器算法的思
路一样,回归算法需要定义一个损失函数,该函数可以忽略真实值某个上下范围内的误差,
这种类型的函数也就是 ε 不敏感损失函数。变量ξ度量了训练点上误差的代价,在 ε 不敏
感区内误差为0。损失函数的解以函数最小化为特征,使用 ε 不敏感损失函数就有这个优势,
以确保全局最小解的存在和可靠泛化界的优化。图3-2显示了具有ε 不敏感带的回归函数。
o x y 图3-1 回归问题几何示意图 o x
y
ε
ξ
ξ
图3-2 回归函数的不敏感地
数据
训练集
特征选择 训练 分类器
新数据
训练集
特征选择 分类 判别
四、 实验案例与分析
支持向量机作为一种基于数据的机器学习方法,成功应用于分类和预测两个方面。本实
例将采用支持向量机的分类算法对备件进行分类,以利于对备件进行分类管理,然后运用支
持向量机的回归算法对设备备件的需求进行预测,以确定备件配置的数量。
1. 基于SVM的设备备件多元分类
设备备件通常可分为三种类型,即设备的初始备件、后续备件和有寿备件。
a) 初始备件:是指设备在保证期内,用于保持和恢复设备主机、机载设备与地面保障
设备设计性能所必需的不可修复件和部分可修复件。该类设备是随设备一起交付用
户的,其费用计入设备成本。
b) 有寿设备:由于规定了寿命期限,因此这基本上是一个确定性的问题。
c) 后续设备:由于备件供应保障的目标是使设备使用和维修中所需要的备件能够得到
及时和充分的供应,同时使备件的库存费用降至最低。因此,对于某种备件是否应
该配置后续备件以及配置多少都需要慎重考虑。
对于某种备件是否应该配置后续备件,需要综合考虑多方面的因素。首先,我们必须考
虑部件的可靠性水平。配置备件的根本原因也在于此。如果可靠性水平不高,则工作部件容
易出现故障,那么跟换时就需要用到备件,因此工作部件的可靠性水平是影响备件配置的一
个重要因素。其次,是故障件的可维修性水平。故障件的可维修性水平越高,维修处理故障
的时间越短,故障设备就能快速恢复工作状态;相反,如果故障件的可维修性差,则需要长
时间来排除故障,为了保证设备的正常运行,只有进行换件处理,即依靠备件来接替工作。
最后,是经济方面的因素。统计表明,高价设备的配件虽少,但是其费用却占总备件费用的
很大一部分。此外,还有一些其他方面的因素,如关键性等。
后续备件的配置涉及一个分类的问题,根据不同的类别,因采取不同的配置方式。因此,
这里使用SVM构建多元分类模型对齐进行分析。对于备件的属性选择,主要考虑可靠性、
维修性和经济性三种因素,分别选择平均故障间隔时间(MTBF)、平均维修时间(MTTR)
和单价作为备件的三种属性。因此,SVM的输入学习样本为三维,选取RBF径向基核函数
作为样本向高维特征空间映射的核函数。表1所示为8种备件样本的属性及其经验分类。
表1 备件样本的属性及其经验分类
特征
品种
MTBF/kh MTTR/h 价格/元 分类
R1 1.000 1.37 80 4
R2 10.000
1.32 160 2
R3
0.333 1.37 800 3
R4
0.040 8.22 16 1
R5
1.000 2.74 40 4
R6
8.000 1.27 40 2
R7
0.100 0.54 70 4
R8
1.000 0.82 400 3
R9 0.200 4.11 50 4
R10 0.500 16.70 80 1
从表1中可以看出,对于1号分类,如R4,其显著特征是可靠性差,维修费时,但是
价格便宜,需要而且适合大量配置后续备件;对于2号分类,如R2,其典型特征是可靠性
高,很少发生故障,因此不需要配置后续备件;对于3号分类,如R3,其典型特征是可靠
性不高,但是价格较为昂贵,因此只适合配置少量的后续备件;对于4号分类,如R7,无
明显特征,属于一般后续备件,可以根据具体情况决定备件的配置数量。
通过SPSS的Clementine 12.0软件进行仿真步骤:
(1). 构建SVM模型。
图4-1
输入为3变量:品种、MTBF、MTTR、价格,输出为分类号。
图4-2
模型选择RBF核函数,参数设置:目标函数的正则化参数C=10,损失函数中
的ε=0.1,核函数中的σ=0.1。