当前位置:文档之家› 处理非线性分类和回归的新方法—支持向量机方法SVM

处理非线性分类和回归的新方法—支持向量机方法SVM

T106-36h预报输出产品。
预报对象 西南片区的9个代表站(56294、56651、
56671、56768、56778、57036、57516、57713、 57816)的有无降水(晴雨)预报。
预报因子 将T106-36小时的各种气象要素格点值(如,
上的向量就称为支持向量。
SVM的本质优点
❖ 传统的统计方法只有在样本数趋向无穷大 时其性能才有理论上的保证。对于应用中 的有限样本难以取得理想的效果。SVM方 法是一种小样本学习方法。
❖ SVM可以给出学习结果的推广能力的界。 ❖ SVM是一种处理非线性分类和非线性回归
的有效方法。 ❖ SVM方法的计算量与样本向量的维数几乎
x k x x f ( ) sgn N ir i1
i
(3)
其中 k r ( x xi ) 依赖于两个向量之间的距离 x xi 。
对任意固定的r,函数 k r ( x xi ) 是一个非负的单调函数,当 x xi
趋于无穷大时,其值趋于零。这种类型的函数中最常用的是
kr (
x
xi ) exp r
选取不同的参数的模型变化状况
试验效果分析
我们在1990—1998年4—9月的资料中任意 剪取了近100个样本做为检验集,把其中剩余 的近1400个样本做为训练集,把1999—2000 年4—9月接近350个样本资料做为测试集。以 下为试验结果:
单站晴雨预报的SVM建模 与预报检验
建模资料 采用国家气象中心1998—2000年9—11月

资料长度:
1990—2000年4—9月 共11年的历史资料
建模方式:
确定核函数 归一化因子
将预报对象进行分类 将预报因子和预报对象进行整理,分为三部分:
训练集、测试集、检验集 选取参数建立SVM模型
确定核函数
我们以径向基函数(满足Mercer定理)做为SVM中内积的回旋函数建立
推理模型。径向基函数采用下面的决策规则集合:
y ), 1
( xl
,
y ), x l
Rn ,
y
1,1
可以被一个超平面 (w • x) b 0 分开。
如果这个向量集合被超平面没有错误地分开,
并且距离超平面最近的向量与超平面之间的距
离是最大的,则我们说这个向量集合被这个最
优超平面(或最大间隔超平面)分开(如图
1)。
位于w • xi b 1 和 w • xi b 1
支持向量机方法(SVM) 简介
(Support Vector Machine)
机器学习问题的提法
利用有限数量的观测来 寻求待求的依赖关系
模式识别(分类) 回归分析(回归) 概率密度估计
训练样本集: (x1,y1), (x2,y2) ,……,(xl,yl) 其中xi为N维向量,
yiR ( 回归) 预报样本集
SVM应用于 降水分类预报的试验
四川盆地面雨量的 SVM建模与预报检验
预报对象: 由于单站降水的不确定性较
大,因此,采用面雨量做为预报 对象。
考虑四川盆地降雨的气候特 点,将四川省内盆地部分划分为 三个片区:
盆地西北部(1)、 盆地东北部(2)、 盆地西南部(3),
分别作为预报对象进行试验
预报因子:
样本数据集:X
训练学习集
测检 试验 集集
建立 y=f (X,α) 优化
分类关系
应用
SVM的基本思路
❖ 通常习惯于把样本降维(向低维空间做 投影)化简问题
❖ 通常采用线性化手段。(如取对数)
❖ SVM方法是把样本点“升维”,即映射到 高维甚至无穷维空间,再在高维空间中 采用处理线性问题的方法。
❖ 映射是非线性的,从而解决样本空间中 的高度非线性问题。
x
xi
2
。要构造(3)式的决策规则,就需要估计:
x x 参数r的值;中心 i 的数目N;描述各中心的向量 i ; 参数 i 的值。
这四种类型的参数都是通过控制泛函的参数来最小化测试错误概率的界确定。
将预报对象进行分类
我们关注的是大于15mm降水 的面雨量,因此把面雨量
大于或等于15mm的归为 +1类, 小于15mm的归为 -1类。
影响降水量的因子主要是大气 环流和外界强迫,考虑资料长度和 目前台站使用资料的状况,我们选 用
ECMWF 500hPa高度、 850hPa温度、 地面气压
的0小时输出产品资料来构造预报因 子。
针对四川盆地的降水影响系统 和要素特征,我们在不同的层次选 取不同的区域来构造因子,尽量以 数字化形式来描述系统及要素的演
整理预报因子和预报对象
把资料分为三部分:训练集、测试集、检验集。 因在建立SVM模型中要对参数进行选取,用不同的参数 训练得到的SVM模型中的支持向量不可能完全一样,因推理 模型变化,相应的推理结果也会发生改变,什么样的参数建 立的推理模型效果最好,就要对其在测试集中进行测试,我 们在这里是依据推理模型对测试集的推理结果所得的Ts评分 值进行参数确定的,把Ts评分最好的参数对应的支持向量构 造的推理模型作为最终确定的推理模型,把该模型用于检验 集,以检验其预报效果(推广能力)。
xl+1 , xl+2 , …… , xm;求yi
Gx
S
y
LM
y
G: 产生器,随机产生向量x∈Rn ,F(x)未知 S: 训练器,对每一x∈Rn返回一输出值 y LM: 学习机器,可供选取的函数集f (x,)
基于训练,从给定的函数集f (x,), ∈
中选出最好逼近训练器响应的函数来
模式识别问题的图示
升 维 的 图 示
非线性映射的图示
非线性映射
样本空间
特征空间
线性分类机 二类划分: 1.线性可划分
2.线性不可分 多类划分
非线性分类机
支持向量机 模式识别
Support Vector Machines for Pattern Recognition
划分超平面区域
假定训练数据 ( x1 ,
无关,这在某种意义上避免了“维数灾”。
SVM常用核
c ❖多项式核 (维数等于
d nd

K(x,y)= (a(x·y)+b)d
❖RBF核 K(x,y)= exp(-||x-y||2)
❖双曲正切核 K(x,y)= tanh(a(x·y)+b)
不同核函数建立的SVM模型对结 果的影响及特征比较
同一核函数下不同参数建立的 SVM模型的特征变化
相关主题