模式识别基础
Xuegong Zhang
29
Tsinghua University
所谓最优分类面,就是在线性可分情 况下,要求分类线不但能将两类无错 误地分开,而且要使两类的分类空隙 最大。
间隔最大 Î min 1 w 2 2
机器学习问题的基本表示
用三个部分来描述机器学习的一般模型: (1) 产生器(Generator),产生随机向量x,它们是从固定但未知的概率
分布函数F(x) 中独立抽取的。 (2) 训练器(Supervisor),对每个输入向量x返回一个输出值y,产生输
出的根据是同样固定但未知的条件分布函数F(y|x)。 (3) 学习机器(Learning Machine),能够实现一定的函数集
如何求取解 函数?
R(α ) = ∫ L( y, f (x,α ))dF (x, y)
选择什么样的函数集
作为候选函数集?
期望风险未知,采用什么原则
Xuegong Zhang Tsinghua University
来对它最小化? 15
经验风险最小化(ERM)原则
经验风险泛函 (empirical risk funcitonal):
不易实现
线性判别
广义线性 判别函数
• 复杂多 样,无从 确定
非线性 判别函数
Xuegong Zhang Tsinghua University
线性判别
• MLP: 通用的
非线性分类器
• 最小化训练
• 复杂多 样,无从 确定
非线性 判别函数
错误≠预测错
误最小
• 过学习问题 • 局部最优解
人工神经
问题
9
14
Tsinghua University
机器学习方法的几个要素
学习的目标:
在联合概率分布函数 F (x, y) 未知、所有可
用的信息都包含在训练集 ( x1, y1),L, ( xl , yl ) 中
的情况下,寻找函数 f (x,α0 ) ,使它(在函数 类 f (x,α ), α ∈ Λ 上)最小化风险泛函 R(α ) 。
另一种表述 [Vapnik and Chervonenkis, 1968, 1971]:
一个指示函数集 Q(z,α ) , α ∈ Λ 的VC维,是能够被集合中的函 数以所有可能的 2h 种方式分成两类的向量 z1,L, zh 的最大数目 h(也 就是能够被这个函数集打散(shatter)的向量的最大数目)。
– 新的学习原理:如何设计学习机器才能得到更快的收敛速 度,即有限样本下更好的推广能力
• 怎样构造能够控制推广能力的算法?
– 新的学习算法:在理论和原则下的实用方法
Xuegong Zhang
20
Tsinghua University
统计学习理论的核心思想
• 学习的目标在于推广 期望风险最小 ÍÎ 推广能力最大
∑ Remp
(α )
=
1 l
l i =1
Q( zi
,α)
R(α) = ∫ Q(z,α)dF(z), α ∈ Λ
使经验风险最小的函数(l 个样本下): Q(z,αl ) ERM (Empirical Risk Minimization):
用 Q(z,αl ) 逼近 Q(z,α0 ) 。
ERM原则是非常一般性的。解决学习问题的很多传统方 法都是ERM原则的具体实现。 Æ 最小化训练错误率
H Λ (z1,L, zl ) = ln N Λ (z1,L, zl )
VC熵(VC Entropy) : 函数集在数量为l 的样本上的熵
H Λ (l) = E ln N Λ (z1,L, zl )
生长函数:GΛ (l) = ln sup N Λ (z1,L, zl ) z1 ,L,zl
lim GΛ (l) = 0 l→∞ l
模式识别基础
第十三章 统计学习理论与支持向量机简介
---- 暨课程总结与展望
Xuegong Zhang
1
Tsinghua University
回顾:模式识别与机器学习的基本思路
x S M
y? y'
Xuegong Zhang
2
Tsinghua University
例
声音数据
语音识别结果
语料库
现实经济数据
f (x,α ), α ∈ Λ
其中 Λ 是参数集合。
Xuegong Zhang
13
Tsinghua University
机器学习的基本目标
损失函数 (loss function): L( y, f (x,α ))
∫ 风险泛函:
(risk functional)
R(α )
=
L( y, f (x,α ))dF (x, y)
n
其中,n为样本数,h为函数集的VC维,1-η为不等式成立的概率。
• 简言之,即
R(w)
≤
Remp
(w)
+
Φ
h n
Xuegong Zhang Tsinghua University
经验风险
取决于函数集中特定的 函数,取决于训练方法
置信范围
取决于整个函数集的VC 维,取决于机器设计 24
R(w)
– 期望风险与经验风险之间的差
• 大间隔 Î低VC维 Î低复杂度
R(w)
≤
Remp
(w)
+
Φ
h n
Î高推广能力
Xuegong Zhang
28
Tsinghua University
定理: 在N维空间中,满足条件 w ≤ A 的标准超平面构成的指示函数集
f ( x, w, b) = sgn{(w ⋅ x) + b} 的VC维满足下面的界 h ≤ min([R2 A2 ], N ) + 1
学习的目标就是:
在联合概率分布函数 F (x, y) 未知、所有可用的信息 都包含在训练集 ( x1, y1),L, ( xl , yl ) 中的情况下,寻找函
数 f (x,α0 ) ,使它(在函数类 f (x,α ), α ∈ Λ 上)最
小化风险泛函 R(α ) 。
---- 期望风险最小化
Xuegong Zhang
其中 R 为包含所有样本的最小超球的半径。
R(w) ≤ Remp (w) + Φ(h / l) 在有限样本下,要最小化实际风险,
必须对不等式右边的两项同时最小化。
所有样本都分类正确,因
使 w 2 最小就是使VC维的上
此经验风险为最小(0)。
界最小,从而实现SRM准则 中对推广能力的控制。
n+1
• 对分类间隔约束后,线性分类器的VC维可以比空间维数更小。 • SVM 通过对分类间隔的控制,实现对 h 的控制。
信息获取与预处理
特征提取与选择
Xuegong Zhang Tsinghua University
聚类(自学习)
结果解释
4
监督模式识别: 回顾与探讨
Xuegong Zhang Tsinghua University
• 最小错误率 /最小风险 --最优分类器 • 要求模型已 知,否则要估 计模型 • 问题:有限
Xuegong Zhang
16
Tsinghua University
ERM的实例与问题
问题之二:过学习问题
问题之一: • ERM多解时何为最优?为什么?
Xuegong Zhang Tsinghua University
• 经验风险最小化 ≠ 期望风险最小化(错误率最小化)
• 学习机器的复杂性不但与问题背后的模型有关,还要与 有限的学习样本相适应
Xuegong Zhang
25
Xuegong Zhang
26
Tsinghua University
Tsinghua University
最优分类面:最大间隔分类面
Xuegong Zhang
27
Tsinghua University
为什么说最大间隔分类面是“最优的”?
• 推广能力:在有限样本上建立的学习机 器对于未来样本的表现
Xuegong Zhang Tsinghua University
网络
10
• 通过非线 性变换间接 实现非线性 分类 • 问题:思 路很好,但
不易实现
线性判别
• 线性 • 训练错误率最小 ≠ 预测错误率小 • 多解时谁为最优? • Fisher准则的理论 依据?
广义线性 判别函数
支持向量机 (SVM)
若对任意的 l,总存在一个 l 个向量的集合可以被函数集Q(z,α ) , α ∈ Λ 打散,那么函数集的VC维就是无穷大。
Xuegong Zhang
23
Tsinghua University
风险的界与推广能力
• 有限样本下期望风险与经验风险的关系
R(w) ≤ Remp (w) +
h(ln(2n / h) +1) − ln(η / 4)
17
Xuegong Zhang
18
Tsinghua University
• 基于传统统计学的机器学习/模式识别方法的局限
–传统统计学研究的主要是渐进特性 –传统模式识别方法多直接或间接假设样本充分多
• 统计学习理论
–系统地研究有限样本下机器学习的原理与方法的理论
– 始于1960s:
• V. Vapnik, A. Chervonenkis, Theory of Pattern Recognition (in Russian), Nauka, Moscow, 1974 (Germany Translation, 1979)