当前位置：文档之家› 模式识别基础

模式识别基础

Xuegong Zhang
29
Tsinghua University
所谓最优分类面，就是在线性可分情况下，要求分类线不但能将两类无错误地分开，而且要使两类的分类空隙最大。
间隔最大 Î min 1 w 2 2
机器学习问题的基本表示
用三个部分来描述机器学习的一般模型： (1) 产生器(Generator)，产生随机向量x，它们是从固定但未知的概率
分布函数F(x) 中独立抽取的。 (2) 训练器(Supervisor)，对每个输入向量x返回一个输出值y，产生输
出的根据是同样固定但未知的条件分布函数F(y|x)。 (3) 学习机器(Learning Machine)，能够实现一定的函数集
如何求取解函数？
R(α ) = ∫ L( y, f (x,α ))dF (x, y)
选择什么样的函数集
作为候选函数集？
期望风险未知，采用什么原则
Xuegong Zhang Tsinghua University
来对它最小化？ 15
经验风险最小化（ERM）原则
经验风险泛函 (empirical risk funcitonal)：
不易实现
线性判别
广义线性判别函数
• 复杂多样，无从确定
非线性判别函数
Xuegong Zhang Tsinghua University
线性判别
• MLP: 通用的
非线性分类器
• 最小化训练
• 复杂多样，无从确定
非线性判别函数
错误≠预测错
误最小
• 过学习问题 • 局部最优解
人工神经
问题
9
14
Tsinghua University
机器学习方法的几个要素
学习的目标：
在联合概率分布函数 F (x, y) 未知、所有可
用的信息都包含在训练集 ( x1, y1),L, ( xl , yl ) 中
的情况下，寻找函数 f (x,α0 ) ，使它（在函数类 f (x,α ), α ∈ Λ 上）最小化风险泛函 R(α ) 。
另一种表述 [Vapnik and Chervonenkis, 1968, 1971]：
一个指示函数集 Q(z,α ) , α ∈ Λ 的VC维，是能够被集合中的函数以所有可能的 2h 种方式分成两类的向量 z1,L, zh 的最大数目 h（也就是能够被这个函数集打散(shatter)的向量的最大数目）。
– 新的学习原理：如何设计学习机器才能得到更快的收敛速度，即有限样本下更好的推广能力
• 怎样构造能够控制推广能力的算法？
– 新的学习算法：在理论和原则下的实用方法
Xuegong Zhang
20
Tsinghua University
统计学习理论的核心思想
• 学习的目标在于推广期望风险最小 ÍÎ 推广能力最大
∑ Remp
(α )
=
1 l
l i =1
Q( zi
,α)
R(α) = ∫ Q(z,α)dF(z), α ∈ Λ
使经验风险最小的函数（l 个样本下）： Q(z,αl ) ERM (Empirical Risk Minimization):
用 Q(z,αl ) 逼近 Q(z,α0 ) 。
ERM原则是非常一般性的。解决学习问题的很多传统方法都是ERM原则的具体实现。 Æ 最小化训练错误率
H Λ (z1,L, zl ) = ln N Λ (z1,L, zl )
VC熵(VC Entropy) : 函数集在数量为l 的样本上的熵
H Λ (l) = E ln N Λ (z1,L, zl )
生长函数：GΛ (l) = ln sup N Λ (z1,L, zl ) z1 ,L,zl
lim GΛ (l) = 0 l→∞ l
模式识别基础
第十三章统计学习理论与支持向量机简介
---- 暨课程总结与展望
Xuegong Zhang
1
Tsinghua University
回顾：模式识别与机器学习的基本思路
x S M
y? y'
Xuegong Zhang
2
Tsinghua University
例
声音数据
语音识别结果
语料库
现实经济数据
f (x,α ), α ∈ Λ
其中 Λ 是参数集合。
Xuegong Zhang
13
Tsinghua University
机器学习的基本目标
损失函数 (loss function)： L( y, f (x,α ))
∫ 风险泛函：
(risk functional)
R(α )
=
L( y, f (x,α ))dF (x, y)
n
其中，n为样本数，h为函数集的VC维，1-η为不等式成立的概率。
• 简言之，即
R(w)
≤
Remp
(w)
+
Φ
h n
Xuegong Zhang Tsinghua University
经验风险
取决于函数集中特定的函数，取决于训练方法
置信范围
取决于整个函数集的VC 维，取决于机器设计 24
R(w)
– 期望风险与经验风险之间的差
• 大间隔 Î低VC维 Î低复杂度
R(w)
≤
Remp
(w)
+
Φ
h n
Î高推广能力
Xuegong Zhang
28
Tsinghua University
定理：在N维空间中，满足条件 w ≤ A 的标准超平面构成的指示函数集
f ( x, w, b) = sgn{(w ⋅ x) + b} 的VC维满足下面的界 h ≤ min([R2 A2 ], N ) + 1
学习的目标就是：
在联合概率分布函数 F (x, y) 未知、所有可用的信息都包含在训练集 ( x1, y1),L, ( xl , yl ) 中的情况下，寻找函
数 f (x,α0 ) ，使它（在函数类 f (x,α ), α ∈ Λ 上）最
小化风险泛函 R(α ) 。
---- 期望风险最小化
Xuegong Zhang
其中 R 为包含所有样本的最小超球的半径。
R(w) ≤ Remp (w) + Φ(h / l) 在有限样本下，要最小化实际风险，
必须对不等式右边的两项同时最小化。
所有样本都分类正确，因
使 w 2 最小就是使VC维的上
此经验风险为最小（0）。
界最小，从而实现SRM准则中对推广能力的控制。
n+1
• 对分类间隔约束后，线性分类器的VC维可以比空间维数更小。 • SVM 通过对分类间隔的控制，实现对 h 的控制。
信息获取与预处理
特征提取与选择
Xuegong Zhang Tsinghua University
聚类(自学习)
结果解释
4
监督模式识别：回顾与探讨
Xuegong Zhang Tsinghua University
• 最小错误率 /最小风险 --最优分类器 • 要求模型已知，否则要估计模型 • 问题：有限
Xuegong Zhang
16
Tsinghua University
ERM的实例与问题
问题之二：过学习问题
问题之一： • ERM多解时何为最优？为什么？
Xuegong Zhang Tsinghua University
• 经验风险最小化 ≠ 期望风险最小化（错误率最小化）
• 学习机器的复杂性不但与问题背后的模型有关，还要与有限的学习样本相适应
Xuegong Zhang
25
Xuegong Zhang
26
Tsinghua University
Tsinghua University
最优分类面：最大间隔分类面
Xuegong Zhang
27
Tsinghua University
为什么说最大间隔分类面是“最优的”？
• 推广能力：在有限样本上建立的学习机器对于未来样本的表现
Xuegong Zhang Tsinghua University
网络
10
• 通过非线性变换间接实现非线性分类 • 问题：思路很好，但
不易实现
线性判别
• 线性 • 训练错误率最小 ≠ 预测错误率小 • 多解时谁为最优？ • Fisher准则的理论依据？
广义线性判别函数
支持向量机（SVM）
若对任意的 l，总存在一个 l 个向量的集合可以被函数集Q(z,α ) , α ∈ Λ 打散，那么函数集的VC维就是无穷大。
Xuegong Zhang
23
Tsinghua University
风险的界与推广能力
• 有限样本下期望风险与经验风险的关系
R(w) ≤ Remp (w) +
h(ln(2n / h) +1) − ln(η / 4)
17
Xuegong Zhang
18
Tsinghua University
• 基于传统统计学的机器学习/模式识别方法的局限
–传统统计学研究的主要是渐进特性 –传统模式识别方法多直接或间接假设样本充分多
• 统计学习理论
–系统地研究有限样本下机器学习的原理与方法的理论
– 始于1960s：
• V. Vapnik, A. Chervonenkis, Theory of Pattern Recognition (in Russian), Nauka, Moscow, 1974 (Germany Translation, 1979)

e商务文档

模式识别基础

相关文档推荐：