第6章 贝叶斯学习分析
P125 新实例的最可能分类应该通过合并所有假设的 预测得到
– 即 用后验概率来加权
贝叶斯最优分类器(Bayes
v j V hi H
Classifier): arg max P(v | h ) P(h | D) i i i P126
Optimal
分类结果可以对应于H中不存在的假设
– 每个实例x由属性的合取表示 – 目标函数f(x)从有限集会V中取值 – 学习器根据提供的一系列关于目标函数的训练 样例以及新实例(属性值的元组),给出新实 例的分类
6.9 朴素贝叶斯分类器
vMAP arg max P(v j | a1 , a2 ,, an )
v j V
arg max P(a1 , a2 ,, an | v j ) P(v j )
or no
举例: 学习分类文本
朴素贝叶斯分类器
问题框架
目标:要求计算机学习从大量的在线文本
文档中自动过滤出最相关文档给读者 目标值:like 和 dislike 每个位置上的每个单词定义为一个属性值 简化:
– 每个属性的条件概率相互独立 – 特定单词出现的概率独立于单词所在的位置
全概率法则: 若事件互斥且
P( A ) 1
i 1 i
n
则 P( B) P( B | Ai ) P( Ai )
i 1
n
6.1 简介
贝叶斯学习提供了一种推理的概率手段:
– 即待考查的量遵循某种概率分布 – 且可根据这些概率及已观察到的数据进行推理 – 以作出最优决策
贝叶斯学习为直接操作概率的学习算法提
6.11 贝叶斯信念网
最优贝叶斯分类器要求考虑每个属性与其
他属性的关系,太繁琐,而且不现实 朴素贝叶斯分类器要求每个属性的条件概 率相互独立,限制太严格 折中:贝叶斯信念网
– 比朴素贝叶斯分类器限制少 – 比最优贝叶斯分类器切实可行
基本概率公式
两事件A和B交的概率:
P( A B) P( A | B) P( B) P( B | A) P( A)
两事件A和B并的概率: P( A B) P( A) P( B) P( A B)
给定D时h的后验概率:
P ( D | h) P ( h ) P(h | D) P ( D)
v j V
vNB arg max P(v j ) P(ai | v j )
v j V i
举例: 根据天气情况判 断某人是否会打网球
朴素贝叶斯分类器
是否将要打网球?
4个天气属性
– – – –
Outlook Temperature Humidity Wind
对新实例进行预测:yes
– 对有病的病人,检验的阳性率为95% – 对没病者,检验的阳性率为5% – 该病的发病率为0.5%
现在随便从街上拉一个人做检测,结果阳
性,问此人患此病的概率是多少?
贝叶斯学习
利用贝叶斯法则进行概念学习
– 给定训练数据下求后验概率 – 从先验概率到后验概率的概率改变体现学习效 果
BRUTE-FORCE贝叶斯概念学习
供了基础 贝叶斯学习也为其他算法的分析提供了理 论框架
贝叶斯学习与机器学习的关系
贝叶斯学习算法能够显式计算假设的概率
– 朴素贝叶斯分类器 – 利用朴素贝叶斯分类器分类进行文本文档分类
为理解许多算法提供了有效手段,这些算
法不一定直接操纵概率数据
– 在使用神经网络训练收敛判据时,可以选择比 误差平方和最小原则更合适的交叉熵原则
举例
医疗诊断问题
– 做决定:(1)得癌症;(2)无癌症
诊断依据:某化验测试,测试结果为+或 先验知识:
– 所有人口中此癌症的发生概率为0.008 – 测试有病的准确率为0.98 – 测试无病的准确率为0.97
现在,某病人测试结果为+,问是否可以确
诊此病人有病?
举例
假设在某种病症的化学检测中:
6.8 GIBBS算法
基于给定训练数据,贝叶斯最优分类器可以给
出最好性能 但计算开销很大 GIBBS算法:
– 按照H上的后验概率分布,从H中随机选取假设h – 使用h来处理待分类实例 – 误分类率:最多为贝叶斯最优分类器的两倍
6.9 朴素贝叶斯分类器
实用性很高的算法 学习任务:
贝叶斯学习方法的特性
观察到的每个训练样例可以增量地降低或
增高某假设的估计概率 先验知识可以与观察数据一起决定假设的 最终概率
– 两类先验知识:候选假设的先验概率;每个可 能假设在可观察数据中的概率分布
允许假设做出不确定性的预测
新实例可以由多个假设的概率加权和确定
重要的算法评价理论依据
1. 对于H中每个假设h,计算后验概率 2. 输出有最高后验概率的假设hMAP
贝叶斯最优分类器
前面讨论问题:给定训练数据,最可能的
假设是什么 需讨论的问题:给定训练数据,对新的实 例的最可能分类是什么
– 可以直接利用MAP假设来分类新实例 – 也有更好的算法
6.7 贝叶斯最优分类器
MAP假设分类的问题
P ( D | h) P ( h ) P(h | D) P ( D)
公式分析
P(h|D)称为后验概率,相对于先验概率
hMAP arg max P(h | D) arg max P( D | h) P(h)
hH hH
如果D独立于h时被观察到的可能性越大,
那么D对h的支持度也越小 如果h的先验概率越大,则在数据D的条件 下出现h的可能性也越大 求每一假设h的P(h|D),取其中最大者, 为MAP假设(maximum a posteriori数据集D,确定假设空间H中的最
佳假设 什么是最佳假设?
– 在给定数据集D的基础上,H中不同假设里发生 概率最大(最可能发生)的一个
贝叶斯法则可以通过直接计算找到这种最
可能性
贝叶斯公式
P(h):h的先验概率(prior
probability), 反映了事先拥有的关于h的背景知识 P(D):得到的训练数据D的先验概率 P(D|h):若h成立,则观察到D的概率 P(h|D):给定训练数据D时,h成立的概率