当前位置：文档之家› 第6章贝叶斯学习分析

第6章贝叶斯学习分析

P125 新实例的最可能分类应该通过合并所有假设的预测得到
– 即用后验概率来加权
贝叶斯最优分类器(Bayes
v j V hi H
Classifier)： arg max P(v | h ) P(h | D) i i i P126
Optimal
分类结果可以对应于H中不存在的假设
– 每个实例x由属性的合取表示 – 目标函数f(x)从有限集会V中取值 – 学习器根据提供的一系列关于目标函数的训练样例以及新实例（属性值的元组），给出新实例的分类
6.9 朴素贝叶斯分类器
vMAP arg max P(v j | a1 , a2 ,, an )
v j V
arg max P(a1 , a2 ,, an | v j ) P(v j )
or no
举例：学习分类文本
朴素贝叶斯分类器
问题框架
目标：要求计算机学习从大量的在线文本
文档中自动过滤出最相关文档给读者目标值：like 和 dislike 每个位置上的每个单词定义为一个属性值简化：
– 每个属性的条件概率相互独立 – 特定单词出现的概率独立于单词所在的位置

全概率法则：若事件互斥且
P( A ) 1
i 1 i
n
则 P( B) P( B | Ai ) P( Ai )
i 1
n
6.1 简介
贝叶斯学习提供了一种推理的概率手段：
– 即待考查的量遵循某种概率分布 – 且可根据这些概率及已观察到的数据进行推理 – 以作出最优决策
贝叶斯学习为直接操作概率的学习算法提
6.11 贝叶斯信念网
最优贝叶斯分类器要求考虑每个属性与其
他属性的关系，太繁琐，而且不现实朴素贝叶斯分类器要求每个属性的条件概率相互独立，限制太严格折中：贝叶斯信念网
– 比朴素贝叶斯分类器限制少 – 比最优贝叶斯分类器切实可行
基本概率公式

两事件A和B交的概率：
P( A B) P( A | B) P( B) P( B | A) P( A)

两事件A和B并的概率： P( A B) P( A) P( B) P( A B)

给定D时h的后验概率：
P ( D | h) P ( h ) P(h | D) P ( D)
v j V
vNB arg max P(v j ) P(ai | v j )
v j V i
举例：根据天气情况判断某人是否会打网球
朴素贝叶斯分类器
是否将要打网球？
4个天气属性
– – – –
Outlook Temperature Humidity Wind
对新实例进行预测：yes
– 对有病的病人，检验的阳性率为95% – 对没病者，检验的阳性率为5% – 该病的发病率为0.5%
现在随便从街上拉一个人做检测，结果阳
性，问此人患此病的概率是多少？
贝叶斯学习

利用贝叶斯法则进行概念学习
– 给定训练数据下求后验概率 – 从先验概率到后验概率的概率改变体现学习效果

BRUTE-FORCE贝叶斯概念学习
供了基础贝叶斯学习也为其他算法的分析提供了理论框架
贝叶斯学习与机器学习的关系
贝叶斯学习算法能够显式计算假设的概率
– 朴素贝叶斯分类器 – 利用朴素贝叶斯分类器分类进行文本文档分类
为理解许多算法提供了有效手段，这些算
法不一定直接操纵概率数据
– 在使用神经网络训练收敛判据时，可以选择比误差平方和最小原则更合适的交叉熵原则
举例
医疗诊断问题
– 做决定：（1）得癌症；（2）无癌症
诊断依据：某化验测试，测试结果为+或先验知识：
– 所有人口中此癌症的发生概率为0.008 – 测试有病的准确率为0.98 – 测试无病的准确率为0.97
现在，某病人测试结果为+，问是否可以确
诊此病人有病？
举例
假设在某种病症的化学检测中：
6.8 GIBBS算法
基于给定训练数据，贝叶斯最优分类器可以给
出最好性能但计算开销很大 GIBBS算法：
– 按照H上的后验概率分布，从H中随机选取假设h – 使用h来处理待分类实例 – 误分类率：最多为贝叶斯最优分类器的两倍
6.9 朴素贝叶斯分类器
实用性很高的算法学习任务：
贝叶斯学习方法的特性
观察到的每个训练样例可以增量地降低或
增高某假设的估计概率先验知识可以与观察数据一起决定假设的最终概率
– 两类先验知识：候选假设的先验概率；每个可能假设在可观察数据中的概率分布
允许假设做出不确定性的预测
新实例可以由多个假设的概率加权和确定
重要的算法评价理论依据
1. 对于H中每个假设h，计算后验概率 2. 输出有最高后验概率的假设hMAP
贝叶斯最优分类器
前面讨论问题：给定训练数据，最可能的
假设是什么需讨论的问题：给定训练数据，对新的实例的最可能分类是什么
– 可以直接利用MAP假设来分类新实例 – 也有更好的算法
6.7 贝叶斯最优分类器
MAP假设分类的问题
P ( D | h) P ( h ) P(h | D) P ( D)
公式分析
P(h|D)称为后验概率，相对于先验概率
hMAP arg max P(h | D) arg max P( D | h) P(h)
hH hH
如果D独立于h时被观察到的可能性越大，
那么D对h的支持度也越小如果h的先验概率越大，则在数据D的条件下出现h的可能性也越大求每一假设h的P(h|D)，取其中最大者，为MAP假设（maximum a posteriori数据集D，确定假设空间H中的最
佳假设什么是最佳假设？
– 在给定数据集D的基础上，H中不同假设里发生概率最大（最可能发生）的一个
贝叶斯法则可以通过直接计算找到这种最
可能性
贝叶斯公式
P(h)：h的先验概率(prior
probability)，反映了事先拥有的关于h的背景知识 P(D)：得到的训练数据D的先验概率 P(D|h)：若h成立，则观察到D的概率 P(h|D)：给定训练数据D时，h成立的概率

e商务文档

第6章贝叶斯学习分析

相关文档推荐：

e商务文档

第6章 贝叶斯学习分析

相关文档推荐：

第6章贝叶斯学习分析