第二章 朴素贝叶斯算法
基于最小错误率的贝叶斯决策
x(j)表示样本的第j个特征,其 极大似然估计进行参数估计:取值集合为{aj1,aj2,aj3,...,ajSj}, xi( j) 先验概率的极大似然估计: 表示第i个样本的第j个特征的
Company Logo
贝叶斯分类
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假 设的分类方法。结合样本输入输出的联合概率分布 和输出的概率分布,对于给定的输入x,利用贝叶 斯定理求解后验概率的过程。朴素贝叶斯简单,学 习与预测效率较高,比较常用。
其基本思想:对于给定的待分类项x,求解在此样 本出现的条件下各个类别出现的概率,计算出每一 个类别的P(yi|x),i=1,2,...,k,根据一定的决策 规则,决定此样本归属于哪个类别
求解计算
y arg maxPY ck | X x
ck ,ckУ
Company Logo
基于最小错误率的贝叶斯决策
转化
y arg maxPY ck | X x
ck ,ckУ
根据贝叶斯公式
PY ck | X x P(Y ck, X x)
P( X x)
P X
x | Y ck PY PX x
贝叶斯定理 P(A)是A的先验概率或边沿概率,之所以 称为先验,是因为它不考虑任何B方面的 因素 P(A|B)是已知B发生后A的条件概率,也 由于得自B的取值而被称为A的后验概率 P(B|A)是已知A发生后B的条件概率,也 由于得自B的取值而被称为B的后验概率 P(B)是B的先验概率或边沿概率,之所以称 为先验,是因为它不考虑任何A方面的因 素
具有讽刺意味的是,当初贝叶斯发明概率统计理论
是为了证明上帝的存在,而至死这个愿望都没有实
现,不过感谢伟大的贝叶斯,因为他的无心插柳,
才有了今天的贝叶斯公式,并列于数据挖掘十大经
典算法:
PA
|
B
PB, A PB
PA
|
B
PAPB PB
|
A
它解决了两个事件条件概率的转换问题
Company Logo
贝叶斯简介
y argmaxPY ck n
P
X ( j)
x( j)
|Y
ck
ck ,ckУ
j 1
பைடு நூலகம்
因此,我们需要学习得到先验概率分布和条件概率 分布
PY ck, k 1,2,3,...,K
P X ( j) x( j) | Y ck , j 1,2,3,...,n
Company Logo
条件概率:基于条件独立性假设
PX x | Y ck P X (1) x(1) ,..., X (n) x(n) | Y ck
n
P X ( j) x( j) | Y ck j 1
Company Logo
基于最小错误率的贝叶斯决策
因此,基于最小错误率的朴素贝叶斯的公式可写为:
ck
PX
k PX
x
|Y x |Y
ck PY ck PY
ck ck
Company Logo
基于最小错误率的贝叶斯决策
对于所有的类别,我们发现分母都是相同的,所以 我们只需要考虑分子:
y arg maxPX x | Y ckPY ck
ck ,ckУ
先验概率通过领域专家知识得到,即通过经验数据 (训练数据得到) PYck,k1,2,3,...K,
Company Logo
贝叶斯简介
贝叶斯定理
条件概率:
P(A|B)表示事件B已经发生的前提下,事件A 发生的概率,叫做事件B发生下事件A的条件 概率。其基本求解公式:
贝叶斯公式
PA
|
B
P AB PB
P(B|A)是根据A判断其属于类别B的概率,称
为后验概率。P(B)是直接判断某个样本属于B
Company Logo
基本决策规则 基于最小错误率的Bayes决策 基于最小风险的Bayes决策 Neyman-Pearson决策 最小最大决策 序贯分类方法
Company Logo
基本的决策规则
基于最小错误率的贝叶斯决策 已知条件
设输入空间X∈Rn为n维向量集合,输出空间为类 别向标量记x∈集X合,У输=出{c为1,类c标2,记.y..∈,Уc。k}训,练输数入据为集特征 T={(xi,yi),i=1,2,...,N},样本表示: x=(x(1),x(2),...,x(n))
先验概率:由以往的数据分析得到的概率 后验概率:得到"结果"的信息后重新修正的概率 简单地说,贝叶斯定理是基于假设的先验概率、给
定假设下观察到不同数据的概率,提供了一种计算 后验概率的方法 在人工智能领域,贝叶斯方法是一种非常具有代表 性的不确定性知识表示和推理方法
Company Logo
贝叶斯简介
的概率,称为先验概率。P(A|B)是在类别B中
观测到A的概率,P(A)是在数据库中观测到A
的概率
PB
|
A
P AB PA
PA | BPB PA
Compa女生,女生 穿裤子的人数和穿裙子的人数相等,所有男生穿裤子,一个人 在远处看到了一个穿裤子的学生。这个学生是女生的概率是多 少? 使用贝叶斯定理,事件A是看到女生,事件B是看到一个穿 裤子的学生。我们所要计算的是P(A|B) P(A)是忽略其它因素,看到女生的概率,在这里是0.4 P(A')是忽略其它因素,看到不是女生(即看到男生)的概率, 在这里是0.6 P(B|A)是女生穿裤子的概率,在这里是0.5 P(B|A')是男生穿裤子的概率,在这里是1 P(B)是忽略其它因素,学生穿裤子的概率,P(B) = P(B|A)P(A) + P(B|A')P(A'),在这里是0.5×0.4 + 1×0.6 = 0.8 根据贝叶斯定理,我们计算出后验概率P(A|B): P(A|B)=P(B|A)*P(A)/P(B)=0.25
朴素贝叶斯
Naive Bayes
朴素贝叶斯
主要内容 贝叶斯简介 朴素贝叶斯分类 基本决策规则 基于最小错误率 基于最小风险 总结扩展(了解) 贝叶斯与分类的简单应用
Company Logo
贝叶斯简介
贝叶斯(Thomas Bayes,1701—1761)英国牧 师、业余数学家。在《论机会学说中一个问题的求 解》中给出了贝叶斯定理。