朴素贝叶斯分类
P( X | H ) P( H ) P( H | X ) P( X )
• P(H)是先验概率,或称H的先验概率。P(X|H)代表假设H成 立的情况下,观察到X的概率。
• P(H| X )是后验概率,或称条件X下H的后验概率。
20
贝叶斯分类
• 先验概率泛指一类事物发生的概率,通常根据历史资 料或主观判断,未经实验证实所确定的概率。
湿度 高 正常 正常 正常 高 正常
风 无 无 无 有 有 无
类别 N P P P P P
3
4 5 6 7
多云
雨 雨 雨 多云
热
适中 冷 冷 冷
高
高 正常 正常 正常
无
无 无 有 有
P
P P N P
14
雨
适中
高
有
N
统计结果
天气 P 晴 2/9 云 4/9 雨 3/9 N 3/5 0/5 2/5 温度 P 热 2/9 暖 4/9 凉 3/9 N 2/5 2/5 1/5 高 湿度 P 3/9 N 4/5 1/5 有风 P 否 6/9 是 3/9 N P 打网球 N 5/14
0.0125.
(2) 由贝叶斯公式得
P ( A B1 ) P ( B1 ) P ( B1 A) P ( A)
0.02 0.15 0.0125
0.24.
P ( A B2 ) P ( B2 ) P ( B2 A) 0.64, P ( A)
P ( B3 A)
P ( A B3 ) P ( B3 ) 0.12. P ( A)
Bn1
化整为零 各个击破
Bn
说明 全概率公式的主要用途在于它可以将一个复杂事 件的概率计算问题,分解为若干个简单事件的概率计算问 题,最后应用概率的可加性求出最终结果.
B2
A
Bn1
B1
Bn
B3
例1 有一批同一型号的产品,已知其中由一厂生产的占 30% , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个 厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一 件是次品的概率是多少
解 设事件 A 为“任取一件为次品”,
事件 B i 为" 任取一件为i 厂的产品 " ,i 1, 2, 3.
B1 B2 B3 ,
Bi B j , i , j 1,2,3.
30% 由全概率公式得
B1
2% A 1% 1% 20% B3
50%
B2
P( A) P( B1 )P( A B1 ) P( B2 )P( A B2 ) P( B3 )P( A B3 ).
B2
B 1
Bn 1
B3
Bn
2. 全概率公式
定义 设为试验E的样本空间, A为E的事件, B1 , B2 , , Bn为的一个划分, 且P( Bi ) 0 (i 1, 2, , n), 则 P( A) P ( A | B1 ) P ( B1 ) P ( A | B2 ) P ( B2 ) P ( A | Bn ) P ( Bn ) P( B) P( A | Bi )
k 1 n
联合概率分布
25
朴素贝叶斯分类
• (5) 对 未 知 样 本 X 分 类 , 也 就 是 对 每 个 类 Ci , 计 算 P(X|Ci)*P(Ci)。
• 样本X被指派到类Ci,当且仅当P(Ci|X)> P(Cj|X),1≤j≤m, j≠i,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类。
• 而后验概率涉及的是某个特定条件下一个具体的事物 发生的概率
21
贝叶斯分类
• 例如:P(x1)=0.9: 细胞为正常细胞的概率0.9(先验概率) • P(x2)=0.1: 细胞为异常细胞的概率 0.1 (先验概率)
• 对某个具体的对象y,P(x1|y):表示y的细胞正常的概率 是0.82(后验概率) • P(x2|y):表示y的细胞异常的概率是0.18(后验概率)
24
朴素贝叶斯分类
• (4) 给定具有许多属性的数据集,计算P(X|Ci)的开销可能非 常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴 素假定。
P( AB) P( A) P( B)
• 给定样本的类标号,假定属性值相互条件独立,即在属性 间,不存在依赖关系。这样
P( X | Ci ) P( x k | Ci )
P( A | B ) P( B )
j 1 j j
n
Bayes公式的意义
• 假设导致事件A发生的“原因”有Bi (i=1,2,…,n) 个。 它们互不相容。 • 现已知事件A确已经发生了,若要估计它是由“原 因”Bi所导致的概率,则可用Bayes公式求出.
• 即可从结果分析原因.
证明
P( Bi A)
且 P(A1A2 An 1 ) 0, 则有
P( A1A 2 A n ) P( A1 )P( A 2 A1 )P( A 3 A1A 2 ) P( A n A1A 2 A n 1 )
二、全概率公式
1. 集合(样本空间)的划分
定义 设 为试验E的样本空间, B1 , B2 ,, Bn 为 E 的一组事件, 若 10 Bi B j , i, j 1, 2,, n; 20 B1 B2 Bn , 则称 B1 , B2 ,, Bn 为样本空间 的一个划分.
i 1 n
全概率公式
证明
A A A (B1 B2 Bn )
AB1 AB2 ABn .
P( A) P( B1 ) P( A | B1 ) P( B2 ) P( A | B2 ) P( Bn ) P( A | Bn )
图示
B2
B3
B1
A
设 A,B ,C 为事件,且 P(AB ) 0, 则有
P ( ABC ) P ( A) P ( B A) P (C AB ).
注:当P(AB)不容易直接求得时,可考虑利用P(A)与 P(B|A)的乘积或P(B)与P(A|B)的乘积间接求得。
乘法定理的推广
推广
设 A1 ,A2 , ,An 为 n 个事件,n 2,
(2) 在仓库中随机地取一只元件,若已知取到的是 次品,为分析此次品出自何厂 , 求此次品出由 三家工厂生产的概率分别是多少.
解
设 A 表示 " 取到的是一只次品 " , B i (i 1, 2, 3 表示 " 所取到的产品是由第i 家工厂提供的 ".
则 且
B 1 ,B 2 ,B 3 是样本空间 的一个划分 ,
故这只次品来自第 2 家工厂的可能性最大 .
先验概率与后验概率
由以往的数据分析得到的概率, 叫做先验概率. 而在得到信息之后再重新加以修正的概率 叫做后验概率.
贝叶斯分类
• 贝叶斯分类器是一个统计分类器。它们能够预测类别所属的 概率,如:一个数据对象属于某个类别的概率。贝叶斯分类 器是基于贝叶斯定理而构造出来的。
P ( B1 ) 0.3, P ( B2 ) 0.5ቤተ መጻሕፍቲ ባይዱ P ( B3 ) 0.2,
P ( A B1 ) 0.02, P ( A B2 ) 0.01, P ( A B3 ) 0.01,
故 P( A) P( B1 )P( A B1 ) P(B2 )P( A B2 ) P(B3 )P( A B3 )
P(Ci | X ) P( X | Ci ) P(Ci ) P( X )
朴素贝叶斯分类
• (3) 由于 P(X) 对于所有类为常数,只需要 P(X|Ci)*P(Ci) 最大即可。 • 如果Ci 类的先验概率未知,则通常假定这些类是等概 率的,即 P(C1)=P(C2)=…=P(Cm) ,因此问题就转换为 对 P(X|Ci) 的最大化( P(X|Ci) 常被称为给定 Ci 时数据 X 的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假 设)。否则,需要最大化 P(X|Ci)*P(Ci) 。注意,类的 先验概率可以用P(Ci)=si/s计算,其中si是类Ci中的训练 样本数,而s是训练样本总数。
• 对分类方法进行比较的有关研究结果表明:简单贝叶斯分类 器(称为基本贝叶斯分类器)在分类性能上与决策树和神经 网络都是可比的。
• 在处理大规模数据库时,贝叶斯分类器已表现出较高的分类 准确性和运算性能。
贝叶斯分类
• 定义:设 X 是类标号未知的数据样本。设 H 为某种假定,如 数据样本 X 属于某特定的类 C 。对于分类问题,我们希望确 定 P(H|X) ,即给定观测数据样本 X ,假定 H 成立的概率。贝 叶斯定理给出了如下计算P(H|X)的简单有效的方法:
适中 高 冷 冷
正常 无 P 正常 有 N 正常 有 P
多云 适中 高 多云 热 雨
正常 无 P 有 N
多云 冷
适中 高
实例
No. 1 2 天气 晴 晴 气温 热 热 湿度 高 高 风 无 有
类别 N N
No. 8 9 10 11 12 13
天气 晴 晴 雨 晴 多云 多云
气温 适中 冷 适中 适中 适中 热
22
朴素贝叶斯分类
• 朴素贝叶斯分类的工作过程如下: • (1) 每个数据样本用一个n维特征向量X= {x1,x2,……, xn}表示,分别描述对n个属性A1,A2,……,An样本的n个 度量。 • (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验 概率(条件X 下)的类。也就是说,朴素贝叶斯分类将未 知的样本分配给类Ci(1≤i≤m)当且仅当P(Ci|X)> P(Cj|X), 对任意的j=1,2,…,m,j≠i。这样,最大化P(Ci|X)。其 P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理