汇总贝叶斯分类器.ppt
A: attributes
M: mammals
N: non-mammals
P( A | M ) 6 6 2 2 0.06 7777
P( A | N ) 1 10 3 4 0.0042 13 13 13 13
P( A | M )P(M ) 0.06 7 0.021 20
P( A | N )P(N ) 0.004 13 0.0027 20
其中,P(zi | parents(zi))的值对应于Zi的CPT中的表目
课件
训练贝叶斯信念网络
若干情况
给定网络结构和所有可观测变量
只需要学习CPT
网络结构已知,而某些变量是隐藏的
使用梯度下降法或类似于神经网络的方法训练信念网络
可以看到,虽然这个用户没有使用真实头像,但是通过分类器 的鉴别,更倾向于将此账号归入真实账号类别。
这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个
别属性的抗干扰性。
课件
贝叶斯信念网络
贝叶斯信念网络(Bayesian belief network)允许在变 量的子集间定义类条件独立性
因果关系图模型
很可能每个P(X |Y=yj)都为0
解决方法
使用m估计、Laplace 估计:
原估计: P(Xi=xi |Y=yj) = nij/nj
m-estimate:P( xi
|
yj)
nc mp nm
Laplac e :
P( X i
xi
|Y
yi )
nij nj
1
课件
k
Example of Naïve Bayes Classifier
For (年收入, Class=No):
If Class=No
样本均值= 110 样本方差= 2975
P(年收入 120 | No) 课件 1
(120110)2
e 2(2975) 0.0072
2 (54.54)
贝叶斯分类器: 例(续)
X=(有房=否,婚姻状况=已婚,年收入=$120K)
课件
给出了LungCancer的CPT. 对于其双亲值的每个可能 组合, 表中给出了LungCancer的每个值的条件概率.
例如, 由左上角和右下角, 分别看到:
P(LungCancer = “yes” | FamilyHistory = “yes”, Smoker = “yes”) = 0.8
表示变量之间的依赖
给出联合概率分布的说明
X
Y
图示
结点: 随机变量 弧: 依赖
Z P
X,Y 是Z的父节点/前驱, 并且Y 是P的父节点/前驱 Z 和P之间没有依赖关系, 图中课没件 有环
贝叶斯信念网络 : 例
变量LungCance(LC)值的条件概率表(CPT), 给出其双 亲结点FamilyHistory和Smoke的每个可能值的组合的 条件概率
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所课以件X分类为No
贝叶斯分类器
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
在SNS社区中这三项均可直接从数据库里得到或计算出来的。
下面给出划分:
a1:{a<=0.05, 0.05<a<0.2, a>=0.2}, a2:{a<=0.1, 0.1<a<0.8, a>=0.8}, a3:{a=0(不是),a=1(是)}。 课件
2、获取训练样本
使用运维人员曾经人工检测过的1万个账号作为训 练样本。
朴素贝叶斯分类(续)
估计P(xi |yj)
设第i个属性Ai是分类属性, 则 P(xi|yj) = nij/nj
其中nij是在属性Ai上具有值xi的yj类的训练样本数, 而nj是yj类 的训练样本数
设第i个属性Ai是连续值属性
把Ai离散化
假定Ai服从高斯分布
P(xi | y j )
1
e
(
P(No)=7/10 P(有房=是|No) =3/7 P(有房=否|No) =4/7 P(有房=是|Yes) =0 P(有房=否|Yes) =1 P(婚姻状况=单身|No) =2/7 P(婚姻状况=离婚|No) =1/7 P(婚姻状况=已婚|No) =4/7 P(婚姻状况=单身|Yes) =2/3 P(婚姻状况=离婚|Yes) =1/3 P(婚姻状况=已婚|Yes) =0
对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网课络件 ( Bayesian Belief Networks,BBN)
贝叶斯误差率
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1 课件
P(LungCancer = “no” | FamilyHistory = “no”, Smoker = “no”) = 0.9
课件
对应于属性或变量Z1,…,Zn的任意元组(z1,…,zn)的联 合概率由下式计算
n
P(z1,..., zn ) P(zi | Parents(Z i)) i 1
non-mammals
sometimes yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
yes
no
mammals
no
yes
non-mammals
P128数据
Name
Give Birth
human
yes
python
no
salmon
no
whale
yes
frog
no
komodo
no
bat
yes
pigeon
no
cat
yes
leopard shark yes
turtle
no
penguin
no
porcupine yes
eel
no
salamander no
案例:检测SNS社区中不真实账号
对于SNS社区来说,不真实账号(使用虚假身份或用户的 小号)是一个普遍存在的问题,作为SNS社区的运营商, 希望可以检测出这些不真实账号,从而在一些运营分析报 告中避免这些账号的干扰,亦可以加强对SNS社区的了解 与监管。
将社区中所有账号在真实账号和不真实账号两个类别
3、计算训练样本中每个类别的频率
用训练样本中真实账号和不真实账号数量分别除 以一万,得到:
课件
4、计算每个类别条件下各个特征属性划分的频率
课件
5、使用分类器进行鉴别
使用上面训练得到的分类器鉴别一个账号,这个账号使用非真 实头像,日志数量与注册天数的比率为0.1,好友数与注册天 数的比率为0.2。
年收 入
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠 贷款
No No No No Yes No No Yes No Yes
Normal distribution:
P(A | c )
i
j
1
e(
Ai ij
2
2 ij
)2
2 2
ij
One for each (Ai,ci) pair
mammals
no
no
non-mammals
yes
no
non-mammals
yes
no
mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
xi ij
2
2 ij
)
2
2 ij
其中, ij,ij分别为给定yj类的训练样本课在件 属性Ai上的均值和标准差
朴素贝叶斯分类
朴素贝叶斯分类器所需要的信息
计算每个类的先验概率P(yj) : P(yj)=nj/n 其中, nj是yi类的训练样本数,而n是训练样本总数
对于离散属性Ai,设的不同值为ai1, ai2, …,ail ,
其中, nj是类yj中的训练样本数,而n是训练样本总数
估计P(X|yj)
为便于估计P(X|yj), 假定类条件独立----给定样本的类 标号, 假定属性值条件地相互独立.
于是, P(X|Y=yj)可以用下式估计
d
P(X | y j ) P(xi | y j ) i 1
其中, P(x |yj)可以由训练样本估课值件
将X指派到具有最大后验概率P(yj|X)的类yj,即
将X指派到P(X|yj)P(yj) 最大的类yj
朴素贝叶斯分类
朴素贝叶斯分类 (Naïve Bayes Classifier)工作原理
给定一个未知的数据样本X, 分类法将预测X属于具有最高后验 概率的类. 即, 未知的样本分配给类yj, 当且仅当