当前位置：文档之家› 贝叶斯分类

贝叶斯分类

由此可得：
P(X|基金)=P(occupation=work|Invest_type=基金)× P(age=middle|Invest_type=基金)× P(income=medium|Invest_type=基金) =0.09375
P(X|保险)=P(occupation=work|Invest_type=保险) × P(age=middle|Invest_type=保险) × P(income=medium|Invest_type=保险) =0.125 P(X|储蓄)=P(occupation=work|Invest_type=储蓄)× P(age=middle|Invest_type=储蓄)× P(income=medium|Invest_type=储蓄) =0.125
income
high low medium medium medium low high medium low high
Invest_typ e 基金储蓄储蓄基金保险储蓄基金基金储蓄保险
需要将X=(occuption=work, age=middle, income=medium)进行分类。类属性为：基金、保险、储蓄。
件地相互独立。因此，
P(X | Ci ) = P(x1 | Ci )P(x2 | Ci )P(xn | Ci ) ●为了预测类标号，对每个类计算P(X | Ci)P(Ci) 。选取最大来做为预测元组的类标号。
●计算P(X | Ci) 时，对于每个属性要考虑是分类的还是连续的。
(a)当属于分类属性时，P(xk | Ci )是D中属性 Ak 的值为xk 的类 Ci
先计算每个类的先验概率：P(基金)=4/10 P(保险)=2/10 P(储蓄)=4/10 为了计算P(X | Ci )，先计算下面这些条件概率
P(occupation=work|Invest_type=基金)=3/4 P(occupation=work|Invest_type=保险)=1/2 P(occupation=work|Invest_type=储蓄)=2/4 P(age=middle|Invest_type=基金)=1/4 P(age=middle|Invest_type=保险)=1/2 P(age=middle|Invest_type=储蓄)=2/4 P(income=medium|Invest_type=基金)=2/4 P(income=medium|Invest_type=保险)=1/2 P(income=medium|Invest_type=储蓄)=2/4
P(Ci
|
X)
P( X | Ci )P(Ci ) P(X )
由于对所有类来说P(X ) 都是一样的可以不用考虑，只需 P(X | Ci )P(Ci ) 最大即可。其中类的先验概率可以用 P(Ci ) | Ci,D | / | D | 来估计，其中， | Ci,D |是D中类Ci 的训练元组数。 ●为了降低P(X | Ci) 的开销，做类条件独立的朴素假定。假定属性有条
朴素贝叶斯分类
朴素贝叶斯算法的核心步骤：
●设D是训练元组和他们相关联的类标号的集合。属性向量X用n个属性A1 ……An 来描述对元组的n个测量。 ●类假法设预有测mX个属类于C1C类，i …，…C当m 且。仅测当P试(Ci 给| X )定P元(>C组j | XX) 所（属1的≤j类≤m。，朴j≠素i）贝叶斯分 ●贝叶斯公式为：
的元组数除以D中Ci 类的元组数。
(b)如果是连续属性，假定连续属性服从均值为、标准差为
的高斯分布，由下式定义：
g(x, , )
1
e(x )2 2 22因此：P(xk | Ci ) g(xk , Ci , Ci )
计算 Ci 和 Ci ，他们分别是类 Ci 的训练元组属性Ak 的均值和标准差。
综上所述，对于元组X，朴素贝叶斯分类预测元组X的类为Invest_type=储蓄。
注意：在计算的过程中有可能遇到某个属性在某个类中概率为0，如果没有这个零概率，可能表明该元组属于该类的概率很高，但由于这个零概率使得P(X | Ci) 的概率为零！
解决办法，如果假定训练数据库D很大以至于对每个计数加上一造成的概率变化可以忽略不计，但方便地避免概率值为零。
基本知识
1、事件概率
• 联合概率(joint probability)
表示A事件和B事件同时发生的概率， P(A ∩ B)。
• 条件概率(conditional probability)
在发生A的条件下，发生B。的概率，称为P(B|A)
2、乘法法则(Multiplicative rule)
P(B A) P( A I B) , P( A B) P( A I B)
P( A)
P(B)
P( A I B) P(B) P( A B) P( A) P(B A)
3、独立事件
P( A I B) P( A) P(B) 或：P( A) 0, P(B A) P(B) P(B) 0, P( A B) P( A)
贝叶斯信念网络
●朴素贝叶斯分类法假定类条件独立，这一假定简化了计算。当假定成立时，朴素贝叶斯方法是最准确。然而，实践中，变量之间可能存在依赖关系。 ●贝叶斯信念网络说明了联合条件概率分布，它允许变量的子集间定义类条件独立性。 ●贝叶斯信念网络由两个成分定义：有向无环图和条件概率表的集合。图中的每个节点代表一个随机变量，变量可以是连续的或离散值，对应于数据中的是属性，或隐藏变量。图中的每条弧表示一个概率依赖。注意：给定其双亲，每个变量条件独立于图中它的非后代。对于每个变量，信念网络都有一个条件概率表（CPT）。变量Y的 CPT说明条件分布P(Y|Parents(Y)),Parents(Y)是Y的双亲。 ●设X (x1, x2,……xn ) 被变量或属性Y1……Yn 描述的数据元组。因此，联合概率分布的完全表示为：
通过以下例子进行详细的说明具体的分类步骤。银行数据库中的客户训练数据集如下图所示：
name
occupation age
work jobless work work jobless jobless jobless work work work
youth middle middle youth old youth middle youth old middle

e商务文档

贝叶斯分类

相关文档推荐：