贝叶斯分类
由此可得:
P(X|基金)=P(occupation=work|Invest_type=基金)× P(age=middle|Invest_type=基金)× P(income=medium|Invest_type=基金) =0.09375
P(X|保险)=P(occupation=work|Invest_type=保险) × P(age=middle|Invest_type=保险) × P(income=medium|Invest_type=保险) =0.125 P(X|储蓄)=P(occupation=work|Invest_type=储蓄)× P(age=middle|Invest_type=储蓄)× P(income=medium|Invest_type=储蓄) =0.125
income
high low medium medium medium low high medium low high
Invest_typ e 基金 储蓄 储蓄 基金 保险 储蓄 基金 基金 储蓄 保险
需要将X=(occuption=work, age=middle, income=medium)进行分类。类 属性为:基金、保险、储蓄。
件地相互独立。因此,
P(X | Ci ) = P(x1 | Ci )P(x2 | Ci )P(xn | Ci ) ●为了预测类标号,对每个类计算P(X | Ci)P(Ci) 。选取最大来做为预测元 组的类标号。
●计算P(X | Ci) 时,对于每个属性要考虑是分类的还是连续的。
(a)当属于分类属性时,P(xk | Ci )是D中属性 Ak 的值为xk 的类 Ci
先计算每个类的先验概率:P(基金)=4/10 P(保险)=2/10 P(储蓄)=4/10 为了计算P(X | Ci ),先计算下面这些条件概率
P(occupation=work|Invest_type=基金)=3/4 P(occupation=work|Invest_type=保险)=1/2 P(occupation=work|Invest_type=储蓄)=2/4 P(age=middle|Invest_type=基金)=1/4 P(age=middle|Invest_type=保险)=1/2 P(age=middle|Invest_type=储蓄)=2/4 P(income=medium|Invest_type=基金)=2/4 P(income=medium|Invest_type=保险)=1/2 P(income=medium|Invest_type=储蓄)=2/4
P(Ci
|
X)
P( X | Ci )P(Ci ) P(X )
由于对所有类来说P(X ) 都是一样的可以不用考虑,只需 P(X | Ci )P(Ci ) 最大即可。其中类的先验概率可以用 P(Ci ) | Ci,D | / | D | 来估计,其中, | Ci,D |是D中类Ci 的训练元组数。 ●为了降低P(X | Ci) 的开销,做类条件独立的朴素假定。假定属性有条
朴素贝叶斯分类
朴素贝叶斯算法的核心步骤:
●设D是训练元组和他们相关联的类标号的集合。属性向量X用n个属 性A1 ……An 来描述对元组的n个测量。 ●类假法设预有测mX个属类于C1C类,i …,…C当m 且。仅测当P试(Ci 给| X )定P元(>C组j | XX) 所(属1的≤j类≤m。,朴j≠素i)贝叶斯分 ●贝叶斯公式为:
的元组数除以D中Ci 类的元组数。
(b)如果是连续属性,假定连续属性服从均值为、标准差为
的高斯分布,由下式定义:
g(x, , )
1
e(x )2 2 22因此:P(xk | Ci ) g(xk , Ci , Ci )
计算 Ci 和 Ci ,他们分别是类 Ci 的训练元组属性Ak 的均值和标准差。
综上所述,对于元组X,朴素贝叶斯分类预测元组X的类为Invest_type=储蓄。
注意:在计算的过程中有可能遇到某个属性在某个类中概率为0,如果 没有这个零概率,可能表明该元组属于该类的概率很高,但由于这个 零概率使得P(X | Ci) 的概率为零!
解决办法,如果假定训练数据库D很大以至于对每个计数加上一造成 的概率变化可以忽略不计,但方便地避免概率值为零。
基本知识
1、事件概率
• 联合概率(joint probability)
表示A事件和B事件同时发生的概率, P(A ∩ B)。
• 条件概率(conditional probability)
在发生A的条件下,发生B。的概率,称为P(B|A)
2、乘法法则(Multiplicative rule)
P(B A) P( A I B) , P( A B) P( A I B)
P( A)
P(B)
P( A I B) P(B) P( A B) P( A) P(B A)
3、独立事件
P( A I B) P( A) P(B) 或:P( A) 0, P(B A) P(B) P(B) 0, P( A B) P( A)
贝叶斯信念网络
●朴素贝叶斯分类法假定类条件独立,这一假定简化了计算。当假定 成立时,朴素贝叶斯方法是最准确。然而,实践中,变量之间可能存 在依赖关系。 ●贝叶斯信念网络说明了联合条件概率分布,它允许变量的子集间定 义类条件独立性。 ●贝叶斯信念网络由两个成分定义:有向无环图和条件概率表的集合。 图中的每个节点代表一个随机变量,变量可以是连续的或离散值,对 应于数据中的是属性,或隐藏变量。图中的每条弧表示一个概率依赖。 注意:给定其双亲,每个变量条件独立于图中它的非后代。 对于每个变量,信念网络都有一个条件概率表(CPT)。变量Y的 CPT说明条件分布P(Y|Parents(Y)),Parents(Y)是Y的双亲。 ●设X (x1, x2,……xn ) 被变量或属性Y1……Yn 描述的数据元组。因此, 联合概率分布的完全表示为:
通过以下例子进行详细的说明具体的分类步骤。银行数据库中的客 户 训练数据集如下图所示:
name
occupation age
work jobless work work jobless jobless jobless work work work
youth middle middle youth old youth middle youth old middle