当前位置：文档之家› 朴素贝叶斯分类算法的应用多元统计实验报告

朴素贝叶斯分类算法的应用多元统计实验报告

2 Ci
其中，给定类Ci的训练样本属性Ak的值，g xk , Ci , Ci 是属
性Ak的高斯密度函数，而 Ci , Ci 分别为平均值和标准差。
（5）为对未知样本X分类，对每个类Ci，计算 P(Xk|Ci)P(Ci)。样本X被指派到类Ci，当且仅当
PX Ci PCi PX C j PC j ,1 j m, j i
P(Ci∣X) > P(Cj∣X), 1＜j＜m, j≠i
这样，最大化P(Ci∣X)。即假定样本类Ci的概率大于假定其他类的概率。其中P(Ci I X)最大的类Ci称为最大后验假定。
（3）根据贝叶斯定理得:
PCi
|
X
PX
| Ci PCi PX
（3）由于P(X) 对于所有类为常数，只需要P(X |Ci)P(Ci) 最大即可。如果类的先验概率未知，则通常假定这些类是等概率的；即，P(C1) = P(C2) = ... = P(Cm)。并据此对 P(Ci | X)最大化。否则，我们最大化P(X |Ci)P(Ci)。注意，类的先验概率可以用P(Ci) = si /s计算；其中，si是类C 中的训练样本数，而s是训练样本总数。
P(a2>0.8|C=0)=0.2 P(a2<=0.1|C=1)=0.7 P(0.1<a2<0.8|C=1)=0.2 P(a2>0.8|C=1)=0.1 P(a3=0|C=0)=0.2 P(a3=1|C=0)=0.8 P(a3=0|C=1)=0.9 P(a3=1|C=1)=0.1
实例结果分析:
5、使用分类器进行鉴别下面我们使用上面训练得到的分类器鉴别一个账号，这个账号使用非真实头像，日志数量与注册天数的比率为0.1，好友数与注册天数的比率为0.2。即：
该模型中，假设所有的属性都独立于类变量Ｃ，即每一个属性变量都以类变量作为惟一的父节点。这种假设大大降低了计算的复杂度，简化所需的计算，且具有较高的精确度，这一假设称作条件独立。做此假定是为了简化所需的计算，并在此意义下称为“朴素的”。使用朴素贝叶斯分类模型进行分类的做法是通过概率计算，从待分类的实例的属性值A1 , A2 ,...An 求出最可能的分类目标值。
a2：{a2<=0.1, 0.1<a2<0.8, a2>=0.8}， a3：{a3=0（不是）,a3=1（是）}。
2、获取训练样本这里使用人工检测过的1万个账号作为训练样本。
3、计算训练样本中每个类别的频率用训练样本中真实账号和不真实账号数量分别除以一万，得到：
P(C=0)=8900/10000=0.89
换言之，X被指派到其P(Xk|Ci)P(Ci)最大的类Ci。
算法优点:
(1)算法逻辑简单，易于实现； (2)算法实施的时间、空间开销小： (3)算法性能稳定，对于不同特点的数据其分类性能差别不大，即模型的健壮性比较好
朴素贝叶斯分类的流程
算法实例：检测SNS社区中不真实账号
首先设C=0表示真实账号，C=1表示不真实账号。 1、确定特征属性及划分选择三个特征属性：a1：日志数量/注册天数，a2：好友数量/注册天数，a3：是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。下面给出划分：a1：{a1<=0.05, 0.05<a1<0.2, a1>=0.2}，
P(C=1)=1100/10000=0.11
4、计算每个类别条件下各个特征属性划分的频率
P(a1<=0.05|C=0)=0.3 P(0.05<a1<0.2|C=0)=0.5 P(a1>0.2|C=0)=0.2 P(a1<=0.05|C=1)=0.8 P(0.05<a1<0.2|C=1)=0.1 P(a1>0.2|C=1)=0.1 P(a2<=0.1|C=0)=0.1 P(0.1<a2<0.8|C=0)=0.7
x：a1=0.1, a2=0.2, a3=0
P(C=0)P(x|C=0) =P(C=0)P(0.05<a1<0.2|C=0)P(0.1<a2<0.8|C=0)P(a3=0|C=0) =0.89*0.5*0.7*0.2=0.0623
P(C=1)P(x|C=1) =P(C=1)P(0.05<a1<0.2|C=1)P(0.1<a2<0.8|C=1)P(a3=0|C=1) =0.11*0.1*0.2*0.9=0.00198 经鉴别，该账号归类于真实账号。
（a)如果Ak是连续值属性，则P(Xk|Ci)=Sik/Si，其中Sik是在属性Ak上具有值Xk的类Ci的样本数，而Si是Ci中的训练样本数。
（b）如果Ak是连续值属性，则通常假定该属性服从高斯分
布，因而，
P X k Ci g xk , Ci ,Ci
2
e 12 Ci来自xk Ci 2
（4）给定具有许多属性的数据集，计算P(X |Ci)的开销可能非常大。为降低P(X |Ci)计算的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互条件独立，即在属性间，不存在依赖关系。这样，
n
PX Ci pxk Ci k 1
概率P(X1|Ci)，P(X2|Ci)，…P(Xn|Ci)可以由训练样本估值，其中
算法描述
（1）每个数据样本用一个n维特征向量 X= ( x1, x2, ... , xn} 表示，分别描述对n个属性 A1 , A2 ,...An 样本的n个度量。
（2）假定有m个类CI,C2,...Cm，给定一个未知的数据样本 X(即没有类标号)，分类法将预测X属于具有最高后验概率 (条件X下)的类。也就是说，朴素贝叶斯分类将未知的样本分配给类Ci，当且仅当
2015
应用多元统计实验报告
梦晴
朴素贝叶斯分类算法
算法简介算法描述算法优点算法流程算法实例算法结果分析
算法简介
朴素贝叶斯（Naive Bayes）分类算法是贝叶斯分类算法中的一种最简单、有效的而且在实际使用中很成功的分类算法，其性能可以与神经网络、决策树相媲美，甚至在某些场合优于其它分类算法。图1 直观地描述了朴素贝叶斯分类模型的结构特点。

e商务文档

朴素贝叶斯分类算法的应用多元统计实验报告

相关文档推荐：