当前位置：文档之家› 朴素贝叶斯模型教学内容

朴素贝叶斯模型教学内容

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型 (Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model， NBC）。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树，一旦树建立起来，它就可为未知样本产生一个分类。在分类问题中使用决策树模型有很多的优点，决策树便于使用，而且高效；根据决策树可以很容易地构造出规则，而规则通常易于解释和理解；决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小；决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点，比如处理缺失数据时的困难，过度拟合问题的出现，以及忽略数据集中属性之间的相关性等。
F1: 日志数量/注册天数 F2: 好友数量/注册天数 F3: 是否使用真实头像（真实头像为1，非真实头像为0）
F1 = 0.1 , F2 = 0.2 , F3 = 0
请问该账号是真实账号
P(F1|C)P(F2|C)P(F3|C)P(C)
解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们单独处理。例如中文文本分类识别的时候，我们可以建立一个字典来处理一些词组。如果发现特定的问题中存在特殊的模式属性，那么就单独处理。
这样做也符合贝叶斯概率原理，因为我们把一个词组看作一个单独的模式，例如英文文本处理一些长度不等的单词，也都作为单独独立的模式进行处理，这是自然语言与其他分类识别问题的不同点。
P(感冒|打喷嚏x建筑工人) = 0.66 x 0.33 x 0.5 / 0.5 x 0.33 = 0.66
朴素贝叶斯分类器的公式
假现设有某m个个类体别有（n项Ca特te征go（ryF）ea，tu分re别）为，C分1、别C为2、F1.、..、F2C、m.。..、贝F叶n。斯分类器就是计算出概率最大的那个分类，也就是求下面这个算式的最大值： P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
定义
朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。
通过以上定理和“朴素”的假定，我们知道： P( Category | Document) = P ( Document | Category )
* P( Category) / P(Document)
详细内容
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程：第一步,建立一个模型，描述预先的数据集或概念集。通过分析由属性描述的样本（或实例，对象等）来构造模型。假定每一个样本都有一个预先定义的类，由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集，该步也称作有指导的学习。
和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC 模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上， NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。
2017-06-09
分类模型
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model， NBM）
朴素贝叶斯模型
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法
生活中很多场合需要用到分类，比如新闻分类、病人分类等等。
由于 P(F1F2...Fn) 对于所有的类别都是相同的，可以省略，问题就变成了求： P(F1F2...Fn|C)P(C) 的最大值。
朴素贝叶斯分类器则是更进一步，假设所有特征都彼此独立，因此：P(F1F2...Fn|C)P(C) = P(F1|C)P(F2|C) ... P(Fn|C)P(C)
实际计算先验概率时候，因为这些模式都是作为概率被程序计算，而不是自然语言被人来理解，所以结果是一样的。
在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。但这点有待验证，因为具体的问题不同，算法得出的结果不同，同一个算法对于同一个问题，只要模式发生变化，也存在不同的识别性能。这点在很多国外论文中已经得到公认，在机器学习一书中也提到过算法对于属性的识别情况决定于很多因素，例如训练样本和测试样本的比例影响算法的性能。
上式等号右边的每一项，都可以从统计资料中得到，由此就可以计算出每个类别对应的概率，从而找出最大概率的那个类。
账号分类的例子
根据某社区网站的抽样统计，该站10000个账号中有89%为真实账号（设为C0），11%为虚假账号（设为C1）。
C0 = 0.89 , C1 = 0.11
用统计资料判断一个账号的真实性
决策树对于文本分类识别，要看具体情况。在属性相关性较小时，NBC模型的性能稍微良好。属性相关性较小的时候，其他的算法性能也很好，这是由于信息熵理论决定的。
某个医院早上收了六个门诊病人，如下表。
症状打喷嚏打喷嚏头痛头痛打喷嚏头痛
职业护士农夫建筑工人建筑工人教师教师
疾病感冒过敏脑震荡感冒感冒脑震荡
现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大？
根据贝叶斯定理： P(A|B) = P(B|A) P(A) / P(B)
P(感冒|打喷嚏x建筑工人) = P(打喷嚏x建筑工人|感冒) x P(感冒) / P(打喷嚏x建筑工人)
假定"打喷嚏"和"建筑工人"这两个特征是独立的
P(感冒|打喷嚏x建筑工人) = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒) / P(打喷嚏) x P(建筑工人)

e商务文档

朴素贝叶斯模型教学内容

相关文档推荐：