朴素贝叶斯模型教学内容
在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型 (Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model, NBC)。决策树模型通过构造树来解决分类问题。首先利用训练数据 集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个 分类。在分类问题中使用决策树模型有很多的优点,决策树便于使用, 而且高效;根据决策树可以很容易地构造出规则,而规则通常易于解 释和理解;决策树可很好地扩展到大型数据库中,同时它的大小独立 于数据库的大小;决策树模型的另外一大优点就是可以对有许多属性 的数据集构造决策树。决策树模型也有一些缺点,比如处理缺失数据 时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关 性等。
F1: 日志数量/注册天数 F2: 好友数量/注册天数 F3: 是否使用真实头像(真实头像为1,非真实头像为0)
F1 = 0.1 , F2 = 0.2 , F3 = 0
请问该账号是真实账号
P(F1|C)P(F2|C)P(F3|C)P(C)
解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们 单独处理。例如中文文本分类识别的时候,我们可以建立一个字典来处理一 些词组。如果发现特定的问题中存在特殊的模式属性,那么就单独处理。
这样做也符合贝叶斯概率原理,因为我们把一个词组看作一个单独的模式, 例如英文文本处理一些长度不等的单词,也都作为单独独立的模式进行处理, 这是自然语言与其他分类识别问题的不同点。
P(感冒|打喷嚏x建筑工人) = 0.66 x 0.33 x 0.5 / 0.5 x 0.33 = 0.66
朴素贝叶斯分类器的公式
假现设有某m个个类体别有(n项Ca特te征go(ryF)ea,tu分re别)为,C分1、别C为2、F1.、..、F2C、m.。..、贝F叶n。 斯分类器就是计算出概率最大的那个分类,也就是求下面这 个算式的最大值: P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
定义
朴素贝叶斯分类器基于一个简单的假定:给定目标值 时属性之间相互条件独立。
通过以上定理和“朴素”的假定,我们知道: P( Category | Document) = P ( Document | Category )
* P( Category) / P(Document)
详细内容
分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的 解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概 念集。通过分析由属性描述的样本(或实例,对象等)来构造模型。 假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性 确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作 有指导的学习。
和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源 于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上, NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此, 这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不 成立的,这给NBC模型的正确分类带来了一定影响。
2017-06-09
分类模型
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model, NBM)
朴素贝叶斯模型
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设 的分类方法
生活中很多场合需要用到分类,比如新闻分类、病人 分类等等。
由于 P(F1F2...Fn) 对于所有的类别都是相同的,可以省略, 问题就变成了求: P(F1F2...Fn|C)P(C) 的最大值。
朴素贝叶斯分类器则是更进一步,假设所有特征都彼此独立, 因此:P(F1F2...Fn|C)P(C) = P(F1|C)P(F2|C) ... P(Fn|C)P(C)
实际计算先验概率时候,因为这些模式都是作为概率被程序计算,而不是自 然语言被人来理解,所以结果是一样的。
在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上 决策树模型。但这点有待验证,因为具体的问题不同,算法得出的结果不同, 同一个算法对于同一个问题,只要模式发生变化,也存在不同的识别性能。 这点在很多国外论文中已经得到公认,在机器学习一书中也提到过算法对于 属性的识别情况决定于很多因素,例如训练样本和测试样本的比例影响算法 的性能。
上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算 出每个类别对应的概率,从而找出最大概率的那个类。
账号分类的例子
根据某社区网站的抽样统计,该站10000个账号中有89%为 真实账号(设为C0),11%为虚假账号(设为C1)。
C0 = 0.89 , C1 = 0.11
用统计资料判断一个账号的真实性
决策树对于文本分类识别,要看具体情况。在属性相关性较小时,NBC模型 的性能稍微良好。属性相关性较小的时候,其他的算法性能也很好,这是由 于信息熵理论决定的。
某个医院早上收了六个门诊病人,如下表。
症状 打喷嚏 打喷嚏 头痛 头痛 打喷嚏 头痛
职业 护士 农夫 建筑工人 建筑工人 教师 教师
疾病 感冒 过敏 脑震荡 感冒 感冒 脑震荡
现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?
根据贝叶斯定理: P(A|B) = P(B|A) P(A) / P(B)
P(感冒|打喷嚏x建筑工人) = P(打喷嚏x建筑工人|感冒) x P(感冒) / P(打喷嚏x建筑工人)
假定"打喷嚏"和"建筑工人"这两个特征是独立的
P(感冒|打喷嚏x建筑工人) = P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒) / P(打喷嚏) x P(建筑工人)