当前位置：文档之家› 分类器入门：最近临域与贝叶斯网络

分类器入门：最近临域与贝叶斯网络

19/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
9.3.1 贝叶斯网络的表达
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
20
贝叶斯网络分类原理
贝叶斯网络也称为贝叶斯信念网络， 20世纪80年代由劳瑞茨恩和斯皮吉尔霍特尔提出。贝叶斯网络最初用于人工智能中专家系统的知识表示。它以因果关系图的形式，展现专家知识各因素的内在因果关系该图为1988年劳瑞茨恩和斯皮吉尔霍特尔图中的圆圈对应各个变量。例如，吸烟节点提出的被称为“ Asia"模型的因果关系图表示病人是一个吸烟者，亚洲旅游节点表示中的一部分，用于帮助对新病人病情作出病人最近到亚洲旅游。有向线段粗略代表因果关系。例如，吸烟会增加发展中国家支气诊断管炎和肺癌的患病率，年龄与患肺癌的可能性有关，支气管炎容易导致呼吸困难，肺结核和肺癌均会导致肺部X光片异常，等等 20世纪90年代以后，贝叶斯网络开始应用于数据分析领域。如何从庞大数据中寻找输入变量之间的相关性，输入变量的组合取值会对输出变量有怎么的影响，如何通过恰当的网络结构直观展示这些关系，都是贝叶斯网络研究的重点
P( A | Bi ) P( Bi ) P( A | B j )பைடு நூலகம்P( B j )
j
12/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
贝叶斯公式带来的思考
P A | D
PD | AP A PD
• 给定某些样本D，在这些样本中计算某结论A1、 A2……An出现的概率，即P(Ai|D)
18/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
对朴素贝叶斯的思考
• P(y|x1,x2,...,xn)与P(y,x1,x2,...,xn)成正比。由此可知，整个概率计算的核心是给定输出变量条件下，输入变量联合概率计算，由概率乘法公式：
可知，联合概率的计算与变量的排列顺序有关。由于最坏情况下可有n!种排列方式，因此计算复杂度是比较高的。 • 为了便于计算，朴素贝叶斯分类法中假设输入变量条件独立。虽然朴素贝叶斯分类法在实际应用中效果不错，但是该假设仍显得苛刻。一般情况下，输入变量独立的假设很可能是不成立的，于是无法回避的最大问题仍是联合概率的计算。为此，人们开始探索各种有效途径，希望既能够直观表示变量的联合分布，又便于分类预测时简化计算，这就是贝叶斯网络
Interpretation：
train: 训练集(注意，不带输出标签) cl k : 输出标签(对应训练集，必须是factor型的) : kNN的k，邻居个数 test : 测试集(自然不应该带标签)
其他参数，一般不用指定了
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
21/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
贝叶斯网络构成
贝叶斯网络由网络结构S和参数集合θ两个部分组成网络结构S 网络结构S用来表示分类型随机变量集合X={X1， X2， X3， ...， Xn} 之间的独立和条件独立关系。网络结构S由节点和弧线组成，是一个有向无环图。其中，每个节点分别与分类型变量Xi一一对应。图中的每条弧线代表变量之间存在依赖关系。如果节点之间没有弧线连接，表示它们条件独立。节点Xi的父节点记为Pai，父节点的取值集合用参数集合θ
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
在R中实现kNN
require(class) #install.package(‘class’) knn(train, test, cl, k = 1, l = 0, prob = FALSE, use.all = TRUE)
式中， k表示变量Y所有可能取值的个数。另外，如果输入变量为数值型，则P(xim|yi)为条件概率密度。
• 要比较的是P(y1|x)和P(y2|x) 的相对大小，而根据公式P(y|x) =P(x|y)*P(y) / P(x)，二者的分母都是除以P(x)，实践时可以不计算该系数。 • 编程的限制：小数乘积下溢出怎么办？
13/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
贝叶斯公式的应用
• 8支步枪中有5支已校准过，3支未校准。一名射手用校准过的枪射击，中靶概率为0.8；用未校准的枪射击，中靶概率为0.3；现从8支枪中随机取一支射击，结果中靶。求该枪是已校准过的概率。 • 解：
kNN之前的数据标准化
• 极差标准化
• 中心标准化（z-score）
• 生成哑变量( m-1 principle)
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
K的选取
K值越小，模型越依赖于最近的样本点的取值，不稳健；K值越大，虽然模型稳健性增强了，但是敏感度下降。因此需要采用遍历的方法，选取最合适的K 值。如左表所示，根据ROC曲线下面积，选择K=15较合理。为了避免无法决策的麻烦，K一般取奇数。
5 8 PA 1 G 1 0.8 PG 1 3 8 PA 0 G 1 0.2 PG 0
PA 1 G 0 0.3
PG 1 A 1 ?
PA 0 G 0 0.7
PG 1 A 1
PA 1G i PG i
是否约会成功的KNN法演示
如何预测一个婚恋网站新注册的男生是否会约会成功呢？这很简单，看看和这个新来的男生条件最接近的男生是否约会成功了。比如蓝色点代表约会成功的人，红色点代表新来的男生，他和两个蓝色点一个灰色点最近，因此该点约会成功地可能性是2/3。 K邻域法属于惰性算法,其特点是不事先建立全局的判别公式或规则。当新数据需要分类时，根据每个样本和原有样本之间的距离，取最近K个样本点的众数（Y为分类变量的情形）或均值（ Y为连续变量的情形）作为新样本的预测值。这体现了一句老话“近朱者赤，近墨者黑”。
声音识别图像识别欺诈识别
存在明确的分类，和信息抽取决策的不同在于决策为二分类，标注为多自然语言处理分类 ...
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
9.1 KNN算法
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
9.2 朴素贝叶斯
CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
11
概率
• 条件概率： • 全概率公式：
P AB P A B P B
• 贝叶斯(Bayes)公式：
P A P A | Bi PBi
i
PBi A
16/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
朴素贝叶斯分类器计算示例
以超市顾客的数据为例，这里只考虑两个输入变量：性别（ X1）和年龄段（ X2），是否购买（ Y）为输出变量，数据如下表所示：现需对性别（ X1）为1、年龄段（ X2）为A的新顾客，利用朴素贝叶斯分类法预测其是否购买由于是否购买（ Y）包括购买（ yes）和不购买（ no）两种，究竟是购买还是不购买具有不确定性。为减少这种不确定性，应收集数据，观察顾客的相关特征，并以此修正先前的不确定性，得到后验概率。根据贝叶斯公式，分别计算该顾客购买和不购买的可能性
max P Ai | D max PD | Ai P Ai max PD | Ai P Ai max PD | Ai P D
max P( A | D) max P( D | A ) i i • 第一个等式：贝叶斯公式； • 第二个等式：样本给定，则对于任何Ai,P(D)是常数，仅为归一化因子； • 第三个箭头：若这些结论A1、A2……An的先验概率相等(或近似)，则得到最后一个等式：即第二行的公式。
2/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
分类器概念
预测类型
排序（Rankings）
方法
逻辑回归决策树
适用场景
不存在稳定的可辨识的结果。比如流失经常是一个定义，而很少存在真实流失的情况
举例
信用评分流失预测营销响应
神经网络
存在可以直接辨识的贝叶斯网络、决策（Decisions）KNN（基于记忆结果。比如人脸图像的模型）、SVM、识别，是可以直接知深度学习道是否为某个人的脸标注（Tagging）隐马尔可夫条件随机场
• 其实是：对于给定分类的条件下，特征独立
• 每个特征同等重要(特征均衡性)
15/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）
朴素贝叶斯分类器原理
朴素贝叶斯分类法是一种较为简单且应用极为广泛的贝叶斯方法，其目标是在训练集样本集的基础上，学习和归纳输入和输出变量取值之间的规律性，以实现对新数据输出变量值的分类预测。输入变量条件独立是朴素贝叶斯分类法应用的基本前提
iG
PA 1 G 1PG 1

0.8
5 3 0.8 0.3 8 8
5 8
0.8163
14/65 CDA数据分析师（严谨课程体系+专业师资团队+优质服务体验，学数据分析就学CDA！）

e商务文档

分类器入门：最近临域与贝叶斯网络

相关文档推荐：