当前位置:
文档之家› 分类器入门:最近临域与贝叶斯网络
分类器入门:最近临域与贝叶斯网络
19/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
9.3.1 贝叶斯网络的表达
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
20
贝叶斯网络分类原理
贝叶斯网络也称为贝叶斯信念网络, 20世纪80年代由劳瑞茨恩和斯皮吉尔霍特尔提出。 贝叶斯网络最初用于人工智能中专家系统的知识表示。它以因果关系图的形式,展现专 家知识各因素的内在因果关系 该图为1988年劳瑞茨恩和斯皮吉尔霍特尔 图中的圆圈对应各个变量。例如,吸烟节点 提出的被称为“ Asia"模型的因果关系图 表示病人是一个吸烟者,亚洲旅游节点表示 中的一部分,用于帮助对新病人病情作出 病人最近到亚洲旅游。有向线段粗略代表因 果关系。例如,吸烟会增加发展中国家支气 诊断 管炎和肺癌的患病率,年龄与患肺癌的可能 性有关,支气管炎容易导致呼吸困难,肺结 核和肺癌均会导致肺部X光片异常,等等 20世纪90年代以后,贝叶斯网络开始应用 于数据分析领域。如何从庞大数据中寻找 输入变量之间的相关性,输入变量的组合 取值会对输出变量有怎么的影响,如何通 过恰当的网络结构直观展示这些关系,都 是贝叶斯网络研究的重点
P( A | Bi ) P( Bi ) P( A | B j )பைடு நூலகம்P( B j )
j
12/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯公式带来的思考
P A | D
PD | AP A PD
• 给定某些样本D,在这些样本中计算某结论A1、 A2……An出现的概率,即P(Ai|D)
18/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
对朴素贝叶斯的思考
• P(y|x1,x2,...,xn)与P(y,x1,x2,...,xn)成正比。由此可知,整个概率计算的核心是 给定输出变量条件下,输入变量联合概率计算, 由概率乘法公式:
可知,联合概率的计算与变量的排列顺序有关。由于最坏情况下可有n!种排列 方式,因此计算复杂度是比较高的。 • 为了便于计算,朴素贝叶斯分类法中假设输入变量条件独立。虽然朴素贝叶 斯分类法在实际应用中效果不错,但是该假设仍显得苛刻。一般情况下,输 入变量独立的假设很可能是不成立的,于是无法回避的最大问题仍是联合概 率的计算。 为此,人们开始探索各种有效途径,希望既能够直观表示变量的联合分布, 又便于分类预测时简化计算,这就是贝叶斯网络
Interpretation:
train: 训练集(注意,不带输出标签) cl k : 输出标签(对应训练集,必须是factor型的) : kNN的k,邻居个数 test : 测试集(自然不应该带标签)
其他参数,一般不用指定了
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
21/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯网络构成
贝叶斯网络由网络结构S和参数集合θ两个部分组成 网络结构S 网络结构S用来表示分类型随机变量 集合X={X1, X2, X3, ..., Xn} 之间的独立和条件独立关系。网络 结构S由节点和弧线组成,是一个有 向无环图。其中,每个节点分别与 分类型变量Xi一一对应。图中的每 条弧线代表变量之间存在依赖关系。 如果节点之间没有弧线连接,表示 它们条件独立。节点Xi的父节点记 为Pai,父节点的取值集合用 参数集合θ
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
在R中实现kNN
require(class) #install.package(‘class’) knn(train, test, cl, k = 1, l = 0, prob = FALSE, use.all = TRUE)
式中, k表示变量Y所有可能取值的个数。 另外,如果输入变量为数值型,则P(xim|yi)为条件概率密度。
• 要比较的是P(y1|x)和P(y2|x) 的相对大小,而根据公式P(y|x) =P(x|y)*P(y) / P(x),二者的分母都是除以P(x),实践时可以不计算该 系数。 • 编程的限制:小数乘积下溢出怎么办?
13/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
贝叶斯公式的应用
• 8支步枪中有5支已校准过,3支未校准。一名射手用校准 过的枪射击,中靶概率为0.8;用未校准的枪射击,中靶 概率为0.3;现从8支枪中随机取一支射击,结果中靶。 求该枪是已校准过的概率。 • 解:
kNN之前的数据标准化
• 极差标准化
• 中心标准化(z-score)
• 生成哑变量( m-1 principle)
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
K的选取
K值越小,模型越依赖于最近的 样本点的取值,不稳健;K值越 大,虽然模型稳健性增强了, 但是敏感度下降。因此需要采 用遍历的方法,选取最合适的K 值。 如左表所示,根据ROC曲线下面 积,选择K=15较合理。 为了避 免无法决策的麻烦,K一般取奇 数。
5 8 PA 1 G 1 0.8 PG 1 3 8 PA 0 G 1 0.2 PG 0
PA 1 G 0 0.3
PG 1 A 1 ?
PA 0 G 0 0.7
PG 1 A 1
PA 1G i PG i
是否约会成功的KNN法演示
如何预测一个婚恋网站新注册的男生是否会 约会成功呢?这很简单,看看和这个新来的 男生条件最接近的男生是否约会成功了。 比如蓝色点代表约会成功的人,红色点代表 新来的男生,他和两个蓝色点一个灰色点最 近,因此该点约会成功地可能性是2/3。 K邻域法属于惰性算法,其特点是不事先建立 全局的判别公式或规则。当新数据需要分类 时,根据每个样本和原有样本之间的距离, 取最近K个样本点的众数(Y为分类变量的情 形)或均值( Y为连续变量的情形)作为新 样本的预测值。这体现了一句老话“近朱者 赤,近墨者黑”。
声音识别 图像识别 欺诈识别
存在明确的分类,和 信息抽取 决策的不同在于决策 为二分类,标注为多 自然语言处理 分类 ...
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
9.1 KNN算法
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
9.2 朴素贝叶斯
CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
11
概率
• 条件概率: • 全概率公式:
P AB P A B P B
• 贝叶斯(Bayes)公式:
P A P A | Bi PBi
i
PBi A
16/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
朴素贝叶斯分类器计算示例
以超市顾客的数据为例,这里只考虑两个输入变量:性别( X1)和年龄段( X2),是 否购买( Y)为输出变量,数据如下表所示: 现需对性别( X1)为1、年龄 段( X2)为A的新顾客,利用 朴素贝叶斯分类法预测其是 否购买 由于是否购买( Y)包括购买( yes)和不购买( no)两种,究竟是购买还是不购买具 有不确定性。为减少这种不确定性,应收集数据,观察顾客的相关特征,并以此修正先 前的不确定性,得到后验概率。 根据贝叶斯公式,分别计算该顾客购买和不购买的可能性
max P Ai | D max PD | Ai P Ai max PD | Ai P Ai max PD | Ai P D
max P( A | D) max P( D | A ) i i • 第一个等式:贝叶斯公式; • 第二个等式:样本给定,则对于任何Ai,P(D)是常数,仅为归 一化因子; • 第三个箭头:若这些结论A1、A2……An的先验概率相等(或近 似),则得到最后一个等式:即第二行的公式。
2/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
分类器概念
预测类型
排序(Rankings)
方法
逻辑回归 决策树
适用场景
不存在稳定的可辨识 的结果。比如流失经 常是一个定义,而很 少存在真实流失的情 况
举例
信用评分 流失预测 营销响应
神经网络
存在可以直接辨识的 贝叶斯网络、 决策(Decisions)KNN(基于记忆 结果。比如人脸图像 的模型)、SVM、 识别,是可以直接知 深度学习 道是否为某个人的脸 标注(Tagging) 隐马尔可夫 条件随机场
• 其实是:对于给定分类的条件下,特征独立
• 每个特征同等重要(特征均衡性)
15/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)
朴素贝叶斯分类器原理
朴素贝叶斯分类法是一种较为简单且应用极为广泛的贝叶斯方法,其目标是在训练 集样本集的基础上,学习和归纳输入和输出变量取值之间的规律性,以实现对新数 据输出变量值的分类预测。输入变量条件独立是朴素贝叶斯分类法应用的基本前提
iG
PA 1 G 1PG 1
0.8
5 3 0.8 0.3 8 8
5 8
0.8163
14/65 CDA数据分析师(严谨课程体系+专业师资团队+优质服务体验,学数据分析就学CDA!)