当前位置：文档之家› 数据挖掘_分类方法(修改)

数据挖掘_分类方法(修改)

① 客观先验概率：由历史资料得到 ② 主观先验概率：由主观经验得到（水果，圆的，甜的，红或绿的是苹果）
• 朴素贝叶斯分类特点：
① ② ③ ④ 基于独立假设需要知道先验概率按照获得的信息对先验概率进行修正分类决策存在错误率
朴素贝叶斯分类模型
P( X | H ) P( H ) P( H | X ) P( X )
性别
男
男
P( X | Ci ) P( x k | Ci )
k 1
n
身高 (英尺)
6
5.92 (5'11")
体重脚的尺寸 (磅 ) (英寸)
180
190 170 165 100 150 130 150
12
11 12 10 6 8 7 9
男 5.58 (5'7") 男女女 5.92 (5'11") 5 5.5 (5'6")

对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分适应数据”的情况

第二步——用模型进行分类
分类规则
测试集
未知数据 (Jeff, Professor, 4)
NAME Tom Merlisa George Joseph
性。
朴素贝叶斯分类过程
问题数学表示：
类别: 可以从C1到Cn ，在我们的问题中即C1=男性 C2=女性
样本表示：每个数据样本（某元组）用一个 n 维特征向量 X= {x1， x2，„„，xn} 表示，分别描述对 n 个属性 A1，A2，„„，An 样本的 n 个度量。比如样本 X={x1,x2,x3}={1 米 73,60 千克， 20 厘米 } （分别对应身高体重
而一个空Cover不覆盖任何样本。
AQR算法相关定义
在 AQR 中，一个新样本被区分是看其由哪个规则推导出来的。如果该样本只满足一条规则，则这个样本就属于这条规则；如果该样本满足多条规则，则被这些规则所预测的最频繁的分类被赋予这条规则；如果该样本不属于任何规则，则
其分类为样本集中最频繁的分类。
g ( xk , ci , ci )是高斯分布函数， c , c i i
分别为平均值和标准差。
女 5.42 (5'5") 女 5.75 (5'9")
第三步求P(X|C1)
假设训练集样本的特征满足高斯分布，得到下表：
性别男性女性性别 Sample（？）均值 (身高) 5.855 5.4175 方差 (身高) 3.5033e-02 9.7225e-02 身高(英尺) 6 均值 (体重) 方差 (体重) 均值 (脚的尺寸) 11.25 7.5 方差 (脚的尺寸) 9.1667e-01 1.6667e+00
176.25 1.2292e+02 132.5 5.5833e+02
体重(磅) 130
脚的尺寸(英寸) 8
第三步求P(X|C1)
分别求得类别C1和C2的似然度男性似然度计算项：女性似然度计算项：
男性和女性的似然度：
可以看到女性的似然度更大，更具贝叶斯分类模型我们显然可以得到，女性的后验概率更大，所以该样本分类为女性。
样本域：水果 X:红的和圆的（颜色属性取值为红，形状属性取值为圆）
H:是苹果（苹果是一个类别）
P(H|X):反应了当知道水果是红的并且是圆的，则它是苹果的概率（置信程度）。这是后验概率 P(H):是先验概率
朴素贝叶斯分类过程
实例：性别分类问题描述：通过一些测量的特征，包括身高、体重、脚的尺寸，判定一个人是男性还是女
P(X) 对于所有类来说都是一样的即 P(X)=P(C1)*P(X|C1)+P(C2)*P(X|C2) （全概率公式）
所以为了得到最大后验假定，问题转化为求P(X|C1)的最大值
未分类的样本：
性别 Sample（？）身高(英尺) 6 体重(磅) 130 脚的尺寸(英寸) 8
第三步求P(X|C1)
此处这么举例，是假设身高的取值都是离散值数据
女 5.42 (5'5") 女 5.75 (5'9")
第三步求P(X|C1)
xK的值可能有两种情况：（2）连续值如果Ak是连续值属性，则通常假定该属
性别
男
P( X | Ci ) P( x k | Ci )
k 1
n
身高 (英尺)
6
5.92 (5'11")
P(X|C1)=P(x1|C1)*P(x2|C1)*P(x3|C1) 表示C1时样本X的似然度
第三步求P(X|C1)
xK的值可能有两种情况：
（1）离散值
则P(xk|Ci)=sik|si，其中sik是在属性Ak上具有值xk 的类Ci的训练样本数，而si是Ci中的训练样本数 x1=6英尺即P(x1|C1)=训练样本中身高为6英尺并且属于男性的样本数/男性的样本数=1/4；

假定每个元组属于一个预定义的类，由一个类标号属性确定
基本概念

训练数据集：由为建立模型而被分析的数据元组形成训练样本：训练数据集中的单个样本（元组）

学习模型可以用分类规则、判定树或数学公式的形式提供
第一步——建立模型
分类算法
训练数据集
NAM E RANK M ike M ary Bill Jim Dave Anne Assistant Prof Assistant Prof Professor Associate Prof Assistant Prof Associate Prof
AQR算法描述
算法 4-5 AQR：
输入：正例样本POS；反例样本NEG 输出：覆盖COVER
AQR算法描述
（1） COVER= Φ；//初始化COVER为空集Φ
（2） WHILE COVER does not cover all positive examples in POS DO
BEGIN （3） Select a SEED；//选取一个种子SEED，例如没有被COVER覆盖的一个正样例（4） Call procedure STAR（SEED，NEG）； //产生一个能覆盖种子而同时排除所有反例的星（5） Select the best Complex BEST from the STAR according to user-defined criteria；//从星中选取一个最好的复合（6） Add BEST as an extra disjuct to COVER ；//把最好的复合与COVER 合取，形成新的COVER
180 190 170 165 100
150 130 150
1二步预测X属于具有最高后验概率的类
朴素贝叶斯分类将未知的样本分配给类 Ci
（1≤i≤m）当且仅当 P(Ci|X)> P(Cj|X)，对任意的
j=1，2，„，m，j≠i。这样，最大化 P(Ci|X)。其
YEARS TENURED 3 7 2 7 6 3 no yes yes yes no no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
数据分类的两步过程（2）

第二步，使用模型，对将来的或未知的对象进行分类

首先评估模型的预测准确率
内容

回顾基本概念贝叶斯分类规则归纳

总结
规则归纳

常见的采用规则表示的分类器构造方法

利用规则归纳技术直接生成规则；利用决策树方法先生成决策树，然后再把决策树转换为规则；

使用粗糙集方法生成规则；使用遗传算法中的分类器技术生成规则等。
规则归纳

规则归纳有四种策略：减法、加法、先加后减、先减后加策略。

分类的目的在于用分类方法构建一个分类函数或分类模
型（分类器），该分类器可以将输入数据（数据库中的
数据项）映射到给定类别中的一个类别。
分类器的构造依据
统计方法：贝叶斯方法和非参数法等机器学习方法：决策树法和规则归纳法神经网络方法其他：粗糙集等
数据分类的两步过程（1）

第一步，建立一个模型，描述预定数据类集和概念集
和脚长三个属性的度量）
分类模型：
第一步得到先验概率
训练数据集：得到先验概率，按照频率来算。P(C1)=0.5 P(C2)=0.5
性别身高(英尺) 体重(磅) 脚的尺寸(英寸)
男男男男女
女女女
6 5.92 (5'11") 5.58 (5'7") 5.92 (5'11") 5
5.5 (5'6") 5.42 (5'5") 5.75 (5'9")
体重脚的尺寸 (磅 ) (英寸)
180
190 170 165 100 150 130 150
性服从高斯分布。因而，
12
11 12 10 6 8 7 9
P( xk | Ci ) g ( xk , ci , ci )
1 2 ci
e
( xk ci ) 2
2 ci
男
男 5.58 (5'7") 男女女 5.92 (5'11") 5 5.5 (5'6")

e商务文档

数据挖掘_分类方法(修改)

相关文档推荐：