当前位置:文档之家› 数据挖掘_分类方法(修改)

数据挖掘_分类方法(修改)

① 客观先验概率:由历史资料得到 ② 主观先验概率:由主观经验得到(水果,圆的,甜的,红或绿 的 是苹果)
• 朴素贝叶斯分类特点:
① ② ③ ④ 基于独立假设 需要知道先验概率 按照获得的信息对先验概率进行修正 分类决策存在错误率
朴素贝叶斯分类模型
P( X | H ) P( H ) P( H | X ) P( X )
性 别


P( X | Ci ) P( x k | Ci )
k 1
n
身高 (英尺)
6
5.92 (5'11")
体重 脚的尺寸 (磅 ) (英寸)
180
190 170 165 100 150 130 150
12
11 12 10 6 8 7 9
男 5.58 (5'7") 男 女 女 5.92 (5'11") 5 5.5 (5'6")

对每个测试样本,将已知的类标号和该样本的学习模 型类预测比较 模型在给定测试集上的准确率是正确被模型分类的测 试样本的百分比 测试集要独立于训练样本集,否则会出现“过分适应 数据”的情况


第二步——用模型进行分 类
分类规则
测试集
未知数据 (Jeff, Professor, 4)
NAME Tom Merlisa George Joseph
性。
朴素贝叶斯分类过程
问题数学表示:
类别: 可以从C1到Cn ,在我们的问题中即C1=男性 C2=女性
样 本 表 示 : 每 个 数 据 样 本 ( 某 元 组 ) 用 一 个 n 维 特 征 向 量 X= {x1, x2,„„,xn} 表示,分别描述对 n 个属性 A1,A2,„„,An 样本的 n 个度 量。 比如样本 X={x1,x2,x3}={1 米 73,60 千克, 20 厘米 } (分别对应身高体重
而一个空Cover不覆盖任何样本。
AQR算法相关定义
在 AQR 中,一个新样本被区分是看其由哪个规则推导 出来的。 如果该样本只满足一条规则,则这个样本就属于这条规 则;如果该样本满足多条规则,则被这些规则所预测的最频 繁的分类被赋予这条规则;如果该样本不属于任何规则,则
其分类为样本集中最频繁的分类。
g ( xk , ci , ci )是高斯分布函数, c , c i i
分别为平均值和标准差。
女 5.42 (5'5") 女 5.75 (5'9")
第三步 求P(X|C1)
假设训练集样本的特征满足高斯分布,得到下表:
性别 男性 女性 性别 Sample(?) 均值 (身高) 5.855 5.4175 方差 (身高) 3.5033e-02 9.7225e-02 身高(英尺) 6 均值 (体重) 方差 (体重) 均值 (脚的尺寸) 11.25 7.5 方差 (脚的尺寸) 9.1667e-01 1.6667e+00
176.25 1.2292e+02 132.5 5.5833e+02
体重(磅) 130
脚的尺寸(英寸) 8
第三步 求P(X|C1)
分别求得类别C1和C2的似然度 男性似然度计算项: 女性似然度计算项:
男性和女性的似然度:
可以看到女性的似然度更大,更具贝叶斯分类模型我们显然可以得到, 女性的后验概率更大,所以该样本分类为女性。
样本域:水果 X:红的和圆的(颜色属性取值为红,形状属性取值为圆)
H:是苹果(苹果是一个类别)
P(H|X):反应了当知道水果是红的并且是圆的,则它是苹果的 概率(置信程度)。这是后验概率 P(H):是先验概率
朴素贝叶斯分类过程
实例:性别分类 问题描述:通过一些测量的特征,包括身高、 体重、脚的尺寸,判定一个人是男性还是女
P(X) 对于所有类来说都是一样的即 P(X)=P(C1)*P(X|C1)+P(C2)*P(X|C2) (全概率公式)
所以为了得到最大后验假定,问题转化为求P(X|C1)的最大值
未分类的样本:
性别 Sample(?) 身高(英尺) 6 体重(磅) 130 脚的尺寸(英寸) 8
第三步 求P(X|C1)
此处这么举例,是假设身高的取值都是离散值数据
女 5.42 (5'5") 女 5.75 (5'9")
第三步 求P(X|C1)
xK的值可能有两种情况: (2)连续值 如果Ak是连续值属性,则通常假定该属
性 别

P( X | Ci ) P( x k | Ci )
k 1
n
身高 (英尺)
6
5.92 (5'11")
P(X|C1)=P(x1|C1)*P(x2|C1)*P(x3|C1) 表示C1时样本X的似然度
第三步 求P(X|C1)
xK的值可能有两种情况:
(1)离散值
则P(xk|Ci)=sik|si,其中sik是在属性Ak上具有值xk 的类Ci的训练样本数,而si是Ci中的训练样本数 x1=6英尺 即P(x1|C1)=训练样本中身高为6英尺并且属于男性 的样本数/男性的样本数=1/4;

假定每个元组属于一个预定义的类,由一个类标号属性确 定
基本概念


训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组)

学习模型可以用分类规则、判定树或数学公式的形式提供
第一步——建立模型
分类算法
训练数 据集
NAM E RANK M ike M ary Bill Jim Dave Anne Assistant Prof Assistant Prof Professor Associate Prof Assistant Prof Associate Prof
AQR算法描述
算法 4-5 AQR:
输入:正例样本POS; 反例样本NEG 输出:覆盖COVER
AQR算法描述
(1) COVER= Φ;//初始化COVER为空集Φ
(2) WHILE COVER does not cover all positive examples in POS DO
BEGIN (3) Select a SEED;//选取一个种子SEED,例如没有被COVER覆盖的一个正 样例 (4) Call procedure STAR(SEED,NEG); //产生一个能覆盖种子而同时 排除所有反例的星 (5) Select the best Complex BEST from the STAR according to user-defined criteria;//从星中选取一个最好的复合 (6) Add BEST as an extra disjuct to COVER ;//把最好的复合与COVER 合取,形成新的COVER
180 190 170 165 100
150 130 150
1二步 预测X属于具有最高后验概率 的类
朴 素 贝 叶 斯 分 类 将 未 知 的 样 本 分 配 给 类 Ci
(1≤i≤m)当且仅当 P(Ci|X)> P(Cj|X),对任意的
j=1,2,„,m,j≠i。这样,最大化 P(Ci|X)。其
YEARS TENURED 3 7 2 7 6 3 no yes yes yes no no
分类规则
IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’
数据分类的两步过程(2)

第二步,使用模型,对将来的或未知的对象进行分 类

首先评估模型的预测准确率
内容

回顾基本概念 贝叶斯分类 规则归纳



总结
规则归纳

常见的采用规则表示的分类器构造方法

利用规则归纳技术直接生成规则; 利用决策树方法先生成决策树,然后再把决策树转换为规 则;

使用粗糙集方法生成规则; 使用遗传算法中的分类器技术生成规则等。
规则归纳

规则归纳有四种策略:减法、加法、先加后减、先 减后加策略。

分类的目的在于用分类方法构建一个分类函数或分类模
型(分类器),该分类器可以将输入数据(数据库中的
数据项)映射到给定类别中的一个类别。
分类器的构造依据
统计方法:贝叶斯方法和非参数法等 机器学习方法:决策树法和规则归纳法 神经网络方法 其他:粗糙集等
数据分类的两步过程(1)

第一步,建立一个模型,描述预定数据类集和概念集
和脚长三个属性的度量)
分类模型:
第一步 得到先验概率
训练数据集:得到先验概率,按照频率来算。P(C1)=0.5 P(C2)=0.5
性别 身高(英尺) 体重(磅) 脚的尺寸(英寸)
男 男 男 男 女
女 女 女
6 5.92 (5'11") 5.58 (5'7") 5.92 (5'11") 5
5.5 (5'6") 5.42 (5'5") 5.75 (5'9")
体重 脚的尺寸 (磅 ) (英寸)
180
190 170 165 100 150 130 150
性服从高斯分布。因而,
12
11 12 10 6 8 7 9
P( xk | Ci ) g ( xk , ci , ci )
1 2 ci
e
( xk ci ) 2
2 ci

男 5.58 (5'7") 男 女 女 5.92 (5'11") 5 5.5 (5'6")
相关主题