当前位置:文档之家› 属性相关分析

属性相关分析


国立华侨大学
属性相关分析的基本思想是计算某种度量,用于量化 属性与给定类或概念的相关性。 这种度量包括信息增益、Gini 索引、不确定性和相关 系数。
国立华侨大学
信息增益计算如何工作?
设 S 是训练样本的集合,其中每个样本的类标号是已 知的。事实上,每个样本是一个元组,一个属性用于确定 训练样本的类。 例如,属性 status 可以用于定义每个样本的类标号或 者是“graduate”,或者是“undergraduate”。假定 有 m 个类。设 S 包含 si个 Ci类样本,i = 1, ..., m。一个任意 样本属于类 Ci的可能性是 si / s,其中s 是集合S 中对象的 总数。对一个给定的样本分类所需的期望信息是:
国立华侨大学
概念描述的属性相关分析执行步骤如下: 1.数据收集。 2.使用保守的 AOI 进行预相关分析 3.使用选定的相关分析度量删除不相关 和弱相关属性 4.使用 AOI 产生概念描述
国立华侨大学
国立华侨大学
谢谢您的观看
ห้องสมุดไป่ตู้
复旦大学
国立华侨大学
应用
1.当属性相关分析应用在聚类算法时,它根据数据在
每个属性上的分布情况来删除稀疏的属性和数据,最终达
到降维和缩小数据集的目的;
2.当属性相关分析应用在离群数据挖掘时,它根据数 据在每个属性上的稀疏程度删除稠密的属性和数据,通过 删除稠密属性和数据,也能达到降维和缩小数据集的目的。
国立华侨大学
国立华侨大学
因此这里应采用一些属性相关分析方法,以帮助滤去 统计无关或弱相关的属性并保留(与挖掘任务)最相关的 属性。 1.包含属性(维)相关分析的定性概念描述就称为分 析定性概念描述(analytical characterization)。 2.包含属性(维)相关分析的对比定性概念描述也就 称为分析对比定性概念描述(analytical comparsion)。
国立华侨大学
属性相关分析
复旦大学
为什么要采用属性相关分析?
对用户来讲,决定数据集定性描述应包含哪些属性是 一件困难的事,因为数据集通常包含了 50 到 100 个属性, 而用户对选择哪些属性进行有效数据挖掘也并知道更多。 1.用户选择较少的属性进行分析时,就可能使得所挖 掘出的定性概念描述知识不完全或不易理解。 2.若用户选择了较多的属性用于分析时,就可能会影 响挖掘的效率以及挖掘结果的可理解性。
具体步骤
第一,可以删除在所有维组合中都处于稠密区域的数 据,由于这些数据不可能出现在稀疏区域内,因此他们也 不可能出现在离群子空间中; 第二,利用属性相关分析删除不相关属性,不相关属 性是指在这个属性中所有的数据都分布在稠密区域内,容 易知道由稠密区域构成的维不可能成为构成离群子空间的 维, 因此,不相关属性可以删除。
国立华侨大学
直观上讲,若一个属性(维)的取值可以帮助 有效地区分不同类别的数据集(class),那么这 个属性(维)就被认为是与相应类别数据集密切 相关的。
例如:一个汽车的颜色不太可能用于区分贵贱汽车 (类别);但是汽车的型号、品牌、风格可能是更相关的 属性。
国立华侨大学
此外即使同一个属性(维),其不同抽象层次 的概念对不同类别数据集的分辨能力也不同。
i Si S I ( s1 , s2 ,...,sm ) log2 i 1 S
m
S
国立华侨大学
具有值{a1,a2,...,av}的属性 A 可以用来将 S 划分为子集 { S1,S2,...,Sv },其中,Sj 包含 S 中A值为 aj的那些样本。 设 Sj 包含类 Ci的sij 个对象。根据 A 的这种划分的期望信息 称作 A 的熵。它是加权平均:
例如:在出生日期(birth_date)维中,birth_day 和 birth_month 都不太可能与雇员的工资相关;而只有 birth_decade(年龄)可能与雇员的工资相关。
这也就意味着属性(维)相关分析应该在多层 次抽象水平上进行,只有最相关的那个层次的属 性(维)应被包含到数据分析中。
E ( A)
j 1 v
s1 j ... smj s
I ( s1 j ... smj )
A 上该划分的信息增益定义为 :
Gain( A) I (s1, s2 ,...sm ) E( A)
国立华侨大学
在这种相关分析方法中,我们可以计算定义 S 中样本 的每个属性的信息增益。具有最高信息增益的属性是给定 集合中具有最高区分度的属性。通过计算信息增益,我们 可以得到属性的秩评定。这种秩评定可用于相关分析,选 择用于概念描述的属性。
国立华侨大学
以上所述的属性(维)相关分析是针对属性(维)分 辨不同类别对象的能力进行评估的。
国立华侨大学
在对对比目标数据集进行挖掘(discrimination)时,可 以根据目标集合与对比集合内容进行属性(维)相关分析, 但在定性概念描述挖掘中,由于仅有一个数据集,而没有 其它数据集可以作为对比参考数据集,来帮助进行属性相 关分析,这时就可以将数据库中除当前数据集之外的其它 数据作为对比数据集。 例如:在对学校研究生数据集进行定性概念描述挖掘 时,可以将学校数据库中其它非研究生的学生数据集作为 对比数据集,来帮助进行属性相关分析。
相关主题