术语解释
1、数据挖掘是在大型数据存储库中,自动地发现有用信息的过程
2、分类挖掘:
给定一个记录的集合(训练集),每个记录包含一组属性,一个属性是类,找到一个类的属性与其他属性的值的函数模型。
目的:以前看不到的记录应尽可能准确地分配一个类。
通常情况下,给定的数据集分为训练集和测试集,训练集用于构建模型和测试集用于检验模型的准确性。
3、聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。
其目标是,
组内的对象之间是相似的(相关的),而不同的组中的对象是不同的(不相关的)。
组内的相似性(同质性)越大,组间差别越大,聚类就越好。
4、关联规则分析用来发现描述数据库中强关联特征的模式。
给定事物的集合T,找出支持
度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minonf 是对应的支持度和置信度阈值。
5、异常检测的任务是识别其特征明显不同于其他数据的观测值。
6、预测性任务
目标是根据其他属性的值,预测特定属性的值。
7、描述任务
目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。
本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。
8、事物数据是一种特殊类型的记录数据,其中每一个记录(事物)涉及一个项的集合。
9、时序数据可以看做记录数据的扩充,其中每个记录包含一个与之相关联的时间。
10、序列数据是一个数据集合,他是个体项的序列,如词或字母的序列,有序序列中有位置。
11、离散化问题就是决定选择多少个分割点和确定分割点位置的问题。
非监督离散化用于分离的离散化方法之间的根本区别在于是否使用类信息。
如果我们用不同组的不同对象被指派到相同分类值的程度来度量离散化技术的性
能,则K均值性能较好,其次是等频率,最后是等宽。
监督离散化基于熵的方法是目前最有前途的离散化方法之一。
区间的熵是区间纯度的度量,熵越小越好。
12、两个对象之间的相似度是这两个对象相似程度的数值度量。
13、相异度是这两个对象差异程度的数值度量。
14、离群点是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,或
是相对于该属性的典型值不寻常的属性值。
简答题范围
1、数据库中知识发现过程
2、标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象,等于或不
等于。
例子:邮政编码、雇员ID号、眼球颜色、性别。
操作:众数、熵、列联相关、x2检测
序数属性的值提供足够的信息确定对象的序,大于或小于。
例子:矿石硬度、{好,较好,最好}、成绩、街道号码。
操作:中值、百分数、秩相关、游程检验】符号检验
相同点:统称分类的或定性的
不同点:有序跟无序??
3、处理遗漏值
删除数据对象或属性如果一个数据集只有少量的对象具有遗漏值,则忽略它们可能是合算的,一种相关的策略是删除具有遗漏值的属性。
估计遗漏值如果属性是连续的,则可以使用最近邻的平均属性值;如果属性是分类的,则可以取最近的邻中常出现的属性值。
在分析时忽略遗漏值对于某属性,两个对象之一或两个对象都有遗漏值,则可以仅使用没有遗漏值的属性来计算相似性。
4、决策树是一种由结点和有向边组成的层次结构。
包含3种结点:根节点,内部结点,叶
节点。
在决策树中,每个叶节点都赋予一个类标号,非终结点包含属性测试条件,用以分开具有不同特性的记录。
举例:例如在根节点处,使用体温这个属性把冷血脊椎动物和恒温脊椎动物区别开来。
因为所有的冷血脊椎东区都是非哺乳动物,所以用一个类称号为非哺乳动物的叶节点作为根节点的右子女。
如果脊椎动物是恒温的,则接下来用胎生这个属性来区分哺乳动物与其他恒温动物(主要是鸟类)。
5、混淆矩阵
又称“分类矩阵”,是用来显示评估分类模型的性能时其正确和错误预测的检验记录计数的一种可视化矩阵图。
可以得到准确率和错误率,以此检验模型的可信度,用以评估模型。
6、帮助减少频繁项集的产生时需要探查的候选项集个数。
7、支持度:给定数据集的频繁程度;
置信度:确定Y在包含X的事务中出现的频繁程度。
支持度通常用来删去那些不令人感兴趣的规则,可以用于关联规则的有效发现;置信度则通过规则进行推理的可靠性。
8、模糊聚类
当有数据集中的对象不能划分为明显分离的簇的时候,对每一个对象和簇赋予一个权值,指明该对象属于该簇的程度。
9、问题:K均值并不适合所有的数据类型,他不能处理非球形簇、不同尺寸和不同密度的
簇,尽管指定足够大的簇个数时他通常发现纯子簇。
对包含离群点的数据进行聚类时,K 均值也有问题。
最后,K均值仅限于具有中心(质心)概念的数据。
10、异常检测的一般方法:
①基于模型的技术:建立模型之后,异常是同那些模型不能完美拟合的对象;②基于邻
近度的技术:在对象之间定义邻近度量,异常是远离大部分对象的对象,也是距离上远离的点;③基于密度的技术:对象的密度估计可以相对的直接计算,低密度区域中的对象相对远离每一个近邻的点,可能看作异常。
大题?
1、基尼公式1-概率平方和
选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。
不纯的程度越低类分布
就越倾斜
2、先验原理:如果一个项集是频繁的,则它的所有子集也一定是频繁的。
相反,如果一个
项集是非频繁的,则它所有的超集也一定是非频繁的。
频繁项集的产生:其目标是发现满足最小支持度阈值的所有项集
规则的产生:从上一步发现的频繁项集中提取所有高置信度的规则,可能规则总数为3d-2d+1+1
3、基本K均值算法:
选择K个点作为初始质心
Repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
Until 质心不再发生变化
机械设备铁谱检测技术中的应用
在人类资源管理中的应用
在商业银行客户分类中的应用
二分K均值算法:
初始化簇表,使之包含由所有的点组成的簇
Repeat
从簇中取出一个簇{对选定的簇进行多次二分“试验”}
For i=1 to 试验次数do
使用基本K均值,二分选定的簇
End for
从二分试验中选则具有最小总SSE的两个簇
将这两个簇添加到簇表中
Until 簇表中包含K个簇。