当前位置:文档之家› 数据挖掘报告

数据挖掘报告


k-means算法接受输入量k ;然后将n个数据对象划分为k个聚类以
便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同 聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均 值所获得-一个“中心对象”(引力中心)来进行计算的。
步骤一
利用WEKA对Synthetic Control Chart数据集进行聚类 1.打开weka界面, 如下图:
可视化的聚类结果
为了观察可视化的聚类结果,在左下方“Result list”列出的结
果上右击,点“Visualize cluster assignments”。弹出的窗口给
出了各实例的散点图。可以看到了解了SimpleKMeans算法的基本原理、使 用范围、不足等。另一方面,学习了Weka的用法。包括各种挖掘工具以及结 果的含义。在完成本次作业的过程中,我对Weka的用法有了一个比较基本的 了解,在这次用SimpleKMeans算法进行数据挖掘聚类分析的时候,通过聚类
在Application选项下选择Explorer.即可进入主界面。
步骤二
2.在Proprocess选项卡,点击open files, 即可导入数据集,但是WEKA只能处 理.arff格式的数据, 所以如果不是.arff格式,应该要做一下转换。导入数据 集:
步骤三
3.经过数据预处理的数据集已经是规范的了,所以不需要再进行处理,可以直接进行聚类分
Number of interations :2 表明总共的迭代次数是2
Cluster centroids:之后列出了各个簇中心的位置。对于数值型的属
性, 簇中心就是它的均值(Mean);分类型的就是它的众数(Mode), 也
就是说这个属性上取值为众数值的实例最多。对于数值型的属性,
还给出了它在各个簇里的标准差(Std Devs)。 Clustered Instances: 是各个簇中实例的数目及百分比。
析。选择Cluster,进入聚类操作的界面,点击chooose,在弹出的树形列表中可以选择要使用的 着聚类的相关参数。截图如下:
聚类算法,再此我们使用Simlkmeans, 点击choose右边的方框,在弹出的对话框中设
步骤四 4.点击start就可以开始进行聚类了
步骤五
聚类结果分析:
解释与分析
的结果更加明确了该算法的用途。后来,我又对另外一个Nominal的数据集进
行了关联规则挖掘,发现了属性之间的关联。在完成本次大作业的过程中, 我也遇到了许多的困难,碰到了许多的不明白的问题,但通过和同学之间的
讨论以及搜索资料,最终,问题迎刃而解。通过完成这次大作业,培养了我
独立学习和完成任务的能力,也激发了我对数据挖掘这一课程的学习兴趣。 以后在课余时间, 我仍会努力学习这一领域的知识。
成k个簇,使得结果内的相似程度最高,而簇间的 相似程度低。簇的相似度是关于簇中对象的举止度 量。可以看作簇的质心。
K均值算法
首先,随机地选择k个对象,每一个对象代表一个簇的初始均值或者中心。对
剩余的每-个对象,根据其与各个簇均值的距离,把它指派到最相似的簇。然 后计算每-一个簇新的均值。这个过程不断重复,知道准则函数收敛。其中准
则函数定义如下:
其中,E是数据集所有对象的平方误差和,P是空间中的点,表示给定对象,m 是簇c的均值。 算法描述: 输入: 聚类个数k,以及包含n个数据对象的数据库。输出:满足方差最小标 准的k个聚类。
K均值算法的处理流程
处理流程: (1) 从n个数据对象任意选择k个对象作为初始聚类中心;(2) 循环(3) 到(4)直到每个聚类不再发生变化为止 (3)根据每个聚类对象的均值(中心对象),计算每个对象与这些中 心对象的距离;并根据最小距离重新对相应对象进行划分; (4) 重新计算每个(有变化)聚类的均值(中心对象)
曲线)。它还有一个通用 API, WEKA 作为一个公开的数据挖掘工作平台,集合了大量能 承担数据挖掘任务的机器学习算法,包括对数据进行预处理 , 分 类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
KMeans算法对数据聚类
K-means算法原理
K均值算法以k为输入参数,把n个对象的集合分
Weak数据挖掘平台
Weka简介
WEKA 的 全 名 是 怀 卡 托 智 能 分 析 环 境 ,WEKA 诞 生 于 University of Waikato (新西兰) (weka 也是新西兰的一-种鸟 名)并在1997年首次以其现代的格式实现。该软件以JavaM语言编
写并包含了一个GUI来与数据文件交互并生成可视结果 (比如表和
相关主题