当前位置：文档之家› 数据挖掘报告

数据挖掘报告

k-means算法接受输入量k ;然后将n个数据对象划分为k个聚类以
便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得-一个“中心对象”(引力中心)来进行计算的。
步骤一
利用WEKA对Synthetic Control Chart数据集进行聚类 1.打开weka界面，如下图:
可视化的聚类结果
为了观察可视化的聚类结果，在左下方“Result list”列出的结
果上右击，点“Visualize cluster assignments”。弹出的窗口给
出了各实例的散点图。可以看到了解了SimpleKMeans算法的基本原理、使用范围、不足等。另一方面，学习了Weka的用法。包括各种挖掘工具以及结果的含义。在完成本次作业的过程中，我对Weka的用法有了一个比较基本的了解，在这次用SimpleKMeans算法进行数据挖掘聚类分析的时候，通过聚类
在Application选项下选择Explorer.即可进入主界面。
步骤二
2.在Proprocess选项卡，点击open files, 即可导入数据集，但是WEKA只能处理.arff格式的数据，所以如果不是.arff格式，应该要做一下转换。导入数据集:
步骤三
3.经过数据预处理的数据集已经是规范的了，所以不需要再进行处理，可以直接进行聚类分
Number of interations :2 表明总共的迭代次数是2
Cluster centroids:之后列出了各个簇中心的位置。对于数值型的属
性，簇中心就是它的均值(Mean);分类型的就是它的众数(Mode), 也
就是说这个属性上取值为众数值的实例最多。对于数值型的属性，
还给出了它在各个簇里的标准差(Std Devs)。 Clustered Instances: 是各个簇中实例的数目及百分比。
析。选择Cluster,进入聚类操作的界面，点击chooose,在弹出的树形列表中可以选择要使用的着聚类的相关参数。截图如下:
聚类算法，再此我们使用Simlkmeans, 点击choose右边的方框，在弹出的对话框中设
步骤四 4.点击start就可以开始进行聚类了
步骤五
聚类结果分析：
解释与分析
的结果更加明确了该算法的用途。后来，我又对另外一个Nominal的数据集进
行了关联规则挖掘，发现了属性之间的关联。在完成本次大作业的过程中，我也遇到了许多的困难，碰到了许多的不明白的问题，但通过和同学之间的
讨论以及搜索资料，最终，问题迎刃而解。通过完成这次大作业，培养了我
独立学习和完成任务的能力，也激发了我对数据挖掘这一课程的学习兴趣。以后在课余时间，我仍会努力学习这一领域的知识。
成k个簇，使得结果内的相似程度最高，而簇间的相似程度低。簇的相似度是关于簇中对象的举止度量。可以看作簇的质心。
K均值算法
首先，随机地选择k个对象，每一个对象代表一个簇的初始均值或者中心。对
剩余的每-个对象，根据其与各个簇均值的距离，把它指派到最相似的簇。然后计算每-一个簇新的均值。这个过程不断重复，知道准则函数收敛。其中准
则函数定义如下:
其中，E是数据集所有对象的平方误差和，P是空间中的点，表示给定对象，m 是簇c的均值。算法描述: 输入: 聚类个数k，以及包含n个数据对象的数据库。输出:满足方差最小标准的k个聚类。
K均值算法的处理流程
处理流程: (1) 从n个数据对象任意选择k个对象作为初始聚类中心;(2) 循环(3) 到(4)直到每个聚类不再发生变化为止 (3)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (4) 重新计算每个(有变化)聚类的均值(中心对象)
曲线)。它还有一个通用 API, WEKA 作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理 , 分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。
KMeans算法对数据聚类
K-means算法原理
K均值算法以k为输入参数，把n个对象的集合分
Weak数据挖掘平台
Weka简介
WEKA 的全名是怀卡托智能分析环境 ,WEKA 诞生于 University of Waikato (新西兰) (weka 也是新西兰的一-种鸟名)并在1997年首次以其现代的格式实现。该软件以JavaM语言编
写并包含了一个GUI来与数据文件交互并生成可视结果 (比如表和

e商务文档

数据挖掘报告

相关文档推荐：