当前位置：文档之家› 数据挖掘实验报告 Weka的数据聚类分析

数据挖掘实验报告 Weka的数据聚类分析

Clustered Instances
0 41 ( 44%)
1 52 ( 56%)
6、对上述实验结果进行分析
7、显示散点图
我们在左下方“Result list”列出的结果上右击，点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标，第二行的”color”是散点图着色的依据，默认是根据不同的簇“Cluster”给实例标上不同的颜色。
Passenger_capacity
Length
Wheelbase
Width
U-turn_space
Rear_seat_room
Luggage_capacity
Weight
Domestic
class
Test mode: evaluate on training data
=== Model and evaluation on training set ===
2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析，更深刻的理解k均值算法，并通过对实验结果进行观察分析，找出实验中所存在的问题。
二．实验环境
Win
在WEKA中实现K均值的算法,观察实验结果并进行分析。
四、实验过程与分析
一、实验过程
1、添加数据文件
甘肃政法学院
本科生实验报告
（2）
姓名:
学院:计算机科学学院
专业:信息管理与信息系统
班级:
实验课程名称:数据挖掘
实验日期:
指导教师及职称:
实验成绩:
开课时间：2013—2014学年一学期
甘肃政法学院实验管理中心印制
实验题目
Weka的数据聚类分析
小组合作
姓名
班级
学号
一、实验目的
1、了解和熟悉K均值聚类的步骤
Cluster 1
Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019
二、实验分析
本次实验采用的数据文件是“1993 New Car Data”。通过观察本次实验的实验结果观察，我们可以知道：
1、Number of iterations: 5，意味着本次实验把这93条实例聚成了5类，即K=5
2、Within cluster sum of squared errors: 282.17934341063733
Cluster 1
Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019
Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863
Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372
kMeans
======
Number of iterations: 5
Within cluster sum of squared errors: 282.17934341063733
Cluster centroids:
Cluster 0
Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512
Cluster 0
Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512
Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372
=== Run information ===
Scheme: weka.clusterers.SimpleKMeans -N 2 -S 10
Relation: s
Instances: 93
Attributes: 23
Manufacturer
Type
City_MPG
Highway_MPG
Manual_transmission_available
Fuel_tank_capacity
Passenger_capacity
Length
Wheelbase
Width
U-turn_space
Rear_seat_room
Luggage_capacity
Weight
Domestic
class
Test mode: evaluate on training data
打开Weka的Explore，使用Open file点击打开本次实验所要使用的raff格式数据文件“auto93.raff”
2、选择算法类型
点击Cluster中的Choose，选择本次实验所要使用的算法类型“SimpleKMeans”
3、得出实验结果
选中“Cluster Mode”的“Use training set”，点击“Start”按钮，观察右边“Clusterer output”给出的聚类结果如下：
Air_Bags_standard
Drive_train_type
Number_of_cylinders
Engine_size
Horsepower
RPM
Engine_revolutions_per_mile
Manual_transmission_available
Fuel_tank_capacity
五、实验总结
通过本次试验，使我对如何在Weka中进行聚类分析有了更深刻的了解，对Weka中进行聚类分析的simpleKmeans算法也有了进一步的理解，但是实验中所遇到的，有关如何以最快的速度找出最好的聚类方案的相关问题，我还理解和运用的不是非常熟悉。在今后的学习中我将通过查阅文献和咨询老师、同学，对此加以熟悉和改进。
Clustered Instances
0 41 ( 44%)
52 ( 56%)
4、修改Seed值
5、得出修改Seed值后的实验结果
=== Run information ===
Scheme: weka.clusterers.SimpleKMeans -N 2 -S 8
Relation: s
Instances: 93
Attributes: 23
Manufacturer
Type
City_MPG
Highway_MPG
Air_Bags_standard
Drive_train_type
Number_of_cylinders
Engine_size
Horsepower
RPM
Engine_revolutions_per_mile
这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离越小。如果把“seed”参数改一下，得到的这个数值就可能会不一样。我们应该多尝试几个“seed”，并采纳这个数值最小的那个结果。
3、Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性，簇中心就是它的均值（Mean），如cluster0的数值型变量Manufacturer的均值19.0732；分类型的就是它的众数（Mode），如cluster0的分类型变量Drive_train_type的众数为1，也就是说这个属性上取值为众数值1（有1个孩子）的实例最多。对于数值型的属性，还给出了它在各个簇里的标准差（Std Devs）。最后的“Clustered Instances”是各个簇中实例的数目及百分比。
Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863
=== Model and evaluation on training set ===
kMeans
======

e商务文档

数据挖掘实验报告 Weka的数据聚类分析

相关文档推荐：