当前位置:
文档之家› 数据挖掘实验报告 Weka的数据聚类分析
数据挖掘实验报告 Weka的数据聚类分析
Clustered Instances
0 41 ( 44%)
1 52 ( 56%)
6、对上述实验结果进行分析
7、显示散点图
我们在左下方“Result list”列出的结果上右击,点“Visualize cluster assignments”。弹出的窗口给出了各实例的散点图。最上方的两个框是选择横坐标和纵坐标,第二行的”color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。
Passenger_capacity
Length
Wheelbase
Width
U-turn_space
Rear_seat_room
Luggage_capacity
Weight
Domestic
class
Test mode: evaluate on training data
=== Model and evaluation on training set ===
2、利用Weka中提供的simpleKmeans方法对数据文件进行聚类分析,更深刻的理解k均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。
二.实验环境
Win
在WEKA中实现K均值的算法,观察实验结果并进行分析。
四、实验过程与分析
一、实验过程
1、添加数据文件
甘肃政法学院
本科生实验报告
(2)
姓名:
学院:计算机科学学院
专业:信息管理与信息系统
班级:
实验课程名称:数据挖掘
实验日期:
指导教师及职称:
实验成绩:
开课时间:2013—2014学年一学期
甘肃政法学院实验管理中心印制
实验题目
Weka的数据聚类分析
小组合作
姓名
班级
学号
一、实验目的
1、了解和熟悉K均值聚类的步骤
Cluster 1
Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019
二、实验分析
本次实验采用的数据文件是“1993 New Car Data”。通过观察本次实验的实验结果观察,我们可以知道:
1、Number of iterations: 5,意味着本次实验把这93条实例聚成了5类,即K=5
2、Within cluster sum of squared errors: 282.17934341063733
Cluster 1
Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019
Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863
Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372
kMeans
======
Number of iterations: 5
Within cluster sum of squared errors: 282.17934341063733
Cluster centroids:
Cluster 0
Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512
Cluster 0
Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512
Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372
=== Run information ===
Scheme: weka.clusterers.SimpleKMeans -N 2 -S 10
Relation: s
Instances: 93
Attributes: 23
Manufacturer
Type
City_MPG
Highway_MPG
Manual_transmission_available
Fuel_tank_capacity
Passenger_capacity
Length
Wheelbase
Width
U-turn_space
Rear_seat_room
Luggage_capacity
Weight
Domestic
class
Test mode: evaluate on training data
打开Weka的Explore,使用Open file点击打开本次实验所要使用的raff格式数据文件“auto93.raff”
2、选择算法类型
点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans”
3、得出实验结果
选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果如下:
Air_Bags_standard
Drive_train_type
Number_of_cylinders
Engine_size
Horsepower
RPM
Engine_revolutions_per_mile
Manual_transmission_available
Fuel_tank_capacity
五、实验总结
通过本次试验,使我对如何在Weka中进行聚类分析有了更深刻的了解,对Weka中进行聚类分析的simpleKmeans算法也有了进一步的理解,但是实验中所遇到的,有关如何以最快的速度找出最好的聚类方案的相关问题,我还理解和运用的不是非常熟悉。在今后的学习中我将通过查阅文献和咨询老师、同学,对此加以熟悉和改进。
Clustered Instances
0 41 ( 44%)
52 ( 56%)
4、修改Seed值
5、得出修改Seed值后的实验结果
=== Run information ===
Scheme: weka.clusterers.SimpleKMeans -N 2 -S 8
Relation: s
Instances: 93
Attributes: 23
Manufacturer
Type
City_MPG
Highway_MPG
Air_Bags_standard
Drive_train_type
Number_of_cylinders
Engine_size
Horsepower
RPM
Engine_revolutions_per_mile
这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个“seed”,并采纳这个数值最小的那个结果。
3、Cluster centroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean),如cluster0的数值型变量Manufacturer的均值19.0732;分类型的就是它的众数(Mode),如cluster0的分类型变量Drive_train_type的众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(Std Devs)。最后的“Clustered Instances”是各个簇中实例的数目及百分比。
Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863
=== Model and evaluation on training set ===
kMeans
======