数据挖掘-WEKA 实验报告一
姓名及学号:杨珍20131198
班级:卓越计科1301
指导老师:吴珏老师
一、实验内容
1、Weka 工具初步认识(掌握weka程序运行环境)
2、实验数据预处理。
(掌握weka中数据预处理的使用)
对weka自带测试用例数据集weather.nominal.arrf文件,进行一下操作。
1)、加载数据,熟悉各按钮的功能。
2)、熟悉各过滤器的功能,使用过滤器Remove、Add对数据集进行操作。
3)、使用weka.unsupervised.instance.RemoveWithValue过滤器去除humidity 属性值为high的全部实例。
4)、使用离散化技术对数据集glass.arrf中的属性RI和Ba进行离散化(分别用等宽,等频进行离散化)。
(1)打开已经安装好的weka,界面如下,点击openfile即可打开weka自带测试用例数据集weather.nominal.arrf文件
(2)打开文件之后界面如下:
(3)可对数据进行选择,可以全选,不选,反选等,还可以链接数据库,对数
据进行编辑,保存等。
还可以对所有的属性进行可视化。
如下图:
(4)使用过滤器Remove、Add对数据集进行操作。
(5)点击此处可以增加属性。
如上图,增加了一个未命名的属性unnamed.再点击下方的remove按钮即可删除该属性.
(5)使用weka.unsupervised.instance.RemoveWithValue过滤器去除humidity属性值为high的全部实例。
没有去掉之前:
(6)去掉其中一个属性之后:
(7)选择choose里的removewithvalue:
(8)选择huminity属性:
(9)使用离散化技术对数据集glass.arrf中的属性RI和Ba进行离散化(分别用等宽,等频进行离散化)。
RI等宽:
(10)Ba等频:
二、思考与分析
1.使用数据集编辑器打开weather.nominal.arrf文件,实例编号为2的分类属性值是多少?
如图所示:实例编号为2的分类值属性为no
加载weather.nomina.arrf文件后,temperature属性可以有哪些合法值?Temperature可以取值为:hot、mild、cool。