广东金融学院实验报告课程名称:大数据工具应用
四、实验结果(对必要的实验步骤进行截图,并加以文字描述)
1、完成bank-data.xlsx文件到arff文件的转换。
(1)打开“bank-data.xlsx”-点击“文件”-点击“另存为”-保存类型选中“CSV(逗号分隔)”-点击“保存”。
(2)打开weka-点击“Tools”-点击“ArffViewer”-点击“File-open”–文件类型选中“所有文件”-选中“bank-data.csv”-“打开”
点击“file”-点击“save as”-文件类型选中“Arff data files ”-“保存”
2、对weather.nominal.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”
点击“Choose”-选中“Discretize”-点击空白处-在“attributelndices”中输入2,在“bins”中输入3,其他保持不变-点击“OK”,再点击“Apply”
为避开可读性较差的问题,先另存为,点击“Save”。
(2)打开“word”,打开“weather.numeric.arff”这个文件
选中“'\'(-inf-71]\''”,点击“替换”
选中“'\'(71-78]\''”,替换成“mild”
选中“'\'(78-inf)\''”,替换成“hot”
点击“保存”。
(3)用weka打开查看
3、生成weather.nominal.arff数据集的决策树。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numinal.arff”-点击“打开”,切换到“Classify”-单击“Choose”-打开“trees”条目-点击“J48”,选择“Use traning set”,单击“Strart”。
(2)在结果列表中右击“J48”条目,选择可视化菜单项“Visualize tree”
4. 对CPU.arff数据集使用M5P分类器进行线性回归。
打开weka-点击“Explorer”-点击“Open file”-选中“cpu.aff”-点击“打开”,点击“Classify”-“Choose”,打开“function”条目-点击“LinearRegressio”,单击“Strart”。
在结果列表中右击条目,选择可视化分类结果误差菜单项“Visualize classifier errors”
5. 使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”, 切换到“Cluster”-单击“Choose”-选择“SimpleKMeans”,单击文本框-保持默认设置,单击“Ignore attributes”-选择“play”-单击“select”,单击“Start”。
(2)在结果列表中右击条目,选择“Visualize cluster assignments”(3)单击“Save”,再次打开文件查看
6. 使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。
(1)打开weka-点击“Explorer”-点击“Open file”-选中“weather.numeric.arff”-点击“打开”,切换到“Cluster”-单击“Choose”-选择“EM”,单击文本框-“numClusters”设置为“2”-其他参数保持不变,选中“Classes to clusters evaluation”,单击“Ignore attributes”-弹出框中选择“play”-单击“select,”单击“Start”。
(2)在结果列表中右击条目,选择“Visualize cluster assignments”
(3)单击“Save”,再次打开文件查看
五、实验总结(包括心得体会、问题回答及实验改进意见,可附页)
1、这次实验很有难度,基本都要依靠视频,逐步跟进,第一次接触Weka,所以一轮实验过后对weka也只能算是有了接触,还算不上理解。
2、决策树较其他几个实验项目易懂,有图形,很形象了然。
3、大致懂得分类、聚类的操作步骤,但由于缺乏相应的数学知识储备,相应的计算机。