当前位置:文档之家› 《数据挖掘》结课报告

《数据挖掘》结课报告

《数据挖掘》结课报告--基于k-最近邻分类方法的连衣裙属性数据集的研究报告(2013--2014 学年第二学期)学院:专业:班级:学号:姓名:指导教师:二〇一四年五月二十四日一、研究目的与意义(介绍所选数据反应的主题思想及其研究目的与意义)1、目的(1)熟悉weka软件环境;(2)掌握数据挖掘分类模型学习方法中的k-最近邻分类方法;(3)在weka中以“Dress Attribute DataSet”为例,掌握k-最近邻分类算法的相关方法;(4)取不同的K值,采用不同的预测方法,观察结果,达到是否推荐某款连衣裙的目的,为企业未来的规划发展做出依据。

2、意义此数据集共有14个属性,500个实例,包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况,按照分类模型学习方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子,对发展市场的扩大及企业的发展战略具有重要意义。

二、技术支持(介绍用来进行数据挖掘、数据分析的方法及原理)1、原理:k-最近邻分类算法是一种基于实例的学习方法,不需要事先对训练数据建立分类模型,而是当需要分类未知样本时才使用具体的训练样本进行预测,通过在训练集中找出测试集的K个最近邻,来预测估计测试集的类标号;2、方法:k-最近邻方法是消极学习方法的典型代表,其算法的关键技术是搜索模式空间,该方法首先找出最近邻即与测试样本相对接近的所有训练样本,然后使用这些最近邻的类标号来确定测试样本的类标号。

三、数据处理及操作过程(一)数据预处理方法1、“remove”属性列:数据集中属性“Dress_ID”对此实验来说为无意义的属性,因此在“Attributes”选项中勾选属性“Dress_ID”并单击“remove”,将该属性列去除,并保存新的数据集;2、离散化预处理:需要对数值型的属性进行离散化,该数据集中只有第3个属性“rating”和第13个属性“recommendation”为数值型,因此只对这两个属性离散化。

“recommendation”属性只有2个取值:0,1,因此用文本编辑器“Ultra Edit”或者写字板打开数据集并直接修改“Dress Attribute Data Set.arff”文件,把“@attribute recommendation numeric”改为“@attribute recommendation {0,1,}”,并保存;在“Explorer”中重新打开“Dress Attribute Data Set.arff”,选中“recommendation”属性后,右方的属性摘要中“Type”值变为“Nominal”。

在过滤器Filter中单击“choose”,出现树形图,单击“weka”--“Filters”--“unsupervised”--“attribute”--“discretize”,点击“Choose”右边的文本框进行参数设置,把“attribute Indices”右边改成“3”,计划将该属性分成3段,于是把“bins”改成“3”,其它参数不更改,点“OK”回到“Explorer”,单击“Apply”离散化后的数据如下所示:3、缺失值预处理:在过滤器Filter中单击“choose”,出现树形图,单击“weka”--“Filters”--“unsupervised”--“attribute”--“Replace Missing Values”,单击“Apply”。

在weka中可以看出该数据集中不存在缺失值,因此不必进行缺失值的预处理。

(二)参数设置(要求介绍每个参数的意义、取值范围、调整依据及最终的设置)1、数据集属性及其取值:(1)Dress_ID numeric:货号(2)Style:风格{Sexy,Casual,vintage,Brief,cute,bohemian,Novelty,Flare,party,sexy,work, OL,fashion}(3)Price:价格{Low,High,Average,Medium,very-high,low,high} (4)Rating:等级numeric(5)Size:尺寸{M,L,XL,free,S,small,s}(6)Season:季节{Summer,Automn,Spring,Winter,spring,winter,summer,Autumn} (7)Neck Line:领口{o-neck,v-neck,boat-neck,peterpan-collor,ruffled,turndowncollor,slash-n eck,mandarin-collor,open,sqare-collor,Sweetheart,sweetheart,Scoop,hal ter,backless,bowneck,NULL}(8)Sleeve Length:袖长{sleevless,Petal,full,butterfly,short,threequarter,halfsleeve,cap-sleeves,t urndowncollor,threequater,capsleeves,sleeveless,sleeevless,half,urndow ncollor,thressqatar,NULL,sleveless}(9)Waise line:腰围{empire,natural,null,princess,dropped}(10)Material:材料{null,microfiber,polyster,silk,chiffonfabric,cotton,nylon,other,milksilk,lin en,rayon,lycra,mix,acrylic,spandex,lace,modal,cashmere,viscos,knitting,s ill,wool,model,shiffon}(11)Fabric Type:布料类型{chiffon,null,broadcloth,jersey,other,batik,satin,flannael,worsted,woolen ,poplin,dobby,knitting,flannel,tulle,sattin,organza,lace,Corduroy,wollen, knitted,shiffon,terry}(12)Decoration:装饰{ruffles,null,embroidary,bow,lace,beading,sashes,hollowout,pockets,seq uined,applique,button,Tiered,rivet,feathers,flowers,pearls,pleat,crystal,r uched,draped,tassel,plain,none,cascading}(13)Pattern Type:图案类型{animal,print,dot,solid,null,patchwork,striped,geometric,plaid,leopard,fl oral,character,splice,leapord,none}(14)Recommendation:是否推荐numeric2、离散化预处理参数设置:(1)attribute Indices:属性下标。

选择要离散化的属性,将其下标号以逗号隔开;(2)bins:决定将数据离散化为几段;(3)desired weight of instances per interval:对等频离散化来说每个间隔所需的实例权重;(4)findNumBins:如果设置为True,则对于等距离离散化找到最优的段数,对等频离散化无作用;(5):ignoreClass:如果设置为True,则过滤器使用之前,没有设置class属性;(6)Invert Selection:集属性选择模式。

如果设置为False,只有选择(数字)范围内的属性将被离散的,否则只有非选定的属性将被离散;(6)Make Binary:如果设置为True,则变为二进制;(7)Use Equal Frequency:等频离散化,如果设置为true,则使用等频离散化,否则使用等距离离散化。

3、算法执行参数设置:(1)KNN:测试样本的最近邻的个数,默认为1,则使用1个最近邻进行分类;(2)cross Validate:交叉验证,如果设置为True,则使用交叉验证;(3)debug:调试,设置为true,则分类器可能在控制台输出另外的信息;默认False;(4)distance Weighting:如果设置为True,则使用距离加权;(5)mean Squared:均方差,默认为False;(6)nearest Neighbour Search Algorithm:最近邻的搜索算法;(7)window Size:窗口大小。

4、单击More Option按钮的参数:(1)Output model.:输出基于整个训练集的分类模型,从而模型可以被查看,可视化等。

该选项默认选中。

(2)Output per-class stats:输出每个class的准确度/反馈率(precision/recall)和正确/错误(true/false)的统计量。

该选项默认(3)Output evaluation measures:输出熵估计度量。

该选项默认没有选中。

(4)Output confusion matrix:输出分类器预测结果的混淆矩阵。

该选项默认选中。

(5)Store predictions for visualization:记录分类器的预测结果使得它们能被可视化表示。

(6)Output predictions:输出测试数据的预测结果。

在交叉验证时,实例的编号不代表它在数据集中的位置。

(7)Cost-sensitive evaluation:误差将根据一个价值矩阵来估计。

Set… 按钮用来指定价值矩阵。

(8)Random seed for xval / % Split:指定一个随即种子,当出于评价的目的需要分割数据时,它用来随机化数据。

5、右击运行结果显示的选项参数测试:(1)View in main window(查看主窗口)。

在主窗口中查看输出(2)View in separate window(查看不同的窗口)。

打开一个独立的新窗口来查看结果。

(3)Save result buffer(保存结果的缓冲区)。

弹出对话框来保存输出结果的文本文件。

(4)Load model(下载模式)。

从二进制文件中载入一个预训练模式对象。

(5)Save model (保存模式)。

相关主题