当前位置：文档之家› 《数据挖掘》结课报告

《数据挖掘》结课报告

《数据挖掘》结课报告--基于k-最近邻分类方法的连衣裙属性数据集的研究报告(2013--2014 学年第二学期)学院：专业：班级：学号：姓名：指导教师：二〇一四年五月二十四日一、研究目的与意义（介绍所选数据反应的主题思想及其研究目的与意义）1、目的（1）熟悉weka软件环境；（2）掌握数据挖掘分类模型学习方法中的k-最近邻分类方法；（3）在weka中以“Dress Attribute DataSet”为例，掌握k-最近邻分类算法的相关方法；（4）取不同的K值，采用不同的预测方法，观察结果，达到是否推荐某款连衣裙的目的，为企业未来的规划发展做出依据。

2、意义此数据集共有14个属性，500个实例，包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况，按照分类模型学习方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子，对发展市场的扩大及企业的发展战略具有重要意义。

二、技术支持（介绍用来进行数据挖掘、数据分析的方法及原理）1、原理：k-最近邻分类算法是一种基于实例的学习方法，不需要事先对训练数据建立分类模型，而是当需要分类未知样本时才使用具体的训练样本进行预测，通过在训练集中找出测试集的K个最近邻，来预测估计测试集的类标号；2、方法：k-最近邻方法是消极学习方法的典型代表，其算法的关键技术是搜索模式空间，该方法首先找出最近邻即与测试样本相对接近的所有训练样本，然后使用这些最近邻的类标号来确定测试样本的类标号。

三、数据处理及操作过程（一）数据预处理方法1、“remove”属性列：数据集中属性“Dress_ID”对此实验来说为无意义的属性，因此在“Attributes”选项中勾选属性“Dress_ID”并单击“remove”，将该属性列去除，并保存新的数据集；2、离散化预处理：需要对数值型的属性进行离散化，该数据集中只有第3个属性“rating”和第13个属性“recommendation”为数值型，因此只对这两个属性离散化。

“recommendation”属性只有2个取值：0，1，因此用文本编辑器“Ultra Edit”或者写字板打开数据集并直接修改“Dress Attribute Data Set.arff”文件，把“@attribute recommendation numeric”改为“@attribute recommendation {0,1,}”，并保存；在“Explorer”中重新打开“Dress Attribute Data Set.arff”，选中“recommendation”属性后，右方的属性摘要中“Type”值变为“Nominal”。

在过滤器Filter中单击“choose”,出现树形图，单击“weka”--“Filters”--“unsupervised”--“attribute”--“discretize”，点击“Choose”右边的文本框进行参数设置，把“attribute Indices”右边改成“3”，计划将该属性分成3段，于是把“bins”改成“3”，其它参数不更改，点“OK”回到“Explorer”，单击“Apply”离散化后的数据如下所示：3、缺失值预处理：在过滤器Filter中单击“choose”,出现树形图，单击“weka”--“Filters”--“unsupervised”--“attribute”--“Replace Missing Values”，单击“Apply”。

在weka中可以看出该数据集中不存在缺失值，因此不必进行缺失值的预处理。

（二）参数设置（要求介绍每个参数的意义、取值范围、调整依据及最终的设置）1、数据集属性及其取值：（1）Dress_ID numeric：货号（2）Style：风格{Sexy,Casual,vintage,Brief,cute,bohemian,Novelty,Flare,party,sexy,work, OL,fashion}（3）Price：价格{Low,High,Average,Medium,very-high,low,high} （4）Rating：等级numeric（5）Size：尺寸{M,L,XL,free,S,small,s}（6）Season：季节{Summer,Automn,Spring,Winter,spring,winter,summer,Autumn} （7）Neck Line：领口{o-neck,v-neck,boat-neck,peterpan-collor,ruffled,turndowncollor,slash-n eck,mandarin-collor,open,sqare-collor,Sweetheart,sweetheart,Scoop,hal ter,backless,bowneck,NULL}（8）Sleeve Length：袖长{sleevless,Petal,full,butterfly,short,threequarter,halfsleeve,cap-sleeves,t urndowncollor,threequater,capsleeves,sleeveless,sleeevless,half,urndow ncollor,thressqatar,NULL,sleveless}（9）Waise line：腰围{empire,natural,null,princess,dropped}（10）Material：材料{null,microfiber,polyster,silk,chiffonfabric,cotton,nylon,other,milksilk,lin en,rayon,lycra,mix,acrylic,spandex,lace,modal,cashmere,viscos,knitting,s ill,wool,model,shiffon}（11）Fabric Type：布料类型{chiffon,null,broadcloth,jersey,other,batik,satin,flannael,worsted,woolen ,poplin,dobby,knitting,flannel,tulle,sattin,organza,lace,Corduroy,wollen, knitted,shiffon,terry}（12）Decoration：装饰{ruffles,null,embroidary,bow,lace,beading,sashes,hollowout,pockets,seq uined,applique,button,Tiered,rivet,feathers,flowers,pearls,pleat,crystal,r uched,draped,tassel,plain,none,cascading}（13）Pattern Type：图案类型{animal,print,dot,solid,null,patchwork,striped,geometric,plaid,leopard,fl oral,character,splice,leapord,none}（14）Recommendation：是否推荐numeric2、离散化预处理参数设置：（1）attribute Indices：属性下标。

选择要离散化的属性，将其下标号以逗号隔开；（2）bins：决定将数据离散化为几段；（3）desired weight of instances per interval：对等频离散化来说每个间隔所需的实例权重；（4）findNumBins：如果设置为True，则对于等距离离散化找到最优的段数，对等频离散化无作用；（5）：ignoreClass：如果设置为True，则过滤器使用之前，没有设置class属性；（6）Invert Selection：集属性选择模式。

如果设置为False，只有选择（数字）范围内的属性将被离散的，否则只有非选定的属性将被离散；（6）Make Binary：如果设置为True，则变为二进制；（7）Use Equal Frequency:等频离散化，如果设置为true，则使用等频离散化，否则使用等距离离散化。

3、算法执行参数设置：（1）KNN:测试样本的最近邻的个数，默认为1，则使用1个最近邻进行分类；（2）cross Validate：交叉验证，如果设置为True，则使用交叉验证；（3）debug：调试，设置为true，则分类器可能在控制台输出另外的信息；默认False；（4）distance Weighting：如果设置为True，则使用距离加权；（5）mean Squared：均方差，默认为False；（6）nearest Neighbour Search Algorithm：最近邻的搜索算法；（7）window Size：窗口大小。

4、单击More Option按钮的参数：（1）Output model.：输出基于整个训练集的分类模型，从而模型可以被查看，可视化等。

该选项默认选中。

（2）Output per-class stats：输出每个class的准确度/反馈率（precision/recall）和正确/错误（true/false）的统计量。

该选项默认（3）Output evaluation measures：输出熵估计度量。

该选项默认没有选中。

（4）Output confusion matrix：输出分类器预测结果的混淆矩阵。

该选项默认选中。

（5）Store predictions for visualization：记录分类器的预测结果使得它们能被可视化表示。

（6）Output predictions：输出测试数据的预测结果。

在交叉验证时，实例的编号不代表它在数据集中的位置。

（7）Cost-sensitive evaluation：误差将根据一个价值矩阵来估计。

Set… 按钮用来指定价值矩阵。

（8）Random seed for xval / % Split：指定一个随即种子，当出于评价的目的需要分割数据时，它用来随机化数据。

5、右击运行结果显示的选项参数测试：（1）View in main window(查看主窗口)。

在主窗口中查看输出（2）View in separate window(查看不同的窗口)。

打开一个独立的新窗口来查看结果。

（3）Save result buffer(保存结果的缓冲区)。

弹出对话框来保存输出结果的文本文件。

（4）Load model(下载模式)。

从二进制文件中载入一个预训练模式对象。

（5）Save model (保存模式)。

e商务文档

《数据挖掘》结课报告

相关文档推荐：