当前位置:文档之家› 数据挖掘实验(实验三-七)

数据挖掘实验(实验三-七)

实验三关联规则1. 实验目标•使用SSAS进行关联规则挖掘实验2. 实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。

3. 实验内容生成市场篮方案。

Adventure Works 的市场部希望改进公司的网站以促进越区销售。

在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。

这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。

通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。

4. 实验步骤(1) 创建市场篮挖掘模型结构1.在Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。

此时,系统将打开数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。

3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。

4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规则”,再单击“下一步”。

“选择数据源视图”页随即显示。

默认情况下,“可用数据源视图”下的Adventure Works DW 为选中状态。

5.单击“下一步”。

6.在“指定表类型”页上,选中vAssocSeqOrders表旁的“事例”复选框,选中vAssocSeqLineItems表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。

如下图所示视图的内容显示7.如下图设置输入输出列或多维如下8.“指定定型数据”页上,LineNumber旁边的“键”和ordernumber设为键。

9.选中Model列旁边的“输入”和“可预测”复选框。

单击“下一步”。

10.在“指定列的内容和数据类型”页上,单击“下一步”。

11.在“完成向导”页的“挖掘结构名称”中,键入Association。

12.在“挖掘模型名称”中,键入Association,再单击“完成”。

(2) 调整关联模型的参数和处理关联模型在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support(支持数)和Probability(概率,置信度)。

Support定义规则被视为有效前必须存在的事例百分比。

Probability定义关联被视为有效前必须存在的可能性。

调整关联模型的参数步骤如下:1.打开数据挖掘设计器的“挖掘模型”选项卡。

2.右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。

系统将打开“算法参数”对话框。

3.在“算法参数”对话框的“值”列中,设置以下参数:MINIMUM_PROBABILITY =0.1指定规则为True 的最小概率。

例如,如果将该值设置为0.5,则指定不生成概率低于50% 的规则。

MINIMUM_SUPPORT =100指定包含该项集的最小事例数,只有达到该数目,才能生成规则。

如果将该值设置为小于 1 的数,则最小事例数将通过其在总事例数中所占的百分比来加以指定。

如果将该值设置为大于 1 的整数,则指定最小事例数为必须包含该项集的事例绝对数。

如果内存有限,算法可能会增大此参数的值。

4.单击“确定”。

处理关联模型步骤如下:1.在Business Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结构和所有模型”。

系统将打开“处理挖掘结构- 关联”对话框。

2.单击“运行”。

系统将打开“处理进度”对话框,以显示有关模型处理的信息。

模型处理可能需要一些时间,具体时间取决于您的计算机。

3.处理完成之后,在“处理进度”和“处理挖掘结构- 关联”对话框中,单击“关闭”。

(3) 浏览市场篮模型使用数据挖掘设计器的“挖掘模型查看器”选项卡中的Microsoft 关联查看器浏览该模型。

浏览模型时,可以轻松地查看可能同时出现的产品,并可浏览项之间的关系。

还可以筛选出较弱的关联,并对新浮现的模式有一个总体的概念。

Microsoft 关联查看器包含三个选项卡:“项集”、“规则”和“依赖关系网络”。

“项集”选项卡“项集”选项卡显示与Microsoft 关联算法发现的项集相关的三种重要信息:支持度(发生项集的事务的数量)、大小(项集中项的数量)以及项集的实际构成。

根据算法参数的设置方式,算法可以生成大量的项集。

使用“项集”选项卡顶部的控件,可以筛选查看器,使其仅显示包含指定的最小支持度和项集大小的项集。

也可以使用“筛选项集”框来筛选查看器中显示的项集。

例如,若要仅查看包含有关Mountain-200 自行车信息的项集,可在“筛选项集”中输入Mountain-200。

您将在查看器中看到,只有包含“Mountain-200”字样的项集被显示。

查看器中返回的每个项集都包含有关销售Mountain-200 自行车事务的信息。

例如,在“支持度”列中包含值710 的项集表示:在所有事务中,710 个购买Mountain-200 自行车的人也购买了Sport-100 自行车。

“规则”选项卡“规则”选项卡显示与算法发现的规则相关的以下信息。

•概率:规则的“可能性”,定义为在给定左侧项的情况下右侧项的概率。

•重要性:importance(A->B)=probability(A->B)/probability(B)=P(AB)/P(A)P(B) ,类似支持度•用于度量规则的有用性,值越高则意味着规则越有用。

只看概率可能会产生误解。

例如,如果每个事务都包含一个x项,规则y预测x发生的概率为1,即x一定会发生。

即使规则的准确性很高,但这并未传达很多信息,因为不管y如何,每个事务都会包含x。

应该大于1•规则规则的定义。

像使用“项集”选项卡一样,可以筛选规则,以便仅显示最关心的规则。

例如,如果只想查看包含Mountain-200 自行车的规则,可在“筛选规则”框中输入Mountain-200。

查看器将仅显示包含“Mountain-200”字样的规则。

每条规则都可以根据事务中其他项的发生情况来预测某个项的发生情况。

例如,由第一个规则可知:如果一个人购买了Mountain-200 自行车和水壶,则此人还会购买Mountain 水壶套的概率为1。

“相关性网络”选项卡使用“相关性网络”选项卡,可以研究模型中不同项的交互。

查看器中的每个节点表示一个项;例如,Mountain-200 = Existing 节点表示事务中存在Mountain-200。

通过选择节点,可以使用选项卡底部的彩色图例来确定模型中的项与其他的项的相互确定关系。

滑块与规则的概率关联。

上下移动滑块可以筛选出弱关联。

例如,在“显示”框中,选择“仅显示属性名称”,再单击Mountain Bottle Cage节点。

查看器显示,Mountain 水壶套预测了水壶和Mountain-200 自行车,而水壶和Mountain-200 自行车也预测了Mountain 水壶套。

这意味着,这些项有可能同时在事务中出现。

也就是说,如果某个客户购买了自行车,则他也可能会购买水壶套和水壶。

5. 实验结果及问题讨论(1)根据实验结果给出市场部统一放置在网站的一个位置上的可能被集中购买的项的建议。

(2)写出自己对关联规则的理解。

实验四决策树模型1. 实验目标•使用SSAS进行决策树模型挖掘实验。

2. 实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。

3. 实验内容根据游戏三国志4武将数据,利用决策树分析,找出三国武将特性分布。

其中变量包含名称,统御、武力、智慧、政治、魅力、忠诚、国别,出身及身份。

(ch10-6.xls) 利用adventureworksdw的vtargetmail表中顾客基本情况分析顾客购买自行车的特征分布4. 实验步骤见教材及参考视频5. 实验结果及问题讨论(1)对实验结果进行分析,并对预测结果的准确性进行评价。

(2)决策树方法的基本思想是什么?实验五贝叶斯分类1. 实验目标•使用SSAS进行贝叶斯分类挖掘实验2. 实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。

3. 实验内容生成目标邮件方案,Adventure Works 的市场部希望通过向特定客户发送邮件的方式来提高销售量。

公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。

公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。

公司的数据库Adventure Works DW 包含一个现有客户列表和一个潜在的新客户列表。

创建一个目标邮件方案,包含决策树和贝叶斯分类挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。

4. 实验步骤创建用于目标邮件方案的挖掘结构(1)创建决策树模型1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”。

系统将打开数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。

在在“模型名称”中,键入TM_DecisionTree。

3.在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”。

4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。

5.单击“下一步”。

6.在“选择数据源视图”页上,请注意已默认选中Adventure Works DW。

在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。

7.单击“下一步”。

8.在“指定表类型”页上,选中vTargetMail表旁边“事例”列中的复选框,再单击“下一步”。

9.在“指定定型数据”页上,确保已选中CustomerKey列旁边Key列中的复选框。

如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。

10.。

当表示某列可预测时,将启用“建议”按钮。

单击“建议”打开“提供相关列建议”对话框,该对话框列出与可预测列关系最密切的列。

“提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。

值大于0.05 的列将被自动选中,以包括在模型中。

如果您同意这些建议,请单击“确定”,以便在向导中将所选列标记为输入列。

请单击“取消”,忽略这些建议。

11.选中以下各列旁边的“输入”复选框:o Ageo CommuteDistanceo EnglishEducationo EnglishOccupationo Gendero HouseOwnerFlago MaritalStatuso NumberCarsOwnedo NumberChildrenAtHomeo Regiono TotalChildreno YearlyIncome使用Shift 键可以同时选中多列。

相关主题