当前位置:文档之家› 数据挖掘-决策树

数据挖掘-决策树

创建Analysis Services 项目更改存储数据挖掘对象的实例创建数据源视图创建用于目标邮件方案的挖掘结构创建目标邮件方案的第一步是使用Business Intelligence Development Studio 中的数据挖掘向导创建新的挖掘结构和决策树挖掘模型。

在本任务中,您将基于Microsoft 决策树算法创建初始挖掘结构。

若要创建此结构,需要首先选择表和视图,然后标识将用于定型的列和将用于测试的列1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。

2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。

3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。

4.在“创建数据挖掘结构”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。

5.单击“下一步”。

6.在“选择数据源视图”页上的“可用数据源视图”窗格中,选择Targeted Mailing。

可单击“浏览”查看数据源视图中的各表,然后单击“关闭”返回该向导。

7.单击“下一步”。

8.在“指定表类型”页上,选中vTargetMail 的“事例”列中的复选框以将其用作事例表,然后单击“下一步”。

稍后您将使用ProspectiveBuyer 表进行测试,不过现在可以忽略它。

9.在“指定定型数据”页上,您将为模型至少标识一个可预测列、一个键列以及一个输入列。

选中BikeBuyer行中的“可预测”列中的复选框。

10.单击“建议”打开“提供相关列建议”对话框。

只要选中至少一个可预测属性,即可启用“建议”按钮。

“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。

显著相关的列(置信度高于95%)将被自动选中以添加到模型中。

查看建议,然后单击“取消”忽略建议。

11.确认在CustomerKey行中已选中“键”列中的复选框。

12.选中以下行中“输入”列中的复选框。

可通过下面的方法来同时选中多个列:突出显示一系列单元格,然后在按住Ctrl 的同时选中一个复选框。

1.AgemuteDistance3.EnglishEducation4.EnglishOccupation5.Gender6.GeographyKey7.HouseOwnerFlag8.MaritalStatus9.NumberCarsOwned10.NumberChildrenAtHome11.Region12.TotalChildren13.YearlyIncome13.在该页的最左侧的列中,选中以下行中的复选框。

1.AddressLine12.AddressLine23.DateFirstPurchase4.EmailAddress5.FirstNamestName确保这些行仅选择了左侧列中的复选标记。

这些列将添加到结构中,但不会包含在模型中。

但是,模型生成后,它们将可用于钻取和测试。

有关钻取的详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)。

14.单击“下一步”。

检查和修改每列的内容类型和数据类型15.在“指定列的内容和数据类型”页上,单击“检测”运行用来确定每列的默认数据类型和内容类型的算法。

16.查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。

通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。

例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的。

17.单击“下一步”。

指定测试集1.在“创建测试集”页上,将“测试数据百分比”保留其默认值:30。

2.对于“测试数据集中的最大事例数”,请键入1000。

3.单击“下一步”。

指定钻取可以针对模型和结构启用钻取。

该窗口中的复选框针对命名模型启用钻取,并允许您从用来为模型定型的模型事例检索详细信息。

如果基础挖掘结构也已经配置为允许进行钻取,则可以从模型事例和挖掘结构返回详细信息(其中包括挖掘模型中所不包含的列)。

有关详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)命名模型和结构并指定钻取1.在“完成向导”页上的“挖掘结构名称”中,键入TargetedMailing。

2.在“挖掘模型名称”中,键入TM_Decision_Tree。

3.选中“允许钻取”复选框。

4.查看“预览”窗格。

请注意,仅显示出那些选作“键”、“输入”或“可预测”的列。

您选择的其他列(例如,AddressLine1)不能用于生成模型,但是将在基础结构中可用,您可以在处理和部署模型之后查询这些列。

创建聚类分析挖掘模型1.切换到Business Intelligence Development Studio 中数据挖掘设计器的“挖掘模型”选项卡。

请注意,设计器显示两列,一列是挖掘结构,另一列是在前一课中创建的TM_Decision_Tree挖掘模型。

2.右键单击“结构”列,选择“新建挖掘模型”。

3.在“新建挖掘模型”对话框中的“模型名称”中,键入TM_Clustering。

4.在“算法名称”中,选择“Microsoft 聚类分析”。

5.单击“确定”。

新模型现在显示在数据挖掘设计器的“挖掘模型”选项卡中。

此模型是用Microsoft 聚类分析算法生成的,它将具有相似特征的客户进行分类并预测每个分类的自行车购买行为。

虽然您可以修改新模型的列用法和属性,但在本教程中不需要对TM_Clustering模型进行任何更改。

创建Naive Bayes 挖掘模型1.在数据挖掘设计器的“挖掘模型”选项卡中,右键单击“结构”列,并选择“新建挖掘模型”。

2.在“新建挖掘模型”对话框中的“模型名称”下,键入TM_NaiveBayes。

3.在“算法名称”中,选择Microsoft Naive Bayes,再单击“确定”。

此时将显示一条消息,说明Microsoft Naive Bayes 算法不支持Age和Yearly Income列,这些都是连续列。

4.单击“是”,以确认此消息并继续下面的操作。

设置HoldoutSeed1.在Business Intelligence Development Studio 的数据挖掘设计器中,单击“挖掘结构”选项卡或“挖掘模型”选项卡。

Targeted Mailing MiningStructure 显示在“属性”窗格中。

2.确保按F4可以打开“属性”窗格。

3.确保CacheMode已设置为KeepTrainingCases。

4.为HoldoutSeed输入12。

部署并处理模型在数据挖掘设计器中,可以处理挖掘结构、与挖掘结构关联的特定挖掘模型,或者结构以及与该结构关联的所有模型。

在本任务中,我们将同时处理结构和所有模型。

部署项目并处理所有挖掘模型1.在“挖掘模型”菜单上选择“处理挖掘结构和所有模型”。

如果更改了结构,系统将提示您在处理模型之前生成和部署项目。

单击“是”。

2.在“处理挖掘结构- Targeted Mailing”对话框中单击“运行”。

“处理进度”对话框将打开以显示有关模型处理的详细信息。

模型处理可能需要一些时间,具体取决于您的计算机。

3.模型处理完成后,在“处理进度”对话框中单击“关闭”。

4.在“处理挖掘结构 - <结构>”对话框中单击“关闭”。

在“决策树”选项卡中浏览模型1.在“数据挖掘设计器”中,选择“挖掘模型查看器”选项卡。

默认情况下,设计器将打开添加到结构中的第一个模型(在本例中为TM_Decision_Tree)。

2.使用放大镜按钮调整树的显示大小。

默认情况下,Microsoft 树查看器仅显示树的前三个级别。

如果树级别不到三个,则查看器仅显示现有级别。

可以使用“显示级别”滑块或“默认扩展”列表查看更多级别。

3.将“显示级别”滑到第四条。

4.将“背景”值更改为1。

通过更改“背景”设置,可以迅速查看每个节点中[Bike Buyer] 的目标值为1的事例的数量。

请注意,在这种特定的情况下,每个事例均表示一个客户。

值1指示该客户之前购买了自行车;值0指示该客户尚未购买自行车。

节点的底纹颜色越深,节点中具有目标值的事例所占的百分比越大。

5.将光标放在标记为“全部”的节点上。

将出现显示以下信息的工具提示:∙事例总数∙非自行车购买者事例的数量∙自行车购买者事例的数量∙缺少[Bike Buyer] 值的事例的数量或者,将光标放在树中的任何节点上,查看从上级节点到达该节点所需的条件。

还可以在“挖掘图例”中查看同样的信息。

6.单击“Age >=34 且< 41”的节点。

直方图将显示为一个穿过该节点的窄水平条,并表示此年龄范围中以前买过自行车的客户(粉色)和没有买过自行车的客户(蓝色)的分布情况。

查看器显示:没有汽车或者有一辆汽车、年龄在34 到40 的客户有可能购买自行车。

再进一步考察发现,实际年龄在38 到40 的客户购买自行车的可能性会增加。

由于您在创建结构和模型时启用了钻取,因此,可以从模型事例和挖掘结构中检索详细的信息,其中包括挖掘模型中所不包含的列(例如,emailAddress 和FirstName)。

有关详细信息,请参阅针对挖掘模型和挖掘结构使用钻取(Analysis Services –数据挖掘)。

钻取到事例数据1.右键单击某个节点,然后依次选择“钻取”和“仅限模型列”。

每个定型事例的详细信息将以电子表格方式显示。

这些详细信息来自您在生成挖掘结构时选作事例表的vTargetMail 视图。

2.右键单击某个节点,然后依次选择“钻取”和“模型和结构列”。

将显示同一个电子表格,并在末尾处附加结构列。

“依赖关系网络”选项卡“依赖关系网络”选项卡显示决定挖掘模型预测能力的各个属性之间的关系。

依赖关系网络查看器进一步证实了我们的发现:年龄和地区是预测自行车购买行为的重要因素。

在“依赖关系网络”选项卡中浏览模型1.单击Bike Buyer节点以确定它的依赖关系。

依赖关系网络的中间节点(Bike Buyer) 表示挖掘模型中的可预测属性。

粉色阴影指示所有属性都会对自行车购买行为产生影响。

2.调整“所有链接”滑块可确定影响最大的属性。

向下滑动滑块时,将只保留对[Bike Buyer] 列影响最大的属性。

通过调整滑块,可以发现年龄和地区是预测个人自行车购买行为的最主要因素Microsoft 聚类分析算法将事例分组为包含类似特征的分类。

在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。

Microsoft 分类查看器提供了以下选项卡,用于浏览聚类分析挖掘模型:以下部分介绍如何选择适当的查看器以及如何浏览其他挖掘模型。

相关主题