当前位置:文档之家› 数据挖掘算法

数据挖掘算法

数据挖掘算法(Analysis Services – 数据挖掘)
“数据挖掘算法”是创建数据挖掘模型的机制。

为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。

算法使用此分析的结果来定义挖掘模型的参数。

然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

算法创建的挖掘模型可以采用多种形式,这包括:
•说明在交易中如何将产品分组到一起的一组规则。

•预测特定用户是否会购买某个产品的决策树。

•预测销量的数学模型。

•说明数据集中的事例如何相关的一组分类。

MicrosoftSQL ServerAnalysis Services 提供了几个供您在数据挖掘解决方案中使用的算法。

这些算法是所有可用于数据挖掘的算法的子集。

您还可以使用符合OLE DB for Data Mining 规范的第三方算法。

有关第三方算法的详细信息,请参阅插件算法。

数据挖掘算法的类型
Analysis Services 包括了以下算法类型:
•分类算法基于数据集中的其他属性预测一个或多个离散变量。

分类算法的一个示例是Microsoft 决策树算法。

•回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。

回归算法的一个示例是Microsoft 时序算法。

•分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。

分割算法的一个示例是Microsoft 聚类分析算法。

•关联算法查找数据集中的不同属性之间的相关性。

这类算法最常见的应用是创建可用于市场篮分析的关联规则。

关联算法的一个示例是Microsoft 关联算法。

•顺序分析算法汇总数据中的常见顺序或事件,如Web 路径流。

顺序分析算法的一个示例是Microsoft 顺序分析和聚类分析算法。

应用算法
为特定的业务任务选择最佳算法很有挑战性。

您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。

例如,您不仅可以将Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。

您也不必单独使用算法。

在一个数据挖掘解决方案中,可以使用一些算法来研究数据,然后使用其他算法,基于这些数据预测特定结果。

例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。

可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。

挖掘模型可以预测值、生成数据摘要并查找隐含的相关性。

为帮助您选择用于数据挖掘解决方案的算法,下表给出了可为特定的任务使用哪些算法的建议。

因为各个模型返回不同类型的结果,所以Analysis Services 为每个算法提供单独的查看器。

在Analysis Services 中浏览挖掘模型时,数据挖掘设计器为该模型选用相应的模型查看器,该模型显示在数据挖掘设计器的“挖掘模型查看器”选项卡上。

有关详细信息,请参阅查看数据挖掘模型。

算法详细信息
下表提供了适用于每种算法的信息类型的链接:
•基本算法说明提供了对算法用途和工作原理的基本说明,以及该算法非常有用的业务方案。

•技术参考列出了可在模型中设置以便控制算法行为并自定义结果的参数。

提供有关算法实现、性能提示和数据要求的其他技术详细信息。

•查询模型给出了可用于每个模型类型的查询的示例。

可以查询模型以了解该模型中的模式的更多信息,或根据这些模式做出预测。

•挖掘模型内容说明了如何在所有模型类型的通用结构中存储信息,并介绍了如何解释这些信息。

生成模型后,可以使用BI Development Studio 中提供的查看器浏览该模型,或者可以编写查询以使用DMX 直接从该模型内容返回信息。

相关主题