实验一Clementine12.0数据挖掘分析方法与应用一、[实验目的]熟悉Clementine12.0进行数据挖掘的基本操作方法与流程,对实际的问题能熟练利用Clementine12.0开展数据挖掘分析工作。
二、[知识要点]1、数据挖掘概念;2、数据挖掘流程;3、Clementine12.0进行数据挖掘的基本操作方法。
三、[实验内容与要求]1、熟悉Clementine12.0操作界面;2、理解工作流的模型构建方法;3、安装、运行Clementine12.0软件;4、构建挖掘流。
四、[实验条件]Clementine12.0软件。
五、[实验步骤]1、主要数据挖掘模式分析;2、数据挖掘流程分析;3、Clementine12.0下载与安装;4、Clementine12.0功能分析;5、Clementine12.0决策分析实例。
六、[思考与练习]1、Clementine12.0软件进行数据挖掘的主要特点是什么?2、利用Clementine12.0构建一个关联挖掘流(购物篮分析)。
实验部分一、Clementine简述Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。
1999年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点。
作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。
强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。
同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
为了解决各种商务问题,企业需要以不同的方式来处理各种类型迥异的数据,相异的任务类型和数据类型就要求有不同的分析技术。
Clementine提供最出色、最广泛的数据挖掘技术,确保可用最恰当的分析技术来处理相应的问题,从而得到最优的结果以应对随时出现的商业问题。
即便改进业务的机会被庞杂的数据表格所掩盖,Clementine也能最大限度地执行标准的数据挖掘流程,为您找到解决商业问题的最佳答案。
为了推广数据挖掘技术,以解决越来越多的商业问题,SPSS和一个从事数据挖掘研究的全球性企业联盟制定了关于数据挖掘技术的行业标准--CRISP-DM (Cross-Industry Standard Process for Data Mining)。
与以往仅仅局限在技术层面上的数据挖掘方法论不同,CRISP-DM把数据挖掘看作一个商业过程,并将其具体的商业目标映射为数据挖掘目标。
最近一次调查显示,50%以上的数据挖掘工具采用的都是CRISP-DM的数据挖掘流程,它已经成为事实上的行业标准。
Clementine完全支持CRISP-DM标准,这不但规避了许多常规错误,而且其显著的智能预测模型有助于快速解决出现的问题。
在数据挖掘项目中使用Clementine应用模板(CATs)可以获得更优化的结果。
应用模板完全遵循CRISP-DM标准,借鉴了大量真实的数据挖掘实践经验,是经过理论和实践证明的有效技术,为项目的正确实施提供了强有力的支撑。
Clementine中的应用模板包括:(1)CRM CAT--针对客户的获取和增长,提高反馈率并减少客户流失;(2)Web CAT--点击顺序分析和访问行为分析;(3)cTelco CAT--客户保持和增加交叉销售;(4)Crime CAT--犯罪分析及其特征描述,确定事故高发区,联合研究相关犯罪行为;(5)Fraud CAT--发现金融交易和索赔中的欺诈和异常行为;(6)Microarray CAT--研究和疾病相关的基因序列并找到治愈手段。
利用Clementine,可以在如下几方面提供解决方案:(1)公共部门。
各国政府都使用数据挖掘来探索大规模数据存储,改善群众关系,侦测欺诈行为(譬如洗黑钱和逃税),检测犯罪行为和恐怖分子行为模式以及进一步扩展电子政务领域。
(2)CRM。
客户关系管理可以通过对客户类型的智能分类和客户流失的准确预测而得到提高。
Clementine 已成功帮助许多行业的企业吸引并始终保有最有价值的客户。
(3)Web 挖掘。
Clementine 包含的相关工具具有强大的顺序确定和预测算法,对于准确发现网站浏览者的行为以及提供精确满足浏览者需求的产品或信息而言,这些工具是不可或缺的。
从数据准备到构建模型,全部的数据挖掘过程均可在Clementine 内部操控。
(4)药物发现和生物信息学。
通过对由试验室自动操作获得的大量数据进行分析,数据挖掘有助于药物和基因组的研究。
聚类和分类模型帮助从化合物库中找出线索,与此同时顺序检测则有助于模式的发现。
二、Clementine数据挖掘的基本思想数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分析方法。
随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法。
它结合了人工智能(AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。
Clementine为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便。
除了这些,Clementine还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工作也变得很清晰。
Clementine 遵循CRISP-DM Model(Cross Industry Standard Process for Data Mining,数据挖掘跨行业标准流程),具体如图所示。
图4.1 CRISP-DM process model如图可知,CRISP-DM Model包含了六个步骤,并用箭头指示了步骤间的执行顺序。
这些顺序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行。
通过对该步骤的执行,我们也涵盖了数据挖掘的关键部分。
1.商业理解商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
Clementine的可视化操作界面使得企业可以更容易地把业务知识应用到数据挖掘项目中。
此外,使用针对特定商业目标的Clementine应用模板(CATs),可以在数据挖掘工作中使用成熟的、最佳的方法。
CATs使用的样本数据可以以平面文件或者关系型数据库表的形式安装。
■ 客户关系管理(CRM)CAT*■ 电信CAT*■ 欺诈探测CAT*■ 微阵列CAT*■ 网页挖掘CAT* (需要购买Web Mining for Clementine)2.数据理解数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。
使用Clementine,可以做到:■ 使用Clementine的数据审核节点获取对数据的初步认识;■ 通过图形、统计汇总或数据质量评估快速浏览数据;■ 创建基本的图表类型,如直方图、分布图、线形图和点状图;■ 在图形面板节点中通过自动帮助方式创建比过去更多的基本图形及高级图形;■ 通过表格定制节点轻松创建复杂的交叉表;■ 编辑图表使分析结果交流变得更容易;■ 通过可视化联接技术分析数据的相关性;■ 与数据可视化互动,可在图形中选择某个区域或部分数据,然后对选择的数据部分再进行观察或在后续分析中使用这些信息;■ 在Clementine中直接使用SPSS统计分析、图形以及报表功能。
3.数据准备在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。
选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。
运用Clementine,可以做到:(1)访问数据–---结构化(表格) 数据■ 通过SPSS Data Access Pack访问支持ODBC的数据源,包括IBM DB2,Oracle,Microsoft SQL Server,Informix和Sybase数据库;■ 导入用分隔符分隔和固定宽度的文件,任何SPSS的文件,SAS 6, 7, 8, 和9文件;■ 在读取Excel文件时,可以限定工作表和数据范围。
–---非结构化(原文) 数据■ 使用Text Mining for Clementine自动从任何类型的文本中提取各种概念。
– ---网站数据■ 使用Web Mining for Clementine自动从网络日志中提取网站上的事件。
–----调查数据■ 直接访问存储在Dimensions数据模型或Dimensions*产品中的数据文件。
–--- 数据输出■ 可以输出为分隔符分隔,固定宽度的文件,所有主流数据库数据,Microsoft Excel,SPSS,和SAS 6,7,8和9文件;■ 使用Excel导出节点导出成XLS格式;■ 为市场调研输出数据到Dimensions中。
(2)各种数据清洗选项–移出或者替换无效数据–使用预测模型自动填充缺失值–自动侦测及处理异常值或极值(3)数据处理–--- 完整的记录和字段操作,包括:■ 字段过滤、命名、导出、分段、重新分类、值填充以及字段重排;■ 对记录进行选择、抽样(包括簇与分层抽样)、合并(内连接、完全外连接、部分外连接以及反连接)和追求;排序、聚合和平衡;■ 数据重新结构化,包括转置;■ 分段节点能够根据预测值对数字值进行最优分段;■ 使用新的字符串函数:字符串创建、取子字符串、替换、查询和匹配、空格移除以及截断;■ 使用时间区间节点为时间序列分析做准备;–--- 将数据拆分成训练、测试和验证集。
–--- 对多个变量自动进行数据转换。
■ 可视化的标准数据转换–---数据转换在Clementine中直接使用SPSS数据管理和转换功能;■ RFM评分:对客户交易进行汇总,生成与最近交易日期、交易频度以及交易金额相关的评分,并对这些评分进行组合,从而完成完整的RFM分析过程。
4.建模建模过程也是数据挖掘中一个比较重要的过程。
需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。
Clementine提供了非常广泛的数据挖掘算法以及更多高级功能,从而帮助企业从数据中得到尽可能最优的结果。