数据挖掘的实现过程摘要关键词:数据挖掘挖掘过程数据模型应用领域目录一.数据挖掘的定义及发展1.数据挖掘的定义所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
2.数据挖掘的发展需要是发明之母。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。
获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
数据挖掘的发展主要包括以下四个阶段:第一阶段:电子邮件阶段这个阶段可以认为是从70年代开始,平均的通讯量以每年几倍的速度增长。
第二阶段:信息发布阶段从1995年起,以Web技术为代表的信息发布系统,爆炸式地成长起来,成为目前Internet的主要应用。
中小企业如何把握好从“粗放型”到“精准型”营销时代的电子商务。
第三阶段: EC(Electronic Commerce),即电子商务阶段EC在美国也才刚刚开始,之所以把EC列为一个划时代的东西,是因为Internet的最终主要商业用途,就是电子商务。
同时反过来也可以说,若干年后的商业信息,主要是通过Internet传递。
Internet即将成为我们这个商业信息社会的神经系统。
1997年底在加拿大温哥华举行的第五次亚太经合组织非正式首脑会议(APEC)上美国总统克林顿提出敦促各国共同促进电子商务发展的议案,其引起了全球首脑的关注,IBM、HP和Sun等国际著名的信息技术厂商已经宣布1998年为电子商务年。
第四阶段:全程电子商务阶段随着SaaS(Software as a service)软件服务模式的出现,软件纷纷登陆互联网[5],延长了电子商务链条,形成了当下最新的“全程电子商务”概念模式。
二.数据挖掘的实现过程数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。
过程中各步骤的大体内容如下:(1). 确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.(2). 数据准备1)、数据的选择搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.2)、数据的预处理研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.3)、数据的转换将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.(3). 数据挖掘对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.(4). 结果分析解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.(5). 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去.生据挖掘是从大型数据集中发现可行信息的过程。
数据挖掘使用数学分析来派生存在于数据中的模式和趋势。
通常,由于这些模式的关系过于复杂或涉及数据过多,因此使用传统数据浏览无法发现这些模式。
这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。
成挖掘模型是大型过程的一部分,此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。
此过程可以使用下列六个基本步骤进行定义:1.定义问题2.准备数据3.浏览数据4.生成模型5.浏览和验证模型6.部署和更新模型1.定义问题:该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。
这些任务转换为下列问题:∙您在查找什么?您要尝试找到什么类型的关系?∙您要尝试解决的问题是否反映了业务策略或流程?∙您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联?∙您要尝试预测哪个结果或属性?∙您具有什么类型的数据以及每列中包含什么类型的信息?或者如果有多个表,则表如何关联?您是否需要执行任何清除、聚合或处理以使数据可用?∙数据如何分布?数据是否具有季节性性质?数据是否可以准确反映业务流程?若要回答这些问题,可能必须进行数据可用性研究,必须调查业务用户对可用数据的需求。
如果数据不支持用户的需求,则还必须重新定义项目。
此外,还需要考虑如何将模型结果纳入用于度量业务进度的关键绩效指标(KPI)。
2.准备数据:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.3.浏览数据必须了解数据,以便在创建挖掘模型时作出正确的决策。
浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。
借助您自己对业务问题的理解来浏览数据,您可以确定数据集是否包含缺陷数据,随后您可以设计用于解决该问题的策略或者更深入地理解业务的典型行为。
4.生成模型:在处理结构和模型之前,数据挖掘模型也只是一个容器,它指定用于输入的列、要预测的属性以及指示算法如何处理数据的参数。
处理模型通常称为“定型”。
定型表示向结构中的数据应用特定数学算法以便提取模式的过程。
在定型过程中找到的模式取决于选择的定型数据、所选算法以及如何配置该算法。
5.浏览和验证模型在将模型部署到生产环境之前,您需要测试模型的性能。
此外,在生成模型时,您通常需要使用不同配置创建多个模型,并对所有这些模型进行测试,以便查看哪个模型为您的问题和数据生成最佳结果。
7.部署和更新模型当生产环境中部署了挖掘模型之后,便可根据您的需求执行许多任务。
下面是一些可以执行的任务:∙使用这些模型创建预测,您以后可以使用这些预测进行业务决策。
SQL Server 提供可用于创建预测查询的 DMX 语言以及帮助生成查询的预测查询生成器。
有关详细信息,请参阅数据挖掘扩展插件 (DMX) 参考。
∙创建内容查询以检索模型中的统计信息、规则或公式。
有关详细信息,请参阅数据挖掘查询。
∙直接将数据挖掘功能嵌入到应用程序。
您可以包括含有一组对象的分析管理对象 (AMO),应用程序可使用这组对象创建、更改、处理以及删除挖掘结构和挖掘模型。
另外,可以直接将 XML for Analysis (XMLA) 消息发送到 Analysis Services 实例。
有关详细信息,请参阅Development(Analysis Services - Data Mining)。
∙使用 Integration Services 创建一个包,在这个包中,挖掘模型用于将传入数据合理地分离到多个表中。
例如,如果数据库不断地通过潜在客户进行更新,则可以结合使用挖掘模型和 Integration Services 将传入数据拆分为可能购买产品的客户和不可能购买产品的客户。
有关详细信息,请参阅Typical Uses of Integration Services。
∙创建可让用户直接对现有挖掘模型进行查询的报表。
有关详细信息,请参阅SQL Server Data Tools 中的 Reporting Services (SSDT)。
∙在查看和分析后更新模型。
任何更新都要求您重新处理该模型。
有关详细信息,请参阅处理数据挖掘对象。
∙随着组织传入的数据不断增多,应将动态更新模型并进行一致更改(以便提高解决方案的效率)作为部署策略的一部分。
有关详细信息,请参阅管理数据挖掘解决方案和对象。
三.数据挖掘的应用领域目前擞据挖掘的应用领域包括以下八个方面:金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业1.信用卡公司:信用卡公司可使用数据探勘来增加信用卡的应用,做购买授权决定、分析持卡人的购买行为、并侦测诈骗行为,成功的案例有Amercian Express 及Citibank.2.零售商:了解顾客购买行为及偏好对零售商的策略来说是必需的,数据探勘可以提供所需要的信息,像菜篮分析(MBA)或采购篮分析(SBA),利用电子销售点(EPOS)数据,并运用其结果来极力投入有效的促销及广告,有些商店也会应用数据探勘技术来侦测收银员诈骗的行为,成功的案例有Wal-Mart及Victoria's Secret3.金融服务机构:证券分析师广泛使用数据探勘来分析大量的财务数据以建立交易及风险模式来发展投资策略。
许多公司的财务部门已经试着去使用数据探勘的产品,而且都有不错的效果.4.银行:虽然数据探勘已经显得对银行有非常大的潜力但这仍是在起步而已,大约只有11% 的银行懂得使用数据仓储来促进数据探勘的活动,银行应该以他们自有的能力来搜集并分析详细的顾客信息,然后整合那些结果成为营销策略,银行也可使用数据探勘以识别顾客的贷款活动、调整金融商品以符合顾客需求、寻找新的顾客、及加强顾客服务,一个成功的案例像美国银行,较小的银行因其有限的资源及技术,可以委外来进行数据探勘及数据仓储活动.5.电话销售及直销:电话销售及直销公司因使用数据探勘已节省许多金钱并且能够精确的取得目标顾客,电话销售公司现在不只能够减少通话数而且可以增加成功通话的比率。
直销公司正依顾客过去的购买数据及地理数据来配置及邮寄他们的产品目录,而直效营销也可利用Data Mining分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的。
6.航空业:当航空业者不断的增加,竞争也愈来愈激烈了,了解顾客需求已经变得极为重要,航空业者取得顾客数据以制定因应策略.7.制造业:数据探勘已广泛的被使用在制造工业的控制及排程技术生产程序,LTV Steel Corp. 全美第三大的钢铁公司,使用数据探勘来侦测潜在的质量问题,使得他们的不良品减少了99%.8.电信公司:电信公司过去最有名的就是削价策略,但新的策略是了解他们的顾客将会比过去来得好,使用数据探勘,电信公司可以提供顾客各种顾客想购买的新服务,电信巨人像AT&T和GTE 正应用这些快速侦测不寻常的行为技术来防止窃打.9.保险公司:保险公司对数据的需求是极为重要的,数据探勘最近已提供保险业者从大型数据库中取得有价值的信息以进行决策,这些信息能够让保险业者较了解他们的顾客并有效的侦测保险诈欺.10. 医疗业:预测手术、用药、诊断或是流程控制的效率。
来源:那些行业和领域应用到数据挖掘。