数据挖掘和知识管理
数据挖掘过程(续)
9.知识评价:将发现的知识以用户能了解 的方式呈现给用户。
在上述步骤中,数据挖掘占据非常重要的 地位,它主要是利用某些特定的知识发现 算法,在一定的运算效率范围内,从数据 中发现出有关知识,决定了整个KDD过程 的效果与效率。
四、数据挖掘的任务
数据挖掘任务有两类:
第一类是预测性挖掘任务:在当前数据上 进行推断,以进行预测;
智力资产管理系统:这个阶段将知识当作企业第四大资产进行 全生命周期的管理,实现人力资本、组织资本、关系资本的统 一管理、评估与优化。
Thank you!
动态知识管理系统:主要是实现知识的动态管理,解决文档的 版本控制、项目及其它应用系统中的知识如何统一管理、知识 如何快速复制与传播等,通过动态知识管理加速知识在企业的 沉淀、共享与应用,提高员工的工作效率;
知识应用整合门户:这个阶段强调人、流程和知识的互动,进 一步细化动态知识的管理,实现在流程执行过程中沉淀知识、 关联知识,使员工适时得到所需的知识,帮助员工做对事、做 好事,如企业知识门户等;
数据挖掘过程(续)
3.数据预处理:对步骤2中选出的数据进行 再处理,检查数据的完整性及数据一致性, 消除噪声,滤除与数据挖掘无关的冗余数 据,根据时间序列和已知的变化情况,利 用统计等方法填充丢失的数据。
4.数据变换:根据知识发现的任务对经过 预处理的数据进行再处理,主要是通过投 影或利用数据库的其他操作减少数据量。
随着大量数据库的建立和海量数据的不断涌现, 必然提出对强有力的数据分析工具的迫切需求。 但现实情况往往是“数据十分丰富,而信息相当 贫乏。”
快速增长的海量数据收集、存放在大型数据库中, 没有强有力的工具,理解它们已经远远超出人的 能力。因此,有人称之为:“数据坟墓”。
由于专家系统工具过分依赖用户或专家人工地将 知识输入知识库中,而且分析结果往往带有偏差 和错误,再加上耗时、费用高,故不可行。
知识管理的核心
知识管理是企业对其所拥有的知识资源进行管理的 过程,其核心的管理对象是知识;
让知识沉淀、知识共享、知识学习、知识应用、知 识创新等运转环节(简称为“知识之轮”)循环运 转,才能使知识指导行动,不断地产生价值;
文化、管理、技术是企业驱动“知识之轮”的三个 关键要素。
四、知识管理的步骤
全球化的影响 全球化经营要求企业具有交流沟通能力以及知识获取、 知识创造与知识转换的能力。
三、知识管理的内容
知识管理是通过管 理与技术手段,使人与 知识紧密结合,让知识 的沉淀、共享、学习、 应用和创新这个“知识 之轮”循环转动,并通 过知识共享的文化,提 高企业的效益和效率, 为企业创造价值,赢得 竞争优势。
认知
主要任务是统一企业对知识管理的认知,梳理知识管 理对企业管理的意义,评估企业的知识管理现状。
规划
主要是通过对知识管理现状、知识类型的详细分析, 并结合业务流程等多角度,进行知识管理规划。
制度化
认知
知识链
推广
试点 规划
试点
此阶段是第二阶段的延续和实践,按照规划选取适当 的部门和流程依照规划基础进行知识管理实践。并从短期 效果来评估知识管理规划,同时结合试点中出现的问题进 行修正。
——美国的知识管理学者托伏勒
二、知识管理产生的原因
竞争 市场竞争越来越激烈,创新的速度加快
顾客导向 企业要为客户创造价值
工作流动性 雇员的流动性加快,的原因(续)
环境不确定性 在动态的不确定环境下,技术更新速度加快,学习已成 为企业得以生存的根本保证,组织成员获取知识和使用 知识的能力成为组织的核心技能
量 例如:预测某股票的未来价格
2、关联分析(association analysis)
用来发现描述数据中强关联特征的模式。所发现 的模式通常用蕴涵规则或特征子集的形式表示。 关联分析的目标是以有效的方式提取最有趣的模 式。 例: 找出相关功能的基因组 识别一起访问的web页面 理解地球气候系统不同元素之间的联系
数据挖掘工具
数据矿山
信息金块
二、数据挖掘的定义
数据挖掘是从大量数据中提取或“挖掘”知识。 与数据挖掘类似但稍有不同含义的术语有:
◦ 从数据库中发现知识(Knowledge Discovery from/in Database, KDD)
◦ 知识提取(Knowledge extract) ◦ 数据 /模式分析(Data / Model analysis )。 ◦ 数据考古 ◦ 数据捕捞 技术上的定义 商业角度的定义
数据挖掘与知识管理
数据挖掘
一、数据挖掘产生的背景
人类已进入一个崭新的信息时代
数据库中存储的数据量急剧膨胀
需要从海量数据库和大量繁杂信息中提取有价值 的知识,进一步提高信息的利用率
产生了一个新的研究方向:基于数据库的知识发 现(Knowledge Discovery in Database),以及相 应的数据挖掘(Data Mining)理论和技术的研究。
技术上的定义
数据挖掘(Data Mining)就是从大量 的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在 其中的、人们事先不知道的、但又是 潜在有用的信息和知识的过程。
商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要 特点是对商业数据库中的大量业务数据进行抽取、 转换、分析和其他模型化处理,从中提取辅助商 业决策的关键性数据。
推广
在试点阶段不断修正知识管理规划的基础上,知识管 理将大规模在企业推广,以全面实现其价值。
制度化
制度化阶段既是知识管理项目实施的结束,又是企 业知识管理的一个新开端,同时也是一个自我完善的过程。
五、知识管理的阶段
静态知识管理系统:是企业知识管理的初级阶段,主要解决企 业中存在的大量规范制度、文件、档案、资料等各类文档的管 理;
7.数据挖掘:这是整个过程中很重要的一个步骤。 运用前面选择的算法,从数据库中提取用户感兴 趣的知识,并以一定的方式表示出来(如产生式 规则等)是数据挖掘的目的。
8.模式解释:对在数据挖掘步骤中发现的模式 (知识)进行解释。经过用户或机器评估后,可 能会发现这些模式中存在冗余或无关的模式,此 时应该将其剔除。如果模式不能满足用户的要求, 就需要返回到前面的某些处理步骤中反复提取。
3、聚类分析
旨在发现紧密相关的观测值组群,使得与属于不 同簇的观测值相比,属于同一簇的观测值相互之 间尽可能类似。
应用 对相关的顾客分组 找出显著影响地球气候的海洋区域 图像分割 压缩数据 …
4、异常检测(anomaly detection)
异常检测的任务是识别其特征显著不同于其他数 据的观测值。这样的观测值称为异常点或离群点。
数据挖掘过程(续)
5.确定数据挖掘目标:根据用户的要求, 确定数据挖掘要发现的知识类型。因为对 数据挖掘的不同要求会在具体的知识发现 过程中采用不同的知识发现算法。如分类、 总结、关联规则、聚类等。
6.选择算法:根据确定的任务选择合适的 知识发现算法,包括选取合适的模型和参 数。
数据挖掘过程(续)
资料,信息,知识,智慧
智慧 知识 信息
透过行动,应 用来创造价值
开创价值的直 接材料
有目的地整理 来传达意念
资料
定量显示事实
知识小组
知识经济时代的到来
资金
劳力
知识时代
知识
土地
全新知识经济模式的冲击
知识经济时代 物质资源
企业运作知识 企业生存发展之根本
资源和财富 金融资本
科学技术发展越快,人类按照自己需要创造资源 的能力就越大,那时唯一重要的资源就是信息和知识, 知识将是未来的贸易中心。
第二类是描述性挖掘任务:刻划数据库中 数据的一般特性(相关、趋势、聚类、异 常…)。
四种主要的数据挖掘任务
1、预测建模(predictive modeling) a 分类(classfication):用于预测离散的目标
变量 例如:预测一个web用户是否会在网上书店
买书 b 回归(regression):用于预测连续的目标变
啤酒与尿布 上海海关走私 机票销售 手机VIP客户
三、数据挖掘的过程
解释/评价 数据挖掘
知识
变换
模式
预处理
筛选 数据
已预处理 数据
目标数据
变换后 数据
数据挖掘过程(续)
1.数据准备:了解数据挖掘应用领域的有 关情况。包括熟悉相关的背景知识,搞清 用户需求。
2.数据选取:数据选取的目的是确定目标 数据,根据用户的需要从原始数据库中选 取相关数据或样本。在此过程中,将利用 一些数据库操作对数据库进行相关处理。
应用 检测欺诈 网络攻击 疾病的不寻常模式 …
知识管理
一、定义
知识管理(Knowledge Management)是一 项在1990年代中期开始在全球崛起的学术与商业 应用主题,针对个人及社群所拥有的显性知识和隐 性知识的确认、创造、掌握、使用、分享及传播进 行积极及有效的管理。
知识概述
按层级可分为资料(数据)、信息、知识及智 慧四个阶段,而知识的形成则是透过收集一些资料, 再从资料中找出有用的信息,利用这些信息加上自 己的想法及做法,最后产生出知识,而智慧则是以 知识为基础加上个人的应用能力加以运用于生活上。