当前位置:
文档之家› 数据管理与数据挖掘概论讲义.
数据管理与数据挖掘概论讲义.
数据管理与数据挖掘概论
1
数据挖掘概况
从20世纪80年代中后期,知识发现的方法、技 术和系统,从不同角度、不同领域和不同学科 进行了研究和实践,主要的学科有数据库、统 计学和机器学习。 1989年 在底特律第11届IJCAI会议上的KDD研 讨会。 1991年MIT 出版社出版了一本书 “Knowledge Discovery in Databases”。 1994年召开了一个国际会议(KDD94), 并于 1996年由 MIT出版社又出版了一本书 “Advances in Knowledge Discovery and Data Mining”。
19
Information, Knowledge, and Intelligence
(A) Knowledge
INFORMATION
(A) Knowledge transmitted by character, sign, voice, etc. (B) Data arranged to be useful for decision making (Transmit)
KNOWLEDGE
(C) Recognition memorized personally or socially (D) Judgment or a system of judgment which has objective validity (Recognition)
(B) Data
(Arrangement)
(1)数据清理 (2) 数据变换 (3)数据集成 (4)数据归约 (5)数据离散化 数据挖掘基本方法 (1)关联规则(2)分类与预测(3)聚类 数据挖掘的深入内容 (1)时间序列和序列(2)空间数据挖掘 (3)文本挖掘 (4)Web挖掘 (5)多媒体挖掘 (6)可视化
7
数据挖掘概况
由于任务不同,要求不同,数据不同,没 有单一的数据挖掘软件可适用所有的情形。 造成了各种方法都在快速发展,各种数据 挖掘软件不断增多。但商家近年来有逐渐 减少的趋势,大公司的介入,一些大的有 实力的公司开始更多占领市场。 基本方法如上所述。软件功能和性能有很 大差异。选软件应考虑的因素很多。
12
数据挖掘概况
数据仓库 将不同数据源、多年的数据经“整合” 成 一个有组织的便于分析的结构化的数据环境。 组织数据方法。 数据挖掘: 从数据中找出(推出,归纳出,预测、挖 掘)有用的信息,规律,知识。 分析数据方法。
13
数据挖掘概况
数据库集成:
–数据仓库技术
» 所有的数据在物理上集中在一起
1.
9
数据挖掘概况
无法准确回答的问题
信贷中信用评估,信用卡评级,信用卡欺诈 销售一个产品 广告 材料 邮寄给谁 保留客户, 争取客户 交叉销售 违规操作,欺诈行为发现,异常发现 货架货物的摆放 国民经济各指标间的关系 疾病, 症状, 药物, 疗效之间的关系 DNA序列的相似分析 导致各种疾病的特定基因序列模式
–虚拟数据库技术
» 数据表面上或者在逻辑上是集成在一起,然 而它们的物理存贮则是分散在Internet不同 的数据服务器上
14
数据挖掘概况
从两种数据库集成技术来看:
–数据仓库技术实用于数据库变动不太频 繁、数据库中数据类型和使用方法比较接 近的情况。 –虚拟数据库技术实用于数据更新速度快、 数据类型和使用方法完全不一样的情况。
15
联机分析处理
60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机 事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用 户对数据库查询分析的需要,SQL对大型数据库进行的简单查询 也不能满足终端用户分析的要求。用户的决策分析需要对关系数 据库进行大量计算才能得到结果,而查询的结果并不能满足决策 者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的 概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大 面向应用,事务驱动 面向分析,分析驱动 面向操作人员,支持日常操作 面向决策人员,支持管理需要 16
Information
(C) Knowledge
(Judgment)
What is the energy to bring such transformation?
(Judgment)
INTELLIGENCE
(E) Computers’ ability to judge things automatically (F) People’s ability to understand and learn things
11
数据挖掘概况
数据仓库和数据挖掘项目提到日程
数据分析、决策支持系统、商业智能 (BI)、 知识管理、客户关系管理(CRM)、 物流与供应链管理(SCM)、企业资源计划 (ERP)、各种预测。
政府、科技部门、大型企业(工厂,公司, 商场),经济部门、金融机构(银行、证 券、保险)、电子商务、电子政务、各种 “金” 工程。
20
(D) Knowledge
(D) Knowledge
Information Science + Management Science
Knowledge Science
Key Factor in Establishing the School
A theory of organizational knowledge creation, which suggests that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization.
数据挖掘的具体任务
– 关联分析 – 序列模式 – 分类(预测) – 聚集 – 异常检测
5
数据挖掘任务
描述性分析
– – – – 聚类分析 关联分析 异常点分析、可视化 ……
预测性分析
– – – – 分类(离散) 回归分析(连续) 时间序列分析 ……
6
数据挖掘概况
数据挖掘技术基本内容框架
数据预处理
3
数据挖掘概况
数据挖掘是20世纪80年代后期发展起来的一种新兴 技术。它是商业、企业竞争和技术发展的需求的结 果,数据挖掘技术是多种学科的交叉的产物。
数据挖掘
4
数据挖掘任务
数据挖掘任务技术分类
– 预测(Predication):用历史预测未来 – 描述(Description):了解数据中潜在的规 律
Socialization Combination
3
Linking explicit knowledge
Prof. Nonaka
1
Individual Internalization Individual tacit explicit knowledge knowledge I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. 21 Oxford University Press, 1995.
2
数据挖掘概况
1995年在加拿大的蒙特利尔召开KDD95,作为第 一届国际KDD会议,以后每年一次,原为AAAI组 织,1999年由ACM组织,改为SIGKDD。2006年、 第12届在美国费城(Philadelphia)。2007年在 美国加州圣何塞(SIGKDD07) 2008年在美国LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery ” 1997年创刊。(Springer,1997,2006)。 国外相应的研究小组的建立,接着数据挖掘公司 风起云涌。一些大公司建立数据挖掘小组和开发 各种产品。 国内研究小组的建立,一些公司也开始了数据挖 掘项目。
25
应 用 领 域 情 况 2 0 0 6
26
应用领域情况(2008)[170 voter)
22
应
用
宏观经济(指标之间关联,经济指标的预测,预警) 电信(客户细分,客户流失,客户挽留) 金融(信用评估,洗钱,欺诈…) 情报(文本挖掘,新闻组, 电子邮件, 文档) Web 挖掘(信息过滤,个性化服务,异常行为,…) DNA 数据分析(一些引起疾病的DNA序列,…) 人力资源配置(如何有效进行人力分配) 医疗诊断 中药配伍规律 零售业 科学(天气预报,灾难预测…
23
KDnuggets 对数据挖掘各种情况进行了调查
从应用领域 使用工具 使用方法 数据挖掘组的地位 数据库的大小(10G以上,100-1000G) 数据格式(文本和工具特定格式居多)
24
应用领域情况(2001)
银行 生物/基因 E商务/Web 欺诈检测 保险 投资/股票 药品 零售业 科学数据 电信 其他 17% 8% 15% 8% 6% 4% 5% 6% 8% 11% 11%
Metaphors, analogies, concepts, hypotheses, or models