当前位置:
文档之家› guo_大数据时代的数据挖掘与智能决策(大庆)
guo_大数据时代的数据挖掘与智能决策(大庆)
12
产业界与学术界的关注
Data are becoming the new raw material of business: an economic input almost on a par with capital and labor. 数据正逐渐变成商业所需的原材料之一:一 项几乎和资本或劳力一样重要的经济原料。 (Feb. 27th, 2010)
11
产业界与学术界的关注
麦肯锡咨询公司“大数据”研究报告 “Big data: The next frontier for innovation, competition, and productivity” —McKinsey Global Institute, May 2011. 高德纳(Gartner)研究与顾问咨询公司
“The Next Science Revolution”,Harvard Business Review,November 2010
21
22
《自然》《科学》大数据专刊
2008年9月3日出版的《自然》 2011年2月11日出版的《科学》 杂志刊登专题——《大数据》 杂志刊登专题——《数据处理》
70万家企业联网“直报” 统计数据 从2012年2月18日开始, 全国70万家"三上"企业 和房地产开发经营企业 将在统一的数据采集和 处理平台上,通过互联 网直接向国家数据中心 或国家认定的省级数据 中心报送统计数据。
国家(省、市)统计局() 4
无所不在的数据(2)
产业界与学术界的关注
爆发:大数据时代预见未来 的新思维。 巴拉巴西的研究是在人类生 活数字化的大数据时代基础 上进行的,移动电话、网络 以及电子邮件使人类行为变 得更加容易量化,将我们的 社会变成了一个巨大的数据 库。 巴拉巴西揭开人类行为背后 隐藏的模式“爆发”,提出 人类日常行为模式不是随机 的,而是具有“爆发性”的 。 17
32
从知识转化过程看数据解析
33
数据解析学的方法体系
数据解析学是多种学科的交叉的产物。 信息管理 数学 概率论 OR/MS
计算机科学
统计学
知识管理 数据解析学 数据库 数据仓库
34
数据分析 商务智能
e-science
机器学习
人工智能
数据挖掘
知识发现
数据解析学书籍
埃森哲战略变革研 究院主任 美国巴布森学院信 息技术与管理领域 的著名教授
智能应用
智能医疗、交通等
智 能 社 会 服 务
城市 数据 中心
表示政府督导 表示市场主导 表示政府投资
25
商务智能与智能决策
目前决策制定者正在被大量的数据淹没, 数字信息从各种各样的传感器、工具和 模拟实验那里源源不断地涌来,令企业 的组织能力、分析能力和储存信息的能 力捉襟见肘。
正如麦肯锡的报告揭示的那样,管理作 为科学的一个特性正在越来越凸现出来。
全球四大卫星导航系统 北斗卫星导航系统 美国的GPS 俄罗斯的格洛纳斯 欧盟的伽利略系统
到2020年,北斗卫星导航系统将拥有35颗卫星(已发射16颗), 形成覆盖全球的卫星网络,九省示范应用,LBS。
7
无所不在的数据(5)
生物信息学(人类基因组计划) 神经信息学(人类脑计划)
选择阶段: 选出解决方案
执行选中的方案, 检测实施的结果, 并作出必要的调整。
返回选 择阶段
实施阶段: 实施方案
西蒙——决策过程的四个阶段
27
明确业务问题,收集数据和信息
Benefits of Knowledge Discovery
Value
Disseminate
Generate
Volume
Rapid Response
2012-7
产业界与学术界的关注
大数据是人们获得新的认知 ,创造新的价值的源泉;大 数据还是改变市场、组织机 构,以及政府与公民关系的 方法。 大数据的核心就是预测。三 个转变。 更多:不是随机样本,而 是全体数据 更杂:不是精确性,而是 混杂性 更好:不是因果关系,而 是相关关系 2013-1
理论方法研究
从ANN到SVM 从PCA到ICA 从K-means到核聚类与谱聚类 图聚类与时间序列聚类
38
科研项目
• 国家自然科学基金项目《动态数据挖掘中的演化聚类模型与算法研究》
2012-2015
•国家自然科学基金项目《时间序列数据挖掘中的聚类模型与算法研究》
2009-2011
•国家自然科学基金项目《独立成分分析的有效算法及应用研究》
15
产业界与学术界的关注
本书主要介绍了如何驾驭大数 据浪潮,并详细地介绍了什么 是大数据,大数据为什么重要 ,以及如何应用大数据。
2013-1
本书还从具体实用的角度,介 绍了用于分析和操作大数据的 工具、技术和方法;以及人才 和企业文化的角度,介绍了如 何使分析专家、分析团队以及 所需的分析原则更加高效,如 何通过分析创新中心使得分析 更加有创造力,以及如何改变 分析文化。 16
2012-6
新信息世界观:物理世界、信息世界、 人类社会组成三元世界
大数据
18
共生智能系统中的数据、信息与知识管理
共生智能系统: 综合集成 组织与社群:人类集体智能 ——决策与问题求解
数据、信息、 知识流转 扩展的计算机网络系统: 人工智能——数据加工 平台 共同解决现实的复杂问题 可感知的环境与物品: 周遭智能(AmI)—— 感知与执行终端
托马斯· H.达文波特,珍妮· G.哈里斯,数据分析竞争法:企业赢之道 (competing on analytics) 译者:康蓉 吴越 商务印书馆, 2009
35
数据解析学 杂志
36
数据解析学 报告与论文
Analytics: The real-world use of big data How innovative enterprises extract value from uncertain data (2012)
分类任务
训练例 未被分类的数据 训练例
分 类
训练例
………
26
决策需要信息与知识
决策的过程
发现那些需要引起注意的征兆并加以解释 , 例如销售滑坡、生产成本猛涨、老顾客对新产品的 需求、新竞争对手带来的威胁等。
情报阶段: 确定问题
返回情 报阶段
设计阶段: 找出解决方案 返回设 计阶段
最优 方案由多种因素决定,如成本、 实施的难易程度、对员工的要求、方案 实施的时间顺序等。
13
产业界与学术界的关注
20世纪大萧条以来,美国作 为世界强国的开放历史,数 据技术浪潮的兴起过程,气 势磅礴,波澜壮阔。美国政 府为什么能,中国到底缺什 么? “大数据”之“大”,并不 仅仅在于“容量之大”,更 大的意义在于:通过对海量 数据的交换、整合和分析, 发现新的知识,创造新的价 值,带来“大知识”、“大 科技”、“大利润”和“大 发展”。 14
什么是数据解析学?
Data analytics (DA) is the science of examining raw data with the purpose of drawing conclusions about that information.
Data analytics is used in many industries to allow companies and organization to make better business decisions and in the sciences to verify or disprove existing models or theories.
DSS MIS EDP
EDP: Electronic Data Processing MIS: Management Information Systems DSS: Decision Support Systems
28
商务智能的前世今生
起源:从数据到知识的挑战和跨越 结蛹:数据仓库之厚积薄发 蚕动:联机分析之惊艳 破茧:数据挖掘之智能生命的产生 化蝶:数据可视化的华丽上演
大数据时代的 商务智能与智能决策
郭崇慧 dlutguo@
大连理工大学 管理科学与工程学院
1
大
纲
“大数据”的时代背景 “大数据”对社会发展的影响 商务智能与智能决策概要 理论方法研究与应用案例
2
“大数据”的时代背景
从数据谈起
数据无所不在
3
无所不在的数据(1)
• •
2005-2008
•中国博士后科学基金《支持向量机优化模型与算法研究》
2003-2004
39
方法论
模块化
业务问题理解 知识表示(模式与模型) 知识评价(目标与评分) 搜索与优化方法 数据管理策略与技术 应用验证
问题+粒度+规律+异常+应用
40
分类与预测
从“人工神经网络” 到“支持向量机”
8
无所不在的数据(6)
9
大数据现象
An Everest Sized Opportunity!
10
大数据现象
容量单位:从K到Y
K—M—G—T—P—E—Z—Y
K Kilo M Meg G Giga T Tera P Peta E Exa Z Zetta Y Yotta 1K字节 = 1, 024字节 1M字节= 1, 048, 576字节 1G字节 = 1, 073, 741, 824字节 1T字节 = 1, 099, 511, 627, 776字节 1P 字节= 1, 125, 899, 906, 842, 624字节 1E字节 = 1, 152, 921, 504, 606, 846, 976字节 1Z字节 = 1, 180, 591, 620, 717, 411, 303, 424字节 1Y字节 = 1208, 925, 819, 614, 629, 174, 706, 176字节式