大数据体系结构
大数据关键技术2:并行计算能力
大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。
针对不同计算场景发展出特定分布式计算框架。
Yahoo 提出的 S4 系统、 Twitter 的 Storm, 谷歌 2010 年公布的 Dremel 系统, MapReduce内存化以提高实时性的Spark 框架.
数据爆炸,知识贫乏
大数据关键技术4:数据显示技术
基于计算流体力学的三维呈现: 如用能场所3D场景及CFD温度及能效
云场呈现如下图。
大数据分析
世界杯:英格兰vs意大利 1:2。数据热图
大数据关键技术5:数据挖掘算法
代 特征 数据挖掘算法
集成 独立的系 统
数据管理系 统,包括数 据库和数据 仓库 数据管理和 预言模型系 统 数据管理、 预言模型、 移动系统
大数据科学与工程系列
大数据体系结构
陈志成 中国科学院大学 2014年06月
Hale Waihona Puke 主要内容一、大数据时代的新命题 二、大数据的体系结构 三、大数据的关键技术 四、物联网与云计算架构 五、知名企业大数据架构 六、大数据系统设计案例 总结、交流、作业
一、大数据时代的新命题
谷歌大数据中心:全球主要DC有8个
大数据关键技术3:数据分析技术
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策
金融 经济 政府 POS. 人口统计 生命周期
模式 趋势 事实 关系 模型 关联规则 序列
目标市场 资金分配 贸易选择 在哪儿做广告 销售的地理位置
互联网上的物联网:概念
Computing: Anytime Any where Collecting: Any object Any equipment Linking: Any Place Any Point Content: Anything Anybody Servering: Any type Any Business
Cloud Service Creator
Existing & 3rd party services, Partner Ecosystems Cloud Service Integration Tools
BPaaS
Business-Processas-a-Service
SaaS
Sof tware-as-a-Service Operational Support Services (OSS)
信息时代,软件编程模型发展
“面向信息处理”的智能化编程模型,编程简化为数据配置 与管理
大数据+技术架构数据智能
二、大数据的系统架构
传统数据库技术架构:
Oracle数据库体系架构
大数据架构:分层架构
从数据在生命周期看,大数据从数据源经过分析挖掘到最终获得价值需要经过 5 个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
• 倾向性分析
???
Debt<10% of Income
Debt=0%
Time
• • • • 客户保留 客户生命周期管理 目标市场 价格弹性分析
Yes
Good Credit Risks
NO
NO
Bad Credit Risks
Yes
Good Credit Risks
聚类分析 Clustering
• 客户细分 • 市场细分
数据挖掘的主要方法
分类(Classification) 聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
知识发现系统是一个自动/半自 动过程
知识发现系统要有很好的性能
数据挖掘主要方法:ETL
ETL Process Framework
大数据系统架构Hadoop:功能定位
1.大数据系统架构Hadoop:层次对应
大数据:分布式计算架构
大数据架构:
MapReduce工作原理1
大数据架构:
MapReduce工作原理2
三、大数据的关键技术
大数据关键技术到底有哪些?
核心问题是:(计算、存储、分析)算法
大数据:恐怖的大数据(生活示例) 智能性:数据分析、自然语言理解 逻辑推理(演示) 艺术性:分形算法、视频动画(演示)
WAP接口
云计算演进:桌面云理解(ND—NC—CCN)
云计算架构:通用三层架构(IBM为例,加BPaaS)
Cloud Service Consumer
Cloud Services
Cloud Service Provider
Common Cloud Management Platform (CCMP)
大数据的系统架构:整体系统架构
新一代编程语言
大数据架构:整体逻辑功能架构
大数据架构理解:搜索引擎
大数据架构理解:网页内容抓取
大数据系统架构Hadoop
Hadoop分布式系统组成
大数据系统架构Hadoop
在图中,Hadoop主要的功能组件有: Hadoop Common: 包含HDFS、MapReduce和其他项目公共内容; HDFS:Hadoop分布式文件系统; MapReduce:一个用于并行处理大数据集的软件框架。Map 函数接受一组数 据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。 Reduce 函数接受 Map 函数生成的列表,然后根据它们的键(为每个键生成一 个键/值对)缩小键/值对列表; HBase: 类似Google BigTable的分布式NoSQL列数据库; Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为 一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce 任务进行运行; Zookeeper:分布式锁,提供类似Google Chubby的功能; Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ; Pig:大数据数据流分析平台,为用户提供多种接口; Sqoop:在HADOOP与传统的数据库间进行数据的传递。
“数据结构化”本身是最 具挑战性的一个环节. 海量数据与快速处理是一 对悖论.
信息时代的大数据需求
信息社会需求:信息化-智能化-现代化
人力工具 -- 镰刀 -- 锄头 动力工具 -- 机车 -- 机床 智能工具 --推理机 --智能网
农业社会
工业社会
信息社会
信息时代数据大爆炸,推动智能技术发展
Load
Runtime Mata data Services Meta data management
Transform
Transport Services
Extract Source adaptors ETL Data import/ Rule import Design management
四、物联网与云计算架构
谷歌文件系统(GFS)和Hadoop 的分布式文件系 统HDFS(Hadoop Distributed File System)奠 定了大数据存储技术的基础。GFS/HDFS 将计算 和存储节点在物理上结合在一起,从而避免在数 据密集计算中易形成的I/O 吞吐量的制约,同时 这类分布式存储系统的文件系统也采用了分布式 架构,能达到较高的并发访问能力。
分布计算 模型
数据模型
第一代
数据挖掘作为 一个独立的应 用 和数据库以及 数据仓库集成
支持一个或者 多个算法
多个算法:能够 挖掘一次不能放 进内存的数据
单个机 器 同质/局 部区域 的计算 机群集
intranet/e xtranet 网 络计算 移动和各 种计算设 备
向量数据
第二代
有些系统支 持对象、文 本、和连续 的媒体数据 支持半结构 化 数 据 和 web数据
心移 移 电动 动 图 全 测 球 量 眼 OA
健康管理功能
医疗服务功能
客户关怀功能
体 重 管 理
血 糖 管 理
血 压 管 理
心 脏 疾 病 管 理
日 常 心 电 监 测
血 压 监 测
血 糖 监 测
运 动 情 况 监 测
用 药 提 醒
互 动 交 流
预 约 就 医
短信接口
BSS/OSS
彩信接口
省领航平台
ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator) 、Informatic PowerCenter、AICloudETL、DataStage、DataSpider, 等。 ETL Data Export Target adaptors Application & Operations Services Meta data Import/ export
关联分析 Association
• • • • 市场组合分析 套装产品分析 目录设计 交叉销售
神经网络 Neural Networks
• • • •
4
Q Q
5 6
倾向性分析 客户保留 目标市场 欺诈检测
Q
3
Q
I
2
factor n factor 1 factor 2
I
1
知识发现KDD系统特征
知识发现系统需要一个前处理 过程 • 数据抽取 • 数据清洗 • 数据选择 • 数据转换
Internet of Things
Communication: Any route Any Net
互联网上的物联网:发展
2009年8月7日,温家宝视察中科院嘉兴无线传感网工程中心无锡研发分 中心,提出“在传感网发展中,要早一点谋划未来,早一点攻破核心技术 ”,明确要求尽快建立中国的传感信息中心,或叫“求