当前位置：文档之家› 大数据体系结构

大数据体系结构

大数据关键技术2：并行计算能力
大数据的分析挖掘是数据密集型计算，需要巨大的计算能力。
针对不同计算场景发展出特定分布式计算框架。
Yahoo 提出的 S4 系统、 Twitter 的 Storm, 谷歌 2010 年公布的 Dremel 系统， MapReduce内存化以提高实时性的Spark 框架.
数据爆炸，知识贫乏
大数据关键技术4：数据显示技术
基于计算流体力学的三维呈现: 如用能场所3D场景及CFD温度及能效
云场呈现如下图。
大数据分析
世界杯：英格兰vs意大利 1:2。数据热图
大数据关键技术5：数据挖掘算法
代特征数据挖掘算法
集成独立的系统
数据管理系统，包括数据库和数据仓库数据管理和预言模型系统数据管理、预言模型、移动系统
大数据科学与工程系列
大数据体系结构
陈志成中国科学院大学 2014年06月
Hale Waihona Puke 主要内容一、大数据时代的新命题二、大数据的体系结构三、大数据的关键技术四、物联网与云计算架构五、知名企业大数据架构六、大数据系统设计案例总结、交流、作业
一、大数据时代的新命题
谷歌大数据中心：全球主要DC有8个
大数据关键技术3：数据分析技术
苦恼: 淹没在数据中 ; 不能制定合适的决策!
数据
知识
决策

金融经济政府 POS. 人口统计生命周期

模式趋势事实关系模型关联规则序列

目标市场资金分配贸易选择在哪儿做广告销售的地理位置
互联网上的物联网：概念
Computing: Anytime Any where Collecting: Any object Any equipment Linking: Any Place Any Point Content: Anything Anybody Servering: Any type Any Business
Cloud Service Creator
Existing & 3rd party services, Partner Ecosystems Cloud Service Integration Tools
BPaaS
Business-Processas-a-Service
SaaS
Sof tware-as-a-Service Operational Support Services (OSS)
信息时代，软件编程模型发展
“面向信息处理”的智能化编程模型，编程简化为数据配置与管理
大数据＋技术架构数据智能
二、大数据的系统架构
传统数据库技术架构:
Oracle数据库体系架构
大数据架构：分层架构
从数据在生命周期看，大数据从数据源经过分析挖掘到最终获得价值需要经过 5 个环节，包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
• 倾向性分析
???
Debt<10% of Income
Debt=0%
Time
• • • • 客户保留客户生命周期管理目标市场价格弹性分析
Yes
Good Credit Risks
NO
NO
Bad Credit Risks
Yes
Good Credit Risks
聚类分析 Clustering
• 客户细分 • 市场细分
数据挖掘的主要方法
分类（Classification）聚类(Clustering) 相关规则(Association Rule) 回归(Regression) 其他
知识发现系统是一个自动/半自动过程
知识发现系统要有很好的性能
数据挖掘主要方法：ETL
ETL Process Framework
大数据系统架构Hadoop：功能定位
1.大数据系统架构Hadoop：层次对应
大数据：分布式计算架构
大数据架构:
MapReduce工作原理1
大数据架构:
MapReduce工作原理2
三、大数据的关键技术
大数据关键技术到底有哪些？
核心问题是：(计算、存储、分析)算法
大数据：恐怖的大数据(生活示例) 智能性：数据分析、自然语言理解逻辑推理(演示) 艺术性：分形算法、视频动画(演示)
WAP接口
云计算演进：桌面云理解(ND—NC—CCN)
云计算架构：通用三层架构(IBM为例，加BPaaS)
Cloud Service Consumer
Cloud Services
Cloud Service Provider
Common Cloud Management Platform (CCMP)
大数据的系统架构：整体系统架构
新一代编程语言
大数据架构：整体逻辑功能架构
大数据架构理解：搜索引擎
大数据架构理解：网页内容抓取
大数据系统架构Hadoop
Hadoop分布式系统组成
大数据系统架构Hadoop
在图中，Hadoop主要的功能组件有： Hadoop Common: 包含HDFS、MapReduce和其他项目公共内容； HDFS：Hadoop分布式文件系统； MapReduce：一个用于并行处理大数据集的软件框架。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。 Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表； HBase: 类似Google BigTable的分布式NoSQL列数据库； Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce 任务进行运行； Zookeeper：分布式锁，提供类似Google Chubby的功能； Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制； Pig：大数据数据流分析平台，为用户提供多种接口； Sqoop：在HADOOP与传统的数据库间进行数据的传递。
“数据结构化”本身是最具挑战性的一个环节. 海量数据与快速处理是一对悖论.
信息时代的大数据需求
信息社会需求：信息化-智能化-现代化
人力工具 -- 镰刀 -- 锄头动力工具 -- 机车 -- 机床智能工具 --推理机 --智能网
农业社会
工业社会
信息社会
信息时代数据大爆炸，推动智能技术发展
Load
Runtime Mata data Services Meta data management
Transform
Transport Services
Extract Source adaptors ETL Data import/ Rule import Design management
四、物联网与云计算架构
谷歌文件系统（GFS）和Hadoop 的分布式文件系统HDFS（Hadoop Distributed File System）奠定了大数据存储技术的基础。GFS/HDFS 将计算和存储节点在物理上结合在一起，从而避免在数据密集计算中易形成的I/O 吞吐量的制约，同时这类分布式存储系统的文件系统也采用了分布式架构，能达到较高的并发访问能力。
分布计算模型
数据模型
第一代
数据挖掘作为一个独立的应用和数据库以及数据仓库集成
支持一个或者多个算法
多个算法：能够挖掘一次不能放进内存的数据
单个机器同质/局部区域的计算机群集
intranet/e xtranet 网络计算移动和各种计算设备
向量数据
第二代
有些系统支持对象、文本、和连续的媒体数据支持半结构化数据和 web数据
心移移电动动图全测球量眼 OA
健康管理功能
医疗服务功能
客户关怀功能
体重管理
血糖管理
血压管理
心脏疾病管理
日常心电监测
血压监测
血糖监测
运动情况监测
用药提醒
互动交流
预约就医
短信接口
BSS/OSS
彩信接口
省领航平台
ETL工具有：OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator) 、Informatic PowerCenter、AICloudETL、DataStage、DataSpider, 等。 ETL Data Export Target adaptors Application & Operations Services Meta data Import/ export
关联分析 Association
• • • • 市场组合分析套装产品分析目录设计交叉销售
神经网络 Neural Networks
• • • •
4
Q Q
5 6
倾向性分析客户保留目标市场欺诈检测
Q
3
Q
I
2
factor n factor 1 factor 2
I
1
知识发现KDD系统特征
知识发现系统需要一个前处理过程 • 数据抽取 • 数据清洗 • 数据选择 • 数据转换
Internet of Things
Communication: Any route Any Net
互联网上的物联网：发展
2009年8月7日，温家宝视察中科院嘉兴无线传感网工程中心无锡研发分中心，提出“在传感网发展中，要早一点谋划未来，早一点攻破核心技术 ”，明确要求尽快建立中国的传感信息中心，或叫“求

e商务文档

大数据体系结构

相关文档推荐：