当前位置：文档之家› 大数据处理平台解决方案

大数据处理平台解决方案

Hadoop——Google分布式技术的开源实现
Hadoop是一个分布式系统基
础架构项目的总称，起源于作者儿子的一只玩具大象的名字，由Apache基金会开发，并开源提供支持，后来被 FaceBook等互联网公司选用,在此基础上进行二次开发。主要产品是 HDFS,Hbase,MapReduce。
“大数据”的3V特性
Volume 海量
Variety 多样
Velocity 实时
数据处理的量级正从TB级向PB、ZB 级扩张。
能处理结构化数据和非结构化数据， Web 数据、语音数据甚至是图像、视频数据。
从延迟、批量处理向实时处理、流式处理转变，支持海量数据的毫秒级运算。
移动运营商的云计算需求
• 针对大批量零散文件优化
基础数据-接入平台
多种协议
• FTP • Oracle/DB2/Mysql/Teradata • GP • 其他（可方便扩展）
并发和控制
• 多任务发布到集群中并行处理 • 可限制抽取并发数 • 可控制并发优先级
基础数据-维度数据
维度数据：定义云数据中字段的取值的枚举类型，可以通过此维度校验云
存储能力
存储压力大，海量存储难以满足。存储扩容难度大。
高可靠性
传统ETL方式可靠性不高，运维管理复杂，影响应用的稳定性和数据安全性。
扩容成本
扩容成本高，难度大、主机、存储、数据库成本占系统建设比重大，压缩了应用建设的投入。
结构化和非结构化数据
1、对于IT行业来说，大数据，云计算，云模式，无疑是未来的热门研究领域。 2、大数据是由结构化和非结构化的数据组成。 3、结构化数据是存储在数据库里面，占大数据的10% 4、非结构化数据是跟人类信息密切相关的数据，比如说邮件，视频，微博，帖子，手机呼叫，网页点击等。它们占大数据的90%。
平台功能概要
基础数据数据流程调度任务任务监控系统管理
Hive
元数据
接入平台
自定义节点
数据流程编辑
数据清洗转换算法
数据抽取加载参数
触发器
启动参数任务ຫໍສະໝຸດ 依赖监控任务操作任务批量执行
用户管理角色管理
查询数据
活动类别维度数据
HIVE：就基于HADOOP的一个数据仓库的工具，可以将非结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。可以将 SQL转换为MAPREDUCE任务进行运行。其优点是学习成本低，可通过类SQL语句快速实现简单的MAPREDUCE统计，适合数据他库的统计分析；
“大数据”时代已经来临
互联网时代，尤其是社交网络、电子商务与移动通讯把人类社会带入一个以PB 为单位的结构与非结构数据信息的新时代，它就是“大数据(BigData)”时代。
大数据为云计算的大规模与分布式的计算能力提供了应用的空间，解决了传统计算机无法解决的问题。这个领域的计算标准与软件均刚刚起步，为全世界新型软、硬件及应用创新提供了前所未有的机会。
• 其文件系统设计的前提是一次写入多次读取的情况，因此我们是无法修改某条详细的数据。
橘云大数据处理平台OCDC简介
OCDataComputing平台包含基于Map/Reduce的分布式批量计算和基于流式计算技术的分布式实时计算功能，实现海量数据的并行处理。适用于ETL、经营决策、用户行为分析、精准营销、移动互联网等领域的智能数据处理与分析。
能过对多个文件进行转换为统一字段后进行合并处理。在过程中也可以进行记录的过滤
通过编写HIVE QL语句对流程中的数据进行处理
通过JEXL语言，可以用编程的方式对记录进行处理，把抽取的数据转换为系统需要的数据格式引入客户自定义的java类处理特殊的业务要求
数据流程-监听节点
通过设置监听器对流程运行状态进行监控
事件触发器设置：通过开发自定义接口，实现在满足业务逻辑的情况下触发任务执行
能够获取Oracle和DB2中的数据，需要配置获取数据的查询条件
把处理后的数据以文件或压缩包的方式输出到指定位置
加载到相应的数据仓库中进行后续分析运算，支持Oracle、DB2等主流数据库
结束
标识着一个数据流程的结束。里面没有什么配置
数据流程-逻辑节点
逻辑节点在流程中对数据进行相应的处理
流程节点 Join
数据的正确性
基础数据-自定义节点
自定义节点：用户可以根据平台的二次接口开发规范定义个性化的业务处理接口，在此处把定义接口类注册到系统中
数据流程
系统提供图形化的流程定义画面，用户以拖拉和配置的方式，从“工具箱”中将流程节点拖动到流程设计器的画板上，并根据实际业务需要对流程节点进行配置
数据流程-流程节点
基础数据-元数据
元数据：用于描述业务数据的格式、含义、特性及其运行环境等的数据
多种格式
• CVS • XML • Excel • ASN.1
参数可配
• 不同格式不同参数 • 编码 • 分隔符、Tag • 字段定义
可扩展
• 提供扩展接口，方便支持其他格式
• 参数自定义
高效率
• 内部运算使用二进制存储
橘云大数据处理平台技术架构
云 VS 传统
平台VS传统ETL
传统ETL
• 基于数据仓库 • 小型机以上 • 统一存储和单节点运算 • 难以扩容 • 需要专业人员维护
云平台
• 基于文件 • 刀片机或PC Server • 分布式存储和并行计算 • 方便扩容 • 全图形化配置监控
提纲
1 橘云大数据处理平台简介 2 橘云大数据处理平台功能与特点 3 橘云大数据处理平台部署方案 4 橘云大数据处理平台二次开发接口 5 橘云大数据处理平台业务场景示例
主要产品对应关系 Google 分布式文件系统 GFS
分布式数据库
BigTable
Hadoop HDFS,分布式数据处理模型和执行环境，运行于大型商用机集群。
Hbase,一个分布式、按列存储数据库。HBase 使用HDFS作为底层存储，同时支持 MapReduce的批量式计算和点查询(随机读取)。
功能描述能够对两个文件通过一项或多项记录进行关联输出，可以是left join、right join或 inner join。在过程中也可以进行记录的过滤和转换操作
Group Union Hive Parallet Udf
能够根据某个文件的一项或多项记录进行聚合，并进行Max、Min、Count等运算处理。在过程中也可以进行记录的过滤和转换操作
云计算：（cloud computing)是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。意味着计算能力也可作为一种商品通过互联网进行流通。云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。云模式：cloud model ,用于预测云的性能和行为而采用的物理或数学框架
1、HADOOPr产品介绍： 1.1：HDFS：可以支持千万级的大型分布式文件系统； 1.2：HBase是一个分布式的、面向列的开源数据库； HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 1.3：MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的把完成的工作和状态的更新报告回来。他极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。
分布式编程算法
MapReduce
MapReduce,分布式数据处理模型和执行环境，运行于大型商用机集群。
分布式锁服务
Chubby ZooKeeper
为什么选择Hadoop
• 扩展能力：能可靠地存储和处理千兆字节（PB）数据。在不保证低延时的前提下，具有相当大的吞吐量，非常适合海量数据的运算。
• 成本低：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。而且每个节点都是运行在开源操作系统Linux上面的。 • 高效率：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。 • 可靠性：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务。
选择Hadoop需要注意什么
• 该框架设计的初衷是针对海量数据的运算处理的问题。因此对于一些数据量很小的处理没有任何优势可言，甚至还不如单机串行的效果，性能也完全体现不出来。
• 集群中存在大量的机器，所以节点故障是不可避免的。在Hadoop中有两种类型的结点：namenode和 datanode。Hadoop集群采取的master/slave结构。 Datanode故障一般是不会影响整个系统的，这个和它的存储策略有关。但是namenode故障是是极大的问题
调度任务
触发器
• 月、周、日、循环触发 • 可扩展自定义触发器
参数
• 绑定到ETL流程的变量名和变量值 • 可设定数据日期和偏移量
执行
• 自动根据触发器执行 • 手动单个执行 • 批量运行数据日期区间 • 批量运行最后一次到目前为止未执行的任务
调度任务
时间触发器设置：可以按照小时、天、周、月设置触发条件，设置触发器开始执行时间及失效时间
大数据处理平台解决方案
提纲
1 橘云大数据处理平台简介 2 橘云大数据处理平台功能与特点 3 橘云大数据处理平台部署方案 4 橘云大数据处理平台二次开发接口 5 橘云大数据处理平台业务场景示例
概念
大数据：大数据（big data），或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到抽取，管理，处理，并整理成为帮助企业经营决策更积极目的的资讯。大数据的3V特点： volume,velocity,variety 大数据的单位：最小的基本单位是Byte，按顺序给出所有单位：bit、Byte、KB、 MB、GB、TB、PB、EB、ZB、YB、DB、NB，

e商务文档

大数据处理平台解决方案

相关文档推荐：