当前位置:文档之家› 大数据处理平台解决方案

大数据处理平台解决方案


Hadoop——Google分布式技术的开源实现
Hadoop是一个分布式系统基
础架构项目的总称,起源于作者儿子的 一只玩具大象的名字,由Apache基金 会开发,并开源提供支持,后来被 FaceBook等互联网公司选用,在此基础 上进行二次开发。主要产品是 HDFS,Hbase,MapReduce。
“大数据”的3V特性
Volume 海量
Variety 多样
Velocity 实时
数据处理的量级正 从TB级向PB、ZB 级扩张。
能处理结构化数据 和非结构化数据, Web 数据、语音数 据甚至是图像、视 频数据。
从延迟、批量处理 向实时处理、流式 处理转变,支持海 量数据的毫秒级运 算。
移动运营商的云计算需求
• 针对大批量零散文 件优化
基础数据-接入平台
多种协议
• FTP • Oracle/DB2/Mysql/Teradata • GP • 其他(可方便扩展)
并发和控制
• 多任务发布到集群中并行处理 • 可限制抽取并发数 • 可控制并发优先级
基础数据-维度数据
维度数据: 定义云数据中字段的取值的枚举类型,可以通过此维度校验云
存储能力
存储压力大,海量存储难以满足。存储扩容难度大。
高可靠性
传统ETL方式可靠性不高,运维管理复杂,影响应用的稳定性和数据安全性。
扩容成本
扩容成本高,难度大、主机、存储、数据库成本占系统建设比重大,压缩了应用建设的投 入。
结构化和非结构化数据
1、对于IT行业来说,大数据,云计算,云模式,无疑是未来的热门研究领域。 2、大数据是由结构化和非结构化的数据组成。 3、结构化数据是存储在数据库里面,占大数据的10% 4、非结构化数据是跟人类信息密切相关的数据,比如说邮件,视频,微博,帖子,手机呼叫,网页点 击等。它们占大数据的90%。
平台功能概要
基础数据 数据流程 调度任务 任务监控 系统管理
Hive
元数据
接入平台
自定义节 点
数据流程 编辑
数据清洗 转换算法
数据抽取 加载参数
触发器
启动参数任务ຫໍສະໝຸດ 依 赖监控任务 操作任务 批量执行
用户管理 角色管理
查询数据
活动类别 维度数据
HIVE:就基于HADOOP的一个数据仓库的工具,可以将非结构化的 数据文件映射为一张数据库表,并提供完整的SQL查询功能。可以将 SQL转换为MAPREDUCE任务进行运行。其优点是学习成本低,可通过 类SQL语句快速实现简单的MAPREDUCE统计,适合数据他库的统计分 析;
“大数据”时代已经来临
互联网时代,尤其是社交网络、电子商务与移动通讯把人类社会带入一个以PB 为单位的结构与非结构数据信息的新时代,它就是“大数据(BigData)”时代。
大数据为云计算的大规模与分布式的计算能力提供了应用的空间,解决了传统 计算机无法解决的问题。这个领域的计算标准与软件均刚刚起步,为全世界新型软 、硬件及应用创新提供了前所未有的机会。
• 其文件系统设计的前提是一次写入多次读取的情况, 因此我们是无法修改某条详细的数据。
橘云大数据处理平台OCDC简介
OCDataComputing平台包含基于Map/Reduce的分布式批量计算和基于流式 计算技术的分布式实时计算功能,实现海量数据的并行处理。适用于ETL、经营决 策、用户行为分析、精准营销、移动互联网等领域的智能数据处理与分析。
能过对多个文件进行转换为统一字段后进行合并处理。在过程中也可以进行记录的过 滤
通过编写HIVE QL语句对流程中的数据进行处理
通过JEXL语言,可以用编程的方式对记录进行处理,把抽取的数据转换为系统需要的 数据格式 引入客户自定义的java类处理特殊的业务要求
数据流程-监听节点
通过设置监听器对流程运行状态进行监控
事件触发器设置:通过开发自定义接口,实 现在满足业务逻辑的情况下触发任务执行
能够获取Oracle和DB2中的数据,需要配置获取数据的查询条件
把处理后的数据以文件或压缩包的方式输出到指定位置
加载到相应的数据仓库中进行后续分析运算,支持Oracle、DB2等主流数据库
结束
标识着一个数据流程的结束。里面没有什么配置
数据流程-逻辑节点
逻辑节点在流程中对数据进行相应的处理
流程节点 Join
数据的正确性
基础数据-自定义节点
自定义节点:用户可以根据平台的二次接口开发规范定义个性化的业 务处理接口,在此处把定义接口类注册到系统中
数据流程
系统提供图形化的流程定义画面,用户以拖拉和配置的方式,从“工具箱”中将流 程节点拖动到流程设计器的画板上,并根据实际业务需要对流程节点进行配置
数据流程-流程节点
基础数据-元数据
元数据:用于描述业务数据的格式、含义、特性及其运行环境等的数据
多种格式
• CVS • XML • Excel • ASN.1
参数可配
• 不同格式不同参数 • 编码 • 分隔符、Tag • 字段定义
可扩展
• 提供扩展接口,方 便支持其他格式
• 参数自定义
高效率
• 内部运算使用二进 制存储
橘云大数据处理平台技术架构
云 VS 传统
平台VS传统ETL
传统ETL
• 基于数据仓库 • 小型机以上 • 统一存储和单节点运算 • 难以扩容 • 需要专业人员维护
云平台
• 基于文件 • 刀片机或PC Server • 分布式存储和并行计算 • 方便扩容 • 全图形化配置监控
提纲
1 橘云大数据处理平台简介 2 橘云大数据处理平台功能与特点 3 橘云大数据处理平台部署方案 4 橘云大数据处理平台二次开发接口 5 橘云大数据处理平台业务场景示例
主要产品对应关系 Google 分布式文件系统 GFS
分布式数据库
BigTable
Hadoop HDFS,分布式数据处理模型和执行环境,运行 于大型商用机集群。
Hbase,一个分布式、按列存储数据库。HBase 使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。
功能描述 能够对两个文件通过一项或多项记录进行关联输出,可以是left join、right join或 inner join。 在过程中也可以进行记录的过滤和转换操作
Group Union Hive Parallet Udf
能够根据某个文件的一项或多项记录进行聚合,并进行Max、Min、Count等运算处理。 在过程中也可以进行记录的过滤和转换操作
云计算:(cloud computing)是基于互联网的相关服务的增加、使用和交付模式 ,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。意味着计算能 力也可作为一种商品通过互联网进行流通。 云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模 式。 云模式:cloud model ,用于预测云的性能和行为而采用的物理或数学框架
1、HADOOPr产品介绍: 1.1:HDFS:可以支持千万级的大型分布式文件系统; 1.2:HBase是一个分布式的、面向列的开源数据库; HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。 另一个不同的是HBase基于列的而不是基于行的模式。 1.3:MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性; 每个节点会周期性的把完成的工作和状态的更新报告回来。 他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
分布式编程算法
MapReduce
MapReduce,分布式数据处理模型和执行环境, 运行于大型商用机集群。
分布式锁服务
Chubby ZooKeeper
为什么选择Hadoop
• 扩展能力:能可靠地存储和处理千兆字节(PB)数 据。在不保证低延时的前提下,具有相当大的吞吐量,非 常适合海量数据的运算。
• 成本低:可以通过普通机器组成的服务器群来分发以 及处理数据。这些服务器群总计可达数千个节点。而且每 个节点都是运行在开源操作系统Linux上面的。 • 高效率:通过分发数据,hadoop可以在数据所在的 节点上并行地(parallel)处理它们,这使得处理非常的快 速。 • 可靠性:hadoop能自动地维护数据的多份复制,并 且在任务失败后能自动地重新部署计算任务。
选择Hadoop需要注意什么
• 该框架设计的初衷是针对海量数据的运算处理的问题 。因此对于一些数据量很小的处理没有任何优势可言 ,甚至还不如单机串行的效果,性能也完全体现不出 来。
• 集群中存在大量的机器,所以节点故障是不可避免的 。在Hadoop中有两种类型的结点:namenode和 datanode。Hadoop集群采取的master/slave结构。 Datanode故障一般是不会影响整个系统的,这个和它 的存储策略有关。但是namenode故障是是极大的问题
调度任务
触发器
• 月、周、日、循环触发 • 可扩展自定义触发器
参数
• 绑定到ETL流程的变量名和变量值 • 可设定数据日期和偏移量
执行
• 自动根据触发器执行 • 手动单个执行 • 批量运行数据日期区间 • 批量运行最后一次到目前为止未执行的任务
调度任务
时间触发器设置:可以按照小时、 天、周、月设置触发条件,设置触 发器开始执行时间及失效时间
大数据处理平台解决方案
提纲
1 橘云大数据处理平台简介 2 橘云大数据处理平台功能与特点 3 橘云大数据处理平台部署方案 4 橘云大数据处理平台二次开发接口 5 橘云大数据处理平台业务场景示例
概念
大数据:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大 到无法透过目前主流软件工具,在合理时间内达到抽取,管理 ,处理,并整理成 为帮助企业经营决策更积极目的的资讯。大数据的3V特点: volume,velocity,variety 大数据的单位:最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、KB、 MB、GB、TB、PB、EB、ZB、YB、DB、NB,
相关主题