当前位置:文档之家› 大数据平台概要设计说明书模板

大数据平台概要设计说明书模板

计算平台概要设计说明书作者:日期: 2013-01-28 批准:日期:审核:日期:(版权所有,翻版必究)文件修改记录目录1.引言 (5)1.1 编写目的 (5)1.2 术语与缩略词 (6)1.3 对象及范围 (8)1.4 参考资料 (9)2.系统总体设计 (9)2.1 需求规定 (9)2.1.1 数据导入..................................... 错误!未定义书签。

2.1.2 数据运算..................................... 错误!未定义书签。

2.1.3 运算结果导出................................. 错误!未定义书签。

2.1.4 系统监控..................................... 错误!未定义书签。

2.1.5 调度功能..................................... 错误!未定义书签。

2.1.6 自动化安装部署与维护......................... 错误!未定义书签。

2.2 运行环境 (9)2.3 基本设计思路和处理流程 (9)2.4 系统结构 (10)2.4.1 大数据运算系统架构图 (10)2.4.2 hadoop体系各组件之间关系图.................. 错误!未定义书签。

2.4.3 计算平台系统功能图 (11)2.4.4 系统功能图逻辑说明 (11)2.4.5 计算平台业务流程图........................... 错误!未定义书签。

2.5 尚未解决的问题 (12)3.模块/功能设计 (12)3.1 计算驱动模块 (15)3.1.1 设计思路 (15)3.1.2 流程图 (17)3.1.3 处理逻辑 (18)3.2 调度模块 (13)3.2.1 设计思路 (13)3.2.2 流程图 (14)3.2.3 处理逻辑 (14)3.3 自动化安装部署模块................................. 错误!未定义书签。

3.3.1 设计思路..................................... 错误!未定义书签。

3.3.2 处理逻辑..................................... 错误!未定义书签。

3.4 调度模块与计算驱动模块交互流程..................... 错误!未定义书签。

3.4.1 处理流程图................................... 错误!未定义书签。

3.4.2 处理逻辑..................................... 错误!未定义书签。

3.4.3 hadoop驱动模块调用驱动接口.................. 错误!未定义书签。

3.4.4 调度模块接收hadoop执行状态接口.............. 错误!未定义书签。

3.5 调度模块与kettle交互流程.......................... 错误!未定义书签。

3.5.1 处理流程图................................... 错误!未定义书签。

3.5.2 处理逻辑..................................... 错误!未定义书签。

3.6 对调度任务运行过程进行监控流程..................... 错误!未定义书签。

3.6.1 处理流程图................................... 错误!未定义书签。

3.6.2 处理逻辑..................................... 错误!未定义书签。

3.7 对hadoop驱动任务运行过程进行监控流程.............. 错误!未定义书签。

3.7.1 处理流程图................................... 错误!未定义书签。

3.7.2 处理逻辑..................................... 错误!未定义书签。

3.8 对操作系统/应用程序监控流程 (19)3.8.1 处理流程图 (19)3.8.2 处理逻辑 (19)3.9 监控报警模块 (20)3.9.1 设计思路 (20)3.9.2 流程图 (21)3.9.3 处理逻辑 (21)4.系统数据结构设计 (22)4.1 数据实体关系图 (22)4.2 数据逻辑结构 (22)4.2.1 驱动任务设置表............................... 错误!未定义书签。

4.2.2 驱动设置表................................... 错误!未定义书签。

4.2.3 驱动任务执行明细表........................... 错误!未定义书签。

4.2.4 调度任务表................................... 错误!未定义书签。

4.2.5 调度步骤表 (23)4.2.6 调度步骤执行记录表 (24)4.2.7 操作系统监控数据表........................... 错误!未定义书签。

4.2.8 应用程序监控数据表........................... 错误!未定义书签。

4.2.9 监控系统配置表............................... 错误!未定义书签。

4.2.10 业务数据记录表............................... 错误!未定义书签。

4.3 数据物理结构 (31)5.安全设计 (31)6.容错设计 (31)6.1 挽救措施 (31)6.2 系统维护设计 (31)7.日志设计 (31)1.引言1.1编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。

《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。

麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。

世界经济论坛的报告认定大数据为新财富,价值堪比石油。

因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。

互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。

有资料显示,1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1024MB),2014年将是10GB。

全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。

我国网民数居世界之首,每天产生的数据量也位于世界前列。

淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。

百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB 数据。

一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。

医院也是数据产生集中的地方。

现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。

总之,大数据存在于各行各业,一个大数据时代正在到来。

信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。

一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。

2007年全球有5亿个设备联网,人均0.1个;2013年全球将有500亿个设备联网,人均70个。

随着宽带化的发展,人均网络接入带宽和流量也迅速提升。

全球新产生数据年增40%,即信息总量每两年就可以翻番,这一趋势还将持续。

目前,单一数据集容量超过几十TB甚至数PB已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。

数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。

鉴于越来越大的数据规模,采用常规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求,目前一些大型互联网公司采用hadoop体系进行大规模数据的运算,结合hadoop体系结构与实际的运算需求结合,采用hadoop 体系结构的分布式运算模型,通过集群的方式实现大数据运算,为企业提供大数据的价值。

为适应大数据计算的要求,同时提供大数据运算平台的系统设计的依据,特制定计算平台的系统概要设计文档,为后期的系统详细设计和实现提供依据。

1.2术语与缩略词下列术语、定义和缩略语适用于本标准:1.3对象及范围1、开发人员、DBA、测试人员;2、研发主管领导、产品人员;1.4参考资料1、《大数据处理体系架构》2、《HBase The Definitive Guide》3、《The.Definitive.Guide.3rd.Edition.May.2012》4、《Programming_Hive》2.系统总体设计2.1需求规定2.2运行环境操作系统:RedHad Enterprise 5.5软件环境:Java 1.6Hadoop-1.0.4HBase-0.94.9Hive-0.10.0sqoop-1.4.2zookeeper-3.4.5Kettle 4.3MySQL 5.1硬件环境:8核16G内存PC服务器8台2.3基本设计思路和处理流程1、按照数据分析的实时性,分为在线数据分析和离线数据分析。

2、在线数据分析:往往要求系统在数秒内返回上亿行数据的分析,从而才能达到不影响用户体验的目的。

3、离线数据分析:对大多数反馈时间要求不高的应用,比如离线统计分析、机器学习等,应采用离线分析的方式,通过数据采集工具将日志数据导入专门的分析平台进行分析。

4、系统主要以离线数据分析为主,采用目前在互联网业界流行的hadoop体系结构对大批量的数据进行运算,采用hadoop集群的方式对大数据进行运算。

5、数据运算平台以调度为主线,作为运算平台的核心控制系统,对运算平台的各个环节进行控制,且对运算过程中的步骤依赖关系进行控制,同时对各个环节进行监控,通过监控异常报警来提高系统的稳定性和异常响应速度。

2.4系统结构2.4.1大数据运算系统架构图2.4.2大数据平台系统功能图系统功能图逻辑说明1)生产系统的源数据通过sqoop,flume,Kettle等获取后保存在Kafka消息队列中或者保存到hadoop的hdfs系统中。

相关主题