当前位置:文档之家› 企业大数据案例分析(公司大数据、集团大数据)

企业大数据案例分析(公司大数据、集团大数据)

企业大数据案例分析目录1中国联通大数据平台 (4)1.1项目概述 (4)1.2项目实施情况 (5)1.3项目成果 (10)1.4项目意义 (11)2恒丰银行大数据平台 (12)2.1项目概述 (12)2.2项目实施情况 (15)2.3项目成果 (21)2.4项目意义 (21)3华通CDN运营商海量日志采集分析系统 (24)3.1项目概述 (24)3.2项目实施情况 (24)3.3项目成果 (28)3.4项目意义 (28)4案例总结 (30)1中国联通大数据平台联通XX公司公司按照工信部的的要求(见《工业和信息化部、国务院国有资产监督管理委员会关于开展基础电信企业网络与信息安全责任考核有关工作的指导意见》和《工业和信息化部办公厅关于印发<2013年省级基础电信企业网络与信息安全工作考核要点与评分标准>的通知》),于2013年启动IDC/ISP日志留存系统的建设,其中XX 公司侧的集中留存系统软件由联通研究院负责开发。

为了满足海量数据条件下的处理效率的要求,XX公司侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。

1.1项目概述目前,联通XX公司公司全国IDC出口的访问日志预计两个月产生的数据量约20 PB至30PB,每秒写入大概6千万至7千万条数据,在如此巨大的数据量下,原有Ter adata和Oracle已经不能满足快速读写的性能要求了。

同时为了实现快速检索以及分析处理的性能要求,需要引入分布式大数据平台,利用分布式文件存储系统,提高数据的存储入库能力,利用Hadoop/HBase架构克服磁盘I/O瓶颈导致的数据读写延迟;基于联通IDC出口流量详单数据进行快速存储和检索以及分析处理,同样要求数据处理平台具备快速读写的高性能。

中国联通公司全国IDC日至留存项目对分布式集群的要求非常高:(1)日志数据量非常大,存储的总日志数据量将达到20PB-30PB。

(2)要求集群的数据吞吐量非常高,每秒的日志写入量将达到6千万至七千万条,未来还会增长更多,每秒的数据写入量为上百GB(3)数据访问的性能要求非常高,对日志的分析需要分钟级、甚至秒级返回结果。

(4)数据计算量大,日常日志扫描任务就需要扫描上百TB,甚至上PB的数据。

(5)集群的扩展性要求非常高,能够灵活扩展至上千个节点的集群。

根据此次中国联通的需求,以及项目的特点和技术要求,推荐采用商用的、成熟的、基于星环Transwarp Data Hub的企业级大数据平台套件,构建中国联通IDC日志留存平台的基础大数据平台,用于满足海量日志的高速存储、计算、分析、挖掘的需求。

1.2项目实施情况星环科技通过协助联通XX公司搭建基于星环Transwarp Data Hub的大数据平台,成功为联通XX公司搭建了信息安全管理系统大数据存储处理子系统项目所采用的平台系统。

分布式大数据平台采用Hadoop/HBase架构,能够支持对联通IDC出口流量详单的存储和快速检索和分析处理。

系统拓扑:图4-1联通大数据平台技术架构整个集群由FTP集群和Hadoop集群组成,其中:FTP集群:➢由129台服务器组成,hostname对应为idcisp-ftp-001 ~idci sp-ftp-129➢功能:主要存放从各大机房传输过来的数据,放到对应目录下由Su perListen进程进行监控,并将数据统一传输到Hadoop集群的HDFS上Hadoop集群:➢组成:Zookeeper 11台,NameNode 2台,Resource Manager 1台,hamster 5台,DataNode921台➢功能:安装了tdh相关的组件Hadoop、Hyperbase、Inceptor,存储从ftp服务器传输过来的数据,并定时导入到Hyperbase中,供上层应用或程序的调用快速返回查询结果,同时也可以通过inceptor进行统计分析,暂时保存的数据是2+1月每天存储Hyperbase中的数据大概10T左右,存储的是2+1月,除了存储在Hy perbase中的数据,HDFS也会有原始数据的备份,现在空间占用大概在65%左右。

Transwarp Data Hub平台部署拓扑图:图4-2联通大数据平台网络拓扑实际部署星环的Hadoop集群,存储能力达到全国IDC出口访问日志两个月的存储能力,约为20PB,总带宽16764G,每G每秒生成话单4000条计算,每秒新写入数据为67056000条访问日志。

入库方式:➢传统的API put方式平均每秒每台机器只能入库约2万条数据,900台机器的极限是1.8千万条/秒。

远远低于数据灌入速度。

➢Bulkload是唯一的选择:定制化的Bulkload入库效率约为单节点每秒12万,900台机器的入库能力超过10.8千万条/秒➢数据通过通过FTP服务器集群中部署HDFS写入Agent方式直接由ftp集群直接上传到HDFS中。

注:之前IP溯源Bulkload对三张表(一张内容表+2张索引表)的入库效率为4万条/秒/节点。

此次为了最大限度的利用Bulkload的效率,一方面去除了2张索引表,另一方面也优化了已有Bulkload 代码。

优化内容:➢数据入库时负载均衡,优化rowkey中日期时间,避免数据写热点。

➢8位UUID尾缀避免同一时间点上的数据相互覆盖。

➢Rowkey上优化时间排序,加速读过程,保证数据从最近到最远排序。

➢保留60天历史数据,每天各建一张表,提升每张表的可管理性➢建表时预设15000个Region,提升Bulkload入库效率。

➢不建索引表,改用定制化的API满足查询需求,进一步增大入库带宽。

根据中国联通对IDC出口的流量详单的存储与快速检索、分析的处理的要求,星环科技为联通XX公司提供了如下技术组件与模块:表4-1 组件列表联通XX公司搭建的信息安全管理系统大数据存储处理子系统,所采用的硬件设备如下表所示:表4-2 节点配置表星环科技作为大数据平台技术提供商,XX公司侧集中留存系统软件除研究院自主开发外,基于Hadoop的数据存储部分计划进行外包,通过软件技术服务,来进行系统优化和维护支撑。

表4-3 项目概况1.3项目成果项目所搭建的星环Transwarp Data Hub平台,克服在海量数据的条件下,因磁盘I/O性能带来的数据处理瓶颈,分布式大数据平台采用Hadoop/HBase架构,项目成果如下:搭建了超过900个节点的星环Transwarp Data Hub集群,满足约20000T(20 PB)至30000T(30PB)的数据存储能力以及每秒写入大概6千万至7千万条数据的读写性能。

经测算,数据平台的性能为:➢高速数据插入吞吐量远高于单节点30MB/S;➢单节点在索引上检索性能不低于1W条/秒;➢提供数据据高并发查询,单节点SQL并发度不低于3000次/秒;➢提供SQL对数据的高速统计分析,线性扫描性能单节点不低于80MB/S。

通过Hyperbase对外提供的SQL接口,上层应用通过SQL进行数据访问和查询,极大的降低了对开发人员专业技能的要求,降低了系统维护成本,同时提高了应用开发效率。

通过Hyperbase集成的Elastic Search功能,应用层可以通过全文索引进行日志数据的检索,根据关键字的检索响应时间在20ms以内,整个集群可以承载的基于关键词的检索并发度远高于100万/秒。

对海量IDC出口访问日志的分析性能极为高效,日扫描数据量超过100TB。

入库效率单节点每秒12万条日志,集群总体入库能力目前超过10.8千万条/秒。

每天Hyperbase新增存储日志量超过50TB。

1.4项目意义基于星环Transwarp Data Hub搭建的中国联通IDC日志留存大数据平台,目前已经部署了900多个x86服务器节点,是目前国内非互联网公司范围内规模最大的单一客户、单一集群的企业级大数据平台,从全球的非互联网行业看,如此大的部署规模也不常见,是国内XX公司级、总部级客户中非常成功的落地项目,充分证明星环科技Transwarp Data Hub大数据平台可以为企业级客户提供成熟的、稳定的的大规模部署方案,中国联通IDC日志留存大数据平台为XX公司大数据平台的建设提供了宝贵的经验,可以帮助XX公司搭成功建起高效、稳定的、充分满足XX公司需求以及符合X X公司特色的大数据平台。

2恒丰银行大数据平台恒丰银行股份有限公司是12家全国性股份制商业银行之一,其前身为1987年经国务院同意、中国人民银行批准成立的烟台住房储蓄银行。

2003年经中国人民银行批准,正式改制为恒丰银行股份有限公司,成为全国性股份制商业银行。

目前,恒丰银行在全国设有14家一级分行,2家总行直管行,共256家分支机构;另外还发起设立了5家村镇银行。

截至2015年末,恒丰银行资产规模达到1.05万亿元,全年净利润同比增长14%,净资产收益率ROE超过15%,新增分支机构74家,与上年相比实现翻番,创历年新高。

在英国《银行家》杂志发布的“2015年全球银行1000强”排名中,恒丰银行位列第170位。

恒丰银行较好的实现了盈利与稳健发展的平衡。

盈利能力方面,恒丰银行在香港中文大学发布的《亚洲银行竞争力研究报告》中位列亚洲银行业第5位;稳健发展能力方面,恒丰银行在中国银行业协会发布的“商业银行稳健发展能力‘陀螺(GYROSCOPE)评价体系’”中,在综合能力排名中位列全国性商业银行第7位,全国性股份制商业银行前三。

2.1项目概述随着利率市场化进程加快、互联网金融业态的发展,传统银行与实体经济的业务横向联系与深度融合进展迅速,业务数据的内容不断丰富,建立在数据处理技术之上业务洞察能力也需要不断提升。

恒丰银行处于业务发展的新阶段,新业务模式的创新离不开数据的支持,也对数据信息服务的总体能力提出了新的要求。

基于大数据平台技术,整合现有行内数据,接入行外数据,搭建处理能力更强,更易于扩展,性能更高的统一数据平台。

不仅可以很好的满足高计算、高存储、高负载的要求,更能够对海量的数据进行数据存储、清洗、加工、建模等,把先前无法利用的数据充分利用,提升对数据的认识,抓住机遇为恒丰银行数据平台建设做好最基础、最扎实的工作。

根据恒丰银行的实际应用需要,分别搭建基于大数据平台的企业数据仓库和历史数据分析探索平台,满足海量数据的低成本高效存储、加工、使用,完成企业数据仓库应用的迁移和优化重构,满足移动互联渠道场景的高并发低延时数据服务需求,协助业务数据分析团队自主的数据探索和业务建模。

恒丰银行传统数据仓库是建立在IOE体系之下,支持TB级别数据存储并提供复杂数据查询功能的数据管理体系。

相关主题