构建大数据基础平台
卓越绩效IT洞察
构建大数据基础平台
采集、存储并应用数量快速 化与非结构化数据的数量和速率
激增的数据已成为企业面对的一 都在飞速提升,进一步增加企业
个持续趋势。而该趋势仍在不断 的挑战。所有这些催生了统称为
变化:社交媒体、传感器、机器 “大数据”的全新分布式计算范例
和员工都提供了丰富的新数据源。 的发展,并将推动分析技术的发
能够提供“ 现成 ”大数据平台的
套装集成式系统。
图4:两种方法:自行构建系统与使用甲骨文集成式系统 构建自有模型
及额外成本)。集成式解决方案的方法 意味着企业迁移至大数据平台时需要认
还可以改善与现有基础设施的集成。(参 真评估和监测基础设施的总体拥有成本。
见“ 简化大数据实施 ”)例如,甲骨文
大数据机可以简化与甲骨文数据库和商
与此同时,企业应当超越对成本的
务智能工具等现有结构化数据处理系统 关注,寻求促进业务敏捷性和业务发展
大数据分散存储方法具有多项优 势。例如分散存储具有经济、灵活和高 效的特点,能够快速扩展以包括数以千
计相对低成本的服务器,无需升级为昂 会发现关系型数据库已不再是唯一的选
贵的企业服务器和存储设备。并且,无 择。“混合解决方案架构”将混合旧有
共享模式无需与数量有限的共享存储磁 和新型数据库,推动新型基础设施的应
盘传输数据,可以消除严重影响海量数 用,以发掘旧有基础设施的潜力。(见
据处理的性能瓶颈。
图 2)简而言之,未来关于数据架构的
讨论将关注两类基础设施的平衡、共存
但这并不意味着大数据平台将取代 与融合。
现有基础设施,或者传统基础设施虚拟
化与整合已风光不再。大数据与现有平
台 之 间 并 非“非 此 即 彼”而 是“共 存”
性挑战,实现大数据与传统架构的融合,
同时始终关注经济性。埃森哲研究表明,
“ 以数据为中心 ”的设计理念由此显得
格外重要。
图3:基础设施解决方案模式
解决方案模式
优势
具体内容
商用平台,本地存储 1. 高灵活性和大规模输出 2. Hadoop 实施技能可轻松获取 3. 开发或应用Hadoop实施参考架构
1. 商用物理服务器 2. 由商用服务器机架组成的POD配置 3. 直接附加存储 ~12x3TB/节点 4. 现场灾难恢复备份和还原 5. 基础设施自动化与协调 6. 数据中心容量规划
成,安装后的开发与测试等
并延长分析时间。通常,数据转换面临
的问题更多来自财务方面,而非技术。
也就是说使用传统基础设施管理大数据
并不具有经济可行性。
第4页
显然,大数据需要专有且更经济高 效的新型基础设施。很多情况下,这意 味着企业需要转变以往实践。过去几年 中,整合与虚拟化一直是数据中心关注 的重点,目的是减少服务器数量,并与 大型共享存储平台连接,以减少数据中 心的空间。然而,埃森哲预计大数据可 能会反其道而行之,要求数据中心使用 分散的数据模型。多数情况下,恰当的 大数据平台由多个小型商用服务器集群 而非企业级平台组成。存储功能将通过 本地独立服务器实现,取代集中的共享 存储方式。(显然,预建大数据系统是 最适合的方法,将在稍后讨论。)
大数据需要网络基础设施支持 TB 容量的数据集传输。在基础设施中安装 大量商用服务器需要调整电源、温度调 节以及空间等物理基础设施要素。
同样,大数据存储基础设施需要多 PB 的容量,并且能够容纳数以亿计的 数据对象。鉴于非结构化数据作为业务 资产的价值逐步增加,企业应当采取措 施以保证数据的安全性和可用性。企业 需要新的方法,因为传统方法难以应对 如此庞大数量的数据备份和还原任务。 大数据技术的安全特性日渐成熟,企业 应考虑部署适当的控制手段来防止数据 遭到破坏和盗窃。
不相同,因此认真制定前期规划十分关 时候其它方法的效果可能更佳。例如,
IT 团队需要全面的跨领域方法来构 键。基础设施团队需要充分理解大数据 如果工作负载较低,并且无需担心存储
建大数据平台。IT 基础设施团队应同 IT 对数据中心的影响:分析数据中心的容 瓶颈对性能的影响时,具有共享存储的
专家协作,借鉴专家在分析、风险与遵 量、存储和网络要求,确定可能的数据 商用平台可能更为适合,例如企业刚刚
速且灵活存储、移动与合并数据的基础
能工具的连接器 • 实施成本,包括研究、设计
与规划工作,安装和配置,
设施——传统 IT 基础设施设计中并未包 含此类要求。将非结构化数据转变为结 构化数据,并使用关系型数据库管理系 统来管理数据,这在技术上是可行的。
与现有商务智能应用程序集
但是,转变非常耗时,而且会增加成本
IT 机会成本。大数据技术的 团队必须妥善处理大数据的三个特性,
技术的总体成本。为此,企业需
安装和集成耗时会减少 IT 部 即数量(数据量持续激增)、类型(数据
要考虑以下因素:
门对增加商业价值活动的关注 类型不断丰富)和速率(数据流转速率需
• 延迟业务改进的成本。预期 要大幅提升)。此外,并非所有数据都具
着大数据在企业中的作用逐步显 储空间和 216 个 CPU 处理核心。
现,相关基础设施为其它关键业 设备包含全套大数据软件,例如
务解决方案提供同样的绩效、安 Hadoop 和 NoSQL。(参见图 4)预
全性与支持将变得越来越重要。 配置套件的目标是提供企业系统
基于上述事实,企业可能会关注 需要的高性能、可用性与安全性。
非结构化数据在数据中的所占比 展,例如面向非结构化数据设计
例极高,因此企业迅速转向非结 的 Hadoop、NoSQL 等等。
构化数据分析技术,并希望由此
获得竞争优势。(见图 1)
大数据技术支持企业探索提
高效率、降低总体拥有成本和提
非结构化数据对众多企业来 升 IT 基础设施灵活性的可能,持
说仍是一项有待有效开发的重要 续激增的数据迫使企业寻求新的
规、业务应用程序及 IT 治理方面的观 来源,计算需要管理的数据集大小,了 开始探索大数据工作负载有限的情景。
念和预测。不同的观点可以帮助基础设 解 分 析 工 作 负 载(数 量 和 速 率)以 及 (见图 3)
施团队重新规划数据中心,确保数据中 CPU 和 IO 工作负载,明确大数据平台与
心能够应对大数据的数量、速率和复杂 传统商务智能工具的集成程度。
大数据机
1. 快速交付
(美商天睿、DCA、 2. 与现有商务智能分析平台紧密集成
甲骨文)
(甲骨文、Greenplum、美商天睿)
1. 计算机、存储、网络和大数据捆绑组件 2. 高可用性和容错性设计 3. 简单而统一的管理 4. Hadoop管理工具 5. 系统管理工具 6. 单一支持
云实施
Байду номын сангаас
1.
(单用户或多用户) 2.
此类解决方案相比商用服务器集群可能
取得成功。计算范例可能因大数据而改
需要更高的前期硬成本,但其技术与软
大数据基础设施与传统基础设施在 变,但企业对 IT 支持效率与创新的期待
件捆绑能够加快部署速度,而且可以避 很多方面存在差异,但两者遵循一项基 从未改变——这将成为评判大数据基础
免实施 Hadoop 和连接硬件的复杂性(以 本原则,即需要确保 支持经营绩效。这 设施成功与否的重要标准。
IT 治理也需要调整以支持大数据。 一般情况下,企业必须制定全面的治理 流程,涵盖从大数据平台绩效管理到服 务退单、事件 / 问题管理以及服务台支 持的各个环节。
第7页
规划基础设施
同样,需要明确大数据平台建设没
如前所述,部分企业可能倾向于分
有 “ 一刀切 ” 标准。企业的实际情况各 布式无共享商用硬件基础设施,但很多
图1 问:您是否正在使用或计划部署以下技术?
关系型数据库
搜索索引
规则引擎
纵列数据库或列式数据库
文档存储
复杂事件处理
内存数据库
数据仓库设备(集成软件和硬件的预配置捆绑套件)
键值存储
Ha oop
0 10 20 正在使用
30 40 50 60 70 80 计划在12个月内添加该技术
90 100 尚无计划
来源:IDC、计算机世界IT调查商务智能与分析分组调研,2012年,n = 111
• 硬件成本,包括服务器、存
的员工效率提升和业务洞察 有价值,而 IT 部门必须帮助数据专家筛
储和网络
选海量的数据,以便“大海捞针”,获取
力可能推迟至实施项目结束 业务洞察力。
• 软件成本,包括大数据软件
后才能实现
(如 Hadoop 及其生态系统)
总的来说,大数据需要一个能够高
和集成传统数据库与商务智
商用平台,共享存储 1. 中小企业实施 2. Hadoop实施技能可轻松实现 3. 开发或应用Hadoop实施参考架构
1. 在VMWare ESXi等管理程序中运行的虚拟服务器 2. 由nESX集群(密度为n至1)组成的POD配置 3. 共享横向扩展NAS 4. 共享存储可能成为瓶颈 5. 现场备份与还原 6. 外部复制以用于灾难恢复 7. 基础设施自动化与协调 8. 数据中心容量规划
的关系。要在海量的繁杂数据中获取商
业价值,IT 基础设施团队必须应用两类
基础设施模型,并运行两种截然不同的
平台,然后开发一个融合了两者特性的
数据架构。
秉承上述理念,埃森哲预计数据库 技术将出现新的平衡,因为数据架构师
数据摄入 数据整合
图2:融合型数据架构 数据源
商务智能分析
高级分析
非结构化
RDBMS 外部 ODS
资源,可帮助企业获得更深入的 方法来采集、整理、管理和分析
客户和运营洞察力,并最终形成 数据。
竞争优势。然而,传统关系型数
据库和商务智能工具针对结构化