当前位置:文档之家› 中国移动企业级大数据中心建设指导意见V1.1(终版)资料

中国移动企业级大数据中心建设指导意见V1.1(终版)资料

中国移动企业级大数据中心建设指导意见为进一步提高中国移动互联网战略的服务能力,对驱动企业管理的精细化、智能化,对外提供信息服务型产品,实现大数据开放后的运营和服务提升,公司决定在全国围实施中国移动企业级大数据中心建设工作,通过整合全公司数据资源,盘活数据资产,助力公司第三条曲线的拓展,以服务“增效、外增收”的整体企业战略,保证中国移动在激烈市场竞争中的可持续发展。

一、建设要求与重点企业级大数据中心作为中国移动唯一、统一的数据采集、处理、服务和运营的平台,通过“统一采集、统一存储、统一管理、统一运营和统一服务”,形成集团及各省市公司“多节点”、“网状网”形态的数据和服务共享能力;具备独立机构以承担平台建维、数据交换、资产管理、应用开发、数据服务和数据运营职责。

为企业、外部客户提供“按需”的服务能力,辅助企业决策,彰显数据价值。

企业级大数据中心的建设要求包括三方面:(一)建好组织:建立相对独立的、专业的企业级大数据中心管理机构,立足公司全局,全面负责企业级大数据平台的规划、建设、运维,以及数据资产管理、产品开发和数据运营等职能。

(二)搭好平台:企业级大数据中心满足中国移动全部数据“统一采集、统一存储、统一管理、统一运营、统一服务”的要求,实现逻辑集中;全部数据的采集、处理和存储分布于多个节点,进行物理分散,同时实现关键数据资产的异地容灾备份。

(三)做好服务:企业级大数据中心能为集团各部门、专业基地(位置等)、专业公司(咪咕、互联网、政企、在线服务、物联网等)、各省公司及外部行业提供灵活的“按需”服务。

二、建设重点企业级大数据中心建设重点要求如下:(一)企业级大数据中心的能力要求为了承接大数据中心的基础平台管理、数据交换、资产管理、应用开发、数据应用、数据运营六个职责,在大数据平台技术架构层面提供数据基础服务能力、系统平台管理能力、数据资产管理能力和应用共享开放能力四个部分:数据基础服务能力:数据基础服务能力是大数据平台的基础,包含数据采集功能、数据存储运算功能、数据交互功能。

数据采集需包括来自BSS、OSS、MSS的基础数据、来自于用户上网行为的DPI二次解析数据以及来自外部的第三方数据的数据采集。

数据存储运算功能可根据数据类型及应用采用不同类型的数据库技术实现对不同价值、规模、时效性的数据差异化存储和运算。

数据交互功能是实现不同形式的数据存储之间的数据交互。

系统平台管理能力:大数据平台需具备系统平台管理能力,提供对大数据平台的软件和硬件资源的管理,包括诸如资源管理、负载管理、配额管理以及计量管理等。

通过系统平台管理能力大数据平台管理者可以根据租户提出的平台资源和能力的申请进行资源分配、监控、动态调整以及资源开销核算。

数据资产管理能力:数据资产管理能力包括数据质量管理、数据安全管理等。

数据安全管理提供跨租户、跨时间、跨平台、跨任务的数据质量监控与管理。

数据安全管理能力对大数据平台的使用者进行相关的账号、授权、鉴权等设置。

应用共享开放能力:为支持应用开发者高效、安全、规的进行应用开发,大数据平台需要具有应用开放能力,应用开放能力包括开发者管理门户、统一调度平台等功能。

通过开发者管理门户实现注册认证、资源申请、数据申请、开发上线功能的管理。

统一调度平台需集成图形化的开发界面,通过统一封装的函数库提供类SQL的开发语言,以屏蔽底层差异性,降低业务人员的开发门槛,实现快速的业务开发。

(二)企业级大数据中心的技术架构按照“逻辑统一,物理分离”的原则构建全国统一的多域融合企业级大数据中心。

在云资源池基础上按照“1+31”方式在总部和省公司分别建设总部节点和省级节点。

总部节点采集总部系统和专业公司系统以及全国性、总体性对外业务合作的外部数据;省级节点采集省系统BSS、MSS、OSS三域及其它系统数据、省级对外业务合作的外部数据。

总部节点和省级节点之间通过轻度汇总和高价值详单数据接口进行数据交互,逐步形成全国共享、按需服务、形成大数据的良性生态圈,对对外提供数据、平台和应用服务。

图1 中国移动企业级大数据中心的体系架构利用现有集中化经分系统,向企业级大数据中心演进,利用省公司现有经分系统能力,演进为省公司大数据中心,合理利用现有资源,实现大数据中心能力的快速搭建和提升,打造“DW+MPP+Hadoop”混搭技术架构。

Hadoop:承载大数据中心的ETL功能,实现三域数据定时、实时数据处理;承载清单、网络信令、非结构化数据等基础数据处理;建立企业级统一标准模型,并且对外提供明细查询服务。

采用Hadoop技术和PC服务器架构解决数据量大、数据多样的问题;MPP:是使用SQL进行结构化大数据处理和分析最好的技术选择,具有高并发、支持多表联合复杂查询、高安全等优势。

DW:传统数据库,面向企业级高性能数据处理,进行复杂汇总分析运算。

采用高性能库和传统小机架构提升数据分析性能,集中保障集团、省级应用。

企业级大数据中心各节点按照能力需求划分为数据源、资源池层、数据采集/分发层、数据计算和存储层、能力开放层、数据运维和管理数据、数据应用。

图2 企业级大数据中心节点功能结构数据源数据源包括企业部BSS域、OSS域、MSS域各系统的清单级和汇总级数据,以及企业外部系统的数据。

重点接入LTE的XDR数据,实现O域、M域及外部数据源与现有B域数据的融合;资源池层采用云计算、虚拟化技术整合计算、存储和网络等硬件资源向上提供服务。

数据采集和分发以离线批抽取和在线实时抽取方式从数据源系统采集数据,将采集数据或DPI二次解析后的数据按照数据种类分发至负责数据计算和存储的各类集群,并协调各集群之间的数据同步。

数据计算和存储为适应各类海量结构化,非结构化数据的计算和存储要求的多种集群。

包括面向批处理的Hadoop集群(MR,Spark,用于ETL)、面向文件存储和查询的Hadoop集群(HDFS,Hbase,Hive)、流处理集群(Storm/Spark Streaming)传统数据仓库集群DW、MPP数据仓库集群、存数据库集群。

各集群数据流向呈交叉网状,应支持资源的多租户调用。

能力开放层从数据、API、工具三个层次对外提供服务。

透明数据层在各类数据计算和存储集群之上提供一个面向各类应用的统一数据访问能力,屏蔽各计算和存储集群的复杂性。

OPEN API以接口方式封装各类数据计算和存储集群的能力,供各类应用调用。

并提供自助报表、OLAP工具、SAS/SPSS数据挖掘、IDE等工具类服务。

数据运维和管理包含数据资产管理、元数据管理、统一调度、多租户管理、资源池运营、权限管理、安全管理、系统运维管理。

数据应用架构上对数据和应用进行解耦,各类应用(不同的应用开发商)通过能力开放层的服务使用数据。

应用涵盖企业、外部,包括报表、查询、统计、分析、挖掘,对外价值变现等。

基于以上大数据平台重点支撑的需求,系统技术架构应包括数据源、数据采集与处理、数据存储、数据应用四个主要组成模块。

梳理大数据平台系统应具备的关键技术,深入研究各项大数据关键技术,为未来公司级大数据平台建设实施工作提供技术储备和参考。

图2 企业级大数据中心的技术架构(四)企业及大数据中心对外服务的模式与场景企业级大数据中心对外提供SaaS、PaaS、DaaS的服务模式,将大数据采集、存储和处理的基础能力以及数据本身开放给个性化应用的开发者,这些开发者可利用开放的能力,开发个性化应用(或数据);将大数据的应用(或数据)提供给公司业务部门、网络部门以及外部行业客户。

图3 企业级大数据中心对外服务模式大数据中心对外提供服务的模式分为三种:SaaS、PaaS和DaaS。

SaaS(Software as a Service,“软件即服务”)是按需求进行应用开发,提供指标、报表或专题分析,以应用的方式提供给需求方使用。

使用者通常为无自行开发能力的需求方。

应用场景举例:1)市场部通过自助服务、即席查询等方式自行分析;2)大数据平台运营方开发业务统计报表供市场部、财务部等部门作为决策和管理依据。

PaaS (Platform as a Service 平台即服务)提供给使用者部署应用到云基础设施上的能力,这些应用是使用者通过使用平台支持的编程语言和提供的开发工具创建或采购的。

PaaS使用者不必关心底层云基础设施(包括网络,服务器,操作系统,或存储),但需关心所部署的应用,并可能控制应用环境的配置。

使用者为有个性化需求、深度需求,利用平台工具和数据,自行组织应用开发的部需求者、合作伙伴以及外部数据需求方。

应用场景举例:网络部第三方厂商利用大数据平台直接调用三域融合数据,利用其归属租户存储其分析数据,通过统一IDE开发其应用,以API接口方式与其原有应用对接。

Daas(Data as a Service,数据即服务)是对各种数据进行不同程度“数据封装”,通过各种服务方式向不同应用系统提供数据服务,满足企业外部用户的多样性数据请求。

建立数据服务请求和数据之间标准化的访问接口,提升与外部系统的互动和信息共享能力。

使用者为有个性化需求、深度需求,需要从大数据平台获取数据,自行组织软硬件资源以及应用开发的部需求者、合作伙伴以及外部数据需求方。

应用场景举例:1、开发者通过数据集成平台进行批量数据的准备与接口配置。

2、开发者通过数据封装平台将准备好的数据封装成相应的查询接口。

3、开发者通过消息中间件平台提供的接入、接出能力进行接口配置。

4、开发者将以上3类接口,注册到服务集成平台中,形成数据服务访问接口。

5、上层应用(或外部系统),通过服务集成平台查看数据服务接口信息,并调用。

(五)企业级大数据中心的数据治理企业级大数据平台的数据膨胀给整个开发、架构、运维体系都难已承载巨量的数据,对平台支撑以及系统管理能力带来巨大的挑战,同时数据是企业最核心的资产,如何有效进行数据的保值和增值,需要建立大数据中心的数据治理和数据资产运营管理体系,实现数据管理的降本增效,提升数据管理能力与数据价值。

企业级大数据中心数据治理包括数据标准管理、数据运维、数据资产运营和数据资产应用,通过进行全面数据模型梳理、优化,实现数据资产的可视、可控,建立全流程的开发维护规和流程,支撑面向部应用和对外服务的数据管理应用。

企业级大数据中心的数据资产包括基础数据、数据模型、挖掘模型、数据字典、元数据及数据分析报告等方面。

(1)数据标准管理当前大数据时代下,数据作为企业最有价值的核心资产,成为企业间竞争的核心因素;企业级大数据中心将不断引入三域数据、企业外部数据等海量结构化、半结构化数据,数据管理、运维难度加大,亟需建立大数据平台完整的数据规则管理、标准开发以及运维体系:数据规则管理体系须加强大数据中心的数据管控,增强数据模型设计、数据字典规则设置等管理流程标准化、规化。

相关主题