当前位置:文档之家› Linkoop领象大数据平台白皮书

Linkoop领象大数据平台白皮书

Linkoop 领象大数据平台白皮书V3.0Linkoop领象大数据平台为企业级大数据应用提供了数据全生命周期的解决方案,包含了数据集成、数据管理、数据安全、数据查询以及数据分析的整套分布式大数据平台和计算平台,帮助企业对海量数据进行采集、存储、治理、分析和挖掘,发现数据价值。

Linkoop领象大数据平台技术特点➢业界领先的大数据计算能力不论是数据导入、清洗、查询、分析还是复杂的机器学习任务,Linkoop都将这些任务转化为Hadoop上的分布式计算任务,充分利用整个大数据集群的计算能力。

Linkoop对计算任务中的关键操作进行了定制化开发和优化,如数据加载、多维关联等常用操作,在降低使用难度的同时提高了计算效率,优化后的处理性能可达Hive-tez的10倍以上,Spark的2-10倍。

Linkoop在电信领域广泛应用,每天处理的新增数据量超过600TB,充分验证了平台数据处理的性能和稳定性。

➢全图形化的数据处理流程设计Linkoop创新性地提供了数据处理流程的图形化开发界面,使得在大数据平台上的数据处理不需要编写Hadoop代码,只需要通过鼠标拖拽添加功能组件,设定功能组件的运行参数和功能组件之间的依赖关系,就能够完成大数据处理流程的定义。

对于定义完成的数据处理流程,能直接生成计算任务,提交平台执行和监控。

全图形化的使用界面大大降低了对大数据应用开发、实施和运维人员的技术门槛,减少了项目实施的周期和成本。

➢插件式功能扩展Linkoop提供的功能组件既包括数据采集和ETL任务相关的数据抽取、清洗、脱敏、校验、转换等功能,也包括了数据分析所需要的多维关联、聚集、统计以及机器学习算法等功能。

在Linkoop的架构中,这些功能组件都是以插件的方式进行添加的,因此对于不同行业和领域的特殊需要,只需要增加相应的功能组件即可满足特定的计算需求,提高了对不同领域需求的快速响应能力和灵活的系统扩展能力。

➢流数据处理与批处理一致的操作界面在Linkoop的图形化开发界面中开发数据处理流程时,流数据处理流程的设计界面和批处理是一致的,除了部分功能组件(如部分机器学习算法)不支持流数据处理流程之外,大部分的功能组件是同时支持流数据处理和批处理的。

因此在开发面向流数据的大数据实时应用时,开发人员并不需要学习专门的流数据计算框架,只需要使用与批处理一样的操作逻辑,即可完成流数据处理的流程设计。

➢无限水平扩展Linkoop基于Hadoop开源系统开发,完全继承了Hadoop线性水平扩展的特性。

通过向集群增加机器,无需停机即可线性扩充存储容量或提高处理性能。

水平扩展的能力有效地解决了企业由于数据增长和业务增长导致的处理性能不足和频繁数据迁移的问题。

Linkoop完全依托于开源社区,支持在Cloudera CDH、Hortonworks HDP以及华为FusionInsight等开源Hadoop发行版之上部署。

Linkoop领象大数据平台体系架构图一、Linkoop大数据平台体系架构Linkoop领象大数据平台由Hadoop、分布式计算框架(Africa)、大数据支撑平台(Grassland)、数据分析产品(Rhinos)、数据管理产品(Zebra)、数据查询产品(Gazelle)、数据集成产品(Cheetah)、安全管理产品(Griffin)和运维管理产品(Hippo)构成。

Linkoop分布式计算框架(Africa)在开源Hadoop的基础上,Linkoop对开源大数据软件生态进行了大量的整合和优化工作,建立了覆盖实时流数据处理、离线批处理和SQL查询三个最常用的大数据应用场景的分布式计算框架Africa。

Linkoop分布式计算框架中包含流计算框架Flink+、离线计算框架Spark+和SQL引擎Presto+,通过在开源软件(Flink、Spark和Presto)的基础上进行功能扩展和性能优化,支持稳定高效的企业级大数据应用。

Linkoop大数据支撑平台(Grassland)在Linkoop分布式计算框架的基础上,通过对底层的计算框架和存储方案进行包装,Linkoop 能够以多个引擎对上层应用提供大数据计算和存储支持。

Grassland中的引擎包括:➢流计算引擎通过将实时流数据上的数据处理任务翻译成优化后的Flink任务,然后提交到执行队列。

流计算引擎还负责轮询任务状态供用户查询和监控。

➢离线计算引擎通过将离线数据分析任务或者数据集成任务(即批处理任务)翻译成优化后的Spark任务,然后提交到执行队列。

离线计算引擎还负责轮询任务状态供用户查询和监控。

➢数据查询引擎针对不同查询对象和查询条件,将查询派发到不同的查询引擎(HBase或Presto),能够查询存储在HDFS、Hive、HBase、Cassandra或Elastic Search中存储的数据。

➢数据存储引擎为多种数据存储方案(HDFS、Hive、HBase、Cassandra、ElasticSearch、消息队列和远程数据库)提供统一视图。

Grassland还提供了任务加速器Booster和算法库。

Booster为普通用户不可见的功能模块,基于用户定义的数据处理流程和收集的数据的统计信息,Booster将计算任务转化为高效执行的分布式计算框架上的程序,使得用户不需要关注于计算任务的实现和优化,从而能够更多地关注计算任务的业务含义。

Booster对计算任务的优化方法不仅采用了启发式规则,而且对同一计算任务的不同执行计划的代价进行了估计,从而得到最优的执行计划。

算法库中提供了大量优化的数据处理方法的分布式计算版本,算法涵盖了数据集成、数据分析以及机器学习任务中所需的大多数常用方法,例如数据访问方法、数据转换方法、数据校验方法、数据过滤方法、数据聚集方法、数据合并方法、数据统计方法、图计算方法以及机器学习中的关联、聚类、分类和回归等常用算法。

数据分析产品(Rhinos)图二、Linkoop数据分析产品Rhinos分析流程设计界面不会写程序,也能分析大数据!Linkoop 数据分析产品Rhinos致力于为数据分析人员提供简便易用的图形化数据分析流程设计工具。

在Rhinos中,数据分析人员根据业务需要,把不同的数据处理单元(Step)拖拽并组合成有向无环图(DAG),形成数据分析流程。

数据处理单元是对Grassland中算法库的包装,主要包括数据访问、SQL操作、分支判断、数据校验、转换、统计以及机器学习算法等,这些数据处理单元的组合能够涵盖大多数数据分析场景。

对于暂时未能覆盖的分析功能,用户可以通过自定义UDF或者扩展数据处理单元等方式,增加数据分析流程的能力。

图三、Linkoop数据分析产品Rhinos分析流程执行监控界面在Rhinos中,流数据分析流程(Stream Flow)与批处理分析流程(Data Flow)的设计界面是一致的。

设计完成的分析流程能够直接定义为计算任务和任务的调度计划。

Rhinos中提供了任务状态监控的能力,用户能够查看每一个提交执行的任务的状态、日志以及所有输出的数据集列表。

另外,通过设计工作流(Workflow),用户可以灵活组合流数据分析流程Stream Flow、批处理分析流程Data Flow以及用户已有的处理流程,如Shell脚本、SQL脚本、MapReduce程序和Spark程序等,形成更复杂、更完整的数据分析流程。

数据管理产品(Zebra)图三、Linkoop数据管理产品Zebra数据质量分析规则管理界面Linkoop数据管理产品Zebra为大数据平台的数据管理人员提供了图形化的数据资源和数据质量的管理工具。

在Zebra中,数据管理人员能够方便地注册和管理数据源、数据资源目录。

更重要的是,Zebra提供了完善的数据质量管理工具,使得数据管理人员不仅能够用数据标准和自定义的数据质量规则校验已有的数据资源,还能够对正在执行的数据采集任务和数据分析任务进行拦截式检查。

对于数据质量检测不通过的任务,直接将其状态设置为失败,以保证错误的数据不会流入下游应用。

图四、Linkoop数据管理产品Zebra数据质量分析报告Zebra能够从取值范围、分布、缺失值等多个维度对数据集进行质量评估,对数据质量的合格率进行评级和展示,对长期的数据质量的波动进行监控和分析,并定期生成可以导出的数据质量报告。

数据查询产品(Gazelle)图四、Linkoop数据查询产品Gazelle交互式查询界面Linkoop数据查询产品Gazelle提供了数据浏览和查询界面。

用户可以通过Gazelle查询存储在大数据平台中不同存储区域的数据,包括Hive、HBase、Elastic Search、Cassandra以及Redis等。

除了标准的Web查询展现界面,Gazelle还提供了命令行查询界面(CLI)、标准的JDBC接口和Restful查询接口。

在这些访问接口的基础上,Gazelle既可以与Zeppelin、Tableau和Cognos等常用查询和BI工具集成,也可以支持基于大数据查询的应用开发。

数据集成产品(Cheetah)图五、Linkoop数据集成产品Cheetah数据导入任务配置界面Linkoop数据集成产品Cheetah是为大数据平台定制的图形化的数据集成工具包。

在Cheetah中可以方便地注册和管理数据源和数据资源目录。

为了方便对大数据平台之外的数据源进行采集,除了直接连接各种数据库(包括但不限于Oracle、MySQL、SQL Server、Teradata、PostgreSQL以及Greenplum)之外,Cheetah还支持在数据源处的前置机上部署采集器程序,通过对采集器进行采集任务下发、脱敏、数据同步等操作获取数据。

除了通过与Rhinos类似的数据处理流程的设计方式来设计ETL流程,Cheetah还提供了模板化的数据采集任务定义界面(见图五)。

用户按照界面的指示,通过对数据来源、导入目标、字段映射、脱敏规则、任务设置等步骤逐一设置,就可轻松完成数据采集任务的设计工作,对于生成大量简单而重复的数据采集任务更为高效。

Cheetah与传统的ETL工具最大的不同在于数据采集任务可以充分利用大数据平台的计算能力,采用分布式的方式并行执行采集任务,数据采集过程中的数据加载和数据转换操作更加高效,保证了大数据量和高速数据流环境下的数据导入效率。

图六、Linkoop安全管理产品Griffin用户配置界面图六、Linkoop安全管理产品Griffin角色配置界面Linkoop安全管理产品Griffin提供大数据平台上的5A安全体系所需的功能,包括账户(Account)、授权(Authorization)、鉴权(Authentication)、访问控制(Access Control)和审计(Audit)。

相关主题