当前位置:文档之家› 旅游大数据平台方案doc资料

旅游大数据平台方案doc资料

旅游大数据平台方案旅游研究院大数据挖掘与分析科研平台建设方案一.背景1.1 数据挖掘和大数据分析行业背景和发展趋势移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。

根据 IDC 《数字宇宙》 (Digital Universe) 研究报告显示, 2020 年全球新建和复制的信息量已经超过 40ZB,是 2015 年的 12 倍 ; 而中国的数据量则会在2020 年超过 8ZB,比 2015 年增长 22 倍。

数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。

IDC 亚太区 ( 不含日本 ) 最新关于大数据和分析 (BDA) 领域的市场研究表明,大数据技术和服务市场规模将会从 2012 年的 5.48 亿美元增加到 2017 年的 23.8 亿美元,未来 5 年的复合增长率达到 34.1%。

该市场涵盖了存储、服务器、网络、软件以及服务市场。

数据量的增长是一种非线性的增长速度。

据IDC 分析报道,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。

在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数据和分析技术,开始了自己的大数据实践之旅 ; 应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。

用户们开始评估以 Hadoop、数据库一体机以及内存计算技术为代表的大数据相关新型技术。

最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。

目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。

IDC 发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的数据环境。

过去一年中用户对社交数据的收集和分析应用的关注度增加明显。

未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。

在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,更关注如何根据新的最佳实践需求设计和实施方案。

中国和印度在大数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。

在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。

也就是任务20%的用户提供了 80%的价值,因此利用优势资源用户对于少数用户的服务。

随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。

比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。

并且由于计算技术的发展,对于大数据的分析也成为了可能。

1.2 旅游行业开展大数据分析及应用的意义旅游行业有行业广、规模大、移动性强的特点,因此更加依赖大数据。

当前,旅游业也在“新常态” 下迎来了升级的挑战和变革的机遇,新常态对于一般的经济部门是经济速度放慢、人均 GDP 增速减小,很多传统行业在调整结构,但新常态对旅游行业却是速度加快的。

旅游大数据的解决之道,在于整合国内多途径的大数据源,形成旅游大数据生态,为国内旅游业提供大数据解决方案,促进旅游业的转型升级。

1.3 数据挖掘与大数据分析科研平台建设的必要性数据挖掘与大数据分析是以计算机基础为基础,以挖掘算法为核心,紧密面向行业应用的一门综合性学科。

其主要技术涉及概率论与数理统计、数据挖掘、算法与数据结构、计算机网络、并行计算等多个专业方向,因此该学科对于科研平台具有较高的专业要求。

科研平台不仅要提供基础的编程环境,还要提供大数据的运算环境以及用于科学研究的实战大数据案例。

这些素材的准备均需完整的科研平台作为支撑。

目前,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括:计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息、旅游以及公共卫生等。

这些专业的在使用科研平台时的侧重点各不相同,使用人员层次水平也不相同,对算法的使用也不相同,因此,需要建设一个便利、操作简易、算法全面、可视化的大数据科研平台是非常有必要的。

二.数据挖掘与大数据分析科研平台总体规划2.1 科研平台规划科研平台建设的基本原则是科研为主,同时为教学实验提供部分计算资源及安全资源,系统在授权范围内共享科研系统的计算资源,提高教学实验的真实性。

项目的总体架构如图 1 所示。

大数据科研环境Hadoop 集群Hadoop 集群可视化计算虚拟化实验集群集群21 U21 U21 U21 U2 U 2 U 2 U 2 U2 U 2 U 2 U 2 U2 U 2 U 2 U 2 U2 U 2 U 2 U 2 U2 U 2 U 2 U2 U 2 U 2 U10 U2 U 2 U 2 U2 U 2 U 2 U千兆数据千兆数据交换机交换机核心交换机2 U图 1.总体架构图系统整体由千兆核心交换机作为核心节点,并以两个千兆接入交换机作为科研与实验环境的交换节点。

科研环境由我司开发的商业 Hadoop 集群为基础,上层集成便于操作的大数据科研应用系统,集成 10TB 大数据案例集及可拖拽的数据算法和可视化算法。

2.2 科研平台功能规划本科研平台针对数据挖掘有大数据分析研究内容,兼顾科研与教学的需求,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点。

1)大数据资源规划内置商业级数据资源,按常见科研分类规划数据资源,可以直接用于科学研究,具有数据资源授权管控功能。

2)大数据分析功能规划建设以商业版 Hadoop 为核心的大数据分析平台,系统提供 MapReduce以及Spark 等大数据挖掘功能。

系统具有完整的管理调度功能。

3)硬件资源功能规划系统具有 24 个 Intel Xeon E5 CPU 计算能力,提供超过 40TB的存储能力以及1T 以上的内存,可满足 1000 任务共时计算内能,方便扩充。

三.数据挖掘与大数据分析科研平台建设方案3.1 大数据科研平台设备架构高性能交换机高性能交换机高性能交换机主节点备份主节点管理节点接口节点计算节点计算节点接口节点计算节点计算节点计算节点计算节点计算节点计算节点计算节点计算节点机架 1机架 2机架 3图 3.设备架构3.1.1 主节点和备份主节点主节点负责整个分布式大数据平台的运行。

主节点始终在内存中保存整个文件系统的目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。

同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。

备份主节点在主节点发生故障时承担主节点的各种任务,使得分布式大数据平台仍然能够正常运行。

3.1.2 管理节点管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。

3.1.3 接口节点终端用户通过接口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进行数据交互(如连接关系型数据库)。

3.1.4 计算节点分布式大数据平台包含了多个计算节点。

计算节点是系统中真正存储数据和做数据运算的节点。

每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。

计算节点还维护一个开放的 socket 服务器,让客户端代码和其他计算节点通过它可以读写数据,这个服务器还会汇报给主节点。

3.2 大数据科研平台底层架构大数据科研平台低层架构以我司自主研发的商业版Hadoop 为基础架构,包含和大数据分析、数据挖掘、机器学习等功能模块,并以HDFS 以及 Hbase 作为存储基础。

任务执行调度接口数据交互接口统计建模(Shell)(JDBC, ODBC)(R)批处理交互式 SQL引擎机器学习算法库内存计算(MapReduce, Pig)(Hive)(Mahout)(Spark)分布式资源调度管理管理监控(HonyaES-data)(YARN)分布式存储(Sentry)分布式持久化数据存储分布式实时数据库(HDFS)(Hbase)图 2. 软件架构3.2.1 分布式持久化数据存储——HDFSHadoop 分布式文件系统( HDFS )被设计成适合运行在通用硬件上的分布式文件系统。

它和现有的分布式文件系统有很多共同点。

但同时,它和其他的分布式文件系统的区别也是很明显的。

HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。

HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

HDFS 放宽了一部分 POSIX 约束,来实现流式读取文件系统数据的目的。

3.2.2 分布式实时数据库——HBaseHBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文“ Bigtable :一个结构化数据的分布式存储系统”。

就像Bigtable 利用了 Google 文件系统(所提供的分布式数据存储一样, HBase 在Hadoop 之上提供了类似于 BigTable 的能力。

HBase 是 Apache 的 Hadoop 项目的子项目。

HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

另一个不同的是 HBase 基于列的而不是基于行的模式。

3.2.3 分布式资源调度管理——YARNYarn 是Hadoop2.0的MapReduce框架。

YARN分层结构的本质是ResourceManager 。

这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础NodeManager ( YARN 的每节点代理)。

ResourceManager 还与ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应用程序。

在此上下文中, ApplicationMaster 承担了以前的 TaskTracker 的一些角色, ResourceManager 承担了 JobTracker 的角色。

3.2.4 交互式 SQL 引擎—— HiveHive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce 任务进行运行。

其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

3.2.5 内存计算—— SparkSpark 是 UC Berkeley AMP 实验室所开源的类Hadoop MapReduce的通用的并行计算框架。

相关主题