当前位置:文档之家› 【大数据】多源异构通用大数据处理服务平台

【大数据】多源异构通用大数据处理服务平台

一、项目背景及必要性
(一)国内外现状和技术发展趋势
大数据是指海量的数据加上复杂的数据类型。

从产业的发展角度看,我们对数据的利用经历了传输、传播、处理三个阶段,而今眼目下,对数据的利用正处在处理这个阶段,即如何处理、如何管理、如何应用,如何优化是现阶段的主要工作。

大数据的具体特点主要表现为四个“V”:一是体量浩大(Volume),数据集合的规模已从GB到TB再到PB级,甚至已经开始以EB和ZB来计算。

著名咨询公司IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍。

二是类型复杂(Variety),大数据类型包括结构化数据、半结构化数据和非结构化数据。

现代互联网应用呈现出非结构化数据大幅增长的特点,到20152年末非结构化数据将达到整个数据量的75%以上。

三是生成迅速(Velocity),大数据通常以数据流的形式动态、快速地产生,具有很强的时效性。

数据自身的状态与价值也随时空变化而发生演变,数据的涌现特征明显。

四是价值巨大但利用密度低(Value),基于传统思维与技术让人们在实际环境中面临信息泛滥而知识匮乏的窘态。

当今社会,新摩尔定律得到验证,大数据以成为各行各业的焦点。

数据的来源多样化:以多源异构数据为代表的非结构化数据占世界上信息总量的95%以上,剩下的5%为结构化数据,包括网页、文本、交易数据、邮件、高清视频、3D视频、语音、图片、地质勘测
数据、多源异构数据探测数据等等,这些数亿TB的数据正以超乎人们想象的速度增长,这对数据的存储系统的容量和实时计算速度提出了空前的要求。

同时,大到智慧地球,小到智慧城市的数字化建设,使其越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问数据的能力也得到彻底变革。

这些行业包括:互联网、制造业、医疗行业、媒体行业、零售销售行业、金融业、能源业、航空航天等等。

预计2015年,超过40亿人(世界人口的60%)在使用各种智能终端,以全方位的方式与各行各业发生交互融合。

其中大约12%拥有智能终端——其渗透率以每年20%以上的速度增长。

如今,3000多万联网传感器节点分布在互联网、交通、汽车、工业、公用事业和零售部门,其数量正以每年30%以上的速度增长。

预计到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。

35.2ZB也就是说全球大概需要376亿个1TB硬盘来存储数据。

人们对数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂,数据的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。

同时,数据的高速增长也对存储系统的可靠性和扩展性提出了挑战,海量数据的共享、分析、搜索也显得越来越重要,充分挖掘海量数据中的有效价值。

这就要求我们得实现一种有别于传统系统而全新的存储管理平台,该平台必须具备高扩展性、高可靠性、高时效性,同时也需要具备高经济性,只有这样才能更好的为国民经济和生活服务。

国外的大数据发展现状,以GOOGLE/FACEBOOK为代表的
互联网巨头,正以全方位方式影响我们的生活和工作,他们所有的软件及服务都是在线的,免费的,人们在免费使用这些软件及服务后,会把个人的行为和喜好免费送递给这些软件及服务提供商,这些软件及服务提供商用自己创新的大数据处理分析平台,完成用户行为分析,精准的投递广告,从而获取利益,这是正向的循环,GOOGLE/FACEBOOK的软件及服务用户体验越好,使用的人越多,数据越多,分析更精准,在该平台上打广告的公司越多,这些软件及服务提供商盈利越好。

这种方式完全颠覆了以微软为代表的卖软件拷贝的赚钱模式。

而以IBM/微软/Oracle/EMC等等公司,也正在大数据领域全面发力,完善自己的产品线,提供更多的大数据解决方案。

与此同时,2012年,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划”,这个计划可以同美国上世纪90年代初的“信息高速公路”相比拟。

美国政府认为,大数据是“未来的新石油”,并将大数据的研究上升为国家意志。

通过这个计划,以提高美国从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。

通过提高美国从大型复杂的数字数据集中提取知识和观点的能力,加强国家安全,并改变教学研究。

这个计划里,六个联邦政府的部门和机构宣布新的2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。

了解更多正在进行的联邦政府的计划,解决所大数据所带来的机遇和挑战,可通过大数据表来了解大数据革命。

美国政府还计划与工业界、大学研究界、非营利性机构与管理者一起利用大
数据所创造的机会。

由于中国人口多、市场大、数据量大,所以中国大数据发展的动力非常强劲,大数据的应用需求丝毫不亚于国外。

因为在桌面计算机(PC),技术掌握在英特尔和微软手里,这就形成了它们的事实标准,必须用它们的平台来做,而我们创新的多源异构数据很小。

通信也是这样,2G和3G的无线通信专利掌握在高通为代表的公司手里。

这两个大产业,虽然我国花了很大力气,但在平台上受制于人,创新多源异构数据一直很小。

所以,大数据的发展,代表了新的创新方式,生态方式,盈利方式,机会非常多。

国内的大数据代表性企业是百度、腾讯、阿里巴巴、华为等等,奋起直追,但是还是有不少差距,虽然都使用开源的HADOOP代表的基础平台,但HADOOP的维护和核心代码都由国外的组织在维护更新,国家的数据安全受到严重威胁。

所以开发一套完全自足知识产权、通用的、适用于多源异构的大数据处理服务平台迫在眉睫。

(二)项目对相关产业发展的作用与影响
大数据时代,数据的管理、存储的平台是基础,数据的挖掘和应用是核心。

大数据产业链参与者众多,覆盖面广。

按照产品形态分,分为硬件、基础软件、应用软件。

硬件主要指为数据提供存储和计算服务的基础设备和设施,基础软件主要指对大数据完成管理和提供计算服
务的支撑平台,应用软件指在基础软件基础上构建的分析、挖掘等商业智能应用。

硬件包括有万国、世纪互联、电信、中立等为代表的数据中心基础设施提供商,以华为、H3C、中兴、曙光、浪潮、联想等为代表的提供网络设备、存储设备、服务器、安全设备等提供商;基础软件无代表性,75%以上都是用的HADOOP开源平台;智能应用有用友、金蝶、华神天成、神州数码、中软、东软等为代表的应用提供商,无通用大数据支撑平台,并且他们的应用都跟行业捆绑很紧密,开放性不强。

大数据正在影响与我们生活密切相关的各行各业,这些行业组织和企业,正在被动的,或者主动的改变传统的经营和商务模式,对数据进行有效的分析和优化是提高核心竞争力的有效方式。

同时,同时,围绕如何应用、挖掘数据,已催生出新的商业模式:比如卖数据也已成为直接的盈利手段,这也充分体现了数据的战略资产特性:对数据的洞察力进一步体现在组织和企业的战略和行动上,并形成正反馈,有组于组织和企业改善生产过程,积累竞争优势。

最终要求数据具有有效性,数据的有效性包括:数据质量、可用性、智能性、远程访问、支持移动访问。

而数据的有效性必须要求对数据的挖掘和分析手段多样化、智能化、高效。

具体从大数据的商业用途方面来看,社会和企业的智能分析和商务决策的本质即在改变:越来越实时、多源异构数据、访问不受地点和设备的限制、杠杆式开发客户洞察能力和驱动策略、将数据视之为货币化的资产。

高质量数据应用可以显著的提供组织和企业的服务。

相关主题