当前位置:文档之家› 大数据行业分析报告

大数据行业分析报告

3
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。主要可分为:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等8种技术。同时,由这几种技术形成了批处理、流处理和交互分析三种计算模式。
4
大数据的应用范围非常广。有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)、挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
大数据行业分析报告
一、大数据概述1
1、大数据简介1
2、大数据特征1
3、大数据的技术2
4、大数据的应用2
5、大数据处理方法2
二、大数据发展现状与趋势分析4
1、国外现状4
2、国内现状5
3、发展趋势分析6
三、重点应用领域及行业企业分析8
1、重点应用领域9
2、重点企业13
3、国内运营商分析18
四、存在问题及对策分析19
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)、统计分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
全球数据量存储情况
(1)、政府积极介入推动
2009年,联合国启动“全球脉动计划”,借大数据推动落后地区发展。2012年1月,世界经济论坛年会把“大数据、大影响”作为重要议题。美国从开放政府数据、开展关键技术研究和推动大数据应用三方面布局大数据产业。美国在开放政府上非常积极,通过开放37万个数据集,并开放网站的API和源代码,提供上千个数据应用。除了推动本国政府数据开放,美国倡导发起全球开放政府数据运动,已有41个国家相应。美国政府还投资两亿美元促进大数据核心技术研究和应用,把大数据放在与集成电路、互联网同等重要的位置,从国家层面推进。
首先,数据的体量(volumes)大,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),和我们所熟知的G相比,体量不可谓不大。其次,是数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。再次,是数据处理速度(velocity)快,在数据体量庞大的情况下,也能够做到数据的实时处理。最后,是指数据的真实性(veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,信息的真实性和安全性显得极其重要。
在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。
在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。
在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、作物存储量和农业服务也可以随之确定。
(2)、导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
二、大数据发展现状与趋势分析
1
大数据的快速发展,使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究员估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。
5
大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
(1)、采集。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
1、数据量的成倍增长挑战数据存储能力19
2、数据类型的多样性挑战数据挖掘能力20
3、对大数据的处理速度挑战数据处理的时效性20
4、数据跨越组织边界传播挑战信息安全20
5、大数据时代的到来挑战人才资源20
五、大数据方面的相关政策和法规21
1、数据生产的相关政策和ห้องสมุดไป่ตู้规21
2、数据共享的相关政策与法规21
3、隐私保护的相关政策和法规22
一、大数据概述
1
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大量新数据源的出现导致了非结构化、半结构化数据爆发式的增长。这些数据已经远远超越了目前人力所能处理的范畴,如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
2
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到收集、管理、处理、并整理成为帮助企业经营决策目的的咨询。大数据不单单是指数量的量大,而且包括了以下的四个方面:
相关主题