大数据时代的特征与发展趋势在云计算、物联网等技术的带动下,中国已步入‘大数据’时代。
邬贺铨说,我们正在进行一场全新的革命,庞大的数据带来的量化转变将在各领域迅速蔓延,没有哪个领域能够逃脱它的影响。
据有关机构测算,大数据已成为全球IT产业中增长最快的领域。
2010年全球大数据以及相关的硬件、软件和服务市场达到30亿美元,2015年将超过170亿美元,平均年增长速度超过50%。
作为全球大数据产业的重要组成,中国大数据潜在市场规模未来有望达到2万亿人民币。
身处“大数据”时代,中国正多方位布局“大数据”产业,各地政府、通信公司、科研院所、IT企业等都“摩拳擦掌”,希望能分到“一杯羹”。
1.大数据的含义大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。
当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。
随着谷歌MapReduce和GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。
2.大数据的特征关于大数据的特征,业内专业认识人士表示,可以用很多词语来表示。
比较有代表性的即为2001年DougLaney最先提出“3V”模型,包括数量(V olume)、速度(Velocity)和种类(Variety)【1】。
除此之外,在3V的基础上又提出了一些新的特征。
关于第四个V的说法不一,IDC 认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。
而IBM 认为大数据必然具有真实性(Veracity)。
维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集【2】。
如今,业内人士已经将其扩展到了11个V,包括有效性、可见性等。
下面就目前使用最多的“4V”模型进行分析。
“4V”特征主要体现在以下方面:2.1.规模性(volume)V olume指的是数据巨大的数据量以及其规模的完整性。
数据的存储TB扩大到ZB。
这与数据存储和网络技术的发展密切相关。
数据的加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长。
实质上,在某种程度上来说,数据的数量级的大小并不重要,重要的是数据具有完整性。
数据规模性的应用有如下的体现,比如对每天12 tb的tweets进行分析,了解人们的心理状态,可以用于情感性产品的研究和开发;基于Facebook上成千上万条信息的分析,可以帮助人们处理现实中的朋友圈的利益关系。
2.2.高速性(Velocity)Velocity主要表现为数据流和大数据的移动性。
现实中则体现在对数据的实时性需求上。
随着移动网络的发展,人们对数据的实时应用需求更加普遍,比如通过手持终端设备关注天气、交通、物流等信息。
高速性要求具有时间敏感性和决策性的分析——能在第一时间抓住重要事件发生的信息。
比如,当有大量的数据输入时(需要排除一些无用的数据)或者需要马上做出决定的情况。
比如:一天之内需要审查500万起潜在的贸易欺诈案件;需要分析5亿条日实时呼叫的详细记录,以预测客户的流失率。
2.3.多样性(variety)Variety指有多种途径来源的关系型和非关系型数据。
这也意味着要在海量、种类繁多的数据间发现其内在关联。
互联网时代,各种设备通过网络连成了一个整体。
进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。
这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。
除了简单的文本分析外,还可以对传感器数据、音频、视频、日志文件、点击流以及其他任何可用的信息。
比如,在客户数据库中不仅要关注名称和地址,还包括客户所从事的职业、兴趣爱好、社会关系等。
利用大数据多样性的原理就是:保留一切你需要的对你有用的信息,舍弃那些你不需要的;发现那些有关联的数据,加以收集、分析、加工,使得其变为可用的信息。
2.4.价值性(value)Value体现出的是大数据运用的真实意义所在。
其价值具有稀缺性、不确定性和多样性。
“互联网女皇”Mary Meeker在2012年互联网发展趋势中,用一幅生动的图像来描述大数据。
一张是整整齐齐的稻草堆,另外一张是稻草中缝衣针的特写。
寓意通过大数据技术的帮助,可以在稻草堆中找到你所需要的东西,哪怕是一枚小小的缝衣针。
这两幅图揭示了大数据技术一个很重要的特点,价值的稀疏性。
从某种程度上说,大数据是数据分析的前沿技术。
简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。
大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。
目前人们谈论最多的是大数据技术和大数据应用。
工程和科学问题尚未被重视。
大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
从大数据的特征来看,数据源增加、传感器的分辨率提高,使得大数据的体量大。
数据源增加、数据通讯的吞吐量提高、数据生成设备的计算能力提高,使得大数据的速度快。
移动设备、社交媒体、视频、聊天、基因组学研究和各种传感器使得大数据的类型多以数据为基础的决策要可追溯,要有理有据,这使得大数据还应具备准确性的特征。
大数据的这些特征将决定政府在大数据业务和整个大数据生态系统中收集、分析、管理、存储及分配数据的方式。
3、大数据的现实价值巨量数据正在成为一种资源,一种生产要素,渗透至各个领域,而拥有大数据能力,即善于聚合信息并有效利用数据,将会带来层出不穷的创新,从某种意义上说它代表着一种生产力,麦肯锡认为,“人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”大数据将带来此起彼伏的IT技术革命。
为解决日益增长的海量数据、数据多样性、数据处理时效性等问题,一定会在存储器、数据仓库、系统架构、人工智能、数据挖掘分析以及信息通讯等方面不断涌现突破性技术,当今世界IT巨头、IT敏锐的创新者们正努力耕耘在大数据技术领域,大数据将成为IT的主战场。
大数据将在各行各业引发各类创新模式。
随着大数据的发展,行业渐进融合,以前认为不相关的行业通过大数据技术有了相通的渠道,沃尔玛通过数据挖掘将风马牛不相及的“啤酒与尿布”联系在一起,大数据将会产生新的生产模式、商业模式、管理模式,这些新模式对经济社会发展带来深刻影响。
大数据将给人们生活带来翻天覆地的变化。
大数据技术进步将极大地惠及人们生活的方方面面,在家有智能管家帮助你美好生活;外出购物,商家会根据你的消费习惯将购物信息通过无线互联网推送给你;外出就餐,车载语音助手会帮你挑选餐厅并告诉你即时的周边情况和停车状况。
衣食住行的便利将无处不在。
大数据将提升电子政务和政府社会治理的效率。
大数据的包容性将打开政府各部门间、政府与市民间的边界,信息孤岛现象大幅消减,数据共享成为可能,政府各机构协同办公效率和为民办事效率提高,同时大数据将极大地提升政府社会治理能力和公共服务能力。
驾驭大数据,在整个政府和全球经济中创造价值,其影响是广泛而深远的。
政府善政的许多重要原则与大数据有相通之处。
从根本上说,大数据能够通过改进政府机构和整个政府的决策,使政府机构更加英明地提高政府工作效率,为利益相关者服务。
利用各种渠道的各种数据,快速获得关键、准确的深刻见解,将显著改进政府的各项关键政策和工作。
4、大数据的应用及发展趋势4.1大数据已经深耕于经济领域并创造了巨大的经济价值4.1.1美国的大数据产业已经创造了巨大的价值。
大数据使美国医疗服务质量得到提高。
对于医疗服务的提供方和支付方来说,在减少医疗成本的同时不断提高医疗质量和效率仍然是一个难以实现的目标,而这也是改善民生的重大机遇。
2010年,全美医疗支出占国内生产总值的17.9%,比2000年增长13.8%。
而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的医疗资源。
对这些疾病和其他相关健康服务的管理将深刻地影响国家的福祉。
在这方面大数据可以发挥作用。
为在广大人群中取得最有效的医疗效果,更多地使用电子健康记录(电子健康档案),并与新的分析工具相结合,将提供挖掘信息的机会。
研究人员可以利用信息寻找有效的统计趋势,并依据真实的医疗服务质量开展医疗评估。
大数据使美国的交通更加便利。
通过完善信息和自动驾驶功能,大数据有可能在许多方面彻底改变交通的面貌。
开车的人多,交通堵塞就多,其后果是浪费能源,造成全球气候变暖,耗费时间和金钱。
手持设备、车辆和道路上的分布式传感器则可以提供实时交通信息。
这些信息,再加上更好的自动驾驶功能,可以使驾驶更安全,交通堵塞更少。
智能汽车日益互联的新型交通生态系统有可能彻底改变道路使用方式。
大数据使美国的教育质量得到提升。
大数据可以对美国教育及其在全球经济中的竞争力产生深远影响。
例如,通过深入地跟踪和分析学生的在线学习活动——精细至每个鼠标点击动作,研究人员能够确定学生的学习方式和提高学习的方法。
这种分析可以针对成千上万的学生进行,而不是孤立的小型研究。
课程和教学方法,无论是在线的,还是传统的,都可以根据大规模分析所收集到的信息进行修订。
大数据提高了美国的征税效率。
由于迅速发现异常的能力日益增加,政府税务部门可以缩小“税收缺口”,即纳税人应付税款与其自愿缴税额之间的差额,并且对于那些试图进行不当纳税申报的人,会深刻地改变他们的行为方式。
大多数税务机构实行“自愿缴税与追讨欠税并举”的模式。
在这种模式下,它们接受纳税人的纳税申报单并办理退税,并对一部分纳税申报单进行抽查,以找出有意或无意欠税的情况。
大数据则能够提高欺诈检测的水平,在纳税申报之初就揭露违规情况,减少问题退税的发放。
资料表明,在医疗领域每年产生3000亿美元的潜在价值;在公共管理部门,每年产生2500亿美元的潜在价值;在个人位置数据领域,每年产生1000亿美元的市场;在零售业能够增加60%的营业额;在制造业部门,能够降低50%的产品开发及装配成本。
大数据在欧洲公共管理部门得到深入应用。
大数据在OECD组织中的欧洲国家公共管理部门创造了1500到3000亿欧元或更高的潜在经济价值,这些经济价值主要通过政府公共管理机构开支的减少、转移支付的下降及税收的增加来实现。
三是全球大数据人才需求将上升并且出现供需缺口。
Gartner咨询公司预测,到2015年,大数据人才需求达到440万人,人才需求缺口将达到三分之一。
4.2欧美等发达国家把数据资产上升到国家信息战略高度4.2.1美国已经布局大数据产业。