当前位置:
文档之家› 中国大数据研究现状与发展(PPT 41张)
中国大数据研究现状与发展(PPT 41张)
这个定义指出大数据是一个大的数据集合,它与固定资产、人
力资本一样,也是一种生产要素,并能支持现代经济增长和创新活 动。因此,大数据研究的关键科学问题应该是大数据与经济增长和 创新活动的关系。
一
对大数据的认识
3. IBM公司的定义
可以用四个特征来描述大数据,即规模性(Volume)、高速性
(Velocity)、多样性(Variety)和真实性(Veracity),这些特征 相结合,定义了IBM所称的“大数据”。 这个定义显然也是把大数据定义为一种数据集合,而且这些数 据具有规模性、高速性、多样性和真实性。所以,大数据研究所关 心的科学问题就应该是对结构多样性的大数据能够进行高速存储和 高速处理的技术。
响,我们要做的就是要接受这些纷繁的数据并从中受益,而不 再以高昂的代价消除所有的不确定性。
③ 大数据时代对我们的生活,以及与世界交流的方式都提出了挑
战,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。
一
对大数据的认识
总之,我们需要改变我们的思维方式,使用我们能收集到的所 有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我
一
对大数据的认识
大数据与物联网、云计算
物联网、云计算、大数据都是依托互联网并相互依存的有机整 体,是信息技术的新发展。对大数据来说,物联网既是数据来源,又 是数据用户,云计算则是大数据存储、处理的一种方式。随着物联网 和云计算技术的发展,大数据应用和大数据产业一定能够更快的发展。
二
大数据研究概况
处理方法和软件工具的研发来展开,研究的目的就是要得到大数
据的快速处理方法和非常规的软件工具。大数据始终在“大数据” 和“非大数据”之间不断的转换。
一
对大数据的认识
从管理的角度看大数据
定义:大数据是一类能够反映物质世界和精神世界的运动状态 和状态变化的信息资源,它具有决策有用性以及海量性、异构性、 增长性、复杂性和可重复开采性,一般都具有多种潜在价值。 这个定义把大数据看做是一类资源,它具有决策有用性,对经 济社会发展具有重要的潜在价值。按照大数据的资源观,大数据研 究的关键科学问题应该包括大数据的获取方法、加工技术、应用模
式以及大数据的产权问题、相关的产业发展问题和相应的法律法规
建设问题。
一
对大数据的认识
大数据的来源和应用领域
大数据具有广阔的应用前景。数据驱动的决策由来已久。 数据+决策能力=决策。
生产制造、物流交通、商务过程、资源环境、教育文化、医疗
卫生、社交信息、生命科学、天文地理、航空航天、政府部门、国 家安全等领域既是大数据的来源又是大数据的应用领域。 一个应用可能对应多个来源。
一
对大数据的认识
4. 维基百科(Wikipedia)的定义
大数据是指规模庞大且复杂的数据集合,很难用常规的数据 库管理工具或传统数据处理应用对其进行处理。其主要挑战包括
数据抓取、策展、存储、搜索、共享、转换、分析和可视化。
显然这个定义是从大数据的处理方法和处理工具的视角来看 待大数据的,根据这个定义,大数据研究应该围绕大数据的快速
成果。这说明实践是先于理论的,当然深入的理论研究一定能够
促进大数据应用实践更好更快的发展。
一
对大数据的认识
关于大数据的神奇传说
① 谷歌通过观察人们在网上的搜索记 录 , 提 前 几 周 成 功 预 测 了 2009 年 在 美国爆发的甲型H1N1流感。 ② 埃齐奥尼利用大数据创立了一个机 票价格预测系统,准确度高达 75% , 平均每张机票可节省50美元。
中国大数据研究现状与发展
报告人:杨善林
2014年5月27日
中国大数据研究现状与发展
报告提纲
一 对大数据的认识
二 大数据的研究概况
三 大数据中的科学问题
四 大数据与管理决策
一
对大数据的认识
实践先于理论,理论指导实践。 在提出大数据概念之前,实 际上已有很多关于大数据的获取、存储、处理和利用方法的研究
们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关
系,而不再寻求每个预测背后的原因。
——引自《Big Data: A Revolution—That Will Transform How
We Live, Work and Think》
一
对大数据的认识
关于大数据的定义
1. 美国国家科学基金委(NSF)的定义
约44倍。基于大数据的企业数据分析正
成为IBM的利润增长。
一
对大数据的认识
《大数据时代》中的主要观点:大数据引起的思维变革
① 在大数据时代进行抽样分析就像是在汽车时代骑马一样,我们
分析数据会完全抛弃样本分析,而关注数据的总体。 即“样本=总体”。
② 在大数据时代,我们不再担心某个数据点对整套 年,斯诺登揭露 了美国正在实施的“棱镜”计划。通过 大数据分析对全球实施监听,为安全部 门先发制人的预防恐怖主义和危害美国 利益的行为,提供了前所未有的可能。
④ IBM 智慧的分析洞察。每个月,全
球 发 布 10 亿 条 Twitter 信 息 和 300 亿 条 Facebook信息。预计到2020,总量增长
大数据是指由科学仪器、传感器、网上交易、电子邮件、视频、 点击流和/或所有其它现在或将来可用的数字源产生的大规模、多样 的、复杂的、纵向的和/或分布式的数据集。 这个定义指出了大数据是一类数据集,并指出了大数据现在和
将来的数据来源,以及大数据具有大规模、多样性、复杂性、分布
性、关联性等数据特征。
一
国际大数据研究状况
美国:《大数据研究与发展计划》(2012)
主要任务:“通过收集庞大而复杂的数字资料,加速在科学、工程上发现的步伐,强化美国国土安全,转变教 育和学习模式。利用大数据技术实现在科研教学、环境保护、工程技术、国土安全、生物医药等方面的新突破…”
对大数据的认识
2. 麦肯锡公司(McKinsey & Company)的定义
大数据是一个大的数据池,其中的数据可以被采集、传递、聚 集、存储和分析。目前,大数据是全球经济每个部门和功能的一部
分。与固定资产和人力资本等其它重要的生产要素类似,没有数据,
很多现代经济活动、创新和增长都不会发生,这正成为越来越普遍 的现象。