当前位置:
文档之家› 大规模并行处理数据库等-中国索引学会
大规模并行处理数据库等-中国索引学会
RCCSE 中国科学评价研究中心
14
2 大数据时代
(2)大数据时代到来的原因
• 首先,信息技术和计算机网络技术的发展,为 大数据时代的到来奠定了坚实的技术基础。
• 各种技术的发展,使得数据的来源、类型、数 量变得越来越多,由此产生出了的数目庞大且 不断急剧增长的非结构化数据、半结构化数据, 整个社会发展进入到了大数据时代。
RCCSE 中国科学评价研究中心
8
2 大数据时代
综合以上几种不同的见解,我们认为,具备以 下特征的就是大数据。
• (1)数量大(Volume)。大数据所包含的数据 量很大,而且在急剧增长之中。但是,在可供 使用的数据数量不断增长的同时,可处理、理 解和分析的数据比例却在不断下降。
RCCSE 中国科学评价研究中心
数据都是半结构化或非结构化的。
RCCSE 中国科学评价研究中心
12
2 大数据时代
• 半结构化的数据是指具有一定的结构性并可被 解析或者通过使用工具可以使之格式化的数据, 如包含不一致的数据和格式的员工薪酬数据。 • 非结构化的数据是指没有固定结构,通常无法 直接知道其内容,保存为不同类型文件的数据, 如各种图像、视频文件。
大数据时代索引与数据库 事业的发展与创新
大纲
引言
大数据时代
索引与数据库的发展现状
大数据时代索引与数据库事业面临的挑战及创新
结语
RCCSE 中国科学评价研究中心
2
1 引言
“大数据”(Big Data)已经在全球引起了广 泛关注,正在引领了又一轮数据技术的革命。
• 美国EMC公司于2011年5月在美国拉斯维加斯举 办第11届EMC World大会,大会的核心是帮助企 业利用IT变革的重要趋势。此次大会以“云计 算相遇大数据(Cloud Meets Big Data)”为 主题,着重展现当今两个最重要的技术趋势, 正式提出了“大数据”概念。
• 麦肯锡认为,“大数据所涉及的数据集规模已 经超过了传统数据库软件获取、存储、管理和 分析的能力。”
7
RCCSE 中国科学评价研究中心
2 大数据时代
• IBM公司认为,可以用3个特征相结合来定义大 数据:数量(Volume)、种类(Variety)和速 度(Velocity),即庞大容量、极快速度和种 类丰富的数据。 • IDC公司认为,“大数据不是一个事物,而是一 个跨多个信息技术领域的现象。大数据技术描 述了新一代的技术和架构,通过使用高速( Velocity)的采集、发现或分析方法,从超大 容量(Volume)的多样(Variety)数据中经济 地提取价值(Value)。”
根据目前大数据的发展状况,未来数据增长的
绝大部分将是半结构化或非结构化的数据。
RCCSE 中国科学评价研究中心
13
2 大数据时代
2.2 大数据时代已经到来
(1)大数据时代已经到来
• 理论的提出:2008年,《Nature》杂志出版一 期专刊,专门讨论未来的大数据(Big Data) 处理相关的一系列技术问题和挑战。 • 现实的节点:2007年是人类创造的信息量有史 以来第一次在理论上超过可用存储空间总量的 一年。
RCCSE 中国科学评价研究中心
3
1 引言
• 根据IDC《数字世界》研究项目在 2012年的统计,2010年全球数字资 源的规模首次突破了ZB(1ZB=1万 亿GB)级别,达到了1.227ZB;而 2005年只有130Eb,五年增长了10 倍。如果保持这种爆炸式的增长速 度,到了2020年,我们的数字资源 规模将超过40ZB,相当于世界上每 个人拥有超过5200GB的数据。无疑, 我们已进入了大数据时代。
RCCSE 中国科学评价研究中心
15
2 大数据时代
• 其次,大量智能终端的广泛应用与网络应用的 不断增长,为大数据时代的到来奠定了坚实的 物质基础。 • 通过互联网和社交网络、数码相机等工具,每 个人的日常生活正在被数字化,人们可以随时 方便的根据自己的需要,产生大量的非结构化 数据、半结构化数据。特别是智能手机和笔记 本电脑的普及,是当前数据量爆炸增长的一个 重要原因。
RCCSE 中国科学评价研究中心
10
2 大数据时代
• (4)价值量(Value)。在信息时代,信息具 有很重要的商业价值。但是,信息具有生命周 期,数据的价值会随时间快速减少。另外,大 数据的数量庞大,种类繁多,变化也快,数据 的价值密度很低。如何从大量多样的数据中尽 快的分析出有价值的信息非常重要。对海量的 数据进行挖掘和分析,这也是大数据技术的难 点。
9
2 大数据时代
• (2)种类多(Variety)。随着技术的发展, 数据源不断增多,数据的类型也不断增加。不 仅包含传统的关系型数据,还包含来自网页、 互联网、搜索引擎、论坛、电子邮件、传感器 数据等原始的、半结构化和非结构化数据。 • (3)速度快(Velocity)。除了收集数据的数 量和种类发生变化,需要处理和生成数据的速 度也在变化。数据流动的速度在加快,要有效 的处理大数据,需要在数据变化的过程中实时 的对其进行分析,而不是滞后的进行处理。
5
RCCSE 中国科学评价研究中心
1 引言
基于以上概述,我们认为,大数据时代已经到 来,已经对我们的社会产生了重大影响。本文
将尝试对大数据时代我国的索引和数据库事业
的发展与创新进行研究和展望。
RCCSE 中国科学评价研究中心62 大数据时代
2.1 大数据的定义和特征
许多权威机构和企业对大数据给予了不同的定 义。
4
单位:ZB
RCCSE 中国科学评价研究中心
1 引言
• 在 2011年12月,我国工信部发布了物联网 “十二五”规划,提出了4项关键技术创新工程。 信息处理技术的内容包括海量数据存储、数据 挖掘、图像视频智能分析等,都是大数据技术 的重要组成部分;另外3项关键技术创新工程, 包括信息感知技术、信息传输技术、信息安全 技术,这些也都与“大数据”密切相关。我国 也对大数据技术给予了足够的重视。
11
RCCSE 中国科学评价研究中心
2 大数据时代
• (5)真实性(Veracity)。这是一个衍生特征。 真实有效的数据才具有意义。随着新数据源的 增加,信息量的爆炸式增长,我们很难对数据 的真实性和安全性进行控制,因此需要对大数 据进行有效的信息治理。
大数据在结构类型上也有其特点:大多数的大