当前位置:
文档之家› 决策管理-大数据分析与决策概述(PPT57页)
决策管理-大数据分析与决策概述(PPT57页)
8
2019/4/14
大数据的4V特征
数据体量巨大(Volume): 资料表明,其新首页导航每天需要提供的数据超过 1.5PB(1PB=1024TB),这些数据 如果打印出来将超过5千亿张A4纸。 有资料证明,到目前为止,人类生 产的所有印刷材料的数据仅为 200PB(不能在单个计算机上集中 存储,一般需要用到分布式/云计 算模式等)。
大数据分析与决策
姜昱汐 (大连交通大学经济管理学院经济学教研室)
一、大数据的相关概念 二、大数据分析 三、大数据应用的典型案例 四、大数据的可靠性 五、大数据与贝叶斯方法
2
2019/4/14
* 数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出 现使该领域进入了一个新的发展阶段
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题 “云计算相遇大数据”,EMC 除了一直倡 导的云计算外,还抛出"大数据"(Big Data) 概念
2011年6月底,IBM、麦肯锡等众多国外机 构发布"大数据"相关研究报告,予以积极跟 进
2011 年10 月,Gartner 认为2012 年十- 4大-
数据类型多样化:
现在的数据不仅是文本形式,更多 的是图片、视频、音频、地理位置 信息等多种类型的数据,个性化、 非结构化数据占据较大比例。
处理速度快 数据处理遵循“1秒定律”,可从
各种类型的数据中快速获取高价 值的信息
价值密度低:
以视频为例,几小时的视频,
在不间断的监控过程中,有用
的数据可能仅仅几秒。
单个数据可能价值不大,但是
数据整体还是有高价值的(比
如一个班级大家发的微博可能
没有特别大的意义,但是全国
高校大学生发的微博就可以反
映当代大学生思想理念)
9
2019/4/14
大数据的构成
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
3
大数据的构成
5
2019/4/14
“大数据”是如何产生的?
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的 程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学 和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域 中。
6
2019/4/14
大数据时代的爆炸增长
地球上至今总共的数据量:
PB EB ZB
TB
GB
在2006 年,个人用户才刚刚迈进 TB时代,全球一共新产生了约 180EB的数据;
在2011 年,这个数字达到了1.8ZB。
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
IBM E.F.Do dd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
…
facebook 社交网络
电子商务
淘宝
…
…
微博、 Apps
移动互联
21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓展 了互联网的边界和应用范围,各种数据正 在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器,智慧 地球)、车联网、GPS、医学影像、安全 监控、金融(银行、股市、保险)、电信 (通话、短信)都在疯狂产生着数据。
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。
海量交互数据: 源于Facebook、Twitter、微博、微信及其他来 源的社交媒体数据构成。它包括了呼叫详细记录、 设备和传感器信息、GPS和地理定位映射数据、 通过管理文件传输协议传送的海量图像文件、 Web文本和点击流数据、科学信息、电子邮件等 等。可以告诉我们未来会发生什么。
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
1946 1951 1956 1961
1970 1974 1979
1991
2001 2003 2008 2011
-3-
* 大数据发展背景
全球信息化发展已步入大数据时代
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
而有市场研究机构预测: 到2020 年,整个世界的数据总量 想须驾了驭解将(这大会1庞数Z大据增B的的=长数特14据征04,。亿我倍们T,B必达)到!35.2ZB
7
2019/4/14
大数据的4V特征
Volume
Variety
Velocity
Value
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
150亿个设备连接到互联网
全球每秒钟发送 290万封电子邮件
每天有 2.88 万小时视频上传到Youtube
Facebook 每日评论达32亿条,每天上传 照片近3亿张,每月处理数据总量约130万 TB
2011年全球产生数据量1.8ZB,预计2020年 将增长到35ZB
Google网站 Big data关键词搜索及新闻引用量
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
E-R 网络型
磁带+卡
第一台计 片
算机
人工管ENIAC面 理世磁盘被 发明, 进入文 件管理 时代