当前位置:文档之家› 大数据及其典型应用

大数据及其典型应用


IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算 相遇大数据”,EMC 除了一直倡导的云计算外, 还抛出"大数据"(BigData)概念
2011年6月底,IBM、麦肯锡等众多国外机构发布 "大数据"相关研究报告,予以积极跟进
3
7
2019/12/24
“大数据”是如何产生的?
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经 积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的 信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学, 创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人 类智力与发展的领域中。
数据仓库
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
GFS
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
1946 1951 1956 1961
1970 1974 1979
1991
2001 2003 2008 2011
-5-
* 大数据发展背景
全球信息化发展已步入大数据时代
150亿个设备连接到互联网
全球每秒钟发送 290万封电子邮件
每天有 2.88 万小时视频上传到Youtube
Facebook 每日评论达32亿条,每天上传照片近 3亿张,每月处理数据总量约130万TB
2011年全球产生数据量1.8ZB,预计2020年将增 长到35ZB
大数据技术:
• 数据采集:ETL工具 • 数据存取:关系数据库;NoSQL;SQL等 • 基础架构支持:云存储;分布式文件系统等 • 计算结果展现:云计算;标签云;关系图等
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需后逐步统一到以关系型数据库为主导
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
8
2019/12/24
大数据时代的爆炸增长
地球上至今总共的数据量:
PB
TB
GB
1GB = 2^30字节 1TB = 2^40字节 1PB = 2^50字节 1EB = 2^60字节 1ZB = 2^70字节
EB ZB
在2006 年,个人用户才刚刚迈进TB时代, 全球一共新产生了约180EB的数据;

facebook 社交网络
电子商务
淘宝


微博、 Apps
移动互联
21世纪是数据信息大发展的时代,移 动互联、社交网络、电子商务等极大拓展 了互联网的边界和应用范围,各种数据正 在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器,智慧 地球)、车联网、GPS、医学影像、安全 监控、金融(银行、股市、保险)、电信 (通话、短信)都在疯狂产生着数据。
“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
10
2019/12/24
大数据的构成
大数据包括: 交易数据和交互数据 集在内的所有数据集
大数据 = 海量数据 + 复杂类型的数据
海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型 处理的架构。例如具有开放源码、在商品硬件群 中运行的Apache Hadoop。
11
2019/12/24
一些相关技术
分析技术:
• 数据处理:自然语言处理技术 • 统计和分析:A/B test; top N排行榜;地域
占比;文本情感分析 • 数据挖掘:关联规则分析;分类;聚类 • 模型预测:预测模型;机器学习;建模仿真
2011 年10 月,Gartner 认为2012 年十大战略技 术将包括"大数据"
2011 年11 月底,IDC 将"大数据"放入2012 年信 息通信产业十大预测之一
Google网站 Big data关键词搜索及新闻引用量
-6-
大数据的定义理解
1
大数据的产生、增长
什么是大数据
2
大数据的“4V”特征
在2011 年,这个数字达到了1.8ZB。
而有市场研究机构预测: 到2020 年,整个世界的数据总量将会增长 44 倍,达到35.2ZB(1ZB=10 亿TB)!
想驾驭这庞大的数据,我们必 须了解大数据的特征。
9
2019/12/24
大数据的4V特征
Volume
Variety
Velocity
Value
video
*棱镜门
*波士顿马拉松爆炸案
*PredPol
*少数派报告
*2013 大数据元年
2
*
2019/12/24
*
一、大数据的相关概念
二、国内外大数据分析的研究现状
三、构建大数据分析平台
四、公共安全领域大数据应用案例
3
2019/12/24
4
2019/12/24
* 数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术 的出现使该领域进入了一个新的发展阶段
E-R 网络型
磁带+卡
第一台计 片
算机
人工管
ENIAC面 理

磁盘被 发明, 进入文 件管理 时代
GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机
IBM E.F.Do dd提 出关系 模型
SQL
SQL语 言被发 明
关系型 数据库
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
海量交易数据: 企业内部的经营交易信息主要包括联机交易数据 和联机分析数据,是结构化的、通过关系数据库 进行管理和访问的静态、历史数据。通过这些数 据,我们能了解过去发生了什么。
海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源 的社交媒体数据构成。它包括了呼叫详细记录 CDR、设备和传感器信息、GPS和地理定位映射 数据、通过管理文件传输Manage File Transfer 协议传送的海量图像文件、Web文本和点击流数 据、科学信息、电子邮件等等。可以告诉我们未 来会发生什么。
相关主题