当前位置:文档之家› 大数据培训知识(PPT 55张)

大数据培训知识(PPT 55张)


狭义的大数据
狭义的大数据就是指用现在的一般技术难以管理的大量 数据的集合。 大数据不仅仅是容量大而已,可以用3v来描述大数据的 特征:Volume(容量)、Variety(多样性)、Velocity(速度)。 1.容量也就是指数据量,基本上是指从几十TB到几PB这样的 数 量 级 ; 甚 至 可 能 发 展 到 E B 数 量 级 。 ( 1 T B = 1024GB , 1PB=1024TB,1EB=1024PB) 2.多样性网站日志数据、Facebook等媒体中的文本数据,智 能手机中内置的 GPS 所产生的位置信息,监控摄像机的视频 数据等。 3.速度也就是数据产生和更新的频率。
大数据分类——按数据来源划分 电信、金融与保险、电力、石化系统
电信行业
• 用户上网记录、 通话、信息、地 理位置 • 运营商拥有的数 据数量都在 10PB以上 • 年度用户数据增 长约数十PB
金融与பைடு நூலகம்险
• 开户信息数据, 银行网点和在线 交易数据、自身 运营的数据 • 金融系统每年产 生数据达数十PB • 保险系统数据量 也接近PB级别
电力与石化
• 仅国家电网采集 获得的数据总量 就上10个PB级别 • 石油化工、智能 水表等领域每年 产生和保存下来 的数据量也达到 数十PB级别。
大数据分类——按数据来源划分 公共安全、医疗卫生、交通领域
公共安全
• 北京:50万个 监控摄像头, 每天采集视频 数据量约3PB • 整个视频监控 每年保存下来 的数据在数百 PB以上
目录
大数据的背景 大数据的定义 大数据的分类 大数据的应用 大数据给我们带来了什么 大数据面临的挑战和趋势 大数据时代的统计
一、大数据时代的背景
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的 程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸式的增长,创造 出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。
医疗卫生
• 仅广州中山大学 医院2013年数据 量为1000个TB • 整个医疗卫生行 业一年能够保存 下来的数据就可 达到数百PB
广义的大数据
广义的大数据是一个综合性的概念,它包括
因具备3v特征而难以进行管理的数据 对这些数据进行存储、处理、分析的技术 能够通过分析这些数据获得实用意义和观点的人才和组织 这些人才和组织指的是目前在欧美十分紧俏的“数据 科学家”这类人才,以及能够对大数据进行有效运用的组 织。 由此广义的概念可知,除了自身的特征外,人才的作 用在大数据时代中日益突出。
21世纪是数据信息大发展的时 代,移动互联、社交网络、电子商务 等极大拓展了互联网的边界和应用范 围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动 互联网(微博)、物联网(传感器, 智慧地球)、车联网、GPS、医学影 像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯 狂产生着数据。
§这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 §大数据时代正在来临..
二、大数据的定义
在2012年的IT业界中,“大数据”(Big Data)成了关 注度不断提高的关键词之一。 “大数据”是一个起源于欧 美的词汇。不过,关于这个词的起源时间并不是十分清楚。 至今为止,最具影响力的说法是2010年2月出版的«经济学 家 »( The Economist )杂志中的一篇题为“ The data deluge”的文章。其中,“deluge”的解释是"数据洪流或 海量数据"。 那么,究竟何为大数据? 一般来说,可以从狭义和广义两个层面来进行理解。
大数据分类——按数据来源划分 BAT为代表的互联网公司
阿里巴巴
• 目前保存的数 据量为近百PB • 拥有90%以上 的电商数据 • 交易数据、用 户接 • 总存储数据量经 近一千个PB 压缩处 UGC • 大量社交、游戏 • 以70%以上的搜 等领域积累的文 索市场份额坐拥 本、音频、视频 庞大的搜索数据 和关系类数据
大数据时代到来
新的时代,人们从信息的被动接受者变成了主动创造者
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
三、大数据的分类
•按生产主体划分 •按数据来源划分
•按存储形式划分
大数据的分类—按生产主体划分
少量企业应用产生 的数据 巨量机器产生的数 据 • 应用服务器日志 • 传感器数据(天 气、水、智能电 网等) • 图像和视频(摄 像头监控数据等) • RFID、二维码或 条形码扫描数据
大量人产生的数据
大数据时代到来
数据量增加 数据结构日趋复杂
大量新数据源的出现则导致了非结构化、半结构化数据 爆发式的增长
根据监测,人类产生的数据量正在呈指数级增长, 大约每两年翻一番,这个速度在2020 年之前会继续 保持下去。这意味着人类在最近两年产生的数据量 相当于之前产生的全部数据量 TB PB EB ZB
• 微博、微信 • 电子商务在线交 易日志数据 • 评论、留言或者 电话投诉等 • 企业应用的相关 评论数据
• 关系型数据库 中的数据 • 数据仓库中的 数据
大数据分类—按数据来源划分
1、BAT为代表的互联网公司。 2、电信、金融、保险、电力、石化系统。 3、公共安全、医疗、交通领域。 4、气象、教育、地理、政务等。 5、其他,商业销售、制造业、农业、物流和流通等领域。
相关主题