当前位置:
文档之家› BIGDATA世界大学城3.ppt
BIGDATA世界大学城3.ppt
力。
海量数据本身 + 处理方法
所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯 锡全球研究院()估计,全球企业2010年在硬盘上存储了超过 7(1等于10亿)的新数据,而消费者在和笔记本等设备上存储
2009年,甲型H1N1流感在全球 爆发传播,为了发现和控制疫情 ,各国政府和卫生相关部门付出 了巨大努力,但得到的数据仍然 滞后一两周,而对人们的搜索的 历史记录进行处理,建立合理的 数学模型后,得到的预测结果与 官方的数据相关性高达97%,能 够立刻判断出流感是从哪里传播 出来的,没有一两周的滞后。
收集的监控结果等等,显然不同的格式处理起来更加困难。 异常数据的处理
传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银 行对每个账户的管理;
大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐 藏的关联关系,少量异常数据不会对总体结果产生影响。
大数据带来的思维方式的变化
处理的对象往往是全部数据,而不是部分数据的采样
采样的不合理会导致预测结果的偏差,在大数据时代,依靠 强大的数据处理能力,应该去处理全部的数据 不再执迷于精确性
精确的、规范化的、可以被传统数据库处理的数据只占全部 数据的5%,必须接受不精确性才能处理另外95%的数据。
错误的数据是客观存在的,竭力避免它就失去了应有的客观 性和公平性。
大数据的简单算法比小数据的复杂算法更有效。 更加关注相关性,而不是因果性
传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准文 件的方式存储数据,由于结构清晰,处理相对容易;
大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种 网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎 中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动
处理了5000万条历史记录、4.5 亿个不同的数学模型。
是一个对机票价格进行预测的公司, 帮助消费者抓住最佳购买机票的时机
,使乘客节省很多钱。
→
最初预测系统建立在41天之内的 12000个价格样本基础上,数据是从 旅游网站上抓取的,如今已经拥有超
过2000亿条飞行记录。
系统只推测机票的价格何时最便宜, 不关心是什么原因导致的价格下降。
决策者
人类应如何对待大数据
机遇 大数据能够为人类带来新的理念、新的价值,推动 社会的快速进步,能够让人类发现一些以往未曾发
现的潜在关联。 风险
个人隐私如何保护 数据垄断、独裁 数据主宰一切
大数据的重要性
1、决定企业是否有未来、业务可延伸范围
2、存储、分类、统计、建模、预测的技术手段
3、更高一层数据层面整合企业内外部
国内外政府机构对大数据的重视更多在于报告
国外已经开始投资应用
美国国务院采用大数据技术开发新的美 国护照系统。
宣布投资1亿美元用于大数据研究;
新玩家和新模式正在出现
新平台技术
▪ 基于语言: 面对的传统行
和列
不同范围的服务
数据入 口/汇聚
新的传输方案
▪ 前提:传统交付模式 - 单片或
大数据的4V特性
数据量 巨大
大数据 的特性
实时性 要求高
更关注
大数据的4V特性
体量Volume 多样性Variety 价值密度Value
非结构化数据的超大规模和增长 总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍
大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
速度
• 1s 是临界点.
• 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理 结果就是过时和无效的.
• 实时处理的要求,是区别大数据引用和传统数据仓库技术的 关键差别之一.
数据量
大数据与其他新兴技术的关系
大数据、物联网、云计算、移动通信等都是近年涌 现出来的新兴概念,彼此之间不是孤立的,而是存
4、挖掘内心需求
5、产生新的用户量、给用户产生行为指纹
国内外现状
•国外什么情况?万马奔腾,抢占大数据高地
、、、、、等行业巨头已经在大数据产业链开 始行动,从不也快速加入到大数据队伍中,对已经 持有的大数据进行挖掘,以便改善自身的服务
物联网应用技术讲座
大数据()
不知道 ? 你了!
2013年大数据的元年
如今,我们处所涉及的资料 量规模巨大到无法透过目前主流软件工具,在合理时间内达 到撷取、管理、处理、并整理成为帮助企业经营决策更积极
目的的资讯。
维基百科:大数据是由数量巨大、结构复杂、类型众多数据 构成的数据集合,是基于云计算的数据处理与应用模式,通 过数据的整合共享,交叉复用形成的智力资源和知识服务能
在着内部联系。
大数据与传统数据库的区别
大数据比云计算更为落地
商业模式驱动
应用需求驱动
大数据不仅仅是“大”
多大? 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一
大数据与传统数据库的区别
大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进 一步发展起来的。但有两点比较主要的不同: 结构化程度
大数据的价值链
数据的掌控者,拥有或者可以收集大量数
数据 据的公司。海量的数据就是财富,可以考
虑自己分析或者卖数据给其他公司。 技术供应商或者分析公司。掌握了从海量数
技术 据中分析出有用信息的技能或者工具,但本
身不一定拥有数据。
思维Hale Waihona Puke 有创新思维的人或者公司。他们对大数据敏
大数据的从业人员
技术人员
大数据
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等)
价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但 珍贵的信息.
• 价值密度低,是大数据的一个典型特征.
多样性
企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源. 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分 析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应 用.