1、大数据概念认知与特征
大数据生态:软件是引擎
大数据的应用不仅仅是精准营销
• 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行 各业特别是公共服务领域具有广阔的应用前景
消费 行业
金融 服务
食品 安全
医疗 卫生
军事
交通 环保
电子 商务 气象
管理大数据“易”,理解大数据“难”
•目前大数据管理多从架构和并行等方面考虑,解 决高并发数据存取的性能要求及数据存储的横向扩 展,但对非结构化数据的内容理解仍缺乏实质性的 突破和进展,这是实现大数据资源化、知识化、普 适化的核心.
•非结构化海量信息的智能化处理:自然语言理解、 多媒体内容理解、机器学习等.
大数据为什么重要?
更高一层数据层面整合企业内外部
更高数据层面整合
大数据组成和展現方式?
大数据平台技术
12/8/2015
新模式和新技术
新平台技术
▪ 基于SQL语言: 面对OLAP
的传统行和列
不同范围的服务
新的传输方案
腾讯在天津投资建立亚洲最大的数据中心;也在投资建立大数据处理中心;新浪推出企业微博 产品,提供精准的数据分析服务。
Gartner 2011年技术成熟曲线,大数据处于高速发展期
技术演进历史揭示未来是大数据驱动的智慧经济模式
什么才是大数据?
• 海量数据就是大数据?
指数型增长的海量数据
• 大数据就是云计算?大Biblioteka 据技术挑战12/8/2015
大数据技术挑战
12/8/2015
大数据与传统数据库的区别
• 大数据是在传统数据库学科的分支——数据仓库与数据挖 掘的基础上进一步发展起来的。但有两点比较主要的不同:
– 结构化程度
• 传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准 XML文件的方式存储数据,由于结构清晰,处理相对容易; • 大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各 种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索 引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感 器自动收集的监控结果等等,显然不同的格式处理起来更加困难。
大数据时代的新思维
主讲:桂云苗
“大数据的应用”学习路线图
深入 大数据带来的思维变化 大数据带来的价值链 大数据发展现状与未来 大数据 vs 人类 大数据算法与理论 大数据系统与实践 NoSQL Hadoop
认知
初识
什么是大数据 大数据的特性 大数据与传统技术的关系 大数据与其他新兴技术的关系
参考资料推荐
展现方式:大型控制中心、移动终端
在多样性、体量、速度三大主要特征的指引下,大数据将有新型的展现方式:大型控制中 心和移动终端,实现数据的实时处理和快速决策。
▪ 传统交付模式 - 单片或基于设
备的解决方案
数据入 口/汇聚
▪ 云: 能够充分利用物理设施的 ▪ 不基于SQL或map-reduce
的: 由谷歌率先发起 数据平台
弹性,以实现处理快速增长数 据的能力
▪ 数据流: 基于运行商数据直接
生成任意图形 分析
“数据库将演变成一个虚拟的, 基于云计算,超级可扩展的分布 式平台。” - Forrester analyst Jim Kobielus
对大数据的進一步理解
大数据比云计算更为落地
商业模式驱动
应用需求驱动
云计算本身也是大数据的一种业务模式
大数据不仅仅是“大”
多大? PB 级
比大更重要的是 数据的复杂性, 有时甚至大数据 中的小数据如一 条微博就具有颠 覆性的价值
软件是大数据的引擎
• 和数据中心(Data Center) 一样,软件是大数据的驱 动力. • 软件改变世界!
Variety 多样性
•企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互 信息,位置信息等是大数据的主要来源. •能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义 分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得 应用.
– 异常数据的处理
• 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如 银行对每个账户的管理; • 大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中 隐藏的关联关系,少量异常数据不会对总体结果产生影响。
大数据的4V特性
非结构化数据的超大规模和增长
体量Volume
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义
多样性Variety
价值密度Value
大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能 (咨询、报告等)
实时分析而非批量式分析
速度Velocity
数据输入、处理与丢弃 立竿见影而非事后见效
Value 价值
• 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. • 价值密度低,是大数据的一个典型特征.
Velocity 速度
• 1s 是临界点.
•
对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无 效的.
•
实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之 一.
Volume 数据量
PB是大数据層次的临界点. KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB
BIG DATA
大数据概念认知与特征
互联网越来越智能
Google精确掌握用户行为、获取需求
Facebook用户 产生内容,创造 需求。
Google分析用 户搜索信息,满 足用户需求 雅虎提供静态的 导航信息
前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需 求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。 谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等 信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。 广告的价值就越高。 这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。 颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。
微博为新浪带来巨大价值
马云的判断来自于数据分析
“2008年初,阿里 巴巴平台上整个买 家询盘数急剧下滑 ,欧美对中国采购 在下滑。海关是卖 了货,出去以后再 获得数据;而我们 提前半年时间从询 盘上推断出世界贸 易发生变化了。”
马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多 家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一 个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的 准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。