大数据技术的发展
通过大数据预测疾病,定位患者
2009 年, Google 不借助任何医疗手段, 仅通过5000万条用户检索关键词,比美 国疾控中心提前数周预测H1N1流感的爆 发!
中英人寿保险有限公司分析客户多种生 活数据(爱好、常浏览网站、常看节目 等),找出更有可能患高血压、糖尿病 和抑郁症的人。
商业营销
TB PB EB ZB
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力 所能处理的范畴 大数据时代已经来临..
大数据的诠释
“大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通 过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。”(维 基百科)
NoSQL应用现状
大数据应用领域
大数据应用前景
互联网行业大数据应用场景
100.0% 80.0% 60.0% 40.0% 20.0% 0.0%
社交网络 B2C业务 精准营销 在线音视频业务 广告监测
电信行业大数据应用场景
100.0% 80.0% 76.6% 42.3%
83.4%
75.5%
51.6%
农业管理
粮食安全、农业结构调整等方面的管理问题,都可通过大数据研究预测和解决。
采用条形码及RFID技术进行记录、监督,从而 在河北廊坊郊区,农田里安装了内置摄像头的传感 器,通过传感器、摄像头等终端应用收集、采集农 实现针对生产、收获、库存、流通和食品安全 产品的各项指标,并将数据汇聚到云端进行实时监 等的管理,再根据不同地区、不同作物类型进 测、分析和管理,比如每天的气温、湿度、雨量等 行相应的数据信息调整,以便监控管理软件能 信息,还向农民发放智能手机和平板电脑,让大家 够很好地帮助农户种植和管理作物。 随时记录工作成果和现场注意到的问题。
非结构化处理案例(BigTable)
数据模型 一个存储Web网页的例子的表的片断
行名:”n.www” contents列族:存放的是网页的内容 anchor列族:存放引用该网页的锚链接文本。 “anchor:”列表示被引用 “anchhor:my.look.ca”列表示被my.look.ca引用 (”n.www”,” anchor: my.look.ca”,t8)->””
政府治理
大数据提高政府社会治理水平
两会期间,通过“网友热搜的两会关键词”, 了解老百姓关注的热点、精神和解读,为制定 工作目标提供决策依据。
创建环境监控物联网系统,利用大数据手段监控、 评估、分析诱因(地域气象条件、生产生活方式、 植被治理模式,城市建设方式),找到解决方案。
医疗健康
39.4% 20.9%
60.0% 40.0% 20.0% 0.0% 实时营销
30.7% 15.9%
线路监控
新业务挖掘
业务推送
100% 80% 60% 40% 20% 0%
金融行业大数据应用场景
80.9% 100.0% 73.1% 60.3% 57.0%
制造行业最关注的大数据应用场景
80.0%
60.0% 40.0% 20.0% 0.0%
•
NoSQL数据模型及分类
类型 列存储 部分代表 Hbase Cassandra Hypertable 特点 顾名思义,是按列存储数据的。最 大的特点是方便存储结构化和半结 构化数据,方便做数据压缩,对针 对某一列或者某几列的查询有非常 大的IO优势。 文档存储一般用类似json的格式存 储,存储的内容是文档型的。这样 也就有有机会对某些字段建立索引, 实现关系数据库的某些功能。 可以通过key快速查询到其value。 一般来说,存储不管value的格式, 照单全收。(Redis包含了其他功 能) 图形关系的最佳存储。使用传统关 系数据库来解决的话性能低下,而 且设计使用不方便。 通过类似面向对象语言的语法操作 数据库,通过对象的方式存取数据。 高效的存储XML数据,并支持XML 的内部查询语法,比如 XQuery,Xpath。
• •
对于分布式数据系统,分区容忍性是基本要求
对于大多数web应用,牺牲一致性而换取高可用性,是目前多数分布 式数据库产品的方向。
变革的方向NOSQL ? NEWSQL?
Nosql 是 not only sql ,并不是没有sql,是一种菲关系型数据库
Nosql 希望从内核与理念上打破关系模型、设计出一套更适合分布式存储,支持 多样化数据的存储体系。 MongoDB Hbase Redis
金融大数据产学研项目
2014年,基于CEP的金融期货会员端风险监控(中国金融期货交易所)
风险监控
异常报警
状态展示
流程处理
事件订阅适配器 保证金账户风 险监控模型 客户异常交易 行为监控模型 市场行情 监控模型
其他模型
事件流连接适配器
历史数据访问适配器
交易数据
结算数据
市场数据
其他数据
左起 Ed Oates、Bruce Scott、Bob Miner、 Larry Ellison
Oracle CEO Larry Ellison
/bigxuyue/p/3386396.html 银行建模案例
变化来了之一:数据量爆炸增长
大数据时代到来
变化来只二:非结构化类型增加成主流
大数据来源
大数据的兴起
数据量增加 数据结构日趋复杂
大量新数据源的出现则导致了非结构化、半 结构化数据爆发式的增长
根据IDC 监测,人类产生的数据量正在呈指数级 增长,大约每两年翻一番,这个速度在2020 年 之前会继续保持下去。这意味着人类在最近两年 产生的数据量相当于之前产生的全部数据量
72.5%
66.3% 50.9% 24.8%
证券/股票投资
险种开发
信用卡欺诈
电子支付业务
供应链优化
产业研发
仓储监控
企业统一管理
综合来看,未来几年大数据在商业智能,公共服务和市场营销三个领域的应用非常 值得看好,大多数大数据案例和预算将发生在这三个领域。 29
数据来源:CCW Research,2012/4
NEWSQL希望以尽可能兼容原有体系的基础上,逐渐过渡到分布式存储 VoltDB MEMsql
变革方法
纵向扩展 (很难分布式部署、无Master 架构) ---横向扩展 分库分表 —分片 行式存储 ----列式存储 ACID -BASE
无需预定义模式、不需建立确定的列
NoSQL数据模型及分类
• • •
• •
•
全球每秒钟发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年… 每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏 览16 年… 每天亚马逊上将产生6.3百万笔订单… 每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达 1.3EB Google上每天需要处理24PB的数据…
通过客户行为特征分析,进行产品推荐,实现精准营销。
淘宝、亚马逊等电商企业,通过客户商品浏览 与购买行为,进行偏好分析,并准确的预测客 户的产品购买意向,进行相关推送。
精准营销:北美折扣零售商 Target 在完全不和 准妈妈对话的前提下,仅分析顾客的购买习惯, 并进行“怀孕趋势”评分,能较准确地预测预 产期,以便在孕期寄送相应的优惠券。
交易风险监控:交易所对于实时交易数据进行及时 扑捉,对金融期货等异常交易行为、持仓、资金、 行情风险进行监控,及时制止扰乱市场的行为。同 时通过对海量交易数据的存储进行交易反演,旨在 挖掘风险监控的最优阀值,提升风控可靠性。
风险溢价计量:在小微企业业务方面,银行可以 在准确计量风险溢价的基础上,构建自动审批模 板,适当提高价格、加快授信流程,既满足企业 融资需求,又确保风险调整后的总体收益水平。
文档存储
MongoDB CouchDB
key-value存储
Tokyo Cabinet / Tyrant Berkeley DB MemcacheDB Redis Neo4J FlockDB InfoGrid db4o Versant Berkeley DB XML BaseX
图存储
对象存储 xml数据库大数据技术发展来自数据库技术发展历史
无库时代
层次状数据库
网状数据库 关系型数据库 分布式数据库
层次型数据库
关系型数据库之父:E.F.Codd
关系型数据库
1970年,Codd划时代的论文 《用于大型共享数据库的关系数据模型》
关系与关系代数
SQL之父
唐·钱伯林(Don Chamberlin),是IBM Fellow,ACM及IEEE 特别会员。 他是SQL关系数据库语言的发明人之一,也是XQuery语言的设计基础Quilt 语言的发明人之一。Don拥有加利福尼亚大学博士学位。他目 前在 IBM Almaden 研究中心工作,在过去几年中,他代表IBM参与W3C XML Query 工作组的工作。
“大数据是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到 撷取、管理、处理、并整理成创造新价值的源泉,还是改变市场组织机构,以及政府与 公民关系的方法 。”(《大数据时代》)
“大数据是数据量在10TB以上、需要采用新兴的大数据技术加以收集、处理和应用,以 展现更多社会、商业价值的数据。”(个人总结)
NoSQL运动两个核心理论基础:
•
Google的BigTable
BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存 储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保 证。