当前位置:文档之家› 大数据存储资料

大数据存储资料


Michael Stonebraker
01 数据存储的前世今生
1)
数据库管理系统
层次数据库→ 网状数据库→ 关系数据库
Michael Stonebraker,SQL Server/Sysbase奠基人。 1992 年提出对象关系数据库模型,创作了Ingres, Illustra, Cohera, StreamBase Systems和 Vertica等系统。Stonebraker教授也曾担任过Informix的CEO,目前
01 数据存储的前世今生
1)
数据库管理系统
层次数据库→ 网状数据库→ 关系数据库
数据量越大,结构越复杂,不利于用户掌握 用户必须了解系统存储结构的细节,加重了编程的负担
01 数据存储的前世今生
1)
数据库管理系统
层次数据库→ 网状数据库→ 关系数据库
Edfar F. Codd
Don Chamberlin
他是MIT麻省理工学院客席教授。
Stonebraker 教授领导了称为Postgres项目,并把Postgres 放在了BSD 版权的 保护下。如今Postgres名字已经 变成了PostgreSQL,功能也是日渐强大。
在Ingres 基础上产生了很多商业数据库软件,包括 Sybase、Microsoft SQL
01 数据存储的前世今生
2)
关系数据库
问题2:服务器顶配了

行式存储 → ACID → 关系数据库的问题
分库 分表 按照地域分 按照业务分 按照ID分
01 数据存储的前世今生
2)
关系数据库
行式存储 → ACID → 关系数据库的问题 − 2006年
− 长途电信传输局
− 300辆车 − 15s上传1次数据 − 每月备份后删除
− 4.5亿数学模型
− 45个关键词组合
01 数据存储的前世今生
事件二:变革商业
事件 对手 武器 机票价格预测 埃齐奥尼的Farecast系统
分析大量价格记录
结果
票价预测准确度达75% 平均每张机票节省50美元
− 到2013年拥有2000亿条航班记录
01 数据存储的前世今生
事件三:出租车
事件 对手 武器 结果 交通拥堵热点提取 武汉1.5万出租车GPS数据
大数据存储
数据库技术的变革和发展
余洋
yuy@
目录
完整的科学研究周期包含四个部分:数据采集、数据整理、数据分析 及数据可视化。现代科学研究可以通过多种方式收集和生成数据,对 于大量收集到的数据,却缺乏好的整理与分析工具。
01
数据存储的前世今生 数据库设计的CAP 大数据时代的NOSQL


Not designed to be run on clusters
– Scaling up – Scaling out – 传统的SQL Server , Oracle 都是强依赖于磁盘系统来实现 集群
01 数据存储的前世今生
2)
关系数据库
问题1:表数据膨胀了
行式存储 → ACID → 关系数据库的问题
2)
关系数据库
行式存储 → ACID → 关系数据库的问题 读某个列必须读入整行 行不等长,修改数据可能导致行迁移
行数据较多时可能导致行链
01 数据存储的前世今生
2)
关系数据库
行式存储 → ACID → 关系数据库的问题 全表扫描 行标识访问
01 数据存储的前世今生
2)
关系数据库
− I 隔离性 两个事务不会相互影响,覆盖彼此数据等 − D 持久化 事务一旦完成,那么数据应该是被写到安全的,持久
化存储的设备上
01 数据存储的前世今生
2)
关系数据库
Impedance Mismatch
– ORM (Hibernate存在的价值) – 这个问题影响的是开发效率
行式存储 → ACID → 关系数据库的问题
01 数据存储的前世今生
2)
关系数据库
行式存储 → ACID → 关系数据库的问题

关系型数据库在单机容量达到上限的时候,做扩展是
非常难的,往往要要根据主键进行分表;其实可以想
到一旦分表之后,就已经开始违反关系型数据库的范式
了,因为“同一个集合的数据被拆分到多个表”

当数据开始布存储的时候,关系型数据库逐渐演变成
依赖主键的查询系统。
01 数据存储的前世今生
3)
NOSQL数据库
新型数据库的崛起
NoSQL=Not Only SQL
大部分NOSQL产品的共同点:

支持SQL不再是必选项,取而代之的是简单的Key-Value存取 模型; 在关系型数据库的基础上大刀阔斧的做减法,比如不支持事 务;Nosql产品对性能的关注远远超过ACID,往往只提供行级 别的原子性操作,即对同一个key的操作操作会是串行执行,保 证数据不会损坏。
Server、Informix 和许多其他的系统。可以认为,Stonebraker教授是目前主流 数据库的奠基人。
01 数据存储的前世今生
2)
关系数据库
行式存储 → ACID → 关系数据库的问题 数据存放在数据文件内 数据文件的基本组成单位:块/页 块内结构:块头、数据区
01 数据存储的前世今生
分析车辆速度
低密度
高密度
每5分钟处理1次
− 1.5万辆车
− 每15秒上传1次 − 匹配、聚类、拟合
− 5分钟
有哪些理论可以帮我们做判断?
01 数据存储的前世今生
数据库技术的转变是 数据处理理念的转变
01 数据存储的前世今生
1)
数据库管理系统
层次数据库→ 网状数据库→ 关系数据库
上一层记录类型和下一层记录类型的联系是1:N联系,容易产生数据冗余 不能表达含有多对多关系的复杂结构,容易引起数据不一致
行式存储 → ACID → 关系数据库的问题 B-树索引
01 数据存储的前世今生
2)
关系数据库
行式存储 → ACID → 关系数据库的问题
− A 原子性 在事务中执行多个操作是原子性的,要么操作全部
执行,要么一个都不执行
− C 一致性 进行事务的过程中整个数据加的状态是一致的,不
会出现数据花掉的情况
02 03
NoSQL将意味着不止SQL
科学研究的第四范式为数据存储存储的研究和快速发展带来了新的动力
01 数据存储的前世今生
事件一:公共卫生
事件 对手 武器 结果 2009年,H1N1流感预测 谷歌
分析搜索记录
疾控中心
医院报告
谷哥提前两周得到结果 与官方数据相关性达97%
− 5000万美国人 − 2003 — 2008 年 流感关键词
相关主题