当前位置：文档之家› 2020年大数据时代的数据库参考模板

2020年大数据时代的数据库参考模板

2006年1月，Doug Cutting加入雅虎，Yahoo!提供一个专门的团队和资源将Hadoop发展成多80%的 Hadoop集群用作日志处理。 2007年，中国移动开始在“大云”研究中使用Hadoop技术，规模超过1000台。 2008年，淘宝开始投入研究基于Hadoop的系统——云梯，并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB，包含了1100台机器，每天处理约18000道作业，扫描500TB数据19。
通网站
配置网站的域名等工作
6
云计算所需解决的问题
——假设某家企业开发一个旅游网站
7
云计算所需解决的问题
——假设某家企业开发一个旅游网站
引入云计算，它可以从根本上解决这个问题，因为云计算是通过互联网将共享的硬件软件资源按需提供给使用者，所有的设备都是由云计算服务商维护，这样无论是专业的软件开发商，还是最终的客服，都可以将全部精力集中于业务领域，而无须考虑硬件维护、容灾等运维问题，无形之中也为企业节省了成本、提高了经济效益…………
30
云计算核心技术
——Hbase场景案列：浏览历史
31
32
云计算核心技术
------应用之一 Hadoop in Telecom
33
云计算核心技术
------应用之二 Hadoop in SmartCity
34
云计算核心技术
------应用之三阿里云“云梯”集群发展
淘宝的搜索引擎能够对数十亿的商品数据进行实时搜索，另外还拥有自主研发的文件存储系统和缓存系统，以及 Java 中间件和消息中间件系统，这一切组成了一个庞大的电子商务操作系3统5。
39
云计算核心技术
----应用五大数据是云计算的两大核心内容之一
KB，MB，GB、TB， PB、EB、ZB、YB、BB 1ZB=1.153*1018 KB
40
全世界权威IT咨询公司研究报告预测
云计算核心技术 ----数据分析发展趋势
一、大数据存储管理和索引查询问题
二、Hadoop性能优化问题
三、图数据并行计算模型和框架
——英特尔hadoop发行版组件
18
云计算核心技术
——hadoop的发展历史
2004年，Google发表论文，向全世界介绍了MapReduce。 2005年初，为了支持Nutch搜索引擎项目，Nutch的开发者基于 Google发布的MapReduce报告，在Nutch上开发了一个可工作的 MapReduce应用。
20
Hadoop 框架
云计算核心技术
1、管理文件系统的命名空间记录每个文件数据块在各个 Datanode上的位置和副本信息 1、2、负协责调所客在户物端理对节文点件的的存访储问管理 2、3、一记次录写命入名，空多间次内读的取改动或空 3、间文本件身由属数性据的块改组动成，典型的块大4小、是Na6m4MenBode使用事务日志记 4、录数HD据F块S元尽数量据散的布变道化各。个使节用点映像文件存储文件系统的命名空间，包括文件映射，文件属性等
• eg. <”hello”, 1>
• Reduce()
– Sums values for the same key and emits <word, TotalCount>
• eg. <”hello”, (3 5 2 7)> => <”hello”, 17>
24
云计算核心技术
——Hbase数据库的基本概念
A、每个数据单元，只存储指定个数的最新版本
B、保存指定时间长度的版本（例如7 天） 3、常见的客户端时间查询：“某个时刻起的最新数据”或“给我全部版本的数据” 。
29
云计算核心技术
——Hbase和Oracle比较
1、Hbase适合大量插入同时又有读取的情况 2、Hbase的瓶颈是硬盘传输速度 3、Oracle的瓶颈是硬盘寻道时间 4、Hbase很适合寻找按照时间排序top n 的场景
44
CAP理论
• 强一致性（Consistency）
– 系统在执行某操作后仍处于一致的状态。
• 可用性（Availability）
– 每一个操作能够在一定时间内返回结果，如果超时则被认为不可用。
• 分区容错性（Partition tolerance）
– 在网络分区（被划分成孤立的区域）的情况下仍可接受请求。
– 自动将在线数据迁移到低延迟的存储介质的技术（内存，固态硬盘，磁盘）
– 可选的写操作一一异步，同步（基于复制，持久化） – 多线程低锁争用 – 尽可能使用异步处理 – 自动实现重复数据删除 – 动态再平衡现有集群 – 通过把数据复制到多个集群单元和支持快速失败转移来提供系统
的高可用性。
50
51
展历史 Hadoop的核心技术MapReduce Hadoop核心技术数据库Hbase
其它NoSQL数据库
2
3
大数据特性
➢4V特性
➢Volume（数据量大） ➢Variety（种类多） ➢Value（价值密度低，商业价值高 ➢Velocity（处理速度快）
1、以表的形式存放数据
2、表由行与列组成，每个列属于某个列族，由行和列确定的存储
单元称为元素
26
3、每个元素保存了同一份数据的多个版本，由时间戳来标识区分
通过client读写数据
云计算核心技术
——HmHasbtear管s理e元物数据理（表模分区型、
管理该分区的RegionServer）
RegionServer负责Region数据的存储和读取
Hbase的所有数据（Hlog和Hfile）均存储到HDFS上， HDFS将文件划分为64MB的block，并存储多个副本
27
云计算核心技术
——行式数据库与列式数据库理解
28
云计算核心技术
——Hbase特点与Big Table思想
1、对应每次数据操作的时间，可由系统自动生成，也可以由用户显式的赋值 2、Hbase支持两种数据版本回收方式：
关系数据库与Hadoop分布式系统的
比较
————为何云计算数据采用Hadoop分布式系统
14
15
云计算提出——hadoop思想
16
云计算核心技术
——hadoop子项目家族
Pig可以看做hadoop 的客户端软件，可以连接到hadoop集群进行数据分析工作
数据仓库工具，可以看成是从SQL到MapReduce的映射器
10
网络计算发展趋势
1995
1998
集群计算
原理：指令层次的并行
网格计算原理：任务并行
1999
对等计算
原理：数据并行
2012 云格(Gloud=Grid+Cloud)
2007
云计算
原理：位层次的并行（可处理长字节）
网格技术：主要解决分布在不同机构的各种信息资源的共享问题
云计算：主要解决计算力和存储11空间的集中共享使用问题。
1、HBase是一个分布式的、面向列的开源数据库，来自Google论文“Bigtable：一个结构化数据的分布式存储系统”
2、HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库. 另一个不同的是HBase基于列的而不是基于行的模式
25
云计算核心技术
——Hbase逻辑模型
Chukwa
在Hadoop之上的数据采集与分析框架、主要进行日志采集和分析
Zoo Keeper
用于协调分布式系统上的各种服务，应用场景、实现Namenode自动切换
Avro
数据序列化工具,用于支持大批量数据交换的应用。支持二进制序列化方式，可以便捷，快速
地处理大量数据17
云计算核心技术
8
何为云计算？（理解1）
云计算，其实就是把所有的计算应用和信息资源都用互联网连接起来，供个人和企业用户随时访问、分享、管理和使用，相关的资源可以通过全球任何一个服务器和数据中心来提取的技术。
9
何为云计算？（理解2）
是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再由多部服务器所组成的庞大系统搜索、计算分析之后将处理结果回传给用户。通过这项技术，远程的服务供应商可以在数秒之内，达成处理数以千万计甚至亿计的信息，达到和“超级电脑”同样强大性能的网络服务。
12
那么云计算数据库是怎样提出的呢？
1、关系数据库高并发读写速度慢 2、关系数据库支撑容量有限------类似
Facebook、Twitter这样的SNS网站，用户每天产生海量的用户动态，每月会产生几亿条用户动态，对于关系型数据库来说，在一张数亿条记录的表里面进行SQL查询，效率是极其低下乃至不可忍受的。 3、关系数据库扩展性差 4、数据日趋庞大，无论是入库和查询，都出现性能瓶颈 5、用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高 13
四、并行化机器学习和数据挖掘算法
五、社会网络分析
六、排名和推荐
七、Web信息挖掘和检索
八、媒体分析检索
九、自然语言处理
十、大数据可视化计算与分析
41
Hadoop----发展形势
42
Berkeley BDAS平台
43
NoSQL数据库
• 基础理论 • CAP理论与一致性模型
• 数据存储模型与数据库 • Key-value DB • Column-oriented DB • Document-oriented DB • Graph DB •…
➢对传统数据库的挑战
4
5
运行期间，企业需要雇佣专门人员负责服务器和网络的维护，定期备份数据等日常工作

e商务文档

2020年大数据时代的数据库参考模板

相关文档推荐：