当前位置:文档之家› 2020年大数据时代的数据库参考模板

2020年大数据时代的数据库参考模板

2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团 队和资源将Hadoop发展成多80%的 Hadoop集群用作日志处理。 2007年,中国移动开始在“大云”研究中使用Hadoop技术,规 模超过1000台。 2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将 其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB, 包含了1100台机器,每天处理约18000道作业,扫描500TB数据19。
通网站
配置网站的域 名等工作
6
云计算所需解决的问题
——假设某家企业开发一个旅游网站
7
云计算所需解决的问题
——假设某家企业开发一个旅游网站
引入云计算,它可以从根本上解决这 个问题,因为云计算是通过互联网将共享 的硬件软件资源按需提供给使用者,所有 的设备都是由云计算服务商维护,这样无 论是专业的软件开发商,还是最终的客服, 都可以将全部精力集中于业务领域,而无 须考虑硬件维护、容灾等运维问题,无形 之中也为企业节省了成本、提高了经济效 益…………
30
云计算核心技术
——Hbase场景案列:浏览历史
31
32
云计算核心技术
------应用之一 Hadoop in Telecom
33
云计算核心技术
------应用之二 Hadoop in SmartCity
34
云计算核心技术
------应用之三 阿里云“云梯”集群发展
淘宝的搜索引擎能够对数十亿的商品数据进行实时搜索,另外还拥有自主研发的文件存储系统 和缓存系统,以及 Java 中间件和消息中间件系统,这一切组成了一个庞大的电子商务操作系3统5。
39
云计算核心技术
----应用五 大数据是云计算的两大核心内容之一
KB,MB,GB、TB, PB、EB、ZB、YB、BB 1ZB=1.153*1018 KB
40
全世界权威IT咨询公司研究报告预测
云计算核心技术 ----数据分析发展趋势
一、大数据存储管理和索引查询问题
二、Hadoop性能优化问题
三、图数据并行计算模型和框架
——英特尔hadoop发行版组件
18
云计算核心技术
——hadoop的发展历史
2004年,Google发表论文,向全世界介绍了MapReduce。 2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于 Google发布的MapReduce报告,在Nutch上开发了一个可工作的 MapReduce应用。
20
Hadoop 框架
云计算核心技术
1、管理文件系统的命名空间 记录每个文件数据块在各个 Datanode上的位置和副本信息 1、2、负协责调所客在户物端理对节文点件的的存访储问管理 2、3、一记次录写命入名,空多间次内读的取改动或空 3、间文本件身由属数性据的块改组动成,典型的块 大4小、是Na6m4MenBode使用事务日志记 4、录数HD据F块S元尽数量据散的布变道化各。个使节用点映 像文件存储文件系统的命名空间, 包括文件映射,文件属性等
• eg. <”hello”, 1>
• Reduce()
– Sums values for the same key and emits <word, TotalCount>
• eg. <”hello”, (3 5 2 7)> => <”hello”, 17>
24
云计算核心技术
——Hbase数据库的基本概念
A、 每个数据单元,只存储指定个数 的最新版本
B、保存指定时间长度的版本(例如7 天) 3、常见的客户端时间查询:“某个时刻起 的最新数据”或“给我全部版本的数据” 。
29
云计算核心技术
——Hbase和Oracle比较
1、Hbase适合大量插入同时又有读取的情况 2、Hbase的瓶颈是硬盘传输速度 3、Oracle的瓶颈是硬盘寻道时间 4、Hbase很适合寻找按照时间排序top n 的场景
44
CAP理论
• 强一致性(Consistency)
– 系统在执行某操作后仍处于一致的状态。
• 可用性(Availability)
– 每一个操作能够在一定时间内返回结果,如果 超时则被认为不可用。
• 分区容错性(Partition tolerance)
– 在网络分区(被划分成孤立的区域)的情况下 仍可接受请求。
– 自动将在线数据迁移到低延迟的存储介质的技术(内存,固态硬 盘,磁盘)
– 可选的写操作一一异步,同步(基于复制,持久化) – 多线程低锁争用 – 尽可能使用异步处理 – 自动实现重复数据删除 – 动态再平衡现有集群 – 通过把数据复制到多个集群单元和支持快速失败转移来提供系统
的高可用性。
50
51
展历史 Hadoop的核心技术MapReduce Hadoop核心技术数据库Hbase
其它NoSQL数据库
2
3
大数据特性
➢4V特性
➢Volume(数据量大) ➢Variety(种类多) ➢Value(价值密度低,商业价值高 ➢Velocity(处理速度快)
1、以表的形式存放数据
2、表由行与列组成,每个列属于某个列族,由行和列确定的存储
单元称为元素
26
3、每个元素保存了同一份数据的多个版本,由时间戳来标识区分
通过client读写数据
云计算核心技术
——HmHasbtear管s理e元物数据理(表模分区型、
管理该分区的RegionServer)
RegionServer负责Region数 据的存储和读取
Hbase的所有数据(Hlog和Hfile)均存储到HDFS上, HDFS将文件划分为64MB的block,并存储多个副本
27
云计算核心技术
——行式数据库与列式数据库理解
28
云计算核心技术
——Hbase特点与Big Table思想
1、对应每次数据操作的时间,可由系统自动 生成,也可以由用户显式的赋值 2、Hbase支持两种数据版本回收方式:
关系数据库与Hadoop分布式系统的
比较
————为何云计算数据采用Hadoop分布式系统
14
15
云计算提出——hadoop思想
16
云计算核心技术
——hadoop子项目家族
Pig可以看做hadoop 的客户端软件,可以 连接到hadoop集群进 行数据分析工作
数据仓库工具,可以 看成是从SQL到MapReduce的映射器
10
网络计算发展趋势
1995
1998
集群计算
原理:指令层次的并行
网格计算 原理:任务并行
1999
对等计算
原理:数据并行
2012 云格(Gloud=Grid+Cloud)
2007
云计算
原理:位层次的并行 (可处理长字节)
网格技术:主要解决分布在不同机 构的各种信息资源的共享问题
云计算:主要解决计算力和存储11空 间的集中共享使用问题。
1、HBase是一个分布式的、面向列的开 源数据库,来自Google论文“Bigtable: 一个结构化数据的分布式存储系统”
2、HBase不同于一般的关系数据库,它是 一个适合于非结构化数据存储的数据库. 另一个不同的是HBase基于列的而不是基 于行的模式
25
云计算核心技术
——Hbase逻辑模型
Chukwa
在Hadoop之上的 数据采集与分析框 架 、主要进行日志 采集和分析
Zoo Keeper
用于协调分布式系统上的 各种服务,应用场景、实 现Namenode自动切换
Avro
数据序列化工具,用于支 持大批量数据交换的应 用。支持二进制序列化 方式,可以便捷,快速
地处理大量数据17
云计算核心技术
8
何为云计算?(理解1)
云计算,其实就是把所有的计算 应用和信息资源都用互联网连接起来, 供个人和企业用户随时访问、分享、 管理和使用,相关的资源可以通过全 球任何一个服务器和数据中心来提取 的技术。
9
何为云计算?(理解2)
是通过网络将庞大的计算处理程 序自动分拆成无数个较小的子程序, 再由多部服务器所组成的庞大系统搜 索、计算分析之后将处理结果回传给 用户。通过这项技术,远程的服务供 应商可以在数秒之内,达成处理数以 千万计甚至亿计的信息,达到和“超 级电脑”同样强大性能的网络服务。
12
那么云计算数据库是怎样提出的呢?
1、关系数据库高并发读写速度慢 2、关系数据库支撑容量有限------类似
Facebook、Twitter这样的SNS网站, 用户每天产生海量的用户动态,每月 会产生几亿条用户动态,对于关系型 数据库来说,在一张数亿条记录的表 里面进行SQL查询,效率是极其低下 乃至不可忍受的。 3、关系数据库扩展性差 4、数据日趋庞大,无论是入库和查询, 都出现性能瓶颈 5、用户的应用和分析结果呈整合趋势, 对实时性和响应时间要求越来越高 13
四、并行化机器学习和数据挖掘算法
五、社会网络分析
六、排名和推荐
七、Web信息挖掘和检索
八、媒体分析检索
九、自然语言处理
十、大数据可视化计算与分析
41
Hadoop----发展形势
42
Berkeley BDAS平台
43
NoSQL数据库
• 基础理论 • CAP理论与一致性模型
• 数据存储模型与数据库 • Key-value DB • Column-oriented DB • Document-oriented DB • Graph DB •…
➢对传统数据库的挑战
4
5
运行期间,企 业需要雇佣专 门人员负责服 务器和网络的 维护,定期备 份数据等日常 工作
相关主题