大数据技术与应用网络与交换技术国家重点实验室交换与智能控制研究中心程祥2016年9月提纲-大数据存储和管理1. 分布式文件系统1.1 概述1.2 典型分布式文件系统1.3 HDFS2. 分布式数据库2.1 概述2.2 NoSQL2.3 HBase2.4 MongoDB(略)2.5 云数据库(略)2.1 分布式数据库概述四类典型的用于大数据存储和管理的分布式数据库系统有:1.并行数据库2.NoSQL数据管理系统3.NewSQL数据管理系统4.云数据管理系统2.1 概述-并行数据库•定义通过并行使用多个CPU和磁盘来将诸如装载数据、建立索引、执行查询等操作并行化以提升性能的数据库系统。
往往运行在通用计算机组成的集群环境中。
•优点通过多个节点并行执行数据库任务、提高整个数据库系统的性能和可用性。
•不足并行数据库设计和优化时认为集群中节点数量是固定的,若果对集群进行扩展或收缩,数据转移成本高,还会导致系统一段时间不可用。
认为节点故障是特例,因此只提供事务级别的容错,如果查询过程中节点出错,整个查询需要重运行。
2.1 概述-NoSQL数据管理系统•定义没有固定数据模式并且可以水平扩展的系统被称为NoSQL。
NoSQL不支持关系数据模型。
•优点数据模型简单,每条记录拥有唯一的键,一次操作获取单个记录增强了系统可扩展性。
与并行数据库不同,NoSQL数据系统能够基于低端硬件(通用PC机)进行水平扩展,灵活性高,成本低。
NoSQL数据系统吞吐量比传统关系数据管理系统要高很多,例如,Google的Bigtable每天可处理20PB的数据。
•不足不支持ACID特性,然而,ACID特性能够使系统在中断的情况下保证在线事务能够准确执行。
NoSQL系统提供不同的查询模型,增加了开发者负担。
2.1 概述-NewSQL数据管理系统•定义既能够支持传统关系型数据库的ACID事务特性和SQL查询,又能够提供NoSQL数据管理系统的可扩展性的数据管理系统。
NewSQL是对传统基于SQL的关系型数据库的创新。
•特性支持关系数据模型使用SQL作为主要接口具有高吞吐量和高可扩展性2.1 概述-云数据管理系统•定义基于云计算技术的数据管理系统,用户无需在本地安装数据库软件,只需使用“云数据库服务提供商”提供的数据库服务即可。
•优点用户无需购买基础设施和软件,性价比高。
用户可以根据自己的需求申请存储资源即可,并且可以根据应用需求动态变化,可伸缩性好。
用户无需考虑云数据库底层的硬件和软件实现,只需要通过其提供的接口使用其服务。
•不足存储在云数据库中的数据可能会造成隐私泄露2.2 NoSQL2.2.1 NoSQL简介2.2.2 NoSQL的兴起原因2.2.3 NoSQL与关系数据库的比较2.2.4 NoSQL的四大类型2.2.5 NoSQL理论基础2.2.6 从NoSQL到NewSQL2.2.1 NoSQL简介最初表示“反SQL”运动用新型的非关系数据库取代关系数据库现在表示关系和非关系型数据库各有优缺点彼此都无法互相取代概念演变通常,NoSQL数据库具有以下几个特点:(1)数据模型灵活、简洁(2)水平可扩展性强(3)系统吞吐量高目前NoSQL数据库已经广泛应用于谷歌、亚马逊、Facebook、百度、阿里、腾讯等大型互联网公司。
2.2.2 NoSQL的兴起原因关系数据库已经无法满足大数据时代的需求。
主要表现在以下几个方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求2.2.2 NoSQL的兴起原因(续)关系数据库的关键特性包括完善的事务机制和高效的查询机制。
但是,关系数据库引以为傲的两个关键特性,到了大数据时代却不一定是必须,主要表现在以下几个方面:(1)网络大数据系统通常不要求严格的数据库事务(2)网络大数据系统往往并不要求严格的读写实时性(3)网络大数据系统通常不包含大量复杂的SQL查询在这样的背景下,NoSQL数据库应运而生。
2.2.3 NoSQL与关系数据库的比较关系数据库•优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持•劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持大数据应用,事务机制影响了系统的整体性能等NoSQL数据库•优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持大数据应用,具有强大的横向扩展能力等•劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等2.2.3 NoSQL与关系数据库的比较(续)关系数据库和NoSQL数据库各有优缺点,彼此无法取代•关系数据库应用场景:传统企业(银行、电信)的关键业务系统,需要保证强事务一致性•NoSQL数据库应用场景:互联网企业、传统企业的非关键业务(比如数据分析和挖掘)关系数据库和NoSQL数据库混合架构已经成为趋势•案例:亚马逊公司就使用不同类型的数据库来支撑它的电子商务应用1)对于“购物篮”这种临时性数据,采用键值存储会更加高效2)产品和订单信息则适合存放在关系数据库中3)大量的历史订单信息则适合保存在类似MongoDB的文档数据库中2.2.4 NoSQL的四大类型NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库2.2.4 NoSQL的四大类型(续)2.2.4 键值数据库相关产品Redis、Riak、SimpleDB、Memcached、Scalaris等等数据模型键/值对键是一个字符串对象值可以是任意类型的数据,比如整型、字符型、数组、列表、集合等典型应用涉及频繁读写、拥有简单数据模型的应用内容缓存(例如,会话、配置文件、参数、购物车等)优点扩展性好,灵活性好,大量写操作时性能高缺点难以存储结构化信息,条件查询效率较低不适用场景不是通过键而是通过值来查:键值数据库根本没有通过值查询的途径需要存储数据之间的关系:在键值数据库中,不能通过两个或两个以上的键来关联数据需要事务的支持:在一些键值数据库中,产生故障时,不可以回滚使用者百度(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Redis 和Memcached)、StackOverFlow(Redis)、Instagram(Redis)、Youtube(Memcached)、Wikipedia(Memcached)2.2.4 键值数据库(续)键值数据库已成为理想的缓冲层解决方案2.2.4 列存储数据库相关产品BigTable、HBase、Cassandra、HadoopDB、GreenPlum等等数据模型列存储典型应用数据在地理上分布于多个数据中心的应用程序可以容忍副本中存在短期不一致情况的应用程序拥有动态字段的应用程序拥有潜在大量数据的应用程序(TB级以上)优点查找速度快,可扩展性强,容易进行扩展,复杂性低缺点功能较少,大都不支持强事务一致性不适用场景需要ACID事务支持的场景使用者eBay(Cassandra)、Instagram(Cassandra)、NASA (Cassandra)、Twitter(Cassandra and HBase)、Facebook (HBase)、Yahoo!(HBase)2.2.4 文档数据库相关产品MongoDB、CouchDB、RavenDB、Terrastore、ThruDB等等数据模型键/值值(value)是版本化的(有结构)文档典型应用存储、索引并管理面向文档的数据或者类似的半结构化数据例如,用于后台具有大量读写操作的网站、使用JSON数据结构的应用、使用嵌套结构等非规范化数据的应用程序优点数据结构灵活,复杂性低,性能好(高并发)提供嵌入式文档功能,将经常查询的数据存储在同一个文档中既可以根据键来构建索引,也可以根据内容构建索引缺点缺乏统一的查询语法不适用场景在不同文档上添加事务的场景、需要支持文档间的事务的场景使用者百度云数据库(MongoDB)、SAP (MongoDB)、Foursquare (MongoDB)、NBC News (RavenDB)2.2.4 图数据库相关产品Neo4J、OrientDB、InfoGrid、Infinite Graph、Trinity等等数据模型图结构典型应用专门用于处理具有高度相互关联关系的数据,比较适合于社交网络分析、路径规划、依赖分析等问题优点可用于构建复杂的关系图谱,并支持复杂的图算法缺点复杂性高,只能支持一定的数据规模使用者Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)2.2.5 NoSQL理论基础•CAP•ACID与BASE2.2.5 CAP所谓的CAP指的是:•C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据•A:(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;•P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。
2.2.5 CAP(续)CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。
一个牺牲一致性来换取可用性的实例(a)初始状态一个牺牲一致性来换取可用性的实例 P 1M 1V 1=val 0val 1P 2M 2123P 1M 1传播新值val 1P 2M 2P 1M 1P 2M 2val 1V 2=val 0V 1=val 1V 2=val 0V 1=val 1V 2=val 1进程P 1把副本V 1的值从val 0更新为val 1副本V 1的新值val 1被传播给副本V 2进程P 2从副本V 2中读取到更新后的值val 1(b )正常执行过程一个牺牲一致性来换取可用性的实例(c) 更新传播失败时的执行过程当处理CAP的问题时,可以有几个明显的选择:•CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最简单的做法是把所有与事务相关的内容都放到同一台机器上。
很显然,这种做法会严重影响系统的可扩展性。