缓存1介绍缓存就是利用本地参考原则:当CPU要读取一个数据时,首先从缓存中查找,找到就立即读取并送给CPU处理;没有找到,就用相对慢的速率从内存中读取并送给CPU处理,同时把这个数据所在的数据块调入缓存中,可以使得以后对整块数据的读取都从缓存中进行,不必再调用内存。
它们几乎被用在每一个计算层上:硬件、操作系统、Web浏览器、Web应用程序等。
一个缓存就相当于是一个临时内存:它有一个有限的空间量,但访问它比访问原始数据速度要快。
缓存也可以存在于各个层的架构中,但经常在离前端最近的那个层上发现,在那里可以快速实现并返回数据,无需占用下游层数据。
那么如何利用缓存使数据访问更快呢在这种情况下,有许多地方可以插入缓存。
一种是在请求层节点上插入缓存,如图1所示。
图 1 在请求层节点插入缓存在请求层节点上放置一个缓存,即可响应本地的存储数据。
当对服务器发送一个请求时,如果本地存在所请求数据,那么该节点即会快速返回本地缓存数据。
如果本地不存在,那么请求节点将会查询磁盘上的数据。
请求层节点缓存即可以存在于内存中(这个非常快速)也可以位于该节点的本地磁盘上(比访问网络存储要快)。
图2 多个缓存]当扩展到许多节点的时候,会发生什么呢如图2所示,如果请求层被扩展为多个节点,它仍然有可能访问每个节点所在的主机缓存。
然而,如果你的负载均衡器随机分布节点之间的请求,那么请求将会访问各个不同的节点,因此缓存遗漏将会增加。
这里有两种方法可以克服这个问题:全局缓存和分布式缓存。
1.1全局缓存顾名思义,全局缓存是指所有节点都使用同一个缓存空间。
这包含添加一台服务器或某种类型的文件存储,所有请求层节点访问该存储要比原始存储快。
每个请求节点会以同种方式查询缓存,这种缓存方案可能有点复杂,随着客户机和请求数量的增加,单个缓存(Cache)很容易溢出,但在某些结构中却是非常有效的(特别是那些特定的硬件,专门用来提升全局缓存速度,或者是需要被缓存的特定数据集)。
在图3中描述了全局缓存常见的两种方式。
当一个Cache响应在高速缓存中没有发现时,Cache自己会从底层存储中检索缺少的那块数据。
如图4所示,请求节点去检索那些在高速缓存中没有发现的数据。
图3 负责检索数据的全局缓存图4 全局缓存里负责检索的请求节点大多使用全局缓存的应用程序都倾向于使用第一种类型,利用Cache本身来驱逐和获取数据以防止来自客户端的同一个数据区发出大量的请求。
然而,在某些情况下,使用第二种实现反而更有意义。
例如,如果该缓存用于存储大量的文件,低缓存的命中率会导致高速缓冲区不堪重负和缓存遗漏。
1.2分布式缓存?分布式缓存即缓存在分布式系统各节点内存中的缓存数据。
如图5所示,每个节点都有自己的缓存数据,所以如果冰箱扮演着缓存杂货店的角色,那么分布式缓存就是把食物放置在不同的地方——冰箱、橱柜和饭盒——当索取的时候,方便拿哪个就拿哪个,而无需特地往商店跑一趟。
通常情况下,会使用一致性哈希函数对缓存进行划分,例如,一个请求节点正在寻找一个特定块的数据,在分布式缓存中,它很快就会知道去哪里找,并确保这些数据是可用的。
这种情况下,每个节点都会有一小块缓存,然后在向另一个节点发送数据请求。
因此分布式缓存的优点之一就是只需向请求池添加节点即可增加缓存空间,减少对数据库的访问负载量。
当然,分布式缓存也存在缺点,例如单点实效,当该节点出现故障或宕机,那么该节点保存的数据就会丢失。
图5 分布式缓存分布式缓存的突出优点是提高运行速度(前提当然是正确实现)。
选择不同的方法也会有不一样的效果,如果方法正确,即使请求数很多,也不会对速度有所影响。
然而,缓存的维护需要额外的存储空间,这些通常需要购买存储器实现,但价格都很昂贵。
其中一个非常流行的开源缓存产品:Memcached(即可以在本地缓存上工作也可以在分布式缓存上工作);然而,这里还有许多其他选项(包括许多语言——或者是框架——特定选项)。
Memcached用于许多大型Web站点,其非常强大。
Memcached基于一个存储键/值对的hashmap,优化数据存储和实现快速搜索(O(1))。
Facebook采用不同类型的缓存技术来提升他们的网站性能(参考“Facebook caching and performance”)。
在语言层面上使用$GLOBALS和APC(在PHP里提供函数调用),这有助于使中间函数调用更快(大多数语言都使用这些类型库来提升网站页面性能)。
Facebook使用全局缓存并且通过多台服务器对缓存进行分布(参考“Scaling memcached at Facebook”),这就允许他们通过配置用户文件数据来获得更好的性能和吞吐量,并且还可以有一个中心位置更新数据(这是非常重要的,当运行成千上万台服务器时,缓存实效和一致性维护都是非常大的挑战)。
2Web缓存技术概述WWW是互联网上最受欢迎的应用之一,其快速增长导致网络拥塞和服务器超载,缓存技术被认为是减轻服务器负载、降低网络拥塞,减少客户访问延迟的有效途径之一。
其基本思想是利用客户访问的时间局部性(Temporal Locality)原理,将客户访问过的内容在Cache中存放一个副本,当该内容下次被访问时,不必连接到驻留网站,而是由Cache中保留的副本提供。
>Web内容可以缓存在客户端、代理服务器以及服务器端。
研究表明,缓存技术可以显著地提高WWW性能[,它可以带来以下好处:(1)减少网络流量,从而减轻网络拥塞;(2)降低客户访问延迟,其主要原因有:①缓存在代理服务器中的内容,客户可以直接从代理获取而不是从远程服务器获取,从而减小了传输延迟;②没有被缓存的内容由于网络拥塞及服务器负载的减轻而可以较快地被客户获取;(3)由于客户的部分请求内容可以从代理处获取,从而减轻了远程服务器负载;(4)如果由于远程服务器故障或网络故障造成远程服务器无法响应客户请求,客户可以从代理中获取缓存的内容副本,使得WWW服务的鲁棒性(Robustness)得到了加强。
Web缓存系统也会带来以下问题:(1)客户通过代理获取的可能是过时的内容;,(2)如果发生缓存失效,客户的访问延迟由于额外的代理处理开销而增加。
因此在设计Web缓存系统时,应力求做到Cache命中率最大化和失效代价最小化;(3)代理可能成为瓶颈。
因此应为一个代理设定一个服务客户数量上限及一个服务效率下限,使得一个代理系统的效率至少同客户直接和远程服务器相连的效率一样。
2.1Web缓存系统的理想特性一个理想的Web缓存系统应具有以下特性:(1)快捷性:缓存系统应该能够有效地降低客户的访问延迟;(2)鲁棒性:鲁棒性意味着可用性,客户希望Web服务随时可用;(3)透明性:缓存系统对客户应是透明的,客户得到的结果仅仅是快速的响应和良好的可用性;(4)可扩展性:Web缓存系统应能够随着网络规模和密度的不断增长而很好地进行扩展;(5)高效性:Web缓存系统给网络带来的开销越小越好;/(6)适应性:缓存系统能够适应客户请求和网络环境的动态变化,这涉及到缓存管理、缓存路由、代理配置等,对于获得理想的缓存性能至关重要;(7)稳定性:Web缓存系统采用的方案不应给网络带来不稳定;(8)负载均衡:一个理想的缓存方案应能够将负载均匀地分发到整个网络,以避免某一个代理或服务器成为瓶颈或Hot spot点,而造成系统一部分甚至整个系统性能下降;(9)异构处理能力:随着网络规模和覆盖域的不断增大,网络将跨越一系列不同的硬件和软件体系结构。
Web缓存系统应能够适应不同的网络体系结构;(10)简单性:简单的方案容易实现且易被普遍接受,一个理想的Web缓存方案配置起来应简单易行。
围绕上述特性,一个Web缓存系统必须解决好以下问题:(1)缓存体系结构:缓存代理在网络中如何组织和配置;(2)代理合作:代理间如何合作,相互合作的代理可以提高命中率而改善缓存系统的性能;(3)缓存路由:当一处缓存代理失效时,如何将请求向其它缓存代理转发;(4)缓存替换算法:当缓存空间不够时,缓存内容如何替换;#(5)缓存一致性:即缓存内容的时效性问题,如何防止缓存的内容过时;(6)内容预取:代理如何决定从服务器或其它代理处进行内容预取以减少客户的访问延迟;(7)负载平衡:如何解决网络中的“Hot spot”现象;(8)缓存内容:什么样的内容可以被缓存。
在设计Web缓存系统时,必须涉及上述问题。
2.2Web缓存方案概述2.2.1Web缓存体系结构一个Web缓存系统的性能取决于其客户群的大小,客户群越大,缓存的内容被再次请求的可能性就越高。
相互合作的Cache组可能会提高命中率而提高缓存系统的性能,因此缓存系统的体系结构应确保代理间能够有效地进行合作。
典型的缓存体系结构有以下几种:层次式、分布式和混合式。
图1 Web缓存系统体系结构图2.2.2]2.2.3层次式缓存体系结构在层次式缓存体系结构中,Cache在网络呈多级配置,如图1(a)所示。
为简单起见,假定有四级:底层Cache、局域层Cache、区域层Cache、广域层Cache。
底层是客户/浏览器Cache,当客户端Cache不能满足客户的请求时,该请求被转发到局域层Cache,如果仍然得不到满足,则该请求被转发到区域层Cache直至广域层Cache。
如果该请求在各级Cache中都得不到满足,则请求最终被转发到服务器。
然后服务器对该请求的响应自顶向下地发送给客户,在沿途的每一个中间层Cache中留下一个副本。
请求相同内容的其它请求则自下而上地进行转发,直到在某一级Cache中得到满足。
层次式缓存体系结构带宽效率高,点击率较高的Web内容可以快速高效地分布到网络中。
但该体系结构也存在一些不足:(1)建立层次式缓存体系结构,缓存服务器必须配置在网络中关键的访问点上,缓存服务器间需相互合作;(2)每一级Cache都会带来额外的延迟;(3)高层Cache可能会成为瓶颈并带来较长的排队延迟;(4)同一个内容的多个副本被保存在不同的Cache中,整个系统Cache空间利用率不高。
2.2.4分布式缓存体系结构针对层次式缓存结构的上述缺陷,一些研究者提出了分布式缓存体系结构,在这种结构中,只有低层Cache,如图1(b)所示。
文献中的分布式Web缓存结构中,没有超出局域层的中间Cache层,Cache之间相互协作以处理失效。
为了确定将客户请求转发给哪一个局域层Cache来获取失效的内容,每一个局域层Cache保留一份其它局域层Cache中缓存内容的目录信息,以便发生失效时将客户请求准确地转发到相应的局域层Cache。
缓存阵列路由协议CARP (Cache Array Routing protocol)是一种分布式缓存方案,它将URL空间分割成不同的部分,将每一部分指定给一组松散耦合的Cache组,每个Cache只能缓存具有指定给它的URL的Web内容,从而可以根据客户请求内容的URL来确定将请求转发给哪一个Cache。