当前位置:文档之家› cache一致性问题和解决方法

cache一致性问题和解决方法

cache一致性问题和解决方法作者工程技术大学摘要高速缓冲存储器一致性问题是指高速缓冲存储器中的数据必须与存中的数据保持同步(一致) 。

多核处理器将一个以上的计算核集成在一个处理器中,通过多个核心的并行计算技术,增强处理器计算性能。

单片多处理器结构(CMP—ChipMultiprocessor)又是该领域中备受关注的问题。

本文简要论述了CMP的多级Cache存储结构,多级结构引起了Cache一致性问题,一致性协议的选取对CMP系统的性能有重要影响。

使用何种Cache一致性模型以及它的设计方案是本文重点研究的容。

关键词:CMP;Cache一致性;存储器;协议;替换策略Cache consistency problem and solving method Abstract Cache consistency refers to the data in the cache memory must be synchronized with the data in memory (the same).Multi·core processor was the integration of multiple computing cores on a single processoL which improved processor computing ability through the parallelcomputing Technology of multi-coreprocessors.Single chip multi-processorarchitecture(CMP-ChipMulfiprocessor)was hot spots in this area.The CMPmulti-level Cache storage structure was briefly discussed in this paper,which led to Cache coherence problem,the selection of consistency protocol had a major impact on the performance of the CMP system.The selection of model of theCache Coherence and methods of its design will have a significant impact ofoverall design and development of CMPKey words:CMP Cache; consistency; memory; protocol; replacement strategy1引言在过去的二十年中,计算机处理器设计工艺和处理器体系结构发展迅速,计算机也能够完成所赋予它的大部分任务。

因此,在各种领域得到迅速和广泛的应用。

同时,广泛的应用也带来了对高性能和低功耗处理器的强劲需求。

而以往通过在单核处理器中集成更多的晶体管,提升处理器频率的方法,随着摩尔定律和处理器功耗的畸形不对称,使得高频处理器将会带来以往无法预计的功耗问题。

多核处理器技术的出现解决了上述问题。

2 国外发展现状2.1 CMP体系结构研究现状近年来,很多大学以及研究机构在从事CMP的研究,一些著名大学及研究机构已经有相当深入的工作,其中比较有影响的有国外的Standford大学、MIT等,国的清华大学、国防科技大学在CMP研究方面也取得了一定的研究成果。

Standford大学研究的Hydra片上多处理器集成了4个MIPSR 3000处理器核心,每个微处理器核心具有私有的指令Cache和一级数据Cache,所有的处理器核心共享一个片上二级Cache进行通信和共享数据。

Hydra CMP还支持线程级猜测执行,可以将程序段并行化,让多个线程来执行这段程序。

Hydra综合了共享Cache多处理器系统结构、革新性的同步机制、高级集成电路技术和并行编译技术,即使在执行顺序应用程序时,Hydra CMP能够获得比宽发射超标量微处理器更好的性能。

MIT的M.Machine片上集成了三个微处理器核心,它们通过交叉开关进行快速的寄存器级间的通信。

程序在M.Machine上通过寄存器间的快速通信以及同步机制来确保程序的细粒度并行,并且以一种极细粒度的机制来实现线程的并行性。

清华大学微处理器和SoC研究中心从2003年开始着手进行CMP的调研工作,于2005年年初基本完成了Thump CMP模拟器的设计工作。

ThumpCMP采用了清华大学自主研制的支持MIPS指令集的32位微处理器Thumpl07作为处理器核心,目前的Thump CMP模拟器集成了两个Thumpl07核,每个核具有独立的一级Cache,两个核共享一个二级Cache。

国防科技大学提出一种单芯片多处理器体系结构模型——珙享多端口数据Cache结构模型,片上集成P个处理器核,每个处理器核有私有的指令Cache,所有的处理器核通过交叉开关共享一个具有q个访问端口的一级数据。

除了上述一些大学和研究机构,商业应用中各大厂商都在陆续推出各自的片多处理器产品。

2006年,IBM公司公布了Power 6处理器的部分结构设计与性能参数。

Power 6处理器包含两个处理器核,每个处理器核支持两个线程。

Power6处理器的每个核有一个私有的8路组相联,64KB的一级数据Cache,一个4MB的二级Cache。

Power 6中的私有二级缓存之间可通过高速链路进行数据交换,而无需通过速度相对较慢的三级缓存交换。

Power 6采用65nm的SOl工艺,10层金属板,芯片面积为344砌《。

SUN公司在2005年推出的UltraSPARC T1(开发代号“Niagara”)处理器,主要定位于大规模网络应用服务器市场。

Niagara包含8个处理器核,每个处理器核支持4个线程。

2007年Sun公司推出了二代CMP处理器UltraSPARC T2(开发代号“Niagara 2”1,Niagara 2由8个UltraSPARC 核构成,每个UltraSPARC核可支持8路多线程,UltraSPARC核在每个线程的一级指令Cache后设立了指令缓冲区,还增加了一个新的流水级,专门用来选择就绪执行线程。

并且,Niagara 2还包含一个浮点运算单元,一级Cache采用8路组相联结构。

’Niagara 2中所有的处理器核共享4MB的二级Cache,二级Cache行长度为64字节,采用16路组相联结构、写回和写分配策略设计。

由于UltraSPARC T1的4存储体结构在64线程下将会带来15%的性能损失,所以二级Cache分为8个分叉存取模块嘲。

2.2 Cache一致性协议相关研究在~个允许缓冲共享数据的系统中,同一主存单元的数据可能在多个Cache 中都有备份。

Cache一致性研究的主要容就是怎样才能更加有效的维护同一主存单元的多个数据备份的一致性。

即如何让多个数据备份保持最新的数据,从而避免由多个Cache带来的数据不同步问题。

常见的Cache 一致性协议分为总线监听协议和目录协议两种。

总线监听协议使系统中所有处理器都能检测到存储器J下在进行的事务活动。

所有处理器监视总线上的活动后,根据总线上广播的命令做出相应的操作。

如果总线事务操作破坏了本地Cache中数据的一致性状态,那么Cache控制器就应采取相应的动作无效或更新本地Cache中的拷贝。

在总线监听协议设计中,主要有两种策略可供选择:1.是写通过法(WriteThrough),还是写回法(Write Back);2.是写无效(Write Invalidate),还是写更新(Write Update)。

目前,广泛使用的写无效协议有MSI、MESI 等;广泛使用的写更新有Dragon掣71。

在总线监听协议中,虽然总线本身是一种廉价而有效的广播工具,但它是一种独占性资源,可伸缩性有限,而且总线延迟随处理器数目的增加而增加,与总线长度仲裁和总线阻抗等因素有密切关系。

当处理器个数增加时,一般不用总线结构,而采用多级互连网络。

可扩展的CMP系统用多级网络实现处理器互连或用点对点的短线直接地实现处理器互连。

与采用总线连接的情况不同,这些网络的频宽随系统中处理器数目的增加而增加,这类系统常采用目录协议。

1976年,Tang提出采用集中式目录方式,用一个中心目录存放所有Cache目录的副本,它能提供为保证一致性所需要的所有信息。

它的不足之处是容量非常大,必须采用联想方法来检查,冲突多,检索时间偏长。

1978年,Censier和Feautrier提出采用分布式目录的协议,与集中式目录不同的是,由每个存储模块维护各自的目录,目录用来记录每个存储块的当前信息。

当前信息指明哪些Cache有该存储块的副本。

与总线监听方式相比,目录实现方法中采取“以空间换取时间”的策略,虽然减少了访问次数,但增加了目录存储器,占用了大量的存储空间。

3 Cache存储器3.1 Cache存储器的结构与原理3.1.1基本结构Cache由Cache存储体、地址映象变换机构、Cache替换机构几大模块组成。

在Cache中把Cache和主存机械地等分成相同大小的块(或行)。

每一块由若干个字(或字节)组成。

每当给出一个主存地址进行访存时,都必须通过主存—Cache地址映象机构判定该访问字所在的块是否己在Cache中。

如果在Cache中(Cache命中),则经地址映象变换机构将主存地址变换成Cache地址去访Cache,这时Cache与CPU之间进行单字宽信息的交往;如果不在Cache中(Cache未命中),则产生Cache失效,这时就需要从访主存的通路中把包含该字的一块信息通过多字宽通路调入Cache,同时将被访问字直接从单字宽通路送往CPU。

如果Cache中已装不进了,即发生块冲突,就需要按所选择的替换算法将该块替换进Cache,并修改地址映象表中有关的地址映象关系和修改Cache各块使用状态标志等信息3.1.2工作原理Cache的工作原理是基于程序访问的局部性原理。

在分析大量典型程序运行情况后,得到这样的结论:在一个较短的时间工程大学硕+学位论文间隔,由程序产生的地址常集中在存储器逻辑地址空间的小部分围。

指令地址的分布本来就是连续的,再加上循环程序段和子程序段要反复执行多次,因此,对这些地址的访问就自然地具有时间上集中分布的倾向。

在指令分布中这种集中倾向并不明显,但对数组的存储和访问以及工作单元的选择都可以使存储器地址相对集中。

这种对局部围的存储器地址访问频繁,而对此围以外的地址则很少访问的现象,就称为程序访问的局部性。

相关主题