当前位置：文档之家› 基于CUDA的细粒度并行计算模型研究

基于CUDA的细粒度并行计算模型研究

总第２８３期　

２０１３年第５期　计算机与数字工程　Ｃｏｍｐｕｔｅｒ＆Ｄｉｇｉｔａｌ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｖｏ１．４１　Ｎｏ．５　８Ｏ１　

基于ＣＵＤＡ的细粒度并行计算模型研究　

肖汉　肖波。　冯娜　杨锦锦　

（１＿郑州大学信息工程学院郑州４５０００１）（２．郑州师范学院信息科学与技术学院郑州４５００４４）　

（３．郑州二中郑州４５０００２）（４．郑州市档案馆郑州４５０００７）　

摘要作为应用软件模型和计算机硬件之间的桥梁，编程模型在计算机领域的重要性不言而喻。但随着具备细粒度并行计算能力的　

图形处理器（ＧＰＵ）进入主流市场，与之相适应的编程模型发展却相对滞后。Ｎｖｉｄｉａ在ＧｅＦｏｒｃｅ　８系列显卡上推出的统一计算设备架构　

（ＣＵＤＡ）技术，使得通用计算图形处理单元（ＧＰＧＰＵ）从图形硬件流水线和高级绘制语言中解放出来，开发人员无须掌握图形学编程方法即　

可在单任务多数据模式（ＳＩＭＤ）下完成高性能并行计算。论文从特性、组成和并行架构等几个方面对ＣＵＤＡ并行计算模型进行了研究，充　

分表明基于ＧＰＵ进行高性能并行计算，是适应目前大规模计算需求的一个重要发展途径。　

关键词　图形处理器；图形处理器的通用计算；统一计算设备架构；细粒度并行计算；单指令多数据　

中图分类号ＴＰ３９１　

Ｆｉｎｅ—Ｇｒａｉｎｅｄ　Ｐａｒａｌｌｅｌ　Ｃｏｍｐｕｔｉｎｇ　Ｍｏｄｅｌ　Ｂａｓｅｄ　ｏｎ　ＣＵＤＡ　

ＸＩＡＯ　Ｈａｎ　’　ＸＩＡＯ　Ｂｏ。ＦＥＮＧ　Ｎａ　ＹＡＮＧ　Ｊｉｎｊｉｎ　（１．Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｚｈｅｎｇｚｈｏｕ　Ｕｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｇｚｈｏｕ　４５０００１）　

（２．Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｚｈｅｎｇｚｈｏｕ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｚｈｅｎｇｚｈｏｕ　４５００４４）　

（３．Ｚｈｅｎｇｚｈｏｕ　Ｎｏ．２　Ｍｉｄｄｌｅ　Ｓｃｈｏｏｌ，Ｚｈｅｎｇｚｈｏｕ　４５０００２）（４．Ｚｈｅｎｇｚｈｏｕ　Ａｒｃｈｉｖｅｓ，Ｚｈｅｎｇｚｈｏｕ　４５０００７）　

Ａｂｓｔｒａｃｔ　Ａｓ　ａ　ｂｒｉｄｇｅ　ｂｅｔｗｅｅｎ　ｎａｔｕｒａｌ　ｍｏｄｅｌ　ｏｆ　ａｎ　ａｐｐｌｉｃａｔｉｏｎ　ａｎｄ　ｈａｒｄｗａｒｅ　ｍｏｄｅｌ　ｏｆ　ｃｏｍｐｕｔｅｒ，ｐｒｏｇｒａｍｍｉｎｇ　ｍｏｄｅｌ　ｉｓ　ｉｍｐｏｒｔａｎｔ　ｉｎ　

ｃｏｍｐｕｔｅｒ　ｉｎｄｕｓｔｒｙ．Ｎｅｖｅｒｔｈｅｌｅｓｓ，ｅｖｏｌｕｔｉｏｎ　ｏｆ　ｐｒｏｇｒａｍｍｉｎｇ　ｍｏｄｅ１　ｃｏｕｌｄ　ｎｏｔ　ｓｕｉｔ　ａｌｒｅａｄｙ　ｂｏｏｓｔｅｄ　ＧＰＵ　ｗｈｉｃｈ　ｈａｖｅ　ｆｉｎｅ－ｇｒａｉｎｅｄ　ｐａｒａｌｌｅｌ　ｃｏｍ—　

ｐｕｔｉｎｇ　ａｂｉｌｉｔｙ．Ｔｈｅ　ｎｅｗ　ｌａｕｎｃｈ　ｏｆ　ＣＵＤＡ　ｔｅｃｈｎｏｌｏｇｙ　ｂｙ　ＮＶＩＤＩＡ　ＧｅＦｏｒｃｅ　８　Ｇｒａｐｈｉｃｓ　ｈａｓ　ｆｒｅｅｄ　ＧＰＧＰＵ　ｔｅｃｈｎｏｌｏｇｙ　ｆｒｏｍ　ｔｈｅ　ｇｒａｐｈｉｃｓ　ｆｉｘｅｄ　

ｐｉｐｅｌｉｎｅ　ａｎｄ　ｈｉｇｈ—ｌｅｖｅｌ　ｓｈａｄｅｒ　ｌａｎｇｕａｇｅ，ａｌｌｏｗｉｎｇ　ｔｈｅ　ｄｅｓｉｇｎ　ａｎｄ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ＳＩＭＤ　ｐａｒａｌｌｅｌ　ａｌｇｏｒｉｔｈｍｓ　ｏｎ　ａ　ｍｕｃｈ　ｍｏｒｅ　ｓｉｍｐｌｅ　ｗａｙ　ｔｈａｎ　

ｐｒｅｖｉｏｕｓ　ｍｅｔｈｏｄ　ｂａｓｅｄ　ｏｎ　ｔｅｘｔｕｒｅ　ｒｅｎｄｅｒｉｎｇ．Ｔｈｉｓ　ｐａｐｅｒ　ｆｏｃｕｓｅｓ　ｏｎ　ｆｉｎｍｇｒａｉｎｅｄ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ　ｍｏｄｅｌ　ｆｒｏｍ　ｃｈａｒａｃｔｅｒ，ｃｏｍｐｏｓｉｔｉｏｎ　ａｎｄ　

ｐａｒａｌｌｅｌ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｏｆ　ＣＵＤＡ．Ｉｔ　ｉｌｌｕｓｔｒａｔｃ＇ｓ　１ｈａｌ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ｂａｓｅｄ　ｏｎ　ＧＰＧＰＵ　ｔｅｃｈｎｏｌｏｇｙ　ｉｓ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｄｉｒｅｃｔｉｏｎ　ｏｆ　ｄｅｖｅｌ—　

ｏｐｍｅｎｔｓ　ｔｏ　ｍｅｅｔ　ｔｈｅ　ｒｅｑｕｉｒｅｍｅｎｔｓ　ｏｆ　ｌａｒｇｅ　【ａｌ　ｅ　ｃｏｍｐｕｔｉｎｇ．　Ｋｅｙ　Ｗｏｒｄｓ　ｇｒａｐｈｉｃ　ｐｒｏｃｅｓｓｏｒ　ｕｎｉｔ（（；Ｉ　１　Ｊ）．ｇｅｎｅｒａｌ　ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔｉｎｇ　ｏｎ　ｇｒａｐｈｉｃｓ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔｓ（ＧＰＧＰＵ）。ｃｏｍｐｕｔｅ　ｕｎｉｆｉｅｄ　ｄｅｖｉｃｅ　

ａｒｃｈｉｔｅｃｔｕｒｅ（ＣＵＤＡ），ｆｉｎｍｇｒａｉｎｅｄ　ｐａｒａｌｌｅｌ　ｃｏｍｐｕｔｉｎｇ，ｓｉｎｇｌｅ　ｉｎｓｔｒｕｃｔｉｏｎ　ｍｕｌｔｉｐｌｅ　ｄａｔａ（ＳＩＭＤ）　

Ｃｌａｓｓ　Ｎｕｍｂｅｒ　ＴＰ３９】　

１　引言　

由于高性能图形计算需求的推动，ＧＰＵ技术发展极为　

迅速。现在的ＧＰＵ从固定图形处理流水线发展到了可编程　

图形处理流水线，已经发生了质的飞跃，并成为绝对的计算　

主力，其计算性能的发展速度远超过ＣＰＵ计算性能的发展　

速度。由于具有由高内存带宽驱动的多个核心，今天的　

ＧＰＵ为图像处理提供了难以置信的资源。从图１可知，目前　

主流ＣＰＵ的浮点运算能力只有１００ＧＦＬ（）Ｐ／Ｓ，而Ｎ、，ＩＩ）ＩＡ　

ＧＦ１００内核的ＧＰＵ已超过１ＴＦＩ￣）Ｐ／ｓ的浮点运算速度＿１］。　

２　ＣＵＤＡ简介　

ＣＵＤＡ是一种新型硬件和软件的统一计算设备架构。　目前，ＮｖＩＤＩＡ仅对基于Ｔｅｓｌａ架构的ＧＰＵ，包括ＧｅＦｏｒｃｅ、　

Ｑｕａｄｒｏ和Ｔｅｓｌａ等一系列显卡开放ＣＵＤＡ功能。ＣＵＤＡ　

把ＧＰＵ作为数据并行计算设备，在ＧＰＵ上用于进行计算　

的发放和管理，而无需将其映射到图像ＡＰＩ上。它是一个　

并行编程模型和一个软件编程环境，它主要就是为了帮助　

广大的程序员来更好地开发平滑扩展的并行程序［２］。为了　

简化开发，ＣＵＤＡ允许程序员将ＣＰＵ和ＧＰＵ的代码混合　

记录到一个程序文件中。操作系统的多任务机制负责管理　

多个并发运行的ＣＵＤＡ和图像应用程序对ＧＰＵ的访问。　

ＣＵＤＡ采用Ｃ语言作为编程语言来提供大量的高性　

能计算指令开发能力，使开发者能够在ＧＰＵ的强大计算能　

力的基础上建立起一种效率更高的密集数据计算解决方　

案。ＣＵＤＡ是业界的首款并行运算语言，而且其非常普及　

＊收稿日期：２０１２年１１月５日，修回日期：２０１２年１２月２６日　基金项目：国家自然科学基金项目（编号：４１１７１３５７）；中国博士后科学基金项目（编号：２０１２Ｍ５１０１７６）；河南省信息技术教育研究项目　

（编号：ＩＴＥ１２１３Ｏ）资助。　

作者简介：肖汉，男，博士后，教授，研究方向：遥感影像处理、并行计算。肖波，女，硕士研究生，研究方向：计算机教育、高性能计算。　

冯娜，女，研究方向：档案保护技术。杨锦锦，女，硕士研究生，研究方向：档案管理技术。

　８０２　肖　汉等：基于ＣＵＤＡ的细粒度并行计算模型研究　第４１卷　

化，目前有高达１亿的ＰＣ用户可以支持该语言嘲。　

Ｔｈｅｏｒｅｔｉｃａ１　ＧＦＬＯＰ／ｓ　

．＿ＮＶＩＤＩＡ　ＧＰＵ　Ｓｉｎｇｌｅ　Ｐｒｅｃｉｓｉｏｎ　Ｉ　ＧｅＦｏｒｅＧＴＸ５　８０　＿』＋ＮＶＩＤＩＡ　ＧＰＵＤｏｕｂｌｅＰｒｅｃｉｓｉｏｎ　Ｉ　Ｊ　

ｆ＋１　Ｉｎｔｊ　．／ＳｉｎｇｌｅＰｒｅｃｉｊｓｉｏｎ　ＧｅＦｏｒｅＧＴＸ４Ｉｎｔｅ　ＣＰＵＤｏｕｂｌｅＰｒｅｃ　ｓｉｏｎ　

／　

ｘ　

Ｇ。　。　。ｓｓ。。ＧＴｘ，／　ｅｓ　ａ　Ｃ

．２。ｓ。　

Ｇ。　。　。　。。ＧＴｘ／／　。甜　。　

Ｇ。　ｗｏ０ｄ遒　：！　！；　ａ　

图１　ＣＰＵ和ＧＰＵ的计算能力比较　

３　ＧＰＵ进行通用计算　

ＧＰＵ与ＣＰＵ拥有不同的核心架构，ＣＰＵ的架构是有　

利于Ｘ８６指令集的串行架构，ＣＰＵ从设计思路上适合尽可　

能快地完成一个任务。对于ＧＰＵ来说，它的任务是在屏幕　

上合成显示数百万个像素的图像也就是同时拥有几百万　

个任务需要并行处理，因此ＧＰＵ被设计成可并行处理很多　

任务，而不是像ＣＰＵ那样完成单任务。　

３．１高密集的运算　

由于图形卡内部的内存接口位宽大于ＣＰＵ上的位宽，　

如ＧｅＦｏｒｃｅ　ＦＸ的内存位宽达２５６位，显然高于ＣＰＵ上３２　

位的位宽，这样整个计算的带宽大大提高。ＧＰＵ通常具有　

更大的内存带宽，它决定了显存和图像处理器间数据传输　

的速度，如图２所示。ＧｅＦｏｒｃｅ　８８００ＧＴＸ具有８６．４ＧＢ／ｓ的　

内存带宽，而目前高阶ＣＰＵ的内存带宽则在１ＯＧＢ／Ｓ左　

右Ｌ４ｊ。ＧＰＵ相对于ＣＰＵ来说，更适应传输大块的数据，虽　

然ＣＰＵ上有Ｃａｃｈｅ以加速整个计算过程，但ＣＰＵ上的　

Ｃａｃｈｅ相对于图形卡显存来说太小，一般只有６４ＫＢ，而现　

在的显存大多都在６４Ｍ以上。　

∞　０　

≥　

０　吕　１００　回　０ＪＵ“　

／　

Ｎ　４　ＮＶ２０／　ＨａＤｅｒｔ０ｗｎ　ｒ，

￣Ｎｏｎｈ　。。ｄ　Ｐｒｅｓ　！　丝一　

图２　ＣＰＵ和ＧＰＵ的存储器带宽　

３．２图形渲染的高度并行性　

这一功能主要是通过多个渲染管道和ＲＧＢＡ四个颜　

色通道同时计算来体现的，另外在一个时钟周期内可以同　

时获取两个甚至更多纹理。ＣＵＤＡ平台的顶点和像素计算　

单元是动态分配的，具有负载均衡机制。它通过运用显卡　

内的统一着色处理器和并行计算统一起来了，因此硬件效　率较高。　

３．３线程的不同　

ＧＰＵ中的线程是一种非常轻量级的线程，在ＧＰＵ上　

会有成百个线程等待执行，创建线程的开销非常小，如一个　

顶点计算中要做一次两个矩阵的乘法运算，每个元素的相　

乘操作都会作为一个线程的任务提交到ＧＰＵ中。而ＣＰＵ　

中的线程是一种重量级的线程，通过执行和关闭通道来交　

换线程，以提供多线程能力。另一方面，对于ＣＰＵ来讲，　

ＣＰＵ通过线程池管理的线程不过数十个。１６个线程就能　

将四核ＣＰＵ的整个计算单元充满，然而支持ＣＵＤＡ的　

ＧＰＵ却需要上千个线程，才能充满效率［５］。　

３．４多核计算平台　

ＣＰＵ以多个适当复杂度、相对低功耗内核并行工作，　

配置并行硬件资源提高处理能力。而现在ＧＰＵ当中核心　

的数量是以百来计算的，ＧｅＦｏｒｃｅ　８８００ＧＴＸ包含了１２８个　

流处理器，频率为１．３５ＧＨｚ。２０１０年３月，ＮＶＩＤＩＡ发布　

ＧｅＦｏｒｃｅ　ＧＴＸ　５８０拥有５１２个主频为２．５ＧＨｚ的流处理　

器。在ＧＰＵ里面用的是群核ｌ６］。　

４　ＣＵＤＡ体系结构　

４．１　ＣＵＤＡ组成　

２００７年７月，随着一系列ＮＶＩＤＩＡ　Ｔｅｓｌａ　ＧＰＵ计算解　

决方案的发布，ＮＶＩＤＩＡ公司宣布提供ＮＶＩＤＩＡ　ＣＵＤＡ　１．０　

版本的Ｃ语言编译器和软件开发套件，还支持许多Ｃ＋＋　

的特性。结合ＧＰＵ运算技术和ＣＵＤＡ软件开发环境，为　

对运算能力要求极高的计算密集型应用程序提供了极具弹　

性的大型并行计算平台［７］。ＣＵＤＡ软件堆栈（如图３所示）　

包括一个计算专用的运行时驱动程序，一个可访问ＧＰＵ上　

并行计算资源的编译器即运行期环境，以及一套针对ＣＵ—　

ＤＡ开发的优化科学计算程序库　ＣＵＦＦＴ和ＣＵＢＬＡＳ。　

图３　ＣＵＤＡ软件堆栈　

４．２　ＧＰＵ并行架构　

４．２．１设计哲学不同　

回圜圜　

［二二互三二二］　

翳露ＣＰｌｌ蕈ｌＵ　ｌ８墓　翳ｌ露ｌ霾ｌ謇雪　

ＧＰＵ　

图４　ＣＰＵ／ＧＰＵ架构比较　由于ＧＰＵ处理的首要　

目标是运算以及数据吞吐量，　

而ＣＰＵ内部晶体管首要目的　

是降低处理的延时以及保持　

管线繁忙。因此，ＧＰＵ采用　

了更多的晶体管，这些晶体管　

是专用于数据处理，而不是用　

于数据高速缓存和流控制的，　

如图４所示¨８ｊ。ＧＴＸ　２００　

ＧＰＵ上有８Ｏ　的晶体管用作运算，和ＣＰＵ上大部分面积　

（＞７Ｏ％）都被缓存所占据有所不同，估计在ＣＰＵ上有２Ｏ％　

的晶体管是用作运算的。这也决定了ＧＰＵ在密集型计算

e商务文档

基于CUDA的细粒度并行计算模型研究

相关文档推荐：