多核构架与并行计算
2011年4月28日星期四 18
同年的7月23日,英特尔基于酷睿(Core)架构的处理器正 式发布。2006年11月,又推出面向服务器、工作站和高 端个人电脑的至强(Xeon)5300和酷睿二四核至尊版系列处 理器。 与上一代台式机处理器相比,酷睿二双核处理器在性能方 面提高40%,功耗反而降低40%。 40% 40% 作为回应,7月24日,AMD也宣布对旗下的双核Athlon64 X2处理器进行大降价。
2011年4月28日星期四
19
由于功耗已成为用户在性能之外所考虑的首要因素, 两大处理器巨头都在宣传多核处理器时,强调其“节 能”效果。英特尔发布了功耗仅为50瓦的低电压版四 核至强处理器。而AMD发布了“Barcelona”四核处理 器,据称其功耗将不会超过95瓦。 多核技术在应用上的优势有两个方面:为用户带来更 强大的计算性能;更重要的,则是可满足用户同时进 行多任务处理和多任务计算环境的要求。两大芯片制 造商缔造的多核技术都给消费者描绘出了使用多核处 ቤተ መጻሕፍቲ ባይዱ器在执行多项任务时的美妙前景:同时可以检查邮 件、刻录CD、修改照片、剪辑视频,并且同时可以运 行杀毒软件。或者利用同一台电脑,父亲在查看财务 报表,女儿在打游戏,母亲在给远方的朋友打网络电 话。
片上多核处理器(Chip Multi-Processor,CMP)就是将 多个计算内核集成在一个处理器芯片中,从而提高计算能 力。 CMP可分为同构多核和异构多核(按计算内核的对等与否 进行划分): 计算内核相同,地位对等的称为同构多核,现在Intel和 AMD主推的双核处理器,就是同构的双核处理器。 计算内核不同,地位不对等的称为异构多核,异构多核 多采用“主处理核+协处理核”的设计,IBM、索尼和 东芝等联手设计推出的Cell处理器正是这种异构架构的 典范。
L1 D-cache 和 D-TLB
2011年4月28日星期四
L1 D-cache 和 D-TLB
31
双核的架构
2011年4月28日星期四
24
核处理器分类
单核多线程处理器
单核CPU构成
多核处理器
多核芯片构成
多核多线程处理器
每个核都是多线程的
2011年4月28日星期四
25
单核处理器芯片结构
2011年4月28日星期四
26
单核芯片与外围部件的关系
2011年4月28日星期四
27
微处理器与芯片组的关系
处理器
芯片组 扩展卡(可选) 扩展卡(可选) MCH 存储器控制中枢) (存储器控制中枢)
2011年4月28日星期四
12
当K=1.26,“Ⅱ号 CPU”与“Ⅲ号CPU”功 耗相等。 也就是说:在功耗翻一 番的时候,只要L能超过 1.26, “Ⅲ号CPU”的 性能就比“Ⅱ号CPU”强。 现实L值:睿酷的广告中 自称是1.4。
如果“Ⅱ号CPU”要达到 1.4或者1.6,功耗是:
2011年4月28日星期四
2011年4月28日星期四
5
从功耗的角度看多核
CMOS芯片的功耗分为: 静态功耗:CMOS芯片的输入输出都没有变化时的功耗; 小,可忽略。 动态功耗:CMOS芯片的输入输出有变化时的功耗。
2011年4月28日星期四
6
芯片指标:频率f,电压v,功耗Pow f受制于v: v越高,f就越能达到较高的频率。(f 的上 限和v成正比)
C
Pow= cf3
2011年4月28日星期四
1.5v
3v
10
v
Pow= cf3--功率公式 = --功率公式
A点:PowA = c(100M)3 B点: PowB = c(50M)3 对同一个任务:
B点的功率小,执行时间是A的 一倍,所以: B点的功耗(功率X时间)是A 的25%.
PowB C (50M ) 3 1 = = 3 PowA C (100) 8
B点的执行时间延长了,有可能 会不满足实时性要求。所以要 对所有任务通盘考虑。 解释为什么双核? 使用2个B点的CPU并行计算, 可 保证与A一样的执行时间,但功 耗为A的1/4.
2011年4月28日星期四
11
Ⅰ号CPU:单核,频率为1MHz,功率1瓦 Ⅱ号CPU:单核,提高频率到KMHz,功率为 K3瓦。 Ⅲ号CPU:双核,保持频率不变,增加一个内 核。功耗2瓦。 假设:“ Ⅲ号CPU”的性能相当于频率为 LMHz的单核CPU。
第二章 多核构架与并行计算
计算机系统结构系 主讲人:方 娟 E-mail:fangjuan@ 2010-9
多核构架
按硬件层次分 芯片级 多核芯片 板级 机架级 网络级 网格
Core1 Bus Core2
2 MB L2 Cache
FP Unit EXE Core L1 Cache
FP Unit EXE Core L1 Cache
L2 Cache
2011年4月28日星期四
System Bus (667MHz, 5333MB/s)
2
板级多芯片多核
一块主板上集成多个多核芯片
核 核 核 核
2011年4月28日星期四
核 核 核 核
核 核 核 核
核 核 核 核
3
片上多核处理器架构
片上多核处理器(Chip Multi-Processor,CMP)就是将 多个计算内核集成在一个处理器芯片中,从而提高计算能 力。 按计算内核的对等与否,CMP可分为同构多核和异构多核 CPU核心数据共享与同步 总线共享Cache结构:每个CPU内核拥有共享的二级或 三级Cache,用于保存比较常用的数据,并通过连接核 心的总线进行通信。 基于片上互连的结构:每个CPU核心具有独立的处理单 元和Cache,各个CPU核心通过交叉开关或片上网络等 方式连接在一起。 给程序开发者带来的挑战
2011年4月28日星期四
17
IA阵营正式引入多核架构 阵营正式引入多核架构
而真正意义上让多核处理器进入主流桌面应用,是从IA阵营 正式引入多核架构开始。 AMD抢先手推出64位处理器后,英特尔才想起利用“多核” 这一武器进行“帝国反击战”。2005年4月,英特尔仓促推 出简单封装双核的奔腾D和奔腾四至尊版840。AMD在之后 也发布了双核皓龙(Opteron)和速龙(Athlon) 64 X2处理器。。 2006年5月,英特尔发布了其服务器芯片Xeon系列的新成 员—双核芯片Dempsey。该产品使用了65纳米制造工艺, 其5030和5080型号的主频在2.67GHz和3.73GHz之间。紧 随其后的6月份,另一款双核芯片Woodcrest(Xeon 5100系 列)登场。英特尔声称与奔腾D系列产品相比,其计算性能 提高了80%,能耗降低了20%。
2011年4月28日星期四 20
Intel 目 前 最 新 的 架 构 是 Core微 架 构 , 所 有 Intel生产的x86架构的新处理器,无论面向台 式机、笔记本和服务器,都将统一到Core微 架构。
Core1 Core2
Bus
2 MB L2 Cache
2011年4月28日星期四
21
片上多核处理器体系结构
2011年4月28日星期四 22
典型多核芯片架构
单核体系架构特点 双核体系架构特点 双处理器与双核的区别 多核体系架构特点 多核处理器中的并行 实现多核架构难点 单核,多核的对比与区别
2011年4月28日星期四
23
核是什么? 核是什么
独立的指令执行和控制单元
独立的功能部件 独立的控制器
完整的指令流水线
f 100MHz
A
50MHz
B
C
2011年4月28日星期四
1.5v
3v
v
7
Pow受制于f和v,既和f成正比,又和v2成正比。
f 100MHz
A
50MHz
B
C
1.5v
2011年4月28日星期四
3v
v
8
此外: 衡量处理器性能的主要指标是每个时钟周期内可以执行的 指令数(IPC: Instruction Per Clock)和处理器的主频 处理器性能 = 主频 x IPC 处理器功耗正比于电流x 电压 x 电压 x 主频 而主频 正比于 电压、IPC 正比于 电流 所以:“处理器功耗正比于 主频的三次方” 处理器功耗 正比于 IPC
2011年4月28日星期四 30
Core 2 处理器结构图
系统总线
指令预取/预译码 指令预取/预译码 指令队列 指令译码 ROB 器
器
L2 Cache L2 Cache
微码 ROM
器
指令队列 指令译码 ROB
和 控 制
微码 ROM
器
FPU ALU ALU ALU
LD
ST
ST
LD
ALU ALU ALU FPU
2011年4月28日星期四 16
目前的多核处理器的推出已经愈加频繁,在推 出代号为Niagara的8核处理器之后,Sun还计 划在今年年中推出Niagara 2处理器。IBM的 Cell处理器,结合了1个PowerPC核心与8个协 处理器构成的Cell 微处理器已经正式量产,并 应用于PS3主机、医学影像处理、3D计算机绘 图、影音多媒体等领域。
1.4 = 2.744
3 3
1.6 = 4.096
13
说明:不能永远靠加快频率的方法来改善性能。 频率高到一定程度以后,必然要转向多核技术。 这是由芯片的先天性质决定的。
2011年4月28日星期四
14
多核的出现
1985年,英特尔发布了80386DX,它需要与 协微处理器80387相配合,从而完成需要大量 浮点运算的任务。 80486则将80386和80387以及一个8KB的高速 缓存集成在一个芯片内。从一定意义上, 80486可以称为多核处理器的原始雏形。