当前位置:文档之家› Intel CPU架构解析2020

Intel CPU架构解析2020


Sunny Cove内核结构图
Sunny Cove内核微架构
缓冲区部分对比
缓存对比
可以看到Intel这次把乱序重排缓冲区(ReOrder Buffer,主要是用于乱 序执行后将执行的微指令根据原本顺序提交的指令缓冲区)大小做到 了可以容纳352条微指令,直接提升了128条/57%之多,而Haswell到 Skylake才仅仅提升了32条。同样在访存上面也进行了不小的提升, Load(加载)队列增加了56,Store(存储)队列增加了16,比Haswell 到Skylake的改变都明显要多。
Uncore部分
当 然 也 不 是 所 有 的 厂 商 都 会 给 足 四 个 TB3 接 口 , 具 体 怎 么 配 置 还 是 得 看 OEM厂商,毕竟其他的配套芯片诸如USB PD所需要的独立IC都是会增加成 本 的 , 而 TB 接 口 还 需 要 额 外 的 Retimer 芯 片 , 不 过 Intel 已 经 减 半 了 所 需 的 Retimer,两条TB3只需要1个Retimer就可以了。
Thunderblot 3
原来阻挡人们使用Thunderblot(以下简称TB)设备的一大原因就是这个接口的 使用成本略高,当TB3开始以USB Type-C接口的形式出现之后,使用率确实高上 去不少,但是还有其他的拦路虎,其中一个就是TB需要主板搭载额外的芯片来使 用,这个控制芯片并不便宜。终于在Ice Lake上面,Intel把TB控制器整合到了 处理器里面,并且再也不会占据掉处理器提供的PCI-E总线数量或者是与PCH一起 挤原本就已经拥挤不堪的DMI 3.0总线,而是在环形总线上面拥有了自己的位置 。
第11代图形架构新Fra bibliotek口版本和加强的硬件编码电路
在视频硬件编码部分,也就是Intel QuickSync特性使用的独立硬 件电路上,新核显也有比较大的改进,现在支持两条HEVC 10-bit 同时进行编码,在YUV444的情况下最高支持两条4K60帧视频流, 或者一条YUV422的8K30帧视频流。
Uncore部分
不过将TB控制器集成到CPU内部也使得整个 System Agent的IO部分更为复杂了,上面是 一张详细的原理图,一个Type-CIO路由(图 上名为CIO Router)拥有两条PCI-E 3.0 x4与CPU相连,而CPU内部的显示控制引擎( 图上的Display Engine)也要与这个TypeCIO路由相连,以控制Type-C接口所处的状 态,并决定发送的信号。同时还有USB的 xHCI也要跟Type-CIO连接,还要管理整个的 内存统一性……
复杂的结构所导致的就是整体的延迟会增加 ,Intel将原因归结在电源控制上面,原本 分离式的芯片很容易管理电源状态,但是整 合进来之后每一个部分都有自己的电源状态 需要管理,需要更为精细化的电源管理系统 ,而这就增加了总体的延迟。不过更为精细 化的电源管理还是有好处的,那就是可以提 高能耗效率,Intel方面称满载的一个TB3接 口的芯片外加链路层将使用300mW的功率, 四个加起来也只有1.2W。
3200/LPDDR4X 3733内存,原
来Skylake上面的内存控制器
顶多只能支持到DDR4 2666,
还是八代的Coffee Lake以后
的事情了。而随着DDR4内存的
发展,默频上3000的内存条也
开始出现了,内存控制器直接
支持到DDR4 3200是一件不错
的事情。而且随着处理器内核
数量的增加,内存带宽也逐渐
第11代图形架构
内部架构优化
首先通过增加单个Slice中含有的子Slice来 扩大规模,使得每周期的计算次数增加。其 次是在缓存系统上做文章,扩大了三级缓存 的容量,Intel方面公布的是EU的三级缓存 有3MB,并且还有0.5MB的本地共享内存。另 外还有通过处理器的内存控制器升级,能够 用上更高的内存带宽。
你一定想问第10代去哪里了对不对,其实还是在夭折了的 Cannon Lake上面,而且唯一一颗的核显还是被屏蔽了的 。目前在移动低压版Ice Lake处理器上面,Intel一共提 供了G1、G4和G7三种配置的核显,分别有32/48/64组EU, 低端的G1命名仍为"UHD",而G4和G7都以"Iris Plus"的品 牌出现。
04.
UNCORE部分
Uncore部分
Uncore部分指的是处理器上除了内核和GPU的其他部分,在顶上的结构示意图中 就是System Agent的那部分,自从Intel在Nehalem把内存控制器和PCI-E控制器移 入CPU内部之后就没有什么大的变化,但是这次Intel在上面加入了个新东西,还 升级了不少老部件。
CPU架构解析
总经理办公室-IT组-王旭
目录Catalog
1 Intel CPU架构介绍
3 图形架构解析 5 PCH改进
2 CPU架构解析 4 UNCORE部分 6 封装、睿频与功耗
01.
Intel CPU架构介绍
Intel Sunny Cove架构介绍
继上一次Intel更新他们的桌面级处理器的架构已经过去了将近6年的时间了,不 得不说,Skylake是一代非常成功的架构,也可能是从P6以来Intel使用时间最长的 一代处理器架构,支撑Intel走到现在还在主流和服务器市场上面占据着上风。 首先我们要理清一点,Ice Lake是整个处理器架构的代号,而现在的Intel处理器架 构中包括了内核、GPU、以及Uncore部分的其他IO单元,所以我们并不只是针对 CPU的内核微架构进行解析,而是对于整个体系结构。
03.
图形架构解析
第11代图形架构
Ice Lake的核显首次达到了 1TFlops的计算性能,还增加 了不少的功能特性,可谓改进 颇多。Intel用了"the most powerful version"来形容这代 核显的性能,怎么做到的呢?
第11代图形架构
借助10nm工艺,暴力堆叠规模
Intel的10nm工艺在晶体管密度上 的提升幅度是真的很大,14nm时 代最多配备24组EU的核显,在Ice Lake上面直接就翻了2.67倍,最 大可以达到64组EU,并且频率也 不低,最高可以跑到1100MHz,比 以前只低了50MHz,此时核显整体 的FP32计算量已经达到了 1.15TFlops。鉴于此,相比于八 代酷睿处理器上搭载的第9代核显 ,Intel官方宣称可以提供平均约 1.8倍的帧率。
可变速率着色(VRS) VRS全称Variable Rate Shading,是一种新的允许GPU根据画面 区域的重要性调整着色精度的技术,具体效果我们之前的新闻有 介绍过,可以看一下:来对比一下VRS可变速率着色技术带来的性 能提升吧 3DMark将添加该技术基准测试一文中的图片对比。
第11代图形架构
指令集与AI加速
指令集随着新单元的加入也同时进行了扩充,在加密解密、AI加速、通用计算 、特定计算等方面都新加入了不少指令,尤其是AVX-512指令集。 对于近几年大热门的人工智能,Intel一方面在Uncore部分加入了自家的“高斯网 络加速器(Gaussian Network Accelerator)”这样类似于手机SoC上面常见的AI硬 件加速电路,还通过引入AVX512VNNI指令集,使用AVX-512单元来进行AI相关的 加速计算,Intel将这种加速称为"DL(Deep Learning) Boost"。这是一种很聪明的取 巧办法,专用计算单元的引入可以保证一定的加速性能,而新指令集的加入同 时也可以更加充分地利用上新的CPU特性。 加密解密指令集上面的改动诸如AES的吞吐量加大、加入新的针对SHA算法的一 系列指令等,总之在编译器进行适当优化的前提下,Ice Lake的加密解密性能是 比Skylake强不少的。
值得一提的是,Intel已经做好了对于USB4的兼容,不过考虑到目 前USB4仍处于草案阶段,不排除未来的修改使得兼容失效。不过 目前只是针对Ice Lake的移动版本进行架构分析,当然也不排除 Intel在桌面级的Ice Lake上面同样保留内部TB控制器。
内存控制器
现在内存控制器原生支持DDR4
要开始成为处理器性能的一个
瓶颈所在了,在我们的测试中
,内存带宽对于性能的影响还 前面在讲内核的AI加速时提到了Uncore部分加入了
是比较明显的。
GNA这个针对AI的硬件加速单元,目前并不知道太多有
关于它的细节,就连具体名字都有两种说法,目前已
知的是该单元的功耗非常低,甚至会在SoC其余部分关
闭的情况下继续工作,旨在提供稳定的AI加速性能,应
Uncore部分
而且Intel大方的一下子就 提 供 了 4 个 之 多 的 TB3 接 口,每个都是PCI-E 3.0 x4 的 满 规 格 , 也 就 是 说 ,Ice Lake处理器其实一 共拥有32条PCI-E 3.0通道 ,不过其中一半都是以 TB3形式提供的,当然这 些接口是支持USB模式的 ,当运行于USB 2.0状态 时,会绕回到PCH上进行 通信。
可变速率着色(VRS)
VRS可以在不重要的画面上面节 约一定的GPU资源,使这部分 GPU资源参与更加重要的部分画 面的渲染中,从而提高了整体的 帧数,目前NVIDIA已经在Turing 核心中加入了相关的支持。而 Intel也没有落后,在第11代核显 中提供了这项特性,并且他们宣 布将与Epic合作,将这项特性加 入到虚幻引擎中去,目前文明六 已经支持了该技术,并且根据 Intel的数据,帧数最大提高了 30%。
Ice Lake处理器结构图
02.
CPU架构解析
Sunny Cove内核微架构:IPC平均提升18%
前端缓冲区:加大加大加大 x86处理器的内核主要可以简单地分成两 个部分,前端部分与后端执行部分,前端 部分主要完成“取指译码”的工作,后端 主要为指令的具体执行单元,前后端之间 有缓冲区,用于存放解译融合完毕的微指 令。Intel很早就在内核中引入了“微指令 融合”的技术来提高效率,融合过的微指 令会进入缓冲区然后被分配给后端执行部 分进行具体的执行。Intel目前认为,如今 程序更多的瓶颈位于访存和前端指令分派 上,Sunny Cove的前端部分改进就体现了 这一理念,所以这次缓冲区就被扩大了不 少。
相关主题