php 高性能框架AMD7nmZen2架构解析:从优秀到卓越,背后得付出多少性能最好的php框架
2023-02-12
顺序
墙裂推荐AMD粉、AMD黑、牙膏党可以看看。 下面这篇文章是数码君转载自今年Zen2上市之初,太平洋互联网网《兽王》作者的文章,虽然大部分内容是AMD官方的PPT翻译,但是真的值得所有CPU爱好者一读,受益匪浅!
正文开始(原标题:《AMD 7nm Zen2架构解析:从优秀到优秀,背后有多少》作者:兽王)
不知不觉,AMD的锐龙处理器已经上市两年半了。 2017年诞生的Zen架构也发展了两代。 现在第三代-锐龙3000系列已经上市。 看的时候发现现在的主力锐龙7开始陆续下架,就像很多人不记得锐龙7处理器下架一样。
管理上有一句名言——from good to ,这句话用来形容现在的AMD再合适不过了。
基于7nm工艺打造的第三代锐龙,相信很多人对其频率、核心、性能大幅提升背后的架构创新和调整非常感兴趣。 今天就拿AMD的官方PPT分享给大家。 让我们用简单的方式来谈谈它——
本文内容较长,涉及专业名词术语较多,阅读有一定门槛,但我已经尽量简明扼要地进行了解释。 对于喜欢DIY、对半导体技术感兴趣的爱好者,不妨找个安静的地方。 好好看看,应该能有所收获。
过去几年,AMD一直在研发更高性能、更节能的Zen架构php 高性能框架,这也是为什么AMD在2017年锐龙处理器问世时以52%的IPC性能提升震惊世界的原因。大家调侃的牙膏太过激了,从性能到能效都是质的变化。
从这一点来看,两年前的第一代锐龙1000系列可以说是一鸣惊人,让落后多年的AMD拿到了高性能CPU市场的新门票。 霸主局面重现,CPU市场格局发生变化。 近两年从4核升级到6核再到8核。 它不再是牙膏升级。 这确实是AMD的功劳。
不过目前两代锐龙处理器还有一个严重的不足——单核性能不足,导致部分AMD游戏和专业应用的性能下降。
从第一代锐龙到第二代锐龙,AMD将CPU架构从14nm Zen提升到12nm Zen+,不过这还是小修小补,缩短了与现世代的单核差距,但没有质的提升改变。 无法挖掘更高频率的潜力。
管理上有一句名言——from good to ,这句话很适合形容现在的AMD,14/12nm腾云网的锐龙处理器是一款优秀的处理器,但是还有一些槽点没有解决,而且现在7nm Zen 2架构的目标是精益求精,AMD从追赶者变领导者的任务就靠它了。
此前,AMD 在 CPU 路线图中对 Zen 2 架构的概述是多维增强的 Zen 架构。 从官方定性的角度来看,我们可以将Zen 2看成是Zen的深度改进版——CPU的基本结构没有太大变化,只是在工艺、封装、单核和多核方面进行了全面改进。
AMD官方对Zen 2架构的优势主要集中在三个方面——性能、技术和并行性,而我们的介绍也主要围绕这三个部分展开。
第三代锐龙采用7nm工艺:AMD CPU历史上首次领先
对于CPU这样极其先进的逻辑芯片,任何重要的进步都离不开工艺技术的升级。 14/12nm 的一些缺点,比如CPU 单核频率不够高,AMD 不清楚,但他们也没办法。 GF的14/12nm制程已经确定了上限,不是想加频就加频。
好在现在AMD推出了7nm,代工厂也从格芯换成了台积电。 说到这里,一波三折。 去年8月初,格芯黯然宣布无限期停止7nm及以下制程的研发生产。 两条腿走路的AMD不得不将CPU和GPU的7nm订单全部交给台积电。
对于AMD来说,从原来的两家代工厂改为一家代工厂其实风险更大,而且台积电之前也没有制造高性能X86处理器的经验,但最终台积电还是很有钱的。 性能上比GF好很多,AMD的7nm CPU和GPU终于量产成功。
此外,AMD的锐龙3000系列处理器所采用的7nm工艺也不同于台积电为华为、苹果代工移动处理器所采用的工艺。 它是 7nm HPC 工艺,针对高性能 IP 内核进行了优化。 7nm HPC工艺的公开介绍并不多。
根据AMD公布的数据,7nm工艺带来明显的计算效率,包括晶体管密度翻倍,功耗降低50%(同等性能下),性能提升25%(同等功耗下)。
考虑到AMD与14nm工艺相比,密度和功耗的变化还算不错,但25%的性能提升就差强人意了。 由此也可以看出,摩尔定律到了10nm节点之后,芯片性能的提升并不是那么容易的。 向上
只要提到处理器技术,无论如何都绕不过去。 平心而论,中国的10nm制程技术并没有落伍,甚至在晶体管密度上比台积电的7nm制程还要有一些优势。 在这个问题上,就连AMD自己也很清醒,他们只表示7nm工艺赶上了与友商的差距。
当然,综合来看,AMD在7nm节点上还是领先的。 尽管在技术上与10nm相当,但在时间安排上AMD赢了。 高性能桌面和服务器版本要等到明年,AMD现在出货的是7nm工艺的高性能桌面处理器,64核的EYPC Rome处理器也将在下半年出货.
也正是因为如此,此前有华尔街分析师称赞AMD在7nm 3000处理器上卷土重来。 这是十多年来AMD首次在技术和性能上全面超越。 这绝对是一个历史性的时刻。
三代锐龙设计:CPU/IO核心分离是解决延迟的关键
虽然AMD在 3000处理器上成功使用了7nm工艺,但是说它是7nm芯片有点不准确。 其实 3000是7nm混合12nm工艺,这与其模块化设计有关。
在7nm节点,设计一颗芯片的成本高达3亿美元,这对于AMD来说也是非常高的。 这就需要腾云网络采用更好的方法来保证芯片的良品率。 芯片越大,成品率越低。 ,芯片越小,成品率可能越高。
在Zen 2架构处理器上,AMD采用小芯片的设计思路,通过模块化将不同内核的处理器组合在一起。 设计不同于以往的胶水包装。 从本质上讲,就是根据需要将不同工艺和架构的芯片电路进行匹配,比简单的胶水封装更加精密和复杂。
在去年推出的首款Zen 2架构处理器——EPYC Rome上,AMD率先应用了这种设计方法。 8组CPU核心和1组IO核心堆砌出一个64核的处理器。 在锐龙3000上,桌面版不需要那么多核心。 它采用2组CPU核心层,1组IO核心,最大16核32线程。
具体来说,图中上述两组CPU核心均采用7nm工艺制造,因为CPU核心对性能要求高,对功耗也很敏感。 改进工艺对CPU核心大有裨益,好钢要用在刀刃上。
下面的IO核心集成了内存控制器、PCIe控制器等IO单元。 这部分电路对性能和功耗没有那么高的要求,IO单元也不容易随工艺缩小,所以采用了比较低端的工艺。 ——之前说是14nm,但是 3000上的IO核心是12nm工艺的改进版。
AMD在Zen2上采用这样的设计无疑是非常聪明的,而且配置也非常灵活。 想要增加CPU核心数,只需堆叠CPU模块,锐龙处理器就可以轻松从之前的8核16线程变成16核32线程。 此外,AMD还需要通过这种方式生产小核,提高了良品率,降低了成本,而IO核则采用了更成熟的12nm工艺,进一步降低了成本。
当然,有得也有失。 设计有很多好处,但缺点也很明显,就是如何处理核心之间的连接,尤其是内存主控分离后,内存的延迟理论上会增加,肯定不如原来的多核 是的,AMD是怎么解决这个问题的?
第一种是改进型总线(简称中频)。 中频总线是Zen架构的基础技术之一。 它连接Zen架构中的CCX模块,现在也用于连接不同的CPU和IO核心模块。
在锐龙3000处理器上,中频总线已经进化到第二代,在并行度、延迟、能效等方面全面提升。 总线位宽从256b升级到512b,支持PCIe 4.0。 同时将Fclk和Uclk频率解耦解锁,提升内存超频性能,并采取多种方式降低内存延迟,提高缓存速度,降低延迟的影响。
除了中频总线的提升,AMD还有一个大动作——三级缓存翻倍,每个CCX单元的三级缓存容量从之前的8MB增加到16MB(7nm工艺的密度优势任性),这样对延迟敏感的应用程序可以更多地依赖 L3 缓存和内存php 高性能框架,AMD 声称这可以将等效内存延迟减少 33ns,并将游戏性能提高 21%。
此外,AMD还凭借IO核心分离提高了内存频率。 而之前的锐龙所支持的内存频率,现在可以轻松达到4000+。
对于显存频率,如果追求极致的低延迟,频率高不一定好。 这也与中频总线的工作方式有关。 虽然和内存频率分开了,但是在1:1的情况下延迟还是最低的。 分界点是DDR4-3733,此时内存延迟最低,AMD官方推荐DDR4-3600 CL16模式,对于目前的内存来说很容易达到。
三代锐龙Zen2架构详解:一切为了更高的吞吐量
如果你还记得锐龙7刚发布时的场景,应该对Zen架构的SMT多线程、CCX单元、IF总线等创新还有印象,而锐龙3000的Zen2架构也继承了这些优点,但在Zen2 IO相关分离中,CPU核心变得更加纯粹,总体方向是增加核心数使多线程性能翻倍,同时最大化单核性能。
在锐龙3000中,CPU和IO核心分离后,可以有多种搭配。 比如1组CPU可以配1组IO核,这样最大就是8核16线程,2组CPU核可以配1组IO核。 最多16核32线程,这也是目前锐龙9 12核和16核处理器的基础。
在14nm Zen架构中,一个CCX单元的总面积为 ,其中CPU核心、8MB L3缓存为,算上其他IO、内存主控、IF等单元,核心面积为8-核心处理器是。
Zen 2架构中,一颗芯片总面积仅为31.3mm2,其中CCX+16MB三级缓存核心面积仅为31.3mm2,同比下降47%。 一方面是因为7nm工艺的密度优势,另一方面也只是和Zen2的CCX一样。 CPU核相关,IO单元减少。
这也可以解释为什么 AMD 敢于将 L3 缓存大幅增加一倍以减少延迟。 每个CCX加倍到16MB L3缓存后,CCX核心面积还是减少了一半左右。 为什么不这样做。
就整个Zen2架构而言,它继承了SMT多线程技术,同时在分支预测、缓存系统、整数、浮点数等单元进行了改进,并加入了新的指令,进一步减少延迟的影响。
缓存系统上,Zen 2的L3缓存翻倍,L2缓存保持8-Way不变,L1缓存有所调整,指令缓存容量从64KB减少到32KB,但关联性从4-Way变为8-Way,而且,-Op缓存加倍。 AMD显然想在性能、节能和面积之间取得平衡。
在预取单元上,AMD提升了分支预测的准确性,增加了BTB( )容量,优化了32KB L1缓存,最重要的是加入了TAGE分支预测器,最终使得分支预测miss hit hit命中率降低30%,命中精度提升,降低能耗,提升性能。
在解码单元,主要改进了-op微操作缓存,容量从2K翻倍到4K,可以支持更多的解码操作。
浮点单元是 Zen 2 架构中变化很大的一部分。 在去年的EPYC Rome处理器中,AMD表示浮点性能吞吐量翻了一番。 原因是它完全支持AVX2指令,并且位宽增加了,然后将之前的指令拆分为两条指令,分两个周期执行,使浮点性能翻倍。
在整数执行单元中,调度器的数量从84个增加到92个,物理寄存器的数量从168个增加到180个,每个周期的传输次数从6个增加到7个。这个区域更加量化,进一步优化了执行单元的效率和执行速度。
在加载/存储单元中,队列深度也增加,TLB缓存容量增加,带宽增加,延迟降低。 最重要的是带宽从每周期 16B 增加了一倍到 32B 字节。
在缓存一致性方面,前面已经介绍了L1、L2、L3缓存的变化。 其中L2缓存不变,L3缓存翻倍,L1指令缓存减半,但结合性翻倍。
Zen2架构中新增了一些指令,比如CLWB、QOS等,我就不详细解释了。 这些指令主要与内存和缓存有关。 主要目标是提高缓存性能并减少延迟。 它们主要用于 EPYC 处理器。 是的, 3000 消费级处理器支持这些指令主要是因为光。
最后值得一提的是处理器的安全性。 由于后发优势,Zen2架构在安全和漏洞防护方面更具优势。 Zen 架构已经免疫了多个变体漏洞,例如 和 。 此外,硬件不受 变体的影响,这对消费者处理器影响不大,但对企业用户很重要。
第三代锐龙的终极目标:多核和单核,还要能效和低温
无论是7nm工艺还是设计,还是Zen 2微内核架构,AMD在骁龙和锐龙处理器上追求的目标无非就是性能和能效,结合之前处理器的优缺点,具体来说,就是它就是继续保持多核性能优势,提升单核性能,提高能效,降低功耗和发热,降低成本。 不过,价格还是跟市场有关。 具体要看具体的产品,这里就不说了。 .
性能方面,AMD在7nm Zen2上追求性能提升,首先是IPC性能。 从推土机架构到Zen架构,AMD实现了52%的IPC性能提升,不过那是有特别的加成,但是从Zen到Zen2,AMD表示他们也实现了15%的IPC性能提升,值得称道. 毕竟,高性能CPU架构的提升难度越来越大。 相比之前的产品IPC性能提升5%已经不错了。
其次,AMD需要实现更高的频率。 1代和2代处理器在这方面吃过苦头,加速频率仅为4.3GHz,与已经实现的5GHz加速频率相比有很大差距。 单核性能吃亏不少,游戏性能也吃亏。
在7nm Zen2上,AMD终于有了突破。 9 12核处理器的加速频率也达到了4.6GHz,16核 9的频率达到了4.7GHz,AMD表示他们的加速频率不仅仅是为了追求最高频率单核,如果可能,更愿意让多核达到加速频率,这样性能会更强。
综合IPC性能和频率的提升,AMD终于在锐龙3000上实现了单核性能的大幅提升,官方数据显示单线程性能提升了21%。 考虑到锐龙一代和二代处理器的单核性能和Core处理能力的最大差距只有20%左右。 这一提升足以让AMD在单核性能上赶超甚至超越酷睿。
同时,AMD一直占据优势的多核性能也将继续保持。 3000 的最大内核数翻了一番,达到 16 核 32 线程。 随着核心数的增加,多核性能基本保持线性增长。 处理器R20的多核跑分为3678,12核24线程的锐龙3000跑分为7248网站优化,基本同步增长。
更重要的是,AMD在提升性能的同时降低了处理器的功耗。 7的绝对功耗从前两者的195W和157W降低到135W,能效表现可圈可点。
考虑到锐龙7和酷睿i7处理器都是14nm工艺级别,7nm锐龙3000处理器在能效上有两代工艺差距。 官方表示同等性能下功耗降低50%,能效可以说是降维打击。
随着能效的提升,AMD的锐龙3000处理器在发热量方面也有优势。 AMD 的 6 核和 8 核酷睿处理器的高发热量让不少玩家感到不适,但锐龙 7 却冷静了许多。 这个优势在于,锐龙一二代上已经是这样了。
除了硬件的改进,AMD 也跟上了优化的步伐。 锐龙 3000 处理器得到了微软的支持。 在最新的5月10日更新(1903版本)中,还支持AMD处理器的fast CPU状态。 切换功能,当涉及到一些突如其来的工作负载时,锐龙3000处理器的升频时间从30毫秒减少到1-2毫秒。 简单的说就是在需要的时候可以更快的提升频率,这样就可以提高应用程序的响应速度,AMD表示10的启动时间缩短了6%,游戏的启动时间也缩短了减少了 15%。
第三代锐龙的绝配:X570芯片组+PCIe 4.0带宽
除了处理器,不得不说的还有新一代的X570芯片组。 相比之前翔硕设计的芯片组小程序开发,这次的X570由AMD亲自推出,为了实现PCIe 4.0技术支持,并且在14nm制程工艺上不惜重金。
与PCIe 3.0相比,PCIe 4.0的速度从8GT/s提升到16GT/s,带宽翻倍。 主要优点如下:
① 速度更快,x16双向带宽达到32GB/s,是PCIe 3.0的两倍。
②向下兼容,PCIe 4.0也兼容PCIe 3.0设备。
③连接更多,PCIe 4.0带宽高,1值2,可以连接更多设备,不用担心性能下降。
PCIe 4.0目前是AMD X570/ 3000在消费类平台上的专属功能。 因此,群联、慧荣等腾云网络推出的PCIe 4.0主控和腾云网络的PCIe 4.0硬盘要想发挥威力,AMD平台是首选。 可将SSD读写性能提升至5GB/s级别,未来可进一步提升至6.5GB/s。
此外,除了PCIe 4.0,X570平台上的SATA、USB 3.1 Gen2、NVMe等其他标准也优于Z390平台。 网络有信心打造顶级平台。 这也是与之前300、400系列芯片组最大的不同。 先进的技术可以任性。
当然,考虑到PCIe 4.0目前支持较少,如果不追求极致性能,可以选择X470、B450等平台。 AMD此前也已经确认,除了支持PCIe 4.0外,锐龙3000处理器在其他平台上的性能是一样的,不会受到影响。
总结:从好到好,三代锐龙的所有优点“我都要”
从AMD的7nm Zen2架构设计来看,AMD对于这一代处理器的野心可以说是远大的,无论是单核还是多核性能,还是能效、温度、成本,AMD的目标简直就是如图所示在下图中。 :
没错,AMD在 3000处理器上展现的就是所有的优势都要占尽,不给友商们留下后路的感觉,通过先进的7nm工艺,独特的小芯片,全面提升的Zen2架构来实现性能,能效的同步增长,以及过去最弱的单核性能这次也赶上了。
关于锐龙3000处理器的性能,AMD官方的测试已经展示了很多,这里就不一一列举了。 上图是综合代表。 单核和多核性能均优于酷睿i9处理器。 .
想阅读原文的可以点击“扩展链接”,感谢原作者兽王的精彩文章!