我们需要更多不做大型模型的人工智能应用者
06-21
(注:本文内容来自Anandtech,雷锋网翻译)在这个移动设备已经成为主要计算平台的时代,谁稍微关注一下业界都听说过 Arm。
技术推动者,提供各种处理器架构和核心参考设计,基本上已经成为当今所有移动设备的动力源泉,并在过去5到7年里引领了智能手机和平板电脑SoC性能的快速发展。
。
Arm 的野心远远超出了移动和嵌入式设备。
从商业意义上来说,服务器和相关基础设施等高端领域有更大的利润空间,这对于Arm这样的公司来说是一个非常有利可图的市场。
然而,尽管Arm在移动和嵌入式设备领域取得了巨大成功,但迄今为止还无法触及更高性能产品领域。
尽管在过去的十年里,许多关于“Arm将彻底改变服务器和基础设施市场”的预测层出不穷,并且不同的供应商都试图实现这一目标,但是,前几代产品都没有成功,Arm的服务器生态系统该系统也遇到了相当大的困难。
在服务器领域,这是多事的一年。
去年年中,新的Cortex A76架构横空出世。
Arm对其寄予厚望,以至于随后公开分享了未来三年的CPU路线图,并宣布将在PC笔记本电脑领域与英特尔正面竞争。
。
尽管Snapdragon 8CX等产品还需要很长时间才能推出,但外媒Anandtech已经获得了第一批搭载Cortex A76的移动设备,并验证了Arm的所有性能和效率主张。
近日,Arm发布了全新明星架构Neoverse,希望通过新一代处理器设计大幅提升其性能,提高在服务器和基础设施领域的竞争力。
这些新架构对Arm来说很重要,它们代表了市场的转折点:Arm处理器的性能已经接近Intel和AMD处理器,Arm有信心能够保持每年25到30的性能提升%,大幅超越Intel和AMD的迭代范围。
过去几个月对于 Arm 服务器生态系统来说非常令人兴奋。
在去年的 Hotchips 大会上,富士通展示了全新的 A64FX 高性能计算处理器,该处理器不仅代表了该公司从 SPARC 架构向 ARMv8 架构的转变,而且还率先在 Arm 架构中实现了全新的 SVE(可扩展向量扩展)。
) 芯片。
Cavium 还凭借 ThunderX2 实现了令人印象深刻的性能飞跃,使其新处理器成为首批与英特尔和 AMD 竞争的处理器。
前段时间,我们看到了华为全新的鲲鹏服务器芯片,该芯片有望成为业界最高性能的Arm服务器CPU。
上述三个产品之间最大的共同点是,每个产品都代表了每个供应商基于 ARMv8 架构许可实现定制微架构的努力。
这实际上引出了一个问题:Arm 自己对服务器和基础设施市场的计划是什么?这次我们将详细介绍新平台Neoverse N1,它将成为Arm未来几年基础设施战略的核心,并初步实现服务器生态系统。
Neoverse N1 CPU:不妥协的性能 Neoverse N1平台的核心是Neoverse N1 CPU,即CPU品牌和平台品牌同名。
Arm描述的平台不仅仅是CPU核心,还有周边的互连IP,允许整个系统扩展到多核系统。
Neoverse N1 平台和 CPU 代表了 Arm 首款专为服务器和基础设施市场设计的专用计算 IP。
与过去的 IP 产品相比,这是一个重大变化,相同的 CPU IP 将可用于消费产品和行业解决方案。
这些IP系列之间的新技术区别促使Arm为新的基础设施目标产品采用新的营销名称,因此Neoverse品牌诞生,以区别于面向消费者的Cortex CPU品牌。
Neoverse N1 平台代表了 Arm 奥斯汀设计中心“第二代奥斯汀家族”的第一次迭代。
Neoverse N1最初被命名为“Ares”,代表Cortex A76对应的服务器处理器核心。
与此同时,Austin团队可能已经完成了第二次迭代所需的Zeus架构的设计; Poseidon 架构将是该系列的最后一次迭代,然后将接力棒传递给法国索菲亚团队设计的下一个架构系列。
由于Neoverse N1是Cortex A76架构的兄弟,两个核心之间自然有很多相似之处。
雷锋网去年详细介绍了Cortex A76架构。
这些设计细节也适用于 Neoverse N1。
两者在适应基础设施用例方面仅存在一些差异。
就高层设计目标而言,Arm 的目标似乎相当简单:创建一个毫不妥协的架构,并成为未来几年重用的基础。
特别是,我们从Cortex A76中可以看到,Arm正在调整架构设计,使其能够在基础设施部署中以最高频率运行。
这与Intel、AMD在服务器CPU上采取的策略形成鲜明对比。
Arm在服务器CPU上的优势在于可以同时优化性能、功耗和面积,而Intel和AMD则必须在这些指标上做出妥协。
尽管他们的产品与相应的消费产品具有相似的架构,但频率往往非常高。
有限,具体取决于给定 SKU 所针对的细分市场。
Neoverse N1的流水线结构与Cortex A76相同,均为11级短流水线设计,前端均为4宽读/解码器。
Arm 将此称为“手风琴”管道,因为根据指令长度,在延迟敏感的情况下,它可以将第二预测阶段与第一个获取阶段重叠,并将调度阶段与第一个发出阶段重叠,从而减少管道长度。
到级别 9。
执行后端看起来也与 Cortex A76 相同,有 2 个处理加法和减法运算的简单 ALU、1 个处理乘法和除法运算的复杂 ALU、以及 2 个处理向量和浮点运算的全宽 SIMD 管道。
数据吞吐量是处理器架构的重要指标,Arm为Neoverse N1设计了两位加载/存储单元,以保持足够的带宽来提供和服务执行管道。
架构前端也与Cortex A76非常相似,具有高容量的L1和L2以及低延迟的访问性能。
Arm这里还使用了一些业界已知的最大的分支目标和方向预测缓冲区,试图保持数据流经核心,并最大限度地减少分支预测和缓存命中失败的概率,以提高性能。
在缓存层次结构方面,Neoverse N1 与 Cortex A76 有很大不同。
两者的L1缓存容量均为64KB,读取延迟均为4个周期,但Neoverse N1上最大的区别在于缓存完全一致。
应该注意的是,ISA 并不要求硬件 I-cache 一致性,并且迄今为止通常通过软件维护操作来实现。
实现 N1 的硬件一致性对于 Arm 来说非常重要,因为它可以极大地提高性能并简化虚拟环境的实施,如果 Arm 希望与超大规模客户竞争,这些功能就必须可用。
拥有 I-Cache 一致性被认为是具有大量内核的系统的关键促成因素,Arm 表示 16 核及以上的系统需要具有此功能。
L2 缓存可以以 KB 或 1MB 为单位进行配置。
使用KB配置时,与Cortex A76基本相同,而1MB缓存可以应对占用内存较多的应用程序。
然而,将L2缓存加倍到1MB并不是没有代价的,这将使缓存延迟增加2个周期,达到11个周期的负载使用延迟。
Neoverse N1和Cortex A76的一个很大的区别是,在进行大规模缓存操作时,Neoverse N1不会寻找集群,而是会使用mash互连。
如图所示,连接首先经过CAL或组件聚合层。
每个 CAL 最多支持两个接口,这就是为什么我们在每个“集群”(实际上并不是集群本身)中只看到两个 CPU。
然后,CAL 连接到网格的 XP(交叉点),它本质上是网络的交换机/路由器组件。
每个 XP 有两个可用端口;在 Arm 参考设计示例中,第二个端口连接到系统级缓存。
在具有 2MB 系统级缓存的 64 核系统示例系统中,整个 64MB 缓存的平均负载使用延迟为 22ns。
Arm给出的延迟数据之所以以纳秒而不是周期为单位,是因为系统级缓存和网格以与CPU异步的频率运行,通常约为核心频率的2/3。
直接连接是 Neoverse N1 和 CMN- 的一个不可或缺的功能。
该功能仅存在于该平台上,在 Cortex 架构上是不可能的。
本质上,它删除了 DSU 的所有 L3 和探听过滤器逻辑,而是将 CPU 内核直接连接到 CMN 的 CHI 接口。
因此,内存控制器和CPU核心之间的通信本质上只需要经过一个中间层,即mash网络本身。
数据从内存控制器直接传输到CPU可能有点难以解释,当CPU向内存控制器发出数据请求时,它能够立即同时首先向其发送“预取”类型的请求,同时还可以通过网状网络中的 XP 主节点进行监听 过滤器正常传输命令,然后将请求路由到内存控制器。
因此,内存控制器会提前知道请求即将到来,并且已经开始获取数据,从而隐藏部分有效内存延迟,而不是整个传输按串行顺序发生。
预取对于整个系统的性能非常重要,对数据预取的智能管理可以有效优化系统级带宽。
据称,在拥有64个核心和8个DDR4内存通道的Neoverse N1参考系统中,可以实现高达GB/s的内存带宽。
Arm还公布了延迟数据,但Arm的数据代表的是LMBench数据,并且配置了2MB大页,测试深度为MB。
选择大页面可以减少 TLB 缺失并更接近实际内存延迟,这就是本例中 Arm 发布指标背后的基本原理。
我们还没有机会测试启用大页的竞争系统,但 AMD 的 EPYC(LRDIMM DDR4 19-19-19)在芯片缓存层次结构末端通过类似 LMBench 的测试实现了约 73 纳秒的延迟,定制开发的延迟测试将 TLB 故障降至约 57 纳秒。
Intel W-X (RDIMM DDR 24-19-19) 在相同测试下的延迟分别为 94ns 和 64ns。
Neoverse N1芯片面积非常小,采用台积电7nm工艺制造。
使用KB二级缓存时,核心面积约为1.2mm2,与麒麟使用的Cortex A76的1.26mm2几乎相同。
将二级缓存加倍至 1MB 后,核心面积仅为 1.4mm2。
在频率范围方面,Arm的愿景是在0.75V电压下达到2.6GHz,在1V电压下达到3.1GHz。
在此频率曲线的末端,功耗增加 44% 仅导致频率和性能增加 19%,因此大多数供应商希望更接近功率曲线中更高效的部分。
不过,从绝对值来看,Neoverse N1的功耗仅为1~1.8W,这为64核SoC提供了足够的空间。
Arm 64 核 Neoverse N1 参考设计的总功耗预算约为 W。
Neoverse N1 超大规模参考设计 Arm 为 Neoverse N1 提供了完整的参考设计,其中包含一组经过 Arm 自身充分验证的 IP。
这组参考设计的目标是为供应商提供“最佳点”配置选项,以便他们能够以相对最小的努力实现最佳性能。
Neoverse N1 提供 64 核或核心配置的参考设计,集成到具有 64 MB 或 MB 系统级缓存的 CMN-mash 网络中。
I/O接口方面,两条PCI-E 4.0通道分别用于I/O和CCIX接口,可以提供充足的I/O带宽。
内存方面,Arm为其配备了8通道DDR4控制器,最高支持MHz。
但事实上,Arm 已经放弃了开发自己的内存控制器,因为大多数情况下客户会使用自己的内部设计或选择其他第三方供应商(例如 Cadence 或 Synopsys)的解决方案。
对于当前的参考设计,Arm 自己的 DMC 内存控制器仍然是最新的,并且是该公司易于理解的模块。
然而,未来,DDR5等较新的内存控制器也将不得不依赖第三方IP。
SoC 的物理实现将使用可重复使用的分层构建块来促进设计。
每个CPU模块由两个Neoverse N1核心、一组系统级缓存以及CMN和本地节点的横截面组成。
通过翻转和镜像复制 CPU 模块可生成最终的 SoC 顶层网格。
在7nm工艺节点,Arm的64核Neoverse N1参考设计搭配64MB缓存,芯片尺寸接近mm2,可能略高于供应商想要的可制造性目标。
为了缓解这种担忧,Arm还提出了小芯片设计的思路,允许多个小芯片通过CCIX链路进行通信,保证必要的灵活性,供应商可以决定如何设计解决方案。
SmartNIC 的集成能力也是其设计和灵活性的一个重要方面。
为了最大限度地提高大型系统的计算能力,加速网络连接实际上是以最密集、最高效的外形尺寸实现高吞吐量的关键。
。
CMN——允许在其交叉点上设置一个从端口,通过高达GB/s的高带宽总线连接到内存管理单元,并且可以轻松插入其他固定功能的硬件模块。
CCIX对于Arm很重要因为它使其产品组合能够与第三方 IP 产品集成。
为外部IP块启用缓存一致性是一项非常有吸引力的功能,因为它极大地简化了供应商的软件设计。
基本上,这意味着软件只能看到一大块内存,而非一致性系统需要驱动程序和软件来了解并跟踪内存的哪些部分有效,哪些部分无效。
在IP集成方面,Arm提供了与CMN集成的CCIX兼容网关,而另一方面,第三方IP提供商负责提供CCIX转换层。
CCIX 对于 Arm 来说非常重要,它允许其产品组合与第三方 IP 产品集成。
为外部IP块启用缓存一致性是一项非常有吸引力的功能,它极大地简化了供应商的软件设计,无需系统、驱动程序和软件来跟踪有效内存。
在IP集成方面,Arm提供与CMN集成的CCIX一致网关,而第三方IP提供商提供CCIX翻译层。
在芯片的逻辑设计中,供应商还必须设计强大的配电网络,以支持实际使用中各种突发且苛刻的电力需求。
这对许多供应商来说是一个非常头疼的问题,因为设计需要复杂的模型,并且大多数情况下需要对配电网络进行过度设计以提供稳定性保证,这反过来又增加了实施的复杂性和成本。
Arm 旨在通过以专用微控制器的形式提供极其细粒度的 DVFS(动态电压频率缩放)机制来缓解这些问题。
控制器访问 CPU 内核内部的详细活动监控单元,以查看有多少晶体管实际上正在积极工作,并将此信息反馈给系统控制器以更改 DVFS 状态。
这使得供应商能够按照更保守的公差来设计其分销网络,从而节省实施成本。
性能预测 关于性能和效率的讨论必须用具体的数字来衡量。
当 Arm 发布 Neoverse N1 时,大部分性能数据都是相对于 Cortex A72 的改进,这并没有真正将 Neoverse N1 视为竞争格局中最相关的数据点。
Cortex A72是2016年推出的架构,两款产品之间存在3到4年的时间跨度。
与同频且同样配备系统级缓存的Cortex A72平台相比,全新的Neoverse N1平台直接以碾压性的方式赢得了胜利。
在SPEC的单线程测试中,Neoverse N1的整数运算PPC(每时钟性能)和绝对性能相比Cortex A72提升了60%到70%,浮点运算性能更可观,提升高达%~ %。
而且考虑到Neoverse N1还有很多其他SoC级别的改进和软件优化,实际性能会更高。
与现有解决方案相比,Arm 再次迭代了非常显着的性能演进,在矢量工作负载上实现了 2 倍以上的性能提升。
当然,Neoverse N1对ARMv8.2指令集的支持也意味着它支持8位点积和FP16半精度指令。
这些指令特别适合机器学习工作负载,比之前的平台实现了近5倍的性能提升。
对于运行频率约为 2.6GHz 的 64 核 Neoverse N1 超大规模参考设计,SPECint 单线程得分约为 37 at W TDP,而多线程得分预计约为 37。
在实际运行的产品上进行测量,但使用 Arm 服务器场上的 RTL 模拟环境进行估计。
Neoverse N1的单线程分数明显高于同源Cortex A76上测得的26分。
抛开软件和编译器的考虑,造成 42% 性能差异的原因之一可能是 Neoverse N1 具有更好的内存。
以及缓存系统,整体系统带宽比Cortex A76等移动SoC高6倍。
在单线程工作负载中,线程可以完全访问64MB系统级缓存,比Cortex A76设计的L3缓存大16倍。
Arm强调,在提升生态系统性能的诸多努力中,除了提供更好的硬件外,还需要提供更好的软件。
过去几年,Arm 在改进开源工具和编译器方面投入了大量精力。
例如,最新版本的GCC9与旧版本的GCC5相比,其整数和浮点工作负载的性能提高了13~15%,而这些优化是针对实际用例的改进,而不是旨在提高性能的针对性改变。
规格分数。
在单线程性能方面,Neoverse N1 看起来非常不错,大幅击败了目前性能最好的 Arm 服务器 CPU Cavium 的 ThunderX2。
既然是面向服务器领域的产品,就难免要与老牌供应商Intel、AMD进行比较。
在Intel和AMD最新最好的Xeon W-X和EPYC上,GCC8也被用来编译一组二进制文件。
Intel的Xeon W-X算不上最具代表性的超大规模CPU,但其4.5GHz单核睿频却提供了多核CPU中最强的单线程性能。
AMD的EPYC是一个比较有代表性的数据点。
其3.2GHz频率与Neoverse N1非常具有可比性,根据实际结果来看确实如此。

从 SPECrate 的多线程测试来看,这是所有平台的最佳扩展场景。
没有序列化或线程间通信,测试套件只是并行运行多个进程。
从Arm给出的仿真测试结果来看,64核Neoverse N1在TPD的瓦数下实现了极高的性能和效率,甚至x86解决方案都难以与之竞争。
虽然测试对比了64核Arm平台和32/28核x86平台,使用AMD即将推出的64核Rome处理器似乎更公平,但从数据来看,即使是AMD的64核处理器也能实现双倍的性能提升。
以目前的性能来看,它的TDP不太可能像Neoverse N1那样下降到瓦的水平(EPYC的TDP是瓦)。
雷锋网的结论是Neoverse N1似乎是一个优秀的架构。
它保持了Arm一贯领先的功效,并在峰值计算性能和整体吞吐量之间实现了最佳平衡。
Arm 对 Neoverse N1 及其最终的继任者寄予厚望,希望从英特尔等供应商手中夺走 x86 处理器根深蒂固的市场份额。
Arm 正在竭尽全力,虽然 Neoverse N1 不会成为旗舰 x86 的核心竞争对手,但它将对可以轻松扩展到更多核心的工作负载构成重大威胁。
当然,在实际的硬件产品出现之前我们还不能下任何结论,但Arm之前对Cortex A76的性能预测与实际设备上的测量结果非常吻合,所以我们有理由相信Neoverse N1的性能预测,而且预测正在实现,表现绝对是有希望的。
虽然新的硬件 IP 令人印象深刻,但同样重要的是 Arm 为加强 Arm 软件生态系统所做的努力。
与不同行业的硬件和软件合作伙伴合作,尝试促进软件堆栈以及与 Arm 的互操作性,这不仅有利于使用 Arm 自有硬件 IP 的供应商,也有利于那些选择使用自己的定制 CPU 和 SoC 设计供应商的供应商。
同样,寻求改进和增强自己产品的供应商也将反过来加强 Arm 的生态系统。
从本质上讲,这是许多公司的集体努力,未来将继续获得动力。
可见Arm对于基础设施建设非常重视。
过去的一年对于 Arm 生态系统来说是革命性的一年。
我们第一次看到 Arm 制造商平台与英特尔、AMD 等主流制造商竞争。
尽管Arm尚未透露谁将首先使用Neoverse N1平台的信息,但Arm无可辩驳地成为行业主流。
据传Neoverse N1将在未来12到18个月内进行商业部署,这对于Arm来说将是一个关键时刻。
如果一切顺利,Arm及其合作伙伴实现了承诺的改进,服务器行业必将在未来1到2年内发生重大变革。
雷锋网版权文章未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-17
06-17
06-17
06-18
06-21
06-17
06-18
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投