首页 > 科技浪潮 > 内容

主流芯片架构是否正在发生重大变化？

发布于：2024-06-06 编辑：匿名来源：网络

易飞网随着芯片尺寸缩小带来的好处越来越小，业界正在设计支持人工智能的系统，以在本地处理更多数据。

芯片制造商正在开发新的架构，这些架构可以显着增加每瓦特和每个时钟周期可以处理的数据量，从而开启芯片架构长达数十年的转变。

所有主要芯片制造商和系统供应商都在改变方向，在如何读取数据和将其写入内存、如何管理和处理数据以及如何将各个元素组合到单个芯片方法等方面掀起了一场架构创新竞赛。

随着尺寸不断缩小，没有人期望工艺进步能够跟上传感器数据的爆炸性增长和芯片之间数据流量的增加。

在这些创新中，新的处理器架构专注于每个时钟周期处理更多数据的方法，有时会牺牲一些精度或根据应用类型优先考虑特定操作；新的内存架构正在开发中，以改变数据存储、读取、写入和访问；更具针对性的处理元素分散在系统各处，更靠近内存。

系统不再依赖于最适合应用的单一主处理器，而是根据数据类型和应用选择不同的加速器；通过人工智能技术，将不同数据类型融合在一起，形成多种模型，有效提高数据密度，同时最大限度地减少不同数据类型之间的差异；封装组合形式已成为建筑设计的核心之一，设计修改的难度也越来越受到重视。

“有一些趋势导致人们试图充分利用现有解决方案的潜力。

” Rambus 的杰出发明人 Steven Woo 说道。

“在数据中心，你希望硬件和软件发挥尽可能多的作用。

这是数据中心重新思考其成本效益的方式。

启用一项新功能的成本非常高，但瓶颈也越来越突出，因此我们正在看到更专门的芯片和方法的出现，以提高计算效率，如果能够减少数据在内存和 I/O 中的回传次数，将会产生很大的影响。

”这些变化在边缘更加明显。

节点。

此外，系统供应商突然意识到，有数百亿台设备不断产生大量数据，而这些数据无法全部发送。

到云端进行处理。

在边缘节点上处理这些数据给节点本身带来了挑战，这需要在不显着改变功率预算的情况下显着提高性能。

Nvidia Tesla 产品系列首席平台架构师 Robert Ober 表示：“人们关注的焦点是降低精度，边缘节点性能的提升不仅仅体现在更多的计算周期上。

它需要将更多的数据放入内存中，比如可以使用16位指令格式，因此解决方案是不要在缓存中存储更多以提高处理效率。

从统计上看，不同精度的计算结果应该是一致的。

Ober 预测，在可预见的未来，通过一系列架构优化，应该可以每隔几年将处理速度提高一倍。

“我们将看到这些变化，”他说。

“要实现这个目标，我们需要在三个层面上取得突破。

第一个是计算，第二个是内存，在某些模型中计算更关键，在另一些模型中内存更关键。

第三是主处理器带宽三星奥斯汀研发部门的首席架构师杰夫·鲁普利 (Jeff Rupley) 在 Hot Chips 会议上的演讲中指出，我们需要在优化存储和网络方面做大量工作。

该公司的 M3 处理器的几项重大架构变化之一是每个周期处理更多指令，与之前的 M2 每周期处理 4 条指令相比，M3 还包括用多个神经网络替换预取搜索，改进分支预测。

，以及指令队列深度加倍的改变，也改变了从制造工艺到前端架构/设计和后端封装的协同创新关系。

尽管制造工艺仍在创新，但每个新节点只能带来性能和功耗约15%至20%的提升。

显然不足以跟上数据的增长。

“变革正在以指数级的速度发生，”Xilinx 总裁兼首席执行官 Victor Peng 在 Hot Chips 上的演讲中说道。

“现在每年将生成 10 ZB 的数据。

其中大部分是非结构化数据。

“处理如此多数据的内存新方法需要重新思考系统的每个元素，从数据的处理方式到存储方式。

业界已经多次尝试创建新的内存架构，”高级创新总监 Carlos Maciàn 说道。

eSilicon 的 EMEA 负责人表示：“当前内存的瓶颈是需要读出整行，然后选择一个位。

一种新方法是构建可以从左到右、从上到下读取的内存。

可以更进一步，将计算能力部署到不同的存储器中。

”还可以改变存储器的读取方式、处理单元的位置和类型，并利用人工智能技术来优化不同数据存储、处理和处理的优先级。

整个系统的传输。

“在稀疏数据中，我们一次只能从字中读取。

节数组读取一个字节的数据。

在其他类型的应用中，可以在同一个字节数组中一次读取八个连续的数据，而不消耗其他字节或字节“我们对能源消耗不感兴趣。

”Cadence 产品营销总监 Marc Greenberg 说道。

“未来的新内存可能更适合处理这种事情。

例如，让我们看一下 HBM2 架构。

HBM2 硅堆栈排列成 16 个 64 位虚拟通道。

我们可以从对任何虚拟通道的任何访问中获得 4 个连续的 64 位字。

因此，可以构造一个1位宽的数据数组，该数组可以水平写入并且一次只能读取4个64位字。

“内存是冯·诺依曼架构的核心部件之一，正在成为架构创新最大的实验田之一。

AMD客户端产品首席架构师Dan Bouvier表示：“现有架构的一大报应就是虚拟内存系统。

它迫使您以更不自然的方式移动数据。

您需要一次又一次地进行转换。

如果能够消除 DRAM 中的分区冲突，就可以实现更高效的数据流。

独立GPU可以在90%的效率范围内运行DRAM，效率非常高。

但如果您可以获得串行数据传输，您还可以在 APU 和 CPU 上以 80% 到 85% 的效率范围运行 DRAM。

“IBM 正在开发一种不同类型的内存架构，它本质上是磁盘条带化技术的现代版本。

磁盘条带化技术使数据不再局限于单个磁盘。

同样，IBM 的新内存架构旨在利用连接器技术，该技术使数据不再局限于单个磁盘。

其系统硬件架构师 Jeff Stuecheli 将连接技术称为“瑞士军刀”，混合并匹配不同类型的数据，“CPU 就成为位于高性能信号接口中间的东西，”Stuecheli 说。

在微架构中，核心可以在不增加频率的情况下在每个周期执行更多操作，“为了确保这些架构能够处理越来越多的数据，连接性和吞吐量能力变得越来越重要。

“现在最大的瓶颈是数据传输，”Rambus 的 Woo 说。

“半导体行业在提高计算性能方面非常重要。

做得很好。

但是，如果你花大量时间等待数据或特定数据模式，效率仍然不会提高。

内存必须运行得更快。

所以如果你看看 DRAM和非易失性存储器，它们的性能实际上取决于数据传输模式，如果您可以将数据串在一起，那么您可以在内存中获得非常高的效率，但是如果您的数据是随机分布在空间中的，那么效率就会降低。

无论您如何做到这一点，随着数据量的增加，您都必须确保能够更快地完成所有这些数据传输“更多计算，更少移动”让问题更加复杂的是，边缘设备以不同的频率和方式产生许多不同类型的数据。

为了使数据在各个处理单元之间顺利移动，它必须比过去更有效地管理。

Arteris IP 董事长兼首席执行官 Charlie Janac 表示：“有四种主要配置 - 多对多、内存子系统、低功耗 IO 以及网状和环形拓扑。

” “你可以将所有四个元素放在一个芯片中，这就是当今决策物联网芯片所做的事情。

或者你可以添加具有高吞吐量能力的 HBM 子系统。

但由于其中一些工作负载是面向特定行业需求的，并且每个芯片需要面对多个工作负载，有多个引脚，所以你看一下这些物联网芯片，它们收集了大量的数据，而且有些工作负载是非常具体的，每个芯片都有多个工作负载。

如果你看一下一些物联网芯片，它们会收集大量数据，对于汽车中的雷达和激光雷达来说尤其如此，如果没有某种先进的互连技术，这是没有意义的。

数据移动并在需要时最大限度地提高数据传输速度，并以某种方式在本地处理和集中处理之间取得平衡，而无需使用太多电量。

“其中之一是带宽问题，”NetSpeed Systems 产品营销经理 Rajesh Ramanujam 说。

“如果可能的话，你想尽量不移动数据，这样你可以把数据放在离处理器更近的地方。

但如果你必须移动数据，你想尽可能地压缩数据。

然而，现实是在某些情况下，您必须在系统级别上考虑这种可能性，以确定您是以传统的读写方式使用内存还是利用新的内存技术。

，如果你想要更快的性能，这通常意味着更大的芯片尺寸，这会影响功耗。

”这就是人们投入这么多的原因。

重点是增强边缘处理能力并增加各个处理单元之间的传输吞吐量。

现在，随着架构的发展和改进，处理的实现方式和位置发生了很大变化。

例如，Marvell推出了内置AI功能的SSD控制器，可以处理边缘节点上更大的计算负载。

AI引擎可用于固态存储本身的分析。

Marvell 首席工程师 Ned Varnica 表示：“您可以将模型直接加载到硬件中，并在 SSD 控制器上进行硬件处理。

” “今天，这就是云主机所做的事情。

但是，如果每个 SSD 都必须将数据发送到云端，那将产生大量的网络流量。

最好在边缘本地处理，主机只需在其中发出命令这样，您拥有的存储空间越多，通过减少网络流量获得的处理能力就越强。

“这种方法特别值得注意的一点是，它强调基于应用程序类型的数据移动的灵活性。

主机可以生成任务，将其发送到存储设备进行处理，然后只需要返回元数据或计算在另一种情况下，存储设备可以存储数据，预处理数据并生成元数据、标签和索引，然后在主机需要执行进一步分析时将其读回。

这只是其中一种选择。

三星的 Rupley 强调了乱序处理和融合习惯，可以解码两条指令并将它们融合在一个操作中，最重要的是人工智能，这在芯片领域是新的。

操作系统和中间件如何管理功能并不重要，重要的是在系统级别监督芯片上和芯片之间的行为。

在某些情况下，人工智能可以体现为芯片内的神经网络。

表示，“AI的作用不在于将更多的东西打包在一起，足以改变传统的处理方式。

借助人工智能和机器学习，您可以在系统周围部署人工智能，以实现更高效和更具预测性的处理。

有时它可以是在系统内独立运行的单独芯片。

“Arm 正在开发首款机器学习芯片，计划于今年晚些时候推出，瞄准多个细分市场和垂直市场。

”Arm 杰出工程师 Ian Bratt 表示，“这是一种新型处理器。

”具有计算引擎、MAC引擎和DMA引擎以及控制单元和广播网络的基本块。

该芯片共有16个计算引擎，采用7nm制造工艺，在1GHz主频下可实现4 teraOps计算能力。

“由于Arm生态系统对多个合作伙伴开放，因此该芯片比其他AI/ML芯片更通用、更可配置。

它并没有构建包罗万象的单片架构，而是根据功能划分不同的处理单元，因此每个计算Bratt表示，AI芯片的四个关键要素是静态调度、高效卷积、带宽缩减机制和可编程性，接下来Nvidia会选择构建专用的深度学习引擎。

GPU 优化图像和视频处理的数据传输结论芯片制造商表示，他们可以每隔几年将性能提高一倍，以跟上这些方法不仅是为了提供更多的计算机，而且还改变了芯片设计和系统工程的考虑起点。

数据的持续增长而不是硬件和软件的限制。

Synopsys 董事长兼联席首席执行官 Aart de Geus 表示：“当第一代计算机开始进入公司时，很多人都认为世界的发展速度将会快得多。

” “在计算机出现之前，他们使用的是一堆纸质账簿。

从那时起，处理各种企业事务的速度呈指数级变化，现在这种变化再次降临到我们身上。

这种快速的变化就像突然能够打印出账簿一样就像在农业中，你只需要在某一天气温升高时灌溉合适的水和某种肥料，就可以等待丰收，机器学习也是这种不明显的优化。

前。

”西门子子公司 Mentor 总裁兼首席执行官 Wally Rhines 也认同这一观点：“新架构将被人们采用，人们将在新架构下设计芯片，以在许多甚至大多数场景中执行机器学习，就像你的大脑一样。