零一创投完成1亿美元基金首关,继续关注供应链技术早期投资
06-17
*转载文章不代表本站观点。
本文来自微信公众号“机器心”(几乎人类)作者:机器心编辑:泽南我们还没有看到可以与ChatGPT抗衡的大型AI模型,但基于计算能力,领先者可能不是微软和OpenAI。
周二,谷歌公布了其用于训练大型语言模型的超级计算机的详细信息。
基于 TPU 的超级计算系统已经比 Nvidia 的同类产品更快、更节能。
谷歌的张量处理单元(TPU)是该公司为机器学习定制的专用芯片(ASIC)。
第一代于 2007 年发布,成为 AlphaGo 背后的算力。
与GPU相比,TPU采用低精度计算,在不影响深度学习处理效果的情况下,大大降低了功耗,加快了计算速度。
同时,TPU采用脉动阵列等设计来优化矩阵乘法和卷积运算。
目前,谷歌90%以上的人工智能训练工作都使用这些芯片,TPU支持谷歌包括搜索在内的主要业务。
作为图灵奖获得者、计算机架构领域的巨头,大卫·帕特森(David Patterson)2016年从加州大学伯克利分校退休后以杰出工程师的身份加入谷歌大脑团队,为几代TPU的研发做出了杰出贡献。
如今TPU已经发展到第四代,谷歌周二发表的Norman Jouppi、大卫帕特森等人的论文详细介绍了自研光通信设备如何将多个芯片并行成一台超级计算机,以提高整体效率。
论文链接:v4的性能比TPU v3高2.1倍,性能功耗比高2.7倍。
基于 TPU v4 的超级计算机有 2 个芯片,整体速度提高了约 10 倍。
对于类似大小的系统,Google 的速度比 Graphcore IPU Bow 快 4.3-4.5 倍,比 Nvidia A 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。
除了芯片本身的计算能力外,芯片之间的互连也成为构建AI超级计算机的公司竞争的关键点。
近年来,Google的Bard、OpenAI的ChatGPT等大型语言模型(LLM)的规模呈爆发式增长。
计算能力已成为明显的瓶颈。
由于大型模型通常具有数千亿个参数,因此它们必须在数千个芯片之间共享,并进行数周或更长时间的训练。
谷歌的 PaLM 模型(迄今为止最大的公开披露的语言模型)的训练被分配到两台配备 TPU 芯片的超级计算机上,耗时 50 天。
谷歌表示,通过光路开关(OCS),其超级计算机可以轻松动态地重新配置芯片之间的连接,有助于避免出现问题并实时调整以提高性能。
下图展示了TPU v4 4×3模式下6个“面”的链接。
每个面有 16 个链路,每个块到 OCS 的光纤链路总数为 96 个。
要为 3D 环面提供环绕链接,相对侧的链接必须连接到同一 OCS。
因此,每个 4×3 块 TPU 连接到 6×16 ÷ 2 = 48 个 OCS。
Palomar OCS 是 TPU v4 芯片。
根据这种安排,TPU v4(中间的 ASIC 加 4 个 HBM 堆栈)和带有 4 个液冷封装的印刷电路板(PCB)。
该板的前面板有 4 个顶部 PCIe 连接器和 16 个底部 OSFP 连接器,用于托盘间 ICI 链接。
随后,八个64芯片架构组成了芯片超级计算机。
与超级计算机一样,工作负载由不同大小的计算能力承载,称为切片:64 个芯片、芯片、芯片等。
下图显示了当主机可用性范围从 99.0% 到 99.9% 时,切片大小的“有效输出”没有 OCS。
如果没有OCS,主机可用性必须达到99.9%才能提供合理的切片吞吐量。
对于大多数切片大小,OCS 也具有 99.0% 和 99.5% 的良好输出。
与 Infiniband 相比,OCS 更便宜、功耗更低、速度更快,系统成本不到 5%,系统功耗不到 3%。
每个 TPU v4 都包含 SparseCores 数据流处理器,可将依赖于嵌入的模型加速 5 到 7 倍,同时仅使用 5% 的芯片面积和功耗。
谷歌研究员 Norm Jouppi 和谷歌杰出工程师大卫·帕特森 (大卫 帕特森) 在一篇有关该系统的博客文章中写道:“这种切换机制可以轻松绕过有故障的组件。
” “这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。
在新论文中,谷歌重点介绍了稀疏核心(SparseCore,SC)的设计。
在大型模型的训练阶段,嵌入可以在TensorCore或超级计算机的主机CPU上进行处理。
TensorCore 具有广泛的 VPU 和矩阵单元,并针对密集型操作进行了优化。
由于较小的聚集/分散内存访问和可变长度的数据交换,将嵌入放置在 TensorCore 上实际上并不是最佳选择。
将嵌入放置在超级计算机的主机 CPU 上会在 CPU DRAM 接口处引发阿姆达尔定律瓶颈,该瓶颈会因 4:1 TPU v4 与 CPU 主机比率而放大。
数据中心网络的尾部延迟和带宽限制将进一步限制训练系统。
对此,谷歌认为可以利用TPU超级计算机的总HBM容量来优化性能,加入专用的ICI网络,并提供快速收集/分散内存访问支持。
这导致了 SparseCore 的协同设计。
SC 是一种用于嵌入训练的特定领域架构,始于 TPU v2,后来在 TPU v3 和 TPU v4 中得到改进。
SC的性价比比较高,大约只有5%的芯片面积和5%的功耗。
SC 结合了超级计算机规模的 HBM 和 ICI,创建了一个平坦的、全局可寻址的内存空间(TPU v4 中的 TiB)。
与密集训练中大参数张量的完全减少相比,较小嵌入向量的完全传输使用具有更细粒度的分散/聚集访问模式的 HBM 和 ICI。
作为一个独立的核心,SC 允许跨密集计算、SC 和 ICI 通信进行并行化。
下图显示了 SC 框图,Google 将其视为“数据流”架构,因为数据从内存流向各种直接连接的专用计算单元。
最通用的SC单元是16个计算块(深蓝色框)。

每个区块都有一个关联的 HBM 通道,并支持多个未完成的内存访问。
每个块都有一个获取单元、一个可编程 8 宽 SIMD 矢量处理单元和一个刷新单元。
采集单元将 HBM?? 中的激活和参数读取到 2.5 MiB 稀疏向量存储器 (Spmem) 的切片中。
scVPU 使用与 TC 的 VPU 相同的 ALU。
刷新单元在向后传递期间将更新的参数写入 HBM。
此外,正如其名称所解释的,五个跨通道单元(金盒)执行特定的嵌入操作。
与 TPU v1 一样,这些单元执行类似 CISC 的指令并在可变长度输入上运行,其中每条指令的运行时间取决于数据。
在特定芯片数量下,TPU v3/v4平分带宽比提高2-4倍,嵌入速度可提高1.1-2.0倍。
下图展示了Google自家推荐模型(DLRM0)在不同芯片上的效率。
TPU v3 比 CPU 快 9.8 倍。
TPU v4 比 TPU v3 好 3.1 倍,比 CPU 好 30.1 倍。
Google 探索了 TPU v4 超级计算在 GPT-3 大语言模型上使用时的性能,展示了预训练阶段专家设计的 1.2 倍改进。
虽然谷歌现在才公布其超级计算机的详细信息,但基于 TPU 的人工智能超级计算机自 以来一直在其位于俄克拉荷马州的数据中心工作。
谷歌表示,Midjourney一直在使用该系统来训练其模型,而后者最近已成为AI绘图领域最受欢迎的平台。
谷歌在论文中表示,对于相同尺寸的系统,其芯片比基于英伟达 A 芯片的系统速度快 1.7 倍,能效高 1.9 倍,该芯片与第四代 TPU 同时推出,并在用于 GPT-4 训练。
英伟达发言人拒绝置评。
NVIDIA目前的AI芯片已经进入Hopper架构时代。
谷歌表示,没有将第四代TPU与英伟达目前的旗舰H芯片进行比较,因为H是在谷歌芯片之后推出的,并且采用了更先进的工艺。
但谷歌再次暗示了下一代 TPU 的计划,但没有提供更多细节。
Jouppi 告诉路透社,谷歌拥有开发未来芯片的“健康渠道”。
与当代 DSA 芯片相比,TPU v4 速度更快,功耗更低,如果考虑到互连技术,功耗裕度可能会更大。
通过使用具有 3D 环面拓扑的 3K TPU v4 切片,与 TPU v3 相比,谷歌的超级计算机还可以显着减少 LLM 训练时间。
性能、可扩展性和可用性使 TPU v4 超级计算机成为 LaMDA、MUM 和 PaLM 等大型语言模型 (LLM) 的主力。
这些功能使 1 亿参数的 PaLM 模型在 TPU v4 超级计算机上训练时能够在 50 天内保持 57.8% 的峰值硬件浮点性能。
谷歌表示,已经部署了数十台TPU v4超级计算机,供内部使用,并通过谷歌云供外部使用。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-17
06-18
06-17
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持