首页 > 技术迭代 > 内容

谷歌TPU超级计算,大模型性能超越英伟达,数十台已部署:图灵奖得主新作

发布于:2024-06-28 编辑:匿名 来源:网络

*转载文章不代表本站观点。

本文来自微信公众号“机器心”(几乎人类)作者:机器心编辑:泽南我们还没有看到可以与ChatGPT抗衡的大型AI模型,但基于计算能力,领先者可能不是微软和OpenAI。

周二,谷歌公布了其用于训练大型语言模型的超级计算机的详细信息。

基于 TPU 的超级计算系统已经比 Nvidia 的同类产品更快、更节能。

谷歌的张量处理单元(TPU)是该公司为机器学习定制的专用芯片(ASIC)。

第一代于 2007 年发布,成为 AlphaGo 背后的算力。

与GPU相比,TPU采用低精度计算,在不影响深度学习处理效果的情况下,大大降低了功耗,加快了计算速度。

同时,TPU采用脉动阵列等设计来优化矩阵乘法和卷积运算。

目前,谷歌90%以上的人工智能训练工作都使用这些芯片,TPU支持谷歌包括搜索在内的主要业务。

作为图灵奖获得者、计算机架构领域的巨头,大卫·帕特森(David Patterson)2016年从加州大学伯克利分校退休后以杰出工程师的身份加入谷歌大脑团队,为几代TPU的研发做出了杰出贡献。

如今TPU已经发展到第四代,谷歌周二发表的Norman Jouppi、大卫帕特森等人的论文详细介绍了自研光通信设备如何将多个芯片并行成一台超级计算机,以提高整体效率。

论文链接:v4的性能比TPU v3高2.1倍,性能功耗比高2.7倍。

基于 TPU v4 的超级计算机有 2 个芯片,整体速度提高了约 10 倍。

对于类似大小的系统,Google 的速度比 Graphcore IPU Bow 快 4.3-4.5 倍,比 Nvidia A 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。

除了芯片本身的计算能力外,芯片之间的互连也成为构建AI超级计算机的公司竞争的关键点。

近年来,Google的Bard、OpenAI的ChatGPT等大型语言模型(LLM)的规模呈爆发式增长。

计算能力已成为明显的瓶颈。

由于大型模型通常具有数千亿个参数,因此它们必须在数千个芯片之间共享,并进行数周或更长时间的训练。

谷歌的 PaLM 模型(迄今为止最大的公开披露的语言模型)的训练被分配到两台配备 TPU 芯片的超级计算机上,耗时 50 天。

谷歌表示,通过光路开关(OCS),其超级计算机可以轻松动态地重新配置芯片之间的连接,有助于避免出现问题并实时调整以提高性能。

下图展示了TPU v4 4×3模式下6个“面”的链接。

每个面有 16 个链路,每个块到 OCS 的光纤链路总数为 96 个。

要为 3D 环面提供环绕链接,相对侧的链接必须连接到同一 OCS。

因此,每个 4×3 块 TPU 连接到 6×16 ÷ 2 = 48 个 OCS。

Palomar OCS 是 TPU v4 芯片。

根据这种安排,TPU v4(中间的 ASIC 加 4 个 HBM 堆栈)和带有 4 个液冷封装的印刷电路板(PCB)。

该板的前面板有 4 个顶部 PCIe 连接器和 16 个底部 OSFP 连接器,用于托盘间 ICI 链接。

随后,八个64芯片架构组成了芯片超级计算机。

与超级计算机一样,工作负载由不同大小的计算能力承载,称为切片:64 个芯片、芯片、芯片等。

下图显示了当主机可用性范围从 99.0% 到 99.9% 时,切片大小的“有效输出”没有 OCS。

如果没有OCS,主机可用性必须达到99.9%才能提供合理的切片吞吐量。

对于大多数切片大小,OCS 也具有 99.0% 和 99.5% 的良好输出。

与 Infiniband 相比,OCS 更便宜、功耗更低、速度更快,系统成本不到 5%,系统功耗不到 3%。

每个 TPU v4 都包含 SparseCores 数据流处理器,可将依赖于嵌入的模型加速 5 到 7 倍,同时仅使用 5% 的芯片面积和功耗。

谷歌研究员 Norm Jouppi 和谷歌杰出工程师大卫·帕特森 (大卫 帕特森) 在一篇有关该系统的博客文章中写道:“这种切换机制可以轻松绕过有故障的组件。

” “这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。

在新论文中,谷歌重点介绍了稀疏核心(SparseCore,SC)的设计。

在大型模型的训练阶段,嵌入可以在TensorCore或超级计算机的主机CPU上进行处理。

TensorCore 具有广泛的 VPU 和矩阵单元,并针对密集型操作进行了优化。

由于较小的聚集/分散内存访问和可变长度的数据交换,将嵌入放置在 TensorCore 上实际上并不是最佳选择。

将嵌入放置在超级计算机的主机 CPU 上会在 CPU DRAM 接口处引发阿姆达尔定律瓶颈,该瓶颈会因 4:1 TPU v4 与 CPU 主机比率而放大。

数据中心网络的尾部延迟和带宽限制将进一步限制训练系统。

对此,谷歌认为可以利用TPU超级计算机的总HBM容量来优化性能,加入专用的ICI网络,并提供快速收集/分散内存访问支持。

这导致了 SparseCore 的协同设计。

SC 是一种用于嵌入训练的特定领域架构,始于 TPU v2,后来在 TPU v3 和 TPU v4 中得到改进。

SC的性价比比较高,大约只有5%的芯片面积和5%的功耗。

SC 结合了超级计算机规模的 HBM 和 ICI,创建了一个平坦的、全局可寻址的内存空间(TPU v4 中的 TiB)。

与密集训练中大参数张量的完全减少相比,较小嵌入向量的完全传输使用具有更细粒度的分散/聚集访问模式的 HBM 和 ICI。

作为一个独立的核心,SC 允许跨密集计算、SC 和 ICI 通信进行并行化。

下图显示了 SC 框图,Google 将其视为“数据流”架构,因为数据从内存流向各种直接连接的专用计算单元。

最通用的SC单元是16个计算块(深蓝色框)。

谷歌TPU超级计算,大模型性能超越英伟达,数十台已部署:图灵奖得主新作

每个区块都有一个关联的 HBM 通道,并支持多个未完成的内存访问。

每个块都有一个获取单元、一个可编程 8 宽 SIMD 矢量处理单元和一个刷新单元。

采集单元将 HBM?? 中的激活和参数读取到 2.5 MiB 稀疏向量存储器 (Spmem) 的切片中。

scVPU 使用与 TC 的 VPU 相同的 ALU。

刷新单元在向后传递期间将更新的参数写入 HBM。

此外,正如其名称所解释的,五个跨通道单元(金盒)执行特定的嵌入操作。

与 TPU v1 一样,这些单元执行类似 CISC 的指令并在可变长度输入上运行,其中每条指令的运行时间取决于数据。

在特定芯片数量下,TPU v3/v4平分带宽比提高2-4倍,嵌入速度可提高1.1-2.0倍。

下图展示了Google自家推荐模型(DLRM0)在不同芯片上的效率。

TPU v3 比 CPU 快 9.8 倍。

TPU v4 比 TPU v3 好 3.1 倍,比 CPU 好 30.1 倍。

Google 探索了 TPU v4 超级计算在 GPT-3 大语言模型上使用时的性能,展示了预训练阶段专家设计的 1.2 倍改进。

虽然谷歌现在才公布其超级计算机的详细信息,但基于 TPU 的人工智能超级计算机自 以来一直在其位于俄克拉荷马州的数据中心工作。

谷歌表示,Midjourney一直在使用该系统来训练其模型,而后者最近已成为AI绘图领域最受欢迎的平台。

谷歌在论文中表示,对于相同尺寸的系统,其芯片比基于英伟达 A 芯片的系统速度快 1.7 倍,能效高 1.9 倍,该芯片与第四代 TPU 同时推出,并在用于 GPT-4 训练。

英伟达发言人拒绝置评。

NVIDIA目前的AI芯片已经进入Hopper架构时代。

谷歌表示,没有将第四代TPU与英伟达目前的旗舰H芯片进行比较,因为H是在谷歌芯片之后推出的,并且采用了更先进的工艺。

但谷歌再次暗示了下一代 TPU 的计划,但没有提供更多细节。

Jouppi 告诉路透社,谷歌拥有开发未来芯片的“健康渠道”。

与当代 DSA 芯片相比,TPU v4 速度更快,功耗更低,如果考虑到互连技术,功耗裕度可能会更大。

通过使用具有 3D 环面拓扑的 3K TPU v4 切片,与 TPU v3 相比,谷歌的超级计算机还可以显着减少 LLM 训练时间。

性能、可扩展性和可用性使 TPU v4 超级计算机成为 LaMDA、MUM 和 PaLM 等大型语言模型 (LLM) 的主力。

这些功能使 1 亿参数的 PaLM 模型在 TPU v4 超级计算机上训练时能够在 50 天内保持 57.8% 的峰值硬件浮点性能。

谷歌表示,已经部署了数十台TPU v4超级计算机,供内部使用,并通过谷歌云供外部使用。

谷歌TPU超级计算,大模型性能超越英伟达,数十台已部署:图灵奖得主新作

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 零一创投完成1亿美元基金首关,继续关注供应链技术早期投资

    零一创投完成1亿美元基金首关,继续关注供应链技术早期投资

    投资圈(ID:pedaily)据7月18日消息,零一创投完成新1亿美元基金首关基金。 众多机构投资者继续支持。 零一基金的主要投资者包括全球知名大学捐赠基金、全球知名家族办公室、亚洲顶级母基金等专业投资机构。 零一创投目前总共管理着五只基金。 过去很多基金的IRR都接近80%。

    06-17

  • 护肤品牌颜效笙获天使轮融资,寒武纪创投投资

    护肤品牌颜效笙获天使轮融资,寒武纪创投投资

    3月10日消息,据36氪报道,护肤品牌“颜效笙”获得寒武纪创投天使轮融资。 颜效笙孔达尔表示,本轮资金将用于核心产品研发、营销推广和渠道建设。 据了解,颜效笙是一家定位美容与功效结合的新锐护肤品牌,从消费者“看”、“买”、“用”、“回购”等综合环节优化护肤体验。

    06-18

  • 传东南亚打车平台 Grab 计划以 SPAC 形式赴美上市

    传东南亚打车平台 Grab 计划以 SPAC 形式赴美上市

    据报道,总部位于新加坡的东南亚打车平台 Grab 或将采用 SPAC 形式特殊目的收购公司(SPAC)作为在美国上市的选择。 此前有报道指出,Grab计划今年在美国进行IPO,预计融资至少20亿美元。 新闻人士表示,公司的计划,包括发行规模和时间,尚未最终确定,将取决于市场情况。

    06-17

  • VR & AR 很酷但又很火

    VR & AR 很酷但又很火

    VR(Virtual Reality,虚拟现实)和 AR(Augmented Reality,增强现实)经历了艰难的几年 - 尽管消费者对VR设备的兴趣和销量都在增长,专家却宣布VR“死”了;而价格高昂、实用性有限、数十家公司相互竞争的AR设备也陷入了小众市场,在很多人眼中如同昙花一现。 然而,刚刚结

    06-18

  • 涂鸦智能携手高瓴成立涂鸦物联网产业基金,规模4亿美元

    涂鸦智能携手高瓴成立涂鸦物联网产业基金,规模4亿美元

    投资界(ID:pedaily)4月27日消息。 近日,全球领先的物联网云平台涂鸦智能与亚洲最大的投资基金之一高瓴在深圳举行的全球硬技术开发者大会上宣布,将共同成立“涂鸦物联网产业基金”。 该基金规模4亿美元,旨在为全球优秀物联网项目提供金融和产业资源支持,加速物联网产业

    06-18

  • 在全行业价格战持续升温的情况下,极氪为何逆势推出一款极其豪华的4座MPV?

    在全行业价格战持续升温的情况下,极氪为何逆势推出一款极其豪华的4座MPV?

    今年一季度才过去,中国汽车市场的价格战愈演愈烈。 今年以来,比亚迪打响了价格战第一枪,宣布推出秦PLUS荣耀版和毁灭者05荣耀版两款插电混动车型,起售价为7.98万元。 与之前版本的冠军版车型相比,新版本配置更高,但价格却下降了2万元。 紧接着,上汽通用五菱、长安启源

    06-18

  • 傅里叶智能获C+轮融资,加速康复产业生态圈建设

    傅里叶智能获C+轮融资,加速康复产业生态圈建设

    据投资界3月8日消息,近日,中国智能康复产业企业傅里叶智能完成数千万元C+融资本轮融资,投资方为上海人工智能产业投资基金。 据了解,本轮融资将用于新产品研发,加快完善康复机器人核心产品矩阵,整合产业链上下游平台,推动康复生态圈建立。 傅里叶智能以“让每个人通过

    06-18

  • B站发布2023年Q1财报:毛利润同比增长37%,净亏损同比大幅收窄72%

    B站发布2023年Q1财报:毛利润同比增长37%,净亏损同比大幅收窄72%

    北京时间6月1日(美国东部时间6月1日),哔哩哔哩(纳斯达克股票代码:BILI,港交所:(以下简称“哔哩哔哩”)公布了截至2019年3月31日的第一季度未经审计财务报告。 财报显示,第一季度,哔哩哔哩总收入达到50.7亿元人民币,日均活跃用户达9万,同比增长18% 新的一年,B站将

    06-18

  • 格瑞特生物完成A+轮融资,高瓴创投

    格瑞特生物完成A+轮融资,高瓴创投

    投资界(ID:pedaily)7月16日消息,格瑞特生物(Grit Bio)宣布完成A+轮融资。 Grit Bio是一家创新型细胞治疗公司,致力于肿瘤浸润淋巴细胞(TIL)的研究、开发和应用。 本轮融资由GL Ventures领投,杏泽资本和君实生物跟投,现有股东德诚资本和经纬中国继续支持。 据了解,

    06-18

  • 一清创新获Pre-A轮融资 联想创投集团投资

    一清创新获Pre-A轮融资 联想创投集团投资

    据投资界2月8日消息,开发商深圳市一清创新科技有限公司(以下简称“一清创新”)自动驾驶导航技术公司获得Pre-A轮融资,由联想创投集团投资。 一清创新成立于今年6月。 一清创新是一家自动驾驶导航技术开发商,专注于自动驾驶领域。 其主要业务范围涉及机器人、无人系统、智

    06-17

  • 疫情之下业务翻倍,这家跨境医疗做对了什么

    疫情之下业务翻倍,这家跨境医疗做对了什么

    疫情期间生意翻倍。 这家跨境医疗公司做对了什么?疫情给远程医疗带来了新的发展机遇。 在很多人无法出国就医、线下诊疗渠道被彻底切断的困境下,MORE Health(爱心医疗送)的出现,解决了很多人的燃眉之急。 MORE Health是一家专业的跨境远程医疗服务机构,致力于推动医疗行

    06-18

  • 阿里巴巴VR实验室携手大朋VR愚人节“放大”

    阿里巴巴VR实验室携手大朋VR愚人节“放大”

    今天一早,阿里巴巴VR实验室于3月17日宣布成立,并终于发布了一期计划。 大朋VR成为第一家入驻的虚拟现实公司。 作为阿里巴巴VR实验室的重点宣传渠道,淘宝众筹、淘宝首页大力推动了大朋VR一体机的众筹。 截至目前,众筹金额已突破百万。 (大朋一体式VR一体机淘宝众筹页面)

    06-17