首页 > 技术迭代 > 内容

超越英伟达！字节跳动MegaScale如何实现大规模GPU的高效利用？

发布于：2024-06-28 编辑：匿名来源：网络

今年2月底，字节跳动发布了一篇名为《MegaScale: Scaling Large Language Model Training to More Than 10,GPUs》的论文。

标题中的MegaScale指的是大型语言模型的生产框架，类似于NVIDIA的开源框架Megatron-LM。

NVIDIA的框架主要通过三点来提高大规模GPU的效率：数据并行、张量并行、管道并行。

我们曾经从Silicon Star的文章《Gemini背后，谷歌真正可怕之处并不在模型本身……》了解到Google提出了一个叫做MFU的概念，它代表Model FLOPs Utilization。

数字越大，训练速度越快。

在处理1亿参数规模的语言模型时，MegaScale在8个GPU上实现了55.2%的MFU，比Megatron-LM高出约1.34倍。

为了保证训练过程的高效和稳定，团队特别注重深度可观测性，开发了一系列诊断工具来监控系统组件的深层事件，找出问题的根源，从而实现容错和修复。

减轻滞后节点的影响。

当选择一个事件时，将显示其依赖关系。

接下来我们仔细拆解一下，说说MegaScale和这个“诊断工具”的主要实现方法。

MegaScale 采用了一种称为“3D 并行性”的设计。

正如我们刚才所说，Megatron-LM使用了三种并行方法，而MegaScale则结合了这三种并行方法。

用一句话概括这样做的好处：减少GPU之间的通信消耗，从而提高并行计算能力。

在数据并行性方面，MegaScale将模型参数分配给数据并行级别内的worker，每个worker持有模型参数的副本。

在前向传播阶段，通过全收集操作收集其他工作人员的最新模型参数。

在反向传播阶段，使用reduce-scatter操作来聚合每个worker计算的梯度。

MegaScale 借鉴了 PyTorch FSDP，提前预取初始全收集操作，并允许其与数据加载操作重叠。

这样做的最大好处是减少每次迭代中的通信时间。

在张量并行和序列并行中结合并行变压器块实现重叠通信。

所谓的all-gather和reduce-scatter其实是分布式计算和深度学习中常用的通信原语，主要用在并行环境中。

实现数据聚合和分发。

在深度学习训练中，all-gather常用于数据并行场景。

当模型在多个GPU或节点上并行计算时，每个GPU计算完自己的梯度或更新模型参数后，需要通过所有 -gather 操作将所有节点上的梯度或参数聚合到每个节点上，以用于后续的全局梯度平均或参数同步。

减少分散用于梯度聚合。

每个节点完成局部梯度计算后，通过reduce-scatter操作汇总所有节点的梯度，然后将汇总的全局梯度均匀分布到所有节点，使得每个节点都可以用相同的全局梯度进行更新。

自己的模型参数。

你可能还是有点晕，不过不用担心，等我整理完这三种并行计算后，我会用一个故事来解释一下。

在张量并行中，MegaScale 实现了基于模型块的通信重叠。

单个设备可以承载多个模型片段，对每个片段独立地执行前向和反向传播，并在此基础上调度通信操作。

all-gather操作在模型片段的前向传递之前触发，而reduce-scatter操作在其后向传递之后开始。

对于第一个全收集和最后一个减少分散操作无法隐藏的情况，MegaScale 使用优化方法来尽可能减少这种开销。

在流水线并行性方面，MegaScale采用了交错的1F1B调度方式。

在预热阶段，前向传播仅依赖于之前的接收操作，因此可以解耦发送和接收，打破原本可能存在的阻塞关系。

这样就可以在等待计算的同时执行发送操作，实现计算和通信的重叠。

冷却阶段是热身阶段的逆过程，并且可以应用类似的技术。

1F1B 接下来我简单解释一下。

想象一下，老师惩罚你抄课文，但一个人抄太慢了，所以你把书分成很多页，让每个同学抄一部分。

这是数据并行的基本概念。