天风天瑞两只基金已完成募资设立,总规模达2.5亿元,
06-18
雷锋网消息。
昨天,Facebook在其官方代码网站code.fb.com上宣布,发布了其下一代用于AI训练的硬件平台Zion。
、Kings Canyon(用于人工智能推理的新型定制芯片设计)和 Mount Shasta 用于视频转码。
据消息人士透露,Facebook 的基础设施每月通过其整个应用程序和服务系统为超过 27 亿人提供服务。
工程师设计并创建了高效的系统来扩展该基础设施,但随着工作负载的增长,仅通用处理器已无法满足这些系统的需求。
为基础设施创建高效的解决方案需要通过协同设计创建工作负载优化的硬件。
为此,Facebook一直与合作伙伴合作开发AI推理、AI训练、视频转码等解决方案。
晶体管增长速度已显着放缓,需要开发专用加速器和整体系统级解决方案来提高性能、功耗和效率。
人工智能硬件人工智能工作负载在 Facebook 的整个基础设施中使用,使其服务更具相关性,并改善了用户在服务时的体验。
帮助人们进行日常互动,并为他们提供独特的个性化服务。
通过大规模部署人工智能模型,Facebook 每天可以提供数万亿个预测和超过 60 亿个语言翻译。
Facebook 使用超过 35 亿张公共图像来构建和训练其 AI 模型,使它们能够更好地识别和标记内容。
Facebook 的大多数人工智能流程都是通过 FBLeaner 平台进行管理,该平台包含处理问题各个部分的工具,例如特征存储、训练工作流程管理和推理引擎。
通过与开放计算项目(OCP)发布的Facebook设计的硬件配合使用,它可以高效地大规模部署模型。
从稳定的基础开始,Facebook 专注于创建与供应商无关的统一硬件设计,并继续坚持分解设计原则以最大限度地提高生产力,最终推出用于工作负载训练和推理的下一代硬件。
AI训练系统ZionZion是Facebook下一代大存储统一训练平台。
它旨在高效处理一系列神经网络,包括 CNN、LSTM 和 SparseNN。
Zion平台为关键工作负载提供大容量、高带宽的存储、灵活高速的互连以及强大的计算能力。
Zion采用Facebook全新的OAM模块(OCP加速器模块),AMD、Haban、GraphCore和NVIDIA等Facebook合作伙伴可以基于OCP通用规范开发自己的解决方案。
Zion 的架构支持使用架顶交换机从每个单独的平台扩展到单个机架中的多个服务器。
随着 Facebook 人工智能训练的规模和复杂性不断增长,Zion 平台可以随之扩展。
Zion系统分为三个部分: 8路服务器 8加速器平台 OCP加速器模块 Zion解耦系统的内存、计算和网络密集型组件,允许每个组件独立扩展。
该系统为嵌入式SparseNN表等内存密集型组件提供8x NUMA CPU接口和大容量DDR内存池。
对于内存带宽密集型和计算密集型工作负载(例如 CNN 或 SparseNN 的密集部分),每个 CPU 接口都连接到 OCP 加速模块。
Zion系统有两个高速结构:一个连接所有CPU的相干结构和一个连接所有加速器的结构。
鉴于加速器存储带宽较高但存储容量较低,Facebook希望通过对模型进行分区来有效利用可用的聚合内存容量,使访问频率较高的数据驻留在加速器上,而访问频率较低的数据驻留在带上。
CPU DDR内存。
所有 CPU 和加速器之间的计算和通信通过高速和低速连接实现平衡和高效执行。
通过 Kings Canyon 进行推理 模型训练完成后,需要部署到生产环境中,处理 AI 流程的数据并响应用户请求。
这称为推理。
推理工作负载急剧增加,反映出训练工作的大量增加,而当前使用的标准 CPU 服务器不再能够很好地扩展以满足需求。
Facebook 正在与世界语、英特尔、Marvell 和高通等多个合作伙伴合作开发可在基础设施上部署和扩展的推理 ASIC 芯片。
这些芯片将为工作负载提供 INT8 半精度运算以实现理想的性能,同时还支持 FP16 单精度运算以实现更高的精度。
整个推理服务器解决方案分为四个不同的部分,这些部分利用了已发布到 OCP 的现有构建块。
利用现有组件加速开发并通过通用性降低风险。
该设计的四个主要组成部分是: Kings Canyon 推理 M.2 模块 Twin Lakes 单路服务器 Glacier Point v2 承载卡 Yosemite v2 机架 在系统层面,每台服务器都由一个 M.2 Kings Canyon 加速器和一个 M.2 Kings Canyon 加速器组成。
Glacier Point v2 承载卡连接到 Twin Lakes 服务器。
将两组组件安装到较新的 Yosemite v2 机架中,并通过多主机 NIC 连接到架顶交换机。
更新后的 Yosemite sled 是当前 Yosemite v2 sled 的迭代升级,它将 Twin Lakes 主机的附加 PCI-E 通道连接到 NIC,以获得更高的网络带宽。
每个 Kings Canyon 模块都包含 ASIC、相关内存和其他支持组件,CPU 主机通过 PCI-E 通道与加速器模块进行通信。
Glacier Point v2 包括一个集成 PCI-E 交换机,允许服务器同时访问所有模块。
深度学习模型是存储密集型工作负载。
例如,SparseNN模型有一个非常大的嵌入表示表,它占用了数GB的存储空间,并且可能会继续增长。
如此大的模型可能无法装入单个设备的内存中,无论是 CPU 还是加速器,都需要跨多个设备内存进行模型分区。
当数据在另一个设备的内存中时,分割会产生大量的通信成本,好的分割算法会应用捕获部分的概念,从而降低通信成本。
经过适当的模型分割后,可以运行 SparseNN 模型等大规模深度学习模型。
如果单个节点的内存容量不足以支持给定的模型,则可以将模型进一步在两个节点之间拆分,从而增加模型可用的内存量。
两个节点可以通过多主机网卡连接,支持高速信息处理。
这将增加总体通信成本,并且可以通过利用跨多个嵌入表的访问差异的性质并对表进行相应的排序来减少通信延迟。
神经网络硬件加速器编译器 ASIC 不运行通用代码,它们需要专门的编译器将图形转换为可以在这些加速器上执行的指令。
Glow 编译器的目标是从更高级别的软件堆栈中抽象出特定于供应商的硬件,从而使基础设施与供应商无关。
它接受来自 PyTorch 1.0 等框架的计算图,并为这些机器学习加速器生成高度优化的代码。
使用 Mount Shasta 进行视频转码 自 2018 年以来,Facebook 直播的平均数量每年都翻倍。
自今年 8 月在全球推出以来,Facebook Watch 的月观看次数已超过 4 亿次,每天有数万人使用。
为了优化所有这些视频以适应各种网络环境,Facebook 将输出质量划分为多种不同的分辨率和比特率,这一过程称为视频转码。
完成转码所需的计算量非常大,通用处理器的效率已经无法满足日益增长的视频需求。
为了领先于需求,Facebook 与 Broadcom 和 VeriSilicon 合作设计了针对转码工作负载进行优化的定制 ASIC。

视频转码过程分为许多不同的步骤,为了提高效率,Facebook 及其供应商为转码过程的每个阶段创建了定制 ASIC 模块。
针对这些工作负载的专用硬件可以提高流程效率,并启用实时 4K 60fps 流媒体等新功能。
各个视频编解码器都是标准化的,不会经常修改,因此定制芯片缺乏灵活性在这种情况下并不是一个重大缺点。
视频转码的第一阶段称为解码,在此期间对上传的文件进行解压缩以获得由一系列图像表示的原始视频数据。
然后对这些未压缩的图像进行操作以更改其分辨率,使用优化设置再次编码,重新压缩为视频流,并将输出视频与原始视频进行比较以计算质量指标。
对所有视频都执行此操作,以确保所使用的编码设置产生高质量的视频输出。
用于视频编码和解码的标准称为视频编码方法。
H.、VP9、AV1都是目前使用的主流编码协议。
在 ASIC 上,步骤是相同的??,只是每个软件算法被芯片内的专用模块替换。
Facebook希望视频加速器能够支持多种分辨率和多种编码格式,并实现比当前服务器更高的性能。
效率的许多倍,目标是在 10W 功耗内处理至少两个 4K 60fps 并行输入流。
视频转码 ASIC 通常具有以下主要逻辑块: 解码器:接收上传的视频,输出解压后的原始视频流 缩放器(Scaler):改变视频分辨率 编码器:输出压缩(编码) 视频质量检测:计算编码后视频质量 PHY:芯片与外界的接口,连接到服务器的 PCI-E 和内存通道 控制器:运行固件并协调转码过程的公共块 与推理一样,Facebook 利用数据中心现有的 OCP 构建块在其中部署这些视频转码 ASIC。
该加速器将安装在带有集成散热器的 M.2 模块上。
这种常见的电气外形尺寸可以在不同的硬件平台上使用。
该模块安装在 Glacier Point v2 (GPv2) 载卡上,该载卡具有与 Twin Lakes 服务器相同的物理外形,可以容纳多个 M.2 模块,并且可以装入 Yosemite v2 机架并与 Twin Lakes 服务器集成Lakes 服务器服务器配对。
由于视频转码 ASIC 需要低功耗和小尺寸,Facebook 希望通过将尽可能多的芯片连接到单个服务器来节省成本。
高密度 GPv2 实现了这一目标,同时还提供足够的冷却能力来承受数据中心的运行温度。
完成软件集成工作后,Facebook 可以平衡不同数据中心位置的异构硬件之间的视频转码工作负载。
为了在与各种机器学习和视频空间供应商合作的同时进行扩展,他们还努力确保软件以开放格式开发,并推广和采用通用接口和框架。
Facebook在文章中表示,公司将迎来令人兴奋的未来,希望能够收购Zion、Kings Canyon和Mount Shasta,分别解决AI训练、AI推理和视频转码方面日益增长的工作量。
Facebook将通过OCP公开所有设计和规范,欢迎其他公司加入以加快基础设施建设进程,并继续致力于通过硬件和软件协同设计来改进这些系统。
雷锋网 雷锋网原文链接:用应用专用硬件加速Facebook的基础设施 雷锋网版权文章,未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态