首页 > 科技未来 > 内容

谷歌自研芯片帝国

发布于：2024-06-18 编辑：匿名来源：网络

这两天，AI再次登上各大媒体头条。

12月6日，谷歌正式公布了全新多模态大型号Gemini，该车型包括三个版本。

根据谷歌的基准测试结果，Gemini Ultra版本在多项测试中都展现出了“先进的性能”。

”，甚至在大多数测试中完全击败了 OpenAI 的 GPT-4。

在Gemini大出风头的同时，谷歌还投下了另一重磅炸弹——全新自研芯片TPU v5p，这也是迄今为止最强大的TPU。

根据官方数据，每个TPU v5p Pod通过最高带宽的芯片间互连（ICI）将8个芯片以三维环形拓扑结构组合在一起，速度为4,Gbps/芯片，与TPU v4类似。

相比之下，TPU v5p的FLOPS和高带宽内存（HBM）分别提高了2倍和3倍。

此外，TPU v5p 训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍，而借助第二代 SparseCore，TPU v5p 训练嵌入密集模型的速度比 TPU v4 快 1.9 倍。

就每个 Pod 的总可用 FLOP 数而言，TPU v5p 的可扩展性也比 TPU v4 高出 4 倍，每秒浮点运算数 (FLOPS) 是 TPU v4 的两倍，单个 Pod 中的芯片数量是 TPU v4 的两倍，大大提高了训练的相对性能速度。

谷歌还招募了一批科学家来认可 TPU v5p 的 AI 性能：Salesforce 的高级研究科学家 Erik Nijkamp 表示：“我们一直在使用 Google Cloud TPU v5p 来预训练 Salesforce 的基础模型，并且这些模型将用作专业生产用例。

核心引擎方面，我们看到了训练速度的显着提升，事实上，Cloud TPU v5p 的计算能力是上一代 TPU v4 的两倍。

我们也非常喜欢使用 JAX 从 Cloud TPU v4 到 v5p 的无缝且轻松的过渡。

。

我们很高兴能够通过精确量化训练 (AQT) 库对 INT8 精确格式的本机支持来优化我们的模型，以进一步提高速度。

Lightricks 核心生成式人工智能研究团队负责人 Yoav HaCohen 博士表示：“利用 Google Cloud TPU v5p 的*性能和充足内存，我们成功训练了文本到视频生成模型，而无需将其拆分为这种前所未有的硬件利用率大大加快了每个训练周期，使我们能够快速启动一系列实验，在每个实验中快速训练模型的能力促进了快速迭代，这对于我们的研究团队在竞争激烈的领域来说是一个宝贵的优势。

” 生成式人工智能谷歌 DeepMind 和谷歌研究院首席科学家 Jeff Dean 也支持自己的芯片：“在早期使用中，谷歌 DeepMind 和谷歌研究院观察到，使用 TPU v5p 芯片的LLM训练工作量的速度比其他芯片高出 2 倍。

对 ML 框架（JAX、PyTorch、TensorFlow）和编排工具的强大支持使我们能够在 v5p 上更有效地进行扩展，我们还看到嵌入式工作负载的性能显着提高。

TPU 对于我们针对 Gemini 等尖端模型的最大规模研究和工程工作至关重要。

“对于 Google 来说，Gemini 是应对 Open AI 的有力工具，而 TPU v5p 则是敲门砖，用它筑起一道对抗 Nvidia GPU 的高墙。

无论是软件还是硬件，看起来它已经在 AI 领域了?问题是，谷歌为何拥有现在的优势？从默默无闻到闻名全球，谷歌的 TPU 之旅实际上是在十年前开始的。

2008年就考虑过建立神经网络，但到了2016年，情况变得紧迫，谷歌科学家开始意识到，神经网络快速增长的计算需求与谷歌负责人杰夫·迪恩(Jeff Dean)的数量之间存在着不可调和的矛盾。

当时的AI计算得出，如果1亿Android用户每天使用手机语音转文字服务3分钟，所消耗的算力将是Google所有数据中心总算力的两倍，而全球Android用户远远超过1亿。

数据中心的规模无法无限扩大，谷歌也无法限制用户使用服务的时间，但无论是CPU还是GPU都很难满足谷歌的需求：CPU一次只能处理相对较小的数据量。

对于任务来说，GPU在执行单个任务时效率较低，并且它可以处理的任务范围较小。

自研成了最后的出路。

谷歌设定了一个小目标：构建一个以机器学习为目的的领域特定计算架构（Domain-specific Architecture），并将深度神经网络推理的总拥有成本（TCO）降低到其十分之一。

原始值。

通常，ASIC的开发需要数年时间，但谷歌仅用了15个月就完成了TPU处理器的设计、验证、制造和部署到数据中心。

TPU 项目的技术负责人、MIPS 处理器的主要架构师之一 Norm Jouppi 这样描述冲刺阶段：“我们非常快地设计了芯片。

这真的很了不起。

我们在没有修复错误或更改掩模的情况下做到了这一点接下来，我们开始运送第一个芯片，同时还聘请了团队，然后聘请了 RTL（电路设计）人员，并急于聘请设计验证人员，这一切都非常忙碌。

” Crystallized 的第一代 TPU 采用 28 纳米工艺制造，运行频率为 MHz，运行期间功耗 40W。

Google将处理器封装成外置加速卡，安装在SATA硬盘插槽中，实现即插即用。

TPU通过PCIe Gen3 x16总线连接到主机，提供12.5GB/s的有效带宽。

与CPU和GPU相比，单线程TPU不具有任何复杂的微架构特征。

极简主义是特定领域处理器的优势。

谷歌的TPU一次只能运行一项任务：神经网络预测，但每瓦性能却达到了GPU的30倍，CPU的80倍。

谷歌在此事上非常低调。

直到2019年的谷歌I/O开发者大会上，CEO Sundar Pichai才正式向世人展示了自己在TPU方面的研究成果。

Pichai告诉与会嘉宾，DeepMind开发的AlphaGo能够击败韩国棋手李世石，底层硬件中的TPU功不可没。

TPU就像希腊神话中引发特洛伊战争的女人海伦一样。

它的出现引起了“大人……成千上万的芯片与之竞争”。

但谷歌并没有就此止步。

几乎在第一代TPU完成后，它立即投入下一代的开发：2018年，TPU v2问世； 2018年，TPU v3推出； 2016 年，TPU v4 在 Google I/O Developers 大会上揭晓……而 Google 对 AI 芯片也越来越驾轻就熟：第一代 TPU 仅支持 8 位整数运算，这意味着它可以进行推理，但训练遥不可及；而且TPU v2不仅引入了HBM内存，还支持浮点运算，从而支持机器模型的训练和推理； TPU v3在上一代的基础上重点增强性能，并将Pod中部署的芯片数量增加了四倍。

谈到TPU v4，皮查伊自豪地说：“AI技术的进步取决于计算基础设施的支持，而TPU是谷歌计算基础设施的重要组成部分。

新一代TPU v4芯片的速度是v3的两倍以上”。

谷歌使用TPU集群来构建Pod超级计算机。

单个 TPU v4 Pod 包含 v4 芯片。

每个Pod的芯片间互连带宽是其他互连技术的10倍。

因此，一个TPU v4 Pod的计算能力可以达到1 ExaFLOP。

，即每秒执行10的18次方浮点运算，相当于10000台笔记本电脑的总算力。

”如今，TPU已经成为AI芯片的代名词之一，成为继CPU和CPU之后的又一芯片。

GPU。

它是一个重要的处理器，部署在谷歌数十个数据中心，每天完成数亿次的AI计算任务。

谷歌自研帝国TPU只是谷歌自研的前奏。

在 2017 年的大会上，谷歌推出了一款名为 Titan 的定制安全芯片，该芯片专为硬件级云安全而设计，通过为特定硬件建立加密身份来实现更安全的识别和身份验证，防止日益猖獗的 BIOS 攻击。

对于谷歌本身来说，谷歌表示，自主研发的Titan芯片建立了强大的基于硬件的系统身份，这似乎让企业相信存储在谷歌云中的数据比企业本地数据中心更安全。

验证系统固件和软件组件并保护启动过程，这一切都得益于谷歌自己创建的硬件逻辑，从根本上降低了硬件后门的可能性。

基于 Titan 的生态系统还确保设施仅使用经过授权且可访问的验证代码，最终使 Google Cloud 比本地数据中心更加安全可靠。

泰坦的出现只是一个小小的考验。

今年3月，谷歌在ASPLOS大会上首次推出了用于YouTube服务器的自研芯片Argos VCU。

它的任务很简单，就是处理用户上传的视频。

转码。

据统计，用户每分钟向 YouTube 上传超过一个小时的各种格式的视频内容，而 Google 需要快速将这些内容转换为多种分辨率（包括 p, p, p, p, p, p, p , p 和p) 和各种格式（例如，H.、VP9 或 AV1）。

如果没有强大编码能力的芯片，就不可能快速转码。

谷歌尝试了两种解决方案。

第一个是英特尔的视觉计算加速器（VCA），它包含三个Xeon E3 CPU，内置Iris Pro P/PGT4e集成图形核心和先进的硬件编码器。

第二个使用英特尔至强处理器加上软件编码来完成工作。

但前者和后者都需要巨大的服务器规模和巨大的功耗。

因此，谷歌开始了另一款自研芯片——VCU的研发。

负责监督 YouTube 庞大基础设施的谷歌工程副总裁 Scott Silver 表示，从 2016 年开始，一个由约 10 万名谷歌工程师组成的团队致力于设计第一代 Argos 芯片。

在接下来的几年里，这个团队不仅完成了研发，还将该芯片应用在了谷歌的数据中心，Argos的实力也得到了展现——它的视频处理效率比传统的高出20到33倍。

服务器，处理高分辨率4K视频的时间缩短了几秒。

几天缩短为几个小时。

下一代Argos可能已经在谷歌服务器上悄然上线。

据介绍，谷歌自主研发的第二代VCU将支持AV1、H.和VP9编解码器，可以进一步提高其编码技术的效率，也将为YouTube的内容创作生态提供最有力的支持。

而谷歌最强的举动就是最复杂的手机SoC。

2019年10月19日，在一场秋季发布会上，搭载谷歌自研芯片Tensor的旗舰手机Pixel 6系列首次亮相。

谷歌高级副总裁 Rick Osterloh 在发布会上表示，这款芯片是“公司历史上最大的移动硬件创新”，谷歌首席执行官 Sundar Pichai 甚至早早在 Twitter 上发布了 Tensor 芯片的照片。

对这项研究项目的自豪感是显而易见的。

不过，这款自研芯片本质上是基于三星在2018年开启的半定制芯片设计服务。

在TechInsights的拆解图中，Tensor的封装尺寸为10.38mm x 10.43mm = .26mm 2，内部芯片标记为“S5P”符合传统的三星Exynos处理器命名规则。

例如，Exynos芯片标记为S5E，Exynos 5G SoC芯片标记为S5E。

它本质上是一款由谷歌定义、由三星设计和制造的芯片。

即便如此，谷歌自研芯片的布局已经初具规模。

从TPU到Titan，从VCU到Tensor，谷歌走过了十年历程，全面掌握这个硅芯片帝国的野心也很明确。

揭示。

谷歌的智能账户和绊脚石对于谷歌来说，需要资金、技术和应用场景。

可以说，在各大科技巨头中，它在自研AI芯片的道路上走得最远。

其他厂商仍在向英伟达账户注入资金，但谷歌已经做好了这两方面的准备。

很多人甚至将其视为英伟达目前垄断地位的最强挑战者。

与微软和亚马逊相比，谷歌最突出的优势是从系统级角度设计TPU。

单芯片固然重要，但在现实世界的系统中如何组合使用更重要。

尽管英伟达也从系统角度思考，但他们的系统比谷歌更小、范围更窄。

谷歌还在 TPU 之间使用自定义网络堆栈 ICI。

与昂贵的以太网和 InfiniBand 部署相比，该链接提供低延迟和高性能，类似于 Nvidia 的 NVLink。

事实上，谷歌的 TPUv2 可以扩展到 TPU 芯片，与 Nvidia 的 HGPU 数量相同。

在 TPU v3 和 TPU v4 中，该数字分别增加到和。

据 Trendline 称，最新的 TPU v5p 可以扩展到 2 个芯片，而无需通过低效的以太网。

此外，Google在OCS、拓扑、DLRM优化等方面也有独特的优势。

过去十年积累的经验和优势，帮助谷歌的TPU在数据中心和AI大模型方面大显身手。

在具体应用中，可以远程使用*来形容也不为过。

谷歌未来完全摆脱NVIDIA GPU的束缚也不是没有可能。

然而，谷歌仍然有一个小障碍。

TPU的自研从2015年开始，能够在15个月内快速部署到数据中心，同时实现快速迭代性能飙升。

除了谷歌研究人员夜以继日地工作之外，另一家公司提供的帮助也极其重要。

根据摩根大通分析师 Harlan Suhr 2016 年的一份报告，谷歌 TPU v1 到 v4 各代都是由 Broadcom 共同设计的。

当时，它已经开始使用7nm工艺生产TPU v4，并开始与谷歌合作使用5nm设计。

Process 的 TPU v5 Sur 表示，博通的专用集成电路（ASIC）业务全年营收为 7.5 亿美元，高于 2017 年的 7.5 亿美元。

除了芯片设计外，博通还为谷歌提供关键知识产权并负责步骤Broadcom 不仅负责制造、测试和封装新芯片以供应 Google 的新数据中心，还与 Facebook、微软和 AT&T 等其他客户合作设计 ASIC 芯片。

根据博通今年的财报，它将ASIC收入分为两部分：路由交换和计算卸载。

计算卸载在数据中心分两步处理。

当计算请求到来时，路由器和交换机决定数据中心的哪个部分应该处理工作。

一旦做出决定，处理器（通常是 CPU 或 GPU，如 Nvidia 设计的处理器）就会进行计算，然后由这些路由器和交换机通过互联网或专用网络再次发送回最终用户。

按营收计算，博通是全球第二大人工智能芯片公司，仅次于英伟达，其 ASIC 销售额达数十亿美元，这是谷歌响应微软与 OpenAI 合作而加大 TPU 部署的结果。

仅一个谷歌 TPU 就使博通 ASIC 收入翻了四倍多。

谷歌没有向英伟达缴纳的人工智能税以另一种形式进入了博通的口袋。

不管是哪家公司，都不会愿意继续交这笔钱。

因此，今年9月，有消息称谷歌准备在年前结束与博通的合作关系。

消息人士称，谷歌高管已经制定了放弃计划。

在两家公司在 TPU 芯片定价问题上陷入长达数月的僵局后，博通的目标转向了其竞争对手 Marvell。

虽然后来谷歌官方出面辟谣，称目前没有计划改变与博通的合作关系，但众所周知，两家公司私下不和。

谷歌在TPU上做了一个聪明的计算。

当微软等巨头乖乖掏钱的时候，又拿出了TPU v5p来对抗Nvidia。

但没想到的是，几年前还不起眼的 ASIC 合作，如今却成为了 TPU 发展的最大绊脚石。

只要扩大TPU的部署规模，博通就不得不继续加钱。

这么一想，豪门确实可以逃过初一年级，但逃不掉十五年级。

他们可以逃脱Nvidia GPU 70%的利润，但他们无法逃脱像博通和微软这样的合作伙伴公司。

他们想要开发人工智能芯片。

省钱，以后难免会遇到像Google今天这样的困难。

【本文由投资界合作伙伴微信公众号授权：半导体行业观察者。

谷歌自研芯片帝国

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

站长声明

标签：

上一篇：成都锐成芯微拟登陆科创板

下一篇：《2024年人工智能指数报告》系列文章三：技术性能

西格数据完成1000万元A+轮融资，国发创投领投

投资界消息，江苏西格数据科技有限公司（西格数据）近日宣布完成1000万元A+轮融资。本轮融资由国发创投领投，月牙湖创投跟投，月牙湖创投跟投。据了解，本轮融资资金将用于加强下一代边缘计算模块化产品的开发，为全面进军设备管理和智能工厂建设做好准备。西格数据成立于

06-17
芯业科技：2020年第四季度营收18.53亿元，同比增长50.3%

芯业科技公布了第四季度及全年财报。财报显示，今年第四季度，芯业科技营收18.53亿元，同比增长50.3%；净利润为4.97亿元，去年同期为4.13亿元。

06-17
考拉基金完成二期募资，规模10亿元

投资界8月18日消息，据36氪报道，考拉基金近日完成二期募资，规模10亿元10亿元人民币。本次募资的投资方包括：拉卡拉、北京市科技创新母基金、海淀区科技创新基金母基金、国泰君安、北大基金会、联想控股等。考拉基金于年底成立。它由拉卡拉创始人和董事长孙陶然创立，并由

06-17
临沂宠物产业蓬勃发展

投资圈——城市广告牌来到了山东临沂，这是山东人口最多、面积最大的地级市。临沂被誉为“物流之都”、“中国木业之都”。近年来，以木业、机械、食品、冶金、医药为代表的八个传统产业面临转型压力，而其所在的鲁南经济圈也面临“人口多、基础薄、实力弱”的挑战。产业基

06-18
滴滴上线“全聚”系统，提供一站式“网约车金融”服务

近日，滴滴金融服务推出一站式“网约车金融”服务平台“全聚”系统。该系统利用滴滴金融独特的账户管理和大数据风控能力，更高效地为出行生态内的合作伙伴提供量身定制的金融服务。 “全聚”联合汽车融资租赁公司丰邦、多家出资方、保险公司等合作伙伴，服务于出行行业中间

06-18
阿里发布了一体机：2GB内存，却可以刷抖音，同时用Pr剪视频

去年9月17日，阿里云第一台无影云电脑发布。您只需携带身份证，将C-Key卡连接到屏幕，即可进入专属云电脑桌面，访问各种应用文件。但由于这款产品主要用于商业用途，所以评测内容很少。网上的信息大多是2016年云栖大会上阿里云智能总裁和张建锋的介绍，让人充满好奇。 ▲

06-21
58速运完成首期融资2.5亿美元，华新投资领投

据投资界7月13日消息，短途货运平台58速运昨日（7月12日）确认已完成融资首期融资2.5亿美元。由华新投资领投，菜鸟、中俄基金、宏润资本、前海母基金及母公司到家集团跟投。 58快报创始人、董事长陈小华表示，完成融资后，公司将按照既定战略加大资金投入，增加竞争壁垒。　

06-18
中融安泰一年期债券募集失败，年内数量增至8只！

今日，中融基金发布公告，中融安泰一年期债券基金合约无法生效。截至目前，今年募集失败的基金数量增至8只，较去年同期的4只增加了一倍。

06-17
城市足球集团获银湖资本5亿美元投资，持股10%

据投资界11月30日消息，城市足球集团（CFG）与银湖资本签署最终协议，银湖资本Lake Capital将对其进行投资5年。股权投资1亿美元，投资后获得公司10%的股份。目前，城市足球集团估值约为48亿美元。今年12月，CMC Inc.中华文化集团牵头投资4亿美元收购城市足球集团13%股份，

06-18
金属3D打印公司“汉邦科技”完成新一轮数亿元融资

投资圈（ID：pedaily）据2月20日消息，汉邦科技完成新一轮数亿元融资元。本轮融资由中山创投、广发信德联合领投，深圳汇合资产跟投，云秀资本继续担任独家投资方。作为国内金属3D打印领军企业之一，汉邦科技在金属打印设备、设备核心部件、软件和材料方面实现了全面布局，并

06-18
“乐凡”完成千万元A轮融资，百度领投

投资圈（ID：pedaily）7月30日消息，据36氪报道，“乐凡”近日完成千万级融资-元A轮融资由百度领投，鼎翔资本跟投。本轮资金将用于品牌营销、营销及产品研发。此前，公司还获得了小米、顺为领投的Pre-A轮融资。 “乐凡”成立于2008年，孵化于按摩器材产业集团奥嘉华。专注

06-18
孙正义刚刚投资了一家中国独角兽

孙正义打破沉默，投资了一家中国公司。投资界8月17日获悉，全球最大童装DTC品牌PatPat今日宣布完成1.6亿美元D2轮融资，软银Vision独家投资。诞生于中国，这是PatPat短短一个月的又一轮融资——上个月，PatPat获得5.1亿美元C轮和D轮融资，投资人阵容豪华，刷新国内跨境电商。

06-18