西格数据完成1000万元A+轮融资,国发创投领投
06-17
这两天,AI再次登上各大媒体头条。
12月6日,谷歌正式公布了全新多模态大型号Gemini,该车型包括三个版本。
根据谷歌的基准测试结果,Gemini Ultra版本在多项测试中都展现出了“先进的性能”。
”,甚至在大多数测试中完全击败了 OpenAI 的 GPT-4。
在Gemini大出风头的同时,谷歌还投下了另一重磅炸弹——全新自研芯片TPU v5p,这也是迄今为止最强大的TPU。
根据官方数据,每个TPU v5p Pod通过最高带宽的芯片间互连(ICI)将8个芯片以三维环形拓扑结构组合在一起,速度为4,Gbps/芯片,与TPU v4类似。
相比之下,TPU v5p的FLOPS和高带宽内存(HBM)分别提高了2倍和3倍。
此外,TPU v5p 训练大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍,而借助第二代 SparseCore,TPU v5p 训练嵌入密集模型的速度比 TPU v4 快 1.9 倍。
就每个 Pod 的总可用 FLOP 数而言,TPU v5p 的可扩展性也比 TPU v4 高出 4 倍,每秒浮点运算数 (FLOPS) 是 TPU v4 的两倍,单个 Pod 中的芯片数量是 TPU v4 的两倍,大大提高了训练的相对性能速度。
谷歌还招募了一批科学家来认可 TPU v5p 的 AI 性能:Salesforce 的高级研究科学家 Erik Nijkamp 表示:“我们一直在使用 Google Cloud TPU v5p 来预训练 Salesforce 的基础模型,并且这些模型将用作专业生产用例。
核心引擎方面,我们看到了训练速度的显着提升,事实上,Cloud TPU v5p 的计算能力是上一代 TPU v4 的两倍。
我们也非常喜欢使用 JAX 从 Cloud TPU v4 到 v5p 的无缝且轻松的过渡。
。
我们很高兴能够通过精确量化训练 (AQT) 库对 INT8 精确格式的本机支持来优化我们的模型,以进一步提高速度。
Lightricks 核心生成式人工智能研究团队负责人 Yoav HaCohen 博士表示:“利用 Google Cloud TPU v5p 的*性能和充足内存,我们成功训练了文本到视频生成模型,而无需将其拆分为这种前所未有的硬件利用率大大加快了每个训练周期,使我们能够快速启动一系列实验,在每个实验中快速训练模型的能力促进了快速迭代,这对于我们的研究团队在竞争激烈的领域来说是一个宝贵的优势。
” 生成式人工智能 谷歌 DeepMind 和谷歌研究院首席科学家 Jeff Dean 也支持自己的芯片:“在早期使用中,谷歌 DeepMind 和谷歌研究院观察到,使用 TPU v5p 芯片的LLM训练工作量的速度比其他芯片高出 2 倍。
对 ML 框架(JAX、PyTorch、TensorFlow)和编排工具的强大支持使我们能够在 v5p 上更有效地进行扩展,我们还看到嵌入式工作负载的性能显着提高。
TPU 对于我们针对 Gemini 等尖端模型的最大规模研究和工程工作至关重要。
“对于 Google 来说,Gemini 是应对 Open AI 的有力工具,而 TPU v5p 则是敲门砖,用它筑起一道对抗 Nvidia GPU 的高墙。
无论是软件还是硬件,看起来它已经在 AI 领域了?问题是,谷歌为何拥有现在的优势?从默默无闻到闻名全球,谷歌的 TPU 之旅实际上是在十年前开始的。
2008年就考虑过建立神经网络,但到了2016年,情况变得紧迫,谷歌科学家开始意识到,神经网络快速增长的计算需求与谷歌负责人杰夫·迪恩(Jeff Dean)的数量之间存在着不可调和的矛盾。
当时的AI计算得出,如果1亿Android用户每天使用手机语音转文字服务3分钟,所消耗的算力将是Google所有数据中心总算力的两倍,而全球Android用户远远超过1亿。
数据中心的规模无法无限扩大,谷歌也无法限制用户使用服务的时间,但无论是CPU还是GPU都很难满足谷歌的需求:CPU一次只能处理相对较小的数据量。
对于任务来说,GPU在执行单个任务时效率较低,并且它可以处理的任务范围较小。
自研成了最后的出路。
谷歌设定了一个小目标:构建一个以机器学习为目的的领域特定计算架构(Domain-specific Architecture),并将深度神经网络推理的总拥有成本(TCO)降低到其十分之一。
原始值。
通常,ASIC的开发需要数年时间,但谷歌仅用了15个月就完成了TPU处理器的设计、验证、制造和部署到数据中心。
TPU 项目的技术负责人、MIPS 处理器的主要架构师之一 Norm Jouppi 这样描述冲刺阶段:“我们非常快地设计了芯片。
这真的很了不起。
我们在没有修复错误或更改掩模的情况下做到了这一点接下来,我们开始运送第一个芯片,同时还聘请了团队,然后聘请了 RTL(电路设计)人员,并急于聘请设计验证人员,这一切都非常忙碌。
” Crystallized 的第一代 TPU 采用 28 纳米工艺制造,运行频率为 MHz,运行期间功耗 40W。
Google将处理器封装成外置加速卡,安装在SATA硬盘插槽中,实现即插即用。
TPU通过PCIe Gen3 x16总线连接到主机,提供12.5GB/s的有效带宽。
与CPU和GPU相比,单线程TPU不具有任何复杂的微架构特征。
极简主义是特定领域处理器的优势。
谷歌的TPU一次只能运行一项任务:神经网络预测,但每瓦性能却达到了GPU的30倍,CPU的80倍。
谷歌在此事上非常低调。
直到2019年的谷歌I/O开发者大会上,CEO Sundar Pichai才正式向世人展示了自己在TPU方面的研究成果。
Pichai告诉与会嘉宾,DeepMind开发的AlphaGo能够击败韩国棋手李世石,底层硬件中的TPU功不可没。
TPU就像希腊神话中引发特洛伊战争的女人海伦一样。
它的出现引起了“大人……成千上万的芯片与之竞争”。
但谷歌并没有就此止步。
几乎在第一代TPU完成后,它立即投入下一代的开发:2018年,TPU v2问世; 2018年,TPU v3推出; 2016 年,TPU v4 在 Google I/O Developers 大会上揭晓……而 Google 对 AI 芯片也越来越驾轻就熟:第一代 TPU 仅支持 8 位整数运算,这意味着它可以进行推理,但训练遥不可及;而且TPU v2不仅引入了HBM内存,还支持浮点运算,从而支持机器模型的训练和推理; TPU v3在上一代的基础上重点增强性能,并将Pod中部署的芯片数量增加了四倍。
谈到TPU v4,皮查伊自豪地说:“AI技术的进步取决于计算基础设施的支持,而TPU是谷歌计算基础设施的重要组成部分。
新一代TPU v4芯片的速度是v3的两倍以上”。
谷歌使用TPU集群来构建Pod超级计算机。
单个 TPU v4 Pod 包含 v4 芯片。
每个Pod的芯片间互连带宽是其他互连技术的10倍。
因此,一个TPU v4 Pod的计算能力可以达到1 ExaFLOP。
,即每秒执行10的18次方浮点运算,相当于10000台笔记本电脑的总算力。
”如今,TPU已经成为AI芯片的代名词之一,成为继CPU和CPU之后的又一芯片。
GPU。
它是一个重要的处理器,部署在谷歌数十个数据中心,每天完成数亿次的AI计算任务。
谷歌自研帝国TPU只是谷歌自研的前奏。
在 2017 年的大会上,谷歌推出了一款名为 Titan 的定制安全芯片,该芯片专为硬件级云安全而设计,通过为特定硬件建立加密身份来实现更安全的识别和身份验证,防止日益猖獗的 BIOS 攻击。
对于谷歌本身来说,谷歌表示,自主研发的Titan芯片建立了强大的基于硬件的系统身份,这似乎让企业相信存储在谷歌云中的数据比企业本地数据中心更安全。
验证系统固件和软件组件并保护启动过程,这一切都得益于谷歌自己创建的硬件逻辑,从根本上降低了硬件后门的可能性。
基于 Titan 的生态系统还确保设施仅使用经过授权且可访问的验证代码,最终使 Google Cloud 比本地数据中心更加安全可靠。
泰坦的出现只是一个小小的考验。
今年3月,谷歌在ASPLOS大会上首次推出了用于YouTube服务器的自研芯片Argos VCU。
它的任务很简单,就是处理用户上传的视频。
转码。
据统计,用户每分钟向 YouTube 上传超过一个小时的各种格式的视频内容,而 Google 需要快速将这些内容转换为多种分辨率(包括 p, p, p, p, p, p, p , p 和p) 和各种格式(例如,H.、VP9 或 AV1)。
如果没有强大编码能力的芯片,就不可能快速转码。
谷歌尝试了两种解决方案。
第一个是英特尔的视觉计算加速器(VCA),它包含三个Xeon E3 CPU,内置Iris Pro P/PGT4e集成图形核心和先进的硬件编码器。
第二个使用英特尔至强处理器加上软件编码来完成工作。
但前者和后者都需要巨大的服务器规模和巨大的功耗。
因此,谷歌开始了另一款自研芯片——VCU的研发。
负责监督 YouTube 庞大基础设施的谷歌工程副总裁 Scott Silver 表示,从 2016 年开始,一个由约 10 万名谷歌工程师组成的团队致力于设计第一代 Argos 芯片。
在接下来的几年里,这个团队不仅完成了研发,还将该芯片应用在了谷歌的数据中心,Argos的实力也得到了展现——它的视频处理效率比传统的高出20到33倍。
服务器,处理高分辨率4K视频的时间缩短了几秒。
几天缩短为几个小时。
下一代Argos可能已经在谷歌服务器上悄然上线。
据介绍,谷歌自主研发的第二代VCU将支持AV1、H.和VP9编解码器,可以进一步提高其编码技术的效率,也将为YouTube的内容创作生态提供最有力的支持。
而谷歌最强的举动就是最复杂的手机SoC。
2019年10月19日,在一场秋季发布会上,搭载谷歌自研芯片Tensor的旗舰手机Pixel 6系列首次亮相。
谷歌高级副总裁 Rick Osterloh 在发布会上表示,这款芯片是“公司历史上最大的移动硬件创新”,谷歌首席执行官 Sundar Pichai 甚至早早在 Twitter 上发布了 Tensor 芯片的照片。
对这项研究项目的自豪感是显而易见的。
不过,这款自研芯片本质上是基于三星在2018年开启的半定制芯片设计服务。
在TechInsights的拆解图中,Tensor的封装尺寸为10.38mm x 10.43mm = .26mm 2,内部芯片标记为“S5P”符合传统的三星Exynos处理器命名规则。
例如,Exynos芯片标记为S5E,Exynos 5G SoC芯片标记为S5E。
它本质上是一款由谷歌定义、由三星设计和制造的芯片。
即便如此,谷歌自研芯片的布局已经初具规模。
从TPU到Titan,从VCU到Tensor,谷歌走过了十年历程,全面掌握这个硅芯片帝国的野心也很明确。
揭示。
谷歌的智能账户和绊脚石 对于谷歌来说,需要资金、技术和应用场景。
可以说,在各大科技巨头中,它在自研AI芯片的道路上走得最远。
其他厂商仍在向英伟达账户注入资金,但谷歌已经做好了这两方面的准备。
很多人甚至将其视为英伟达目前垄断地位的最强挑战者。
与微软和亚马逊相比,谷歌最突出的优势是从系统级角度设计TPU。
单芯片固然重要,但在现实世界的系统中如何组合使用更重要。
尽管英伟达也从系统角度思考,但他们的系统比谷歌更小、范围更窄。
谷歌还在 TPU 之间使用自定义网络堆栈 ICI。
与昂贵的以太网和 InfiniBand 部署相比,该链接提供低延迟和高性能,类似于 Nvidia 的 NVLink。
事实上,谷歌的 TPUv2 可以扩展到 TPU 芯片,与 Nvidia 的 HGPU 数量相同。
在 TPU v3 和 TPU v4 中,该数字分别增加到 和 。
据 Trendline 称,最新的 TPU v5p 可以扩展到 2 个芯片,而无需通过低效的以太网。
此外,Google在OCS、拓扑、DLRM优化等方面也有独特的优势。
过去十年积累的经验和优势,帮助谷歌的TPU在数据中心和AI大模型方面大显身手。
在具体应用中,可以远程使用*来形容也不为过。
谷歌未来完全摆脱NVIDIA GPU的束缚也不是没有可能。
然而,谷歌仍然有一个小障碍。
TPU的自研从2015年开始,能够在15个月内快速部署到数据中心,同时实现快速迭代性能飙升。
除了谷歌研究人员夜以继日地工作之外,另一家公司提供的帮助也极其重要。
根据摩根大通分析师 Harlan Suhr 2016 年的一份报告,谷歌 TPU v1 到 v4 各代都是由 Broadcom 共同设计的。
当时,它已经开始使用7nm工艺生产TPU v4,并开始与谷歌合作使用5nm设计。
Process 的 TPU v5 Sur 表示,博通的专用集成电路(ASIC)业务全年营收为 7.5 亿美元,高于 2017 年的 7.5 亿美元。
除了芯片设计外,博通还为谷歌提供关键知识产权并负责步骤Broadcom 不仅负责制造、测试和封装新芯片以供应 Google 的新数据中心,还与 Facebook、微软和 AT&T 等其他客户合作设计 ASIC 芯片。
根据博通今年的财报,它将ASIC收入分为两部分:路由交换和计算卸载。
计算卸载在数据中心分两步处理。
当计算请求到来时,路由器和交换机决定数据中心的哪个部分应该处理工作。
一旦做出决定,处理器(通常是 CPU 或 GPU,如 Nvidia 设计的处理器)就会进行计算,然后由这些路由器和交换机通过互联网或专用网络再次发送回最终用户。
按营收计算,博通是全球第二大人工智能芯片公司,仅次于英伟达,其 ASIC 销售额达数十亿美元,这是谷歌响应微软与 OpenAI 合作而加大 TPU 部署的结果。
仅一个谷歌 TPU 就使博通 ASIC 收入翻了四倍多。
谷歌没有向英伟达缴纳的人工智能税以另一种形式进入了博通的口袋。
不管是哪家公司,都不会愿意继续交这笔钱。
因此,今年9月,有消息称谷歌准备在年前结束与博通的合作关系。
消息人士称,谷歌高管已经制定了放弃计划。
在两家公司在 TPU 芯片定价问题上陷入长达数月的僵局后,博通的目标转向了其竞争对手 Marvell。
虽然后来谷歌官方出面辟谣,称目前没有计划改变与博通的合作关系,但众所周知,两家公司私下不和。
谷歌在TPU上做了一个聪明的计算。
当微软等巨头乖乖掏钱的时候,又拿出了TPU v5p来对抗Nvidia。
但没想到的是,几年前还不起眼的 ASIC 合作,如今却成为了 TPU 发展的最大绊脚石。
只要扩大TPU的部署规模,博通就不得不继续加钱。
这么一想,豪门确实可以逃过初一年级,但逃不掉十五年级。
他们可以逃脱Nvidia GPU 70%的利润,但他们无法逃脱像博通和微软这样的合作伙伴公司。
他们想要开发人工智能芯片。
省钱,以后难免会遇到像Google今天这样的困难。
【本文由投资界合作伙伴微信公众号授权:半导体行业观察者。

本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-18
06-17
06-18
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态